近日,数据科学与人工智能研究院李伟教授团队论文《SynthRGB-T: Language-Vision Guided Image Translation for Diversity Synthesis》被计算机视觉领域国际顶级学术会议CVPR 2026正式录用。CVPR(IEEE/CVF Conference on Computer Vision and Pattern Recognition)是计算机视觉和人工智能领域最具学术影响力的顶级会议之一。本届会议将于2026年6月3日—7日 在美国科罗拉多州丹佛市举行。论文通讯作者为李伟教授、赵原林博士,第一作者为丁健刚博士。该研究由长安大学与香港理工大学联合完成。长安大学为该论文的第一作者和通讯作者单位。

文章简介:弥合红外图像与可见光图像之间的模态差异,对于实现跨模态理解及丰富多模态基准数据具有重要意义。然而,现有研究方法多局限于一对一映射范式,且通常仅在单向或封闭场景中进行评估,难以满足复杂开放环境下的多样化需求。针对上述问题,论文将图像转换过程创新性地表述为一种由视觉与语言共同引导的去噪扩散过程。通过引入开放世界知识,实现了可控的双向图像翻译。此外,所提出的SynthRGB-T模型能够合成多样性强且高保真度的数据样本,显著拓展了多模态数据资源的规模与丰富度,为多模态领域后续研究提供了有力支撑。
第一作者:

丁健刚,长安大学2022级博士生,指导教师为李伟教授,主要从事多模态智能感知、视觉–语言模型与交通大模型相关研究。博士期间主持并结题《中央高校优博专项培育项目》、《研究生科研创新实践项目》各1项。以第一作者及通讯作者在CCF A、B类会议及中科院TOP期刊上发表学术论文16篇,获得2次博士研究生国家奖学金在内的16项获奖及荣誉。
通讯作者:

李伟,长安大学教授,博士生导师。国家公派访问学者(赴加拿大滑铁卢大学),世界交通运输大会交叉学科委员会委员,中国公路学会筑路机械分会理事,长期从事图像处理,智能交通与三维成像等领域的研究。主持国家自然科学基金面上项目、青年基金项目等多项横纵向研发课题。已发表各类高水平学术论文120余篇;获国家发明专利40余项;获得省部级科技奖6次;指导学生在省部级科技竞赛获奖10余次。