近日,数据科学与人工智能研究院人工智能研究中心成果"Beyond Human Perception: Understanding Multi-Object World from Monocular View"被CVPR 2025接收,标志着我校首次实现计算机视觉领域国际顶会CVPR的论文突破。CVPR是计算机视觉与模式识别领域最权威的国际顶级学术会议之一,与ICCV、ECCV并称为计算机视觉领域的国际三大顶会,是中国计算机学会(CCF)推荐的A类国际会议。
论文由数智院人工智能研究中心孙士杰副教授、宋翔宇副教授合作发表,其他作者包括:长安大学博士生郭柯宇、研究生黄永乐、长安大学教授李建新、西安电子科技大学副教授冯明涛、墨尔本大学教授Naveed Akhtar、西澳大学教授Ajmal Saeed等,长安大学为第一作者和通讯作者单位。
该研究首次聚焦并深入研究了单目视觉下的三维场景理解难题:通过构建具有空间感知能力的视觉-语言联合表征模型,突破传统单目视觉系统在复杂场景理解中的维度缺失瓶颈。针对现有方法在跨模态对齐和空间推理方面的不足,研究团队创新性地提出基于状态提示的视觉编码器(SPVE)和去噪对齐融合(DAF)模块,有效解决了单目图像深度信息缺失带来的几何歧义问题,实现了对多物体三维空间关系的精准定位。实验表明,该方法在自建的MonoMulti3D-ROPE数据集上相比现有最优模型提升显著,平均定位精度达到72.3%,较基线方法提升19.6个百分点。

图1:MonoMulti3D-ROPE数据集构建流程

图2:CyclopsNet模型架构示意图
近年来,人工智能研究中心围绕交通大模型、三维视觉理解、多模态语义推理、智能驾驶场景认知等方面,展开了一系列系统性研究工作,相关成果已陆续发表于ECCV、ITS、TCSVT、TPAMI等国际顶级会议和期刊,取得了学术界和工业界的广泛关注,国内外学术声誉不断提高,影响力不断扩大,为研究院的学科发展和科研团队建设做出了积极贡献。