摄影艺术居

摄影艺术居

计算机视觉界“奥斯卡”揭榜!华人霸榜CVPR 2025,突破3D视觉瓶颈

admin 99 43

智东西

编译|王涵

智东西6月16日消息,上周五,IEEE计算机学会(CS)与计算机视觉基金会(CVF)联合公布了2025年计算机视觉与模式识别会议(CVPR)获奖论文及本年度AI艺术奖项。本次公布的7篇获奖论文全部都有华人科研人员参与其中,其中2篇文章由全华人团队完成。尤为亮眼的是,斩获“CVPR2025最佳论文”的成果同样出自华人研究员之手。

CVPR是IEEE国际计算机视觉与模式识别会议(IEEE/CVFConferenceonComputerVisionandPatternRecognition)。它是计算机视觉和模式识别领域最重要的年度国际会议之一,被公认为该领域的顶级盛会,许多人甚至称其为计算机视觉界的“奥斯卡”。

一、CVPR2025最佳论文:华人一作,多项3D任务达最先进水平

该文章提出VGGT(视觉几何基础Transformer),能够直接从单视角、多视角乃至上百个视角中推断场景的所有关键3D属性,包括相机参数、点云图、深度图和3D点轨迹。该方法推动了3D计算机视觉领域的发展,传统模型通常局限于单一任务且需要专门优化。

VGGT不仅结构简洁高效(图像重建耗时不足1秒),其性能更超越了需要视觉几何优化技术进行后处理的替代方案。该网络在多项3D任务中达到最先进水平,包括相机参数估计、多视角深度估计、稠密点云重建和3D点追踪。实验表明,将预训练的VGGT作为特征骨干网络,可显著提升非刚性点追踪和前馈式新视角合成等下游任务的性能。

二、CVPR2025最佳学生论文:根据物理规律逆向渲染,可屏蔽反射光干扰三、荣誉提名奖项:华为和北大浙大的全华团队夺得最佳学生论文提名

荣誉提名奖项授予那些在质量上仅次于最佳论文,但同样非常优秀且具有显著影响力的论文。它表明这些论文虽然不是最终的“第一名”,但其研究成果和贡献也得到了高度认可。

其中共有4篇论文获得最佳论文荣誉提名,1篇论文获得最佳学生论文提名,分别是:

1、最佳论文荣誉提名

在熟悉环境中,NWM可通过轨迹模拟与目标达成度评估自主规划路径。与传统固定行为的监督式导航策略不同,NWM能在规划过程中动态整合约束条件。实验证明其具备两种核心能力:(1)从零开始规划轨迹;(2)对外部策略采样轨迹进行择优。更突出的是,NWM能基于单张输入图像,利用学习到的视觉先验对陌生环境进行轨迹推演,这使其成为新一代导航系统中兼具灵活性与强大性能的工具。

该团队提出Molmo系列模型。核心突破在于PixMo数据集组合:包含用于预训练的精细化图像描述数据集、用于微调的自由格式图像问答数据集,以及创新的2D指向数据集,所有数据均未借助外部VLM生成。该方案的成功取决于三个要素:(1)精细的建模选择;(2)优化充分的训练流程;(3)最关键的新建数据集质量。他们提出的72B旗舰模型不仅超越同类开源模型,更在学术基准和大规模人工评估中胜过、/Flash等商业大模型,性能仅次于GPT-4o。

该团队提出了一个由灵活的学生t分布(Student’stdistributions)组成的新混合模型,该模型同时包含正密度(溅射)和负密度(舀取)。此模型被命名为“学生溅射与舀取”(StudentSplattingandScooping),简称SSS。通过在多个数据集、设置和指标上进行的详尽评估与比较,该团队证明了SSS在质量和参数效率方面均优于现有方法。例如,在使用相似数量组件的情况下,SSS能达到同等或更优的质量;并且在将组件数量减少高达82%的情况下,仍能获得可比较的结果。

2、最佳学生论文荣誉提名

多模态大语言模型(MLLM)的最新研究致力于通过结合LLM与扩散模型(分别为各自任务中的前沿技术)来实现视觉理解与生成的统一。现有方法依赖于空间视觉tokens,即图像块按空间顺序(如光栅扫描)编码排列。但研究发现,空间tokens缺乏语言固有的递归结构,导致LLM难以掌握这种“非语言化”表征。

该研究提出通过扩散时间步长学习离散递归视觉tokens,可随时间步长递增递归补偿噪声图像的渐进属性损失,使扩散模型能在任意时间步重建原始图像。该方法有效融合了LLM自回归推理优势与扩散模型精确图像生成能力,在统一框架内实现了无缝多模态理解与生成。大量实验表明,相比其他MLLMs,该模型在多模态理解与生成任务上同步取得了更优性能。

四、让AI与艺术对话,全华人团队获奖

除技术研究外,CVPRAI艺术项目(AIArtProgram)探索科学与艺术的交叉领域,征集运用计算机视觉技术(包括生成模型、物体与面部识别等)的创作作品。今日公布的获奖作品从100余件入选作品中脱颖而出:

1、TomWhite的《AtlasofPerception(感知图册)》,通过探索神经网络的潜空间(latentspace),揭示视觉模型的“视觉词汇”。该雕塑作品解析机器如何理解世界,展现外观本身的语法规则:视觉的模块化语义。

2、MasaruMizuochi的《GreenDiffusion(绿色扩散)》,将土壤微生物分解物质为养分的“破坏”过程,与AI扩散模型(diffusionmodel)的加噪去噪“创造”过程并置,凸显二者的同步性。

AI艺术项目策展人LubaElliott评价称:“AI与艺术交汇处蕴藏丰富素材,本项目鼓励艺术家持续探索其潜力。祝贺所有获奖者及参与者对当下图景的深刻诠释。”

结语:华人正站在世界AI研究前沿

此次CVPR2025大会上,科技巨头Meta和谷歌都没有缺席领奖台,华为的研究团队也获得了荣誉提名。除此之外,华人在获奖论文中的参与度让人十分惊喜。

华人在CVPR2025上的超高“出镜率”凸显了华人在全球计算机视觉与模式识别领域的卓越贡献,多篇获奖论文及成果也彰显了中国在全球AI发展进程中日益增长的影响力。