Meta刚刚开源DINOv3,横扫60+任务,无标注封神
发布时间:2025-08-15 08:06 浏览量:2
今天凌晨,全球社交、科技巨头meta开源了,最新视觉大模型DINOv3。
DINOv3的主要创新使用了自我监督学习,无需标注数据就能大幅度降低训练所需要的时间和算力资源。并且与前一代相比,DINOv3的训练数据大12倍扩大至17亿张图像以及大7倍的70亿参数。
根据测试数据显示,DINOv3在图像分类、语义分割、单目深度估计、3D理解、实例识别、视频分割跟踪、视频分类等10大类,60多个子集测试中全部都非常出色,超越了同类开、闭源模型。可帮助医疗保健、环境监测、自动驾驶汽车、航空航天等解锁更多的用例。
开源地址:https://huggingface.co/collections/facebook/dinov3-68924841bd6b561778e31009
网友表示,这么优秀的视觉模型应该集成在Llama大语言模型中,因为它现在视觉能力有点糟糕啊。
DINOv3凭借70亿参数横扫视觉模型领域。
万万没想到 DINOv2 模型还能出后续版本。但它的出现无疑是受欢迎的。
DINOv3就像一个统领所有任务的视觉模型,强大、通用,且无需微调。
这看起来增强了单目深度估计能力。这对我的野火管理项目非常有用!
希望这些改进能增强 Marigold 模型,或者催生一个更出色的模型。
我觉得现在我终于可以让我的算法仅通过观察屏幕就开始玩游戏了。不必再去寻找能提供特征状态空间的环境了。
看起来好太多了,meta的AI团队已经沉寂了一段时间,希望这能成为他们的一款翻身之作。
DINOv3简单介绍
DINOv3在模型架构上采用定制化的Vision Transformer,拥有70亿参数。相比DINOv2的ViT-giant,其嵌入维度从1536提升至4096,注意力头数从24增至32,前馈网络隐藏维度从4096扩展到8192,并采用旋转位置嵌入替代可学习嵌入,使模型能自适应不同分辨率输入。
同时,取消余弦调度,改用恒定超参数调度,解决了大规模训练中优化周期难以预估的问题。
针对长时间训练中密集特征图退化的问题,DINOv3创新提出Gram锚定技术。该技术的核心原理是强制学生模型的特征Gram矩阵与早期训练阶段的“教师模型”保持一致,通过计算两者差异作为损失,确保特征间的相似性结构稳定,而非强制特征值本身一致。
为进一步优化,DINOv3将高分辨率图像(512×512)输入教师模型,通过双三次插值下采样至学生模型输出尺寸,使平滑后的特征保留更精细的空间信息。
在训练阶段设计上,于100万次迭代后启动Gram锚定优化,每10k次迭代更新一次教师模型。结果显示,密集任务性能在引入该技术后10k次迭代内即显著提升,有效解决了密集特征退化难题。
为提升模型的实用性与部署灵活性,DINOv3引入了三大后处理优化策略。高分辨率适配通过混合分辨率训练,全局crop尺寸512/768,局部crop尺寸112/168等,使模型在4096×4096等高分辨率输入下仍保持特征稳定性。测试显示,适配后模型在1024×1024分辨率下的语义分割性能提升15%。
知识蒸馏将70亿参数模型的知识蒸馏到更小的变体中,形成包含ViT-S、ViT-B、ViT-L及ConvNeXt(T/S/B/L)的模型家族,其中ViT-H+(8.4亿参数)性能接近70亿参数模型,而ConvNeXt-L在资源受限场景下效率提升3倍。
文本对齐方面,冻结视觉主干网络,训练文本编码器与视觉特征对齐,支持零样本任务,在COCO图像-文本检索任务中,图像到文本的Recall@1达到84.7%。
这些后处理策略极大地扩展了DINOv3的应用场景,使其能适应从边缘设备到高性能服务器的多种部署环境。
DINOv3在60多个视觉任务测试中表现非常出色,大幅度超越了同类模型。以语义分割任务来说,在 ADE20k 数据集里,其线性探针的mIoU达到了55.9,远超DINOv2的49.5以及SigLIP 2的42.7。
在Cityscapes数据集的测试中,DINOv3的mIoU达到81.1,超过了AM-RADIOv2.5的78.4和PEspatial的73.2。在深度估计任务中,面对NYUv2数据集,DINOv3的RMSE低至0.309,优于DINOv2的0.372和PEspatial的0.362;在KITTI数据集中,RMSE为2.346,相较于DINOv2降低了0.278,与专门的深度估计模型Depth Anything V2的性能差距极小。
在3D关键点匹配任务方面,在NAVI数据集中,DINOv3的召回率达到64.4%,超过DINOv2的60.1%和AM-RADIOv2.5的59.4%;在SPair数据集中,其召回率为58.7%,领先同类模型2–5个百分点。
在全局任务领域,DINOv3同样打破了自监督模型之前的性能瓶颈。在图像分类任务中,于ImageNet1k数据集上,线性探针准确率达到88.4%,与PEcore的89.3%和SigLIP 2的89.1%相差无几;在跨分布泛化测试中,ObjectNet数据集准确率为79.0%,略低于PEcore的80.2%,但远超DINOv2的66.4%。
在细粒度分类任务中,iNaturalist 2021数据集(物种识别)上,其准确率高达89.8%,超过PEcore的87.0%和DINOv2的86.1%;在Fine-S数据集(12个细粒度任务平均)中,准确率为93.0%,已达到弱监督模型的水平。
在实例检索任务中,Oxford-Hard数据集的mAP为60.7,显著高于DINOv2的58.2和SigLIP 2的25.1;在阿姆斯特丹历史影像匹配任务中,mAP达到56.5,相较DINOv2提升了7.6个百分点。
DINOv3在视频与3D任务中也展现出强大的迁移能力。在视频分割跟踪任务中,DAVIS 2017数据集上,DINOv3达到83.3(高分辨率),远超DINOv2的76.6和PEspatial的70.5。从多分辨率测试结果看,其性能随输入分辨率提升而稳定增长,而对比模型在高分辨率下性能反而下降。
在3D理解任务中,结合VGGT框架,在DTU多视图深度估计中,整体误差为0.368,优于原始VGGT的0.382;在ScanNet视图匹配任务中,AUC@10达到56.1,超过SuperGlue的33.8和Roma的53.4。
在遥感与地理空间任务方面,DINOv3表现同样亮眼。在树冠高度估计任务中,Open-Canopy数据集,其MAE为2.02米,优于Tolan et al.的2.42米和DINOv2的2.17米;在肯尼亚地区的实际应用中,树冠高度测量误差从DINOv2的4.1米大幅降至1.2米。
在地理语义任务中,GEO-Bench数据集(包含12个遥感分类/分割任务)的平均准确率为81.6%,超过Prithvi-v2的79.6%和DOFA的79.9%;在LoveDA土地覆盖分割任务中,mIoU达到56.2,刷新了此前由BillionFM保持的54.4纪录。