小扎亲自官宣Meta视觉大模型,自监督学习无需微调,多任务效果超Open
2023-04-19 10:38 来源:IT之家 阅读量:5826
无需文字标签,完全自监督的 Meta 视觉大模型来了!
小扎亲自官宣,发布即收获大量关注度 ——
在语义分割、实例分割、深度估计和图像检索等任务中,这个名叫 DINOv2 的视觉大模型均取得了非常不错的效果。
甚至有超过当前最好的开源视觉模型 OpenCLIP 之势。
虽然此前 Meta 就发布过自监督学习视觉大模型 DINO,不过这次 AI 识别图像特征的能力显然更进一步,准确分割出了视频中的主体:
换而言之,DINOv2 自己学会了找图像特征。
目前 Meta 官方不仅已经放出了开源代码,而且还给了网页版 Demo 试玩。有网友内涵:
什么叫开源,LLaMA,SAM,DINOv2 这才叫开源!
一起来看看,DINOv2 的效果究竟如何。
准确识别不同画风的同种物体
事实上,DINOv2 是基于上一代 DINOv1 打造的视觉大模型。
这个模型参数量是 10 亿级,也仍然是视觉 Transformer 架构,但与 DINO 不太一样的是,这次 DINOv2 在数据集上经过了精心挑选。
采用这类数据训练出来的视觉模型,效果如何?
这是 DINOv2 在 8 个视觉任务上的表现,包括语义分割、分类、深度估计等,其中橙色是自监督方法的效果,深粉色是弱监督方法的效果。
可以看见,经过自监督学习的视觉模型,表现上已经与经过弱监督学习的模型性能相当。
实际效果也不错,即便在一系列照片中,相同物体的画风并不相似,DINOv2 也能准确识别它们的特征,并分到相似的列表中。
如组中都具有翅膀的鸟和飞机、(b)组中的大象和大象雕塑、(c)组中的汽车和汽车玩具模型、(d)组中的马和涂鸦版马:
而且从 PCA图像效果来看,DINOv2 不仅能准确分类,还能用不同颜色标出它们“相同”的部分,例如象鼻都是绿色、车轮都是红色、马的尾巴是黄色等。
换而言之,DINOv2 能理解这些图像中的相似之处,就像人会形容飞机“看起来像一只鸟”一样。
目前 DINOv2 已经放出 Demo,我们也试了试它的实际效果。
Demo 直接可玩
据 Meta 介绍,这几个任务中,DINOv2 在大多数基准上超过了目前开源视觉模型中表现最好的 OpenCLIP。
我们先来看看深度估计的效果。
值得一提的是,在效果更好的情况下,DINOv2 运行的速度也比 iBOT 更快,相同硬件下只需三分之一的内存,运行速度就能比 DINOv2 快上 2 倍多。
这是 Meta 论文中与 OpenCLIP 在实际例子上的比较效果:
接下来是语义分割的效果,这里也先给出 Meta 论文中的数据对比情况:
那么,这样的自监督视觉大模型可以用在哪里?
从 Meta 给出的视频来看,目前有一些比较环保的用途,例如用于估计全球各地的树木高度:
除此之外,如同扎克伯格所说,DINOv2 还能被用于改善医学成像、粮食作物生长等。当然这里小扎还进一步强调:
可以被用于制作更具沉浸感的元宇宙。
嗯,看来 Meta 的元宇宙路线还将继续……
试玩 Demo 地址:
项目地址:
参考链接:
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
为您推荐
热门文章
-
紫光展锐推出智能穿戴芯片W217:采用OpenCPU架构和RTOS,支持
-
27.98万元起,AITO问界汽车推出M5智驾版:首发华为ADS2.0高
-
国家统计局:当前中国经济没有通缩下阶段也不会通缩
-
嘉实积极配置4月3日起开放申购
-
微软“更名部”出动:Office2016/2019部分内容更名至Offi
-
叩响数字门环 看透雕龙凤纹铜铺首衔环
-
跟爆肝游戏告别,到《合金弹头:觉醒》体验激爽闯关、快乐解压
-
酒吧模拟器《BrewpubSimulator》公布新预告,年内发售、支持
-
浏览器增强版ChatGPT无敌了?超强插件Monica,能聊能写效率Ma
-
中国智能手机品牌Q1在俄份额超7成,小米、realme、三星、苹果、传音