速看：CV圈又炸了？扎克伯格高调官宣Meta视觉大模型，分割检索无所不能

首页>资讯 > 正文

2023-04-19 00:20:16

来源：腾讯网

新智元报道

编辑：桃子拉燕

(资料图)

【新智元导读】Meta在CV领域又放了个大的！自监督+无需微调，计算机视觉又要不存在了？

继「分割一切」后，Meta再发DINOv2。

这还是小扎亲自官宣，Meta在CV领域又一重量级开源项目。

小扎也是高调表示，Meta一直致力于开源各种AI工具，而今天发布的DINOv2更是SOTA级别的模型。能在深度估计、语义分割、图像相似性比较等方面实现自监督训练。

小扎表示，用这个模型可以借助卫星图像生成不同大洲的森林高度。而在未来，还可以帮助医学成像、粮食产量等方面。

当然，最后小扎还不忘了自己的主打——元宇宙。他认为，DINOv2可以极大地加持元宇宙的建设，让用户在元宇宙中的沉浸体验更出色。

网友高声大呼，「计算机视觉再一次不存在了！」

效果演示

Meta在官网上放出了深度估计、语义分割和实例检索的案例。

深度估计：

对于不熟悉计算机视觉的朋友来讲，深度估计（Depth Estimation）可能是一个比较陌生的词汇。但其实，只要理解了其应用场景就能明白是什么意思了。

简单来说，对于2D照片，因为图像是一个平面，所以在3D重建时，照片中每一个点距离拍摄源的距离就至关重要。

这就是深度估计的意义。

右侧的图片中，相同的颜色代表距离拍摄点距离相同，颜色越浅距离越近。这样子整个图片的纵深就出来了。

再来看几组例子：

语义分割：

语义分割的含义比较简单。从字面上看，语义这个词在不同的语境下含义也不同。比如说，在语音识别领域，语义指的就是语音内容。而在图像领域，指的就是图片内容。

分割就是把一张图片中不同的部分用颜色标明，这样就清楚各部分之间的划分了。

有点像小时候玩过的涂鸦画本，在空白的轮廓图上给不同的部分上色。

当然还是有区别的，画本中同一部分我们也可以用不同的颜色来装饰。

如上图中，桥是一种颜色，河水是一种颜色，草地是一种颜色，远处的树又是一种颜色。

更多示例：

实例检索：

这个就更好理解了。上传图片到模型中，就可以从有茫茫多图片的库中找到类似的图片。

上图中的埃菲尔铁塔就是输入的图片，模型随后检索出了大量同题材的图片，风格各异。

DINOv2

论文地址：https://arxiv.org/pdf/2304.07193.pdf

看完了SOTA级别的演示，接下来我们来看一看藏在背后的技术突破。

要知道，自然语言处理中对大量数据进行模型预训练的突破，为计算机视觉中类似的基础模型开辟了道路。

这些模型可以通过产生多种用途的视觉特征，大大简化任何系统中的图像使用，无需微调就能在不同的图像分布和任务中发挥作用的特征。

这项工作表明，现有的预训练方法，特别是自监督方法，如果在来自不同来源的足够的数据上进行训练，就可以产生这样的效果。

Meta的研究人员重新审视了现有的方法，并结合不同的技术，在数据和模型的大小上扩展我们的预训练。

大多数技术贡献的是加速和稳定规模化的训练。在数据方面，Meta提出了一个自动管道，目的是建立一个专门的、多样化的、经过整理的图像数据集，而不是像自监督文献中通常所做的那样，建立未经整理的数据。

而在模型方面，研究人员用1B的参数训练了一个ViT模型，并将其提炼成一系列较小的模型，这些模型在大多数图像和像素级别上超过了现有的OpenCLIP在图像和像素层面上的基准。

与学习任务无关的预训练表征已经成为自然语言处理（NLP）的标准。人们可以照搬这些特征，不用进行微调，并在下游任务中取得了明显优于特定任务模型产生的性能。

这种成功被大量原始文本预训练所推动，如语言建模或单词向量，而不需要监督。

在NLP的这种范式转变之后，研究人员预计，计算机视觉中会出现类似的基础模型。这些模型能产生在任何任务中都能发挥作用的视觉特征。在图像层面，有图像分类，而在像素层面，则有分割（如上例）。

对这些基础模型的大多数努力都集中在文本指导的预训练上，即使用一种文本监督的形式来指导特征训练。这种形式的文本指导的预训练限制了可以保留的关于有关图像的信息，因为标题只包含图像中的表层信息，而复杂的像素级信息可能不会体现。

此外，这些图像编码器需要一一对应的文本&图像语料库。文本指导的预训练的一个替代方法，是自我监督学习，其特征是单独从图像中学习。这些方法在概念上更接近于语言建模等任务，并且可以在图像和像素层面上捕捉信息。

然而，自我监督学习的大部分进展都是在小型策划数据集ImageNet1k上进行预训练的。一些关于将这些方法扩展到ImageNet-1k之外的努力已经被尝试过了，但他们的特点是，专注于未经整理的数据集，导致特征的质量大幅下降。

这是因为缺乏对数据质量和多样性的控制。

Meta的研究人员关注的问题是，如果在大量的策划过的数据上进行预训练自我监督学习，是否有潜力学习所有的视觉特征。他们重新审视了现有的在图像和斑块层面学习特征的鉴别性自监督方法，如iBOT，Meta的研究人员在更大的数据集下重新考虑了iBOT的一些选择。

Meta的大部分技术贡献都集中在针对模型和数据规模扩大时的稳定和加速判别性自我监督学习等方面。这些改进使新方法比类似的鉴别性自我监督方法快2倍左右，所需的内存少3倍，这样就能利用更大的批次规模进行更长时间的训练。

关于预训练数据，研究人员建立了一个模型来过滤和重新平衡包含大量未处理的图像的数据集。灵感来自于NLP中使用的办法，使用了数据相似性而非外部元数据，且不需要手动注释。

在这项工作中，一个简单的聚类方法能出色地解决这个问题。

Meta的研究人员收集了一个由1.42亿张图片组成的多样化的语料库来验证此办法。最终提供了各种预训练的视觉模型，称为DINOv2，也就是今天我们介绍的主角。

Meta也是发布了所有的模型和代码，以便在任何数据上都可以重新训练DINOv2。

研究人员在各类计算机视觉的基准上验证DINOv2的能力，并在图像和像素层面上，还对其进行了扩展，如下图。

网友：这才是「Open」AI

DINOv2发布后，网友们也是一致好评。

「计算机视觉基础模型正在取得令人难以置信的快速进展。类似于在大规模数据和模型上的自我监督学习所推动的LLMs。感谢Meta开源DINOv2和SAM--对于~~90%的普通领域任务来说，这些模型的能力越来越强，基本上不需要微调。」

「SAM+DINO，在农业方面上应用太强了。」

「Meta 才是真正的「Open」AI 公司！」

参考资料：

https://www.maginative.com/article/meta-ai-unveils-dinov2-a-game-changer-in-self-supervised-vision-transformer-models

https://github.com/facebookresearch/dinov2

标签：

THE END

免责声明：本文系转载，版权归原作者所有；旨在传递信息，不代表热讯制鞋网的观点和立场。

相关热点

针对密室逃脱、剧本杀上海将实施备案管理

新华社电上海市文化和旅游局近日发布《上海市密室剧本杀内容备案管理规定（征求意见稿）》，并截至12月8日面向社会公众广泛征求意见。这

2021-11-19 13:46:03

备战2022 基金经理调仓换股布新局

《中国证券报》17日刊发文章《备战2022 基金经理调仓换股布新局》。文章称，距离2021年结束仅剩一个多月，基金业绩分化明显。部分排名靠前

2021-11-19 13:46:03

注意！三部门发文：将ETC欠费行为纳入征信体系

交通运输部办公厅中国人民银行办公厅中国银行保险监督管理委员会办公厅关于进一步做好货车ETC发行服务有关工作的通知各省、自治区、直

2021-11-19 13:45:58

从10月份市场供需积极变化看中国经济韧性

新华社北京11月17日电题：从10月份市场供需积极变化看中国经济韧性新华社记者魏玉坤、丁乐读懂中国经济，一个直观的视角就是市场供需两端

2021-11-19 13:45:58

如何提高教育经费使用率

全国教育财务工作会议披露的消息称，2020年，中国国家财政性教育经费投入达4 29万亿元，占GDP总量的4 206%，我国国家财政性教育经费支出占G

2021-11-19 13:45:48

“种草平台”变“韭菜地” 好物分享为何变了味

如果你也热爱“种草”，前方高能预警！让你心心念念、“浏览”忘返的网络平台，可能早已成为一块块“韭菜地”。近日，据《半月谈》报道，有...

2021-11-19 13:45:48

工信部描绘未来5年信息通信业发展趋势

日前，工业和信息化部印发《“十四五”信息通信行业发展规划》（以下简称《规划》），描绘了未来5年信息通信行业的发展趋势。《规划》指出...

2021-11-19 13:45:40

快递业务旺季，保质保量战高峰

本报讯（中青报·中青网记者周围围）2021年快递业务旺季正式拉开帷幕。国家邮政局监测数据显示，仅11月1日当日，全国共揽收快递包裹5 69

2021-11-19 13:45:40

第七批中国援柬埔寨新冠疫苗抵达金边

人民网曼谷11月17日电（记者赵益普）17日上午，中国援柬埔寨第七批200万剂科兴新冠疫苗抵达金边国际机场。当天，柬埔寨政府在机场举行了

2021-11-19 13:45:35

用废弃盐穴打造绿色“充电宝”

金坛压缩空气储能国家试验示范项目主体工程一角受访者供图依托清华大学非补燃压缩空气储能技术，金坛压缩空气储能项目申请专利百余项，建立

2021-11-19 13:45:35

“煤老大”再显底气山西煤、电、气协同发力保供应

视觉中国供图42亿立方米据有关部门预计，今年山西煤炭产量有望突破12亿吨，12月份山西外送电能力将超过900万千瓦，今冬明春煤层气产量将达4

2021-11-19 13:44:34

14省份发布2021年企业工资指导线向基层劳动者倾斜

14省份相继发布2021年企业工资指导线——引导企业合理提高职工工资今年以来，天津、新疆、内蒙古、陕西、西藏、山东、江西、山西、福建、四

2021-11-19 13:44:34

“药业大佬”一审被判12年，还需赔股民24.59亿

中新网客户端北京11月18日电 (记者谢艺观)“一条路海角天涯，两颗心相依相伴，风吹不走誓言，雨打不湿浪漫，意济苍生苦与痛，情牵天下喜

2021-11-19 13:44:31

三部门：ETC欠费行为将纳入征信体系

近日，交通运输部等三部门发布《关于进一步做好货车ETC发行服务有关工作的通知》。通知提到，对不具备授信条件的用户，商业银行可在依法合

2021-11-19 13:44:31

欧莱雅面膜陷优惠“年度最大”风波

欧莱雅面膜陷优惠“年度最大”风波涉及该事件集体投诉超6000人次美妆大牌双十一促销翻车？近日，因预售价格比双十一现货贵出66%，欧莱雅

2021-11-19 13:44:13

调查：43.6%受访者会考虑跳槽

43 6%受访者会在工作两三年后考虑跳槽54 3%受访者认为跳槽对个人职业发展有利有弊如今对不少年轻人来说，想对一份工作“从一而终”不太容易

2021-11-19 13:44:13

超八成受访青年表示如有机会愿意开展副业

超八成受访青年表示如有机会愿意开展副业规划能力最重要64 4%受访青年指出做副业跟风心态最要不得如今，“身兼数职”已成为年轻人当中的

2021-11-19 13:44:01

我国对新能源产业发展非常重视发展氢能正当其时

发展氢能正当其时【科学随笔】氢能是一种二次能源，它通过一定的方法利用其他能源制取，具有清洁无污染、可储存、与多种能源便捷转换等优点

2021-11-19 13:44:01

“千杯不醉”的解酒“神药”能信吗？专家释疑

“千杯不醉”的解酒“神药”能信吗？专家：网红“解酒药” 其实不算药俗话说，“酒逢知己千杯少”，酒一直是国人饭桌上至关重要的存在。尽...

2021-11-19 13:43:57

速看：CV圈又炸了？扎克伯格高调官宣Meta视觉大模型，分割检索无所不能

相关热点

最新文章

相关推荐

针对密室逃脱、剧本杀上海将实施备案管理

备战2022 基金经理调仓换股布新局

注意！三部门发文：将ETC欠费行为纳入征信体系

从10月份市场供需积极变化看中国经济韧性

如何提高教育经费使用率

“种草平台”变“韭菜地” 好物分享为何变了味

速看：CV圈又炸了？扎克伯格高调官宣Meta视觉大模型，分割检索无所不能

相关热点

最新文章

相关推荐

针对密室逃脱、剧本杀 上海将实施备案管理

备战2022 基金经理调仓换股布新局

注意！三部门发文：将ETC欠费行为纳入征信体系

从10月份市场供需积极变化看中国经济韧性

如何提高教育经费使用率

“种草平台”变“韭菜地” 好物分享为何变了味

针对密室逃脱、剧本杀上海将实施备案管理