关闭广告

超越纯视觉模型！不改VLM标准架构，实现像素级深度预测

新智元451人阅读

新智元报道

编辑：LRST

【新智元导读】Meta开源DepthLM，首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略，DepthLM精准完成像素级深度估计等任务，解锁VLM多任务处理潜力，为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中，视觉语言模型（Vision Language Models, VLMs）因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而，尽管在语义理解、视觉问答、图像指令等任务上表现优异，它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下，纯视觉模型（pure vision models）在绝对深度估计（metric depth estimation）等三维理解任务上，凭借专门设计的网络结构与损失函数，早已达到了超越人类的精度。

这就带来了一个核心问题：「视觉语言模型是否有可能不更改其标准架

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

特朗普突然改口：暂时不想见普京浪费时间

北京日报客户端-长安街知事浏览 384

奥运冠军江旻憓将参加香港立法会选举申请放弃加护照

澎湃新闻浏览 5772

俄外交部就加拿大没收俄运输机表态或对等报复

参考消息浏览 16380

精彩推荐

华为 nova 14 Pro / Ultra 预计今年 12 月升级支持 AI 辅助构图

IT之家浏览 343

阿里巴巴：闲鱼于2023年6月30日止季度DAU同比上升18%

界面新闻浏览 14170

福建发布人工智能扶持新政：拟对企业年度算力购买最高补助50%

观察者网浏览 117

借助配饰的力量，穿搭瞬间点睛

瑞丽伊人风尚浏览 19301

普里戈任空难，我大胆又谨慎地推断出一个结论

观察者网浏览 14061

请准备好钱！成都车展重磅豪华SUV都在这

车市红点浏览 19843

布林肯：中美是长期竞争关系没有明确的终点线

环球网资讯浏览 15135

中年女人别轻易服老！参考这些妈妈穿衣搭配，一点没有大妈感

静儿时尚达人浏览 11043

短片制作人，借到了大模型的第一缕东风

财经十一人官方浏览 12462

200多斤小伙落水漂浮7小时钱塘江大潮来临之际获救

新民晚报浏览 590

俄国防部妥协瓦格纳上演的＂撤军大戏＂暂时赢了

直新闻浏览 18300

中国核动力潜艇在台湾附近发生事故？谣传！

澎湃新闻浏览 14485

谢娜张杰一家游香港感谢王祖蓝安排网友:给钱了吗

火鱼观点浏览 14393

万科与万达集团翻脸！10亿元纠纷冻结千亿股权？

金融界浏览 16275

牛弹琴:中国邻国在日本招商推介撼动世界航运的大事

上观新闻浏览 73689

小S大女儿拍视频曝真容性格活泼背景引发争议

文艺圈娱乐号浏览 12641

美监管机构对弗吉尼亚州一起特斯拉致命车祸展开调查

界面新闻浏览 13962

国乒再添一喜！孙颖莎王曼昱被清华大学拟录取，双子星推免直硕

乒谈浏览 319

全国人大代表、东方财富董事长其实：加大对于早期科创的支持力度

时代周报浏览 12051

追寻阳光的Isabel Marant女郎，再次独自启程

时尚COSMO 浏览 595

日本大妈的穿搭技巧太绝了！照着学，随便穿也能显年轻10岁

静儿时尚达人浏览 78

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1