关闭广告

超越纯视觉模型!不改VLM标准架构,实现像素级深度预测

新智元451人阅读


新智元报道

编辑:LRST

【新智元导读】Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。

在当前多模态AI发展浪潮中,视觉语言模型(Vision Language Models, VLMs)因其能通过「看图 + 文字交互」处理多样任务而备受关注。

然而,尽管在语义理解、视觉问答、图像指令等任务上表现优异,它们在从 2D 图像理解 3D 空间结构方面仍显薄弱。相比之下,纯视觉模型(pure vision models)在 绝对深度估计(metric depth estimation) 等三维理解任务上,凭借专门设计的网络结构与损失函数,早已达到了超越人类的精度。

这就带来了一个核心问题:「视觉语言模型是否有可能不更改其标准架

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

华为 nova 14 Pro / Ultra 预计今年 12 月升级支持 AI 辅助构图

IT之家 浏览 343

阿里巴巴:闲鱼于2023年6月30日止季度DAU同比上升18%

界面新闻 浏览 14170

福建发布人工智能扶持新政:拟对企业年度算力购买最高补助50%

观察者网 浏览 117

借助配饰的力量,穿搭瞬间点睛

瑞丽伊人风尚 浏览 19301

普里戈任空难,我大胆又谨慎地推断出一个结论

观察者网 浏览 14061

请准备好钱!成都车展重磅豪华SUV都在这

车市红点 浏览 19843

布林肯:中美是长期竞争关系 没有明确的终点线

环球网资讯 浏览 15135

中年女人别轻易服老!参考这些妈妈穿衣搭配,一点没有大妈感

静儿时尚达人 浏览 11043

短片制作人,借到了大模型的第一缕东风

财经十一人官方 浏览 12462

200多斤小伙落水漂浮7小时 钱塘江大潮来临之际获救

新民晚报 浏览 590

俄国防部妥协 瓦格纳上演的"撤军大戏"暂时赢了

直新闻 浏览 18300

中国核动力潜艇在台湾附近发生事故?谣传!

澎湃新闻 浏览 14485

谢娜张杰一家游香港感谢王祖蓝安排 网友:给钱了吗

火鱼观点 浏览 14393

万科与万达集团翻脸!10亿元纠纷冻结千亿股权?

金融界 浏览 16275

牛弹琴:中国邻国在日本招商 推介撼动世界航运的大事

上观新闻 浏览 73689

小S大女儿拍视频曝真容性格活泼 背景引发争议

文艺圈娱乐号 浏览 12641

美监管机构对弗吉尼亚州一起特斯拉致命车祸展开调查

界面新闻 浏览 13962

国乒再添一喜!孙颖莎王曼昱被清华大学拟录取,双子星推免直硕

乒谈 浏览 319

全国人大代表、东方财富董事长其实:加大对于早期科创的支持力度

时代周报 浏览 12051

追寻阳光的Isabel Marant女郎,再次独自启程

时尚COSMO 浏览 595

日本大妈的穿搭技巧太绝了!照着学,随便穿也能显年轻10岁

静儿时尚达人 浏览 78
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1