爆点资讯

当下主流的视觉语言模型（Vision-Language Models, VLM），通常都采用这样一种设计思路：将预训练的视觉编码器与大语言模型通过投影层拼接起来。这种模块化架构成就了当前 VLM 的辉煌，但也带来了一系列新的问题——多阶段训练复杂、组件间语义对齐成本高，不同模块的扩展规律难以协调。

由南洋理工大学 S-Lab 助理教授刘子纬领导的联合团队最近提出了 NEO，试图用另一种思路解决这些问题。这项工作试图回答一个根本性问题：如果不依赖预训练的视觉编码器，能否构建出与顶级模块化 VLM 相媲美的原生统一架构？

图丨相关论文（来源：arXiv）

在传统方法中，视觉编码器通常基于 CLIP 或 SigLIP 等预训练模型，这些编码器虽然在视觉理解上表现出色，但其固有的语义偏置会限制模型在特定任务上的灵活性。

更重要的是，视觉编码器和语言模型之间存在天然的“代沟”——前者采用双向注意力机制来捕捉图像中的全局关系，后者则使用因果注意力进行文本的自回归生成。这种架构上的不匹配使得多阶段训练不仅复杂，还需要大量的对齐数据来弥合两个模态之间的鸿沟。

高效训练新标杆！华人开源原生VLM-NEO，以少数据追平顶级模型

比刘强东只大...

＂日本极品软...

王大陆官宣新...

张柏芝现身巴...

科技巨头在讨...

近5季小卡出...

美国陆军法律顾问：请问对华鹰派你们还有没有良知

新年伊始，自主品牌继续保持强势

俄外长：向乌提供“战斧”将让俄美关系出现最危险局面

你恐慌我贪婪！约500亿资金借道ETF蜂拥进场，主力机构正重金下注这些板块（附名单）

人类为了变美，都干出过哪些蠢事？

混动系统为内燃机续命沃尔沃最新消息曝光

【公告精选】梅花生物去年净利增83%，拟10派4元；云南白药：董事长王明辉因个人原因辞职

拜登发表国情咨文先谈乌克兰危机：我不会低头

俞飞鸿会穿搭，还会“凹”造型

什么情况？！银行都在卖这个

37岁高叶演“恶女”，连面相都变了？

普京在莫斯科会见国务委员兼国防部长李尚福

美军动向：与美科技巨头加速勾连生成式AI军事化

熊黛林突然公开发火！自曝被最亲的人出卖遭疑婚变

英特尔宣布终止收购高塔半导体分手费3.53亿美元

贝克汉姆一家出游，12岁小七发育过猛穿吊带短裙

开年关键词「柔和桃」，唐嫣已经上身了！

公募基金从香港走向世界！

甘比打扮潮流去做义工！化浓妆戴墨镜耕田挖萝

杨幂、肖战生图又翻车了？求求你们别折腾脸了！

迟蓬：65岁，我不急

沪指涨1.95%个股普涨北向资金净流入90亿

离婚后的吉娘娘亮相狂欢节穿短上衣出场美炸了

新研究揭示猴痘至少从2016年起就开始在人类中传播与变异