关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro624人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

E句话 | 为什么没回去当教练？郭晶晶的回答很坦诚

仙女事件簿浏览 10431

又嫁错人？贾静雯老公过往争议被扒，催生四胎还和老婆闺蜜搞暧昧

萌神木木浏览 449

蚂蚁集团首席执行官韩歆毅：以“数智普惠”惠及每一位老百姓

上游新闻浏览 126

精彩推荐

王嘉尔见粉丝捂鼻子，素颜皮肤差，小腿粗壮变胖

叶公子浏览 13987

荣耀MagicOS 10系统第四批内测招募开启，截至11月19日

IT之家浏览 191

这些女星告诉你，20年前的丫鬟有多惊艳！

盖饭人物浏览 16845

热巴《花少》被指表现过度！拿摄像机玩误删所有素材，打工人实惨

萌神木木浏览 12306

“腋下包”过时了？今夏最火的4只包包长这样，好看哭了！

Yuki女人故事浏览 10906

维拉已放弃买断桑乔！曼联若解约多特或引进，只会免费签约不给钱

罗米的曼联博客浏览 135

何超莲窦骁合体撒糖，赴澳洲旅游被偶遇，有说有笑力破婚变传闻

扒虾侃娱浏览 97

应对欧盟关税压力？雷诺将与宁德时代、LG合作研发电池

观察者网浏览 10206

宝马确认发生数据泄露事件：云存储服务器配置错误

智车情报局浏览 12100

Vogue这一夜太抓马了

细语浏览 357

年末商战打响，京东采销喊话拼多多

第一财经资讯浏览 12167

随着西班牙3-0 世界杯16强定14席中国队对手确定亚洲仅韩国出局

侃球熊弟浏览 369

俄外长：多国疑以雇佣兵为幌子向乌派遣职业军人

参考消息浏览 15070

特朗普:空管员不返岗就扣薪建议停摆期未请假者奖钱

鲁中晨报浏览 10082

618换机怎么选？华为Pocket S限时优惠1000元精致好看又实用

网易时尚浏览 16646

郭富城爱驹赛马跑第一赢百万奖金，紧搂方媛庆祝

娱絮浏览 16097

64岁麦当娜状况堪忧，橡胶脸明显走路需儿子搀扶

好丹浏览 14334

金鸡奖开幕星光黯淡，周冬雨开场陈飞宇主持，网友感慨电影圈萧条

萌神木木浏览 36

千禾味业董事及高管计划减持合计48.41万股股份

红星资本局浏览 10389

湖人官推：还记得去年12月浓眉爆砍55分17板3帽吗？

直播吧浏览 13824

2023年中信证券承销保荐收入28.1亿元，保荐30家企业，22家已破发

资本百科浏览 12082

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1