关闭广告

清华大学团队NeurIPS 2025文章分析 RL 与 SFT 泛化性差异

机器之心Pro625人阅读

在具身智能领域，视觉 - 语言 - 动作（VLA）大模型正展现出巨大潜力，但仍面临一个关键挑战：当前主流的有监督微调（SFT）训练方式，往往让模型在遇到新环境或任务时容易出错，难以真正做到类人般的泛化。但在大语言模型（LLM/VLM）领域，强化学习（RL）已被证明能显著提升模型的泛化能力。RL 究竟能为 VLA 带来哪些独特的泛化优势？与 SFT 相比，它们的优劣势分别体现在哪里？

来自清华大学的研究团队在 NeurIPS 2025 发表文章，首次系统性地揭示了强化学习（RL）在提升 VLA 泛化能力上的独特优势，并带来了一套全面的评测基准和高效训练方法。通讯作者是清华大学教授汪玉和博士后于超。

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

闲鱼洗牌人才市场

星球商业评论浏览 10215

成龙满嘴谎话？却被兄弟公开指责吝啬人品差？

小娱乐悠悠浏览 559

Sam Altman、Hinton中国首秀！国内最硬核AI内行盛会圆满闭幕，国产大模型「悟道3.0」全面开源

新智元浏览 16029

精彩推荐

普京：我们铭记中国军人抗击日本军国主义的壮举

环球网浏览 116721

郑恺2个月胖了40斤，为了真实演绎出运动员中青年的前后反差感

趣看热点浏览 28295

又一个明星被骂到退网，谁赢了？

独立鱼浏览 183

机构抱团是A股特色？NO！美股抱团是常态

券商中国浏览 25902

ESPN：一些巴萨球员不满哈维，并开始质疑他的战术和言论

直播吧浏览 12596

泰它西普治疗干燥综合征中国Ⅲ期临床研究成功入选

豹变浏览 982

北京男篮重磅“引援”：前中国女篮主帅许利民驰援已与球队汇合

醉卧浮生浏览 12360

或许，男性形象该被重新定义了

CC主义浏览 15323

极简风穿搭好有气质知性又复古

In风尚浏览 16577

媒体:＂二普＂隔空对话普京讲话相比第一次有一点不同

直新闻浏览 88817

就任后的首次国事访问马尔代夫总统选择了中国

上观新闻浏览 73155

从纪存希到“周处”，阮经天，你真的是新造的人！

时尚COSMO 浏览 12329

一夜暴涨2亿连亏5年的＂户外老大＂被哈尔滨救了

金错刀浏览 73447

赵乐际赴广东、李鸿忠赴甘肃关注未来五年立法规划

政知新媒体浏览 119393

胡塞武装袭击英国油轮后美英空袭红海城市荷台达

澎湃新闻浏览 12202

印驻俄大使：俄制AK203步枪将成印军主要突击武器

环球网浏览 25356

53岁窦唯近况曝光：老丑邋遢？

影像温度浏览 19053

赵明剑、张兴博离开石家庄功夫，转会东莞莞联

直播吧浏览 14820

十字路口的YY直播：从＂欢聚＂3年，到百度＂退货＂

Tech星球浏览 12291

《大江大河3》开播即扑，收视率低迷反响平平，五个问题难以挽救

萌神木木浏览 12483

借小贝之力，三狮欲赴迈阿密集训

体坛周报浏览 549

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1