关闭广告

智能体系统如何「边做边学」？斯坦福团队探索在线优化的新范式

机器之心Pro383人阅读

如何让智能体进行复杂推理与工具调用？传统方法主要有两类：训练单一的大语言模型，使其同时承担思考与工具调用的任务；要么依赖静态提示词驱动的 training-free 智能体系统。

然而，前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定，缺乏可扩展性（scalability）；后者则缺少学习与适应能力，难以应对复杂场景。

为此，斯坦福大学联合德州农工大学（Texas A&M）、加州大学圣地亚哥分校（UC San Diego）和 Lambda 的研究团队提出了 AgentFlow 框架，通过多个独立 Agent 模块协作，并且提出 Flow-GRPO 算法用于训练。在评测中，AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升，即便是 3B 模型，也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文

版权与免责声明：本文内容转载自其他媒体，目的在于传递更多信息，不代表本网观点或立场，不承担此类作品侵权行为的自己责任及连带责任。

猜你喜欢

相关阅读

大衣+阔腿裤，穿出态度才时髦！

LinkFashion 浏览 13075

希腊航运巨头28岁女继承人死于虫咬误诊细节披露

新民周刊浏览 11277

上汽销量反超比亚迪，真实“含金量”如何

经济观察报浏览 367

精彩推荐

2-2！英超疯狂之战：1-2落后 10人曼联压哨绝平 0分变1分

叶青足球世界浏览 108

杭州178户村民众筹1.2亿建大别墅：家家都有大院子

都市快报橙柿互动浏览 74061

Sam Altman中国对话全文

品玩浏览 15926

还在挑事儿！转播方晒昨日猛龙vs湖人罚球对比

直播吧浏览 12096

巴尔扎利：最佳防守球队几乎总能赢得冠军，但现阶段为时尚早

懂球帝浏览 12373

第十届四川省大学生机器人大赛在蓉开幕全省51所高校614支战队硬核对决

红星新闻浏览 391

学会这5个衬衫叠穿公式，怎么搭都好看

LinkFashion 浏览 12422

印度向中国手机制造商提条件要求印籍人士担任CEO

环球网资讯浏览 15516

推广中奖名单-更新至2025年10月10日推广

黎贝卡的异想世界浏览 263

大学副教授被精神病人持棍打死二审：凶手发病期作案

扬子晚报浏览 32581

俄＂默许＂朱拉尼相关提案中国在联合国动用一票否决权

梁讯浏览 11051

退出春晚25年，陈佩斯和朱时茂的生活差别太大了

贵州小娟浏览 396

河北女子每天通勤5小时到北京上班:坚持了3年月薪近4万

潇湘晨报浏览 103546

亚马逊据悉要求员工迁址办公

界面新闻浏览 13762

皮耶罗评尤文浪费机会太多：皇马就不会浪费这么多机会

懂球帝浏览 402

让新能源汽车“出得了城、下得了乡”，浙江将建成至少230万个充电桩

银柿财经浏览 13957

热议中超：恶心国安放水，西海岸和英博值得尊重

懂球帝浏览 335

擅自使用军机形象进行宣传理想汽车回应

澎湃新闻浏览 1017

一心堂反复违规背后：实体药店盈利难题未解

北京商报浏览 10784

E句话 | 没了于正的大饼，祝绪丹也有好饼

仙女事件簿浏览 12413

上新|| 秋冬也可以穿的漂亮小裙子，美到心动

黎贝卡的异想世界浏览 118

本站所有信息收集于互联网，如本站收集信息侵权，请联系我们及时删除
沪ICP备20017958号-1