关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro383人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

2-2!英超疯狂之战:1-2落后 10人曼联压哨绝平 0分变1分

叶青足球世界 浏览 108

杭州178户村民众筹1.2亿建大别墅:家家都有大院子

都市快报橙柿互动 浏览 74061

Sam Altman中国对话全文

品玩 浏览 15926

还在挑事儿!转播方晒昨日猛龙vs湖人罚球对比

直播吧 浏览 12096

巴尔扎利:最佳防守球队几乎总能赢得冠军,但现阶段为时尚早

懂球帝 浏览 12373

第十届四川省大学生机器人大赛在蓉开幕 全省51所高校614支战队硬核对决

红星新闻 浏览 391

学会这5个衬衫叠穿公式,怎么搭都好看

LinkFashion 浏览 12422

印度向中国手机制造商提条件 要求印籍人士担任CEO

环球网资讯 浏览 15516

推广中奖名单-更新至2025年10月10日推广

黎贝卡的异想世界 浏览 263

大学副教授被精神病人持棍打死 二审:凶手发病期作案

扬子晚报 浏览 32581

俄"默许"朱拉尼相关提案 中国在联合国动用一票否决权

梁讯 浏览 11051

退出春晚25年,陈佩斯和朱时茂的生活差别太大了

贵州小娟 浏览 396

河北女子每天通勤5小时到北京上班:坚持了3年 月薪近4万

潇湘晨报 浏览 103546

亚马逊据悉要求员工迁址办公

界面新闻 浏览 13762

皮耶罗评尤文浪费机会太多:皇马就不会浪费这么多机会

懂球帝 浏览 402

让新能源汽车“出得了城、下得了乡”,浙江将建成至少230万个充电桩

银柿财经 浏览 13957

热议中超:恶心国安放水,西海岸和英博值得尊重

懂球帝 浏览 335

擅自使用军机形象进行宣传 理想汽车回应

澎湃新闻 浏览 1017

一心堂反复违规背后:实体药店盈利难题未解

北京商报 浏览 10784

E句话 | 没了于正的大饼,祝绪丹也有好饼

仙女事件簿 浏览 12413

上新|| 秋冬也可以穿的漂亮小裙子,美到心动

黎贝卡的异想世界 浏览 118
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1