关闭广告

智能体系统如何「边做边学」?斯坦福团队探索在线优化的新范式

机器之心Pro381人阅读



如何让智能体进行复杂推理与工具调用?传统方法主要有两类:训练单一的大语言模型,使其同时承担思考与工具调用的任务;要么依赖静态提示词驱动的 training-free 智能体系统。

然而,前者在长链推理、工具多样化与动态环境反馈下训练常变得不稳定,缺乏可扩展性(scalability);后者则缺少学习与适应能力,难以应对复杂场景。

为此,斯坦福大学联合德州农工大学(Texas A&M)、加州大学圣地亚哥分校(UC San Diego)和 Lambda 的研究团队提出了 AgentFlow 框架,通过多个独立 Agent 模块协作,并且提出 Flow-GRPO 算法用于训练。在评测中,AgentFlow 在搜索、代理、数学与科学任务上均取得显著提升,即便是 3B 模型,也能超越 405B 的 Llama-3.1 和 200B 的 GPT-4o。

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

贾跃亭称高合汽车剽窃、欺骗,网友不买账:骗子说被骗子骗了

小李车评李建红 浏览 11704

台军“云豹”装甲车现身高雄街头 深夜机动行军

环球网资讯 浏览 18914

范子铭晒照低烧37度5:千防万防没防住生病,打广东就开始了

懂球帝 浏览 12442

荷兰主帅科曼:选贝尔温首发是想让他在右边路多深入内线

直播吧 浏览 10122

研究生当海鸟监测员:日薪300元 报名竞争非常大

红星新闻 浏览 80889

福克斯10投1中国王惨败!一度落后鹈鹕50分

OnFire 浏览 12138

OpenAI与亚马逊签署380亿美元算力采购协议,减少对微软依赖

IT之家 浏览 202

官方:阿根廷U20主力中卫皮耶拉尼左膝扭伤;据悉无法出战半决赛

懂球帝 浏览 558

Sora刷屏!哪些A股上市公司或将受益?

投资者网 浏览 11959

媒体:高市当选新首相 极端保守立场或激化与中国矛盾

环球网资讯 浏览 5545

河南鹅首曲颈青铜壶,内装可以止血消炎的药酒

趣看热点 浏览 25550

陈赫首次晒大女儿正脸照,长相酷似张子萱

趣看热点 浏览 25609

男子"机闹"后航班取消 同机旅客准备集体起诉东航

红星新闻 浏览 74535

集结了三大天王出演的《超级学校霸王》,你不知道的幕后冷知识

趣看热点 浏览 26003

这不是危言耸听:最快明年,比亚迪的插混和纯电,就没有区别了

小李车评李建红 浏览 366

全力向上!重庆铜梁龙赛季最后一个主场将展示全场拼图TIFO

懂球帝 浏览 393

意媒:1000万欧选择性先租后买,罗马接近本周签下R-克里斯滕森

直播吧 浏览 14953

陈建州方发声明回应性骚扰指控:内容全然不实

网易娱乐 浏览 15731

拜登在国情咨文演讲中宣布"大计划" 招致多方嘲讽

环球时报新闻 浏览 69432

韩媒:因违规收集用户信息被罚1000亿韩元,谷歌、Meta不服裁决提起诉讼

界面新闻 浏览 18514

宗馥莉将独立经营“娃小宗” 名下仍关联超200家企业

21世纪经济报道 浏览 553
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1