爆点资讯

这篇由微软亚洲研究院的王思维、沈依飞、孙皓然等研究人员领衔完成的重要研究发表于2025年9月，论文编号为arXiv:2509.22613v1。研究团队还包括来自北京大学、哈佛大学和南加州大学的学者，这项跨机构合作的成果为我们揭开了一个重要谜题：为什么OpenAI的o1等先进AI模型在解决复杂问题时表现如此出色。

当我们看到ChatGPT或Claude能够解决复杂的数学题、编写完整的代码，或者制定详细的旅行计划时，我们可能会好奇：这些AI是如何学会"思考"和"规划"的？就像一个孩子从简单地记住答案，成长为能够分析问题、制定策略的成熟思考者一样，AI模型也经历了类似的学习过程。

在AI的世界里，存在两种截然不同的学习方式。第一种叫做"监督微调"，就像传统的填鸭式教育，老师告诉学生标准答案，学生机械地记住每个问题对应的答案。这种方法看似简单有效，但问题在于，当遇到新情况时，学生往往束手无策，因为他们只是在背诵，而没有真正理解解题的逻辑。

第二种方法叫做"强化学习"，这更像是让孩子在实践中摸索。孩子可以尝试不同的方法，如果成功了就得到奖励，失败了就调整策略。通过这种方式，孩子

微软亚研院突破：强化学习赋予语言模型规划能力

一家印媒的最...

北京门店全关...

特朗普在科罗...

G7外长会开...

红海航道危机...

张家界荒野求...

索要1000万元逼死丈夫苏享茂翟欣欣一审获刑12年

志愿军＂冷枪英雄＂:用206颗子弹杀敌203人受金成日接见

澎湃读报丨央媒刊文追忆杨振宁先生：心系家国，功在世界

伊周周日热推：电视剧《大江大河之岁月如歌》，电影《年会不能停》......

失业数据显示美联储6月将首次降息？

韩媒：李在镕悄悄访问中国没去自家设在中国的工厂

2020届名人堂，科比的妻子瓦妮莎代表他进行了演讲

胡塞武装袭击英国油轮后美英空袭红海城市荷台达

要探索建立房屋养老金制度钱从哪来？

李想破大防！一款车，能被P图搞死？

瑞幸咖啡打假泰国＂瑞幸＂失败被对方起诉索赔20亿

手感不佳！班凯罗半场8中2得到7分2助3断

微众银行杨强：AI Agent是大模型面向应用端发展的下一阶段

以色列警告加沙居民：只剩最后机会撤离

红毯再现女星风采秦岚造型真大胆

思辨之夏|丁磊、史喆：训练1个ChatGPT要多少钱？

媒体人：前广厦外援卡明斯加盟周琦老东家东南墨尔本凤凰

最高续航430km 五菱缤果S置换补贴价6.38万起

拖欠WTO的会费美国已悄悄补缴

国庆出游，就要这么“出彩”！

6.4万star的开源智能体框架重构！OpenHands重大升级，叫板OpenAI

春节比工作还累，打工人想上班

赚了70亿票房，她值得

Stein：猛龙预计会给珀尔特尔开出年薪2000万的续约合同