爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

突然崩超50...

卢拉：已和中...

考古中秋“顶...

“大佬”纷纷...

韩媒：时隔5...

普京将以独立...

法拉利战略转型，电动跃马如何取悦中国用户

全新H车标本田发布＂Honda 0＂系列纯电动概念车

NBA战报：雷霆94-91险胜掘金，沃特森15分

杨超越终于把“纯欲风”穿明白了

53岁约旦最美王后衣品堪称“中东戴安娜”？

国台办回应台湾地区两项选举结果：阻挡不了祖国统一

产品力再提升全新雪佛兰Bolt EV新车图解

抖音重点打击泄露隐私、P图公开辱骂等网暴言论

传华为将出售手机业务？官方辟谣：假信息，继续加大投入

特朗普又获得一位＂金主＂支持拜登已筹1.18亿美元资金

韩国公布代赔方案激怒民众美国驻日大使扯上中国

队记：尼克斯考虑交易奎克利要价高于一个首轮

性价比最高的MacBook来了！苹果把iPhone处理器塞进笔记本里

“杂交水稻之父”袁隆平逝世，世界上第一个成功地利用水稻杂交优势的科学家

数十位外地购车人陷河北＂低价购车＂骗局受损超百万

罗志恒：三季度经济增速为何放缓？四季度经济前景如何？

从“瓶子到积木”计划失败，玩具巨头乐高可持续发展表现如何？｜ESG案例

卡霍夫卡大坝被炸前后卫星图披露事件或成又一＂悬案＂

韩鹏：很高兴能战胜争冠球队，全体球员的发挥都非常出色

特朗普改打感情牌承认中方非常强大疑想北京再给机会

无需精子和卵子科学家成功培养首个人类胚胎模型

戒掉 “大锅饭”，阿里 “回头是岸”

不够多啊！热火向文森特报价4年3400万

跟着博主这样穿天天美得不重样