爆点资讯

这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究，发表于2025年9月29日的arXiv预印本平台（论文编号：arXiv:2509.24981v1）。研究团队提出了一种名为ROVER的全新AI训练方法，颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时，大多数人可能会想象这需要极其复杂的算法和精密的计算。然而，香港科技大学的研究团队却发现了一个令人意外的现象：有时候，最简单的方法反而能产生最好的效果。这就像在烹饪界，有些大厨经过多年探索后发现，最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前，训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题：先让学生尝试解题，如果答对了就给奖励，答错了就给惩罚，然后不断调整学生的解题策略。在AI领域，这种方法被称为PPO（Proximal Policy Optimization）或GRPO（Group-Relative Policy Optimization）等算法。

这

香港科大：用＂随机策略＂训练AI数学推理，效果竟然超越复杂算法

今年秋天最好...

铁了心扳倒G...

以色列继续袭...

才播6集热度...

法兰克福3-...

《音乐缘计划...

“小度”“小爱”能当AI老师吗？小小“数字原住民”出现“幼儿主体性”危机

英国网速为什么还不到东南亚的一半？

光阴的故事丨接力放映露天电影70载他们用坚守点亮光影记忆

＂美国炸毁北溪＂爆料者：美希望乌获胜是＂自杀＂行为

辛巴直播间网购后80余人被骗600万，受害者直播基地前拉横幅求助

王博：上半场让高登得了14分下半场调整了挡拆和防守来限制他

苹果团队造访股价涨停！恒信东方澄清

王家卫事件再次升级，可怜了这些明星

美职联官方列足坛历史助攻榜：梅西距历史第一只差4次

北京大学联合多所知名高校突破机器人视角转换技术

53岁窦唯近况曝光：老丑邋遢？

特斯拉三季度净利同比暴跌4成！马斯克透露五大关键进展，为天价薪酬拉票

伊姐周六热推：电视剧《暗河传》；电视剧《天地剑心》......

这四件外套，承包冬天90%的时髦

胡润榜财富增长较快的雷军李书福，每分钟净赚37万和15万？

广西餐桌上的硬核美食，广东人都得甘拜下风

百慕大短裤，赫本穿的时髦且高级！

德赫亚合同到期曼联要求先别转会沙特，做个备胎！名宿怒斥不厚道

普京慰问伤兵称＂受过炮火洗礼者将在俄军中任要职＂

单反绝唱：优雅技艺在职业网坛的黄昏

开春还是“针织衫”最吃香！温柔舒适，40+女人穿上很显气质

万科：董事长辛杰辞职

1.5亿利润与12亿负债，祥源文旅为何景区造血，债务“起飞”？

何超莲豪宅度中秋，阖家团圆唯独不见窦骁？