关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者424人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

杨超越终于把“纯欲风”穿明白了

巧百搭 浏览 18417

53岁约旦最美王后 衣品堪称“中东戴安娜”?

商务范 浏览 16624

国台办回应台湾地区两项选举结果:阻挡不了祖国统一

环球网 浏览 75860

产品力再提升 全新雪佛兰Bolt EV新车图解

车质网 浏览 210

抖音重点打击泄露隐私、P图公开辱骂等网暴言论

网易科技报道 浏览 10399

传华为将出售手机业务?官方辟谣:假信息,继续加大投入

网易手机 浏览 19104

特朗普又获得一位"金主"支持 拜登已筹1.18亿美元资金

上游新闻 浏览 69473

韩国公布代赔方案激怒民众 美国驻日大使扯上中国

环球时报 浏览 18612

队记:尼克斯考虑交易奎克利 要价高于一个首轮

直播吧 浏览 13796

性价比最高的MacBook来了!苹果把iPhone处理器塞进笔记本里

快科技 浏览 390

“杂交水稻之父”袁隆平逝世,世界上第一个成功地利用水稻杂交优势的科学家

趣看热点 浏览 25330

数十位外地购车人陷河北"低价购车"骗局 受损超百万

上游新闻 浏览 90420

罗志恒:三季度经济增速为何放缓?四季度经济前景如何?

首席经济学家论坛 浏览 434

从“瓶子到积木”计划失败 ,玩具巨头乐高可持续发展表现如何? |ESG案例

网易财经ESG 浏览 10956

卡霍夫卡大坝被炸前后卫星图披露 事件或成又一"悬案"

每日经济新闻 浏览 92183

韩鹏:很高兴能战胜争冠球队,全体球员的发挥都非常出色

懂球帝 浏览 353

特朗普改打感情牌承认中方非常强大 疑想北京再给机会

现代小青青慕慕 浏览 3876

无需精子和卵子 科学家成功培养首个人类胚胎模型

中国新闻周刊 浏览 91965

戒掉 “大锅饭”,阿里 “回头是岸”

钛媒体APP 浏览 14302

不够多啊!热火向文森特报价4年3400万

直播吧 浏览 14555

跟着博主这样穿 天天美得不重样

巧百搭 浏览 18682
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1