关闭广告

香港科大:用"随机策略"训练AI数学推理,效果竟然超越复杂算法

科技行者425人阅读


这项由香港科技大学潘凌教授团队联合快手科技、StepFun等机构共同完成的研究,发表于2025年9月29日的arXiv预印本平台(论文编号:arXiv:2509.24981v1)。研究团队提出了一种名为ROVER的全新AI训练方法,颠覆了人们对机器学习复杂性的认知。有兴趣深入了解技术细节的读者可以通过论文编号在arXiv平台查询完整论文。

当我们谈论训练AI解决数学问题时,大多数人可能会想象这需要极其复杂的算法和精密的计算。然而,香港科技大学的研究团队却发现了一个令人意外的现象:有时候,最简单的方法反而能产生最好的效果。这就像在烹饪界,有些大厨经过多年探索后发现,最朴素的食材搭配往往能烹制出最美味的佳肴一样。

目前,训练AI进行数学推理主要依赖一种叫做"强化学习"的技术。这种方法就像训练一个学生做数学题:先让学生尝试解题,如果答对了就给奖励,答错了就给惩罚,然后不断调整学生的解题策略。在AI领域,这种方法被称为PPO(Proximal Policy Optimization)或GRPO(Group-Relative Policy Optimization)等算法。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

"美国炸毁北溪"爆料者:美希望乌获胜是"自杀"行为

环球时报新闻 浏览 18991

辛巴直播间网购后80余人被骗600万,受害者直播基地前拉横幅求助

趣看热点 浏览 25433

王博:上半场让高登得了14分 下半场调整了挡拆和防守来限制他

直播吧 浏览 18737

苹果团队造访 股价涨停!恒信东方澄清

网易财经 浏览 12335

王家卫事件再次升级,可怜了这些明星

阿伧说事 浏览 180

美职联官方列足坛历史助攻榜:梅西距历史第一只差4次

懂球帝 浏览 32

北京大学联合多所知名高校突破机器人视角转换技术

科技行者 浏览 117

53岁窦唯近况曝光:老丑邋遢?

影像温度 浏览 19053

特斯拉三季度净利同比暴跌4成!马斯克透露五大关键进展,为天价薪酬拉票

车东西 浏览 385

伊姐周六热推:电视剧《暗河传》;电视剧《天地剑心》......

伊周潮流 浏览 374

这四件外套,承包冬天90%的时髦

Yuki女人故事 浏览 12883

胡润榜财富增长较快的雷军李书福,每分钟净赚37万和15万?

BT财经 浏览 168

广西餐桌上的硬核美食,广东人都得甘拜下风

YOKA网 浏览 12567

百慕大短裤,赫本穿的时髦且高级!

Yuki女人故事 浏览 10649

德赫亚合同到期曼联要求先别转会沙特,做个备胎!名宿怒斥不厚道

罗米的曼联博客 浏览 14961

普京慰问伤兵称"受过炮火洗礼者将在俄军中任要职"

环球网资讯 浏览 15651

单反绝唱:优雅技艺在职业网坛的黄昏

网球之家 浏览 110

开春还是“针织衫”最吃香!温柔舒适,40+女人穿上很显气质

静儿时尚达人 浏览 11026

万科:董事长辛杰辞职

网易财经 浏览 588

1.5亿利润与12亿负债,祥源文旅为何景区造血,债务“起飞”?

华夏时报 浏览 280

何超莲豪宅度中秋,阖家团圆唯独不见窦骁?

不八卦会死星人 浏览 546
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1