爆点资讯

当我们训练人工智能写代码或解数学题时，就像教小孩做作业一样，需要给它很多练习题。但问题来了：有些题目太简单，AI一下就会了；有些题目太难，AI怎么也学不会。更麻烦的是，按照传统方法，不管题目难易，我们都给每道题分配同样的练习时间和次数。这就像让学霸和学渣都花同样时间做同一套题——既浪费了学霸的时间，也帮不到学渣。

来自伊利诺伊大学香槟分校、微软研究院和阿姆斯特丹大学的研究团队，在2025年10月发表了一项名为"Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training"的研究。这项研究就像给AI学习装上了"智能调节器"，让它能够根据题目难度自动分配练习时间，既不浪费计算资源，又能确保每道题都学得扎实。

研究团队的核心发现是：当前主流的AI训练方法GRPO（组相对策略优化）存在一个严重问题——当AI对某道题的所有尝试都得到相同结果时（要么全对要么全错），系统就收不到有用的学习信号，就像老师看到学生交上来的作业要么全是满分要么全是零分，无法判断学生的真实水平。

为了解决这个问

AI让机器写代码变得更聪明：伊利诺伊大学团队破解训练瓶颈新方法

西方14国发...

法国总统马克...

18岁男青年...

单月首次突破...

拉什福德渴望...

免签，找工作...

中国海警：菲方侵闯中国领海故意冲撞中国海警船

哈尔滨2名村干部遇害警方介入到底是怎么回事？案件最新进展

最「可爱」的全新酷路泽 FJ 上线，这真不是方程豹在日本失散的兄弟？

秋天，穿成大女人更高级！

俄国防部称拦截两架飞越黑海水域的无人机

全球首个海上千方 PEM 槽及制氢系统的全功率测试启动

＂拉面哥＂谈遭网暴：曾想过自杀但觉得有点不负责任

各界人士送别著名计算机科学家汤晓鸥

京东要向拼多多“砍一刀”？商家卷入百亿补贴大战

年报问询函涉“ST、退市”，朗源股份20cm跌停

多多买菜回应被处罚150万元：将积极整改

高通踩线，中国出手：车载芯片并购进入高压区

杜兰特推翻字母哥，哈登力挽狂澜助篮网掀翻东部第一

俄称暂停履行新削减战略武器条约未提前通知美方

维珍银河首度完成太空旅行＂纯玩团＂乘组创下多项历史纪录

工行、建行：暂停办理投资金部分业务

吴恩达：美国芯片出口限制之下，中国仍有创新

众神回归的维密大秀，还能再造辉煌吗？

特朗普：俄方知道美国在俄海岸附近部署核潜艇

罗永浩：东方甄选会继续推进“去董化”，帮董宇辉就像在帮年轻时的自己

南部战区：正告菲方停止在南海挑起事端

收起你的牛仔裤早春穿这些连衣裙美极了！

亚之杰李军举报歌手陈红，控诉数十亿资产遭违法掠夺！

天问一号将于五月到六月着陆火星，火星我们终于要来了！