关闭广告

加州大学圣地亚哥分校发现:AI评估基准存在滞后性

科技行者114人阅读


这项由加州大学圣地亚哥分校的江训益、常丁艺、朱利安·麦考利和徐鑫等研究人员组成的团队完成的研究,发表于2025年10月8日,编号为arXiv:2510.07238v1。感兴趣的读者可以通过该编号在学术数据库中查询完整论文。

当我们谈论人工智能模型的能力时,就像评判一个学生的学习成绩一样,需要用一套标准化的考试题目来测试。在AI领域,这些"考试题目"被称为基准测试。然而,加州大学圣地亚哥分校的研究团队发现了一个令人震惊的问题:我们用来评估AI模型的这些"考试题目"已经严重过时了,就像用十年前的地理课本来考今天的学生,问的还是"世界人口最多的国家是中国"这样的问题,而正确答案早已变成了印度。

这个问题的严重性超出了人们的想象。研究团队发现,在五个广泛使用的AI评估基准中,竟然有24%到64%的问题答案都已经过时。更糟糕的是,那些能够给出最新、最准确答案的先进AI模型,反而在这些过时的测试中被扣分,就像一个博学的学生因为知道最新知识而在老旧考试中失分一样荒谬。

这项研究的重要性在于,它第一次系统性地揭示了AI评估领域的这个盲点。想象一下,如果我们一直用错误的尺子来衡量物品长

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

陈思诚现身佟丽娅新片首映 大赞前妻漂亮有演技

娱絮 浏览 14098

史上唯一以普通百姓命名的城市,千年未曾改过名,是你的家乡吗?

趣看热点 浏览 26321

阿斯:琼阿梅尼因伤休战6至8周,莫德里奇在其缺阵时可发挥作用

直播吧 浏览 13100

境外网友发图称福建舰甲板裂缝 美智库驳斥

环球网资讯 浏览 15468

买羽绒服,别老盯着波司登!这6个宝藏国货品牌,不坑中国人

潮人志Fashion 浏览 14065

23岁女教师工作3个月轻生 校方否认不让家属看监控

红星新闻 浏览 80493

热火G3惨败掘金!仅靠巴特勒,阿德巴约喜忧参半,2射+洛瑞全崩

篮球资讯达人 浏览 16145

京东新设一级部门攻坚线下零售,生活服务事业部被拆分

雪豹财经社 浏览 15301

微信支付,为何惹毛多所高校?

市界 浏览 15205

范德芬:我知道我加速后别人很难追上,那一刻只想着必须进球

懂球帝 浏览 178

30件白色系好物,清凉百搭超适合夏天!

美丽也是技术活 浏览 15257

北京大学联合多所知名高校突破机器人视角转换技术

科技行者 浏览 114

国乒再添一喜!孙颖莎王曼昱被清华大学拟录取,双子星推免直硕

乒谈 浏览 319

EXO见面会遭抵制!官宣12月13日举办,中粉大骂公司要求改期

萌神木木 浏览 334

零部件产业将继续承压,2023与2024的汽车供应链

百姓评车 浏览 12264

乌克兰男子闯进村委会会议现场引爆手榴弹

这视频 浏览 12309

当“中国表格之王”开始发力多维表格

硅星人 浏览 369

冬季怎么搭配不臃肿?试试羽绒服+打底裤

Yuki时尚酱 浏览 12736

曝章子怡诸暨买128万珍珠,开800万劳斯莱斯,画面曝光引热议

缘木不求娱 浏览 11567

悬赏百万征集执法人员违法犯罪线索民企:已收到线索

潇湘晨报 浏览 77133

拉波尔塔:回到诺坎普,我流下了一些泪水

懂球帝 浏览 121
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1