关闭广告

NYU研究揭示:模型宽度与能力非线性相关

科技行者328人阅读


当我们使用ChatGPT或其他大语言模型时,可能很少想过这样一个问题:这些模型内部那些看似强大的组件,真的在高效地工作吗?就像一家大公司虽然员工众多,但可能存在大量的"摸鱼"现象一样,人工智能模型内部也可能存在类似的资源浪费问题。

纽约大学的研究团队Nandan Kumar Jha和Brandon Reagen在2025年10月发表的这项研究,就像给大语言模型做了一次"内部审计",专门检查模型中一个关键组件——前馈网络的工作效率。这项发表在arXiv预印本平台的研究(论文编号:arXiv:2510.00537v1),首次系统性地揭示了一个令人意外的现象:当我们让这些网络变得更宽时,新增的容量大多数都被浪费了。

这就好比一个餐厅的厨房,老板以为增加更多的炉灶就能提高出菜效率,但实际情况却是新增的炉灶大多数时间都在闲置,真正发挥作用的仍然是那几个核心炉灶。研究团队通过一套巧妙的"检测工具",发现了大语言模型中存在的这种"不对称浪费"现象,这个发现可能会彻底改变我们设计和优化人工智能模型的方式。

一、什么是前馈网络,为什么它如此重要?

阅读全文
版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

乌官员:修复卡霍夫卡水电站大坝至少需要5年时间

央视新闻客户端 浏览 91982

意媒:尤文今夏尝试签下格林伍德,若与莫塔携手可相得益彰

懂球帝 浏览 10521

湖人波澜不惊地以14分的优势再次战胜太阳队,内线的优势已经完全体现

趣看热点 浏览 25506

今日森林狼出手至少30次三分命中率达到60% 创造队史最佳纪录

直播吧 浏览 12580

吴昕你这么时髦是怎么个事?

时尚COSMO 浏览 13005

全国人大代表、东方财富董事长其实:加大对于早期科创的支持力度

时代周报 浏览 12051

擅自使用军机形象进行宣传 理想汽车回应

澎湃新闻 浏览 1013

本田终于听劝了,全新LOGO来了,即将使用!

DriveView汽车后视镜 浏览 12326

不在乎中国市场?全智贤方风波后仍未道歉,昔日傲慢模样全被扒

扒虾侃娱 浏览 1168

美媒称黄仁勋态度突然改变:他改口了 认为美国能赢

环球时报国际 浏览 5268

英媒:梅努担心能否参加世界杯,热刺和纽卡在考虑签下他

懂球帝 浏览 416

《向往》口碑翻车!官方以嘉宾清闲为豪?

萌神木木 浏览 482

特斯拉又双叒叕降价了! 美国Model S降幅超5%

智通财经网 浏览 18496

会不会打扮区别真的很大 这样穿衣才是真时尚

虎哥说衣不二 浏览 16365

古力娜扎高考成绩596分?后援会核实后回应

剧荒娱乐 浏览 17026

巴基斯坦与沙特签协议被指影响超越中东 引发多国震动

环球网资讯 浏览 11808

可盐可甜 风行T5 EVO女神版亮相成都车展

网易汽车 浏览 20673

一场酣畅淋漓的“涅槃重生” 小鹏汽车破局后立

盖世汽车 浏览 12137

马嵬坡之变主谋是陈玄礼?唐玄宗痛失杨贵妃竟然他想报复

趣看热点 浏览 25766

爆火的“表演饭”,开始被年轻人避雷

餐饮老板内参 浏览 586

被问是否戴着"带他们回家"标牌 以总理当众展示

环球网资讯 浏览 12710
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1