关闭广告

谁是AI之王?聊聊备受争议的AI评测与崛起的LMArena

硅谷101261人阅读

撰稿 |张珺玥

编辑 |陈茜

在大模型激战的当下,究竟谁更强?是OpenAI的GPT,还是Anthropic的Claude?是谷歌的Gemini,还是中国的DeepSeek?

当AI模型排行榜开始被各种刷分作弊之后,谁家大模型最牛这个问题就变得非常主观,直到一家线上排行榜诞生,它叫:LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域,LMArena上每天都有上千场的实时对战,由普通用户来匿名投票选出哪一方的回答更好。最近以来,很多AI研究者都纷纷发声,认为大模型竞赛的下半场,最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和,真正拉开差距的,可能将不再是谁的参数更多、推理更快,而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上,传统的Benchmark(基准测试)究竟存在什么问题,是已经过时了吗?LMArena的竞技场模式为什么会被视为一种新的标准?它的技术机制、公平性和商业化隐藏着怎样的挑战?而下一代的大模型评测,又可能会走向哪里?

(本文为视频改写,欢迎大家收看以下视频)

01

题库泄露、数据污染传统Be

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

以前看不上,现在恨不得演两集!

伊周潮流 浏览 12199

侯友宜“重启核电”主张掀热议,台媒:其全套能源政见对准经济选民

环球网资讯 浏览 14018

不再性感的谷歌将成下一个IBM?老龄化严重,不再支持创新,失去员工信任人才外流

新智元 浏览 11604

Utopai联手LG、中东主权基金加码韩娱,新模型颠覆AI视频格局!

机器之心Pro 浏览 86

大结局!俞敏洪董宇辉被偶遇,“挺董派”等着喝酒

萌神木木 浏览 12536

人类史上最贵打工合同,马斯克万亿薪酬方案获批!

汽车公社 浏览 146

女子疑杀夫藏尸 死者家属:1年前被告知只能由配偶报警

都市快报橙柿互动 浏览 107267

巴特勒谈绝杀:很容易 知道公牛最后一回合来不及布防

直播吧 浏览 12433

蔡卓妍带家人旅游 90岁奶奶拿拐杖蔡爸撞脸林子祥

素素娱乐 浏览 16291

菲律宾发布48页国安文件:除了南海还对台海表关切

看看新闻Knews 浏览 14337

苹果iOS 26.2开发者预览版Beta发布:大批功能改!锁屏也能自定义液态玻璃

快科技 浏览 176

亚洲电影节红毯,脸肿、笑容诡异,48岁蒋勤勤打了内娱女星的脸

娱乐圈笔娱君 浏览 11536

曾1600元一粒难求的片仔癀,如今跌至六七百元!药房:买得多可以优惠

红星资本局 浏览 353

展开激战!击落战机!苏丹多地武装冲突升级

环球网资讯 浏览 15279

中超-马莱莱破僵后伤退路易斯传射 申花2-0西海岸

网易体育 浏览 12127

路边停车累计欠费490元 车主拒缴:车被刮花没人管

封面新闻 浏览 5519

给 ChatGPT 们「投毒」,刻不容缓

爱范儿 浏览 15610

港交所陈翊庭:香港IPO发行量全球第一,近半来自A股公司!宁德时代股价翻倍

时代周报 浏览 392

事实证明,女人到了五六十岁别再去扮嫩!这样穿又优雅又显贵

静儿时尚达人 浏览 557

俄军抵达坠毁地点 美媒讨论“参战可能”

环球网资讯 浏览 18739

嫦娥五号成功落月,发回第一张高清月面照片

趣看热点 浏览 24987
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1