爆点资讯

撰稿｜张珺玥

编辑｜陈茜

在大模型激战的当下，究竟谁更强？是OpenAI的GPT，还是Anthropic的Claude？是谷歌的Gemini，还是中国的DeepSeek？

当AI模型排行榜开始被各种刷分作弊之后，谁家大模型最牛这个问题就变得非常主观，直到一家线上排行榜诞生，它叫：LMArena。

在文字、视觉、搜索、文生图、文生视频等不同的AI大模型细分领域，LMArena上每天都有上千场的实时对战，由普通用户来匿名投票选出哪一方的回答更好。最近以来，很多AI研究者都纷纷发声，认为大模型竞赛的下半场，最重要的事情之一就是重新思考模型评估。

因为当技术创新趋于饱和，真正拉开差距的，可能将不再是谁的参数更多、推理更快，而是谁能更准确地衡量、理解模型的智能边界。

在大模型评测上，传统的Benchmark（基准测试）究竟存在什么问题，是已经过时了吗？LMArena的竞技场模式为什么会被视为一种新的标准？它的技术机制、公平性和商业化隐藏着怎样的挑战？而下一代的大模型评测，又可能会走向哪里？

（本文为视频改写，欢迎大家收看以下视频）

题库泄露、数据污染传统Be

谁是AI之王？聊聊备受争议的AI评测与崛起的LMArena

央媒：傅园慧...

雷克萨斯全新...

詹姆斯退役，...

股东承诺增持...

有爱，大马丁...

毛不易演唱会...

一艘英国油轮遭胡塞武装袭击上面装着俄罗斯燃料

“交个朋友”朱萧木：未来将更多精力投入“减龄咖啡”创业，不会离开直播一线

徐亮：有些人心理阴暗总是希望国家队不好，输球了再骂也不迟

以前看不上，现在恨不得演两集！

侯友宜“重启核电”主张掀热议，台媒：其全套能源政见对准经济选民

不再性感的谷歌将成下一个IBM？老龄化严重，不再支持创新，失去员工信任人才外流

Utopai联手LG、中东主权基金加码韩娱，新模型颠覆AI视频格局！

大结局！俞敏洪董宇辉被偶遇，“挺董派”等着喝酒

人类史上最贵打工合同，马斯克万亿薪酬方案获批！

女子疑杀夫藏尸死者家属:1年前被告知只能由配偶报警

巴特勒谈绝杀：很容易知道公牛最后一回合来不及布防

蔡卓妍带家人旅游 90岁奶奶拿拐杖蔡爸撞脸林子祥

菲律宾发布48页国安文件：除了南海还对台海表关切

苹果iOS 26.2开发者预览版Beta发布：大批功能改！锁屏也能自定义液态玻璃

亚洲电影节红毯，脸肿、笑容诡异，48岁蒋勤勤打了内娱女星的脸

曾1600元一粒难求的片仔癀，如今跌至六七百元！药房：买得多可以优惠

展开激战！击落战机！苏丹多地武装冲突升级

中超-马莱莱破僵后伤退路易斯传射申花2-0西海岸

路边停车累计欠费490元车主拒缴：车被刮花没人管

给 ChatGPT 们「投毒」，刻不容缓

港交所陈翊庭：香港IPO发行量全球第一，近半来自A股公司！宁德时代股价翻倍

事实证明，女人到了五六十岁别再去扮嫩！这样穿又优雅又显贵

俄军抵达坠毁地点美媒讨论“参战可能”

嫦娥五号成功落月，发回第一张高清月面照片