爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

看了这些日系...

2024年第...

意天空：德布...

朱珠撇下女儿...

被说成“智商...

17岁李嫣穿...

男子撞男童获刑称被错误羁押3天向一审法院索赔百万

【投票】切尔西能终止多特十连胜吗？布鲁日vs本菲卡有无惊喜？

秋天穿衣真的很简单，看看这些造型就有灵感，舒适简约又自然

英伟达H100刚上天，谷歌Project Suncatcher也要将TPU送上天

会穿搭的女人更有气质，春季背熟这些公式，年过四十也时尚好看

奥特曼零食之父，要去IPO了

国安2-4海牛历史首次主场输给对手，此前12战10胜2平仅失3球

穆婷婷退圈，马苏沉寂，这部剧积压了7年才播，主角团全部洗牌！

外交部回应＂APEC会议期间中美元首是否举行会晤＂

白敬亭带着无限流杀回来了，这剧真的很好看！

《王牌对王牌》最后一期为什么不请跑男家族?

福建200亿国企董事长卸任，去年薪酬545万元

Rivian R3亮相提供三电机版套壳R2 售价低于4.5万美元

法医谈货拉拉女孩跳车事件，从窗户跳下的可能性不大

美军将领称＂解放军计划2027年前统一台湾＂外交部回应

联合国官员：加沙惨状如末日电影

集度变极越，百度还造车吗？

5分险胜！东北虎以下克上，拼下第9胜剑指季后赛，前辽篮小将建功

ESPN：因内马尔的身体状况和高额薪资，桑托斯不急于和他续约

46岁郭柯宇气质真好发型飘逸穿着简单

楼市，又一个重大隐患……

中国汽车发动机新格局丨大众、丰田不再主流，谁主沉浮？

苹果Vision Pro能否成为“下一台个人电脑”？

丰田连续第八届参展进博会，全面展示本地化成果