爆点资讯

1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0），同时在对部分主流大模型评测诊断的基础上，揭晓了年度大模型评测榜单，提到了国内大模型的优势与短板。

根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距，这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过，在中文场景下国内最新的大模型已展现出独特优势，尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上，整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中，GPT-4 Turbo（升级版GPT-4）在各项评测中均获最佳表现，也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前，反映了这些新模型具有较为均衡和全面的性能。

值得一提的是，此次大模型排行并未纳入所

国内大模型与GPT-4较高下：语言知识能力接近，复杂推理仍是短板

新年伊始，自...

今年有气质的...

此皇帝曾做过...

文科生太多，...

这个邻国，要...

福原爱发推称...

中国女排很忙！上午力量下午基础蔡斌：世联赛是为亚运锤炼阵容

京东系高层大换防

罗体：谈判停滞，小基耶萨很有可能离开尤文

被上海素人街拍美到了！长裤拖地、穿裙露袜，却个个时髦洋气

江恩：什么是波段操作的铁律？3条准则看似简单，95%的人却做不到

祁发宝张开双臂的震撼瞬间祁发宝个人介绍

太丑了！腿粗女孩求求你们别再乱穿了！

英媒:为增加对俄压力英将把＂瓦格纳＂列为恐怖组织

烧央行废政府，彻底自由化，阿根廷逆天候选人赢下初选

44套可爱穿搭，假期结束继续美！

众星为高考学子加油打气周冬雨被曝高考仅286分

谢林汉姆：雅克松经验丰富，切尔西不应该放他离开

60岁阿姨靠穿搭火了！“简约款”穿出高级感，自然老去也很美

沪媒：新政是为保生存增外援提升观赏性但提升不了本土球员能力

郝蕾风波升级！被扒曾参演《狂野时代》闹掰，辛芷蕾发声打脸她

学会这些让小个子女生时髦一整个冬天

辛芷蕾飞升独一档，85花格局变了！

请“村长”当副总裁、拿下7000台订单，何小鹏：汇天飞行汽车2026年将量产

欧洲高官频频访乌许援助俄方回应:口头承诺

赵丽颖新片被曝提前杀青疑为进组新片和杨幂＂斗＂

二手房业主抱团＂保卫房价＂喊话:建议上调1万多别贱卖

报中共中央批准开除党籍1个月后副部级＂内鬼＂被逮捕

多人手机信号深夜同时消失出海7次未带回1条鱼被抓捕

意媒：3后卫阵型不再奏效，休赛期后皮奥利可能变阵回到4-2-3-1