关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12050人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

被上海素人街拍美到了!长裤拖地、穿裙露袜,却个个时髦洋气

潮人志Fashion 浏览 12440

江恩:什么是波段操作的铁律?3条准则看似简单,95%的人却做不到

60秒商业解读 浏览 11619

祁发宝张开双臂的震撼瞬间祁发宝个人介绍

趣看热点 浏览 25695

太丑了!腿粗女孩求求你们别再乱穿了!

她暖 浏览 14568

英媒:为增加对俄压力 英将把"瓦格纳"列为恐怖组织

环球网资讯 浏览 18246

烧央行废政府,彻底自由化,阿根廷逆天候选人赢下初选

郎club 浏览 14020

44套可爱穿搭,假期结束继续美!

In风尚 浏览 14179

众星为高考学子加油打气 周冬雨被曝高考仅286分

传媒一班 浏览 16281

谢林汉姆:雅克松经验丰富,切尔西不应该放他离开

懂球帝 浏览 540

60岁阿姨靠穿搭火了!“简约款”穿出高级感,自然老去也很美

静儿时尚达人 浏览 565

沪媒:新政是为保生存 增外援提升观赏性但提升不了本土球员能力

直播吧 浏览 12479

郝蕾风波升级!被扒曾参演《狂野时代》闹掰,辛芷蕾发声打脸她

萌神木木 浏览 130

学会这些让小个子女生时髦一整个冬天

Yuki女人故事 浏览 12715

辛芷蕾飞升独一档,85花格局变了!

Yuki女人故事 浏览 1481

请“村长”当副总裁、拿下7000台订单,何小鹏:汇天飞行汽车2026年将量产

时代财经 浏览 521

欧洲高官频频访乌许援助 俄方回应:口头承诺

环球网资讯 浏览 11804

赵丽颖新片被曝提前杀青 疑为进组新片和杨幂"斗"

萌神木木 浏览 12426

二手房业主抱团"保卫房价" 喊话:建议上调1万多 别贱卖

每日经济新闻 浏览 98825

报中共中央批准开除党籍1个月后 副部级"内鬼"被逮捕

上观新闻 浏览 74173

多人手机信号深夜同时消失 出海7次未带回1条鱼被抓捕

极目新闻 浏览 4774

意媒:3后卫阵型不再奏效,休赛期后皮奥利可能变阵回到4-2-3-1

直播吧 浏览 19290
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1