关闭广告

国内大模型与GPT-4较高下:语言知识能力接近,复杂推理仍是短板

第一财经资讯12048人阅读

1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0),同时在对部分主流大模型评测诊断的基础上,揭晓了年度大模型评测榜单,提到了国内大模型的优势与短板。

根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距,这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。不过,在中文场景下国内最新的大模型已展现出独特优势,尤其在语言、知识维度上接近GPT-4 Turbo的水平。

在客观评测能力排行上,整体来看大语言模型整体能力仍有较大提升空间。在百分制的客观评测基准中,GPT-4 Turbo(升级版GPT-4)在各项评测中均获最佳表现,也仅达到61.8分的及格水平。

OpenCompass2.0的分析结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4 Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0的排名较为靠前,反映了这些新模型具有较为均衡和全面的性能。


值得一提的是,此次大模型排行并未纳入所

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

英伟达H100刚上天,谷歌Project Suncatcher也要将TPU送上天

机器之心Pro 浏览 177

会穿搭的女人更有气质,春季背熟这些公式,年过四十也时尚好看

Yuki时尚酱 浏览 11103

奥特曼零食之父,要去IPO了

投资家 浏览 345

国安2-4海牛历史首次主场输给对手,此前12战10胜2平仅失3球

懂球帝 浏览 333

穆婷婷退圈,马苏沉寂,这部剧积压了7年才播,主角团全部洗牌!

不八卦会死星人 浏览 12434

外交部回应"APEC会议期间中美元首是否举行会晤"

界面新闻 浏览 4829

白敬亭带着无限流杀回来了,这剧真的很好看!

伊周潮流 浏览 1476

《王牌对王牌》最后一期为什么不请跑男家族?

趣看热点 浏览 25765

福建200亿国企董事长卸任,去年薪酬545万元

华美财经 浏览 369

Rivian R3亮相 提供三电机版套壳R2 售价低于4.5万美元

智车情报局 浏览 11687

法医谈货拉拉女孩跳车事件,从窗户跳下的可能性不大

趣看热点 浏览 183875

美军将领称"解放军计划2027年前统一台湾" 外交部回应

中华人民共和国外交部 浏览 95750

联合国官员:加沙惨状如末日电影

上观新闻 浏览 378

集度变极越,百度还造车吗?

刺猬公社 浏览 14062

5分险胜!东北虎以下克上,拼下第9胜剑指季后赛,前辽篮小将建功

环太平洋老正太 浏览 12526

ESPN:因内马尔的身体状况和高额薪资,桑托斯不急于和他续约

懂球帝 浏览 513

46岁郭柯宇气质真好 发型飘逸穿着简单

形象设计师飞飞 浏览 18932

楼市,又一个重大隐患……

杨国英观察 浏览 10248

中国汽车发动机新格局丨大众、丰田不再主流,谁主沉浮?

小鹏财经 浏览 463

苹果Vision Pro能否成为“下一台个人电脑”?

DeepTech深科技 浏览 15931

丰田连续第八届参展进博会,全面展示本地化成果

观察者网 浏览 133
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1