关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻18618人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

国产芯片龙头,市占率第一,华为、中兴通讯供应商,机构扎堆!

飞鲸投研 浏览 10964

岚图泰山将于11月上市 4颗激光雷达加持/还有后轮转向

网易汽车 浏览 429

我国新一代人造太阳首次放电,未来能源体系建设又走出新一步

趣看热点 浏览 25686

赛季末巴黎频造新大师,这次小黑能一黑到底吗?

网球之家 浏览 213

上海贵酒遭遇釜底抽薪

斑马消费 浏览 573

菲总统称中菲关系"走错方向" 外交部回应

澎湃新闻 浏览 74601

马蒂奇:C罗是我合作过的最佳球员,曼联更关心形象而非奖杯

直播吧 浏览 18553

奔驰誓言守护V12引擎,将继续推出十二缸车型

MOTO 浏览 1171

汪建民回应性侵指控:她的叙述没印象 愿跟她对质

网易娱乐 浏览 15823

卖楼抵债!“烘焙第一股”克莉丝汀关闭所有门店

21世纪经济报道 浏览 15270

"民营船王"33亿元入主杉杉 继母长子内斗2年双双出局

都市快报橙柿互动 浏览 605

美澳签85亿矿产大单 特朗普对澳大使说"我不喜欢你"

红星新闻 浏览 4774

重要通知!油价下调!加满一箱油省2元

央视财经 浏览 15939

Prada陷入代言人魔咒,品牌代言人该如何选择?

营销兵法 浏览 15542

做个绿色珠宝珍藏家,让可持续成为真正的珍贵

iWeekly周末画报 浏览 18917

苹果掏出所有家底!历数Vision Pro上市之时会有哪些“护航作品”

财联社 浏览 12114

中超-阿齐兹戴帽阿奇姆彭破门+伤退 三镇3-1送深圳四连败

直播吧 浏览 15024

全明星东部吊打西部!约基奇尬笑,球迷嘘利拉德,哈利伯顿沮丧

篮球资讯达人 浏览 11847

记者:浙江男篮全队抗议&王奕博暴怒的原因是裁判辱骂了王奕博

直播吧 浏览 12578

张凯丽34岁嫁给作家,偏偏生了个不省心的女儿?

娱乐看阿敞 浏览 465

凯斯因病退赛,小米辣放弃泼天富贵,压力娃登场即可稳拿百万巨奖

网球之家 浏览 173
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1