关闭广告

为什么复旦MOSS大模型的中文水平不如英文?

澎湃新闻18619人阅读

·“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
2月20日晚间,复旦大学邱锡鹏教授团队发布国内首个类ChatGPT模型MOSS,引发各界人士参与内测的热情。一个显著的反馈是,MOSS的英文回答水平比中文高,这在公众与ChatGPT的互动中也有类似体现。为何如此?
位于深圳的粤港澳IDEA研究院认知计算与自然语言中心文本生成算法团队负责人王昊对澎湃科技(www.thepaper.cn)表示,“数据质量的差别是主要瓶颈之一。相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。”
MOSS研究团队也坦诚,“MOSS的英文回答水平比中文高,因为它的模型基座学习了3000多亿个英文单词,中文词语只学了约300亿个。”
王昊认为,对于中文来说,高质量无监督语料和指令数据尤其严重不足。因此,中文自然语言处理领域需要更多的投入和努力来积累高质量的数据,并将其开源,以促进中文自然语言处理的发展。
清华大学计算机科学与技术系长聘副教授、聆心智能创始人黄民烈曾制定了全球首个《AI对话系统分级定义》,他在接受澎湃科技(www.thepaper.cn)采访时表示,“从数据和应用的角度来说,中国的科技企业目前来看有比较大的优势。从数据角度来说,国内其实是产出了大量数据的,但数据的准确性和可靠性如果能够提上去,对于模型的学习和生成来说都会帮助很大。”
“而国内的应用场景和市场其实是更加广阔的,在新闻、广告、教育等等领域,而应用

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

网曝王心凌出场费超三百万!百亿帅气总裁变迷弟

盖饭娱乐官方号 浏览 18696

谢霆锋演唱会遇连场暴雨,苏炳添携妻探班引热议

黔乡小姊妹 浏览 1095

特朗普证实:已授权中情局行动

澎湃新闻 浏览 506

世界杯让077休赛期持续苦练!斯洛文尼亚主帅:一切需他自己评估

直播吧 浏览 14095

靠识别AI一炮而红 GPTZero又在整新活:联合传媒大佬识别假新闻

财联社 浏览 17743

镜报:格拉利什对阵曼城需要回避,这让英超的公平性受到损害

懂球帝 浏览 514

媒体:美国船只被导弹击中 胡塞武装报复第一次得手

北京日报客户端 浏览 12255

郭晶晶:无边流动,拾光见常

时尚COSMO 浏览 10977

错过靳东,嫁给父亲看中的女婿,如今她怎么样了

楠楠自语 浏览 360

加密货币行业迎来“分水岭时刻”:SEC首次批准比特币现货ETF

财联社 浏览 12150

直击东部战区练兵备战现场 感受火炮射击高燃瞬间

环球网资讯 浏览 15567

想要领跑高端国货品牌,麦吉丽底气源于什么?

网易财经 浏览 19084

马国明透露将与汤洛雯在年底前结婚 自曝想生两个

网易娱乐 浏览 19359

男子将热水器钢管通电致妻子触电身亡 女儿向法院求情

红星新闻 浏览 7006

中美科技角力20年:从山寨王国到弯道超车

字母榜 浏览 17592

拜仁高层:希望凯恩长期为拜仁效力

体坛周报 浏览 981

60岁陈冲不服老 腰细腿长身材一点没走样

双鱼爱畅谈 浏览 19208

冠军魔咒再应验,高芙总决赛屡屡被报一箭之仇,黯然出局

网球之家 浏览 113

四维图新孟庆昕:全面AI转型,2027年或可盈亏平衡

网易汽车 浏览 310

从S25 Edge到iPhone Air:超轻薄旗舰这么快就要凉透了?

雷科技 浏览 228

不再能参与后期制作,还担心面临AI威胁!好莱坞编剧日子不好过

环球网资讯 浏览 13872
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除
沪ICP备20017958号-1