国内首个类ChatGPT模型来了！“MOSS”这个名字有点熟？

2023-02-21

　　Advance China IP Law Office

　　From :

　　来源：MOSS、上观等

　　2月20日，复旦团队发布国内首个类ChatGPT模型“MOSS”，该模型来自复旦大学自然语言处理实验室的邱锡鹏教授团队。当晚，由于“服务器流量过载”，该平台官网发布了一则说明，解释称“计算资源不足以支持如此大的访问量”，“给大家造成非常不好的体验和第一印象”，并致以真诚的歉意。

　　https://moss.fastnlp.top/

　　“MOSS”的名称来源？

　　来自系列电影《流浪地球》中的“550W”超级量子计算机（人工智能机器人），由于翻转后的“550W”在字形上与“MOSS”相近，故该机器人为自己取名为“MOSS”。

　　复旦团队在训练完成第一代模型的时候，正值流浪地球2热映，片中“MOSS”给团队每个人都留下了深刻的印象，因此便使用这个名称指代该模型，以表示团队对最前沿AI模型的不懈追求。

　　“MOSS”与ChatGPT有哪些异同？

　　“MOSS”可执行对话生成、编程、事实问答等一系列任务，打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。这条路径的走通，为国内学术界和产业界提供了重要经验，将助力大语言模型的进一步探索和应用。

　　作为国内第一个对话式大型语言模型，“MOSS”开发的基本步骤与ChatGPT一样，包括自然语言模型的基座训练、理解人类意图的对话能力训练两个阶段。

　　“MOSS”采用参数量为百亿级的自研模型进行训练。在对话能力训练阶段，OpenAI收集了至少几十万条人类指令——让各行各业的专业标注员写出指令回复，再将它们输入模型基座，以帮助ChatGPT逐步理解各种指令。复旦团队则采用不同的技术路线，通过让“MOSS”和人类以及其他对话模型都进行交互，显著提升了学习效率和研发效率，短时间内就高效完成了对话能力训练。

　　“MOSS”与ChatGPT的差距主要在自然语言模型基座预训练阶段。“MOSS”的参数量比ChatGPT小一个数量级，在任务完成度和知识储备量上，还有很大提升空间。

　　图片来源：MOSS项目主页

　　https://txsun1997.github.io/blogs/moss.html

　　据“MOSS”项目主页介绍，其与ChatGPT的主要区别在于：

　　MOSS的参数数量比ChatGPT少得多；

　　MOSS通过与人类和其他人工智能模型交谈来学习，而ChatGPT则通过人类反馈强化学习（RLHF）进行训练；

　　MOSS将是开源的，以促进未来的研究，但ChatGPT可能不会。

　　目前，这款人工智能助手已进入内测阶段，内测将在用户许可的情况下获取数据，还将收集用户的反馈意见，期待借此大幅增强其对话能力；并计划结合复旦在人工智能和相关交叉学科的研究成果，赋予其更多能力，如绘图、语音、谱曲和教学，加强其辅助科学家进行高效科研的能力等。

　　“MOSS”可能存在的“短板”？

　　中文水平不够高

　　“MOSS”最大短板是中文水平不够高，主要因为互联网中文网页干扰信息（如广告）很多，清洗难度很大。相较而言，该模型基座学习了3000多亿个英文单词，约300亿个中文词语，使其英文回答水平比中文高。

　　为此，复旦大学自然语言处理实验室正加紧推进中文语料的清洗工作，并将清洗后的高质量中文语料用于下一阶段模型训练，以有效提升其中文对话能力。

　　表现不够稳定

　　当前版本的“MOSS”表现不够稳定，有些回答存在事实差错或逻辑不顺。目前仅限内测，主要用于与用户交互迭代优化，不适合公测。

　　由于缺乏高质量的数据、计算资源和模型容量，“MOSS”仍然远远落后于ChatGPT。

　　需关注商标等知识产权现状

　　据不完全统计，目前“MOSS”商标申请信息共74条，已有32件商标被成功注册，申请人包括进出口、电子商务、高新技术等领域的多家公司及多个自然人，商标国际分类包括科学仪器、珠宝钟表、教育娱乐等。目前，仍有3件“MOSS”商标正在注册申请中。

　　“MOSS”将走向何方？

　　未来，科研团队将通过开源方式分享这项工作的成果，促进学术界和产业界对预训练语言模型的分析与研发。

　　预训练大语言模型的研发门槛很高，需要大量算力、训练语料和人工标注。在我国产业界，只有大型机构才有实力开发大模型。“MOSS”开源后，可有效降低预训练语言模型的研发和应用门槛，让中小企业在其基础上开发出智能客服、智能家居、人工智能律师等各种垂直类产品。由于“MOSS”的计算量相对不那么庞大，对中小企业而言适用性较高。

　　MOSS 体验链接：

　　https://moss.fastnlp.top/

　　MOSS 项目主页：

　　https://txsun1997.github.io/blogs/moss.html

　　· 更多精彩分享 ·

　　#快来关注“华进知识产权”视频号#

　　未完待续...

　　敬请期待！

　　// 2

　　// 3

　　想了解更多IP内容，敬请关注：

<<打造中国版 ChatGPT，国内有哪些学术力量能抢滩？