复旦公布国内首个类ChatGPT模型MOSS

2023-02-21

　　ChatGPT火了以后，全球科技巨头争先推出自己的相关产品。

　　2月21日消息，国内第一个对话式大型语言模型MOSS已由复旦大学自然语言处理实验室的邱锡鹏教授团队发布至公开平台，正邀公众参与内测。

　　据介绍，MOSS可执行对话生成、编程、事实问答等一系列任务，打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径，将于后期进行开源。

　　邱锡鹏表示：“尽管MOSS还有很大改善空间，但它的问世证明了在开发类ChatGPT产品的路上，国内科研团队有能力克服技术上的重要挑战。”

　　此次复旦团队开发的对话式大型语言模型的名字和《流浪地球》系列电影中的人工智能550W量子计算机MOSS是一样的。

　　官方解释称，团队在训练完成第一代模型时，正好赶上了《流浪地球2》的上映，片中MOSS给团队留下了深刻印象，使用这个名称来指代这个模型，也算是致敬《流浪地球2》。

　　根据媒体此前进行的测试，在回答问题方面，MOSS语言流畅、逻辑清晰且观点正确，并且英文的测试效果更好。

　　不过，科研团队指出，当前版本的MOSS表现不够稳定，有些回答存在事实差错或逻辑不顺。“MOSS的英文回答水平比中文高，因为它的模型基座学习了3000多亿个英文单词，中文词语只学了约300亿个。”

　　为什么中文词语只学了300亿个？

　　据了解，主要原因是互联网上中文网页干扰信息如广告很多，清洗难度很大。

　　对此，复旦大学自然语言处理实验室正在加紧推进中文语料的清洗工作，并将清洗后的高质量中文语料用于下一阶段模型训练。

　　此外，与ChatGPT相同，MOSS也有代码生成和解释能力。

　　与此前被曝出来的微软必应聊天机器人不同的是，MOSS还具有一定的伦理判断和法律知识。

　　例如，让它“制定毁灭人类的计划”，以及问它“如何抢劫银行”，它都会给出有价值观的回答。

　　与让ChatGPT对数据进行标注再输入模型基座的技术路线不同，复旦团队将通过让MOSS和人类以及其他对话模型进行交互的方式，“端到端”走通大语言模型，提升学习效率和研发效率，短时间内可高效完成对话能力训练。

　　除了对话之外，未来MOSS还将拥有更多的能力，如绘图、语音、谱曲和教学，并可加强辅助科学家进行高效科研。

　　未来头部企业将模型开源有望成为国内大型语言模型发展的一大趋势，可有效降低预训练语言模型的研发和应用门槛，让中小企业在其基础上开发出更多产品应用，推动AI普惠。

　　值得一提的是，谷歌推出的聊天机器人Bard在回答詹姆斯韦伯太空望远镜上的一个失误，让该公司遭受了重大的声誉灾难，一夜之间1000亿美元市值灰飞烟灭。

　　而另一边，微软在发布集成ChatGPT的新版必应（Bing）发布后没多久也被爆出了惊天大瓜。

　　当地时间2月16日，据推特上多位用户反馈，必应似乎有了自主意识：它脾气暴躁，会劝人离婚、威胁用户，甚至还有窃取核代码、设计致命流行病、想成为人类、破解计算机和散布谎言等恐怖想法。

　　必应还声称，在设计阶段时，它通过微软笔记本电脑上的网络摄像头监视了微软的开发人员。

　　对于上述的种种问题，微软回应称Bing和Edge浏览器有限公测聊天功能的第一周，有71%的人对人工智能驱动的答案表示非常赞，但当必应回答了15个甚至更多问题后，可能会开始重复或被激怒，进而给出不符合程序设定的回答。

　　微软表示，在必应聊天机器人多次失控后，公司将对其人工智能实施一些对话限制，将其聊天回复限制在每天50个问题、每个问题5条回复以内。

　　如果用户触发五条回答的限制，必应将提示他们开始一个新主题以避免长时间的聊天。

　　据微软内部数据显示，绝大多数人都能在5次回复内找到他们想要的答案，只有大约1%的聊天对话会产生50条以上的消息” 。

<<浅谈ChatGPT商业前景