复旦放大招,国内首个类ChatGPT大模型开放测试!《流浪地球》MOSS照进现实
21.02.2023
本文字数:1632,阅读时长大约3分钟
导读:ChatGPT的模型拥有上千亿的参数,背后有大量的人力进行数据标注。中国团队要在短时间内赶超并不容易。
作者 |第一财经 钱童心
国内多个团队正在开发类似ChatGPT的大模型。2月20日,复旦大学率先向公众发布了国内首个公开亮相的对话式大型语言模型MOSS。
第一财经记者登录公开平台https://moss.fastnlp.top/,目前使用该系统需要邀请码,若无邀请码,输入手机号后可加入“等待名单”。不过当天深夜记者试图再登录该系统,网站显示“服务器载量过大,请于明天再试”。其他多名用户也向第一财经记者反映了同样的问题。
第一财经记者随后联系了MOSS系统开发团队,相关负责人表示,由于当晚系统公开后访问人数过多,可能导致服务器响应慢。
数据规模是主要限制
MOSS系统由复旦大学自然语言处理实验室邱锡鹏教授团队开发,可执行对话生成、编程、问答等任务。该项目还得到了上海人工智能实验室的支持,后期有望通过开源方式和业界社区分享。
目前,国内多家互联网巨头企业都在竞相开发ChatGPT类似的大模型,但尚未有任何已经公布的产品。大模型的训练需要漫长的过程,例如微软自2016年起就已经开始做对话机器人。
ChatGPT的模型拥有上千亿的参数,背后有大量的人力进行数据标注。中国团队要在短时间内赶超并不容易。
“ChatGPT这样的大模型能开发成功非一日之功,背后是大量的数据收集。对于MOSS而言,与ChatGPT的主要差距在于数据的规模,除了学校拥有的一些科研数据之外,现在向公众开放内测,也是希望能够通过大规模的数据来提升训练的能力。”一位了解该模型开发的相关人士告诉第一财经记者。
目前,国内训练人工智能软件的主要障碍在于互联网或其他数据集当中高质量中文文本的缺乏。作为ChatGPT的底层程序,GPT吸收了数十万篇英文学术论文、新闻文章、书籍和社交媒体帖子来学习构成语言的模式;而中国互联网公司一些对标ChatGPT的大模型,主要接受中文数据以及来自维基百科、Reddit等的英文数据训练。
业界针对MOSS系统关注的主要问题是模型的具体参数以及训练数据的方式。根据复旦团队的说法,MOSS的参数量比ChatGPT小一个数量级,在任务完成度和知识储备量上,还有很大提升空间。
不同于ChatGPT对数据进行标注再输入模型基座的技术路线,复旦团队通过让MOSS和人类以及其他对话模型进行交互的方式,“端到端”走通大语言模型,提升学习效率和研发效率,短时间内可高效完成对话能力训练。
除了对话之外,未来MOSS还将拥有更多的能力,如绘图、语音、谱曲和教学,并可加强辅助科学家进行高效科研。
打造开源模型推动AI普惠
一位业内人士告诉第一财经记者:“顶尖学府顶尖人才开发出的大模型值得期待,但现在还看不出训练数据的主要来源,如果真的能够实现编程等功能,那么这个数据规模一定不会小,需要大量资金的投入。”
由于大型语言模型预训练的研发门槛和运营成本都很高,需要大量算力、语料训练以及人工标注,只有大型机构才有实力开发大模型。有统计数据显示,假设ChatGPT的月活用户为1000万,那么每天的运行成本大约为100万美元。一些公司计划将精力集中在客户服务等特定垂直行业,而不是押注于更广泛的对话聊天机器人。
未来头部企业将模型开源有望成为国内大型语言模型发展的一大趋势,可有效降低预训练语言模型的研发和应用门槛,让中小企业在其基础上开发出更多产品应用,推动AI普惠。
上周,北京市经济和信息化局在一份《人工智能产业发展白皮书》中提出,全面夯实人工智能产业发展底座,支持头部企业打造对标ChatGPT的大模型,着力构建开源框架和通用大模型的应用生态。
业内认为,有必要引导企业、高校、科研院所、新型研发机构、开源社区等围绕人工智能关键核心技术创新协同攻关。清华大学国强教授、智能产业研究院首席研究员聂再清预测,我国可能会打造对标ChatGPT的多种形式的开源版本,可实现多机构共享。“未来学校和企业一定会在这方面有一定程度的合作。”他对第一财经记者表示。
不过在此类AI聊天机器人软件正式向公众普及之前,还有诸多复杂的问题待解。据悉,近期复旦大学召集了十几家人工智能公司的高管和学者,分析ChatGPT 的发展、潜在用例以及所带来的安全风险。