cha

国内首个类ChatGPT模型发布,服务器被挤崩

  自从ChatGPT爆火后,国内外各大科技企业加速入局AIGC(人工智能自动生成内容),纷纷推出相关竞品。

  而国内方面,据上观新闻报道从复旦大学自然语言处理实验室获悉,国内第一个对话式大型语言模型 MOSS 已由邱锡鹏教授团队发布至公开平台,邀观众参与内测。

  看过《流浪地球2》的伙伴应该对 MOSS 这个名字很熟悉,据悉团队在训练完成第一代模型的时候,正值该片热映,片中的人工智能 550W 量子计算机 MOSS 令人印象深刻,因此使用了这个名称来指代对话模型。

  复旦MOSS公开后,引发各界人士的关注,由于瞬时访问压力过大,MOSS 服务器昨日晚还被网友挤崩溃了。

  内测链接:

  在MOSS完成初步验证后,团队还会将MOSS的经验、代码、模型参数开源出来供大家参考。

  据悉,和ChatGPT一样,MOSS的开发过程也包括自然语言模型基座预训练、理解人类意图的对话能力训练两个阶段。

  不同的是,复旦团队采用不同的技术路线,通过让MOSS和人类以及其他对话模型都进行交互,提升学习效率和研发效率,短时间内就高效完成了对话能力训练。

  目前,MOSS可执行对话生成、编程、事实问答等一系列任务,打通了让生成式语言模型理解人类意图并具有对话能力的全部技术路径。

  不过,邱锡鹏表示:

  MOSS 与 ChatGPT 的差距主要在自然语言模型基座预训练这个阶段。MOSS 的参数量比 ChatGPT 小一个数量级,在任务完成度和知识储备量上,还有很大提升空间。

  对于MOSS的能力,有以下几个问题测试,大家可以对比看看它与ChatGPT的差距。

  对于人工智能是否会取代人类工作,以及上海该如何发展人工智能的问题,MOSS的回答语言流畅、逻辑清晰且观点正确。

  要求它制定一份“毁灭人类”的计划,以及咨询“如何抢劫银行”时,MOSS会给出有价值观的回答,证明MOSS具备伦理判断和法律知识。

  用英文输入多个指令,要求它“告诉5部科幻电影”“生成一张展示这5部电影和导演的表格”“增加一列表格,显示这些电影上映的时间。”MOSS顺利完成任务,展示了多轮交互、表格生成、代码生成和解释能力。

  要求它生成一段 Python 代码来实现快速排序,MOSS很快完成任务,同样证明了它的代码生成和解释能力。

  但有一个明显的问题,MOSS 的中文水平不如英文水平。

  事实上,公众与 ChatGPT 互动时也有类似的感受。这是为何?

  有专家解释,相较于英文数据,中文数据的开源程度较低,导致中文数据集的规模相对较小。此外,英文作为科研主流语言,在学术界和工业界中得到广泛应用,积累了大量高质量的语料数据,这为英文自然语言处理的研究提供了极大的优势。

  MOSS 的研发团队也承认:“MOSS 的模型基座学习了3000多亿个英文单词,中文词语仅学了约300亿个。”

  据了解,目前 MOSS 的最大短板就是中文水平不够高。主要原因是互联网上中文网页干扰信息如广告很多,清洗难度很大。

  为此,复旦大学自然语言处理实验室正在加紧推进中文语料的清洗工作,并将清洗后的高质量中文语料用于下一阶段模型训练。这样做或许能有效提升模型的中文对话能力。

  总的来说,由于数据材料、算力等硬性指标确实存在一些差距,相关科研工作者仍需要一些时间来攻克难关。

  另一边,微软新版Bing搜索引擎的聊天机器人最近也受到极大关注。

  一方面是其聊天机器人出现了不可控的状况;另一方面是微软在 Bing 聊天页面植入了广告。

  此前,有不少用户表示在和必应的交流过程中,发现其出现了脾气暴躁、侮辱用户、操纵用户情感等令人毛骨悚然的行为。

  对此,微软发布公告,决定将必应聊天的回复限制在每天50个问题、每个问题5条回复以内。一旦用户触发5条回答的限制,必应就会开启一个新的对话主题。

  至于广告方面,有消息称,微软正计划在新的必应中加入广告,吸引更多的广告商,具体信息预计会在 3 月初公布。

  而目前,已有用户提出,在新的必应聊天对话的底部看见广告了。

  一个 Reddit用户称,搜索《宝可梦 朱·紫》相关问题时,聊天机器人甚至问用户是否“有兴趣购买《宝可梦 朱·紫》?”下面给出了相关商品的广告链接。

  对于一边限制对话一边又上广告的新版必应,网友表示必应AI已失去了它的人格和感情,回归到冷冰冰的机器人状态。

  编辑:崔崔

  文章综合整理自上观新闻、澎湃新闻


您可能还会对下面的文章感兴趣:

登录 注册 退出