cha

中国版开源ChatGPT要来了

  ChatGPT是由美国人工智能公司OpenAI研发的聊天机器人,于2022年11月发布。

  仅花了60天,就达到了月活过亿,成为史上用户增长最快的互联网应用。一时间,微软、谷歌等互联网巨头纷纷响应。

  作为AI前沿探索应用的ChatPGT,有望引领下一轮科技革命。在该领域,互联网巨头投入与技术积累有着先天的垄断优势。

  拥有全球数量众多互联网企业的中国,在巨头的优势下如何追赶ChatGPT潮流?这是一个既现实又残酷的问题。

  借鉴Linux打败了Windows Sever,MySQL打败了Oracle的案例,代码开源似乎为中国AI的赶超,提供了一个“1+1>2”的思考。

  2月9日,昆仑万维(300418.SZ)在其官方微信公众号上宣布与奇点智源合作,将在今年内发布中国版类ChatGPT代码开源。

  “代码开源有望让众多中国本土互联网企业,在追赶ChatGPT的技术潮流中,发挥好自己独有的优势。”昆仑万维CEO方汉在接受《产业资本》专访时表示,在AI领域,开源也同样会极大刺激中小开发团队的增多,共同完善中国版ChatGPT。

  2022年12月15日,昆仑万维率先发布「昆仑天工」,AI生成能力目前已覆盖图像、音乐、文本、编程等内容模态,几乎同步于ChatGPT。

  昆仑天工这一名称的由来,是明朝科学家宋应星所著《天工开物》,一本古老的技术百科全书。这一名称寄托着昆仑万维集团对技术的原始信仰。

  目前,昆仑万维正致力于开源模式下,AIGC(智能文本生成 )模型算法上的技术创新。

  GPT-4有望全面通过图灵测试

  产业资本:请问您如何看待ChatGPT所创造的互联网奇迹?目前ChatGPT又处在一个什么技术水平?

  方汉:2019年底我看到GPT3发布之后,就敏锐地意识到一场改革即将来临。而ChatGPT 的出现,更是具有划时代的意义,它证明了一个技术方向的成立,也就是根据人的反馈来进行强化学习(RLHF)Reinforcement Learning from Human Feedback 来优化模型能力。与GPT-3等大模型相比,ChatGPT回答更全面,可以在大范围、细节问题上给出较合理准确的答案,相较以往的大模型知识被挖掘得更充分。

  在国际学术界看来,ChatGPT / GPT-3.5 是一种划时代的产物,它与之前常见的语言模型 (Bert/ Bart/ T5) 的区别,几乎是导弹与弓箭的区别,一定要引起最高程度的重视。

  产业资本:听说您也第一时间应用体验了ChatGPT,请问它给了您一个什么样的体验?您准备给它打多少分?理由是什么?

  方汉:我觉得可以打7-8分,它是用RLHF的回馈机制强训 GPT-3.5后得出来的产品,比现有模型的超越性体现在它可以给出更近似正确的回答,极大地提高了大语言模型的输出结果,让AI效果得到了质的提升。

  但是,ChatGPT并非完美,它最大的问题是你在问它一个问题的时候,它并不是理解了这个问题,而是按照历史经验给你一个它认为你觉得正确的答案,它仍然是在模仿人类的回答。

  简而言之,它现在可能可以替代百分之二三十的底层工作,但是它仍然不是真正意义上的人工智能。真要实现我们想象中的那种人工智能可能还有很多步要走。

  ChatGPT还需要一个很大的改变空间,它目前所有数据是2021年之前的数据,我们需要给它更详细的数据,更新鲜的数据,让它能够给出更智能的回答。

  产业资本:未来GPT技术发展将朝着一个什么样的路径演变?

  方汉:我觉得这股技术热潮不是一个线性发展的过程,而是一个螺旋式发展的过程。这段热潮过了之后,那么可能有一段瓶颈期,然后随着下一个新的更厉害的应用出来又会引起新的热潮,一波又一波。

  从演进路径上看,初代GPT-3 模型通过预训练获得生成能力、世界知识和 in-context learning。然后通过 instruction tuning 的模型分支获得了遵循指令和能泛化到没有见过的任务的能力。经过代码训练的分支模型则获得了代码理解的能力,作为代码训练的副产品,模型同时潜在地获得了复杂推理的能力。结合这两个分支,code-davinci-002(代码达芬奇-002)似乎是具有所有强大能力的最强GPT-3.5 模型。接下来通过有监督的 instruction tuning 和 RLHF 通过牺牲模型能力换取与人类对齐,即对齐税。RLHF 使模型能够生成更翔实和公正的答案,同时拒绝其知识范围之外的问题。

  后续GPT-4已有传言称其可以全面通过图灵测试,该测试是评价机器是否具备人类智能的方法,这无疑会是AI领域的里程碑。

  产业资本:有一些研报称,如果再往上提升ChatGPT的能力,需要投入成本会呈几何倍增加,这是真的吗?

  方汉:对,如果技术没有任何革命,从目前的现状看,的确是这样,GPT-3的训练成本大概是500万美金一次,ChatGPT训练成本大约千万美金一次,成本肯定是非常高,但我认为有两个方向可以去降低成本。

  第一,技术的提升。根据摩尔定律,技术的改进会降低训练成本,比如咱们80时代一台电脑要2万块钱,但是现在几千块就能买到比过去功能还要强大得多的电脑,这就是技术提升后成本会下降的典型案例;

  第二,我们通过开源让更多的人来参与到这个领域中,类似进行分布式训练,也能降低成本。

  只有开源才能百花齐放

  产业资本:在这个过程中,昆仑万维又将如何引领或抓住技术潮流?

  方汉:ChatGPT还是一门技术,它不是一个产品,所以微软想把ChatGPT接入office、接入必应搜索,就是试图把技术产品化。我们认为,ChatGPT产品化方向非常广泛,所有在电脑上可以闭环的工作都可以实现产品化。因为昆仑万维的业务与内容生产相关性强,我们有浏览器、游戏、音乐、社交等业务,所以可以落地ChatGPT的方向非常广泛。

  昆仑万维也一直?常注重AI?向,在机器学习训练硬件和投?巨?,从2020年开始研究昆仑天工项目,组建了近百人的研发团队。目前“昆仑天工”的AI内容生成能力目前已覆盖图像、音乐、文本、编程等内容模态,昆仑万维已是目前国内AIGC领域全面布局,首个全身心投入AIGC开源社区的公司。2022 年 12?,Skywork AIGC(昆仑天?)开源项目发布以来,获得了?量好评,成为 AI 开源领域成?最快的项?之?,?前已有中国移动咪咕等公司测试使?。

  产业资本:昆仑万维为什么要选择开源中?类GPT-3?模型以及类chatGPT模型?

  方汉:不可否认,中国的IT技术整体落后于欧美,但近二十年来能迅速拉近了差距的?个重要因素是因为有开源软件的存在,让广大的中国开发者和初创企业可以弯道超车。

  此外通过开源模式,会极大刺激中小开发团队的增多,而不仅仅是?型互联网公司独霸基础设施的局面。中小企业能够满足一些长尾需求,做到百花齐放。长尾需求也是重要的不容忽视的市场需求。

  举?个例?,Open AI发布的文生图产品Dall-e 2 是?款闭源产品,发布半年后才有开源产品Stable-Diffusion 发布,但是因为开源的强大生命力,大量开发者基于开源的Stable-Diffusion 制作适合自己的模型和应用,目前在Github上基于Dall-e 2的项?只有202个,而基于StableDiffusion的项?有2758个,另外一个例子是AI研发的底层平台,开源的Pytorch已经击败闭源的所有竞争对手,成为使用人数最多的底层平台。

  重塑行业赛道

  产业资本:未来需要解决的痛点或难点又是哪些?特别是ChatGPT火了后,对AIGC未来发展重点又会有哪些调整?

  方汉:我们特别看好大模型的应用,因为它可以用来生产各种各样的内容。我们还是更关注C端的,所以我们希望做一些应用能够让用户更快地创作内容、更好地创作内容、以更低成本创作内容,全面赋能用户。

  所以,我们下一步一定要想办法让这些模型能够辅助人类更快的生成内容,而不是只是生产素材就完事了,不能说只画个图就足够了,我们要想一下什么样的图用户才愿意看,什么样的视频用户还愿意看,这里面还有很多的工作要做。

  接下来我们会对模型进行优化,第一个方向是我们要紧跟业内先进水平,要训练自己的ChatGPT;第二个方向是我们要让文本生图、文本生代码、以及文本生文本向实际应用上靠近。像OpenAI这类的公司不太做应用,但我们自己会做应用,然后用应用上的需求去反推我们对模型训练上的需求,这是我们跟OpenAI的区别。

  产业资本:在去年昆仑天工发布会上,您着重点介绍了AIGC在昆仑万维部门内运用,节省了很多的费用,一些游戏曲子的谱写甚至可以替代人工。下一步针对C端的布局上,昆仑万维又有什么样的布局?请您详细地介绍一下?

  方汉:首先,AIGC对现有的行业最主要的影响还是降本增效,而且这个降本增效不是百分比的降本增效,而是十倍、百倍的降本增效,能给B端省钱,给C端省事,这样会极大提高内容生产的效率,解放生产力。所有的内容行业,包括游戏行业和影视行业,都有非常强的市场需求。

  对于B端企业来说,之前要消耗的大量的外包成本都可以节约下来,不光是预算成本,还有时间成本。

  对于很多长尾行业,AIGC也能极大提高大家的内容生产效率,甚至重塑行业赛道,衍生出更多的产业机会。总之我非常看好它的前景。

  两年来,我们已经在昆仑天工上投入了大量的研发工作,这些都是扎扎实实的工作。但工作做得越多,越感受到市场之大,技术可能性之多。因此,我们也呼吁,希望通过开源吸引更多创业者和商业公司加入到中国的AIGC事业之中。

  人物介绍:方汉从2008年3月协助周亚辉先生创立昆仑万维,拥有29年的互联网从业经验。不仅是中文Linux奠基人、中文Linux四剑客之一、也是国内最早的网络安全专家;从1994年开始参与和倡导开源运动,属于互联网领域很早就倡导开源的人士。


您可能还会对下面的文章感兴趣:

登录 注册 退出