i-Refill | ChatGPT爆火背后,AI应用层已经到来
#i-Refill
欢迎来到这周的i-Refill!
这次的话题依旧与AI有关。很多人都预测 2023 年将是 AI 之年。但 AI 显然不是今年才开始爆发或”炒“起来的。2022 年图像生成工具以及聊天工具 ChatGPT 等消费者化是人工智能开始普及应用的标志,2023 年这股趋势只会愈演愈烈。
今天推荐的文章主要剖析了 AI 的发展和用例,也许我们将迎来继农业革命、工业革命以来的第三种通用技术的普及。文章来自编译,希望对你理解AI有更多的帮助。
全文共4893字
阅读时间约5min
2022 年取得突破的生成式人工智能是自十多年前移动和云计算兴起以来最引人注目的技术。平台层正在钙化,我们正目睹着令人兴奋的应用层的萌芽——这些产品有可能成为数十亿人日常生活的一部分。
这篇文章的目的是研究 AI 这一时刻背后的“为什么是现在”,并探索初创企业可以如何利用 AI来进行开发。
01 搭好舞台
在过去十年里,有两股重要力量推动了技术的发展:分别是移动和云计算。
移动促进了大型消费互联网公司的崛起:Uber 与 Lyft、Instagram 与 Snap、Robinhood 与 Coinbase 。这些公司基本上都成立于 2009 年至 2013 年间。数字广告在 2010 年代迅速转向移动设备,Facebook 等桌面时代的公司不得不争先恐后地重塑业务。
云计算则支撑了软件即服务 ( SaaS ) 的爆发式增长,并让数据变成企业最宝贵的资源(“数据就是新的石油”云云)。这一领域的新兴公司基本上也都成立于 2009 年至 2013 年之间,其中包括 Slack 与 Airtable 、Stripe 与 Plaid、Snowflake 与 Databricks 等。
从 2015 年到 2022 年间,存储在云端的企业数据占比翻了一番:
存储在云端的企业数据;资料来源:Statista
移动和云计算让 2010 年代成为技术领域非常非常好的十年。
2020 年代最引人注目且最有可能推动技术发展的力量是什么?也许是人工智能。人工智能在过去几年中得到了显著改善。直到最近,Gmail 的自动补充句子功能几乎还没法用;但现在已经好得吓人。Facebook 用户将认识到 AI 在识别照片里面的朋友方面已变得有多么出色;实际上,Facebook 的 DeepFace 引擎现在比人类还要擅长面部识别。就在去年夏天,我们看到了从 Stable Diffusion 到 Midjourney、ChatGPT 到 Lensa 的一切事物的涌现。人工智能正在成为主流。
Facebook 的DeepFace现在比人类还要擅长面部识别
我们正处在人工智能的转折点,这个转折点正在支撑起创新的寒武纪大爆发。2009 年至 2013 年诞生了数十家由移动和云计算技术提供支持的变革型初创公司。未来几年这样的公司将再度涌现,但这次,人工智能将成为催化剂。
前一段时间,有位朋友问了我一个问题:AI 是泡沫,还是下一个大事件?答案可能是两者兼而有之。
现在有很多令人兴奋的事情,其中很多是有理由的,但其中很多可能是非理性的、不成熟的,或者两者兼而有之。但是当你将画面拉远时就能发现,毫无疑问我们正处于一个激动人心的技术新时代的风口浪尖。
02 图像模型
2022 年文本生成图像 AI 爆发了。首先出现的是来自 OpenAI 的 DALL-E (这个名字综合了艺术家萨尔瓦多·达利以及皮克斯的那部动画片,《机器人瓦力》,WALL-E)。当然,不是谁都可以直接用 DALL-E,但这方面的创作已经开始在互联网上火起来了;Twitter 上面我最喜欢的账号是 Weird DALL-E Generations。
互联网上用DALL-E 生成 11 张最奇怪的图像 | Mashable
对于这个世界大部分的地区来说,DALL-E 是 AI 的第一个真正的“哇哦”时刻。在与麻省理工学院交流时,OpenAI 的 Sam Altman 把这一点归功于图像所传递的情感力量:
我想说的是,其实相对于 DALL-E,技术界对 2020 年推出的 GPT-3 要更加认可。从 GPT-3这里,你第一次真正感受到了系统的智能。它可以做人做的事情。我认为它的出现让以前根本不相信 AGI [通用人工智能] 的人也要认真对待这一话题了。发生在 GPT-3 身上的有些事情是我们大家都没预料到的。 但是图像却有着独特的情感力量。相对于 GPT-3 ,世界其他地方对 DALL-E 的欣赏要高很多。
人往往更喜欢更丰富的媒体格式:Instagram (主要媒体是照片)一直都比 Twitter(以文字为主)更受欢迎;与此同时,TikTok (主要是视频)在使用上一直在蚕食 Instagram 的市场,迫使后者也得向视频转型(通过 Reels )。在我看来,类似的偏好也会发生在生成式人工智能身上:图像 > 文本,很快,视频也会 > 图像,以及最终沉浸式 3D 体验将 > 视频。(消费者偏好的这一事实也是我从长远看继续看好 VR 和 AR 的原因。)
在 DALL-E 起势之后,去年夏天 Stable Diffusion 和 Midjourney 的出现彻底改变了局面。Stable Diffusion 具有开创性,因为它是开源的,这意味着开发者基于它做开发。稍微解释一下,Stable Diffusion 将扩散从像素空间转移到了潜在空间,从而推动了质量的显著提高。(如果你感兴趣的话,可以看看这一篇文章https://36kr.com/p/2085103366422920。)与此同时,Midjourney 在可访问性方面具有开创性。Discord 上就能使用 Midjourney :任何人都可以注册一个免费账号,并获得 25 个积分,图像则是用公共服务器生成的。用完 25 个积分之后,每月支付 10 美元或 30 美元就可以继续使用(具体多少钱取决于你要创作的图像数量以及你是否希望生成的图像保持私密)。Midjourney 已迅速成为 Discord 上最受欢迎的服务器之一(也许是最受欢迎的服务器?),拥有 740 万会员。
下图是 Midjourney、DALL-E 2 以及 Stable Diffusion 在使用相同的文本提示时生成的图像,各自风格略有不同:
下面这条时间线从更宽泛的角度展示了 AI 图像生成在过去十年是如何得到改进的(请留意近年来提示的复杂性的不断增加,以及输出的保真度在不断提高):
去年是图像模型的转折点,生成的图像质量得到了迅速提高。举个例子:众所周知,AI 很不擅长创作手。除非 AI 具有出色的上下文感知能力,否则很难知道已经弄出了多少根手指。其结果是我们最终会得到很多有四根或六根手指的手。下图是 Midjourney v3(2022 年 7 月)与 Midjourney v4(2022 年 11 月)生成结果的对比,你能看出结果有了明显改进:不再会出现有两只喙或三条腿的企鹅。
数字创作的轨迹正在沿着动画的轨迹前进,但技术发展的步伐只会越来越快。比方说,上面 Midjourney 生成的企鹅图像之间的差异只是短短几个月之间的对比结果。
03 语言模型
去年,在图像模型出现飞跃的同时,语言模型也突飞猛进。去年 11 月, OpenAI 推出了 ChatGPT ,刚推出五天,这款聊天工具就收获了 100 万用户。ChatGPT 的表现令人难以置信;使用它的感觉跟你第一次用上 Google Search 一样,都有“魔法时刻”降临的感觉。(每次使用 ChatGPT 时,我都会想起亚瑟·克拉克的名言:“任何足够先进的技术都与魔法无异。”)
下面的一些例子说明了 ChatGPT 能做什么:
提示:“提供一个 29 岁生日派对的创意。”
提示:“用伴奏的和弦写一首关于在家工作的歌曲。”
人工智能现在这种发展和采用的节奏可以追溯到 2017 年当时谷歌发表的一篇开创性论文,《Attention Is All You Need》。这篇论文由 Cohere.ai 创始人 Aidan Gomez 与人合著,从中催生出一个规模呈指数级增长的“transformer”模型时代。
不到三年前的 GPT-3 推出时的参数规模为约 2000 亿,但新的 GPT-4 将有约 1,000,000,000,000(万亿)个参数。
来源:Erin Price-Wright
在提出新想法、理解上下文以及回忆信息的能力方面,每个新模型都实现了飞跃。但更大的模型的训练成本也高很多。训练有数千亿个参数的模型可能要花费数百万美元。出于这个原因,大规模模型正在成为初创公司创立的基础。我的同事 Erin Price-Wright 将其类比为亚马逊的 AWS 或微软的 Azure——数百万企业所依赖的云计算平台。
比方说,许多初创公司都建立在 OpenAI 的 GPT-3 基础之上。举个例子,Jasper 提供了一个由 GPT-3 提供支持的 AI 撰稿人。每月只需交 29 美元,Jasper 就能让你拥有写作的超能力。不过,Jasper 对 OpenAI 推出免费的 ChatGPT 感到吃惊,担心这会蚕食自己的业务。基础模型和基于这些模型建立的公司之间的关系会如何发展?这是今年值得关注的一件事情。
04 生成式 AI 的用例
手写文字识别是最早的人工智能形式之一,邮政服务主要用它来读取信封上的地址。但是人工智能的这个用例非常特殊。在生成式人工智能方面,我们已经看到:1) 图像和语言模型有了巨大改进,以及 2)OpenAI、Hugging Face、Stability.ai 等公司提供的宝贵基础设施。这两个因素相结合拓宽了用例的可能性。
AI系统的语言与图像识别能力得到了迅速改进 资料来源:Our World in Data
之前在与 Daniel Gross 和 Ben Thompson 进行对话时,Nat Friedman 关于机会的思考方式我很喜欢:
一说到 AI 和大型语言模型时,人们往往认为需要大量专业知识。为了处理这些东西,我得了解深度学习,以及,哦天哪,我可能还得懂微积分或至少线性代数,可是我根本就不太喜欢那种东西。我需要知道怎么给 Nvidia 硬件编写 CUDA 内核程序?这可太吓人了。 我认为他们疏忽了一点,这其实是个谬误。这个谬误就好比要想制作颜料,你得是化学家。所以如果我想成为一名画家的话,我必须学习化学。但现实情况是,你不需要知道如何制作颜料就能成为一名伟大的画家。同理,我认为你不需要弄清楚大型模型是怎么做出来的,也可以用它们做出出色的产品。
我喜欢这个比喻。任何人都可以更轻松地开发出利用 AI 去画画的工具。变革每个行业的机会已经成熟。
如果极度简化的话,我们可以把用例分为两类:1)创意类,以及 2)生产力类。
说到创意,我们看到生成式人工智能降低了创作的门槛。利用 Midjourney,你可以给电影制作概念图。Latitude.ai 等公司开发出 AI Dungeon 等游戏,利用 GPT-3 进行 AI 驱动的探索。与此同时,Alpaca 所做的 Photoshop 插件演示在 Twitter 掀起了一股风暴;这家公司的使命是“将 AI 图像生成能力与人类技能结合到一起”。
我过去也曾写过创意工具日益普及的文章。人工智能拓宽了可能性。想象一下由人工智能驱动的 Roblox Studio,或者当人工智能与 Figma 结合在一起时可以解锁什么。我制作这张图至今已过去两年多了:
YouTube 是革命性的,但却给创作制造了很高的门槛:1) 工具需要昂贵的投入,以及 2) 使用这些工具需要具备 know-how 知识。TikTok 这一类似无代码的方式降低了这些门槛,创造出一个公平的竞争环境。其结果是 YouTube 上大概每 1000 人才有 1 人创作内容,而接近 60% 的 TikTok 用户都会自己创作内容。
也许今年这张图可以用第三个框更新一下——一个超越无代码创作工具的更直观、强大的工具,并在创作内容的过程中利用生成式人工智能。用这个工具为 Instagram 制作照片、为 TikTok 制作视频或为全新社交网络创作内容。
就像人工智能增强了创意一样,人工智能也增强了生产力。我们在赋予作者和营销人员超能力的工具中就能看到这一点,比方说像 Jasper.ai、Copy.ai、Lex 这样的工具。我让 ChatGPT 帮我头脑风暴,给我的自媒体设计新标语,它的推荐令人印象深刻:
我们从 Gong 身上看到了生产力的提升,它运用了 AI 来帮助 B2B 销售团队提高效率和效力。我们在 Osmosis 身上也能看到这一点,它可以帮助广告代理商生成 AI 广告。我们在 GitHub Copilot 身上也能看到这一点,它可以将自然语言提示转化为数十种编程语言的编码推荐,而且从 2022 年 6 月开始,所有开发者均可用上这款插件。(在安装了 Copilot 的项目当中,约 40% 的代码是由它生成的,在五年之内这个比例可能会达到 80%。)
GitHub Copilot:你的 AI 结对程序员 | GitHub博客_
人工智能(尤其是建立在语言模型基础之上的人工智能)的早期目标是死记硬背的重复性任务。我认为有一个领域被重塑的时机已经成熟:那就是客户支持。这些是今天的人工智能已经可以取得重大进展的领域。更复杂的任务(比如 3D 游戏创作)在未来会有进一步的发展。但任何涉及人类创作的行业(基本上算是每个行业都要受到波及)都会感受到人工智能的影响。
我看到有人已经开始拿早期 AI 应用和早期 iPhone 应用做比较。还记得手电筒 app、lightsaber app、lighter app 吗?还记得《水果忍者》(Fruit Ninja)以及《劲乐团》(Tap Tap Revenge )吗?我们正处在 app 的早期阶段,现在判断什么样的应用是杀手级应用还为时过早。一个迫在眉睫的问题是企业如何才能建立起竞争性护城河;真正的技术差异化将变得很罕见,公司需要找到保持竞争优势的方法,也许是通过建立网络效应,也许是建立用户互动与产品改进的迭代循环。毕竟,事实证明,2008 年代的手电筒应用并没有多厚实的护城河。
现在的手电筒应用已经多如牛毛
但正如我们在几年内就从 lightsaber 应用发展到 Uber ,从《水果忍者》发展到 Instagram 一样,生态体系也将迅速发展,有生命力、差异化、跨时代的公司也将会出现。
Midjourney对提示“想象力引擎”的诠释
再用一个令人兴奋的想法来结束本文:生成式人工智能很快就会与其他成熟的技术发生冲突,比如 VR 和 AR。想象一下生成沉浸式三维虚拟世界的文本提示。这可能会在不久之后成为可能。技术发展往往非常迅速:在人的一生(63 年)之内,我们就从莱特兄弟首次实现飞行(1903 年)发展到了将人送上距离地球 384400 公里之遥的月球(1969 年)。而今天出生的人们,他们将目睹人工智能重塑人类生活、工作和社会的方方面面。
文|boxi 编译
来源|神译局(本文有删改)
这些文章也好看