还在玩ChatGPT？更炫酷的AIGC“杀手级”应用正蓄势待发

2023-03-15

　　来源：今日头条 2023-03-13 20:25 万兴科技

　　从AI绘画的出圈，到如今ChatGPT的火爆，大模型模式正以“大力出奇迹”之势，在一波又一波AIGC的浪潮中被验证……而随着大模型技术的不断创新突破，下一个爆发点将会出现在何处，下一个AIGC“杀手级”应用是否已蓄势待发？

　　万物皆可ChatGPT？

　　当你还在跟ChatGPT聊天时，AIGC圈子里已经刷起了一种很新的玩意儿……

　　没错，就在ChatGPT刷屏之际，谷歌AI生成的一段视频突然爆火，一时分走不少讨论度。

　　这段视频背后的AI模型名为Phenaki，只需要提供一段提示词，这个文本转视频（Tex-to-Video）模型分分钟就能生成一段视频。

　　最重要的是，Phenaki生成的视频，不仅时长（长达2分钟）远超早期的文生视频模型，还颇具故事性。

　　当给它这样一段场景描述：一只逼真的泰迪熊正在潜水，随后它慢慢浮出水面走上沙滩；这时镜头拉远，泰迪熊行走在海滩边篝火旁……就能得到下面这样一个视频片段↓↓

　　纵观近几年，AI对话、AI绘画、AI语音技术无疑都迎来了一定的发展。而相对来说，视频领域的AI模型研发及应用才刚刚起步。

　　一般来说，视频创作包括“写脚本/文案-拍摄视频/寻找第三方素材-剪辑素材-配音-配乐-添加转场、特效、字幕-设置标题、封面”等这一系列繁琐流程，像上面这种只要给出一段提示词即可实现“文本成片”的AI视频创作技术，属实令人惊叹。

　　那么，目前国内外有哪些AI视频创作工具？AIGC又将如何重构视频内容生产力？本文对此进行了盘点和揭秘，一起看看吧！

　　输入几句话 AI给你一条短视频

　　随着AI绘画的爆火，AI图片生成技术在短时间内迈向成熟应用。然而，当这场“文生图”的革命风暴还未完结，它的下一篇章已经向我们走来——生成视频，来了！

　　从技术本质上来讲，视频就是连续的静态图像。AI文字生成视频也可看作文字生成图像的一种延伸，其大致原理就是通过文本生成几个单帧的图像，再用插值算法在几个帧之间绘制图像，生成前后连贯的视频。

　　Meta：Make-A-Video

　　在探索用文本直接生成视频这件事上，素来有“拿嘴做视频”的Meta也不甘示弱，早已有所布局。

　　Meta使用的是一种名叫“Make-A-Video”的文本视频模型，同样是文本图像生成模型的升级版，主要由“文本图像生成模型P”、“时空卷积层额注意力层”以及“用于提高帧率的插针值网络和两个用来提升画质的超分模型”三个部分组成。如：当你给出一句“马儿喝水”，它就能生成下面这段视频画面↓↓

　　此外，Make-A-Video这个AI模型还具备“将静态图像转成视频”、“根据前后两张图片生成一段视频”以及“基于一段原视频生成新视频”的能力。

　　静态图像转视频

　　简单来说，就是Make-A-Video通过AI生成连续的图片，再将这些图片链接成一段视频。不过从最终的成品来看，Meta生成的短视频显得过于单调，更重要的是分辨率实在有限。

　　根据前后两张图片生成一段视频

　　Quickvid：AI短视频网站

　　其实，在ChatGPT爆红几天后，海外AI视频网站"一键生成短视频"的平台工具Quickvid就问世了。Quickvid集成了GPT-3、DALL-E 2等AI生成图文的能力：

　　依托GPT-3的生成文本功能生成短视频脚本，再从脚本中自动提取或手动输入的关键字，基于这些关键字其便可以免费从Pexels库中调用背景视频；同时，叠加由DALL-E 2生成的文字转图像，并调用Google Cloud的文本转语音API添加来自YouTube上免版税音乐库的合成画外音和背景音乐。

　　就这样，靠着各种现成的AIGC工具接口与大量免费素材库，Quickvid的创始人Daniel Habib花了几周时间就让这一产品成功上线。

　　用户只需给定一个视频主题，剩下的都可以自动生成；

　　例如，只需要输入一个单词猫（cat），点击生成之后3分钟就能呈现出一个48s的粗剪版本；如果不做调整直接选择输出，这个工具甚至能帮你起好短视频的标题与简介以及各种需要tag的关键词。

　　虽然它在二次编辑上的自由度和丰富性比较有限，但其全程“傻瓜式”的使用体验及花费不到10分钟的时间，已经成功引发了科技爱好者们的关注，涌入了大量新注册用户。

　　正如Daniel Habib在Quickvid主页上的介绍，Quickvid可以为创作者提供快速创作优质内容的工具，降低创作倦怠和灵感枯竭的风险，令网友直呼“这是人工智能的黄金时代”。

　　目前，Quickvid还只支持视频下载后用户自行上传到短视频平台，但其官网已显示一键上传YouTube和TikTok等功能正在开发中。

　　Runway：Gen-1

　　人工智能公司Runway曾参与构建了第一个版本的Stable Diffusion。

　　最近，他们又发布了一个新的视频生成器“Gen-1”，宣称可以把视频转换成任意风格，即将开放内测。

　　用户只需提供一张参考图，Gen-1就能对原视频进行指定风格化的渲染，或者用文字指示修改视频中的部分素材，甚至还可以输出3D模型渲染和定制视频。

　　在Gen-1官方网站发布的一段演示视频中，Runway就展示了他们的软件如何将街道上的行人变成黏土木偶，将桌子上的书变成夜晚的风景。

　　据Runway的CEO兼联合创始人Cristóbal Valenzuela表示，希望能够将Gen-1交到有创造力的专业人士手中，从而快速在视频界产生类似效果的影响。

　　在探索用文本或图片直接生成视频上，不少硅谷大厂已经拿出了实验性产品。与此同时，对于正在疯狂加速的国内AIGC赛道来说，类似工具的出现显然只是时间问题。

　　万兴科技：新生代数字创意赋能者

　　作为创意软件A股上市企业，万兴科技多年来一直作为被视为“中国版Adobe”。当前，公司已针对前沿科技组建百人技术团队，并压强式投入文字生成视频、文字生成图像、视频AR、虚拟人等新技术，持续进行图片、视频领域AI技术等研发和探索；目前公司也已于多个产品内落地虚拟人、文生图、AI智能抠像、AI智能降噪、AI音乐重组、AI换脸等功能，并逐步从泛娱乐、泛知识向泛营销领域等多场景渗透，进一步夯实数字创意软件产品生态体系。

　　旗下AIGC新品万兴爱画已实现网页端、iOS、安卓、微信小程序多端覆盖，并在业界率先推出“AI简笔画”新功能，是全球首款交互型“图生图”AI绘画软件，支持AI文字绘画、AI以图绘图、AI简笔画三种AI创作模式，运用全新的“AI简笔画”功能，用户只需简单描摹几笔，“人机共创”5秒内便可绘出一幅高品质艺术画作。

　　旗下视频创意软件万兴喵影、Wondershare Filmora已集成AIGC能力，率先在业内推出文生图功能，实现了视频创作领域图片素材的在线智能生成，用户可随心所欲地在视频创作软件中，智能生成创作图片素材。

　　旗下亿图脑图协同版正式开启AIGC功能内测，用户只需要输入一句话，即可一键生成头脑风暴、演讲大纲、SWOT分析、活动策划、生活计划等脑图。AI加持下，亿图脑图将大大简化思维脑图的创作流程并革新创作模式，助力用户提质增效。

　　AIGC狂飙之下：视频行业，路在何方？

　　AIGC对各行各业的改造已然开始，而一直以来被认为是相对高门槛的视频行业，必然也无法逃过这一命运。

　　尤其是对于依靠算法而非内容品质的短视频来说，“多快好省”的AIGC工具无疑对创作者和平台都各益处：创作者能够将更多心思花在各种极限创意上，平台内容数量则有望迎来爆炸式增长。

　　从业内声音来看，不论是长视频还是短视频的AIGC创作，目前最有前景的领域或许还是在B端商业投放上，尤其是那些需要花费大量人力、物力和财力产出视频内容用于视频广告投放的企业；如消费品、游戏公司等，AIGC视频创作的出现无疑都能让社交媒体营销最大程度的“降本”。而至于用户是否愿意为AI生成类视频买单、最终能否实现“增效”，则依然还需要不断试错并等待市场的检验。

　　从市场反应来看，当下AI视频模型还不能很快生成像AI绘图那样高品质的作品，如存在视频模糊、动作不自然、口型对不好、缺少细节等都是AI视频生成类产品普遍存在的问题。不过，随着国内外AICG的发展，相关场景应用生态依然有很大的想象空间。

　　AIGC应用视图：《人工智能生成内容（AIGC）白皮书（2022年）》

　　不论是短视频还是长视频，相信随着AIGC工具的不断打磨完善，最终只有创意才会成为真正的门槛，这也是AI唯一无法代劳的最关键环节。

　　而至于AI生成类视频的争议焦点，其实与AI绘画有些相似：一方面是伦理问题，恶意向AI输入非道德的词汇所生成的内容要如何处理；另一方面则是版权上的问题，和AI绘画一样，AI短视频的素材版权尚还处于模糊不清的阶段。

　　不过，从人工智能长期发展的角度来看，生成式AI的“魔盒”既然已经打开，相信目前所存在的种种质疑不会阻止其向“智能化”继续发展的脚步，并会随着AIGC工具的不断打磨完善而被逐一打破，正如业内所言，“生成式AI革命不可阻挡。”

　　生成式AI，会是内容生产的下一个时代吗？

　　AI技术一方面大大降低了从文本到视频内容创作的门槛，另一方面AIGC也推动着内容行业革新。

　　就拿ChatGPT来说，它之所以让人兴奋是因为其采用的是生成式AI模型，嵌入了人类反馈强化学习以及人工监督微调，所以才具备了理解上下文、连贯性等诸多先进特征，让你觉得好像在和真人对话，而不是蹩脚的机器。

　　所以，从技术的发展可以看出，在语言大模型、图像大模型之后，多模态大模型已经成为了新的趋势。

　　不过，尽管ChatGPT的火爆让大模型时代的AIGC获得了空前关注，但当下的AIGC产业还只能说是一个“新生儿”。根据Gartner发布的2022年新兴技术成熟度曲线，生成式AI目前还处于“技术萌芽期”，预计距离生产成熟期还有5-10年的时间。

　　有业内人士表示，目前制约生成式AI发展的主要因素有三个方面：算力，毫无疑问是核心部分；其次，就是大模型的训练调优方面，生成的内容满足精准、可用、高效三位一体；最后，则是AIGC还未与相关产业链完成紧密结合，未能大规模商业化落地应用。

　　此外，训练大模型的确是件十分“烧钱”的事儿。根据国盛证券发布的《ChatGPT需要多少算力》报告估算，GPT-3训练一次的成本约为140万美元。而对于一些更大的LLM(大型语言模型)，训练成本则介于200万美元至1200万美元高价之间。以ChatGPT在2023年1月的独立访客平均数1300万计算，其对应芯片需求为3万多片英伟达A100 GPU，初始投入成本约为8亿美元，每日仅电费就在5万美元左右。

　　尽管如此，不可否认的是随着大模型这样的技术底座作用愈发凸显、越来越得到重视，生成式AI这个“新生儿”的成长态势正呈现出一种加速状态。同时，经过文生图、图生图以及ChatGPT等的验证，AIGC在其他垂直领域中的可拓展空间已经可以预见，而Gartner也已将生成式AI列为最有商业前景的人工智能技术。

　　据量子位智库预测，2030年AIGC市场规模有望超过万亿人民币。

　　总的来说，当下AI的发展已经超出大部分人的想象。内容产业的本质是供给创造需求，AIGC作为全新的内容生产方式，可以为内容产业带来更新的内容风格、更快的生产速度、更低的生产成本，这无疑会驱动内容产业的大爆发。

　　AI，从理解内容走向生成内容，甚至能够创造出独立价值和独立视角的内容。AIGC的再次出圈，更代表着未来的先进生产力即将到来，将创造新的增长奇迹；而AIGC的下一站，除了视频，更有远方！

　　公共互联网资料和相关百科与文库等资料

　　https://www.toutiao.com/article/7209943079418528268/

　　https://3g.k.sohu.com/t/n677832334

　　https://baijiahao.baidu.com/s?id=1758693578883825518

　　https://m.toutiao.com/is/Sgwo23H/

　　https://m.baike.com/wikiid/3987703051986402233

　　https://www.wondershare.cn/

　　https://pdf.wondershare.cn/company-profile.html

　　https://m.tianyancha.com/company/3333963924

　　https://wap.eastmoney.com/quote/stock/0.300624.html

　　https://www.sohu.com/a/654328686_121322050

　　https://www.163.com/dy/article/HVRS2KDI05418JHM.html

<<GPT

ChatGPT时代，AI“一本正经地胡说八道”引担忧研发公司提醒：谨慎使用！｜AI｜微软>>

还在玩ChatGPT？更炫酷的AIGC“杀手级”应用正蓄势待发

您可能还会对下面的文章感兴趣：

随便看看