还在玩ChatGPT?更炫酷的AIGC“杀手级”应用正蓄势待发
还在玩ChatGPT?更炫酷的AIGC“杀手级”应用正蓄势待发
来源:今日头条 2023-03-13 20:25 万兴科技
从AI绘画的出圈,到如今ChatGPT的火爆,大模型模式正以“大力出奇迹”之势,在一波又一波AIGC的浪潮中被验证……而随着大模型技术的不断创新突破,下一个爆发点将会出现在何处,下一个AIGC“杀手级”应用是否已蓄势待发?
万物皆可ChatGPT?
当你还在跟ChatGPT聊天时,AIGC圈子里已经刷起了一种很新的玩意儿……
没错,就在ChatGPT刷屏之际,谷歌AI生成的一段视频突然爆火,一时分走不少讨论度。
这段视频背后的AI模型名为Phenaki,只需要提供一段提示词,这个文本转视频(Tex-to-Video)模型分分钟就能生成一段视频。
最重要的是,Phenaki生成的视频,不仅时长(长达2分钟)远超早期的文生视频模型,还颇具故事性。
当给它这样一段场景描述:一只逼真的泰迪熊正在潜水,随后它慢慢浮出水面走上沙滩;这时镜头拉远,泰迪熊行走在海滩边篝火旁……就能得到下面这样一个视频片段↓↓
纵观近几年,AI对话、AI绘画、AI语音技术无疑都迎来了一定的发展。而相对来说,视频领域的AI模型研发及应用才刚刚起步。
一般来说,视频创作包括“写脚本/文案-拍摄视频/寻找第三方素材-剪辑素材-配音-配乐-添加转场、特效、字幕-设置标题、封面”等这一系列繁琐流程,像上面这种只要给出一段提示词即可实现“文本成片”的AI视频创作技术,属实令人惊叹。
那么,目前国内外有哪些AI视频创作工具?AIGC又将如何重构视频内容生产力?本文对此进行了盘点和揭秘,一起看看吧!
输入几句话 AI给你一条短视频
随着AI绘画的爆火,AI图片生成技术在短时间内迈向成熟应用。然而,当这场“文生图”的革命风暴还未完结,它的下一篇章已经向我们走来——生成视频,来了!
从技术本质上来讲,视频就是连续的静态图像。AI文字生成视频也可看作文字生成图像的一种延伸,其大致原理就是通过文本生成几个单帧的图像,再用插值算法在几个帧之间绘制图像,生成前后连贯的视频。
Meta:Make-A-Video
在探索用文本直接生成视频这件事上,素来有“拿嘴做视频”的Meta也不甘示弱,早已有所布局。
Meta使用的是一种名叫“Make-A-Video”的文本视频模型,同样是文本图像生成模型的升级版,主要由“文本图像生成模型P”、“时空卷积层额注意力层”以及“用于提高帧率的插针值网络和两个用来提升画质的超分模型”三个部分组成。如:当你给出一句“马儿喝水”,它就能生成下面这段视频画面↓↓
此外,Make-A-Video这个AI模型还具备“将静态图像转成视频”、“根据前后两张图片生成一段视频”以及“基于一段原视频生成新视频”的能力。
静态图像转视频
简单来说,就是Make-A-Video通过AI生成连续的图片,再将这些图片链接成一段视频。不过从最终的成品来看,Meta生成的短视频显得过于单调,更重要的是分辨率实在有限。
根据前后两张图片生成一段视频
Quickvid:AI短视频网站
其实,在ChatGPT爆红几天后,海外AI视频网站"一键生成短视频"的平台工具Quickvid就问世了。Quickvid集成了GPT-3、DALL-E 2等AI生成图文的能力:
依托GPT-3的生成文本功能生成短视频脚本,再从脚本中自动提取或手动输入的关键字,基于这些关键字其便可以免费从Pexels库中调用背景视频;同时,叠加由DALL-E 2生成的文字转图像,并调用Google Cloud的文本转语音API添加来自YouTube上免版税音乐库的合成画外音和背景音乐。
就这样,靠着各种现成的AIGC工具接口与大量免费素材库,Quickvid的创始人Daniel Habib花了几周时间就让这一产品成功上线。
用户只需给定一个视频主题,剩下的都可以自动生成;
例如,只需要输入一个单词猫(cat),点击生成之后3分钟就能呈现出一个48s的粗剪版本;如果不做调整直接选择输出,这个工具甚至能帮你起好短视频的标题与简介以及各种需要tag的关键词。
虽然它在二次编辑上的自由度和丰富性比较有限,但其全程“傻瓜式”的使用体验及花费不到10分钟的时间,已经成功引发了科技爱好者们的关注,涌入了大量新注册用户。
正如Daniel Habib在Quickvid主页上的介绍,Quickvid可以为创作者提供快速创作优质内容的工具,降低创作倦怠和灵感枯竭的风险,令网友直呼“这是人工智能的黄金时代”。
目前,Quickvid还只支持视频下载后用户自行上传到短视频平台,但其官网已显示一键上传YouTube和TikTok等功能正在开发中。
Runway:Gen-1
人工智能公司Runway曾参与构建了第一个版本的Stable Diffusion。
最近,他们又发布了一个新的视频生成器“Gen-1”,宣称可以把视频转换成任意风格,即将开放内测。
用户只需提供一张参考图,Gen-1就能对原视频进行指定风格化的渲染,或者用文字指示修改视频中的部分素材,甚至还可以输出3D模型渲染和定制视频。
在Gen-1官方网站发布的一段演示视频中,Runway就展示了他们的软件如何将街道上的行人变成黏土木偶,将桌子上的书变成夜晚的风景。
据Runway的CEO兼联合创始人Cristóbal Valenzuela表示,希望能够将Gen-1交到有创造力的专业人士手中,从而快速在视频界产生类似效果的影响。
在探索用文本或图片直接生成视频上,不少硅谷大厂已经拿出了实验性产品。与此同时,对于正在疯狂加速的国内AIGC赛道来说,类似工具的出现显然只是时间问题。
万兴科技:新生代数字创意赋能者
作为创意软件A股上市企业,万兴科技多年来一直作为被视为“中国版Adobe”。当前,公司已针对前沿科技组建百人技术团队,并压强式投入文字生成视频、文字生成图像、视频AR、虚拟人等新技术,持续进行图片、视频领域AI技术等研发和探索;目前公司也已于多个产品内落地虚拟人、文生图、AI智能抠像、AI智能降噪、AI音乐重组、AI换脸等功能,并逐步从泛娱乐、泛知识向泛营销领域等多场景渗透,进一步夯实数字创意软件产品生态体系。
旗下AIGC新品万兴爱画已实现网页端、iOS、安卓、微信小程序多端覆盖,并在业界率先推出“AI简笔画”新功能,是全球首款交互型“图生图”AI绘画软件,支持AI文字绘画、AI以图绘图、AI简笔画三种AI创作模式,运用全新的“AI简笔画”功能,用户只需简单描摹几笔,“人机共创”5秒内便可绘出一幅高品质艺术画作。
旗下视频创意软件万兴喵影、Wondershare Filmora已集成AIGC能力,率先在业内推出文生图功能,实现了视频创作领域图片素材的在线智能生成,用户可随心所欲地在视频创作软件中,智能生成创作图片素材。
旗下亿图脑图协同版正式开启AIGC功能内测,用户只需要输入一句话,即可一键生成头脑风暴、演讲大纲、SWOT分析、活动策划、生活计划等脑图。AI加持下,亿图脑图将大大简化思维脑图的创作流程并革新创作模式,助力用户提质增效。
AIGC狂飙之下:视频行业,路在何方?
AIGC对各行各业的改造已然开始,而一直以来被认为是相对高门槛的视频行业,必然也无法逃过这一命运。
尤其是对于依靠算法而非内容品质的短视频来说,“多快好省”的AIGC工具无疑对创作者和平台都各益处:创作者能够将更多心思花在各种极限创意上,平台内容数量则有望迎来爆炸式增长。
从业内声音来看,不论是长视频还是短视频的AIGC创作,目前最有前景的领域或许还是在B端商业投放上,尤其是那些需要花费大量人力、物力和财力产出视频内容用于视频广告投放的企业;如消费品、游戏公司等,AIGC视频创作的出现无疑都能让社交媒体营销最大程度的“降本”。而至于用户是否愿意为AI生成类视频买单、最终能否实现“增效”,则依然还需要不断试错并等待市场的检验。
从市场反应来看,当下AI视频模型还不能很快生成像AI绘图那样高品质的作品,如存在视频模糊、动作不自然、口型对不好、缺少细节等都是AI视频生成类产品普遍存在的问题。不过,随着国内外AICG的发展,相关场景应用生态依然有很大的想象空间。
AIGC应用视图:《人工智能生成内容(AIGC)白皮书(2022年)》
不论是短视频还是长视频,相信随着AIGC工具的不断打磨完善,最终只有创意才会成为真正的门槛,这也是AI唯一无法代劳的最关键环节。
而至于AI生成类视频的争议焦点,其实与AI绘画有些相似:一方面是伦理问题,恶意向AI输入非道德的词汇所生成的内容要如何处理;另一方面则是版权上的问题,和AI绘画一样,AI短视频的素材版权尚还处于模糊不清的阶段。
不过,从人工智能长期发展的角度来看,生成式AI的“魔盒”既然已经打开,相信目前所存在的种种质疑不会阻止其向“智能化”继续发展的脚步,并会随着AIGC工具的不断打磨完善而被逐一打破,正如业内所言,“生成式AI革命不可阻挡。”
生成式AI,会是内容生产的下一个时代吗?
AI技术一方面大大降低了从文本到视频内容创作的门槛,另一方面AIGC也推动着内容行业革新。
就拿ChatGPT来说,它之所以让人兴奋是因为其采用的是生成式AI模型,嵌入了人类反馈强化学习以及人工监督微调,所以才具备了理解上下文、连贯性等诸多先进特征,让你觉得好像在和真人对话,而不是蹩脚的机器。
所以,从技术的发展可以看出,在语言大模型、图像大模型之后,多模态大模型已经成为了新的趋势。
不过,尽管ChatGPT的火爆让大模型时代的AIGC获得了空前关注,但当下的AIGC产业还只能说是一个“新生儿”。根据Gartner发布的2022年新兴技术成熟度曲线,生成式AI目前还处于“技术萌芽期”,预计距离生产成熟期还有5-10年的时间。
有业内人士表示,目前制约生成式AI发展的主要因素有三个方面:算力,毫无疑问是核心部分;其次,就是大模型的训练调优方面,生成的内容满足精准、可用、高效三位一体;最后,则是AIGC还未与相关产业链完成紧密结合,未能大规模商业化落地应用。
此外,训练大模型的确是件十分“烧钱”的事儿。根据国盛证券发布的《ChatGPT需要多少算力》报告估算,GPT-3训练一次的成本约为140万美元。而对于一些更大的LLM(大型语言模型),训练成本则介于200万美元至1200万美元高价之间。以ChatGPT在2023年1月的独立访客平均数1300万计算,其对应芯片需求为3万多片英伟达A100 GPU,初始投入成本约为8亿美元,每日仅电费就在5万美元左右。
尽管如此,不可否认的是随着大模型这样的技术底座作用愈发凸显、越来越得到重视,生成式AI这个“新生儿”的成长态势正呈现出一种加速状态。同时,经过文生图、图生图以及ChatGPT等的验证,AIGC在其他垂直领域中的可拓展空间已经可以预见,而Gartner也已将生成式AI列为最有商业前景的人工智能技术。
据量子位智库预测,2030年AIGC市场规模有望超过万亿人民币。
总的来说,当下AI的发展已经超出大部分人的想象。内容产业的本质是供给创造需求,AIGC作为全新的内容生产方式,可以为内容产业带来更新的内容风格、更快的生产速度、更低的生产成本,这无疑会驱动内容产业的大爆发。
AI,从理解内容走向生成内容,甚至能够创造出独立价值和独立视角的内容。AIGC的再次出圈,更代表着未来的先进生产力即将到来,将创造新的增长奇迹;而AIGC的下一站 ,除了视频,更有远方!
公共互联网资料和相关百科与文库等资料
https://www.toutiao.com/article/7209943079418528268/
https://3g.k.sohu.com/t/n677832334
https://baijiahao.baidu.com/s?id=1758693578883825518
https://m.toutiao.com/is/Sgwo23H/
https://m.baike.com/wikiid/3987703051986402233
https://www.wondershare.cn/
https://pdf.wondershare.cn/company-profile.html
https://m.tianyancha.com/company/3333963924
https://wap.eastmoney.com/quote/stock/0.300624.html
https://www.sohu.com/a/654328686_121322050
https://www.163.com/dy/article/HVRS2KDI05418JHM.html