找回密码
 立即注册
查看: 937|回复: 4

别玩ChatGPT了,更酷炫的AI视频创作东西来了

[复制链接]

22

主题

0

回帖

90

积分

版主

积分
90
发表于 2023-5-8 14:38:53 | 显示全部楼层 |阅读模式
当我还在跟ChatGPT聊天时,AIGC圈子里已经刷起了新玩意儿——

AI生成的乔布斯,他仿佛从画中醒来,对着镜头侃侃而谈ChatGPT,嗓音也颇似原声。

据作者“汗青”介绍,视频中的案牍选自于他与ChatGPT的对话,乔布斯的形象由AI作图东西Midjourney生成,AI拟声东西ElevenLabs提供了嗓音复刻,最后通过AI视频东西D-ID将图像转为视频。

借助类似的AI东西,网友用“魔法”生成的纸片人都能动起来了,甚至还能轻松缔造一个本身的数字分身。

AIGC降低了创作门槛,越来越多的人正试图让AI参与内容创作,从案牍、录制到配音、剪辑,几乎可以让AI全包了。据国外商业咨询机构Acumen Research and Consulting预测,若考虑下一代互联网对内容需求的迅速提升,2030年AIGC市场规模将达到1100亿美元。

近年来,AI对话、AI绘画、AI语音技术其实都有必然的成长,而相对来说,视频范围的AI模型研发和应用才起步不久。像D-ID这样仅需一张静态图片就能创建虚拟人视频的技术,属实令人诧异。

目前国表里有哪些AI视频创作东西?AI又将给视频内容出产和交互体验带来什么改变?本文对此进行了盘点和分析。



AI拼接素材,套上模板秒出视频


一般视频创作包罗这些环节:写脚本/案牍,拍摄视频或寻找第三方素材,剪辑素材,配音,配乐,添加转场、特效、字幕、标题、封面图等。

此中,AI此刻已经可以辅助完成很多任务了,比如图文智能匹配视频素材、AI自动剪辑、AI抠像、AI换脸、画质优化修复。

“图文成片”的功能在各平台推出的剪辑应用中十分常见,抖音的剪映、快手的快影、百度的百家号、B站的必剪都撑持按照案牍,一键拼接图片和视频素材,并同步生成字幕和配音。

输入的案牍可以参考AI助手的回答。举个例子,“养猫会对一个人发生什么影响”,ChatGPT回答说养猫能减压缓解焦虑、增强社交能力、提高心理健康、增加运动量,我们可以在此基础长进行改削再导入剪映。



剪映不到一分钟就自动生成了视频,画面跟案牍内容基本符合。如果对素材不对劲,比如想把静态图片换成视频,可以到在线素材库中搜索更合适的进行替换。



值得注意的是,这些素材往往来源于网络或第三方处事,比如免版权图库Unsplash、Pexels,AI剪辑应用所做的是通过AI和机器学习对案牍进行语义分析,分镜头措置,智能匹配相应的画面。

因此,一键图文成片对创作者最大的辅佐是节省搜集素材的时间,减少人工剪辑劳动量,通过自动化、模板化的方式提高视频出产效率。

类似的视频自动剪辑东西还有“Lumen5”,主打长图文转视频,提供了大量视频模板,操作上门槛更低,像制作PPT一样拖曳文字即可转成画面。Lumen5自2017年推出至今,官网介绍已有超100万家企业客户将其感化于社交媒体营销和传布。



图源Lumen5

“vidyo”出自于印度的AI草创团队,撑持长视频转短视频,通过AI语音识别技术可以从素材中自动剪辑出出色片段,适用于直播视频切片、播客剪辑,不外目前视频语言仅撑持英文。



图源vidyo

尽管目前视频创作软件的AI功能以文字匹配视频素材为主,但之后可能会插手更多AIGC东西。

例如海外的AI视频东西“Fliki”,擅长短图文转视频,输入Twitter等博客链接即可快速生成短视频,在图片素材上它还提供文字生成AI图像,由DALL·E提供技术撑持。



图源Fliki

“Copydone”出自于国内AIGC草创公司,撑持小红书、淘宝等各平台AI营销案牍生成,同时也能按照案牍自动生成配图或拼接视频。



图源Copydone

海外AI视频网站“QuickVid”集成了GPT-3、DALL·E 2等AI生成图文的能力,用户只需给定一个视频主题,剩下的都可以自动生成。不外它在二次编纂上的自由度和丰硕性斗劲有限。



图源QuickVid

此外,视频创作中的特定需求也可以测验考试用AI实现。比如AI修复老视频已有很多热门案例,历史资料、早年的影视片段都能通过“Video Enhance AI”等视频增强软件提升画质和分辩率。



图源B站



让照片措辞,跨模态AI做到了


此刻的AI只能算是辅助视频创作的小助手,如果想要原创度更高、从无到有地快速创作视频还斗劲困难,但更强大的跨模态生成视频的模型(例如文字生成视频,图像生成视频)已经在路上了。

文字生成视频,除了从已有素材库中拼接而成,实际上还有更接近于人类的工作方式,就像AI绘画模型一样学习文本和图像的抽象概念。

2022年5月,清华大学曾联合智源研究院发布“CogVideo”,这是国内首个开源的文本生成视频模型。在其Demo网站中,选择“青年女子在餐厅里喝奶茶”就可以看到AI生成的4秒视频,分辩率为480×480。





图源CogVideo

在设计模型上,CogVideo含94亿参数,将预训练文本-图像模型(CogView2)有效地操作到文本-视频模型,并使用了多帧率分层训练策略。



CogVideo生成的32帧的4秒剪辑

从技术本质上来看,视频就是一帧帧的持续图像,AI文字生成视频也可看作文字生成图像的一种延伸。大致道理就是通过文本生成几个单帧的图像,再用插值算法在几个帧之间绘制图像,生成前后连贯的视频。

之前Disco Diffusion走红时就有玩家操作其动画模式生成2D或3D视频,由此也延伸出一些使用门槛更低、创作更简便的AI生成视频应用。

比如AI视频网站“Kaiber”,用户输入图像或文本描述,也可以从预设中选择几个词,就能快速生成4种视频成果。



图源Kaiber

近期美国风行摇滚乐队Linkin Park发布的新MV《Lost》,就是由Kaiber为其制作的动画。



图源《Lost》

不外目前跨模态生成视频的AI模型仍处于探索阶段,谷歌、Meta等大厂去年都发布了相关研究论文,只有演示案例,具体产物还未上线。

据Meta官网介绍,“Make-A-Video”加速了文本到视频模型的训练(它不需要从头开始学习视觉和多模态暗示),也不需要成对的文本-视频数据,却可以实现丰硕的文字生成视频,图像生成视频(让单个图像或两个图像间动起来),以及改变原始视频的风格。



图源Make-A-Video

谷歌发布的“Imagen Video”和“Phenaki”也能实现类似以上的效果,而且Phenaki可以按照一系列提示生成2分钟以上的长视频。
太空行走的烟花
使用的提示:
宇航员穿过火星上的水坑的侧视图
宇航员在火星上跳舞 宇航员
在火星上遛狗
宇航员和他的狗看烟花



图源Phenaki

人工智能公司Runway曾参与构建了第一个版本的Stable Diffusion,比来他们又发布了一个新的视频生成器“Gen-1”,即将开放内测,传布鼓吹可以把视频转换成任意风格。

按照Gen-1官网演示,用户提供一张参考图,就能对原视频进行指定风格化的衬着,或者用文字指示改削视频中的部门素材,甚至还可以输出3D模型衬着和定制视频。



图源Gen-1

AI生成3D短视频方面,近期国内的深氧科技完成了千万元级天使轮融资,引入GPT3.5、Transformer、Diffusion Model等AI技术红利,其发布的O3.xyz引擎V1.0版本撑持一站式生成3D短视频内容,百万粉博主“特效卡卡西”等创作者已插手内测。

可见跨模态AI生成视频正在加速成长中, “用嘴做视频”,未来在短视频、影视、设计、游戏、电商等诸多行业都存在应用的可能。

回到开头提到的“D-ID”,生成数字人/虚拟分身也属于图像生成视频的一种类型,这类东西目前在企业培训和营销方面的应用案例斗劲多。

2020年推出的AI视频创作产物“Synthesia”显示已有数千家公司在使用,用户可以从现有演员库中选择或上传本身的视频来创建AI形象,然后输入脚本,让AI配音、拼接素材就能输出视频了。



图源Synthesia

Synthesia通过训练神经网络来达成传神的合成效果,对比传统视频制作来说,减少了真人出镜录制等环节,能节省制作费用和周期,而且能一键生成多国语言的视频,便于本土化处事。因此,企业多用于大规模生成员工培训、产物入门演示、市场营销等视频。

D-ID则在更早以前就开始研发图像措置技术,曾与MyHeritage合作推出“深度怀旧”打算而闻名,借助AI东西,用户可以让已故亲人的静态照片变成栩栩如生的动态视频。



比来乘着ChatGPT的热潮,多种AI东西组合制作的视频被更多人看见了,D-ID的体验门槛较低,即使是不懂视频创作的新手,只要上传一张图片,几分钟内就可以生成有人物解说的视频。



图源D-ID

D-ID自动为人物添加了一系列面部动作,会模拟一些轻微的头部运动,不外有时表情显得有点怪异,太传神的照片可能会令人发生“恐怖谷”的反映。

同时,用户无法上传涉及政治、性、犯罪、名人、歧视性图像,D-ID会提示违规风险。这意味着AI生成视频技术同其他生成内容一样会面临版权、伦理等问题。





下一波AIGC浪潮,我们如何应对


去年Stability AI的CTO Tom Mason曾判断,继文字生成图像后,下一波浪潮必定是视频、音频和3D。

当AI可以写文章、画画、做视频,试图包揽大部门创作任务时,人类接下来该做什么呢?

这里仅谈谈我的思考,首先技术人员可以继续开发和完善AI模型。在TikTok的官网上,已经挂出了AIGC标的目的机器学习工程师的招聘需求。



图源TikTok Career

TikTok暗示,“AIGC比来的打破使我们相信可以将AIGC技术用于商业目的,尤其是创意制作。想想AI生成/辅助的广告创意脚本,甚至是AI生成的商业图像和视频,它们将永远改变创意制作行业。”

当下的AI视频模型还不能很快生成像AI绘图那样高质量的作品 ,比如存在视频模糊、动作不自然、缺少细节等问题。但随着国内AIGC的技术成长,相关场景应用生态可能有很大的想象空间,包罗上文提到的一些AI技术公司目前已经开始提供付费处事了,为个人和企业有针对性地提高内容出产效率。

对于内容创作者来说,与其担忧会不会被AI代替,不如去学习认识和使用AI东西,让AI代替反复性的琐碎工作,将更多时间花在本身的核心优势上,发生更高质量的内容。

的确有了AI的插手,内容竞争会愈发激烈。有创作者说D-ID呈现后,“所有念稿式、新闻播报式的纯搬运类视频都将受到巨大冲击”。

从用户角度出发,我想只要是高质量内容,即使是AI批量生成的又如何?我们担忧的其实是低质内容的泛滥。

平台和用户都需要避免AI被滥用,比如生成虚假、仇恨、歧视或有害的内容,甚至是引发诈骗等犯罪行为。谷歌曾提到出于安全和伦理的考虑,在Imagen Video的内部试验中应用了输入文本提示过滤和输出视频内容过滤,但目前仍存在重要的相关风险,暂时不会发布两个视频生成模型的代码或Demo。

总之,AI技术一方面大大降低了从文本到视频内容创作的门槛,另一方面AIGC也敦促着内容行业改造,目前至少能达到必然程度的降本增效,但成长初期还未成立起新的法则和秩序,最终如何改变行业还得看人的感化。

P.S.:本文提及的部门AI视频东西网址,可以存眷“ 新榜 ”,在公众号对话框答复“ AI视频 ”获取。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

0

主题

5

回帖

4

积分

新手上路

积分
4
发表于 2023-5-8 14:39:03 | 显示全部楼层
太厉害了
回复

使用道具 举报

0

主题

3

回帖

18

积分

新手上路

积分
18
发表于 2023-5-8 14:39:31 | 显示全部楼层
[赞同]
回复

使用道具 举报

0

主题

1

回帖

16

积分

新手上路

积分
16
发表于 2023-5-8 14:40:15 | 显示全部楼层
分析这么到位,会不会也是ai做的[捂脸]
回复

使用道具 举报

0

主题

2

回帖

14

积分

新手上路

积分
14
发表于 2023-5-8 14:41:01 | 显示全部楼层
Fliki的图文(简体中文)转视频,效果太差了,从头到尾就一张图,在哪读文字,还不如剪映。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|T9AI - 深度人工智能平台 ( 沪ICP备2023010006号 )

GMT+8, 2024-12-22 13:29 , Processed in 0.059229 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表