找回密码
 立即注册
查看: 734|回复: 5

为什么AI声库逐渐代替了VOCALOID?

[复制链接]

2

主题

0

回帖

14

积分

新手上路

积分
14
发表于 2023-9-15 13:58:04 | 显示全部楼层 |阅读模式
为什么AI声库逐渐代替了VOCALOID?
回复

使用道具 举报

0

主题

4

回帖

2

积分

新手上路

积分
2
发表于 2023-9-15 13:58:55 | 显示全部楼层
谢邀。目前没有详细问题描述,所以我表示:
1 我不认为AI声库正在逐渐取代,或者正在比预期中更快地取代,或者已经取代了中文或者中文以外范围或者整个VOCALOID
2 友情提醒,VOCALOID也已经具备AI声库和AI能力
3 截至我发表观点这一刻,个人认为AI内容与手调内容的差距还是较大,AI为收听者带来了更好的适口性,更高的(注意不一定是更好的)拟真度;为创作者带来了更高的精调成本、更大的表意难度、更难以预期的最终表现。
大家原本是一个向前向后的问题,我很明确地知道我要向前,它渲染出来的效果是向后的,那就是不行;能最终让它向前的,就好;最终没能让它向前的,就糟。在这个过程里,每一次失败的微调,都让我更明确我想要的最终效果是什么,然后去靠近它。
现在大家有了积累,用AI差不多一摸就是向前了,但真正精调的时候大家想要直走,AI想要稍微歪一点,还给你歪的差不多可以接受。能最终仍让它向前的,成本很高;觉得能接受的,其实放弃了自己之前的预期,你就歪楼。也不是糟,反正就歪楼。
细化到每一个音素,都做选择题:接受不接受?这样行不行?因为——它听起来只是和你有点出入,不是不好听或者不对——结果最后接受多了自己也迷糊了,最后一听,哎,怎么比我一开始想象的软了,或者怎么怎么了,但是因为AI的迷惑性,好像完成度可以,好像发了就发了。
看看,原本只是一个还原度的问题,只是一个有没有唱出你心中的歌的问题,只是你扔给大佬一段代码让他把你写好的java翻译成python的问题,现在变成完成度高但还原度差你要不接受了吧,我会唱歌你听听你心里的歌是这么唱更好听吧,GPT给你翻译完python还顺带扩写了50%你用不用吧:且不论结果,这个产出是不是有一点让人如鲠在喉?
4、AI声库导致了很多中下水平,尤其中部的同质化作品出现在圈内视野里,这部分作品的量真的很多——于是这可能和推荐算法、关注情况、幸存偏差等等乱七八糟的因素杂糅起来,带来一种“AI取代手调”的错觉,原因我不能完全确定。
但是,其实AI内容下面会有不少评论表达出一种很模糊的,说不明白或说不出太多原因的不喜欢。我们不能说这些朋友们就是真会听,但是可以说这些朋友们听得是真的细,能感觉到这个事情有一点不对味的,一定比只能感觉出形势大好其乐融融忘路之远近落英缤纷的有更大的评论权和参考价值。

PS
除非有人要耍赖耍流氓说我就是来听歌的,那我也套个尖刺盾牌:我本来写了第一二条后面就要写综上拒绝回答更多细节内容的,这个三四条写给愿意来知乎看到实际东西的人,而不是乐子人。
回复

使用道具 举报

0

主题

2

回帖

10

积分

新手上路

积分
10
发表于 2023-9-15 13:59:41 | 显示全部楼层
并没有问题描述,看来我得说的全面一点。
我不知道原题的“取代”该作何解释,但是我刚才去淘宝网店看了一下,目前中文歌姬在售的有
洛,绫,言,尘和华(VOCALOID列)
可以看出,一众官方并没有就此把销售渠道关闭,你想买V版不是买不到。
日语的话刚刚逛了雅马哈的官方网站,基本都在卖,鄙人刚刚入手V3的IA,作曲作词什么的也基本有了眉目,现在就等她从日本漂洋过海被送过来力(喜)
你说的取代可能只是AI拟人比较逼真(我承认),而且作品数量比较多(因为不用费大劲调),曝光也多(同理)。这也不能说AI就远胜了,只能说是VOCALOID依然没啥关注度,对待新人比较冷漠,新人可能费大劲做的作品也没几个播放量,甚至比某些人用AI随随便便搞个翻调都低。
对于这两个东西,我向来是喜欢把他们比作自动挡和手动挡。就像是不管自动挡的车多先进,手动挡的车都有一样,VOCALOID被完全取代我可以说这基本不可能。你可以拿着C1的照开C2的车,但是用C2的照开C1的车挺难。
另外对于我这种情怀派而言,就算是D社跟下蛋一样推这个AI那个AI一个一个地出声库,我也还是会在2023年记得这些歌词
「その閃光弾を打ち上げろう」
「そうさ 神のまにまに 仰せのままに」
「僕の一等賞を奪いに来て」
「夕焼けの中に吸い込まれて消えてった」
这些全都是用VOCALOID做的歌,相信大部分人都能跟着唱出来。所以,就算是AI技术上多6,VOCALOID始终有着不可替代的历史地位,这就决定了它不会被取代。
回复

使用道具 举报

0

主题

3

回帖

7

积分

新手上路

积分
7
发表于 2023-9-15 14:00:20 | 显示全部楼层
这种现象目前只在中V表现出来,日V并不全是如此。
AI声库至少在听感上是更接近真人的,这就是AI最大的优势。其次,AI声库在调教上比传统引擎会更方便一些,这也是AI声库的一个优点。
在中V,这种声库的更新换代并不是单纯的听众一人决定的,是官方、词曲作者、调教师、听众共同决定的结果。
回复

使用道具 举报

0

主题

4

回帖

12

积分

新手上路

积分
12
发表于 2023-9-15 14:01:11 | 显示全部楼层
其实AI也没有这么神奇,现在所谓的AI,更对应的说法应该是“机器学习”,通过已知的内容(比如给定的图片和图片库,给定的文字和文本库,给定的干声与声音库)计算机拿到上述的内容和所需要的目标之后就开始完成给定的任务,最后也就是咱们看到的这些成果了



novelAI跑出来的,图文有关(也无关)

不论是AI声库,AI绘画,还是所谓现在爆火的ChatGPT,其本质上都是机器学习对于不同目的的一种变体。
实际上其能产生的作用相当有限,机器学习不管的怎么变化和发展,实际上都是在已有给定的内容和内容库上打转,所以说在内容库的变化下,ChatGPT会输出那些非常傻或者不适合人们使用的内容,AI绘画会像是拼接尸块,至于说AI声库,它在不恰当的使用之下表现的效果实际上跟新手使用传统声库没啥区别。
那有人问了,这上述玩意为啥会获得人们热捧呢?为啥说AI还有这么大的热度?
实际上大家会发现,虽然说AI的水平就在那里,还会产生很多错误,但是实际上其所能表现出来的能力已经足够专业人士或者有着相当专业能力的人士来应付他们工作中的很多重复性工作,在AI调校,像是鬼面p这样的调校专业人士就在用自己相对平庸的调校水平配合AI调校为大量作品供应多快好省的调校资源,AI绘画对于一般的小画师来说可能是个灾难,但是对于很多高水平的画师来说,AI也是一种启发和灵感的引导(高级绘画搜索引擎,用来设想自己理想中的画面会是什么样子),ChatGPT本质上也是一种高级搜索引擎,人们可以用它来写八股和寻找自己需要的资料。
它并没有多大的本事,但是却能实实在在的减少人们之前纯粹靠自己才能完成重复劳动。
至于说为什么AI声库调校淘汰了VOCALOID,实际上也跟这个问题有关。
不论是使用什么引擎,什么载体,本质上,V家社区提供的还是音乐作品,这些作品如果不适用VOCALOID等虚拟歌手引擎,纯粹使用人声的话跟一般的音乐作品实际上没什么区别。既然提供的是音乐作品,那么大家最关注的还是音乐作品最核心的这一部分。
也就是词和曲。
曲给了这个作品以骨架(包括作编曲),词给了这个作品以肌肉。有了这两样东西,一个完整的音乐作品才有立起来的可能性,在V家内部,剩下的调校,pv,曲绘,实际上都是在围绕这两样东西进行补充。人们虽然来的是V家,但是关注的其实还是音乐作品的本质——曲和词。
相对应的,调校不过是给这个“肌体”粘上了皮肤,pv,曲绘更不过是给这个肌体穿上了漂亮的衣服。人没了衣服可以光着身子活下去,人没了皮肤,有生命危险但是并非无药可治。但是没有骨骼和肌肉,这个作品只能说连站都站不起来,活都活不下去了。
既然调校,pv,曲绘都是附着在音乐作品的表现,那么对于创作者来说,这些内容实际上的要求也并不是那么非得必要,调校可以让大家听着都满意就行了(鬼面p+AI调校就顺应了这个要求),pv,曲绘自然是大家有的看就行了,只要核心的作品内容能够有传播性,能让大家接受和认可,其他部分出于降低成本的考虑,当然是能够节省资源就走向节省资源的方向而去。
一直以来,中文V家都是不是一个资源丰沛的社区,节约资源对于每一个创作者来说更是一个重要的要求。AI在词曲之外的其他部分的攻城略地,也是看中了AI在减少大量重复劳动之下所能节约出来的创作资源。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

0

主题

3

回帖

3

积分

新手上路

积分
3
发表于 2023-9-15 14:01:49 | 显示全部楼层
其实是面对的用户群体不一样。
ai只是玩具这一点其实是没有变的,之后发展的只能是纯理论建模的音源。
之所以现在热搞ai,只是因为现在的理论建模发展不出去了,没地方赚钱了,各行各业基本都到头了,所以只能发展ai来赚钱。实际上技术本身是完全没进步的,只能搞一些边角余料来弄一弄。
有好的也有坏的吧,现环境的ai,本身就是一个适合干重复机械的苦工的工具。
坏处则是第一个是市场问题,听众的审美会被单一化,其结果可以看华语乐坛。还有就是用ai进行的创作,创作整体都会因为ai的限制,导致整体的作业流程从“表达自己”变成了“围绕着ai进行创作”,如果用ai且以ai为主体进行制作之后还觉得是创作,那我只能说开心就好。
用ai还算创作的唯一可能性,那就是“这里刚好ai可以直接做”,然后用ai简化流程,要做到这种操作是要完全精通音乐+ai的,精通音乐首先数理基础就要达标,做不到还是算了。对于声音修正(我怕和谐所以换了一种说法)这一方面,也是得懂人声的数理结构,发音(吐字音色)的数理结构,然后在“机械重复”的部分进行声音修正,如大批量的语言声音修正,这种就是纯纯的重复操作,那是恰到好处的适合使用ai的。当然,语音修正本身可以有其不一样的发音特点和共振体结构,但是通篇需求一致,只是要念稿的情况下那就是一致的,和创作不同,讲事情就不太需要太多的表达在里面了。但是正是基于这种情况,我才不觉得发表ai是官方应该做的事,因为会限定唯一化,除非这是官方的需求,但是一定会导致创作上的限制。
实际上,对于“不懂”这一个情况,比如不懂乐理的创作,其实是挺可怕的,之前挺火的李裁缝其实就是这么一个回事。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|T9AI - 深度人工智能平台 ( 沪ICP备2023010006号 )

GMT+8, 2024-11-23 17:34 , Processed in 0.060768 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表