国内哪些公司有语音合成团队,在做语音合成(TTS)方面的研发?
基于国内语音合成不温不火,科大讯飞仿佛也没投入多少精力做此方面的优化和技术迭代,而似乎智能家居、智能音箱之类也明显离不开TTS技术。 “风物长宜放眼量”。在GPT-4的巨浪冲击下,面向人机交互更加自然流畅的未来,智能语音技术该走向何方?近几年围绕语音合成通用框架所做的工作很丰富,例如VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)这种端到端建模,以及韵律表征等。
讯飞研究院提出了SMART-TTS框架,核心思路就是将语音合成的学习过程进行模块化拆解,通过预训练加强各个模块学习,而非一开始就直接学习文本与声学特征的映射。
首先做文本编码预训练。通过将文本先和语音联合在一起做预训练,希望在文本的表征里就能包含一些跟发音韵律相关的信息,在此基础上再做韵律建模、提取韵律表征相对就容易一些。
除了传统的基频能量或时长等一些人为设计的统计特征,我们用对比学习的方式提取韵律特征,使得对语音韵律的表征能力更强。
有了韵律特征之后,我们再去恢复最终的声学特征,声学特征用到了VAE等一些编码,在编码的基础上通过声码器最终去恢复它的语音。
目前,SMART-TTS已经上线讯飞开放平台,在学习强国、讯飞有声APP中都可以直接体验到其语音合成效果。
虚拟音色生成 跨进元宇宙的大门
除了SMART-TTS之外,讯飞研究院还在语音合成领域做了另外一项工作:虚拟音声的生成。
元宇宙是当下很火的一个话题,元宇宙空间中NPC(non-player character,非玩家角色)可以说无处不在。如果NPC的语音跟自己的人设不符,会很明显影响我们的体验感受。而面对海量的NPC,想要为每个NPC都寻找合适的发音人是极为费时费力的一件事。
同样的情况也出现在有声小说中,繁多的角色如果用同一个声音朗读,会让我们感觉比较乏味。怎样才能贴合每个角色的性格去实现声音的“角色扮演”呢?
虚拟音色生成,就是将海量说话人的语音联合在一起训练语音合成模型首先通过音色编码模块提取说话人的相关表征,这些表征是为了说话人识别服务的,在音色空间构成上是区分性的表征,不像生成式模型在空间层面有很多内插等的属性。因此,我们通过流模型将音色表征进一步投影到新的隐层表征空间,将这个空间的表征和前面的文本表征、韵律表征联合做语音合成。
因为在训练时会有非常多说话人的数据,且训练时还会标出一些说话人的音色特征标签,例如年龄、性别、特点(甜美、浑厚等)等,有了这些标签引导后使得最后的音色空间表征Z具有很强的指示性,同时还具有很好的内插等属性。
有了相关模型后,使用就变得更加简单了。我们可以输入一些希望生成的语音,例如“青年 甜美的女声”等,然后通过语义编码模块训练一个和Z的映射关系,最后可以根据采样得到符合音色控制标签的音色。
目前我们已经用这一模型生成了500多个虚拟的合成音色,合成语音自然度超过了4.0MOS。
以上语音合成能力均可在讯飞开放平台体验,目前已上线聆系列主播,可以一键完成语音合成并试听,点击下方链接即可体验。
https://t.xfyun.cn/Wefl9gb (以下内容搬运自 PaddleSpeech)
实现单模型TTS中英文发音初步尝试了3种方案:单发音人方式、多发音人语料混合方式、finetune方式。
示例句子:
大家好,我是parrot虚拟老师,我们来读一首诗,我与春风皆过客, I and the spring breeze are passing by,你携秋水揽星河, you take the autumn water to take the galaxy。(一)单发音人方式(有数据才行!)
使用同一发音人中文、英文语料,这种方式效果最佳,听听效果:
中英文女:
播放音频
中英文男:
播放音频
(二)多发音人语料混合方式(音色串了!)
有开源数据中文baker、英文ljspeech数据,将数据混合成单发音人训练出一个模型,能听出一句话中文是baker、英文是ljspecch两种音色,我想音色差别不大的时候可以选用这种方式,听听效果:
播放音频
(三)finetune方式(音色一致了!)
在第一种中英文预训练模型上进行finetune,实现特色语音、动漫语音、方言,效果如下:
特色普通话
Baker说中英文:
播放音频
抖音鸡汤女说中英文:
播放音频
动漫
蜡笔小新说中英文:
播放音频
海绵宝宝说中英文:
播放音频
方言
东北话:
播放音频
广西话:
播放音频
河南话:
播放音频
四川话:
播放音频
天津话:
播放音频
粤语:
播放音频
后续是否可以在第二种方案的模型上进行finetune达到好的效果再进行验证,这样就不需要单发音人的中英文预训练模型了,只需要开源数据就OK了。
×××××××××××PaddleTTS实现起来还是很方便的,感谢各位大佬...××××××××××
FAQ
Q: 有开源方言可直接调用的接口吗? A: 暂时没看到有免费的
Q: 大佬你好,上述数据是网上爬虫整理的,还是采购的,方言效果不错,如果是采购的话请问哪里可以获取? A: 整理的呢,主要验证无英文语料的方言发音人的英文发音音色和韵律是什么效果
更多内容请参考原 Disscussion 链接。
P.S. 欢迎关注我们的 github repo PaddleSpeech, 是基于飞桨 PaddlePaddle 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。 像科大讯飞、百度、微软这些大公司外,也有一些在人工智能领域发展比较好技术公司在做,比如我司中科极限元,我司孵化于中科院自动化所,与中国科学院自动化研究所挂牌成立了“智能交互联合实验室”,自主研发语音识别、语音合成、自然语音处理、情感计算、大数据分析等技术,推出了云端、桌面、嵌入式等跨平台AI技术解决方案。 我们先来了解一下,语音合成是什么?
语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。简而言之,语音合成其实就是将文字快速转换成语音的技术。
语音合成的技术路径如下:
那么,语音合成的发展是怎样的呢?
现阶段中英文MOS评测对比:
也就是说在2016年,语音合成技术从听觉体验的角度来说,已经能基本达到人的说话语气,重音节奏,但还不足以代替人声。但MOS评测中,中文的语音合成评分整体比英文低一些,整体效果稍有差距。
回到答主的问题,现在国内做语音合成技术的团队有哪些?
其实,除了科大讯飞、微软、百度等这类大牌企业。近些年人工智能语音的企业已呈爆发式增长,其中不乏一些垂直的中小企业,我司(标贝科技)就是其中一员。
http://pica.zhimg.com/v2-cf0c55375654ae7eb6458395f57b993f_r.jpg?source=1940ef5c
近三年所获部分奖项:
在语音合成服务方面:
并且,语音合成相关服务在标贝开放平台即可完成应用创建。开发者也可根据场景需求,自行使用相关技术接口。
好了,不知道以上内容有没有帮到题主呢?标贝科技也是希望能为更多开发者赋能,创造智能语音更多应用场景落地,一起体验AI语音的乐趣呢。
体验点击:
标贝科技-智能语音交互与AI数据服务专家 先放一下原文章链接:Mewlvd的文章 - 知乎 https://zhuanlan.zhihu.com/p/202692908
小老板一直执着于让我整理数据,挣扎了很久,终于还是做了
经过半个多月的努力整理出来,才发现这样一个东西还是蛮有用的,查资料的过程中多么希望有个人已经帮我整理好了,我直接拿来用(对,就是想做伸手党),希望能对大家有帮
先来个目录:
[*]TTS和VC数据集
[*]TTS和VC生成工具(API接口和网页接口)
[*]TTS和VC相关研究单位
第一部分:相关数据集
数据集名称/网址/简单说明
数据堂:https://www.datatang.com/dataset/info/speech/935 19.46小时美国英语女声合成库
海天瑞声:http://www.speechocean.com/business/synthesis.html?bd_vid=11362156655531968452 多语种,可定制
爱数智慧: https://www.magicdatatech.cn/opens/3266.html 爱数智慧中文童声语音合成数据集
ASV spoof: https://www.asvspoof.org/database 15年,19年 LA
Synthetic Speech Commands Dataset: https://www.kaggle.com/jbuchner/synthetic-speech-commands-dataset 命令词
CMU ARCTIC Databases:http://festvox.org/cmu_arctic/
Nancy Corpus: http://www.cstr.ed.ac.uk/projects/blizzard/2011/lessac_blizzard2011/Blizzard Challenge的数据
TTS-Portuguese Corpus:https://www.dropbox.com/s/ohpc7epowv9ct7o/TTS-Portuguese-Corpus.zip?dl=0 (我上不去这个网址,可能需要翻墙)
German Text-to-Speech: http://ttssamples.syntheticspeech.de/
Audio recordings for Blizzard 2020: http://www.cstr.ed.ac.uk/projects/blizzard/2020/ Blizzard Challenge2020的数据
SAS corpus: https://wiki.inf.ed.ac.uk/CSTR/SASCorpus
BTAS: https://www.idiap.ch/dataset/avspoof
第二部分:转换工具
2-1 API
捷通华声: https://www.aicloud.com/dev/ability/index.html?key=tts#ability-experience
Nuance: https://www.nuance.com/omni-channel-customer-engagement/voice-and-ivr/text-to-speech.html
标贝科技: https://www.data-baker.com/tts.html
亚马逊: https://aws.amazon.com/cn/polly/
思必驰: http://aispeech.com/index.php?m=content&c=index&a=lists&catid=56
搜狗: https://ai.sogou.com/product/audio_composition/
科大讯飞:https://www.xfyun.cn/services/online_tts
百度: https://ai.baidu.com/tech/speech/tts
腾讯: https://ai.qq.com/product/aaitts.shtml
微软: https://azure.microsoft.com/zh-cn/services/cognitive-services/text-to-speech/
京东: https://neuhub.jd.com/ai/api/speech/tts
金山:https://www.ksyun.com/nv/product/TTS.html
滴滴: https://www.didiyun.com/production/sps.html
谷歌: https://cloud.google.com/text-to-speech?hl=zh-cn
IBM: https://cloud.ibm.com/apidocs/text-to-speech
阿里云: https://ai.aliyun.com/nls/tts
出门问问: https://www.chumenwenwen.com/technology/index.html#speech-synthesis
云知声: https://dev.hivoice.cn/exp_center/tts/tts.jsp
有道: https://ai.youdao.com/
华为: https://www.huaweicloud.com/product/tts.html
学而思: https://ai.xueersi.com/tts/
极限元: http://www.jixianyuan.com/speechSynthesis.html
DUI: https://www.duiopen.com/openSource/technology/tts
图灵机器人: http://docs.turingos.cn/sdk/sdkv1/#tts
2-2 在线转换
知音配音: https://peiyin.wozhiyi.com/newproduction.html?tg=5482
闪电文字语音转换软件: https://www.callmysoft.com/yuyinzhuanhuan
在线免费文字转换语音系统: http://tools.bugscaner.com/tts/
在线AI转换网: https://www.zaixianai.cn/voiceCompose
VoiceMaker: https://voicemaker.in/
VoiceChanger: https://voicechanger.io/
音品汇: http://www.yinpinghui.com/a/
TOOLFK: https://www.toolfk.com/tool-online-text2video.html
牛片只能配音: https://www.6pian.cn/peiyin.html
培音: http://www.peiyinapp.com/sample.html
未知: https://ttstool.com/
未知: https://freetts.com/(这个网站里整理了国外很多语音转换网站)
第三部分:研究单位
(这部分还在整理中,网址也不是技术相关,所以原文章我直接放了图,图片服务在升级,后期加上)
我会抽时间继续更新
希望各位同行指正批评!!!
页:
[1]