找回密码
 立即注册
查看: 636|回复: 0

布局AIGC,讯飞三大能力助力财富改造升级

[复制链接]

1

主题

1

回帖

19

积分

新手上路

积分
19
发表于 2023-7-11 16:08:05 | 显示全部楼层 |阅读模式
从AI写作到AI绘画、作曲、剪视频......作为一种新型的内容出产方式,AIGC浪潮正席卷各行各业。信息技术研究机构Gartner预计,到2025年,生成式AI将占所有生成数据的10%,AIGC有潜力发生数万亿美元的经济价值。
3月29日,量子位主办的中国AIGC财富峰会在北京举行。AIGC范围学界、财富界的专家学者齐聚一堂,共同探讨生成新世界的过去、此刻和未来。科大讯飞AI研究院常务副院长高建清受邀参加并作主题演讲。


在《AIGC技术探索与应用创新》的演讲中,高建清分享了基于文本预训练、多模态预训练、多元异构基础资源构建、异构集群构建及大模型训练套件,讯飞在音频创作、视觉创作、文本创作等方面的研究和应用。


语音合成,也要有喜怒哀乐

语音合成技术已呈现和成长多年,如何实现人机交互场景下语音合成的拟人化情传染打动和内容出产中的音色、韵律、口音的语义控制?
通过研发虚拟声音自动缔造系统,讯飞已经实现了语义可控的声音缔造。比如用户输入一个“青年甜美的女声”的人设,系统就可以缔造出多个符合这个人设的声音。高建清透露,讯飞开放平台将开放500个虚拟合成的声音,用户可以任意挑选你所喜欢的个性化声音,而且这些合成系统平均MOS已经超过了4.0,达到了可用程度。
多风格多情感语音合成系统SMART-TTS是讯飞在音频创作方面的另一打破。
作为“讯飞超脑2030打算”中“多维表达”的核心技术之一,多风格多情感语音合成系统SMART-TTS,充实操作了文本的预训练和语音的预训练,在风格的拓展、情感控制方面取得了重要的打破。


在合成语音效果上,目前,SMART-TTS在语音交互场景已超过4.6MOS分,和专业声音演员录音程度的差距小于0.05分,合成语音已经媲美真人,更加自然真实;在情感上,SMART-TTS系统可提供11种情感,每种情感有20档强弱度分歧的调节功能;在使用场景上,可用于广告、直播、纪录片、游戏解说等10个以上的场景。
除此之外,影响语音表示关键能力的声音停顿、重音、语速等元素,在SMART-TTS中也都可以自行调节。
对于音频创作下一步的成长标的目的,高建清说,一方面ChatGPT启发我们操作Audio LLM可以实现语音合成中的音色、韵律、口音等关键因素进行控制;另一方面,用户对语音合成的追求不竭提升,由自然可懂到悦耳享受,这也要求音频创作注重声音的美化。
虚拟人制作,更快、更有个性

随着近年元宇宙财富的飞速成长,虚拟人也在越来越多的场景中应用。作为国内较早开展虚拟人技术研究的人工智能公司,早在2018年,讯飞就发布了多语种虚拟人口唇驱动,2021年发布2D真人捏脸系统;目前已形成了从3D虚拟形象口唇表情和动作的AI驱动到AI贯穿3D形象构建的全流程。
语音语义驱动的动作合成方面,讯飞通过对语音节奏、韵律体会和语义理解,让虚拟人可以随时、流畅地切换动作,拥有更加自然的肢体语言;虚拟人生成技术方面,实现了从人设到个性化数字人形象的快速批量生成。
同时讯飞还打造了个性化的3D虚拟人复刻,在仅需要一张人像和一句话的条件下能实现快速的个性化3D虚拟形象生成,以及结合个性化语音合成、语音唇形驱动技术进行声音复刻和自动化口唇表情驱动。
科大讯飞AI虚拟人已广泛应用于媒体、金融、文旅、教育、政企等多场景,并已经与新华社、央视动画、中信银行、中国安然等单元成立合作,为上千家客户提供处事。
提及虚拟人形象未来趋势,高建清认为,制作3D虚拟人仍然需要大量的人工参与,实时驱动效果面临恐怖谷效应的问题。然而,AI技术可以在虚拟人制作流程的各个方面阐扬重要感化,从而加速制作流程并废除恐怖谷效应。其次,随着AIGC技术的快速成长,文本、音频、视觉等多种元素的合成将更加深入,生成的虚拟场景将呈现更全面的多维度信息。
产物创作,为内容出产赋予“魔法”

基于在AIGC各方面的技术堆集与行业应用经验,讯飞推出了AIGC内容创作平台——讯飞智作和讯飞音乐的词曲家平台。
讯飞智作的定位是以行业领先的虚拟形象视频效果为基础,组合AIGC相关能力,打造音视频内容AI创作基地,助力内容创作更快、更省、更独特。它可以为用户提供快速的音视频出产制作处事,用户通过简单地输入文本、选择发音人或虚拟形象,即可一键完成音、视频的输出。


目前在讯飞智作中AIGC创作的视频配音、新闻视频、培训视频、广告视频已经广泛应用于媒体、金融、智慧文旅、企业数字化、智慧政务、IP运营多个范围,大大提高了各种场景下音视频内容出产效率。未来讯飞智作仍将致力于用AI更好地拓展内容创作方式的边界,持续让AIGC助力各行各业的内容出产。
比来,讯飞智作还推出了新用户尝鲜活动,AI音视频随心制作。登录讯飞智作官网,即可体验。
词曲家平台则是面向泛博词曲作者和采买方的词曲创作交易平台,提供了辅助作词、辅助作曲和歌曲试音、质量分析等AI辅助东西,辅佐泛博音乐人获得更多收益与安全交易保障,有效缩短双方交易路径,降低下游机构的采买成本,助力词曲创作交易良性成长。


面向场景,助推财富升级

针对当前火爆的ChatGPT,高建清也分享了本身的不雅概念和思考。
他认为,以ChatGPT、GPT4为代表的认知智能大模型将带来重大财富颠覆和机遇:它将改变信息分发和获取的模式、改造内容出产的模式和人机交互的模式,促进教育、医疗、金融、消费、媒体、处事业和制造业等众多财富的升级。
“依托国家新一代人工智能开放创新平台、认知智能全国重点尝试室、语音及语言措置国家工程研究中心三大国家级平台,以及在数据资源、大模型方面的堆集,讯飞将在认知智能大模型核心技术的研发基础上,重点结合教育、医疗、人机交互、办公等若干范围标的目的进行应用落地探索,并将持续赋能行业,促进数字经济成长与财富进步。”高建清说。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|T9AI - 深度人工智能平台 ( 沪ICP备2023010006号 )

GMT+8, 2024-12-22 13:29 , Processed in 0.056446 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表