|
发表于 2023-6-11 13:53:10
|
显示全部楼层
的确,几乎所有的事情都值得用 AI 重做一遍。
自 22 年 12 月份 ChatGPT 面世以来,AI 的商业化之路越来越清晰,也已经潜移默化地渗透进我们生活中的方方面面。
但首先我们不用担心 AI 有一天取代人类,甚至会对抗人类。同时,我们要以更谨慎的态度去对待这股 AI 热。——拐点还未到来,AI 的发展道阻且长——它还不能够成为我们信任的伙伴。比如,现阶段的 AI 经常犯事实性错误——将虚假的信息以非常可信、真实的方式表述给用户。一方面因为数据质量不高,另一方面是模型本身的原因。
以语音学为例。语音学里有个分支,叫做自动语言识别(Automatic Speech Recognition)。这项技术能将语音转换为计算机可识别的文字或命令,让人与机器通过对话就能完成交互。科幻片里用寥寥数语就能操控的飞船,钢铁侠的忠实管家贾维斯,甚至我们日常用的 Siri(iPhone 中的语音助手),背后都有这项技术的影子。
但我们发现,基于 CTC(Connectionist Temporal Classification,连接时许分类)模型的语音识别,经常会闹出一些让人啼笑皆非的笑话,比如:我喜欢吃肌肉。人脑之所以暂时还无法被 AI 取代,是因为人类能理解语境,处理上下文——我们一眼就能看出来“我喜欢吃”的后面,是无论如何都不可能跟“肌肉”的。
但 AI 不明白。为什么会这样?
CTC 的原理是基于神经网络模型,在训练过程中通过反向传播来更新模型参数以最小化损失函数。这个算法引入了“空白符”来表示无意义字符或者间隔符号。CTC 适合处理输入输出长度相差较大的数据,如语音识别中将声学特征映射为文本,它具有天然的非自回归解码机制,解码速度相对快很多。但问题在于,CTC 算法设置了条件独立性假设,即 CTC 假设每个时间步的输出之间是独立的。这对语音识别任务来说并不合理,比如“ji rou”这个发音,在不同的上下文中预测的文字内容应该不一样的。如果上文是“我喜欢吃”,接下来“鸡”的概率应该更高,同理如果上文是“他手臂有”,接下来“肌”的概率应该更高。如果通过 CTC 训练,很容易就会在忽略上文的前提下,输出“我喜欢吃肌肉”这样好笑的文本。
从建模的视角来看,CTC 模型仅仅利用输入来预测当下的输出。在它的建模过程中,文本信息仅仅是作为一种监督信号回传给网络,并没有作为网络的输入显式促进模型的预测。
怎么解决?网易智企旗下易盾 AI Lab 发现了这个问题,写了篇论文叫做《Improving CTC-based ASR Models with Gated Interplayer Collaboration(基于 CTC 的模型改进,实现更强的模型结构)》。这篇论文成功被全球语音、声学顶级会议 ICASSP 2023 录用。
在语音学界,被定义为“顶级”的大会一年只有两个,一个是每年 8 月份举办的 INTERSPEECH,另一个就是 ICASSP,而后者更是自 1976 年第一次办会以来,成为各路语音大拿的必争之地——你可以把它理解为语音学界的奥运会。今年是第 48 届 ICASSP 大会,也是疫情后的第一届线下会议,虽然大会官方还未公布最后录用了多少篇论文,但论文投递的数量相较往年上升了 50%,达到了惊人的 6,000+。
能被这样级别的顶会收录的论文,到底提出了怎样的方法,让“我喜欢吃”的“肌肉”变成“鸡肉”?
网易易盾 AI Lab 的技术人员,希望能在保留 CTC 解码效率的同时,尽可能地解决条件独立假设所带来的转译偏差。于是,他们从 CTC 模型本身出发,设计轻量级的模块给基于 CTC 的模型引入文本信息,使得模型能够整合声学和文本信息,学习到文本序列上下文之间的相互作用,从而缓解 CTC 算法的条件独立性假设。但过程中,团队碰到了两个问题:如何在 CTC 模型(Encoder +CTC 结构)里注入文本信息?如何自适应地融合文本特征和声学特征?
为了实现上述目标,易盾 AI Lab 设计了 Gated Interlayer Collaboration(简写为GIC)机制。GIC 模块主要包含一个嵌入层(embedding layer)和一个门控单元(gate unit)。其中,嵌入层用于生成每一音频输入帧的文本信息,门控单元用于自适应地融合文本信息和声学信息。
具体地,团队的方法基于多任务学习(Multi-task Learning)框架,利用编码器模块(Encoder)中间层的输出计算辅助 CTC loss,整个网络的目标函数是最后一层的 CTC loss 和中间层辅助 CTC loss 的加权和。GIC 将网络中间层的预测,即 Softmax 输出的概率分布作为每一帧的软标签,点乘嵌入层矩阵之和作为每一帧的文本表征。最后,生成的文本表征和声学表征通过一个门控单元自适应地融合,成为一个新特征输入到下一层。此时的新特征融合了文本特征和声学特征,使得下一层的 Encoder 模块可以学习到声学序列上下文信息和文本序列上下文信息。整个模型的框架如下图所示:
在 Conformer 和 Transformer 这两个模型上的实验表明:
1. GIC 同时支持汉语和英语的场景识别,同时准确度均取得了显著的性能提升;
2. GIC 模型性能超过了同参数规模的 Attention-based 和 RNN-transducer 模型,并且具有非自回归解码的优势,带来数倍的解码速度提升;
3. 相对原始的 CTC 模型,GIC 在多个开源数据集有远超 10% 的相对性能提升。
Conformer 模型下的结论
Transformer 模型下的结论
GIC 为 CTC 模型的性能带来了很大的提升。相对原始的 CTC 模型,GIC 模块大约带来 2M 的额外参数,其中,计算中间层辅助 CTC loss 所用的线性层与最后一层是共享的,不会带来额外的参数。多个中间层共享嵌入层,带来 256*5000 约等于 1.3M 的参数。除此之外,多个门控单元的参数是 256*256*2*k,合计约 0.6M 的额外参数量。
“我喜欢吃肌肉”不会带来严重的后果,顶多就是被当成个笑话,听过算过。但如果军事指令被误读、外交辞令被误译,后果不堪设想。技术的进步需要从论文落进现实世界,以阻止蝴蝶效应的发生。
论文中提出的 GIC 机制就已经应用在了网易易盾的内容审核业务中。
作为网易智企旗下一站式数字内容风控品牌,易盾长期专注于数字内容安全风控和反垃圾信息的技术研发和创新。其中,针对以声音作为载体的数字内容,易盾提供了多种音频内容审核引擎,包括歌曲、广播、电视节目、直播等各种类型的音频内容,及时检测和过滤含有敏感、违规、低俗,广告内容的语音,从而减少不良内容的社会影响,营造良好的网络环境。
针对有具体语义内容的音频,易盾通过语音识别技术将音频文件中的语音内容转写为文字内容,再利用检测模块分析和处理文本,从而实现对音频内容的自动化审核和过滤。因此,语音识别的准确率与音频内容的审核效率和准确性是息息相关的,会直接影响到客户开展业务的安全与稳定。
如何让语音识别更好地辅助内容审核?如何让识别动作本身也能像人脑一样,根据对语境的理解,以更低的成本给出更准确的答案?论文中的 GIC 在内容审核中的应用取得了显著的效果提升。在实际的应用过程中,需要调试的超参数有两个,分别是多任务学习系数 lambda 和中间层层数 k。在 18 层编码器结构中我们发现 k=5,lambda=0.5 有较好的实验效果。接着,我们会从这个设置开始尝试,不断微调以确定最优的超参数。
这不是易盾 AI Lab 团队第一次获得这样规格的荣誉。
作为网易智企下设的始终走在人工智能研究前沿的技术团队,易盾 AI Lab 致力于围绕精细化、轻量化、敏捷化打造全面严谨、安全可信的 AI 技术能力,不断提升数字内容风控服务水平。在这之前,团队曾获得多项 AI 算法竞赛冠军及重要奖励荣誉:
- 2019 年第一届中国人工智能大赛 旗帜识别赛道最高级 A 级证书
- 2020 年第二届中国人工智能大赛 视频深度伪造检测赛道最高级 A 级证书
- 2021 年第三届中国人工智能大赛 视频深度伪造检测和音频深度伪造检测赛道两项最高级 A 级证书
- 2021 年中国人工智能产业发展联盟“创新之星”、“创新人物”
- 2021 年第十六届全国人机语音通讯学术会议(NCMMSC2021)“长短视频多语种多模态识别竞赛”—汉语长短视频直播语音关键词(VKW)双赛道冠军
- 2021 年获得浙江省政府颁发的科学技术进步奖一等奖
- 2022 年 ICPR 多模态字幕识别比赛(Multimodal Subtitle Recognition, 简称 MSR 竞赛,国内首个多模态字幕识别大赛)赛道三“融合视觉和音频的多模态字幕识别系统”冠军
未来已来,AI 的 iPhone 时刻已至。今天,易盾成功登上了语音学的学术殿堂;未来,技术将成就业务的方方面面,而网易易盾将始终伴您左右。
点击链接,体验黑科技。 |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有账号?立即注册
×
|