比来爆火的AI大模型是否是人工智能的拐点?人工智能在实际生活学习、办公提效等方面将有哪些打破?
比来爆火的AI大模型是否是人工智能的拐点?人工智能在实际生活学习、办公提效等方面将有哪些打破? 的确,几乎所有的事情都值得用 AI 重做一遍。自 22 年 12 月份 ChatGPT 面世以来,AI 的商业化之路越来越清晰,也已经潜移默化地渗透进我们生活中的方方面面。
但首先我们不用担心 AI 有一天取代人类,甚至会对抗人类。同时,我们要以更谨慎的态度去对待这股 AI 热。——拐点还未到来,AI 的发展道阻且长——它还不能够成为我们信任的伙伴。比如,现阶段的 AI 经常犯事实性错误——将虚假的信息以非常可信、真实的方式表述给用户。一方面因为数据质量不高,另一方面是模型本身的原因。
以语音学为例。语音学里有个分支,叫做自动语言识别(Automatic Speech Recognition)。这项技术能将语音转换为计算机可识别的文字或命令,让人与机器通过对话就能完成交互。科幻片里用寥寥数语就能操控的飞船,钢铁侠的忠实管家贾维斯,甚至我们日常用的 Siri(iPhone 中的语音助手),背后都有这项技术的影子。
但我们发现,基于 CTC(Connectionist Temporal Classification,连接时许分类)模型的语音识别,经常会闹出一些让人啼笑皆非的笑话,比如:我喜欢吃肌肉。人脑之所以暂时还无法被 AI 取代,是因为人类能理解语境,处理上下文——我们一眼就能看出来“我喜欢吃”的后面,是无论如何都不可能跟“肌肉”的。
但 AI 不明白。为什么会这样?
CTC 的原理是基于神经网络模型,在训练过程中通过反向传播来更新模型参数以最小化损失函数。这个算法引入了“空白符”来表示无意义字符或者间隔符号。CTC 适合处理输入输出长度相差较大的数据,如语音识别中将声学特征映射为文本,它具有天然的非自回归解码机制,解码速度相对快很多。但问题在于,CTC 算法设置了条件独立性假设,即 CTC 假设每个时间步的输出之间是独立的。这对语音识别任务来说并不合理,比如“ji rou”这个发音,在不同的上下文中预测的文字内容应该不一样的。如果上文是“我喜欢吃”,接下来“鸡”的概率应该更高,同理如果上文是“他手臂有”,接下来“肌”的概率应该更高。如果通过 CTC 训练,很容易就会在忽略上文的前提下,输出“我喜欢吃肌肉”这样好笑的文本。
从建模的视角来看,CTC 模型仅仅利用输入来预测当下的输出。在它的建模过程中,文本信息仅仅是作为一种监督信号回传给网络,并没有作为网络的输入显式促进模型的预测。
怎么解决?网易智企旗下易盾 AI Lab 发现了这个问题,写了篇论文叫做《Improving CTC-based ASR Models with Gated Interplayer Collaboration(基于 CTC 的模型改进,实现更强的模型结构)》。这篇论文成功被全球语音、声学顶级会议 ICASSP 2023 录用。
在语音学界,被定义为“顶级”的大会一年只有两个,一个是每年 8 月份举办的 INTERSPEECH,另一个就是 ICASSP,而后者更是自 1976 年第一次办会以来,成为各路语音大拿的必争之地——你可以把它理解为语音学界的奥运会。今年是第 48 届 ICASSP 大会,也是疫情后的第一届线下会议,虽然大会官方还未公布最后录用了多少篇论文,但论文投递的数量相较往年上升了 50%,达到了惊人的 6,000+。
能被这样级别的顶会收录的论文,到底提出了怎样的方法,让“我喜欢吃”的“肌肉”变成“鸡肉”?
网易易盾 AI Lab 的技术人员,希望能在保留 CTC 解码效率的同时,尽可能地解决条件独立假设所带来的转译偏差。于是,他们从 CTC 模型本身出发,设计轻量级的模块给基于 CTC 的模型引入文本信息,使得模型能够整合声学和文本信息,学习到文本序列上下文之间的相互作用,从而缓解 CTC 算法的条件独立性假设。但过程中,团队碰到了两个问题:如何在 CTC 模型(Encoder +CTC 结构)里注入文本信息?如何自适应地融合文本特征和声学特征?
为了实现上述目标,易盾 AI Lab 设计了 Gated Interlayer Collaboration(简写为GIC)机制。GIC 模块主要包含一个嵌入层(embedding layer)和一个门控单元(gate unit)。其中,嵌入层用于生成每一音频输入帧的文本信息,门控单元用于自适应地融合文本信息和声学信息。
具体地,团队的方法基于多任务学习(Multi-task Learning)框架,利用编码器模块(Encoder)中间层的输出计算辅助 CTC loss,整个网络的目标函数是最后一层的 CTC loss 和中间层辅助 CTC loss 的加权和。GIC 将网络中间层的预测,即 Softmax 输出的概率分布作为每一帧的软标签,点乘嵌入层矩阵之和作为每一帧的文本表征。最后,生成的文本表征和声学表征通过一个门控单元自适应地融合,成为一个新特征输入到下一层。此时的新特征融合了文本特征和声学特征,使得下一层的 Encoder 模块可以学习到声学序列上下文信息和文本序列上下文信息。整个模型的框架如下图所示:
在 Conformer 和 Transformer 这两个模型上的实验表明:
1. GIC 同时支持汉语和英语的场景识别,同时准确度均取得了显著的性能提升;
2. GIC 模型性能超过了同参数规模的 Attention-based 和 RNN-transducer 模型,并且具有非自回归解码的优势,带来数倍的解码速度提升;
3. 相对原始的 CTC 模型,GIC 在多个开源数据集有远超 10% 的相对性能提升。
Conformer 模型下的结论
Transformer 模型下的结论
GIC 为 CTC 模型的性能带来了很大的提升。相对原始的 CTC 模型,GIC 模块大约带来 2M 的额外参数,其中,计算中间层辅助 CTC loss 所用的线性层与最后一层是共享的,不会带来额外的参数。多个中间层共享嵌入层,带来 256*5000 约等于 1.3M 的参数。除此之外,多个门控单元的参数是 256*256*2*k,合计约 0.6M 的额外参数量。
“我喜欢吃肌肉”不会带来严重的后果,顶多就是被当成个笑话,听过算过。但如果军事指令被误读、外交辞令被误译,后果不堪设想。技术的进步需要从论文落进现实世界,以阻止蝴蝶效应的发生。
论文中提出的 GIC 机制就已经应用在了网易易盾的内容审核业务中。
作为网易智企旗下一站式数字内容风控品牌,易盾长期专注于数字内容安全风控和反垃圾信息的技术研发和创新。其中,针对以声音作为载体的数字内容,易盾提供了多种音频内容审核引擎,包括歌曲、广播、电视节目、直播等各种类型的音频内容,及时检测和过滤含有敏感、违规、低俗,广告内容的语音,从而减少不良内容的社会影响,营造良好的网络环境。
针对有具体语义内容的音频,易盾通过语音识别技术将音频文件中的语音内容转写为文字内容,再利用检测模块分析和处理文本,从而实现对音频内容的自动化审核和过滤。因此,语音识别的准确率与音频内容的审核效率和准确性是息息相关的,会直接影响到客户开展业务的安全与稳定。
如何让语音识别更好地辅助内容审核?如何让识别动作本身也能像人脑一样,根据对语境的理解,以更低的成本给出更准确的答案?论文中的 GIC 在内容审核中的应用取得了显著的效果提升。在实际的应用过程中,需要调试的超参数有两个,分别是多任务学习系数 lambda 和中间层层数 k。在 18 层编码器结构中我们发现 k=5,lambda=0.5 有较好的实验效果。接着,我们会从这个设置开始尝试,不断微调以确定最优的超参数。
这不是易盾 AI Lab 团队第一次获得这样规格的荣誉。
作为网易智企下设的始终走在人工智能研究前沿的技术团队,易盾 AI Lab 致力于围绕精细化、轻量化、敏捷化打造全面严谨、安全可信的 AI 技术能力,不断提升数字内容风控服务水平。在这之前,团队曾获得多项 AI 算法竞赛冠军及重要奖励荣誉:
[*]2019 年第一届中国人工智能大赛 旗帜识别赛道最高级 A 级证书
[*]2020 年第二届中国人工智能大赛 视频深度伪造检测赛道最高级 A 级证书
[*]2021 年第三届中国人工智能大赛 视频深度伪造检测和音频深度伪造检测赛道两项最高级 A 级证书
[*]2021 年中国人工智能产业发展联盟“创新之星”、“创新人物”
[*]2021 年第十六届全国人机语音通讯学术会议(NCMMSC2021)“长短视频多语种多模态识别竞赛”—汉语长短视频直播语音关键词(VKW)双赛道冠军
[*]2021 年获得浙江省政府颁发的科学技术进步奖一等奖
[*]2022 年 ICPR 多模态字幕识别比赛(Multimodal Subtitle Recognition, 简称 MSR 竞赛,国内首个多模态字幕识别大赛)赛道三“融合视觉和音频的多模态字幕识别系统”冠军
未来已来,AI 的 iPhone 时刻已至。今天,易盾成功登上了语音学的学术殿堂;未来,技术将成就业务的方方面面,而网易易盾将始终伴您左右。
点击链接,体验黑科技。 咋就成了拐点,就因为能陪你唠个五块钱的嗑?
你甚至都不知道它唠的那些对与不对…… 当然是人工智能的拐点。且这个人工智能的拐点,会带来整个人类社会的拐点。
我不想连篇累牍写一大堆,也不去引用各种大佬、专家的观点、行动,就用正在发生的实际事情来做最直接的论证。
在 ChatGPT 出来之前,整个 AI 届都是低迷状态。过去的理论方法无论学术上还是应用上都达到了瓶颈。算法科学家、工程师在公司的前途渺茫。养他们太贵,产出又迟迟达不到预期,成为优先被裁撤的对象。大量算法科学家开始寻找高校的教职。
ChatGPT 横空出世,让 AI 从业者又兴奋起来,看到了曙光。但很快发现,大量传统 AI 技术在大模型面前变得毫无价值,他们多年的深耕一夜之间变得近乎毫无意义。不少学者都开始思考改变研究方向了。
但毕竟是 AI 的人,那应该还是能最快收获 AI 的红利吧?其实不然。很有意思的是,传统算法科学家、工程师,是第一批被 AI 淘汰的人。
因为大模型 AI 太强大了,以至于使用它的门槛超级低,低到远远低于以前的所有技术。以前学个 前端开发,怎么也得 2 个月起才能上手干活吧?而我这个前端小白,借助 AI,一个月就做出了 ChatALL 这个 AI 相关的开源软件,二个月就涨到 6K 星了。
接下来,在技术领域最受欢迎的,不是懂 AI 算法的人(因为不需要了),也不是会写传统架构、代码的人(因为过剩了),而是懂业务,知道怎么用 AI 大模型能最好地赋能业务的人。
这些现实的变化,够「拐点」吧?
面对这个拐点,我对所有人都是同样的两条建议:
[*]无限靠近客户、靠近业务。了解人性、了解业务,是未来的竞争壁垒
[*]马上开始用起 AI,日常的任何事情都试试 AI。AI 的使用门槛太低了,形成不了长期的竞争壁垒,但先动作的,一定能享受到先发红利
注:本文一气呵成,没有使用 AI 辅助。因为有感而发、肺腑之言的冲动,注入到文字里的感情,是人类的独有,AI 代替不了。 AI大模型确实是人工智能发展的一个重要拐点,在许多领域都取得了前所未有的成就。大模型的出现使得机器可以更好地模拟人类思维和行为,更准确地理解人类语言和图像,并自主学习和提高。
在实际生活中,AI大模型将赋予人工智能更强的智能和自主能力,进一步提高其对人类生活的理解和适应能力。例如,在医疗领域,大模型可以帮助医生更快速、更准确地对各种疾病进行诊断和治疗,甚至可以预防某些疾病的发生;在交通领域,大模型可以精准预测交通状况以及交通事故的风险,从而提高交通的安全性和效率;在教育领域,大模型可以根据不同学生的实际情况进行个性化教学,提高教学效果和学生的学习兴趣。
在办公方面,AI大模型将带来更加高效的工作方式。例如,通过自动化流程,机器可以快速地处理大量数据和内容,提高工作效能;通过自然语言处理技术,机器可以更快速地理解人类语言,从而更好地完成人类任务。此外,大模型还可以通过机器自主学习和创新,为人类创造出更多的新机会和新的方法。
一个具体的例子就是利用AI大模型来实现自动化流程。在很多企业中,公司员工需要处理大量的数据和文件,包括审核、分类、编辑等。这些任务如果全都由人工完成,则需要耗费大量的时间和精力,并且容易出现错误等问题。
但是,如果应用AI大模型,就可以实现自动化处理。AI大模型可以通过深度学习和自然语言处理技术来自动处理公司的流程,例如自动审核文件、自动分类文件、自动翻译文档等各种任务。而且,这些AI大模型可以通过实时学习和完善自己的算法,来不断提高自己的准确率和速度。
这样,一旦有大量文件需要处理,AI大模型可以快速地完成这一工作,并且可以保证高效和准确率,在大大提高办公效率的同时,也可以减少公司成本,降低公司的风险。AI工具泛滥,未来我们会利用AI加速我们的产出效率。
对于生成大模型来说,确实难以比较全面且客观的评价,不光语言大模型,就连最近比较火的文生图模型,都面临同样的问题,因为生成模型的空间太大了,你没法像图像分类任务一样简单比较一下分类准确度就好,而且有些方面不同的人有不同的评价标准,比如对于图像的美感或者生成文本的创意度,这都很难找到一个客观的标准。所以,最好的办法还是上手测试一下,好不好用就自己知道了。
页:
[1]