凯富照明 发表于 2023-5-8 09:51:21

AI在内容审核中的应用

【需求】

“人工鉴黄师”相信大师都风闻过,顾名思义,其实就是内容安全审核人员。
大师平时在网上看到的文字、图片、音视频内容,大部门都是颠末了平台的审核的。
一个原因是国家对平台内容的监管是越来越强的,如果平台呈现大量涉政、涉黄的不良信息,就会面临被有关部门约谈甚至下架、关停的风险。
另一个原因,平台本身也不但愿本身的产物调性被一些居心叵测的人粉碎掉,这样持久看会影响平台的用户留存。
所以,一般来说,平台城市专门组建一个内容风控的团队或者部门,对用户上传的信息进行审核,对不良信息或者恶意账号进行对应的清理。
但是,平台每天发生的数据量长短常大的,一个中等的社交平台(DAU 100万量级),每天新发生的图片数量可能就高达几百万张,如果纯挚的依赖“人工鉴黄师”,需要几百人的团队(一个经验丰硕的“人工鉴黄师”一天可以审核2-3万张,8小时工作制),光给这些鉴黄师们发工资一年就得花掉上千万人名币(按照5000每人每月计算),这还不包罗团队的打点费用、培训费用等。
而且,每天让“鉴黄师”们接触大量的血腥、残暴、色情的图片,本身也是不人道的,不利于“鉴黄师”们的身心健康。
AI天然地就能够辅佐平台解决这个痛点,或者说很大程度上缓解平台人工审核成本高的痛点。
因为内容审核本质上就是对数据进行打标签分类,这种相对简单、反复性高的分类工作,AI实现起来难度并不大。
对于最常见的文字内容,我们可以采用敏感词+语义分析模型相结合的方式,去匹配识别内容是否违规;
对于音频内容,我们先通过语音识别将音频内容转译为文字,将转译的文字再通过敏感词+语义分析模型,从而识别内容是否违规;
对于图片内容,我们采用分类算法识别是否是色情图片,采用方针检测识别人脸是否是政治人物,通过OCR识别图片上的文字内容,再将文字内容通过敏感词+语义分析模型,从而识别内容是否违规。
而对于复合型的内容,我们可以把他分化了再通过分歧的模型去识别。
例如,对于视频内容,我们可以先把他拆解为音频内容和截帧内容(在极短时间内截取一帧图片),然后分袂颠末音频审核模块和图片审核模块;
对于网页内容,我们可以把他拆解为以上的这几类内容,然后分袂颠末各个模块的审核。
最后,再将各个模块的识别成果聚合,形成最终结论。
AI在内容审核上的实现路径是相对简单、清晰、可落地的。
【价值】

问题的关键是AI的引入到底能给平台方带来多大的价值?
假设一个社交平台本来需要500个人审核全量数据,引入AI后,可以完全替代员工,那给平台带来的价值就是节省了组建500人审核团队的成本;
但是实际情况是,目前AI识此外精准度离人工识此外还有很大差距,换句话说,AI识别为违规的数据,相当一部门都是正常的数据,如果完全信赖AI的识别成果,将这一部门数据直接删除,就会导致很多用户的正常内容发布不出去,极大损害用户体验。
所以,实际场景里,AI识别为违规的数据,一般都需要人工复核一下,确认无误才能措置。
但即使这样,AI也能辅佐平台节省大量成本,因为需要人工复核的数据量是颠末AI初筛为违规的数据,这部门数据可能只占全量数据的百分之一,也就是审核量下降了99%。
AI识别为违规的数据占总数据量的比例(我们叫拦截比例),直接决定它能给平台带来多大价值。
同时,如果一个平台实际违规数据的比例基本不变,那AI识此外准确率就直接决定拦截比例。
换句话说,AI识此外准确率越高,拦截比例一般越低,给平台节省的成本越多,当AI的准确率接近人工识别准确率后,就可以完全替代人工。
所以,AI识此外准确率是平台查核模型增益的核心指标之一。
查核AI的准确率一般有两种计算方式:
拦截准确率:AI识别为违规而且人工复核确认违规的数据量/AI识别违规的数据量
整体准确率:AI识别成果和人工复核成果一致的数据量/总数据量
一般来说,第一种统计方式更有区分度,实际场景采用这个指标更有意义。
看完准确率指标之后,我们就得看看召回率这一指标了。
风控的本质还是控制风险,从这个角度看,内容风控的意义是尽早、尽全地发现违规内容。
尽早,说的是审核的速度,一般来说机器审核的速度是不亚于人工的;
尽全,说的还是审核的准确,你不能把违规的数据判别为正常,这样就“漏杀”了,所有的违规数据里面,AI能够识别召回来的比例,我们叫“召回率”,召回率越高,平台的风控体系越完善。
但是召回率的统计计算往往成本很高,因为平台内的违规数据的比例一般很低(1%-0.01%),想要统计出有代表性的召回率指标,意味着要人工将海量数据复核一遍。
实际场景中,成熟的平台一般采用多个路径发现违规内容,通过聚合多个路径发现的违规数据量,来斗劲分歧路径的召回增益。
即时考虑到机器成本和算法团队的研发成本,我们依然可以看到AI在内容审核场景给平台带来实实在在的价值,同时还能标榜本身是朝着智能化、数字化标的目的转型,优化人员布局,甚至给公司打上一个人工智能的tag,为上市圈钱铺路,也不是不成能。
【玩家】

所以我们可以看到,此刻市面上已经有很多成熟的产物和厂商了,我大致将AI内容审核的厂商分为三类:
1.自有业务驱动、家大业大的BAT,数据多,算法牛,技术储蓄深,独一的错误谬误长短核心业务,部门之间冲突多,很难形成合力去打市场;
阿里云-内容安全:https://help.aliyun.com/product/28415.html?spm=a2c4g.11186623.6.540.4c386961ppQkCl
腾讯云-天御业务安全:https://cloud.tencent.com/product/ams
百度云-内容审核平台:https://ai.baidu.com/solution/censoring?track=cp:ainsem|pf:pc|pp:chanpin-neirongshenhe|pu:neirongshenhe|ci:|kw:10001733
2.自有业务驱动、产物流程成熟的网易,数据较多,算法还不错,说不上核心还是不核心,反正自有业务够养活他们部门了;
网易云-内容安全:https://www.163yun.com/help/documents/150424850799972352
3.市场驱动、方才起步的草创公司,这里的代表有依图、图普、数美、同盾等,此类公司因为可能就指着这个业务存活,收入压力很大,往往在市场上展现非一般的狼性策略,在某些垂直细分场景也能做出本身的差异化和优势出来。
图普-智能鉴黄:https://www.tuputech.com/product/moderation/adultImage
数美-天净内容审核:https://console.ishumei.com/new
同盾-净朗内容安全:https://sec.xiaodun.com/product/cleanStandard?r=pp
依图:暂无(可能这部门业务市场空间有限,偏离他们主航道,暂时没有在官网有介绍,毕竟号称四小龙,而且要上市了)

guokeyinge 发表于 2023-5-8 09:52:04

写的真好[赞]
页: [1]
查看完整版本: AI在内容审核中的应用