AI在内容审核中的应用

凯富照明 · 发表于 2023-5-8 09:51:21

【需求】

“人工鉴黄师”相信大师都风闻过，顾名思义，其实就是内容安全审核人员。
大师平时在网上看到的文字、图片、音视频内容，大部门都是颠末了平台的审核的。
一个原因是国家对平台内容的监管是越来越强的，如果平台呈现大量涉政、涉黄的不良信息，就会面临被有关部门约谈甚至下架、关停的风险。
另一个原因，平台本身也不但愿本身的产物调性被一些居心叵测的人粉碎掉，这样持久看会影响平台的用户留存。
所以，一般来说，平台城市专门组建一个内容风控的团队或者部门，对用户上传的信息进行审核，对不良信息或者恶意账号进行对应的清理。
但是，平台每天发生的数据量长短常大的，一个中等的社交平台（DAU 100万量级），每天新发生的图片数量可能就高达几百万张，如果纯挚的依赖“人工鉴黄师”，需要几百人的团队（一个经验丰硕的“人工鉴黄师”一天可以审核2-3万张，8小时工作制），光给这些鉴黄师们发工资一年就得花掉上千万人名币（按照5000每人每月计算），这还不包罗团队的打点费用、培训费用等。
而且，每天让“鉴黄师”们接触大量的血腥、残暴、色情的图片，本身也是不人道的，不利于“鉴黄师”们的身心健康。
AI天然地就能够辅佐平台解决这个痛点，或者说很大程度上缓解平台人工审核成本高的痛点。
因为内容审核本质上就是对数据进行打标签分类，这种相对简单、反复性高的分类工作，AI实现起来难度并不大。
对于最常见的文字内容，我们可以采用敏感词+语义分析模型相结合的方式，去匹配识别内容是否违规；
对于音频内容，我们先通过语音识别将音频内容转译为文字，将转译的文字再通过敏感词+语义分析模型，从而识别内容是否违规；
对于图片内容，我们采用分类算法识别是否是色情图片，采用方针检测识别人脸是否是政治人物，通过OCR识别图片上的文字内容，再将文字内容通过敏感词+语义分析模型，从而识别内容是否违规。
而对于复合型的内容，我们可以把他分化了再通过分歧的模型去识别。
例如，对于视频内容，我们可以先把他拆解为音频内容和截帧内容（在极短时间内截取一帧图片），然后分袂颠末音频审核模块和图片审核模块；
对于网页内容，我们可以把他拆解为以上的这几类内容，然后分袂颠末各个模块的审核。
最后，再将各个模块的识别成果聚合，形成最终结论。
AI在内容审核上的实现路径是相对简单、清晰、可落地的。
【价值】

问题的关键是AI的引入到底能给平台方带来多大的价值？
假设一个社交平台本来需要500个人审核全量数据，引入AI后，可以完全替代员工，那给平台带来的价值就是节省了组建500人审核团队的成本；
但是实际情况是，目前AI识此外精准度离人工识此外还有很大差距，换句话说，AI识别为违规的数据，相当一部门都是正常的数据，如果完全信赖AI的识别成果，将这一部门数据直接删除，就会导致很多用户的正常内容发布不出去，极大损害用户体验。
所以，实际场景里，AI识别为违规的数据，一般都需要人工复核一下，确认无误才能措置。
但即使这样，AI也能辅佐平台节省大量成本，因为需要人工复核的数据量是颠末AI初筛为违规的数据，这部门数据可能只占全量数据的百分之一，也就是审核量下降了99%。
AI识别为违规的数据占总数据量的比例（我们叫拦截比例），直接决定它能给平台带来多大价值。
同时，如果一个平台实际违规数据的比例基本不变，那AI识此外准确率就直接决定拦截比例。
换句话说，AI识此外准确率越高，拦截比例一般越低，给平台节省的成本越多，当AI的准确率接近人工识别准确率后，就可以完全替代人工。
所以，AI识此外准确率是平台查核模型增益的核心指标之一。
查核AI的准确率一般有两种计算方式：
拦截准确率：AI识别为违规而且人工复核确认违规的数据量/AI识别违规的数据量
整体准确率：AI识别成果和人工复核成果一致的数据量/总数据量
一般来说，第一种统计方式更有区分度，实际场景采用这个指标更有意义。
看完准确率指标之后，我们就得看看召回率这一指标了。
风控的本质还是控制风险，从这个角度看，内容风控的意义是尽早、尽全地发现违规内容。
尽早，说的是审核的速度，一般来说机器审核的速度是不亚于人工的；
尽全，说的还是审核的准确，你不能把违规的数据判别为正常，这样就“漏杀”了，所有的违规数据里面，AI能够识别召回来的比例，我们叫“召回率”，召回率越高，平台的风控体系越完善。
但是召回率的统计计算往往成本很高，因为平台内的违规数据的比例一般很低（1%-0.01%），想要统计出有代表性的召回率指标，意味着要人工将海量数据复核一遍。
实际场景中，成熟的平台一般采用多个路径发现违规内容，通过聚合多个路径发现的违规数据量，来斗劲分歧路径的召回增益。
即时考虑到机器成本和算法团队的研发成本，我们依然可以看到AI在内容审核场景给平台带来实实在在的价值，同时还能标榜本身是朝着智能化、数字化标的目的转型，优化人员布局，甚至给公司打上一个人工智能的tag，为上市圈钱铺路，也不是不成能。
【玩家】

所以我们可以看到，此刻市面上已经有很多成熟的产物和厂商了，我大致将AI内容审核的厂商分为三类：
1.自有业务驱动、家大业大的BAT，数据多，算法牛，技术储蓄深，独一的错误谬误长短核心业务，部门之间冲突多，很难形成合力去打市场；
阿里云-内容安全：https://help.aliyun.com/product/28415.html?spm=a2c4g.11186623.6.540.4c386961ppQkCl
腾讯云-天御业务安全：https://cloud.tencent.com/product/ams
百度云-内容审核平台：https://ai.baidu.com/solution/censoring?track=cp:ainsem|pf:pc|pp:chanpin-neirongshenhe|pu:neirongshenhe|ci:|kw:10001733
2.自有业务驱动、产物流程成熟的网易，数据较多，算法还不错，说不上核心还是不核心，反正自有业务够养活他们部门了；
网易云-内容安全：https://www.163yun.com/help/documents/150424850799972352
3.市场驱动、方才起步的草创公司，这里的代表有依图、图普、数美、同盾等，此类公司因为可能就指着这个业务存活，收入压力很大，往往在市场上展现非一般的狼性策略，在某些垂直细分场景也能做出本身的差异化和优势出来。
图普-智能鉴黄：https://www.tuputech.com/product/moderation/adultImage
数美-天净内容审核：https://console.ishumei.com/new
同盾-净朗内容安全：https://sec.xiaodun.com/product/cleanStandard?r=pp
依图：暂无（可能这部门业务市场空间有限，偏离他们主航道，暂时没有在官网有介绍，毕竟号称四小龙，而且要上市了）

guokeyinge · 发表于 2023-5-8 09:52:04

写的真好[赞]

		自动登录	找回密码
密码			立即注册