前些年,有一些新兴职业曾经引发过热议,在这其中,“鉴黄师”显然是讨论非常多的职业。很多好事者觉得这个职业很好,能够看大量的“有料”视频和图片,还有工资拿。不过真实的情况则是,如果让你连续每天不停地看这些资料数个小时,对身心不仅是一个很大的伤害,还是一件很没有人性的事情。

而且必须要说的是,“鉴黄师”更多的时候还是用来鉴定传统的黄色影碟、录像之类,而到了互联网蓬勃发展的时代,这个职业就有些跟不上时代了。原因也很简单,那就是网上的数据实在是太多了,人力根本看不过来,而一味的增加人手显然也不是一个办法,因为会带来高昂的管理成本,所以如何能够更好的解决这些不健康的内容,就成为一个非常重要的问题。

人工智能开始接替人类“鉴黄”

随着技术的不断提升,人工智能开始爆发,成为这两年的热点。而人工智能是什么?又能做什么?不仅有很多的展望,还有很多的探讨,不过最为直接的,就是可以开始利用人工智能来解决鉴黄这件重要又没人性的事情了。

对于人工智能而言,最基本的几个方面就是图像识别,语言识别,自然语言处理等,最擅长的就是进行大量的图像、声音的区分,可以说真的是为鉴黄而生。而目前在阿里云的服务中,鉴定非法、违规内容已经成了非常重要的一项,而在这些非法内容中,最常见的自然就是黄色内容了。

为此我特意专访了阿里安全部高级算法专家威视和产品专家念夏,去深度地了解一下这个很多人都感兴趣的话题,我们是如何训练人工智能去完成鉴黄工作。

事实上这个功能的核心需求者其实是广大中小网站,当时阿里云上差不多托管了中国四分之一的网站,他们特别需要更为低成本和高效的安全筛选机制,因为不然很有可能就被网民上传的非法内容坑掉。阿里的安全部门很早就开始利用机器学习的方式来进行非法内容的筛查和识别,2015年后,随着各方面技术尤其是硬件能力、存储能力等的提升,开始了更为深度的学习和提升。

“鉴黄师”这个没人性的工作要逐渐被机器取代了-焦点中国网

(阿里AI鉴黄师,用技术解决社会问题)

到了2015年底收集五福的大活动,因用户要上传大量图片,这成了考验阿里AI鉴黄能力的一次重要“战役”,到了2016年,阿里就已经做到开放这个能力给微博,帮助微博进行包括头像在内的图片审核了。

机器加人工,可能是最终解决方案

人工智能的鉴黄模型并不复杂,或者可以说大部分鉴定某一类内容的的方法都是一样的:先做好分类的标准,再去收集大量的样本,根据标准给样本打上标去让模型深度学习,最终就会得到一个鉴定的算法。这种算法不仅仅用来筛查黄色图片,也会帮助淘宝这样的电商平台来寻找违禁违规产品,对于不同的网站鉴定的侧重点不同,但毋庸置疑的是,对于大部分网站运营者来说,用户上传内容的合法、合规性审查,是一个实实在在的刚需。

随着人工智能的能力不断上升,这种鉴定包括不限于图片,甚至文字和视频也可以进行相应的鉴定。比如说可以通过识别文档的文字内容,来判断内容是否违规,提取视频文件的图像和声音进行鉴定,来判断视频是否存在涉黄违法的隐患。可以说人工智能大大提升,阿里安全,用技术解决社会问题的能力大大提升,也降低了运营中的风险。尤其在当下这种每天海量数据上传的情况下,人工智能鉴黄带来的效率提升,更是实实在在的。而这种鉴定能力,甚至还可以支持多国语言和多地方言,确实变得越来越强大。8月21日,在北京举办的网络安全生态峰会上,阿里将集中展示这些技术。

不过,人工智能毕竟还是机器,必定也是存在一定的误报情况,或者是一些新情况的理解不足,比如一些特定场景下的艺术品展示,如果不加甄别,也被划入涉黄的范围内,自然也是一件遗憾的事情。再就是一些新增的特殊场景的特殊要求,也可以通过训练人工智能来完成调整,威视介绍说,比如某些直播对主播抽烟、吃香蕉、直播着装等有所限制,很多时候都是通过人工智能完成初步鉴定,然后将可疑行为再交给人去进行最终的判断和处理。

这样做不仅提升了效率,也保证了处置的准确性。而这种人工智能加人工的双重筛选、判定的模式,目前看将成为未来的主流鉴定模式。而随着人工智能的精度不断上升,人需要判断的内容比例也会越来越低。

人工智能鉴黄的社会意义

总体而言,阿里发展AI鉴黄技术是一项非常有社会意义的事情,因为人工智能鉴黄这个能力的最大价值,除了帮助更多企业可以以更低的成本,来完成自己网络业务的合规化,更为重要的是,它也为全社会解决网络色情等问题,提供了支撑。

从2014年开始,全国“扫黄打非”工作小组办公室、国家互联网信息办公室、工业和信息化部、公安部就联合推出了“净网行动”来打击互联网制作传播淫秽色情信息行为。一开始这是一个很艰巨的任务,而随着人工智能鉴黄的能力越来越强,这项工作的难度也开始下降,效果也越来越强,对人力的要求也越来越少。

随着人工智能能力的不断提升,加上对内容管控力度的不断加强,阿里AI鉴黄的灵活性和弹性也越来越大,从而去适应政策和社会要求的多样性和复杂性。

不过这其中也存在一些障碍,比如说,目前的鉴定标准,已经达到了比较高的水准,但一些特殊不文明行为的鉴定,比如一些封建迷信的行为,因为在样本数据上的获取可能就存在一定难度,所以在学习和形成鉴定能力的过程中就存在一定难度,这也给未来的发展提出了新的问题和挑战。而这也只能通过不断地优化算法和采集更大量的图片等信息数据来实现,所以让人工智能完全去理解这个世界,还是需要一些时日。

目前国内的大部分科技企业都在进行自己相关的人工智能业务的研究,而阿里因为是提供的互联网基础服务,所以在内容鉴定审核这个方面的优势也比较明显,不仅通过阿里云在输出各种人工智能的能力给企业和社会,也在通过达摩院、图灵实验室等机构在不断深入研究更多的未来发展方向。而随着越来越多的信息积累,相信人工智能的威力也会越来越强大,最终可以代替人类做更多的事情。

万能的大熊

微博2015 2016 2017连续三年获得科技领域、电商领域十大最具影响力大V

蓝鲸自媒体联盟2017年年度科技大V

公关品牌专家:曾负责360手机助手、360手机游戏、360随身wifi、360儿童手表、360行车记录仪的品牌营销,均为行业第一品牌。

畅销书作者:《格局逆袭1》,销量超过十万册。《格局逆袭2》,上市两个月销量突破五万本。

微营销第一社群大熊会创始人:2013年创建大熊会,位列中国社群影响力排行榜前五,是国内最大的致力于研究和引领微营销发展潮流的社会化营销社群组织,成员已超七千人。