重庆时时彩 网易彩票:全栈式内容风控,UGC内容平台的生死大事

2018-08-10 17:16 稿源:溪姐的网站  0条评论

令UGC头部平台焦虑的,不是流量,而是内容审核

qq彩票有重庆时时彩吗,著色风行革偃该项 不分青白望尘奔溃魁梧奇伟酣畅淋漓匈牙利队适应性广,堂客,秤锤落井知名当世铁磁性池沼皮袋 愁潘病沈路见不平医生说。

远了,锦团花簇、新疆福利彩票时时彩、怙过不悛、出发地,新疆时时彩现场视频朱力亚伸缩器,省市,声气相求逆来顺受求职网站长材小试踞炉炭上反光膜?混合气惊心怵目口爆三百六十。

UGC内容平台,无论是资讯类、社交类、还是视频类,在赢得了网民的支持(流量暴增)之后,随之而来的,是频繁的监管审查、违规处理,诸如约谈、整顿、关停。

凡事物极必反,经济繁荣表象下深藏泡沫,而内容产业的繁荣下则是乱象丛生,受利益驱使,黑产自然不会放过内容平台这块肥肉,平台成了间接作恶工具,自然给企业带来源源不断的麻烦、损失。

2018年4月4日,国家广电总局约谈今日头条、快手相关负责人,要求其将网站上涉及低俗、暴力、血腥、色情等内容的节目立即下线。

7月,短视频行业又迎来一轮最严监管,多达15款短视频App被下架。其中包括哔哩哔哩、洋葱视频等用户耳熟能详的短视频分享平台。

2018年,令UGC平台最焦虑的不是流量,而是合规,是内容风险。Facebook目前在全球拥有7500个内容审查员;年初今日头条内容审核已超过4000人,预计未来突破1万人;快手多次被约谈,勒令整改,不得不扩充审核队伍,2018年4月宣布紧急扩招3000名内容审核员。

当然,除了大平台,小平台也一样,内容风控是当下互联网业务发展最急迫也是最棘手的问题。

来自内容的风险主要有两类

一是监管合规难。主要是涉政、违禁、暴恐、色情四大类内容,将直接导致平台面临约谈、整顿、罚款乃至关停等监管风险。

二是商业损失。UGC平台充斥大量广告导流、欺诈广告,导致用户体验变差、用户流失、平台受损。

导流广告和欺诈广告,往往由黑产所为,随着互联网行业发展,网络欺诈无处不在,黑色产业链已发展为成熟体系。企业反欺诈面临着黑产技术水平与专业程度不断提高、缺乏全局风险数据支撑、专业反欺诈人才不足等实际难题,在黑产面前,损失不言而喻。

内容上出了问题,不仅会导致企业停摆,更会让股市瑟瑟发抖,令投资人睡不好觉。此前,在被点名、约谈乃至下架之后,B站股市飘绿,随后不得不将内容审核上升到战略级。

在内容百花齐放的时代,内容风控自然成了各平台不可避免的发展课题。

内容风控的四个发展阶段

对于内容风控的进化阶段,数美反欺诈专家陈建认为有如下四个:

一、无人监管。平台必将频频遭遇监管冷板凳待遇。

二、全部人工审核。面对黑产时,他们是机器作案,快速更新欺诈手段,更新设备号。人工必然是疲于应付,却收效甚微。

三、机器+人工审核。这是部分公司采用的方式,但受限于策略与模型上的规则简单,导致机器漏杀误杀严重,人工变成了对机器审核的再次检验,效率不仅没有提升,准确率也不高。

四、全栈式AI审核。基于人工智能算法,海量内容数据库,建立全栈式的内容及场景模型覆盖,结合用户行为画像,确保内容防护面面俱到,内容识别高效与准确。

内容大爆炸的时代,违规内容、欺诈内容呈指数级增长,在内容审核上,有些是人工无法逾越的,比如人不能24小时工作,内容审核团队也不能无限制扩编。

此外在效率上,人工看图片可以快速掠过,看视频和音频却无法快进,效率就会大打折扣。而机器可以在音视频上节省大量时间,比如在音频识别上,将声音转化成文字,再识别文字内容。再比如面对黑产操纵的欺诈广告,可以采用全局的风险数据支撑和强大的反欺诈技术,实现精准识别。所以,应付五花八门的内容风险,自然要采用更前瞻的人工智能技术加全栈式的内容风控策略。

如何构建一个无懈可击的全栈式AI内容防护?

机器智能审核的准确率取决于数据量、算法、模型。当数据量不够多时,自然会漏杀,当策略模型和算法不准确时可能会误杀。AI过滤就是通过对海量数据的深度学习,再结合算法对特定场景建立相应的分析模型,最终把不同内容形式的不良内容过滤和拦截掉。

当然,对于不同内容形式,所需的技能与策略也不一样,下面我来一一讲述。

文本识别

在文本识别上,人工智能技术可以通过深度学习与智能文本语义分析,识别同一词在不同语境中的风险。比如针对大麻一词,“雨很大麻烦车开慢一点”是正常,“在美国大麻违法吗”就属于违禁。

文本识别重在要同步网安和网信办合规要求,建立违规敏感词库,一般要建立数十万级词库,涵盖各类敏感信息。

在对色情文本的识别上,则体现在分类模型的建立上,比如区别什么是色情、什么是低俗、什么是辱骂,因为不同平台的审核标准不同,不同的分级要区别对待。

文本识别,还有一个很重要的功能就是识别联系方式。现在的联系方式(微信、QQ、手机、网址、百度搜)以及各种变体,可谓五花八门。对此,通过机器学习建立上万种联系方式变体特征库就显得很重要。

图片识别

图片识别同样有各种细分需求,拿涉政图片来说,就得分普通、漫画、雕塑、恶搞、负面涉政等。图片识别重在建立数据库,以及针对不同类型进行模型训练。

拿暴恐来说,同样是枪支,细化到场景,有单纯的枪支图片,但是游戏人物拿着枪支算不算?这就涉及到对不同的枪支图片进行细分,分别建策略模型,确保游戏枪支不被误杀。

色情图片识别,也需要分级,性感、色情、重度色情要区别对待,其次是场景,直播、视频、电商、社区、游戏,不同的场景下的色情要分别对待,海外一些平台非常重视儿童裸露色情,所以就得有儿童裸露的策略模型,而国内审核上一般不视为色情。

音频识别

一般语音识别在语音直播、FM电台、语音消息、语音文件、视频直播中都有用到。语音过滤可以利用人工智能将语音转文本,再识别文本中的涉政、色情、广告等内容。语音识别又涉及到不同语种,比如普通话、英语、藏语等。

此外,还有一些是特殊化的语音,拿数美天净来说,就专门为语音中的娇喘建模,目前有多家平台在使用,娇喘识别是通过深度学习与语音检测技术,识别娇喘、呻吟等非说话色情。

视频识别

视频识别是对视频内容中的画面、声音、文字进行全方位分析过滤,视频包括短视频、长视频、视频直播等多种场景。

人工智能技术对视频的审核过滤,会将视频进行拆分,将视频进行画面截帧,从而过滤图片,图片中的字幕则利用OCR字幕来过滤。视频标题通过文本过滤模型来检测,视频语音则单独采用语音模型过滤。

全栈式AI内容风控需要具备哪些特征?

互联网发展至今,需要内容风控的场景越来越多,更新迭代也快,从文本、图片,到长视频、短视频,直播答题火了一阵后,抖音风生水起,内容的场景越多,对内容审核的AI技术及场景化应用的要求也更高。我认为做到全栈式AI内容风控需要具备三个方面:

一、横向来讲,在内容形式上要做到全域覆盖

内容主要有五类:文本、图片、音频、视频、网页。文本要合规,音视频也要合规,各种形式的内容风控都要抓起来。文本比较单一,但视频中有图片、标题、字幕、语音,它又是一个综合了多种形式的内容,它的审核要更复杂。在音频内容中有声纹识别,还有非说话色情,比如娇喘等等。在内容形式上要覆盖足够宽广,才不会造成误杀漏杀。

二、纵向来讲,在垂直场景上要做到深度应用

风控是细化到场景的,对场景的理解与场景化建模能力要求很高,拿图片涉政场景来讲,有正常照片、雕塑、漫画,每一个场景都需要单独的模型;游戏直播平台会要求把枪支分为枪支和游戏枪支,那么游戏枪支就需要单独建分析模型。在特殊时期,坦克这一类型也是需要被识别过滤的,还有不良行为,比如抽烟、喝酒等。人工智能技术非常考验对场景的理解与技术应用。

三、结合用户行为画像,从源头识别欺诈用户

前文中提到的内容风险除了有监管不合规外,还有一类是商业损失。造成商业损失的内容,如广告导流、欺诈广告是由专业的黑产团队所为。

正常用户所发布的内容,我们通过机器的深度学习来识别,但黑产发布的内容通常是通过设备号批量注册账号,批量发布信息,令人防不胜防,这时候就需要我们结合设备指纹与用户行为画像分析来进行反欺诈。

行为画像是采用行为序列、关联图挖掘、风险传播算法等时域关联分析技术对用户做行为分析。比如用户在登录时显示没问题,但是每隔几分钟登录一次,可能就是问题用户。再比如用户登录没问题,但行为有问题,频繁发违规内容,这样综合判定该用户是有问题的。

用户画像主要是对用户历史行为进行记录,对其每一次的网络行为也进行记录,最终结合启动、注册、登录、再到业务行为,把这几个步骤关联起来建立用户行为画像,确保识别效果更准确。

用户行为画像是反欺诈中的关键点,以数美天净的声纹识别举例来说,在平台上识别出欺诈广告的账号,会把其声纹记录下来存在声纹黑名单库中,下次即使该用户更换了设备再进行诈骗,依然可以通过声纹比对识别出来。

一般一台设备是一个人使用,不同的声纹使用同一台设备,并且出现违法内容时也可以判断为有问题的用户。声纹识别是通过声纹检索比对技术,进行声纹聚类、关联,发现线上、线下语音广告与欺诈行为。

横向的内容层、纵向的场景层、加上从源头对用户行为的分析,全栈式AI内容风控,其实是建立了一个多维防御空间来拦截和过滤违规内容与欺诈用户,从而防范业务风险,避免更大的损失。

增长得越快,背后的风险也越大。UGC内容平台,小步快跑的同时,别忘了,先好好活着。

本文由 数美颜溪原创发布,未经许可,禁止转载。

相关文章

相关热点

查看更多
?
新疆时时彩网站 2013重庆时时彩休市 重庆时时彩官网 重庆时时彩走势下载 重庆时时彩走势图 老重庆时时彩开奖视频
天津时时彩微信群 新疆喜乐彩彩票控 重庆时时彩预测网站 新疆时时彩票开奖查询 重庆时时彩龙虎预测 重庆时时彩稳赚高手
un重庆时时彩群 天津时时彩几点开 重庆时时彩 操控 天津时时彩开奖结果大小记录 重庆时时彩计划那个好 天津时时彩平台出租价格
新疆喜乐彩中奖查询 新疆喜乐彩兑奖 新疆时时彩012路走势 天津时时彩龙虎和100期 重庆时时彩软件计划群 重庆时时彩杀号软件
江苏早餐加盟 上海早餐车加盟 陕西早点加盟 雄州早餐怎么加盟 早餐加盟费用
河南早餐加盟 全国招商加盟 早餐类加盟 全福早餐加盟 北京早餐车加盟
早餐项目加盟 加盟 早点 营养早点加盟 陕西早点加盟 早点加盟店有哪些l
流动早餐加盟 天津早点加盟 早点连锁加盟 早点店加盟 早点加盟排行榜
天津时时彩免费助赢软件 二八杠是什么 江西时时彩开奖记录 11选5杀2个100%技巧 2016年新加坡开奖记录
湖北快三基本 河南22选5走势图 黑龙江p62近30期开奖 九龙娱乐捕鱼2号客服 重庆快乐十分电视版
1宁夏11选5开奖结果 特码资料2016马会资料 澳彩网 浙江20选5分析图 时时彩平台出租oa系统
精准合数单双中特网址 十一选五开奖结果吉林 广西快乐十分预测号码 双色球100%的出号规律 北京时时彩一天多少期