·您当前的位置:首页 > 技术教程 > 腾讯云视频 >

[腾讯云]腾讯云对抗黑产,人工智能将派上什么用场?(2)

时间:2016-11-28 14:20腾讯云
以下是周斌本次分享的部分节选: 从与黑产的斗争中,腾讯的安全系统从最初的半自动化策略规则集,到基于大数据画像的策略引擎,再到基于深度学习的智能对抗引擎,正一步步实现脱胎换骨的变化。这并非简单的模式变化

以下是周斌本次分享的部分节选:

从与黑产的斗争中,腾讯的安全系统从最初的半自动化策略规则集,到基于大数据画像的策略引擎,再到基于深度学习的智能对抗引擎,正一步步实现脱胎换骨的变化。这并非简单的模式变化,它所带来的将是对系统整体架构的全面变革。

数据+算法,腾讯云形成智能的安全引擎

安全系统的数据分析平台,我们会分为4个层次进行,首先是接入层,将所有纬度的数据进行集中,包括从基础网络到业务特征,像网络流量、行为、内容等多个纬度,这样做的原因是所有分类和学习算法,必须要有基础底层数据,越真实越好,这样可以保证机器模型可以精确学习。

其次是引擎和数据层,通过底层的模型,对前期采到的数据进行分类、建模、修正,最后作为结果数据输出到业务场景中。

那么,我们从头来看,海量数据是AI的基础。通过业务数据、风险数据、行业协同数据、以及公共数据,我们构建出构建用于风险识别的智能引擎,引擎区分出正常群体和风险群体。而单个个体通过智能引擎后,最终得出是否风险个体的结论。

算法和模型是深度学习的灵魂。机器学习中,不论是否是深层,最常见的形式是监督学习。监督训练需要依赖于有标签的数据才能进行训练。然而有标签的数据通常是稀缺的,因此对于许多问题,很难获得足够多的样本来训练一个复杂的模型。对于具有强大表达能力的深度网络模型,在不充足的数据上进行训练将会导致过拟合。过拟合简单点说,是指在训练集上可以获得很好的效果,但是在其他数据集上效果就不好甚至非常差。

监督学习的另一个问题是局部最优问题。使用监督学习方法来对浅层网络(只有一个隐藏层)进行训练通常能够使参数收敛到合理的范围内。但是当用这种方法来训练深度网络的时候,并不能取得很好的效果。特别的,使用监督学习方法训练神经网络时,通常会涉及到优化问题。

鉴于监督学习存在的这些问题,两千年中期,使用无监督学习的理念开始兴起。无监督学习不依赖有标签样本,他可以帮助特定的深度网络进行“预训练”。但是这方面的研究还是在进行中。

回到安全上的深度学习模型训练上,有监督学习能否解决问题?我们的回答是:能!

首先,腾讯经过18年的黑产对抗积累,已积累了大规模的标注数据,平台每天处理超过35万亿条实时计算、超过300亿的IM消息、20亿的UGC图片、沉淀下超过400PB存储数据!我们有丰富的恶意语料库、恶意图片库可以用来进行模型训练。但是黑产是在不断演进的,新的恶意形态出现该怎么办?我们采取了两个思路:

第一是在算法上,我们引入多目标优化算法,可以解决样本不足时的过拟合问题;

第二是在半监督深度学习上的尝试,不同于人工全量标注样本,我们只标记关键点样本,再由这些关键点样本进行扩展,最后再拿得到的样本进行训练。

数据+算法,我们形成了智能的安全引擎。左脑进行计算和学习,右脑用专家规则来调整方向。

热门文章推荐

请稍候...

保利威视云平台-轻松实现点播直播视频应用

酷播云数据统计分析跨平台播放器