互联网游戏视频流量的识别方法、系统、设备及介质与流程

文档序号:17844906发布日期:2019-06-11 21:37阅读:366来源:国知局
互联网游戏视频流量的识别方法、系统、设备及介质与流程

本公开涉及机器学习和数据挖掘领域,特别是涉及互联网游戏视频流量的识别方法、系统、设备及介质。



背景技术:

本部分的陈述仅仅是提到了与本公开相关的背景技术,并不必然构成现有技术。

在实现本公开的过程中,发明人发现现有技术中存在以下技术问题:

近年来,互联网中的视频流量呈现爆发式的增长。根据思科的报告,82%的网络流量是由视频应用产生。大量的视频流量给网络的管理带来了沉重的负担。与此同时,大量的不良视频在网络中传播,危害了社会的稳定,特别对于青少年来说,沉迷于游戏视频严重影响身心的健康发展。因此如何高效的识别出游戏视频和管理互联网中的视频流量成为了一个亟待解决的问题。在计算机视觉方面,研究人员通常提取关键帧,图片颜色和形状等来识别视频内容。图像层面的视频内容识别需要理解高层语义,并且处理的是静态的和完整的数据,这就导致了较低的实时性。另外实时的视频流量导致很难收集完整的视频数据。因此很难将传统的视频内容分析技术应用到互联网视频流量识别中。

对于大量的互联网中的视频流量,游戏视频流量只是占据了一小部分,即存在类别不平衡问题。在这种不平衡数据集中,标准分类器追求的是整体的分类准确率,忽略了少数类样本的识别精度,而少数类样本又是关注的重点,它们将少数类被误分类为多数类,这样即使得到很高的准确率,这个分析结果也毫无意义,难以有效地识别出互联网中的游戏视频流量。因此,标准分类器不适合直接分类类别不平衡的数据集。目前有大量的非平衡处理方法被提出来解决这个问题。这些方法大致可以分为两类:第一类是数据层面的方法,通过过采样少数类或者欠采样多数类实现数据的平衡;第二类是算法层面的方法,对现有的分类算法进行改进或者提出新的算法来有效的识别出少数类。数据层面的方法因为独立于分类器,所以吸引了大量的研究兴趣,这些方法在某些情况下是很有效的,但是他们也存在一些问题。在对少数类样本加权时不考虑位置和距离因素,导致少数类的权重计算不恰当。另外他们是沿着一条线来生成新的样本,这样会导致生成的样本落在多数类区域。

综上所述,现有技术中对于正负样本数量不平衡情况下的互联网游戏视频流量的精确识别问题,尚缺乏有效的解决方案。



技术实现要素:

为了解决现有技术的不足,本公开提供了互联网游戏视频流量的识别方法、系统、设备及介质,用基于单样本高斯分布的重采样方法对互联网中视频流量的正负样本数量进行平衡,进而有效识别互联网中的游戏视频流量;

第一方面,本公开提供了互联网游戏视频流量的识别方法;

互联网游戏视频流量的识别方法,包括:

采用单样本高斯分布重采样算法对互联网游戏视频流量训练集的特征数据集进行采样处理,实现训练集中正样本和负样本的数量均衡,最后得到优化后的训练集;

将优化后的训练集的特征输入到分类模型中,对分类模型进行训练;得到训练好的分类模型;

采集待测试互联网视频,对待测试互联网视频进行特征提取,对提取的特征进行筛选得到待测试的特征数据集;

将待测试的特征数据集输入到训练好的分类模型中;输出互联网游戏视频流量的识别结果。

第二方面,本公开还提供了互联网游戏视频流量的识别系统;

互联网游戏视频流量的识别系统,包括:

样本数量均衡处理模块:采用单样本高斯分布重采样算法对互联网游戏视频流量训练集的特征数据集进行采样处理,实现训练集中正样本和负样本的数量均衡,最后得到优化后的训练集;

分类模型训练模块:将优化后的训练集的特征输入到分类模型中,对分类模型进行训练;得到训练好的分类模型;

特征提取模块:采集待测试互联网视频,对待测试互联网视频进行特征提取,对提取的特征进行筛选得到待测试的特征数据集;

识别模块:将待测试的特征数据集输入到训练好的分类模型中;输出互联网游戏视频流量的识别结果。

第三方面,本公开还提供了一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面中的方法。

第四方面,本公开还提供了一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面中方法的步骤。

与现有技术相比,本公开的有益效果是:

采用单样本高斯分布重采样算法对互联网游戏视频流量训练集的特征数据集进行采样处理,实现训练集中正样本和负样本的数量均衡,利用数量均衡的训练集对分类模型进行训练比利用数量严重失衡的训练集对分类模型进行训练,更能提升分类识别的准确度。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。

图1为实施例一的方法流程图;

图2为实施例一的正样本生成示意图。

具体实施方式

应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一,本实施例提供了互联网游戏视频流量的识别方法;

如图1所示,互联网游戏视频流量的识别方法,包括:

采用单样本高斯分布重采样算法对互联网游戏视频流量训练集的特征数据集进行采样处理,实现训练集中正样本和负样本的数量均衡,最后得到优化后的训练集;

将优化后的训练集的特征输入到分类模型中,对分类模型进行训练;得到训练好的分类模型;

采集待测试互联网视频,对待测试互联网视频进行特征提取,对提取的特征进行筛选得到待测试的特征数据集;

将待测试的特征数据集输入到训练好的分类模型中;输出互联网游戏视频流量的识别结果。

作为一个实施例,所述互联网游戏视频流量训练集的特征数据集的获取步骤为:

采集互联网游戏视频和互联网非游戏视频,将互联网游戏视频视为正样本,将互联网非游戏视频视为负样本;利用正样本和负样本做十折交叉验证得到训练集和验证集;

对训练集中每个样本进行特征提取,对提取的特征进行筛选,得到训练集的特征数据集。

作为一个实施例,互联网游戏视频,是指互联网中的各种游戏视频。

作为一个实施例,互联网非游戏视频,是指不包含游戏视频的其他视频。

作为一个实施例,采集互联网游戏视频和互联网非游戏视频,是利用网络封包分析软件wireshark,采集在播放视频的过程中产生的tcp数据包,对tcp数据包进行分流处理,通过数据包中的五元组信息分流,所述五元组信息,包括:源ip,目的ip,源端口,目的端口,协议类型;把具有相同五元组信息的数据包划分为一条tcp流;然后过滤掉数据包个数小于1000的流,采集时长为连续的十分钟、十五分钟或二十分钟,保存采集时长内产生的数据包,保存为pcap文件。

作为一个实施例,对tcp数据包进行分流处理,过滤掉数据包个数小于1000的流,原因是这种老鼠流是由后台应用产生,属于噪声数据;

在具体的实施例中,部署了七台客户端机器并且采用wireshark捕获互联网中的视频流量,视频在广告结束后开始采集并且持续十五分钟,在视频播放时关闭其他的网络应用进程。视频流量的采集从2017年10月持续到2018年3月。在采集完后的视频流量中筛选出游戏视频流量并将其标记为1,将其他类型的视频流量标记为0。

作为一个实施例,利用正样本和负样本做十折交叉验证得到训练集和验证集,每一折均包括训练集和验证集;每个训练集均包括游戏视频流量和非游戏视频流量;所述验证集也包括游戏视频流量和非游戏视频流量。

作为一个实施例,对训练集中每个样本进行特征提取,具体是指对训练集中每个样本进行字节码分布特征提取。

进一步地,对训练集中每个样本进行字节码分布特征提取,是指:对训练集中每个视频的数据包提取每个字节值出现的频率;字节值是0-255字节值。

计算第j个字节值的频率分布fj:

其中,n是一条tcp流中数据包的个数,是第i个数据包中第j个字节值的频数;是第i个数据包中第k个字节值的频数;

得到256维的特征向量;

将提取的特征向量输入到特征选择算法cfssubseteval中,输出选择出的特征,所述选择出的特征构成了特征数据集。

选择出11个特征,分别是21,22,23,24,25,26,30,31,32,122,194字节值的频率,构成特征数据集。

进一步地,字节码分布特征,是指:tcp流的256个字节值中每个字节值出现的频率。

进一步地,字节码分布特征的提取方式为:首先计算tcp流中每个数据包256个字节值的每个字节值出现的次数,然后统计流中每个字节值出现的次数,最后计算流中256个字节值的每个字节值出现的频率。

作为一个实施例,所述对提取的特征进行筛选,具体是通过cfssubseteval特征选择算法对256维的字节码分布特征进行筛选。

作为一个实施例,采用单样本高斯分布重采样算法对训练集的特征数据集进行采样处理,实现训练集中正样本和负样本的数量均衡,最后得到优化后的训练集;具体步骤包括:

通过每一个正样本xi的最近邻的k个样本中的负样本所占的比例和每一个正样本xi的最近邻的k个样本中的负样本到xi的距离所占的比重来加权该正样本xi,得到正样本xi的权重ii;

通过轮盘赌概率选择机制依权重选择正样本,然后以被选择的正样本的位置为中心,以正样本xi到最近的样本之间的距离d作为标准差,生成符合高斯分布的数据,符合高斯分布的数据即正样本,进而得到正负样本比例为1:1的训练集t;

进一步地,每一个正样本xi的最近邻的k个样本中的负样本所占的比例:

其中,c(xi)表示计数因子;δi是正样本xi的最近邻的k个样本中负样本的个数;

进一步地,每一个正样本xi的最近邻的k个样本中的负样本到xi的距离所占的比重:

其中,d(xi)表示位置因子,nimaj是xi的最近邻的k个样本中负样本的集合,nimin是xi的k个近邻中正样本的集合,dist(x,y)是两个样本之间的欧式距离;

进一步地,得到权重ii;

i(xi)=c(xi)+d(xi)

其中,i(xi)表示权重;

进一步地,以被选择的正样本的位置为中心,以正样本xi到最近的样本之间的距离d作为标准差,生成符合高斯分布的数据,符合高斯分布的数据即正样本:

假定x是被选择的正样本,v是一个中间向量,x′是生成的样本,|v|=d1,d1是均值为0,标准差为d的正态分布的随机数,v′是v的方向向量,|v′|=d0,得出正样本,如图2所示:

|v|=|v′|·r=|v′·r|

v=v′·r

x′=x+v

其中,d0表示v′的长度;r表示v和v′长度的比值;

作为一个实施例,分类模型,包括以下分类模型中的一种或多种:卷积神经网络模型、支持向量机模型等。

作为一个实施例,对待测试互联网视频进行特征提取的具体步骤为:首先计算tcp流中每个数据包256个字节值每个出现的次数,然后统计流中每个字节值出现的次数,最后计算流中256个字节值的频率。

作为一个实施例,对提取的特征进行筛选得到待测试的特征数据集,具体筛选的是11个有效的特征,分别是21,22,23,24,25,26,30,31,32,122,194字节值的频率。

作为一个实施例,所述互联网游戏视频流量的识别结果,包括:互联网游戏视频或互联网非游戏视频。

本实施例的有益效果:提出一种字节码分布特征提取方法,获得更高的识别准确率;针对非平衡的视频流量,提出一种新的重采样方法实现数据的再平衡,从而提高非平衡视频类型的识别结果。

实施例二,本实施例提供了互联网游戏视频流量的识别系统;

互联网游戏视频流量的识别系统,包括:

样本数量均衡处理模块:采用单样本高斯分布重采样算法对互联网游戏视频流量训练集的特征数据集进行采样处理,实现训练集中正样本和负样本的数量均衡,最后得到优化后的训练集;

分类模型训练模块:将优化后的训练集的特征输入到分类模型中,对分类模型进行训练;得到训练好的分类模型;

特征提取模块:采集待测试互联网视频,对待测试互联网视频进行特征提取,对提取的特征进行筛选得到待测试的特征数据集;

识别模块:将待测试的特征数据集输入到训练好的分类模型中;输出互联网游戏视频流量的识别结果。

实施例三,本实施例提供了一种电子设备;

一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成方法中的各个操作,为了简洁,在此不再赘述。

实施例四,本实施例提供了一种计算机可读存储介质;

一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器运行时,完成上述实施例一所述方法的步骤。

所述电子设备可以是移动终端以及非移动终端,非移动终端包括台式计算机,移动终端包括智能手机(smartphone,如android手机、ios手机等)、智能眼镜、智能手表、智能手环、平板电脑、笔记本电脑、个人数字助理等可以进行无线通信的移动互联网设备。

应理解,在本公开中,该处理器可以是中央处理单元cpu,该处理器还算可以是其他通用处理器、数字信号处理器dsp、专用集成电路asic,现成可编程门阵列fpga或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。

在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外一点,所显示或讨论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1