流量业务类型识别方法和装置的制作方法

文档序号:7867305阅读:199来源:国知局
专利名称:流量业务类型识别方法和装置的制作方法
技术领域
本发明涉及通信技术,尤其涉及一种流量业务类型识别方法和装置。
背景技术
在互联网领域的多种应用中,均需要对流量业务的业务类型进行识别。目前,流量业务类型识别技术包括深度包检测(De印Packet Inspection,简称DPI)技术和深度流检测(Deep Flow Inspection,简称 DFI)技术。DPI是目前网络流量识别的主要方法。DPI基于深度包检测,通过对网络数据包的应用层数据进行内容检测,识别出各种应用层的协议。DFI基于数据流特征,通过分析会话连接流的数据包长度、连接速度、传输字节量、包与包之间的间隔等数据流特征,并与预先 建立好的流量模型对比,实现应用层协议的识别。现有的DPI和DFI等流量业务类型识别方式仅通过分析当前业务的数据包或当前数据流的特征进行业务类型的识别,流量业务类型识别结果存在一定错误。

发明内容
本发明的第一个方面是提供一种流量业务类型识别方法,用以解决现有技术中的缺陷,提高流量业务类型识别的准确性。本发明的另一个方面是提供一种流量业务类型识别装置,用以解决现有技术中的缺陷,提高流量业务类型识别的准确性。本发明的第一个方面是提供一种流量业务类型识别方法,包括抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据;根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数;根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数;识别当前流量业务,获得至少一个业务类型的初步概率;根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率;以所述最终概率最大的业务类型作为当前流量业务的业务类型。如上所述的方法,其中,所述根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数包括根据P(a)=r7N,r*=(r+l) (nr+1/nr),N = ;£:n/计算先验知识参数,其中,P(a)为先验知识参数,r为业务类型对应的组合的出现数量,I为出现数量为r的全部组合的数量,nr+1为出现数量为r+1的全部组合的数量。如上所述的方法,其中,所述根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数包括采用通用业务类型识别技术识别所述第二实际流量业务类型数据对应的流量业务,获得至少一个业务类型的初步概率;
根据所述初步概率、所述先验知识参数和所述先验知识影响因数的猜想值,按照 f(X) = P(X)+a · PU ),获得所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,其中,f(x)为所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,P(X)为所述初步概率,a为所述先验知识影响因数的猜想值,P( a )所述先验知识参数,根据所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,与所述第二实际流量业务类型数据,调整所述先验知识影响因数的猜想值,以识别结果的准确率最高的猜想值作为计算获得的先验知识影响因数。
如上所述的方法,其中,所述抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据包括针对不同的用户类型,抽取每一用户类型的用户的第一实际流量业务类型数据和第二实际流量业务类型数据;
所述根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数包括分别根据所述不同用户类型的用户的第一实际流量业务类型数据,计算不同用户类型对应的先验知识参数;
所述根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数包括分别根据所述不同用户类型的用户的第二实际流量业务类型数据和相应用户类型对应的先验知识参数,计算不同用户类型对应的先验知识影响因数;
所述根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率之前,还包括根据发起当前流量业务的用户对应的用户类型,选择相同用户类型对应的初步概率、相同用户类型对应的先验知识参数和相同用户类型对应的先验知识影响因数。
如上所述的方法,其中,所述识别当前流量业务,获得至少一个业务类型的初步概率包括
采用深度包检测DPI技术或深度流检测DFI技术识别当前流量业务,获得至少一个业务类型的初步概率。
本发明的另一个方面是提供一种流量业务类型识别装置,包括
抽取单元,用于抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据;
第一计算单元,用于根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数;
第二计算单元,用于根据所述第二实际流量业务类型数据和所述先验知识参数, 计算先验知识影响因数;
第一识别单元,用于识别当前流量业务,获得至少一个业务类型的初步概率;
第二识别单元,用于根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率;
判断单元,用于以所述最终概率最大的业务类型作为当前流量业务的业务类型。
如上所述的装置,其中,所述第一计算单元具体用于根据P(a) = r*/N, r*=(r+l) (nr+1/nr),N =计算先验知识参数,其中,P ( a )为先验知识参数,r为业务类型对应的组合的出现数量,nr为出现数量为r的全部组合的数量,IV1为出现数量为r+Ι的全部组合的数量。
如上所述的装置,其中,所述第二计算单元具体用于采用通用业务类型识别技术识别所述第二实际流量业务类型数据对应的流量业务,获得至少一个业务类型的初步概率,根据所述初步概率、所述先验知识参数和所述先验知识影响因数的猜想值,按照f (X) =P(X)+a · PU ),获得所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,其中,f(X)为所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,P(X)为所述初步概率,a为所述先验知识影响因数的猜想值,ρ(α)所述先验知识参数,根据所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,与所述第二实际流量业务类型数据,调整所述先验知识影响因数的猜想值,以识别结果的准确率最高的猜想值作为计算获得的先验知识影响因数。
如上所述的装置,其中,所述抽取单元具体用于针对不同的用户类型,抽取每一个用户类型的用户的实际流量业务类型数据;
所述第一计算单元具体用于分别根据所述不同用户类型的用户的第一实际流量业务类型数据,计算不同用户类型对应的先验知识参数;
所述第二计算单元具体用于分别根据所述不同用户类型的用户的第二实际流量业务类型数据和相应用户类型对应的先验知识参数,计算不同用户类型对应的先验知识影响因数;
所述装置还包括识别参数选择单元,用于根据发起当前流量业务的用户对应的用户类型,选择相同用户类型对应的初步概率、相同用户类型对应的先验知识参数和相同用户类型对应的先验知识影响因数并发送给所述第二识别单元。
如上所述的装置,其中,所述第一识别单元具体用于采用深度包检测DPI技术或深度流检测DFI技术识别当前流量业务,获得至少一个业务类型的初步概率。
由上述发明内容可见,通过抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据,根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数,并根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数, 在进行业务类型识别时,先采用通用业务类型识别技术识别当前流量业务,获得至少一个业务类型的初步概率,再根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率,以所述最终概率最大的业务类型作为当前流量业务的业务类型。在进行流量业务识别的过程中,通过采用马尔科夫模型与通用业务类型识别技术结合,从而在计算业务类型的概率时,在根据数据包或数据流的特征等因素计算业务类型概率的基础上,还采用马尔科夫模型将与各个业务类型之间的先后顺序规律相关的概率因素结合进来,与仅根据数据包或数据流的特征进行识别的现有技术相比, 流量业务类型识别的准确性更高。


图I为本发明实施例一的流量业务类型识别方法的流程图2为本发明实施例二的流量业务类型识别方法的流程图3为本发明实施例三的流量业务类型识别装置的结构示意图。
具体实施方式
在实际中,用户在使用流量业务时,有可能存在一定的使用习惯,导致业务类型出现的先后顺序具有一定规律。例如用户习惯于在每天固定时间开启即时通信业务,然后进行网页浏览,然后发送邮件,则导致网页浏览业务类型出现在即时通信业务类型之后的概率大于其出现在其它业务类型之后的概率,邮件业务类型出现在网页浏览业务类型之后的概率大于其出现在其它业务类型之后的概率。在本发明实施例中,采用η-i阶马尔科夫模型来描述业务类型的先后顺序规律,其中,η-i为马尔科夫模型的阶数。根据马尔科夫模型理论,第η个业务类型的概率只与前面的η-i个业务类型有关。
图I为本发明实施例一的流量业务类型识别方法的流程图。如图I所示,该方法包括如下过程。
据。步骤101:抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数步骤102 :根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识
参数。
步骤103 :根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数。
步骤104 :识别当前流量业务,获得至少一个业务类型的初步概率。
步骤105 :根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率。
步骤106 :以所述最终概率最大的业务类型作为当前流量业务的业务类型。
在本发明实施例一中,通过抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据,根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数,并根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数, 在进行业务类型识别时,先采用通用业务类型识别技术识别当前流量业务,获得至少一个业务类型的初步概率,再根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率,以所述最终概率最大的业务类型作为当前流量业务的业务类型。在进行流量业务识别的过程中,通过采用马尔科夫模型与通用业务类型识别技术结合,从而在计算业务类型的概率时,在根据数据包或数据流的特征等因素计算业务类型概率的基础上,还采用马尔科夫模型将与各个业务类型之间的先后顺序规律相关的概率因素结合进来,与仅根据数据包或数据流的特征进行识别的现有技术相比, 流量业务类型识别的准确性更高。
图2为本发明实施例二的流量业务类型识别方法的流程图。如图2所示,方法包括如下过程。
步骤201 :抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据。
在本步骤中,在本发明实施例中,在对当前流量业务进行识别之前,先建立马尔科夫模型,即先验知识模型。该模型用于辅助通用的业务类型识别技术,因此,该模型使用的业务类型应与通用的业务类型一致。例如将移动业务类型分为以下8类邮件、网页浏览、即时通信(简称頂)、流媒体、网络电话(简称V0IP)、彩信、文件传输、点对点业务(简称P2P)。
为建立上述模型,首先需要抽取用户的第一实际流量业务类型数据和第二实际流量类型数据,将第一实际流量业务类型数据作为训练数据生成马尔科夫模型的先验知识参数,将第二实际流量业务类型数据作为训练数据生成马尔科夫模型的先验知识影响因数根据先验知识参数和先验知识影响因数建立马尔科夫模型。
第一实际流量业务类型数据和第二实际流量业务类型数据均为根据用户的实际使用记录获得的数据,均准确记录了用户的流量业务的业务类型,在本发明实施例中,对第一实际流量业务类型数据和第二实际流量业务类型数据的表现形式和抽取方式均不做限制。
例如在抽取第一实际流量业务类型数据时,抽取实际记录中的多个用户一天的业务使用情况,作为第一实际流量业务类型数据,抽取结果参见表I。表I为用户的第一实际流量业务类型数据表。
表I.用户的第一实际流量业务类型数据表
权利要求
1.一种流量业务类型识别方法,其特征在于,包括 抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据; 根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数; 根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数; 识别当前流量业务,获得至少一个业务类型的初步概率; 根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率; 以所述最终概率最大的业务类型作为当前流量业务的业务类型。
2.根据权利要求I所述的方法,其特征在于,所述根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数包括 根据P ( a ) =r*/N, r*= (r+1) (nr+1/nr),N 二计算先验知识参数,其中,P ( a )为先验知识参数,r为业务类型对应的组合的出现数量,nr为出现数量为r的全部组合的数量,nr+1为出现数量为r+1的全部组合的数量。
3.根据权利要求I所述的方法,其特征在于,所述根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数包括 采用通用业务类型识别技术识别所述第二实际流量业务类型数据对应的流量业务,获得至少一个业务类型的初步概率; 根据所述初步概率、所述先验知识参数和所述先验知识影响因数的猜想值,按照f (X)=P(X)+a PU ),获得所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,其中,f(X)为所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,P(X)为所述初步概率,a为所述先验知识影响因数的猜想值,P( a)所述先验知识参数,根据所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,与所述第二实际流量业务类型数据,调整所述先验知识影响因数的猜想值,以识别结果的准确率最高的猜想值作为计算获得的先验知识影响因数。
4.根据权利要求I至3中任意一项所述的方法,其特征在于, 所述抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据包括针对不同的用户类型,抽取每一用户类型的用户的第一实际流量业务类型数据和第二实际流量业务类型数据; 所述根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数包括分别根据所述不同用户类型的用户的第一实际流量业务类型数据,计算不同用户类型对应的先验知识参数; 所述根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数包括分别根据所述不同用户类型的用户的第二实际流量业务类型数据和相应用户类型对应的先验知识参数,计算不同用户类型对应的先验知识影响因数; 所述根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率之前,还包括根据发起当前流量业务的用户对应的用户类型,选择相同用户类型对应的初步概率、相同用户类型对应的先验知识参数和相同用户类型对应的先验知识影响因数。
5.根据权利要求I所述的方法,其特征在于,所述识别当前流量业务,获得至少一个业务类型的初步概率包括 采用深度包检测DPI技术或深度流检测DFI技术识别当前流量业务,获得至少一个业务类型的初步概率。
6.一种流量业务类型识别装置,其特征在于,包括 抽取单元,用于抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据; 第一计算单元,用于根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数; 第二计算单元,用于根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数; 第一识别单元,用于识别当前流量业务,获得至少一个业务类型的初步概率; 第二识别单元,用于根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率; 判断单元,用于以所述最终概率最大的业务类型作为当前流量业务的业务类型。
7.根据权利要求6所述的装置,其特征在于,所述第一计算单元具体用于根据P(a)=r7N, r*=(r+l) (nrt/V,N =计算先验知识参数,其中,P(a)为先验知识参数,r为业务类型对应的组合的出现数量,&为出现数量为r的全部组合的数量,nr+1为出现数量为r+1的全部组合的数量。
8.根据权利要求6所述的装置,其特征在于,所述第二计算单元具体用于采用通用业务类型识别技术识别所述第二实际流量业务类型数据对应的流量业务,获得至少一个业务类型的初步概率,根据所述初步概率、所述先验知识参数和所述先验知识影响因数的猜想值,按照f (X) = P (X) +a-P(a),获得所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,其中,f(X)为所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,P(X)为所述初步概率,a为所述先验知识影响因数的猜想值,P(a )所述先验知识参数,根据所述第二实际流量业务类型数据对应的流量业务的业务类型的识别结果,与所述第二实际流量业务类型数据,调整所述先验知识影响因数的猜想值,以识别结果的准确率最高的猜想值作为计算获得的先验知识影响因数。
9.根据权利要求6至8中任意一项所述的装置,其特征在于, 所述抽取单元具体用于针对不同的用户类型,抽取每一个用户类型的用户的实际流量业务类型数据; 所述第一计算单元具体用于分别根据所述不同用户类型的用户的第一实际流量业务类型数据,计算不同用户类型对应的先验知识参数; 所述第二计算单元具体用于分别根据所述不同用户类型的用户的第二实际流量业务类型数据和相应用户类型对应的先验知识参数,计算不同用户类型对应的先验知识影响因数; 所述装置还包括识别参数选择单元,用于根据发起当前流量业务的用户对应的用户类型,选择相同用户类型对应的初步概率、相同用户类型对应的先验知识参数和相同用户类型对应的先验知识影响因数并发送给所述第二识别单元。
10.根据权利要求6所述的装置,其特征在于,所述第一识别单元具体用于采用深度包检测DPI技术或深度流检测DFI技术识别当前流量 业务,获得至少一个业务类型的初步概率。
全文摘要
本发明提供一种流量业务类型识别方法和装置。抽取用户的第一实际流量业务类型数据和第二实际流量业务类型数据;根据所述第一实际流量业务类型数据和马尔科夫模型,计算先验知识参数;根据所述第二实际流量业务类型数据和所述先验知识参数,计算先验知识影响因数;识别当前流量业务,获得至少一个业务类型的初步概率;根据所述业务类型的初步概率、所述先验知识参数和所述先验知识影响因数,获得至少一个业务类型的最终概率;以所述最终概率最大的业务类型作为当前流量业务的业务类型。采用本发明提供的流量业务类型识别方法和装置,能够提高流量业务类型识别的准确性。
文档编号H04L12/801GK102984076SQ20121050938
公开日2013年3月20日 申请日期2012年12月3日 优先权日2012年12月3日
发明者肖吉, 王志军, 王蓉 申请人:中国联合网络通信集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1