一种数据异常检测方法及终端与流程

文档序号:11216159阅读:460来源:国知局
一种数据异常检测方法及终端与流程

本发明涉及电子技术领域,尤其涉及一种数据异常检测方法及终端。



背景技术:

随着科技的日益发展,我们已步入互联网时代,而互联网时代的主题是分享,互联网发展的趋势必然是开放模式。在互联网时代,一方面企业需要将其服务和数据资源封装成一系列计算机易识别的数据接口开放出去,供第三方开发者使用以提升自身服务和数据资源的利用率,实现增值;另一方面,企业需要通过数据接口对接各种互联网服务,连接社会化数据资源,融入开放数据生态链,避免陷入信息孤岛,降低数据获取成本。因此让数据资源得到充分整合成为了越来越多企业的迫切需求,而数据接口正是实现数据资源整合的关键。通过开放数据接口(特别是api接口)的方式,可以对数据源和应用进行深挖和再加工,以便能够创造更多的价值。但是由于业务调整、数据接口结构变更、网络故障等种种原因,导致数据接口传输的数据发生数据丢失、乱码、数据类型不合标准等数据异常。尤其是面向用户的客户端展示数据,数据异常会造成相关功能不能正常实现,甚至导致系统出bug,极大地影响用户体验。因此,在数据交换与共享愈发普遍的情况下,数据的异常检测也愈发重要。

现有的对数据接口,例如api接口返回的数据的异常检测手段主要包括以下三种:1.通过对表征错误代码的字段进行判断以及api接口返回的数据进行简单的非空判断,若符合判断条件即认为该返回数据异常;2.利用大量的api接口返回的数据作为原始数据,从中挖掘出有价值的返回字段之间的相关关系,并提取相关关系的逻辑特征形成关联规则,并基于这些关联规则对该api接口返回的数据进行异常检测;3.通过api接口测试时的数据作为训练集学习返回数据的正常态数据模式,同时应用自适应学习的方法提取异常数据的特征,然后基于所提取的信息对api接口在线返回数据进行检测,若新数据偏离正常态模式或具有异常特征则认为数据异常。以上三种数据的异常检测手段的缺点对应如下:1.判断表征错误代码的字段和数据非空,只能检测到基本的数据异常情况,检测条件机械单一,无法检测出数据类型不合要求、数据长度超过范围等复杂,隐蔽性较强的数据异常,检测效果不如人意;2.需要大量的原始数据作数据挖掘,且要求api接口返回数据的字段之间有较强的关联性,数据之间有层次性,否则所获取的关联规则可信性不高或者可用的关联规则较少,导致容易出现误判情况;3.要求所建立的正常态数据模式有足够的可信性,但是选择不同的数据作为训练集会得出多种正常态数据模式,难以确定一个标准的正常态数据模式,在数据集训练时所需的迭代次数和阈值设置过多,对数据获取频率高的接口检测效率较低。



技术实现要素:

本发明实施例提供一种数据异常检测方法及终端,能够提高数据异常检测质量,提高数据的有效性。

一方面,本发明实施例提供了一种数据异常检测方法,该方法包括:

从数据中提取特征字段;

判断所述特征字段是否符合对应的划分标准,得到判断结果;

根据判断结果获取所述特征字段的正常特征概率和异常特征概率,以及获取所述数据的正常统计概率和异常统计概率;

根据所述正常特征概率和正常统计概率计算所述数据的正常数据概率,以及根据所述异常特征概率和异常统计概率计算所述数据的异常数据概率;

计算所述异常数据概率与正常数据概率的比值;

判断所述比值是否大于阈值,若是,则判定所述数据为异常数据。

另一方面,本发明实施例提供了一种终端,该终端包括:

提取单元,用于从数据中提取特征字段;

判断单元,用于判断所述特征字段是否符合对应的划分标准,得到判断结果;

获取单元,用于根据判断结果获取所述特征字段的正常特征概率和异常特征概率,以及获取所述数据的正常统计概率和异常统计概率;

第一计算单元,用于根据所述正常特征概率和正常统计概率计算所述数据的正常数据概率,以及根据所述异常特征概率和异常统计概率计算所述数据的异常数据概率;

第二计算单元,用于计算所述异常数据概率与正常数据概率的比值;

判定单元,用于若所述比值大于阈值,则判定所述数据为异常数据。

本发明实施例的数据异常检测方法及终端,通过判断不同类型的特征字段是否满足对应的划分标准,获取与对应的划分标准相关的正常特征概率和异常特征概率,正常特征概率和异常特征概率皆为一数据训练集的统计概率,再利用针对该数据训练集得到的该类数据为正常数据的正常统计概率和为异常数据的异常统计概率,最后利用这些统概率计算出接口返回的实时数据为正常数据的正常数据概率,以及为异常数据的异常数据概率,根据这两个概率判断数据是否为异常数据,通过比较数据的正常数据概率和异常数据概率来判断数据是否异常,从而提高数据检测的质量和有效性。

附图说明

为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种数据异常检测方法的示意流程图;

图2为本发明实施例提供的一种数据异常检测方法的另一示意流程图;

图3为本发明实施例提供的一种终端的示意流程图;

图4为本发明实施例提供的一种终端的另一示意性框图;

图5为本发明实施例提供的一种终端的结构示意性框图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。

如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

也应当理解,尽管术语第一、第二等可以在此用来描述各种元素,但这些元素不应该受限于这些术语。这些术语仅用来将这些元素彼此区分开。

参见图1,是本发明实施例提供的一种数据异常检测方法的示意流程图,如图所示,该方法包括以下步骤s101~s106:

s101、从数据中提取特征字段。

特征字段为一类型的字段,包括表征数据异常的字段、具有格式要求的字段、数值型的特征字段,字符串型的特征字段、数组型的特征字段等等,例如:表征数据异常的代码0、一邮箱地址、一版本号等。

s102、判断所述特征字段是否符合对应的划分标准,得到判断结果。

不同类型的特征字段具有不同的划分标准,例如:表征数据异常的字段对应的划分标准为具有代表错误类型的代码;具有格式要求的字段对应的划分标准为相应的格式要求(例如特征字段为邮箱地址,划分标准为邮箱地址对应的格式);数值型的特征字段,以数值位数范围为划分标准;字符串型的特征字段,以编码类型、字长,不含不可识别的字符等为划分标准;数组型的特征字段,以对应的数组结构,数据关联性,允许数值缺省等为划分标准。

本发明实施例从数据接口自身的数据结构出发,运用贝叶斯分类算法对数据接口返回数据的各种特征字段进行实时分类,以数据接口设计时所遵循的划分标准为检测条件,不同类型的特征字段对应不同的划分标准,以相应的划分标准为检测条件,降低异常数据的错误检测结果,以达到提高数据检测的质量和有效性。

s103、根据判断结果获取所述特征字段的正常特征概率和异常特征概率,以及获取所述数据的正常统计概率和异常统计概率。

在本发明实施例中,正常特征概率、异常特征概率、正常统计概率和异常统计概率都是通过统计数据训练集得到的概率。

预先获取该数据的数据训练集(设样本总数为m),对该数据训练集进行特征字段的统计,得到的统计情况如下表1:

表1

表1中q1代表特征字段为正常数据的情况,q2代表特征字段为异常数据的情况。

在本发明实施例中,所述正常特征概率包括正常条件概率和正常非条件概率,所述正常条件概率为所述特征字段符合所述划分标准且为正常数据的概率,所述正常非条件概率为所述特征字段不符合所述划分标准且为正常数据的概率。

所述异常特征概率包括异常条件概率和异常非条件概率,所述异常条件概率为所述特征字段符合所述划分标准且为异常数据的概率,所述异常非条件概率为所述特征字段不符合所述划分标准且为异常数据的概率。

根据表1的统计结果,可计算数据的正常统计概率异常统计概率特征字段pn的正常条件概率正常非条件概率异常条件概率和异常非条件概率其中表示特征字段pn不符合划分标准tn。

进一步地,步骤s103中的所述根据判断结果获取所述特征字段的正常特征概率和异常特征概率,包括:若所述特征字段符合对应的划分标准,则获取所述特征字段的正常条件概率和异常条件概率;若所述特征字段不符合对应的划分标准,则获取所述特征字段的正常非条件概率和异常非条件概率。

s104、根据所述正常特征概率和正常统计概率计算所述数据的正常数据概率,以及根据所述异常特征概率和异常统计概率计算所述数据的异常数据概率。

进一步地,所述数据的特征字段为多条。

所述根据所述正常特征概率和正常统计概率计算所述数据的正常数据概率,具体为:将多条所述特征字段分别对应的正常特征概率以及所述正常统计概率相乘,得到所述正常数据概率。

所述根据所述异常特征概率和异常统计概率计算所述数据的异常数据概率,具体为:将多条所述特征字段分别对应的异常特征概率以及所述异常统计概率相乘,得到所述异常数据概率。

s105、计算所述异常数据概率与正常数据概率的比值;

s106、判断所述比值是否大于阈值,若是,则判定所述数据为异常数据。。

利用正常特征概率和正常统计概率计算出数据的正常数据概以及利用所述异常特征概率和异常统计概率计算出数据的异常数据概率后,比较异常数据概和正常数据概率,如果二者的比值大于阈值,则说明该数据为异常数据。

具体地,所述阈值为8-12,本发明实施例优选为10,即若异常数据概与正常数据概率之比大于10,则判定该数据为异常数据。

例如,一接口用于获取app自升级信息,若获取的获取app自升级信息异常,会导致自升级失败甚至app运行崩溃。具体的接口返回数据的数据结构及注释如下:

{"result":0,//是否正常返回数据,0否,1是

"msg":"success",//备注信息

"content":{//接口返回数据主体内容

"need_update":1,//是否有更新,0否,1是,若为0则不返回下面的字段

"url":"http://package.mhacn.net/huanju-report-v1.0.1.jar",//更新下载地址

"vcode":"2",//更新后的版本号

"svr":"1.0.1",//更新后的版本名称

"md5":"99e620972df59e113ca112f56889fbd9",//更新包的md5值

"request_interval":300,//更新请求间隔

"update_on":"1"//是否开启自更新,0否,1是

}

}

根据接口返回数据的数据结构及其约定的标准和意思,选择字段result、url、vcode、svr、md5共5个参数作为特征字段。同时可知字段result是表征错误代码,设定字段result的划分标准tresult是字段result的值等于0;字段url是url地址,以标准的url格式作为划分标准turl;字段vcode是表示版本号,通常版本号为非零整数,设定字段vcode的划分标准tvcode是字段vcode的数据类型为整型;字段svr表示版本名称,版本名称一般以半角英文状态下的句号分割,不含除半角英文状态下的句号以外的其它特殊符号,因此设定字段svr的划分标准tsvr是字段svr的数据不含有其它特殊符号;字段md5表示更新包的md5值,一般是32位字长的字符串,因此设定字段md5的划分标准tmd5是字段md5的数据字长为32位。

预先随机选取1000条接口返回的数据,统计1000条数据中的正常数据和异常数据,分别计算数据的正常统计概率和异常统计概率,计算各个特征字段的正常条件概率、正常非条件概率、异常条件概率和异常非条件概率。

假设数据的正常统计概率和异常统计概率分别为p(q1)=0.92,p(q2)=0.08,各个特征字段的正常条件概率、正常非条件概率、异常条件概率和异常非条件概率如下:

p1(tresult|result)=1,p2(tresult|result)=0.02,

p1(turl|url)=0.95,p2(turl|url)=0.1,

p1(tvcode|vcode)=0.92,p2(tvcode|vcode)=0.17,

p1(tsvr|svr)=0.87,p2(tsvr|svr)=0.28,

p1(tsvr|svr)=0.87,p2(tsvr|svr)=0.28,

p1(tmd5|md5)=1,p2(tmd5|md5)=0.24,

现接收到接口返回的上述类型的实时线接口数据,然后调用数据检测程序进行检测,提取实时数据的特征字段如下:

result=0;

url=http://package.mhacnnet/report-vl.0.6.jar;

vcode=2;

svr=1.0.1;

md5=5fbc803b084ea0036d30250f93130bc3e2。

根据各字段的划分条件,可知字段result、url、vcode、svr均符合对应的划分标准,而字段md5不满足对应的划分标准,因此调用相关的概率分别计算实时数据的正常数据概率和异常数据概率:

最后计算得到可知本次api接口返回的实时数据为异常数据。

本发明实施例的数据异常检测方法,判断不同类型的特征字段是否满足对应的划分标准,获取与对应的划分标准相关的正常特征概率和异常特征概率,正常特征概率和异常特征概率皆为一数据训练集的统计概率,再利用针对该数据训练集得到的该类数据为正常数据的正常统计概率和为异常数据的异常统计概率,最后利用这些统概率计算出接口返回的实时数据为正常数据的正常数据概率,以及为异常数据的异常数据概率,根据这两个概率判断数据是否为异常数据,检测的结果精度高,检测质量好。

参见图2,图2是本发明实施例提供的一种数据异常检测方法的另一示意流程图,如图所示,该方法包括以下步骤s201~s212:

s201、接收api接口返回的数据。

s202、从数据中提取特征字段。

特征字段为一类型的字段,包括表征数据异常的字段、具有格式要求的字段、数值型的特征字段,字符串型的特征字段、数组型的特征字段等等。

s203、判断所述特征字段是否符合对应的划分标准,得到判断结果。

不同类型的特征字段具有不同的划分标准,例如:表征数据异常的字段对应的划分标准为具有代表错误类型的代码;具有格式要求的字段对应的划分标准为相应的格式要求(例如特征字段为邮箱地址,划分标准为邮箱地址对应的格式);数值型的特征字段,以数值位数范围为划分标准;字符串型的特征字段,以编码类型、字长,不含不可识别的字符等为划分标准;数组型的特征字段,以对应的数组结构,数据关联性,允许数值缺省等为划分标准。

本发明实施例从数据接口自身的数据结构出发,运用贝叶斯分类算法对数据接口返回数据的各种特征字段进行实时分类,以数据接口设计时所遵循的划分标准为检测条件,不同类型的特征字段对应不同的划分标准,以相应的划分标准为检测条件,降低异常数据的错误检测结果,以达到提高数据检测的质量和有效性。

s204、根据判断结果获取所述特征字段的正常特征概率和异常特征概率,以及获取所述数据的正常统计概率和异常统计概率。

在本发明实施例中,正常特征概率、异常特征概率、正常统计概率和异常统计概率都是通过统计数据训练集得到的概率。

预先获取该数据的数据训练集,对该数据训练集进行特征字段的统计,计算统计概率,统计概率包括正常特征概率、异常特征概率、正常统计概率和异常统计概率。

其中,正常特征概率包括正常条件概率和正常非条件概率,所述正常条件概率为所述特征字段符合所述划分标准且为正常数据的概率,所述正常非条件概率为所述特征字段不符合所述划分标准且为正常数据的概率,异常特征概率包括异常条件概率和异常非条件概率,所述异常条件概率为所述特征字段符合所述划分标准且为异常数据的概率,所述异常非条件概率为所述特征字段不符合所述划分标准且为异常数据的概率。

进一步地,所述步骤s204中的所述根据判断结果获取所述特征字段的正常特征概率和异常特征概率步骤,包括:若所述特征字段符合对应的划分标准,则获取所述特征字段的正常条件概率和异常条件概率;若所述特征字段不符合对应的划分标准,则获取所述特征字段的正常非条件概率和异常非条件概率。

s205、根据所述正常特征概率和正常统计概率计算所述数据的正常数据概率,以及根据所述异常特征概率和异常统计概率计算所述数据的异常数据概率。

进一步地,所述数据的特征字段为多条。

所述根据所述正常特征概率和正常统计概率计算所述数据的正常数据概率,具体为:将多条所述特征字段分别对应的正常特征概率以及所述正常统计概率相乘,得到所述正常数据概率。

所述根据所述异常特征概率和异常统计概率计算所述数据的异常数据概率,具体为:将多条所述特征字段分别对应的异常特征概率以及所述异常统计概率相乘,得到所述异常数据概率。

s206、计算所述异常数据概率与正常数据概率的比值。

s207、判断所述比值是否大于阈值,若是,进行步骤s208,若否,进行步骤s209。

s208、判定所述数据为异常数据。

利用正常特征概率和正常统计概率计算出数据的正常数据概以及利用所述异常特征概率和异常统计概率计算出数据的异常数据概率后,比较异常数据概和正常数据概率,如果二者的比值大于阈值,则说明该数据为异常数据。

具体地,所述阈值为8-12,本发明实施例优选为10,即若异常数据概与正常数据概率之比大于10,则判定该数据为异常数据。

s209、计算所述正常数据概率与异常数据概率的比值。

s210、判断所述正常数据概率与异常数据概率的比值是否大于阈值,若是,进行步骤s211,若否,进行步骤s212。

s211、判定所述数据为正常数据。

s212、判定所述数据为待确认数据。

如果异常数据概与正常数据概率之比小于或等于阈值,则计算正常数据概率与异常数据概率的比值,如果这个比值大于阈值,则该数据为正常数据,否则,将此数据列为待确认数据,由管理员判断,减少误判的几率。

本发明实施例的数据异常检测方法,判断不同类型的特征字段是否满足对应的划分标准,获取与对应的划分标准相关的正常特征概率和异常特征概率,正常特征概率和异常特征概率皆为一数据训练集的统计概率,再利用针对该数据训练集得到的该类数据为正常数据的正常统计概率和为异常数据的异常统计概率,最后利用这些统概率计算出api接口返回的实时数据为正常数据的正常数据概率,以及为异常数据的异常数据概率,根据这两个概率判断数据的类型,检测的结果精度高,检测质量好。

如图3所示,图3为本发明实施例提供的一种终端100的示意性框图,该终端100包括提取单元101、第一判断单元102、获取单元103、第一计算单元104、第二计算单元105和第二判断单元106。

提取单元101用于从数据中提取特征字段。

第一判断单元102用于判断所述特征字段是否符合对应的划分标准,得到判断结果。

特征字段为一类型的字段,包括表征数据异常的字段、具有格式要求的字段、数值型的特征字段,字符串型的特征字段、数组型的特征字段等等。

不同类型的特征字段具有不同的划分标准,例如:表征数据异常的字段对应的划分标准为具有代表错误类型的代码;具有格式要求的字段对应的划分标准为相应的格式要求(例如特征字段为邮箱地址,划分标准为邮箱地址对应的格式);数值型的特征字段,以数值位数范围为划分标准;字符串型的特征字段,以编码类型、字长,不含不可识别的字符等为划分标准;数组型的特征字段,以对应的数组结构,数据关联性,允许数值缺省等为划分标准。

获取单元103用于根据判断结果获取所述特征字段的正常特征概率和异常特征概率,以及获取所述数据的正常统计概率和异常统计概率。

在本发明实施例中,所述正常特征概率包括正常条件概率和正常非条件概率,所述正常条件概率为所述特征字段符合所述划分标准且为正常数据的概率,所述正常非条件概率为所述特征字段不符合所述划分标准且为正常数据的概率。

所述异常特征概率包括异常条件概率和异常非条件概率,所述异常条件概率为所述特征字段符合所述划分标准且为异常数据的概率,所述异常非条件概率为所述特征字段不符合所述划分标准且为异常数据的概率。

进一步地,所述根据判断结果获取所述特征字段的正常特征概率和异常特征概率,包括:若所述特征字段符合对应的划分标准,则获取所述特征字段的正常条件概率和异常条件概率;若所述特征字段不符合对应的划分标准,则获取所述特征字段的正常非条件概率和异常非条件概率。

第一计算单元104用于根据所述正常特征概率和正常统计概率计算所述数据的正常数据概率,以及根据所述异常特征概率和异常统计概率计算所述数据的异常数据概率。

进一步地,所述数据的特征字段为多条。

所述根据所述正常特征概率和正常统计概率计算所述数据的正常数据概率,具体为:将多条所述特征字段分别对应的正常特征概率以及所述正常统计概率相乘,得到所述正常数据概率。

所述根据所述异常特征概率和异常统计概率计算所述数据的异常数据概率,具体为:将多条所述特征字段分别对应的异常特征概率以及所述异常统计概率相乘,得到所述异常数据概率。

第二计算单元105用于计算所述异常数据概率与正常数据概率的比值。

第二判断单元106,用于判断所述比值是否大于阈值,若所述比值大于阈值,则判定所述数据为异常数据。

比较异常数据概和正常数据概率,如果二者的比值大于阈值,则说明该数据为异常数据。

具体地,所述阈值为8-12,本发明实施例优选为10,即若异常数据概与正常数据概率之比大于10,则判定该数据为异常数据。

本发明实施例的终端100,根据划分标准对接口返回的数据分类,再利用预先的各统计概率计算数据为正常数据和异常数据的概率,根据这两个概率判断数据是否为异常数据,检测的结果精度高,检测质量好。

如图4所示,图4为本发明实施例提供的一种终端200的另一示意性框图,该终端200包括接收单元201、提取单元202、第一判断单元203、获取单元204、第一计算单元205、第二计算单元206和第二判断单元207。

接收单元201用于接收api接口返回的数据。

提取单元202用于从数据中提取特征字段。

第一判断单元203用于判断所述特征字段是否符合对应的划分标准,得到判断结果。

特征字段为一类型的字段,包括表征数据异常的字段、具有格式要求的字段、数值型的特征字段,字符串型的特征字段、数组型的特征字段等等。

不同类型的特征字段具有不同的划分标准,例如:表征数据异常的字段对应的划分标准为具有代表错误类型的代码;具有格式要求的字段对应的划分标准为相应的格式要求(例如特征字段为邮箱地址,划分标准为邮箱地址对应的格式);数值型的特征字段,以数值位数范围为划分标准;字符串型的特征字段,以编码类型、字长,不含不可识别的字符等为划分标准;数组型的特征字段,以对应的数组结构,数据关联性,允许数值缺省等为划分标准。

获取单元204用于根据判断结果获取所述特征字段的正常特征概率和异常特征概率,以及获取所述数据的正常统计概率和异常统计概率。

在本发明实施例中,所述正常特征概率包括正常条件概率和正常非条件概率,所述正常条件概率为所述特征字段符合所述划分标准且为正常数据的概率,所述正常非条件概率为所述特征字段不符合所述划分标准且为正常数据的概率。

所述异常特征概率包括异常条件概率和异常非条件概率,所述异常条件概率为所述特征字段符合所述划分标准且为异常数据的概率,所述异常非条件概率为所述特征字段不符合所述划分标准且为异常数据的概率。

进一步地,所述根据判断结果获取所述特征字段的正常特征概率和异常特征概率,包括:若所述特征字段符合对应的划分标准,则获取所述特征字段的正常条件概率和异常条件概率;若所述特征字段不符合对应的划分标准,则获取所述特征字段的正常非条件概率和异常非条件概率。

第一计算单元205用于根据所述正常特征概率和正常统计概率计算所述数据的正常数据概率,以及根据所述异常特征概率和异常统计概率计算所述数据的异常数据概率。

进一步地,所述数据的特征字段为多条。

所述根据所述正常特征概率和正常统计概率计算所述数据的正常数据概率,具体为:将多条所述特征字段分别对应的正常特征概率以及所述正常统计概率相乘,得到所述正常数据概率。

所述根据所述异常特征概率和异常统计概率计算所述数据的异常数据概率,具体为:将多条所述特征字段分别对应的异常特征概率以及所述异常统计概率相乘,得到所述异常数据概率。

第二计算单元206用于计算所述异常数据概率与正常数据概率的比值。

第二判断单元207,用于判断所述比值是否大于阈值,若所述比值大于阈值,则判定所述数据为异常数据。

比较异常数据概和正常数据概率,如果二者的比值大于阈值,则说明该数据为异常数据。

具体地,所述阈值为8-12,本发明实施例优选为10。

所述第二计算单元206还用于:若所述异常数据概率与正常数据概率的比值小于或等于阈值,计算所述正常数据概率与异常数据概率的比值。

所述第二判断单元207还用于:判断所述正常数据概率与异常数据概率的比值是否大于阈值;若所述正常数据概率与异常数据概率的比值大于阈值,则判定所述数据为正常数据;若所述异常数据概率与正常数据概率的比值小于或等于所述阈值,且所述正常数据概率与异常数据概率的比值小于或等于所述阈值,则判定所述数据为待确认数据。

另外,如果异常数据概与正常数据概率之比小于或等于阈值,且正常数据概率与异常数据概率的比值小于或等于所述阈值,则将此数据列为待确认数据,由管理员判断,减少误判的几率。

本发明实施例的终端200,根据划分标准对api接口返回的数据分类,再利用预先的各统计概率计算数据为正常数据和异常数据的概率,根据这两个概率判断数据是否为异常数据,检测的结果精度高,检测质量好。

请参阅图5,图5为本发明实施例提供的一种终端300的结构示意性框图。该终端300可以包括输入设备301、包括有一个或一个以上计算机可读存储介质的存储器302、输出设备303、收发设备304、以及包括有一个或者一个以上处理核心的处理器305等部件。本领域技术人员可以理解,图5中示出的终端300结构并不构成对终端300的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

输入设备301可用于接收输入的数字或字符信息,以及产生与功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入设备301可包括触敏表面以及其他输入装置。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器305,并能接收处理器305发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入设备301还可以包括其他输入装置。

存储器302可用于存储应用程序和数据。存储器302存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器305通过运行存储在存储器302的应用程序,从而执行各种功能应用以及数据处理。存储器302可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端300的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器302可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器302还可以包括存储器控制器,以提供处理器305对存储器302的访问。

输出设备303用于对外输出终端300的输出数据,可包括显示器、扬声器等。进一步的,显示器的显示面板可覆盖触敏表面,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器305以确定触摸事件的类型,随后处理器305根据触摸事件的类型在显示面板上提供相应的视觉输出。

收发设备304,用于向其他设备发送数据或者从其他设备接收数据。一般而言,收发设备304可包括蓝牙、射频天线、近场通信模块等。

处理器305是终端300的控制中心,利用各种接口和线路连接整个终端300300的各个部分,通过运行或执行存储在存储器302内的应用程序,以及调用存储在存储器302内的数据,执行终端300的各种功能和处理数据,从而对终端300进行整体监控。可选的,处理器305可包括一个或多个处理核心;优选的,处理器305可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器305中。

尽管图5中未示出,本领域的技术人员可以理解,终端300还可以包括摄像头、蓝牙、无线保真等,在此不再赘述。

具体在本实施例中,终端300的处理器305会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行代码或数据加载到存储器302中,由处理器305来运行或操作存储在存储器302中的程序代码或数据,并执行如下操作:

从数据中提取特征字段;判断所述特征字段是否符合对应的划分标准,得到判断结果;根据判断结果获取所述特征字段的正常特征概率和异常特征概率,以及获取所述数据的正常统计概率和异常统计概率;根据所述正常特征概率和正常统计概率计算所述数据的正常数据概率,以及根据所述异常特征概率和异常统计概率计算所述数据的异常数据概率;计算所述异常数据概率与正常数据概率的比值,若所述比值大于阈值,则判定所述数据为异常数据。

进一步地,所述处理器305还执行如下操作:

从数据中提取特征字段,所述特征字段为多条;分别判断多条所述特征字段是否符合对应的划分标准,得到判断结果;根据判断结果获取多条所述特征字段的正常特征概率和异常特征概率,以及获取所述数据的正常统计概率和异常统计概率;将多条所述特征字段分别对应的正常特征概率以及所述正常统计概率相乘,得到所述正常数据概率,将多条所述特征字段分别对应的异常特征概率以及所述异常统计概率相乘,得到所述异常数据概率;计算所述异常数据概率与正常数据概率的比值,若所述比值大于阈值,则判定所述数据为异常数据。

进一步地,所述处理器305还执行如下操作:

接收api接口返回的数据;从数据中提取特征字段,所述特征字段为多条;分别判断多条所述特征字段是否符合对应的划分标准,得到判断结果;根据判断结果获取多条所述特征字段的正常特征概率和异常特征概率,以及获取所述数据的正常统计概率和异常统计概率;将多条所述特征字段分别对应的正常特征概率以及所述正常统计概率相乘,得到所述正常数据概率,将多条所述特征字段分别对应的异常特征概率以及所述异常统计概率相乘,得到所述异常数据概率;计算所述异常数据概率与正常数据概率的比值,若所述比值大于阈值,则判定所述数据为异常数据;若所述比值小于或等于阈值,计算所述正常数据概率与异常数据概率的比值,判断所述正常数据概率与异常数据概率的比值是否大于阈值,若是,则判定所述数据为正常数据,否则判定所述数据为待确认数据。

本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的终端和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的终端和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本发明实施例终端中的单元可以根据实际需要进行合并、划分和删减。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1