数据特征选择的评价方法及装置与流程

文档序号:12600499阅读:275来源:国知局
数据特征选择的评价方法及装置与流程

本发明涉及一种数据挖掘技术领域,特别是涉及一种数据特征选择的评价方法及装置。



背景技术:

网络信息安全是指网络系统的硬件、软件及其系统中的数据能够得到保护,不受偶然的或者恶意的原因而遭到破坏、更改、泄露,使得网络能够系统连续地、可靠地、正常地运行。为了分析网络信息是否安全,可以通过对网络中产生的大数据进行数据挖掘,从而提取出用户需求的数据信息,然而,特征选择是数据挖掘重要的预处理步骤。

目前,现有的特征选择是从高维属性矩阵中选取少量的属性,作为数据挖掘的输入属性,但是,将计算得到的数据的特征直接作为数据挖掘的输入进行处理,无法确保特征选择是否正确及最优,从而导致数据挖掘的效率较低。



技术实现要素:

有鉴于此,本发明提供一种数据特征选择的评价方法及装置,主要目的在于解决在进行网络安全信息数据挖掘时,无法确保特征选择是否正确及最优的问题。

依据本发明一个方面,提供了一种数据特征选择的评价方法,包括:

获取待评价特征选择的数据矩阵;

根据不同属性特征类型对所述数据矩阵进行分类;

为数据矩阵中的数值配置与所述类型对应的权值系数;

通过预置乘积算法及预置求和算法,计算配置权值系数后的数据矩阵的评价值。

依据本发明一个方面,提供了一种数据特征选择的评价装置,包括:

获取单元,用于获取待评价特征选择的数据矩阵;

分类单元,用于根据不同属性特征类型对所述数据矩阵进行分类;

配置单元,用于为数据矩阵中的数值配置与所述类型对应的权值系数;

计算单元,用于通过预置乘积算法及预置求和算法,计算配置权值系数后的数据矩阵的评价值。

借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:

本发明施例提供一种数据特征选择的评价方法及装置,首先获取待评价特征选择的数据矩阵,然后根据不同属性特征类型对所述数据矩阵进行分类,再为数据矩阵中的数值配置与所述类型对应的权值系数,最后通过预置乘积算法及预置求和算法,计算配置权值系数后的数据矩阵的评价值。本发明实施例通过对特征选择得到数据进行数据处理后得到特征选择的评价值,实现对特征选择结果的评价,便于对特征选择结果做出处理,从而提高数据特征选择的评价效率。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例一提供的一种数据特征选择的评价方法的示意图;

图2示出了本发明实施例二提供的另一种数据特征选择的评价方法的示意图;

图3示出了本发明实施例三提供的一种数据特征选择的评价装置的结构示意图;

图4示出了本发明实施例四提供的一种数据特征选择的评价装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供一种数据特征选择的评价方法,如图1所示,所述方法包括:

101、获取待评价特征选择的数据矩阵。

其中,所述数据矩阵为包含属性特征的数据矩阵,且每个数据矩阵的行数和列数均相同。

需要说明的是,数据矩阵可以存储在一个预置位置中,在需要计算时,利用不同执行计算的软件的程序获取到多个数据矩阵。

例如,当使用matlab软件进行计算时,若数据存储在excel文件中,则在matlab平台中输入调用excel文件的程序,获取矩阵a。

102、根据不同属性特征类型对所述数据矩阵进行分类。

其中,所述不同属性特征类型可以包括网络安全信息中的所有数据属性类型,本发明实施例不做具体限定。

例如,属性特征类型包括安全类型和危险类型,分类后得到安全类型包含矩阵a,或者危险类型包括矩阵b。

103、为数据矩阵中的数值配置与所述类型对应的权值系数。

其中,所述对应的权值系数为不同类型矩阵的权值系数不同,所述权值系数可以为不同数列的排列组合,也可以为不同的概率分布,还可以为利用模型训练出的最优权值,本发明实施例不做具体限定。

例如,安全类型的矩阵A,矩阵中数值配置的权值系数可以为RL模型训练后的权值系数。

104、通过预置乘积算法及预置求和算法,计算配置权值系数后的数据矩阵的评价值。

其中,所述评价值为一个数值,一般为正值,数值越大,代表特征选择的效率越好,评价值用于分析特征选择的优劣,以便用户进行进一步的数据挖掘。

本发明施例提供一种数据特征选择的评价方法,首先获取待评价特征选择的数据矩阵,然后根据不同属性特征类型对所述数据矩阵进行分类,再为数据矩阵中的数值配置与所述类型对应的权值系数,最后通过预置乘积算法及预置求和算法,计算配置权值系数后的数据矩阵的评价值。本发明实施例通过对特征选择得到数据进行数据处理后得到特征选择的评价值,实现对特征选择结果的评价,便于对特征选择结果做出处理,从而提高数据特征选择的评价效率。

本发明实施例提供另一种数据特征选择的评价方法,如图2所示,所述方法包括:

201、将待评价特征选择的数据矩阵配置为行列数量相同的数据矩阵。

其中,所述行列数量相同为相同个数的行和相同个数的列,通过将待评价特征选择的数据矩阵配置为行列数量相同的数据矩阵,以便进行矩阵中行与列的乘积,从而提高数据特征选择的评价效率。

202、获取待评价特征选择的数据矩阵。

本步骤与图1所述步骤101所述的方法相同,这里不再赘述。

203、根据不同属性特征类型对所述数据矩阵进行分类。

其中,所述属性特征类型包括用户类型、安全类型、危险类型。

204a、若属性特征类型为用户类型,则为所述数据矩阵中的数值配置的权值系数符合二项分布。

其中,所述二项分布为概率意义上的二项分布,具体为0-1分布,所述用户类型为用户进行标注过的属性,可以包括用户的需求属性,本发明实施例不做具体限定。例如,为用户类型,则将矩阵中的数据配置为1*a1,0*a2,1*a3等。

对于本发明实施例,与步骤204a并列的步骤204b、若属性特征类型为安全类型,则为所述数据矩阵中的数值配置的权值系数符合正态分布。

其中,所述正态分布为概率意义上的正态分布,具体的数值可以选取矩阵中数值最大的最为正太分布中的最大值,以此向两边递减。

对于本发明实施例,与步骤204a并列的步骤204c、若属性特征类型为危险类型,则为所述数据矩阵中的数值配置的权值系数符合指数分布。

其中,所述指数分布为概率意义上的指数分布,当危险类型矩阵中的数值越大是说明危险系数越大,配置的指数权值越大。

205、通过预置的行与列的乘积算法计算得到多个计算结果。

其中,所述预置的行与列的乘积算法为线性代数中矩阵的点积运算,例如,矩阵{a11,a12,a13;a21,a22,a23;a31,a32,a33}中,行为a1={a11,a12,a13},a2={a21,a22,a23},a3{a31,a32,a33},列为b1={a11,a21,a31},b2={a12,a22,a32},b3={a13,a23,a33},乘积算法为c1=a1*b1,c2=a2*b2,c3=a3*b3。

206、将所述多个计算结果进行求和统计得到评价值。

例如,将上述计算得到的结果c1、c2、c3进行相加,得到评价值D。

进一步地,本发明实施例还可以包括:根据不同的用户需求及不同的数据挖掘算法判断是否进行数据挖掘;若需要,则发出告警信息。其中,所述不同的用户需求包括数据挖掘的不同应用场景,如,网络信息安全的大数据处理、工业生产中的大数据处理等,本发明是实施例不做具体限定。所述数据挖掘算法包括不同种类的机械学习或者不同算法的组合,本发明实施例不做具体限定。所述发出告警信息包括声音告警和图像告警,本发明实施例不做具体限定。通过根据不同的用户需求及不同的数据挖掘算法判断是否进行数据挖掘,若需要,则发出告警信息,实现在不同场景下评估出适合当前场景的最优特征选择值,以便提高数据挖掘的效率。

本发明施例提供另一种数据特征选择的评价方法,首先获取待评价特征选择的数据矩阵,然后根据不同属性特征类型对所述数据矩阵进行分类,再为数据矩阵中的数值配置与所述类型对应的权值系数,最后通过预置乘积算法及预置求和算法,计算配置权值系数后的数据矩阵的评价值。本发明实施例通过对特征选择得到数据进行数据处理后得到特征选择的评价值,实现对特征选择结果的评价,便于对特征选择结果做出处理,从而提高数据特征选择的评价效率。

本发明实施例提供一种数据特征选择的评价装置,如图3所示,所述方法包括:获取单元31、分类单元32、配置单元33、计算单元34。

获取单元31,用于获取待评价特征选择的数据矩阵;

分类单元32,用于根据不同属性特征类型对所述数据矩阵进行分类;

配置单元33,用于为数据矩阵中的数值配置与所述类型对应的权值系数;

计算单元34,用于通过预置乘积算法及预置求和算法,计算配置权值系数后的数据矩阵的评价值。

本发明施例提供一种数据特征选择的评价装置,首先获取待评价特征选择的数据矩阵,然后根据不同属性特征类型对所述数据矩阵进行分类,再为数据矩阵中的数值配置与所述类型对应的权值系数,最后通过预置乘积算法及预置求和算法,计算配置权值系数后的数据矩阵的评价值。本发明实施例通过对特征选择得到数据进行数据处理后得到特征选择的评价值,实现对特征选择结果的评价,便于对特征选择结果做出处理,从而提高数据特征选择的评价效率。

本发明实施例提供另一种数据特征选择的评价装置,如图4所示,所述方法包括:获取单元41、分类单元42、配置单元43、计算单元44、判断单元45、运算单元46。

获取单元41,用于获取待评价特征选择的数据矩阵;

分类单元42,用于根据不同属性特征类型对所述数据矩阵进行分类;

配置单元43,用于为数据矩阵中的数值配置与所述类型对应的权值系数;

计算单元44,用于通过预置乘积算法及预置求和算法,计算配置权值系数后的数据矩阵的评价值。

所述配置单元43,还用于将待评价特征选择的数据矩阵配置为行列数量相同的数据矩阵。

所述配置单元43,具体用于若属性特征类型为用户类型,则为所述数据矩阵中的数值配置的权值系数符合二项分布;

所述配置单元43,具体还用于若属性特征类型为安全类型,则为所述数据矩阵中的数值配置的权值系数符合正态分布;

所述配置单元43,具体还用于若属性特征类型为危险类型,则为所述数据矩阵中的数值配置的权值系数符合指数分布。

进一步地,所述计算单元44包括:

计算模块4401,用于通过预置的行与列的乘积算法计算得到多个计算结果;

统计模块4402,用于将所述多个计算结果进行求和统计得到评价值。

进一步地,所述装置还包括:

判断单元45,用于根据不同的用户需求及不同的数据挖掘算法判断是否进行数据挖掘;

运算单元46,用于若若判断单元判断出根据不同的用户需求及不同的数据挖掘算法不进行数据挖掘,则发出告警信息。

本发明施例提供另一种数据特征选择的评价装置,首先获取待评价特征选择的数据矩阵,然后根据不同属性特征类型对所述数据矩阵进行分类,再为数据矩阵中的数值配置与所述类型对应的权值系数,最后通过预置乘积算法及预置求和算法,计算配置权值系数后的数据矩阵的评价值。本发明实施例通过对特征选择得到数据进行数据处理后得到特征选择的评价值,实现对特征选择结果的评价,便于对特征选择结果做出处理,从而提高数据特征选择的评价效率。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的数据特征选择的评价方法及装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1