一种属性处理方法及服务器与流程

文档序号:12719488阅读:201来源:国知局
一种属性处理方法及服务器与流程

本发明涉及通信领域中的数据处理技术,尤其涉及一种属性处理方法及服务器。



背景技术:

随着信息技术的不断进步,尤其是社交网络、移动互联网、云计算、物联网等互联网技术的广泛应用,人们的各种社会活动、沟通设备、传感器正在生成海量数据。面对海量数据的迅猛增长,如何更有效的分析长期积累、持续增长的海量数据,从中挖掘出价值,用于支撑决策和业务发展是当今众多拥有大规模数据的企业所面临的严峻挑战。数据挖掘中属性约简是数据挖掘中非常重要的数据预处理步骤,目的在于删除不相关、弱相关或者冗余的属性,精确地揭示属性与属性、属性与类别之间的相关性。

目前较为常用的属性约简方法主要包括基于粗糙集理论的属性约简方法和主成分分析法。基于粗糙集理论的属性约简方法,是指在保持分类能力不变的条件下,删除其中不相关或者不重要的属性,目标是要从条件属性集合中发现部分必要的条件属性,使得根据这部分条件属性形成的相对于决策属性的分类和所有条件属性所形成的相对于决策属性的分类一致,即和所有条件属性相对于决策属性有相同的分类能力。主成分分析方法的基本思想是借助一个正交变换,将分量相关的原随机变量转换为分量不相关的新的变量,降低数据集的维数,同时保持数据集中对方差贡献最大的特征属性。但是,上述提供的解决方案,无法再不包含决策属性情况下进行降维处理。



技术实现要素:

有鉴于此,本发明的目的在于提供一种属性处理方法及服务器,能至少解 决现有技术中存在的上述问题。

为达到上述目的,本发明的技术方案是这样实现的:

本发明实施例提供了一种属性处理方法,其特征在于,所述方法包括:

获取到针对至少两个样本数据的N个属性,N为大于等于2的整数;

计算得到所述N个属性中任意两个属性之间的相关系数;

基于所述N个属性中任意两个属性之间的相关系数,确定由N个属性组成的有向网络;

基于所述有向网络,计算得到所述N个属性的重要度;

基于所述N个属性的重要度,从所述N个属性中选取M个属性组成属性集合,其中,M为大于等于1且小于等于N的整数。

一种服务器,其特征在于,所述服务器包括:

属性分析单元,用于获取到针对至少两个样本数据的N个属性,N为大于等于2的整数;计算得到所述N个属性中任意两个属性之间的相关系数;

属性处理单元,用于基于所述N个属性中任意两个属性之间的相关系数,确定由N个属性组成的有向网络;基于所述有向网络,计算得到所述N个属性的重要度;

选取单元,用于基于所述N个属性的重要度,从所述N个属性中选取M个属性组成属性集合,其中,M为大于等于1且小于等于N的整数。

本发明实施例提供了属性处理方法及服务器,根据样本数据的属性信息及其两两之间的相关系数,基于属性以及相关系数组成有向网络,再基于有向网络分别计算得到每一个属性对应的重要度,进而基于每一个属性的重要度选取出一定数量的属性作为约简属性。如此,本发明借鉴复杂网络理论中节点重要性衡量方法,完全适用于从不包含决策属性的数据集中选取出普适情况下重要的属性,实现聚类问题中的属性约简,降低数据维度,提高算法精度。

附图说明

图1为本发明实施例属性处理方法流程示意图;

图2为本发明实施例有向网络组成示意图;

图3为本发明实施例服务器组成结构示意图。

具体实施方式

下面结合附图及具体实施例对本发明再作进一步详细的说明。

实施例一、

本发明实施例提供了一种属性处理方法,如图1所示,包括:

步骤101:获取到针对至少两个样本数据的N个属性,N为大于等于2的整数;

步骤102:计算得到所述N个属性中任意两个属性之间的相关系数;

步骤103:基于所述N个属性中任意两个属性之间的相关系数,确定由N个属性组成的有向网络;

步骤104:基于所述有向网络,计算得到所述N个属性的重要度;

步骤105:基于所述N个属性的重要度,从所述N个属性中选取M个属性组成属性集合,其中,M为大于等于1且小于等于N的整数。

这里,本发明实施例可以为应用于网络侧的服务器中,或者为服务器集群中。

其中,所述至少两个样本数据可以表征网络侧采集到的多个数据。

在步骤101和步骤102中,计算相关系数,可以为使用Pearson相关系数,具体可以为:首先分析所述至少两个样本,分别确定所述至少两个样本数据中的每一个样本数据对应的至少一个属性;然后基于任意两个属性所包含的样本数据的个数,计算得到两个属性之间的相关系数。

比如,相关系数是用以反映变量之间相关关系密切程度的统计变量,假设条件属性集为A={a1,a2,…,an},样本数据量为m,第i个样本中包含有n个属性,可以用Xi={xi1,xi2,…,xin}表示,i=1,2,…m;属性ai和aj之间的Pearson相关系数具体采用如下公式进行计算:

所述基于所述N个属性中任意两个属性之间的相关系数,确定由N个属性组成的有向网络,可以包括:

将所述N个属性分别作为N个节点;

将所述N个属性中任意两个属性之间的相关系数作为所述任意两个属性对应的节点之间的边;

基于所述N个节点以及任意两个属性对应的节点之间的边构成所述有向网络。

将属性看作网络中的“节点”,属性之间的相关系数看作网络中的“边”,构建属性之间的网络拓扑图G={V,E},其中V为节点集,E为边集,V={a1,a2,…,an},E={r11,r12,…,rnn};可以如图2所示,假设当前有6个属性,其之间的相关系数可以如图中的连接两个属性的边上的数值所表示。

进一步地,基于上述建立的有向网络,可以进一步进行重要度的计算,具体如下:

所述计算得到所述N个属性的重要度,包括:

基于有向网络,逐个选取N个节点中的一个节点对应的属性作为第一属性;

基于所述有向网络中的边,选取与所述第一属性相关的属性集合;

基于所述第一属性的第一重要度、以及所述属性集合中的属性数量以及所述第一属性与所述属性集合中每一个属性之间的相关系数,计算得到所述第一属性的第二重要度;

直至计算完成所述有向网络中N个节点对应的属性的第二重要度。

相应的,所述计算完成所述有向网络中N个节点对应的属性的第二重要度之后,所述方法还包括:

计算N个节点对应的属性的第二重要度与第一重要度之间的差值,得到N 个节点对应的属性的差值的和;

判断所述差值之和是否小于预设的门限值,若所述差值的和小于预设的门限值,则确定所述N个节点对应的属性的重要度等于其对应的第二重要度;否则,将所述第二重要度设置为第一重要度,继续进行N个节点对应的属性的第二重要度。

需要说明的是,在首次执行重要度计算的时候,可以首先将第一重要度赋值为初始值,比如,可以将首次执行时,全部的属性对应的第一重要度均设置为相同的初始值,本实施例中假设每个属性的初始AR值均设置为1,

ARi0=1,i=a1,a2,...,an

每一次执行第二重要度的计算时,可以采用以下公式:将本次计算设置为第t次,上一次计算为t-1次;也就是说,本次计算时,使用t-1次得到的第二重要度作为第一重要度,所要计算得到的为第t次计算的第二重要度:

其中,d为阻尼系数,可以设置d=0.85;aj是与属性ai相关的属性,F(i)为与属性ai相关的属性集合;Nj为与属性aj相关的属性数量;rij为属性ai与属性aj之间的相关系数。

其中,属性ai在第t步的AR值:ARit作为第t+1步的第一重要度;重复步骤计算得到第二重要度的计算,直到两次迭代之间每个属性的AR值之差的和的绝对值小于阈值ε,即

则认为属性的AR值在第t+1步达到稳定状态,停止AR值的迭代运算。

所述基于所述N个属性的重要度,从所述N个属性中选取M个属性组成属性集合,包括:对所述N个属性的重要度按照从大到小的顺序进行排序;基于排序后的N个属性,选取排序在前M个的属性组成所述属性集合。即将稳 定状态下各个属性的AR值由高到低排序,选择出排名前m位的属性,构成特征子集,实现属性约简。

可见,通过采用上述方案,就能够根据样本数据的属性信息及其两两之间的相关系数,基于属性以及相关系数组成有向网络,再基于有向网络分别计算得到每一个属性对应的重要度,进而基于每一个属性的重要度选取出一定数量的属性作为约简属性。如此,本发明借鉴复杂网络理论中节点重要性衡量方法,完全适用于从不包含决策属性的数据集中选取出普适情况下重要的属性,实现聚类问题中的属性约简,降低数据维度,提高算法精度。其次,使用本发明的方法得到的特征属性为原始条件属性的子集,物理意义易于理解。

实施例二、

本发明实施例提供了一种服务器,如图3所示,所述服务器包括:

属性分析单元31,用于获取到针对至少两个样本数据的N个属性,N为大于等于2的整数;计算得到所述N个属性中任意两个属性之间的相关系数;

属性处理单元32,用于基于所述N个属性中任意两个属性之间的相关系数,确定由N个属性组成的有向网络;基于所述有向网络,计算得到所述N个属性的重要度;

选取单元33,用于基于所述N个属性的重要度,从所述N个属性中选取M个属性组成属性集合,其中,M为大于等于1且小于等于N的整数。

这里,本发明实施例可以为应用于网络侧的服务器中,或者为服务器集群中。

其中,所述至少两个样本数据可以表征网络侧采集到的多个数据。

属性处理单元32,用于首先分析所述至少两个样本,分别确定所述至少两个样本数据中的每一个样本数据对应的至少一个属性;然后基于任意两个属性所包含的样本数据的个数,计算得到两个属性之间的相关系数。

比如,相关系数是用以反映变量之间相关关系密切程度的统计变量,假设条件属性集为A={a1,a2,…,an},样本数据量为m,第i个样本中包含有n 个属性,可以用Xi={xi1,xi2,…,xin}表示,i=1,2,…m;属性ai和aj之间的Pearson相关系数具体采用如下公式进行计算:

所述属性处理单元32,用于将所述N个属性分别作为N个节点;将所述N个属性中任意两个属性之间的相关系数作为所述任意两个属性对应的节点之间的边;基于所述N个节点以及任意两个属性对应的节点之间的边构成所述有向网络。

将属性看作网络中的“节点”,属性之间的相关系数看作网络中的“边”,构建属性之间的网络拓扑图G={V,E},其中V为节点集,E为边集,V={a1,a2,…,an},E={r11,r12,…,rnn};可以如图2所示,假设当前有6个属性,其之间的相关系数可以如图中的连接两个属性的边上的数值所表示。

进一步地,基于上述建立的有向网络,可以进一步进行重要度的计算,具体如下:

属性处理单元32,用于基于有向网络,逐个选取N个节点中的一个节点对应的属性作为第一属性;基于所述有向网络中的边,选取与所述第一属性相关的属性集合;基于所述第一属性的第一重要度、以及所述属性集合中的属性数量以及所述第一属性与所述属性集合中每一个属性之间的相关系数,计算得到所述第一属性的第二重要度;直至计算完成所述有向网络中N个节点对应的属性的第二重要度。

相应的,属性处理单元32,用于计算N个节点对应的属性的第二重要度与第一重要度之间的差值,得到N个节点对应的属性的差值的和;判断所述差值之和是否小于预设的门限值,若所述差值的和小于预设的门限值,则确定所述N个节点对应的属性的重要度等于其对应的第二重要度;否则,将所述第二重要度设置为第一重要度,继续进行N个节点对应的属性的第二重要度。

需要说明的是,在首次执行重要度计算的时候,可以首先将第一重要度赋值为初始值,比如,可以将首次执行时,全部的属性对应的第一重要度均设置为相同的初始值,本实施例中假设每个属性的初始AR值均设置为1,

ARi0=1,i=a1,a2,...,an

每一次执行第二重要度的计算时,可以采用以下公式:将本次计算设置为第t次,上一次计算为t-1次;也就是说,本次计算时,使用t-1次得到的第二重要度作为第一重要度,所要计算得到的为第t次计算的第二重要度:

其中,d为阻尼系数,可以设置d=0.85;aj是与属性ai相关的属性,F(i)为与属性ai相关的属性集合;Nj为与属性aj相关的属性数量;rij为属性ai与属性aj之间的相关系数。

其中,属性ai在第t步的AR值:ARit作为第t+1步的第一重要度;重复步骤计算得到第二重要度的计算,直到两次迭代之间每个属性的AR值之差的和的绝对值小于阈值ε,即

则认为属性的AR值在第t+1步达到稳定状态,停止AR值的迭代运算。

所述选取单元33,用于对所述N个属性的重要度按照从大到小的顺序进行排序;基于排序后的N个属性,选取排序在前M个的属性组成所述属性集合。即将稳定状态下各个属性的AR值由高到低排序,选择出排名前m位的属性,构成特征子集,实现属性约简。

可见,通过采用上述方案,就能够根据样本数据的属性信息及其两两之间的相关系数,基于属性以及相关系数组成有向网络,再基于有向网络分别计算得到每一个属性对应的重要度,进而基于每一个属性的重要度选取出一定数量的属性作为约简属性。如此,本发明借鉴复杂网络理论中节点重要性衡量方法, 完全适用于从不包含决策属性的数据集中选取出普适情况下重要的属性,实现聚类问题中的属性约简,降低数据维度,提高算法精度。其次,使用本发明的方法得到的特征属性为原始条件属性的子集,物理意义易于理解。

本发明实施例所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、基站、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。

以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1