数据离散化的方法及装置与流程

文档序号：12366515阅读：518来源：国知局

本发明涉及计算机技术领域，尤其涉及一种数据离散化方法及装置。

背景技术：

数据离散化是一个将连续的特征转换成定类数据(nominal data)或有序数据的过程。将连续数值的值域划分成多个小区间，每个区间代表了一个有序数值或者定类数据。将定类数据用于分类器(classifier)中，则每个区间可表示一种类别，对应相应的类别标识，将该分类器应用到数据分析应用中，则可根据历史数据或用户输入的数据进行分类。

例如，在一个在线广告推广应用中，历史数据构成的样本数据中对点击用户的属性进行了统计，其中在年龄项下，则可能包含8岁至60岁的所有年龄。而在查找与用户属性匹配的在线广告时，往往是将用户属性的年龄与在线广告对应的年龄段进行匹配，则需要预先对在线广告对应的8岁至60岁的所有年龄数据进行离散化处理，若经过离散化处理得到了8至16、16至30、30至49、49至60这4个区间，则该在线广告对应的年龄属性被离散化为了4个定类数据，分别对应少年，青年，中年，老年四个类别标识。当待推送的用户的年龄为24时，则可在数据库中查找所有对应的年龄段为青年的在线广告进行筛选。

现有的离散化算法有多种多样，较常见的包括FUSINTER、ChiMerge、CAIM、Chi2等。其中FUSINTER、ChiMerge和Modified Chi2都是合并式离散化算法，从一个预定的离散化模式开始，逐步地通过删除候选断点来合并两个相邻的子区间，直到满足某一终止条件。CAIM是分割式离散化算法，从整个特征值域开始，逐步地通过添加分割点来将一个区间划分为两个子区间，直至满足停止条件。合并式离散化算法在进行离散化时主要关注于局部信息，每次合并时只考虑两个相邻的子区间而忽略了附近其它子区间所包含的信息。分割式算法在进行离散化时主要关注于被分割区间的全局信息而忽略局部的上下文信息。合并式离散化算法普遍表现好于分割式离散化算法。

传统技术中的离散化算法通常基于量化矩阵进行推演，在推演过程中，每将两两相邻的取值区间合并，则重新计算一次区分度，然后再重新生成量化矩阵，如此反复，因此计算复杂度较高，导致执行效率较低下。

技术实现要素：

基于此，为解决上述提到的传统技术中的数据离散化方法执行效率较低的技术问题，提供了一种数据离散化方法。

一种数据离散化方法，包括：

接收输入的有序排列的样本集，获取预设的有序排列的初始离散格式；

获取预设的类别集合，遍历所述获取到的类别集合中的类别值，获取所述样本集在遍历到的类别值下的在所述初始离散格式中的起始阈值到每个阈值的积分区间的第一样本数，生成积分矩阵；

根据所述积分矩阵计算初始离散格式中各个阈值构成的取值区间的区分度；

迭代查找区分度最大且不为预设的特征值的取值区间，将所述区分度最大的取值区间对应的阈值添加到目标离散格式中，并将所述区分度最大的取值区间中包含的各个子区间对应的区分度设为所述特征值，直至所有取值区间的区分度均为所述特征值，输出所述目标离散格式。

此外，为解决上述提到的传统技术中的数据离散化方法执行效率较低的技术问题，提供了一种数据离散化装置。

一种数据离散化装置，包括：

样本集输入模块，用于接收输入的有序排列的样本集，获取预设的有序排列的初始离散格式；

积分矩阵生成模块，用于获取预设的类别集合，遍历所述获取到的类别集合中的类别值，获取所述样本集在遍历到的类别值下的在所述初始离散格式中的起始阈值到每个阈值的积分区间的第一样本数，生成积分矩阵；

区分度计算模块，用于根据所述积分矩阵计算初始离散格式中各个阈值构成的取值区间的区分度；

迭代查找模块，用于迭代查找区分度最大且不为预设的特征值的取值区间，将所述区分度最大的取值区间对应的阈值添加到目标离散格式中，并将所述区分度最大的取值区间中包含的各个子区间对应的区分度设为所述特征值，直至所有取值区间的区分度均为所述特征值，输出所述目标离散格式。

实施本发明实施例，将具有如下有益效果：

采用了上述数据离散化方法及装置之后，整个对数据处理的过程中，仅需要初始进行统计，生成积分矩阵，即可根据积分矩阵反复对筛选掉了部分阈值之后的目标阈值序列(即合并了通过初始阈值序列划分的多个两两相邻的取值区间之后合并后的取值区间两端的阈值构成的阈值序列)计算评价值。而在传统技术中通过量化矩阵进行迭代的方案中，则需要在每次移除了初始阈值序列中的部分阈值，在即合并了部分取值区间之后，重新统计样本集在目标阈值序列划分的各个取值区间中的样本数，即在每次迭代过程中均需要重新生成量化矩阵。因此，和传统技术相比，该数据离散化方法的计算量较小，从而执行效率更高。

另外，数据离散化方法及装置中的迭代过程中，可先根据区分度的大小，将多个连续的两两相邻的取值区间合并。而现有的合并式离散化算法在合并时只考虑相邻两个子区间的信息，而忽略了其它邻近的子区间或是全局的信息。因此上述数据离散化方法及装置的准确度和执行效率均得到了提高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为一个实施例中一种数据离散化方法的流程图；

图2为一个实施例中计算各个阈值构成的取值区间的区分度的流程图；

图3为一个实施例中迭代查找区分度最大的取值区间的流程图；

图4为一个实施例中一种数据离散化装置的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

传统技术中的数据离散化方法在迭代过程中采用的量化矩阵如表1所示，其中，阈值序列D将有序排列的样本集的值域划分成n个有界区间D＝{[d₀,d₁],(d₁,d₂],…,(d_n-1,d_n]}，C_i为统计维度的多个类别值，q_ir即为样本集在类别值为C_i且取值区间为(d_i,d_i+1]中的样本数。M_+r即为q_1r到q_sr的样本数的和，M_i+即为q_i1到q_in的和。

表1

传统技术中的迭代推演过程为依次合并取值区间(如表1中，[d₀,d₁]和(d₁,d₂]可以合并为[d₀,d₂])，然后找出通过合并后，评价值最大的阈值序列D，该阈值序列D即为最终离散化生成的离散格式(即discretization scheme)。

传统技术中计算评价值的方案有多种，例如，在FUSINTER方案中，使用下述公式：

计算评价值。其中，α和λ为预设的参数值。即在遍历各种离散格式的过程中，根据量化矩阵中统计的q_ir等样本数计算评价值。

再例如，在CAIM方案中，根据公式：

$<mrow> <mi>CAIM</mi> <mrow> <mo>(</mo> <mi>C</mi> <mo>,</mo> <mi>D</mi> <mo>|</mo> <mi>F</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mi>Σ</mi> <mrow> <mi>r</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mfrac> <mrow> <munder> <mi>max</mi> <mi>i</mi> </munder> <msubsup> <mi>q</mi> <mi>ir</mi> <mn>2</mn> </msubsup> </mrow> <msub> <mi>M</mi> <mrow> <mo>+</mo> <mi>r</mi> </mrow> </msub> </mfrac> </mrow> <mi>n</mi> </mfrac> </mrow>$

计算评价值。

也就是说，若在某次迭代过程中，将[d₀,d₁]和(d₁,d₂]合并为[d₀,d₂]，则需要重新生成量化矩阵，即重新统计在新生成的量化矩阵中的q_ir等样本数，方可进行评价值的计算工作，由此可看出，传统技术中的数据离散化算法将花费大量时间用于生成量化矩阵，从而导致数据离散化的执行效率降低。

为解决上述提到的传统技术中的数据离散化方法执行效率较低的技术问题，在一个实施例中，特提出了一种数据离散化方法，该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的计算机系统上。该计算机系统可以是用于数据统计和分析的服务器设备，例如，运行在线广告推广应用、求职网站、社交网络应用、企业数据管理应用、网站运维程序等需要对大量数据进行分类统计的程序的服务器设备。

具体的，如图1所示，该方法包括：

步骤S102：接收输入的有序排列的样本集，获取预设的有序排列的初始离散格式。

在本实施例中，有序排列的样本集可以是连续的值域(例如：实数集)也可以是离散的值域(例如：正整数集合)。样本数

初始离散格式即为初始的按照相同的顺序排列的阈值序列，阈值序列中包含有与样本集按照相同顺序排列的多个阈值，该多个阈值可将样本集划分为多个取值区间。

初始离散格式可自定义，也可根据样本集自动生成。例如，可以通过计算有序排列的样本集中两个相邻数据的平均值得到有序排列的初始离散格式。若样本集为{f₁,f₂,…,f_n}，其中，f₁,f₂,…,f_n为有序排列的离散数据，则得到的初始离散格式可以是{-∞，(f₁+f₂)/2,…,(f_n-1+f_n)/2，+∞}。，也可不限于相邻两个离散数据的平均值，可以是相邻两个离散数据之间的任意值均可，用于区分样本集中最小维度的取值区间。

进一步的，在上例中，可将取值相等的离散数据对应的初始离散格式中的阈值合并，例如，若f₁＝f₂，则移除初始离散格式中的阈值(f₁+f₂)/2，从而减少了初始离散格式中的阈值数量，减少了计算量，提高了执行效率。

步骤S104：获取预设的类别集合，遍历所述获取到的类别集合中的类别值，获取所述样本集在遍历到的类别值下的在所述初始离散格式中的起始阈值到每个阈值的积分区间的第一样本数，生成积分矩阵。

生成的积分矩阵可如表2所示：

表2

其中，{B₀,B₁,…,B_t}即为初始离散格式中的各个阈值，且B₀为起始阈值，{C₁,C₂,…,C_i,…,C_s}为类别集合，C_i为类别值。a_ij为类别值C_i下的大于起始阈值B₀且小于或等于B_j的第一样本数。m_j为a_1j到a_sj的和，m_i+为a_i1到a_it的和。m为样本集的总样本数。

由于a_ij表示的并不是由两两相邻的B_j和B_j+1将样本集划分的单个取值区间中包含的样本数，而是从起始阈值B₀到B_j的连续的多个两两相邻的取值区间包含的样本数的和，也就是说第一样本数是一个积分值而不是初始离散格式将样本集划分后的每个取值区间的统计值，因此，该逻辑上的矩阵为积分矩阵。

需要说明的是，若样本集为连续的值域，则a_ij为积分得到的面积值。

步骤S106：根据积分矩阵计算初始离散格式中各个阈值构成的取值区间的区分度。

参考表2所示的步骤S104生成的积分矩阵可看出，在某个类别值C_i下，任意两个阈值(不需要两两相邻)B_j和B_k(k>j)构成的取值区间的样本数即为：a_ik-a_ij。在计算B_j和B_k构成的取值区间的区分度之前，需要先查找所述各个阈值构成的取值区间对应的主类别值；取值区间对应的主类别值为所述样本集在该取值区间中对应最大样本数的类别值。

对应的类别值C_i即为B_j和B_k构成的取值区间的主类别值。再查找得到主类别值之后，即可进一步的计算B_j和B_k构成的取值区间的区分度。

在本实施例中，B_j和B_k构成的取值区间的区分度则可由两个维度得到，包括一致性程度值和识别度两部分。具体的计算方式可如图2所示，包括：

步骤S202：获取各个阈值构成的取值区间在各自的主类别值下的第二样本数。

对于B_j和B_k构成的取值区间即为在主类别值C_i下的a_ik-a_ij值，即：

$<mrow> <munder> <mi>max</mi> <mi>i</mi> </munder> <mo>{</mo> <msub> <mi>a</mi> <mi>ik</mi> </msub> <mo>-</mo> <msub> <mi>a</mi> <mi>ij</mi> </msub> <mo>}</mo> </mrow>$

步骤S204：获取各个阈值构成的取值区间在所有类别值下的第三样本数，通过计算所述第二样本数和第三样本数的比值生成各个取值区间的一致性程度值。

即根据公式：

$<mrow> <msub> <mi>ζ</mi> <mi>jk</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munder> <mi>max</mi> <mi>i</mi> </munder> <mo>{</mo> <msub> <mi>a</mi> <mi>ik</mi> </msub> <mo>-</mo> <msub> <mi>a</mi> <mi>ij</mi> </msub> <mo>}</mo> </mrow> <mrow> <msub> <mi>m</mi> <mi>k</mi> </msub> <mo>-</mo> <msub> <mi>m</mi> <mi>j</mi> </msub> </mrow> </mfrac> </mrow>$

计算取值区间(B_j，B_k]的一致性程度值ζ_jk；其中i为取值区间(B_j，B_k]的主类别值的序号，a_ik和a_ij分别为积分矩阵中阈值k和j对应的在主类别值中的第一样本数，m_k和m_j分别为阈值k和j对应的在所有类别值下的第三样本数(具体请参考表2所示的积分矩阵中的定义)。

步骤S206：获取所述样本集的总样本数，通过计算所述第二样本数和所述样本集的总样本数的比值生成各个取值区间的识别度。

即根据公式：

$<mrow> <msub> <mi>γ</mi> <mi>jk</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munder> <mi>max</mi> <mi>i</mi> </munder> <mo>{</mo> <msub> <mi>a</mi> <mi>ik</mi> </msub> <mo>-</mo> <msub> <mi>a</mi> <mi>ij</mi> </msub> <mo>}</mo> </mrow> <mi>m</mi> </mfrac> </mrow>$

计算取值区间(B_j，B_k]的识别度γ_jk，a_ik和a_ij分别为积分矩阵中阈值k和j对应的在主类别值中的第一样本数，m为样本集的总样本数(具体请参考表2所示的积分矩阵中的定义)。

步骤S208：通过将所述一致性程度值和识别度加权平均生成各个取值区间的区分度。

即可根据公式：

Ψ_jk＝(1-α)·ζ_jk+α·γ_jk

计算取值区间(B_j，B_k]的区分度Ψ_jk，其中，ζ_jk为取值区间(B_j，B_k]的一致性程度值，γ_jk为取值区间(B_j，B_k]的识别度，α为调节系数。

也就是说，在本实施例中，可经过上述步骤S202至步骤S208生成初始离散格式中的任意两个阈值B_j和B_k(不限于两两相邻)构成的取值区间的区分度Ψ_jk，为直观表达，其逻辑上对应的数据结构可如表3所示：

表3:

在表3中，在k>j时，区间(B_j，B_k]中可能包含有样本集中的数据，而区间(B_k，B_j]必然不包含样本集中的数据，因此，表3所显示的区分度矩阵中，该矩阵的下半部分的区分度均为0。在其他实施例中，也可将使用其他特征值表示，例如-1，-2等特征值。

步骤S108：迭代查找区分度最大的取值区间，将所述区分度最大的取值区间对应的阈值添加到目标离散格式中，并将所述区分度最大的取值区间中包含的各个子区间对应的区分度设为特征值，直至所有取值区间的区分度均为所述特征值，输出所述目标离散格式。

也就是说，参考表3所示，在某次查找中，若查找得到Ψ_jk为最大，则可将B_j和B_k取出，并将上述表3所示的区分度矩阵中，B_j列到B_k列以及B_j行到B_k行的所有区分度Ψ都设置为0。

例如，若j＝2，k＝5，则在该次查找中，可将B₂和B₅取出，添加到目标离散格式中，并将Ψ₂₃、Ψ₂₄、Ψ₂₅、Ψ₃₄、Ψ₃₅以及Ψ₃₂、Ψ₄₂、Ψ₅₂、Ψ₄₃、Ψ₅₃(此5个区分度值可能在初始阶段即为0)设为0。在后续的迭代查找过程中，由于Ψ₂₃、Ψ₂₄、Ψ₂₅、Ψ₃₄、Ψ₃₅以及Ψ₃₂、Ψ₄₂、Ψ₅₂、Ψ₄₃、Ψ₅₃均已被设为0或其他特征值，则不可能会将其中任意一个区分度对应的取值区间的端点取出添加到目标离散格式中。

具体的迭代过程则可如图3所示，需要先设置目标离散格式D为空集{}，然后执行：

步骤S302：查找区分度Ψ_jk最大的且不为特征值的取值区间；若查找到则执行步骤S304，否则，执行步骤S308，停止迭代查找并输出目标离散格式D。

步骤S304：获取B_j和B_k，通过计算D＝D∪{B_j，B_k}将B_j和B_k添加到D中，并继续执行步骤S306

步骤S306：将Ψ_pq设为特征值0，其中j≦p≦k，j≦q≦k，迭代执行步骤S302。

经过上述步骤S302至步骤S308的迭代过程，最终输出目标离散格式时，表3所示的区分度的矩阵中的所有区分度均为0。

优选的，在本实施例中，在根据初始离散格式生成的积分矩阵，计算得到了如表3所示的区分度矩阵之后，还需要对计算得到的各个阈值构成的取值区间的区分度进行噪声过滤处理，具体为：

查找在对应的主类别值下的第二样本数与所述样本集在所述主类别值下的第三样本数的比值小于或等于阈值的噪声取值区间，将所述噪声取值区间的区分度设为所述特征值。

也就是说，查找：

$<mrow> <mfrac> <mrow> <munder> <mi>max</mi> <mi>i</mi> </munder> <mo>{</mo> <msub> <mi>a</mi> <mi>ik</mi> </msub> <mo>-</mo> <msub> <mi>a</mi> <mi>ij</mi> </msub> <mo>}</mo> </mrow> <msub> <mi>m</mi> <mrow> <mi>i</mi> <mo>+</mo> </mrow> </msub> </mfrac> <mo><</mo> <msub> <mi>t</mi> <mi>φ</mi> </msub> </mrow>$

对应的j和k；并将该Ψ_jk设为0。从而预先将包含的样本数较小的区间移除，防止在计算区分度时，却由于计算得到该区间的一致性程度值和识别度较大而选择了该区间对应的端点阈值添加到目标离散格式中输出。

复杂度分析：

步骤S104中，积分矩阵的计算复杂度为O(mn′)，步骤S106中的区分度矩阵的计算复杂度为O(sn′2)，其中，n′表示初始离散格式中阈值的数量，s表示样本集中的样本数。

步骤S108的计算复杂度由以下两个因素决定：一是对最大的区分度的搜索，二是对区分度矩阵的更新。上述两个操作的计算复杂度均为O(n′2)。因此，步骤S108的计算复杂度为O(hn′2)，其中h为选中的区间的数目，即步骤S108中迭代的次数。对归纳机器学习应用程序而言，类的数目s是一个小的常数，并且在多数情况下时小于h的。在多数情况下，边界点集的大小n′小于n和m。因此，综合来讲，上述数据离散算法的预期的计算复杂度为O(mn+hn′2)。与传统技术相比，计算复杂度大大降低，执行效率更高。

输出的目标离散格式中则包含有多个阈值，则可将该多个阈值应用到分类器中，对数据进行分类。也就是说，上述步骤S102至S108为机器学习的过程，对历史数据构成的样本集进行机器学习，对历史数据进行离散化处理得到包含多个阈值的目标离散格式，然后可根据该目标离散格式生成相应的数学模型对后续输入的业务数据进行分类处理。

例如，在一个应用场景中，历史数据的样本集为广告数据对应的年龄数据(离散的数据)，通过上述步骤S102至S108的机器学习过程，可将年龄数据划分为多个年龄段，然后可将在线广告根据所属的年龄段进行分类。当后续需要为用户推送在线广告时，则可根据用户的年龄获取其所属的年龄段，然后查找适合该年龄段下的在线广告推送给用户。当数据离散化程度较好时，分类则更准确，推送给用户的在线广告与用户的适配度则更高，则有更大的概率该被推送的用户会点击该广告进行浏览或购买。

为解决上述提到的传统技术中的数据离散化方法执行效率较低的技术问题，在一个实施例中，特提出了一种数据离散化装置，如图4所示，该装置包括：样本集输入模块102、积分矩阵生成模块104、区分度计算模块106以及迭代查找模块108，其中：

样本集输入模块102，用于接收输入的有序排列的样本集，获取预设的有序排列的初始离散格式。

积分矩阵生成模块104，用于获取预设的类别集合，遍历所述获取到的类别集合中的类别值，获取所述样本集在遍历到的类别值下的在所述初始离散格式中的起始阈值到每个阈值的积分区间的第一样本数，生成积分矩阵。

区分度计算模块106，用于根据所述积分矩阵计算初始离散格式中各个阈值构成的取值区间的区分度。

迭代查找模块108，用于迭代查找区分度最大且不为预设的特征值的取值区间，将所述区分度最大的取值区间对应的阈值添加到目标离散格式中，并将所述区分度最大的取值区间中包含的各个子区间对应的区分度设为所述特征值，直至所有取值区间的区分度均为所述特征值，输出所述目标离散格式。

在本实施例中，样本集输入模块102还用于在所述有序排列的样本集中包含的数据为离散数据时，通过计算相邻两个离散数据的平均值得到有序排列的初始离散格式。

在本实施例中，区分度计算模块106还用于查找所述各个阈值构成的取值区间对应的主类别值；取值区间对应的主类别值为所述样本集在该取值区间中对应最大样本数的类别值。

在本实施例中，区分度计算模块106还用于获取各个阈值构成的取值区间在各自的主类别值下的第二样本数；获取各个阈值构成的取值区间在所有类别值下的第三样本数，通过计算所述第二样本数和第三样本数的比值生成各个取值区间的一致性程度值；获取所述样本集的总样本数，通过计算所述第二样本数和所述样本集的总样本数的比值生成各个取值区间的识别度；通过将所述一致性程度值和识别度加权平均生成各个取值区间的区分度。

在本实施例中，区分度计算模块106还用于根据公式：

计算取值区间(B_j，B_k]的一致性程度值ζ_jk；其中i为取值区间(B_j，B_k]的主类别值的序号，_aik和a_ij分别为积分矩阵中阈值k和j对应的在主类别值中的第一样本数，m_k和m_j分别为阈值k和j对应的在所有类别值下的第三样本数。

在本实施例中，区分度计算模块106还用于根据公式：

计算取值区间(B_j，B_k]的识别度γ_jk，_aik和_aij分别为积分矩阵中阈值k和j对应的在主类别值中的第一样本数，m为样本集的总样本数。

在本实施例中，区分度计算模块106还用于根据公式：

Ψ_jk＝(1-α)·ζ_jk+α·γ_jk

计算取值区间(B_j，B_k]的区分度Ψ_jk，其中，ζ_jk为取值区间(B_j，B_k]的一致性程度值，γ_jk为取值区间(B_j，B_k]的识别度，α为调节系数。

在本实施例中，如图4所示，数据离散化装置还包括噪声过滤模块110，用于查找在对应的主类别值下的第二样本数与所述样本集在所述主类别值下的第三样本数的比值小于或等于阈值的噪声取值区间，将所述噪声取值区间的区分度设为所述特征值。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘宏志;蒋杰;王巨宏;吴中海;张兴;
技术所有人：北京大学;深圳市腾讯计算机系统有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。