一种数据分类回归方法及装置的制造方法_2

文档序号：9417360阅读：来源：国知局

类回归结果获取单元，具体用于：分别获取各个类别回归哈希桶中包含的样本数目；根据所述样本数目，采用取统计平均值的方法，分别获取各个类别回归哈希桶对应的类别统计值。
[0031] 本发明实施例中，将初始样本向量集合中的数据划分为连续类型数据序列、类别类型数据序列，以及二进制数据序列；将该连续类型数据序列转化为二进制形式的第一向量序列、以及将类别类型数据序列转化为第二向量序列后，合并第一向量序列、第二向量序列，以及二进制数据序列，生成分类回归向量序列；根据该分类回归向量序列中的每一个向量，获取初始样本向量集合对应的各个类别回归哈希桶，以及各个类别回归哈希桶对应的类别统计值，根据该类别统计值获取初始样本向量集合的分类回归结果。采用本发明技术方案，通过将样本向量集合中的数据进行划分，并分别将划分后的向量序列转化为二进制形式向量序列，以及基于合并后的二进制形式向量序列，获取初始样本向量集合对应的分类回归结果，数据分类回归结果的获取不受数据维数以及数据数量的限制，并且无须采用迭代算法实现数据的分类回归，从而降低了获取数据分类回归结果的复杂度。
【附图说明】
[0032] 图1为本发明实施例中数据分类回归系统架构示意图；
[0033] 图2为本发明实施例中获取数据分类回归模型参数流程图；
[0034] 图3为本发明实施例中数据分类回归流程图；
[0035] 图4为本发明实施例中数据分类回归模型示意图；
[0036] 图5为本发明实施例中数据分类回归装置结构图；
[0037] 图6为本发明实施例中数据分类回归设备结构图。
【具体实施方式】
[0038] 为了解决目前在对数据进行分类回归时，存在计算复杂度高的问题。本发明实施例中，将初始样本向量集合中的数据划分为连续类型数据序列、类别类型数据序列，以及二进制数据序列；将该连续类型数据序列转化为二进制形式的第一向量序列、以及将类别类型数据序列转化为第二向量序列后，合并第一向量序列、第二向量序列，以及二进制数据序列，生成分类回归向量序列；根据该分类回归向量序列中的每一个向量，获取初始样本向量集合对应的各个类别回归哈希桶，以及各个类别回归哈希桶对应的类别统计值，根据该类别统计值获取初始样本向量集合的分类回归结果。采用本发明技术方案，通过将样本向量集合中的数据进行划分，并分别将划分后的向量序列转化为二进制形式向量序列，以及基于合并后的二进制形式向量序列，获取初始样本向量集合对应的分类回归结果，数据分类回归结果的获取不受数据维数以及数据数量的限制，并且无须采用迭代算法实现数据的分类回归，从而降低了获取数据分类回归结果的复杂度。
[0039] 参阅图1所示，为本发明实施例中数据分类回归系统架构示意图，该数据分类回归系统包含数据采集装置以及数据分类回归装置；其中，数据采集装置用于采集数据，并将该采集到的数据发送至数据分类回归装置；数据分类回归装置用于对采集到的数据进行分类回归。上述数据采集装置以及数据分类回归装置可以位于同一个设备之中，也可以位于不同的设备之中。
[0040] 下面结合说明书附图对本发明实施例作进一步详细描述。
[0041] 本发明实施例中，在对待测试样本数据进行分类回归之前，在本地创建随机哈希的数据分类回归模型，并基于大量的训练样本，获取该随机哈希的数据分类回归模型的各个参数以及与运算结果与类别回归哈希桶的映射关系表。参阅图2所示，获取随机哈希的数据分类回归模型的各个参数以及与运算结果与类别回归哈希桶的映射关系表的过程为：
[0042] 步骤200:接收初始训练样本向量集合，并根据该初始训练样本向量集合中每一个训练样本向量包含的训练数据类型，对上述初始训练样本向量集合进行划分，获取连续类型训练数据序列，类别类型训练数据序列，以及二进制训练数据序列。
[0043] 本发明实施例中，接收输入的初始训练样本向量集合，该初始训练样本向量集合包含多个训练样本向量，每一个训练样本向量均对应训练样本对应的属性信息，该属性信息由训练数据表示；并且，每一个训练样本向量包含相应训练样本对应的至少一种数据类型的训练数据。
[0044] 可选的，按照初始训练样本向量集合中包含的训练数据对应的数据类型的不同，对上述初始训练样本向量集合进行划分，生成连续类型训练数据序列，类别类型训练数据序列，以及二进制训练数据序列。其中，上述连续类型训练数据序列用于表征属性信息中数字类型的属性信息，并且，该连续类型训练数据序列中不包含表示为二进制数字类型的属性信息；上述类别类型训练数据序列用于表征属性信息中非数字类型的属性信息，例如：连续类型训练数据序列包含连续类型训练数据（如年龄、周工作时间等），类别类型训练数据序列包含类别类型训练数据（如职业，婚姻状况、国籍、性别等），二进制训练数据序列包含二进制训练数据（如DNA序列等）。
[0045] 步骤210:根据上述连续类型训练数据序列，生成二进制形式的第一训练向量序列。
[0046] 本发明实施例中，根据上述连续类型训练数据序列，生成二进制形式的第一训练向量序列的过程，具体为：从初始训练样本向量集合中按照预设规则选择第一预设数目个训练样本向量，根据选择的训练样本向量，生成训练样本向量集合，上述第一预设数目即为预设的超平面个数（记为K)，根据对训练样本的学习得到；采用高斯分布随机产生第一预设数目个连续类型向量组，其中，每一个连续类型向量组包含一组第一连续类型向量（记为r)以及该第一连续类型向量对应的第二连续类型向量（记为r。)，每一组第一连续类型向量及其对应的第二连续类型向量组成一个超平面，且组成的超平面数目为K ;根据上述所有超平面，分别获取连续类型训练数据序列中每一个训练样本向量对应的二进制形式的第一训练向量；根据连续类型训练数据序列中所有训练样本向量分别对应的二进制形式的第一训练向量，生成二进制形式的第一训练向量序列。
[0047] 可选的，从初始训练样本向量集合中按照预设规则选择第一预设数目个训练样本向量，生成训练样本向量集合的过程，具体为：在本地生成一个预处理训练样本向量集合，此时，该预处理训练样本向量集合为空集合；从上述初始训练样本向量集合中随机选择任意一训练样本向量加入上述预处理训练样本向量集合中；将添加训练样本向量后的预处理训练样本向量集合中的训练样本向量数目与第一预设数目进行比较，当添加训练样本向量后的预处理训练样本向量集合中的训练样本向量数目小于第一预设数目时，采用指定概率从初始训练样本向量集合中选择训练样本向量加入到预处理训练样本向量集合中；当添加训练样本向量后的预处理训练样本向量集合中的训练样本向量数目达到第一预设数目时，停止从初始训练样本向量集合中选择训练样本向量加入预处理训练样本向量集合中，将该包含K个训练样本向量的预处理训练样本向量集合作为训练样本向量集合。
[0048] 可选的，上述指定概率可以采用如下公式获取：
[0049]
公式一
[0050] 其中，g 为指定概率；d2 (Xj, C) = Iiiini = li2,..、k I I Xj-Ci I I，
'其中，I IXj-C11 I表示Xj与C1之间的欧氏距离，Xj为初始训练样本向量集合中的一个训练样本向量,C1为训练样本向量集合中的训练样本向量；K为超平面个数；X为初始训练样本向量集合。
[0051] 可选的，针对训练样本向量集合中的每一个训练样本向量，采用高斯分布随机产生第一预设数目个连续类型向量组，且每一组连续类型向量组均包含第一连续类型向量r 以及该第一连续类型向量r对应的第二连续类型向量r。，该第一连续类型向量r中包含多个数据，每一个数据均大于等于-1且小于等于1。根据上述任意一第一连续类型向量r，可以采用如下公式获取该任意一第一连续类型向量r对应的第二连续类型向量r。：
[0052] rTCj+r〇 = 0 公式二
[0053] 其中，rT为第一连续类型向量r的转置&为训练样本向量集合中的训练样本向量；r。为第二连续类型向量。第一连续类型向量r的长度与训练样本向量集合的长度相同，即第一连续类型向量r对应的矩阵列数与训练样本向量集合对应的矩阵列数相等。由于训练样本向量集合中包含K个训练样本向量，并且针对每一个训练样本向量均生成相应的第一连续类型向量r和第二连续类型向量r。，因此，对于训练样本向量集合，可生成K个第一连续类型向量r以及与该K个第一连续类型向量r分别对应的第二连续类型向量r。。
[0054] 可选的，针对上述连续类型数据序列中的任意一训练样本向量，将该任意一训练样本向量分别在上述K个超平面中的每一个超平面上进行投影，生成一个维数为K的第一训练向量序列，具体为：针对连续类型训练数据序列中的任意一训练样本向量，依次将每一组第一连续类型向量r以及与该第一连续类型向量r对应的第二连续类型向量r。代入公式 /C1 ,+r。中，以及分别将获取的K个公式PC1 ,+r。的结果与0进行比较；根据比较结果，获取该任意一训练样本向量对应的第一训练向量，其中，该第一训练向量包含K个二进制形式的训练数据。例如，当公式/(^+4 > O时，上述连续类型训练数据序列中的任意一训练样本向量Cu对应的第一训练向量数据为1 ;当公式O时，上述任意一训练样本向量 Cu对应的第一训练向量数据为0。
[0055] 步骤220:根据上述类别类型训练数据序列，生成二进制形式的第二训练向量序列。
[0056] 本发明实施例中，将上述类别类型训练数据序列中的所有类别类型训练数据分别进行二进制编码，即为类别类型训练数据分别赋予不同的二进制数值，将上述类别类型训练数据序列中的所有类别类型数据均用其对应的二进制数值代替，生成二进制形式的第二训练向量序列。
[0057] 步骤230 :将上述第一训练向量序列、第二训练向量序列，以及二进制训练数据序列进行合并后，生成训练样本分类回归向量序列。
[0058] 本发明实施例中，将上述生成的二进制形式的第一训练向量序列，第二训练向量序列，以及二进制训练数据序列按照训练样本进行合并，生成训练样本分类回归向量序列。
[0059] 上述训练样本分类回归向量序列包含多个训练向量，每一个训练向量均对应于初始训练样本向量集合中训练样本向量的二进制形式。
[0060] 步骤240:分别根据上述训练样本分类回归向量序列中的每一个训练向量，获取上述初始训练样本向量集合对应的各个训练样本类别回归哈希桶，以及分别计算各个训练样本类别回归哈希桶对应的训练样本类别统计

完整全部详细技术资料下载

当前第2页1 2 3 4 5