一种数据分类回归方法及装置的制造方法_3

文档序号:9417360阅读:来源:国知局
值,根据训练样本类别统计值获取初始训练 样本向量集合的分类回归结果。
[0061] 本发明实施例中,分别根据训练样本分类回归向量序列中的每一个训练向量,获 取该各个训练样本类别回归哈希桶的过程为:随机产生第二预设数目个(记为P)的二进制 掩码;其中,该二进制掩码中1的个数(记为Q)为预先设置,第二预设数目为根据具体应 用场景预先设置的值,且每一个二进制掩码的长度与分类回归向量序列的列数相等,例如, 若训练样本分类回归向量序列可以表示为8列矩阵形式时,则随机生成的每一个二进制掩 码应当包含8位;分别将上述训练样本分类回归向量序列中的每一个训练向量与上述二进 制掩码进行与运算,获取每一个训练向量对应的与运算后的结果,即将训练样本分类回归 向量序列所对应的矩阵的每一行分别与上述P个二进制掩码进行与运算;分别根据上述每 一个训练向量对应的与运算后的结果,以及本地保存的与运算结果与类别回归哈希桶的映 射关系表,获取上述每一个训练向量对应的类别回归哈希桶;根据每一个训练向量对应的 训练样本类别回归哈希桶,获取初始训练样本向量集合对应的各个训练样本类别回归哈希 桶;以及根据各个训练样本类别回归哈希桶中的训练样本数目获取各个训练样本类别回归 哈希桶对应的类别统计值,将该类别统计值作为初始训练样本向量集合的分类回归结果。
[0062] 本发明实施例中,由于对于初始训练样本向量集合的分类回归结果为已知,因此, 根据上述过程,获取随机哈希的分类回归模型对应的与运算结果与类别回归哈希桶的映射 关系表以及相应的参数(r、K、P、Q)。
[0063] 基于上述随机哈希的数据回归分类模型,参阅图3所示,本发明实施例中,对待测 试样本数据进行分类回归的过程为:
[0064] 步骤300 :接收初始样本向量集合,并根据该初始样本向量集合中每一个样本向 量包含的数据类型,对上述初始样本向量集合进行划分,获取连续类型数据序列,类别类型 数据序列,以及二进制数据序列。
[0065] 本发明实施例中,接收输入的初始样本向量集合(记为X),该初始样本向量集合 X包含多个样本向量,且每一个样本向量包含样本对应的属性信息,且属性信息可以通过至 少一种类型的数据表不;例如,初始样本向量集合X包含表不三个样本向量,每一个样本向 量均表示一个人名的属性信息,若每一个人名的属性信息包含年龄、婚姻状况、学历,且上 述三个样本向量分别表示张 A、李B和赵C的属性信息,则该三个样本向量可以分别表示为: 张 A {28,未婚,硕士 },李B {31,已婚,本科},赵C {29,已婚,硕士 }。因此,初始样本向量集 合X可以表示为如下矩阵形式:
[0066]
[0067] 可选的,按照初始样本向量集合X中包含的数据类型的不同,对上述初始样本向 量集合X进行划分,生成连续类型数据序列,类别类型数据序列,以及二进制数据序列。其 中,连续类型数据序列用于表征上述样本对应的属性信息中数字类型的属性信息,其包含 连续类型数据(如年龄、周工作时间等),并且,连续类型数据序列中不包含表示为二进制 数字类型的属性信息;类别类型数据序列用于表征属性信息中非数字类型的属性信息,其 包含类别类型数据(如职业,婚姻状况、国籍、性别等),二进制数据序列包含二进制数据 (如DNA序列等)。例如,当初始样本向量集合X =成,X2, X3},X1 = {31,已婚,本科},X2 ={29,已婚,硕士 },X3= {30,未婚,本科}时,初始样本向量集合X可以表示为如下形式:
[0068]
[0069] 在上述初始样本向量集合X中,年龄为连续类型数据;婚姻状况和学历为类别类 型数据。因此,上述连续类型数据序列X1可以表示为:
[0070]
[0071 ] 上述类别类型数据序列X2可以表示为:
[0072]
[0073] 步骤310 :根据上述连续类型数据序列,生成二进制形式的第一向量序列。
[0074] 本发明实施例中,根据上述连续类型数据序列,生成二进制形式的第一向量序列 的过程,具体为:从初始样本向量集合X中按照预设规则选择第一预设数目个样本向量,根 据选择的样本向量,生成样本向量集合C,上述第一预设数目即为预设的超平面个数(记为 K),该值根据对训练样本的学习得到;采用高斯分布随机产生第一预设数目个连续类型向 量组,其中,每一个连续类型向量组包含一组第一连续类型向量(记为r)以及与该第一连 续类型向量对应的第二连续类型向量(记为r。),每一组第一连续类型向量及其相应的第二 连续类型向量组成一个超平面,且组成的超平面个数为K ;根据上述所有超平面,分别获取 连续类型数据序列中每一个样本向量对应的二进制形式的第一向量;根据连续类型数据序 列中所有样本向量分别对应的二进制形式的第一向量,生成二进制形式的第一向量序列。
[0075] 可选的,从初始样本向量集合X中按照预设规则选择第一预设数目个样本向量, 生成样本向量集合C的过程,具体为:在本地生成一个预处理样本向量集合,此时,该预处 理样本向量集合为空集合;从上述初始样本向量集合X中随机选择任意一样本向量X 1加入 上述预处理样本向量集合中;将添加样本向量后的预处理样本向量集合中的样本向量数目 与第一预设数目K进行比较,当添加样本向量后的预处理样本向量集合中的样本向量数目 小于第一预设数目K时,采用指定概率从初始样本向量集合X中选择样本向量加入到预处 理样本向量集合中;当添加样本向量后的预处理样本向量集合中的样本向量数目达到第一 预设数目K时,将停止从初始样本向量集合X中选定样本向量加入预处理样本向量集合中, 将该包含K个样本向量的预处理样本向量集合作为样本向量集合C。
[0076] 可选的,上述指定概率可以采用公式一获取。
[0077] 基于上述过程,选定的样本向量集合C可以表示为:C= IC1, C2,…,&,···,(;}, 其中,C,为样本向量集合C中的样本向量,每一个样本向量均包含多个表征属性信息的数 据。
[0078] 可选的,针对样本向量集合C,采用高斯分布随机产生第一预设数目个连续类型向 量组,且每一个连续类型向量组均包含一组第一连续类型向量r以及该第一连续类型向量 r对应的第二连续类型向量r。,该第一连续类型向量r中包含多个数据,每一个数据均大于 等于-1且小于等于1。较佳的,该第一连续类型向量r的取值与上述训练过程中的设置相 同。根据上述第一连续类型向量r,可以采用公式二获取与第一连续类型向量r对应的第二 连续类型向量r。。
[0079] 可选的,第一连续类型向量r的长度与样本向量集合C的长度相同,即第一连续类 型向量r对应的矩阵列数与样本向量集合C对应的矩阵列数相等。由于样本向量集合C中 包含K个样本向量,并且针对每一个样本向量均生成相应的第一连续类型向量r和第二连 续类型向量r。,因此,对于样本向量集合C,可生成K个第一连续类型向量r以及与该K个 第一连续类型向量r分别对应的第二连续类型向量r。。
[0080] 可选的,针对上述连续类型数据序列中的任意一样本向量X,,将该任意一样本向 量X,分别在上述K个超平面中的每一个超平面上进行投影,生成一个维数为K的第一向量 序列X/,具体为:针对连续类型数据序列中的任意一样本向量X u,依次将每一个第一连 续类型向量r以及与该第一连续类型向量r对应的第二连续类型向量r。代入公式/X1 ,+r。 中,以及分别将获取的K个公式/X1 ,+r。的结果与0进行比较;根据比较结果,获取该任意 一样本向量Xu对应的第一向量,其中,该第一向量包含K个二进制类型数据。例如,当公式 /X 1JrO > 0时,上述任意一样本向量应的第一向量数据为1 ;当公式/X1 fr。< 0时, 上述任意一样本向量Xu对应的第一向量数据为0。
[0081] 例如,若初始样本向量集合X中连续类型数据序列 ?若K = 2,则样本向 量集合C对应两组第一连续类型向量r和第二连续类型向量r。,分别根据该两组第一连续 类型向量r和第二连续类型向量r。对上述连续类型数据序列进行转化,生成二进制形式的 第一向量序列为
[0082] 步骤320 :根据上述类别类型数据序列,生成二进制形式的第二向量序列。
[0083] 本发明实施例中,将上述类别类型数据序列中的所有类别类型数据进行二进制编 码,即为类别类型数据分别赋予不同的二进制数值,将上述类别类型数据序列中的所有类 别类型数据均用其对应的二进制数值代替,生成二进制形式的第二向量序列。例如,针对上 述类别类型数据序列X 2,对其进行二进制编码,将未婚编码为(〇,1),已婚编码为(1,〇),学 历为大学编码为(〇,1,〇,〇),学历为硕士编码为(〇,〇,1,〇),由此生成的第二向量序列(记 为V )为:
[0084]
[0085] 步骤330 :将上述第一向量序列、第二向量序列,以及二进制数据序列进行合并 后,生成分类回归向量序列。
[0086] 本发明实施例中,将上述生成的二进制形式的第一向量序列X/,第二向量序列 X,,以及二进制数据序列(记为X,)按照向量名称进行合并,生成分类回归向量序列 (记为D)。例如,将上述X/、X2'和X 3'进行合并后,生成的分类回归向量序列如下所示:
[0087]
公式三
[0088] 上述分类回归向量序列包含多个向量,每一个向量对应于初始样本向量集合中相 应样本的二进制形式。
[0089] 步骤340:分别根据上述分类回归向量序列中的每一个向量,获取初始样本向量 集合对应的各个类别回归哈希桶,并分别计算该各个类别回归哈希桶对应的类别统计值, 以及根据该类别统计值获取初始样本向量集合的分类回归结果。
[0090] 本发明实施例中,根据分类回归向量序列中的每一个向量,获取该各个类别回归 哈希桶的过程为:随机产生第二预设数目个(记为P)的二进制掩码;其中,该二进制掩码 中1的个数Q为预先设置,第二预设数目P和预设的Q为根据具体应用场景预先设置的值, 与上述训练过程中的设置相同,且每一个二进制掩码的长度与分类回归向量序列的列数相 等,例如,若分类回归向量序列可以表示为公式三所示的矩阵形式时,由于公式三中包含8 列,因此,随机生成的每一个二进制掩码应当也包含8位;分别将上述分类回归向量序列中 的每一个向量与上述二进制掩码进行与运算,获取每一个向量对应的与运算后的结果,即 将分类回归向量序列所对应的矩阵的每一行分别与上述P个二进制掩码进行与运算;分别 根据上述每一个向量对应的与运算后的结果,以及本地保存的与运算结果与类别回归哈希 桶的映射关系表,获取上述每一个向量对应的类别回归哈希桶;根据每一个向量对应的类 别回归哈希桶,获取
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1