一种数据分类回归方法及装置的制造方法

文档序号:9417360阅读:378来源:国知局
一种数据分类回归方法及装置的制造方法
【技术领域】
[0001] 本发明涉及数据处理领域,尤其涉及一种数据分类回归方法及装置。
【背景技术】
[0002] 在数据处理领域,对数据进行分类回归即为,从针对已知类别训练集合的分析结 果中发现分类规则,以此预测新采集数据的类别。通过对采集到的数据进行回归分析,可以 从中获取用户需要的分类信息,以及根据该分类信息获取更深层次的规律,从而将该规律 应用于银行风险评估、客户类别分类、文本检索和搜索引擎分类、安全领域中的入侵检测应 用等相关领域。
[0003] 目前,对数据进行分类回归的方法有多种,如神经网络,贝叶斯网络等方法,采用 上述方法能够快速实现数据的分类回归。但是,由于上述方法在算法上的局限性,当数据的 空间维数很高(即类型较多)时,对数据进行分类回归后所得到结果精度将迅速下降甚至 无法得出分类回归结果。
[0004] 针对上述技术问题,通常采用核方法来解决高维数据的分类回归问题,例如采用 SVM(Support Vector Machine;支持向量机)模型实现对高维数据的分类回归。由于SVM 模型实现数据分类回归时,需要进行大量的迭代运算,若所采集的数据数量较为庞大,则需 要较大的计算开销来获取数据分类回归的结果,因此,上述SVM模型仅适用于对数量较小 的数据进行分类回归的应用场景。
[0005] 由此可见,目前在对数据进行分类回归时,存在计算复杂度随着数据规模,数据维 数的增长而增长太快,甚至无法求解的问题。

【发明内容】

[0006] 本发明实施例提供一种数据分类回归方法及装置,用以解决目前在对数据进行分 类回归时,存在计算复杂度高的问题。
[0007] 本发明实施例提供的具体技术方案如下:
[0008] 第一方面,提供一种数据分类回归方法,包括:
[0009] 接收初始样本向量集合,并根据所述初始样本向量集合中每一个样本向量包含的 数据类型,对所述初始样本向量集合进行划分,获取连续类型数据序列,类别类型数据序 列,以及二进制数据序列;其中,所述初始样本向量集合中包含至少一个样本向量,所述样 本向量包含样本对应的属性信息;所述连续类型数据序列用于表征所述属性信息中数字类 型的属性信息;所述类别类型数据序列用于表征所述属性信息中非数字类型的属性信息; [0010] 根据所述连续类型数据序列,生成二进制形式的第一向量序列;
[0011] 根据所述类别类型数据序列,生成二进制形式的第二向量序列;
[0012] 将所述第一向量序列、第二向量序列,以及所述二进制数据序列进行合并后,生成 分类回归向量序列;其中,所述分类回归向量序列中包含多个向量;
[0013] 分别根据所述分类回归向量序列中的每一个向量,获取所述初始样本向量集合对 应的各个类别回归哈希桶,并分别计算所述各个类别回归哈希桶对应的类别统计值,以及 根据所述类别统计值获取所述初始样本向量集合的分类回归结果;其中,所述类别回归哈 希桶中包含相应类别的样本数目。
[0014] 结合第一方面,在第一种可能的实现方式中,从所述初始样本向量集合中按照预 设规则选择第一预设数目个样本向量,根据选择的样本向量生成样本向量集合;针对所述 样本向量集合采用高斯分布随机产生第一预设数目个连续类型向量组;其中,所述连续类 型向量组中包含一组第一连续类型向量及其对应的第二连续类型向量,每组所述第一连续 类型向量及其对应的第二连续类型向量组成一个超平面;根据上述所有超平面,分别获取 所述连续类型数据序列中每一个样本向量对应的二进制形式的第一向量;根据所述所有第 一向量,生成二进制形式的第一向量序列。
[0015] 结合第一方面第一种可能的实现方式,在第二种可能的实现方式中,在本地生成 一个预处理样本向量集合,从所述初始样本向量集合中随机选择任意一样本向量加入所述 预处理样本向量集合中;将所述预处理样本向量集合所包含的样本向量数目与第一预设 数目进行比较,当所述预处理样本向量集合所包含的样本向量数目小于所述第一预设数目 时,采用指定概率从所述初始样本向量集合中选择样本向量加入到所述预处理样本向量集 合中,直至所述预处理样本向量集合中的样本向量数目达到所述第一预设数目时,停止从 所述初始样本向量集合中选择样本向量加入所述预处理样本向量集合中,基于加入选定的 样本向量后的预处理样本向量集合,生成样本向量集合。
[0016] 结合第一方面,第一方面第一种可能的实现方式,或者第一方面第二种可能的实 现方式,在第三种可能的实现方式中,将所述类别类型数据序列中的所有类别类型数据分 别进行二进制编码后,生成二进制形式的第二向量序列。
[0017] 结合第一方面,第一方面第一种可能的实现方式,第一方面第二种可能的实现方 式,或者第一方面第三种可能的实现方式,在第四种可能的实现方式中,随机产生第二预设 数目个二进制掩码;其中,所述二进制掩码中1的个数为预先设置;分别将所述分类回归向 量序列中的每一个向量分别与所述第二预设数目个二进制掩码进行与运算,获取所述每一 个向量对应的第二预设数目个与运算后的结果;分别根据所述每一个向量对应的第二预设 数目个与运算后的结果,以及本地保存的与运算结果与类别回归哈希桶的映射关系表,获 取所述每一个向量对应的第二预设数目个类别回归哈希桶;根据所述每一个向量对应的类 别回归哈希桶,获取所述初始样本向量集合对应的各个类别回归哈希桶。
[0018] 结合第一方面,第一方面第一种可能的实现方式,第一方面第二种可能的实现方 式,第一方面第三种可能的实现方式,或者第一方面第四种可能的实现方式,在第五种可能 的实现方式中,分别获取各个类别回归哈希桶中包含的样本数目;根据所述样本数目,采用 取统计平均值的方法,分别获取各个类别回归哈希桶对应的类别统计值。
[0019] 第二方面,提供一种数据分类回归装置,包括:
[0020] 接收单元,用于接收初始样本向量集合,并将接收到的初始样本向量集合发送至 序列获取单兀;
[0021] 序列获取单元,用于接收所述接收单元发送的初始样本向量集合,并根据所述初 始样本向量集合中每一个样本向量包含的数据类型,对所述初始样本向量集合进行划分, 获取连续类型数据序列,类别类型数据序列,以及二进制数据序列,并将获取的连续类型数 据序列发送至第一生成单元,将获取的类别类型数据序列发送至第二生成单元,以及将二 进制数据序列发送至第三生成单元;其中,所述初始样本向量集合中包含至少一个样本向 量,所述样本向量包含样本对应的属性信息;所述连续类型数据序列用于表征所述属性信 息中数字类型的属性信息;所述类别类型数据序列用于表征所述属性信息中非数字类型的 属性信息;
[0022] 第一生成单元,用于接收所述序列获取单元发送的连续类型数据序列,并根据所 述连续类型数据序列,生成二进制形式的第一向量序列发送至第三生成单元;
[0023] 第二生成单元,用于接收所述序列获取单元发送的类别类型数据序列,并根据所 述类别类型数据序列,生成二进制形式的第二向量序列发送至第三生成单元;
[0024] 第三生成单元,用于接收所述第一生成单元发送的第一向量序列,所述第二生成 单元发送的第二向量序列,以及序列获取单元发送的二进制数据序列,并将所述第一向量 序列、第二向量序列,以及所述二进制数据序列进行合并后,生成分类回归向量序列发送至 分类回归结果获取单元;其中,所述分类回归向量序列中包含多个向量;
[0025] 分类回归结果获取单元,用于接收所述第三生成单元发送的分类回归向量序列, 并分别根据所述分类回归向量序列中的每一个向量,获取所述初始样本向量集合对应的各 个类别回归哈希桶,以及分别计算所述各个类别回归哈希桶对应的类别统计值,以及根据 所述类别统计值获取所述初始样本向量集合的分类回归结果;其中,所述类别回归哈希桶 中包含相应类别的样本数目。
[0026] 结合第二方面,在第一种可能的实现方式中,所述第一生成单元,具体用于:从所 述初始样本向量集合中按照预设规则选择第一预设数目个样本向量,根据选择的样本向量 生成样本向量集合;针对所述样本向量集合采用高斯分布随机产生第一预设数目个连续类 型向量组;其中,所述连续类型向量组中包含一组第一连续类型向量及其对应的第二连续 类型向量,每组所述第一连续类型向量及其对应的第二连续类型向量组成一个超平面;根 据上述所有超平面,分别获取所述连续类型数据序列中每一个样本向量对应的二进制形式 的第一向量;根据所述所有第一向量,生成二进制形式的第一向量序列。
[0027] 结合第二方面第一种可能的实现方式,在第二种可能的实现方式中,所述第一生 成单元,具体用于:在本地生成一个预处理样本向量集合,从所述初始样本向量集合中随机 选择任意一样本向量加入所述预处理样本向量集合中;将所述预处理样本向量集合所包含 的样本向量数目与第一预设数目进行比较,当所述预处理样本向量集合所包含的样本向量 数目小于所述第一预设数目时,采用指定概率从所述初始样本向量集合中选择样本向量加 入到所述预处理样本向量集合中,直至所述预处理样本向量集合中的样本向量数目达到所 述第一预设数目时,停止从所述初始样本向量集合中选择样本向量加入所述预处理样本向 量集合中,基于加入选定的样本向量后的预处理样本向量集合,生成样本向量集合。
[0028] 结合第二方面,第二方面第一种可能的实现方式,或者第二方面第二种可能的实 现方式,在第三种可能的实现方式中,所述第二生成单元,具体用于:将所述类别类型数据 序列中的所有类别类型数据分别进行二进制编码后,生成二进制形式的第二向量序列。
[0029] 结合第二方面,第二方面第一种可能的实现方式,第二方面第二种可能的实现方 式,或者第二方面第三种可能的实现方式,在第四种可能的实现方式中,所述分类回归结果 获取单元,具体用于:随机产生第二预设数目个二进制掩码;其中,所述二进制掩码中1的 个数为预先设置;分别将所述分类回归向量序列中的每一个向量分别与所述第二预设数目 个二进制掩码进行与运算,获取所述每一个向量对应的第二预设数目个与运算后的结果; 分别根据所述每一个向量对应的第二预设数目个与运算后的结果,以及本地保存的与运算 结果与类别回归哈希桶的映射关系表,获取所述每一个向量对应的第二预设数目个类别回 归哈希桶;根据所述每一个向量对应的类别回归哈希桶,获取所述初始样本向量集合对应 的各个类别回归哈希桶。
[0030] 结合第二方面,第二方面第一种可能的实现方式,第二方面第二种可能的实现方 式,第二方面第三种可能的实现方式,或者第二方面第四种可能的实现方式,在第五种可能 的实现方式中,所述分
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1