高维数据降维方法及装置的制造方法

文档序号:9687462阅读:446来源:国知局
高维数据降维方法及装置的制造方法
【技术领域】
[0001]本发明涉及数据处理技术领域,具体涉及高维数据降维方法及装置。
【背景技术】
[0002]高维数据降维技术主要是采用某种映射方法,将原高维空间中的数据点映射到低维空间中并保持数据的某种原始特性,通常作为机器学习的预处理步骤。高维数据降维技术已被广泛应用,如应用到图像识别、文本挖掘、基因数据分析、文本分类、图像检索、和消费者关系管理等应用中,随着数据的数量和维数都急剧增加,特别是大数据时代的到来,这种数据的海量性和高维灾难使得大量机器学习算法在可测量性和学习性能方面产生严重问题,使得高维数据降维处理成为重要的分析工具之一。
[0003]然而现有所有高维数据降维方法都是一种有损信息降维,不能反映高维数据的本征低维空间,即高维空间的某些特征在低维空间中不能得以保存。现在的高维数据包含了很多冗余特征或维属性,这些特征或属性的存在,不仅影响数据的高维特性,也为高维数据的有效分析,造成了诸多麻烦,如何有效的剔除这些冗余特征或属性使数据达到其本征低维空间是大数据分析的一项重要任务之一。

【发明内容】

[0004]本发明实施例提供高维数据降维方法及装置,使得得到的本证低维空间能很好的反映高维空间中高维数据的特征。
[0005]本发明实施例第一方面提供一种高维数据降维方法,包括:
[0006]确定高维数据对象的优先关系图,所述优先关系图用于表示所述高维数据对象中任意两个数据之间的优先关系;
[0007]根据所述优先关系图进行图染色操作,将得到的染色数作为所述高维数据对象的本征低维空间的本征维数;
[0008]根据所述优先关系图确定所述高维数据对象的多组优先序列组,所述优先序列组的数量与所述本征维数一致;所述优先序列组是由按照优先关系进行排序的所述高维数据对象中的数据组成;
[0009]分别对所述多组优先序列组中的数据进行编码;
[0010]将所述高维数据对象中一个数据在各组优先序列组中的编码组成所述本征低维空间的一个数据向量。
[0011]本发明实施例第一方面的第一种可能实现方式中,所述优先关系图中包括节点、及节点与节点之间的优先关系;
[0012]其中,如果一个节点优于另一节点,则所述一个节点为另一节点的父节点,所述另一节点为所述一个节点的子节点;所述节点用于表示所述高维数据对象中的数据;两个节点之间的优先关系用于表示所述两个节点所表示数据之间的优先关系。
[0013]结合本发明实施例第一方面的第一种可能实现方式,在本发明实施例第一方面的第二种可能实现方式中,所述确定高维数据对象的优先关系图,之后还包括:
[0014]根据预置的策略合并所述优先关系图得到优化后的优先关系图,其中,所述预置的策略包括:将父节点相同且子节点相同的多个节点合并为一个节点;和/或,如果第一节点为第二节点的父节点,且第二节点为第三节点的父节点,则合并为第一节点为第三节点的父节点;
[0015]对应地,所述根据所述优先关系图进行图染色操作包括:根据所述优化后的优先关系图进行图染色操作。
[0016]结合本发明实施例第一方面,或第一方面的第一种到第二种可能实现方式中任一种实现方式,在本发明实施例第一方面的第三种可能实现方式中,所述确定高维数据对象的优先关系图,具体包括:
[0017]接收用户输入的偏好关系集合,所述偏好关系集合中包括N维数据关系信息,其中任意一维数据关系信息中包括所述高维数据对象中任意两个数据之间的优先关系信息;
[0018]如果所述高维数据对象中任意两个数据中的第一数据和第二数据之间的优先关系满足第一预置条件,则确定所述第一数据和第二数据之间的优先关系为第一类优先关系;所述第一类优先关系包括一个数据优于另一数据;
[0019]根据所述确定的第一类优先关系确定所述优先关系图;
[0020]其中,所述第一预置条件包括:在M维所述数据关系信息中,第一数据和第二数据之间的优先关系在每一维所述数据关系信息中的优先关系都相同,且都为第一类优先关系,所述M大于预置的值,且小于或等于所述N。
[0021]结合本发明实施例第一方面第一种或第二种可能实现方式,在本发明实施例第一方面的第四种可能实现方式中,所述确定高维数据对象的优先关系图具体包括:
[0022]根据所述高维数据对象中的第一部分数据确定所述第一部分数据之间的初始优先关系图;
[0023]随机选取所述第一部分数据中的任一数据为参考数据;
[0024]遍历所述高维数据对象中除所述第一部分数据之外的第二部分数据,根据所述参考数据与所述第二部分数据之间的优先关系,确定所述第二部分数据添加到初始优先关系图中的位置;
[0025]根据所述确定的位置将所述第二部分数据添加到所述初始优先关系图。
[0026]结合本发明实施例第一方面的第四种可能实现方式,在本发明实施例第一方面的第五种可能实现方式中,所述根据所述参考数据与所述第二部分数据之间的优先关系,确定所述第二部分数据添加到初始优先关系图中的位置,具体包括:
[0027]如果所述第二部分数据中第三数据与所述参考数据之间的优先关系满足第二预置条件,则如果在所述初始优先关系图中,作为所述参考数据的父节点数据的第四数据优于所述第三数据,则确定所述第三数据为所述第四数据的子节点数据,且确定所述第四数据的所有子节点数据中劣于所述第三数据的子节点数据为所述第三数据的子节点数据;如果所述第三数据优于第四数据,且所述第四数据不存在父节点数据,则确定所述第三数据为所述第四数据的父节点数据;
[0028]如果所述第三数据与所述参考数据之间的优先关系满足第三预置条件,则如果在所述初始优先关系图中,作为所述参考数据的子节点数据的第五数据优于所述第三数据,且所述第五数据不存在子节点数据,则确定所述第三数据为所述第五数据的子节点数据;如果所述第三数据优于第五数据,则确定所述第三数据为所述第五数据的父节点数据,且确定所述第五数据的所有父节点数据中优于所述第三数据的父节点数据为所述第三数据的父节点数据;
[0029]其中,所述第二预置条件包括所述第三数据优于所述参考数据,所述第三预置条件包括所述参考数据优于所述第三数据。
[0030]结合本发明实施例第一方面,或第一方面的第一种到第五种可能实现方式中任一种实现方式,在本发明实施例第一方面的第六种可能实现方式中,所述根据所述优先关系图进行图染色操作,具体包括:
[0031]找出所述优先关系图或所述优化后的优先关系图中优先关系为第二类优先关系的多组数据对,所述第二类优先关系为第一数据不优于第二数据,且所述第二数据也不优于第一数据;
[0032]在所述多组数据对中的一组数据对中的两个数据之间建立所述第一类优先关系,使得所述多组数据对中的另一组数据对中的两个数据之间为第一类优先关系;
[0033]将所述建立的所述第一类优先关系的数据对,及所述多组数据对中未建立所述第一类优先关系的数据对作为节点,进行图染色操作;
[0034]对应地,所述根据所述优先关系图确定所述高维数据对象中数据的多组优先序列组,具体包括:
[0035]根据所述优先关系图中数据之间的第一类优先关系和所述建立的第一类优先关系,确定所述多组优先序列组。
[0036]结合本发明实施例第一方面,或第一方面的第一种到第六种可能实现方式中任一种实现方式,在本发明实施例第一方面的第七种可能实现方式中,所述分别对所述多组优先序列组中的数据编码,具体包括:
[0037]对于所述多组优先序列组中的第一优先序列组中相邻的两个数据,在所述多组优先序列组中除所述第一优先序列组之外的其它优先序列组中,如果所述两个数据不相邻,且所述两个数据的优先关系与其在所述第一优先序列组中的相对排序顺序相同,则所述两个数据在所述第一优先序列组中的编码相同;
[0038]如果所述两个数据不相邻,且所述两个数据的优先关系与其在所述第一优先序列组中的相对排序顺序不同,则所述两个数据在所述第一优先序列组中的编码不同。
[0039]本发明实施例第二方面提供一种高维数据降维装置,包括:
[0040]优先图确定单元,用于确定高维数据对象的优先关系图,所述优先关系图用于表示所述高维数据对象中任意两个数据之间的优先关系;
[0041]染色单元,用于根据所述优先图确定单元确定的优先关系图进行图染色操作,将得到的染色数作为所述高维数据对象的本征低维空间的本征维数;
[0042]序列组确定单元,用于根据所述优先图确定单元确定的优先关系图确定所述高维数据对象的多组优先序列组,所述优先序列组的数量与所述本征维数一致,所述优先序列组是由按照优先关系进行排序的所述高维数据对象中的数据组成;
[0043]编码单元,用于分别对所述序列组确定单元确定的多组优先序列组中的数据进行编码;
[0044]低维形成单元,用于根据所述编码单元的编码,将所述高维数据对象中一个数据在各组优先序列组中的编码组成所述本征低维空间的一个数据向量。
[0045]本发明实施例第二方面的第一种可能实现方式中,所述优先关系图中包括节点、及节点与节点之间的优先关系;
[0046]其中,如果一个节点优于另一节点,则所述一个节点为另一节点的父节点,所述另一节点为所述一个节点的子节点;所述节点用于表示所述高维数据对象中的数据;两个节点之间的优先关系用于表示所述两个节点所表示数据之间的优先关系。
[0047]结合本发明实施例第二方面的第一种可能实现方式,在本发明实施例第二方面的第二种可能实现方式中,所述装置还包括:
[0048]优化单元,用于根据预置的策略合并所述优先图确定单元确定的优先关系图得到优化后的优先关系图;
[0049]其中,所述预置的策略包括:将父节点相同且子节点相同的多个节点合并为一个节点;和/或,如果第一节点为第二节点的父节点,且第二节点为第三节点的父节点,则合并为第一节点为第三节点的父节点;
[0050]所述染色单元,具体用于根据所述优化单元优化后的优先关系图进行图染色操作。
[0051]结合本发明实施例第二方面,或第二方面的第一种到第二种可能实现方式中任一种实现方式,在本发明实施例第二方面的第三种可能实现方式中,所述优先图确定单元,具体包括:
[0052]接收单元,用于接收用户输入的偏好关系集合,所述偏好关系集合中包括N维数据关系信息,其中任意一维数据关系信息中包括所述高维数据对象中任意两个数据之间的优先关系信息;
[0053]关系确定单元,用于如果所述高维数据对象中任意两个数据中的第一数据和第二数据之间的优先关系满足第一预置条件,则确定所述第一数据和第二数据之间的优先关系为第一类优先关系,根据所述确定的第一类优先关系确定所述高维数据对象的优先关系图;所述第一类优先关系包括一个数据优于另一数据;
[0054]其中,所述第一预置条件包括:在M维所述数据关系信息中,第一数据和第二数据之间的优先关系在每一维所述数据
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1