1.一种基于层次化耦合关系的离散数据表征学习方法,其特征在于,包括:
1)对输入的离散数据集合x,分别通过预设的频率影响力耦合关系函数
2)针对基于出现频率的特征值影响力矩阵mo、基于共现概率的特征值影响力矩阵mc进行聚类特征类学习得到特征值类的类别隶属关系矩阵c;
3)将特征值类的类别隶属关系矩阵c输入预先完成训练的自动编码器进行降维,得到降维后的大小为|v|×r的特征值表征矩阵v,其中|v|表示特征值表征矩阵v的大小,r表示特征值表征矩阵v的行数,×表示矩阵乘法;
4)将特征值表征矩阵v中取出每个特征值的连续表征拼接得到离散数据集合x对应的大小为n×(r*d)的连续化数据表征r,其中n表示离散数据集合x包含的数据对象数量,*表示乘法,d表示离散数据集合x包含的离散特征数量。
2.根据权利要求1所述的基于层次化耦合关系的离散数据表征学习方法,其特征在于,步骤1)中频率影响力耦合关系函数
上式中,
3.根据权利要求2所述的基于层次化耦合关系的离散数据表征学习方法,其特征在于,步骤1)中计算基于出现频率的特征值影响力矩阵mo的函数表达式为:
上式中,
4.根据权利要求1所述的基于层次化耦合关系的离散数据表征学习方法,其特征在于,步骤1)中共现影响力耦合关系函数
上式中,
5.根据权利要求4所述的基于层次化耦合关系的离散数据表征学习方法,其特征在于,步骤1)中计算基于共现概率的特征值影响力矩阵mc的函数表达式为:
上式中,
6.根据权利要求1所述的基于层次化耦合关系的离散数据表征学习方法,其特征在于,步骤2)包括:
2.1)初始化特征值类的类别隶属关系矩阵c为空;
2.2)判断基于出现频率的特征值影响力矩阵mo、基于共现概率的特征值影响力矩阵mc是否都已经遍历完毕,若都已经遍历完毕,则将最终得到的特征值类的类别隶属关系矩阵c输出,跳转执行步骤3);否则,跳转执行下一步;
2.3)初始化聚类的总类别数量k;
2.4)判断集合大小|cs|与总类别数量k的比值是否超过预设比例参数α是否成立,若成立则跳转执行下一步,否则跳转执行步骤2.2);
2.5)初始化集合cs为空,集合cs用于记录只包含一个特征值的特征值类;
2.6)将特征值类的类别隶属关系矩阵c和上一次的聚类结果拼接后作为新的特征值类的类别隶属关系矩阵c;
2.7)将总类别数量k加1;
2.8)将只包含一个特征值的特征值类从特征值类的类别隶属关系矩阵c中删除,然后迁移到集合cs中;
2.9)计算集合cs的集合大小|cs|,跳转执行步骤2.4)。
7.根据权利要求1所述的基于层次化耦合关系的离散数据表征学习方法,其特征在于,步骤3)中的自动编码器包括两层结构的编码器和解码器,编码器和解码器两者结构对称且均为两层结构,编码器的第一层的函数表达式为σ(w1tc),编码器的第二层的函数表达式为v=w2t(σ(w1tc)),其中σ为激活函数,w1为第一层的权重矩阵,c表示特征值类的类别隶属关系矩阵,v表示降维后的大小为|v|×r的特征值表征矩阵v,w2为第二层的权重矩阵,第一层的激活函数为sigmoid函数,第二层的激活函数为线性函数,自动编码器的训练过程是不断的减小损失函数loss[x,g(f(x))],x表示编码器的输入,g(f(x))表示解码器的输出结果。
8.根据权利要求1所述的基于层次化耦合关系的离散数据表征学习方法,其特征在于,步骤4)中将特征值表征矩阵v中取出每个特征值的连续表征拼接得到离散数据集合x对应的大小为n×(r*d)的连续化数据表征r时,针对连续化数据表征r中的每一行r的生成方式如下述函数表达式所示:
r=σ(v1,v2,…,vd),
上式中,σ为拼接函数,v1~vd为特征值表征矩阵v中对应行的元素。
9.一种基于层次化耦合关系的离散数据表征学习系统,包括相互连接的微处理器和存储器,其特征在于,所述微处理器被编程或配置以执行权利要求1~8中任意一项所述基于层次化耦合关系的离散数据表征学习方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有被编程或配置以执行权利要求1~8中任意一项所述基于层次化耦合关系的离散数据表征学习方法的计算机程序。