基于层次化耦合关系的离散数据表征学习方法及系统

文档序号：26007276发布日期：2021-07-23 21:26阅读：来源：国知局

技术特征：

1.一种基于层次化耦合关系的离散数据表征学习方法，其特征在于，包括：

1)对输入的离散数据集合x，分别通过预设的频率影响力耦合关系函数计算基于出现频率的特征值影响力矩阵mo，通过预设的共现影响力耦合关系函数计算基于共现概率的特征值影响力矩阵mc；

2)针对基于出现频率的特征值影响力矩阵mo、基于共现概率的特征值影响力矩阵mc进行聚类特征类学习得到特征值类的类别隶属关系矩阵c；

3)将特征值类的类别隶属关系矩阵c输入预先完成训练的自动编码器进行降维，得到降维后的大小为|v|×r的特征值表征矩阵v，其中|v|表示特征值表征矩阵v的大小，r表示特征值表征矩阵v的行数，×表示矩阵乘法；

4)将特征值表征矩阵v中取出每个特征值的连续表征拼接得到离散数据集合x对应的大小为n×(r*d)的连续化数据表征r，其中n表示离散数据集合x包含的数据对象数量，*表示乘法，d表示离散数据集合x包含的离散特征数量。

2.根据权利要求1所述的基于层次化耦合关系的离散数据表征学习方法，其特征在于，步骤1)中频率影响力耦合关系函数的函数表达式为：

上式中，表示特征值vj来自于特征值vi的频率影响力，ω(fi,fj)表示特征值vj和特征值vi之间的互信息，fi表示特征值vi对应的特征，fj表示特征值vj对应的特征，p(vi)表示特征值vi的出现概率，p(vj)表示特征值vj的出现概率。

3.根据权利要求2所述的基于层次化耦合关系的离散数据表征学习方法，其特征在于，步骤1)中计算基于出现频率的特征值影响力矩阵mo的函数表达式为：

上式中，表示特征值v1来自于特征值v1的频率影响力，表示特征值vl来自于特征值v1的频率影响力，表示特征值v1来自于特征值vl的频率影响力，分别表示表示特征值vl来自于特征值vl的频率影响力，l为离散数据集合x中包含的特征值数量。

4.根据权利要求1所述的基于层次化耦合关系的离散数据表征学习方法，其特征在于，步骤1)中共现影响力耦合关系函数的函数表达式为：

上式中，表示特征值vj来自于特征值vi的共现影响力，p(vi,vj)表示特征值vj和特征值vi的共现概率，p(vi)表示特征值vi的出现概率。

5.根据权利要求4所述的基于层次化耦合关系的离散数据表征学习方法，其特征在于，步骤1)中计算基于共现概率的特征值影响力矩阵mc的函数表达式为：

上式中，表示特征值v1来自于特征值v1的共现影响力，表示特征值vl来自于特征值v1的共现影响力，表示特征值v1来自于特征值vl的共现影响力，分别表示表示特征值vl来自于特征值vl的共现影响力，l为离散数据集合x中包含的特征值数量。

6.根据权利要求1所述的基于层次化耦合关系的离散数据表征学习方法，其特征在于，步骤2)包括：

2.1)初始化特征值类的类别隶属关系矩阵c为空；

2.2)判断基于出现频率的特征值影响力矩阵mo、基于共现概率的特征值影响力矩阵mc是否都已经遍历完毕，若都已经遍历完毕，则将最终得到的特征值类的类别隶属关系矩阵c输出，跳转执行步骤3)；否则，跳转执行下一步；

2.3)初始化聚类的总类别数量k；

2.4)判断集合大小|cs|与总类别数量k的比值是否超过预设比例参数α是否成立，若成立则跳转执行下一步，否则跳转执行步骤2.2)；

2.5)初始化集合cs为空，集合cs用于记录只包含一个特征值的特征值类；

2.6)将特征值类的类别隶属关系矩阵c和上一次的聚类结果拼接后作为新的特征值类的类别隶属关系矩阵c；

2.7)将总类别数量k加1；

2.8)将只包含一个特征值的特征值类从特征值类的类别隶属关系矩阵c中删除，然后迁移到集合cs中；

2.9)计算集合cs的集合大小|cs|，跳转执行步骤2.4)。

7.根据权利要求1所述的基于层次化耦合关系的离散数据表征学习方法，其特征在于，步骤3)中的自动编码器包括两层结构的编码器和解码器，编码器和解码器两者结构对称且均为两层结构，编码器的第一层的函数表达式为σ(w1^tc)，编码器的第二层的函数表达式为v＝w2^t(σ(w1^tc))，其中σ为激活函数，w1为第一层的权重矩阵，c表示特征值类的类别隶属关系矩阵，v表示降维后的大小为|v|×r的特征值表征矩阵v，w2为第二层的权重矩阵，第一层的激活函数为sigmoid函数，第二层的激活函数为线性函数，自动编码器的训练过程是不断的减小损失函数loss[x,g(f(x))]，x表示编码器的输入，g(f(x))表示解码器的输出结果。

8.根据权利要求1所述的基于层次化耦合关系的离散数据表征学习方法，其特征在于，步骤4)中将特征值表征矩阵v中取出每个特征值的连续表征拼接得到离散数据集合x对应的大小为n×(r*d)的连续化数据表征r时，针对连续化数据表征r中的每一行r的生成方式如下述函数表达式所示：

r＝σ(v1，v2，…,vd)，

上式中，σ为拼接函数，v1～vd为特征值表征矩阵v中对应行的元素。

9.一种基于层次化耦合关系的离散数据表征学习系统，包括相互连接的微处理器和存储器，其特征在于，所述微处理器被编程或配置以执行权利要求1～8中任意一项所述基于层次化耦合关系的离散数据表征学习方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有被编程或配置以执行权利要求1～8中任意一项所述基于层次化耦合关系的离散数据表征学习方法的计算机程序。

技术总结
本发明公开了一种基于层次化耦合关系的离散数据表征学习方法及系统，本发明包括对输入的离散数据集合X，计算基于出现/共现频率的特征值影响力矩阵Mo和Mc以完成特征值耦合关系学习，进行聚类特征类学习得到特征值类的类别隶属关系矩阵C以完成特征值类学习，输入预先完成训练的自动编码器进行降维得到特征值表征矩阵V以完成特征值类耦合关系学习，将特征值表征矩阵V中取出每个特征值的连续表征拼接得到连续化数据表征R以完成离散数据表征学习。本发明能够有效提高提高离散型数据的使用效率和离散数据表征学习的信息量，能够在不利用数据标注的情况下，捕获到离散数据中的层次化耦合关系，从而为后续应用提供一个离散数据表征学习接口。

技术研发人员：蹇松雷;黄辰林;谭郁松;李宝;董攀;丁滟;任怡;王晓川;张建锋;谭霜
受保护的技术使用者：中国人民解放军国防科技大学
技术研发日：2021.04.30
技术公布日：2021.07.23

完整全部详细技术资料下载

当前第2页1 2