一种融合多层语义表示的深度自监督文本聚类方法

文档序号:34893509发布日期:2023-07-25 19:41阅读:22来源:国知局
一种融合多层语义表示的深度自监督文本聚类方法

本发明涉及信息抽取和文本处理,具体为一种融合多层语义表示的深度自监督文本聚类方法。


背景技术:

1、随着互联网的高速发展,海量的文本数据为文本分析处理工作提出了重大挑战.因而文本聚类作为文本分析的重要工具受到了越来越多的关注.近年来,由于深度神经网络在特征学习上的优异表现,基于深度神经网络的深度文本聚类方法已经成为目前主流的文本聚类方法之一。

2、目前大多的深度文本聚类方法其主要思想均为通过深度神经网络将高维数据转变为低维数据,再利用最小化重构原始文档与重构文档的相似度来学习文本内部的潜在语义表示,然后对低维数据进行类簇划分.虽然目前深度文本聚类已经取得了很好的聚类效果,然而,现有的深度文本聚类方法存在融合多层语义表示时没有考虑到解码器在文本语义补足上的作用的问题,导致文本语义表示学习不足,从而影响了聚类效果.深度文本聚类中的解码器部分作为文本类簇生成的主要模块,仅对单一文本潜在语义表示进行重构,忽略多层文本语义表示所具有的不同信息,可能会导致在文本数据重构时出现语义信息丢失等问题,进一步影响聚类性能。因此,为了在文本数据重构时考虑到数据不同层次的语义表示,在深度文本聚类中的编码器对文本语义表示进行融合并用其对解码层语义表示进行逐层补充加强是必要的。


技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本发明提供了一种融合多层语义表示的深度自监督文本聚类方法,以解决背景技术中所提到的问题,克服现有技术中存在的不足。

3、(二)技术方案

4、为实现上述目的,本发明提供如下技术方案:一种融合多层语义表示的深度自监督文本聚类方法,包括以下步骤:

5、1)利用自编码器从原始文本数据中学习到多层的隐含语义表示;

6、2)通过多层语义融合策略将文本的多层语义表示进行融合,获得语义增强的融合多层语义的文本表示;

7、3)利用自编码器的解码器分别对融合多层语义的文本表示和步骤1)中学习到的最低维表示进行解码重构,并将其逐层融合得到最终的重构文本数据;

8、4)利用原始文本数据与重构文本数据计算重构损失,计算融合多层语义的文本表示的分布与原始文本数据分布的保持分布一致性损失,不断反调优化编码器参数,得到最终的文本语义表示;

9、5)对上述步骤得到的文本语义表示进行聚类,得到最终的文本聚类结果。

10、优选的,所述步骤1)中的原始文本采用向量化表示。

11、优选的,所述步骤2)中的多层文本语义表示经过余弦函数转换。

12、优选的,所述步骤3)中通过自编码器的解码器进行重构。

13、优选的,所述步骤4中采用kl散度公式进行计算损失。

14、优选的,所述步骤5中采用k-means算法进行聚类计算。

15、(三)有益效果

16、与现有技术相比,本发明提供了一种融合多层语义表示的深度自监督文本聚类方法,具备以下有益效果:

17、1、该融合多层语义表示的深度自监督文本聚类方法,能够在文本数据重构时考虑到数据不同层次的语义表示,在深度文本聚类中的编码器对文本语义表示进行融合并用其对解码层语义表示进行逐层补充加强,得到更丰富的文本语义表示,从而得到更好的聚类结果,适应不同的下游任务。

18、2、该融合多层语义表示的深度自监督文本聚类方法,通过衡量原始文本与聚类中心的分布以及潜在空间文本表示与聚类中心的分布的一致性,保证原始数据空间的节点分配关系与潜在空间的节点分配关系是一致的,以学习更适合聚类的文本表示,可以解决监督信息监督力度弱的问题,为自监督文本聚类的后续研究提供了新的思路。

19、3、该融合多层语义表示的深度自监督文本聚类方法,引入融合多层语义表示的深度自监督文本聚类方法能得到更优的聚类结果,适应不同应用场景,提供更有利的支撑,具有较大的理论意义和实用价值。



技术特征:

1.一种融合多层语义表示的深度自监督文本聚类方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种融合多层语义表示的深度自监督文本聚类方法,其特征在于,所述步骤1)中的原始文本采用向量化表示。

3.根据权利要求1所述的一种融合多层语义表示的深度自监督文本聚类方法,其特征在于,所述步骤2)中的多层文本语义表示经过余弦函数转换。

4.根据权利要求1所述的一种融合多层语义表示的深度自监督文本聚类方法,其特征在于,所述步骤3)中通过自编码器的解码器进行重构。

5.根据权利要求1所述的一种融合多层语义表示的深度自监督文本聚类方法,其特征在于,所述步骤4中采用kl散度公式进行计算损失。

6.根据权利要求1所述的一种融合多层语义表示的深度自监督文本聚类方法,其特征在于,所述步骤5中采用k-means算法进行聚类计算。


技术总结
本发明涉及信息抽取和文本处理技术领域,且公开了一种融合多层语义表示的深度自监督文本聚类方法,利用自编码器从原始文本数据中学习到多层的隐含语义表示,通过多层语义融合策略将文本的多层语义表示进行融合,获得语义增强的融合多层语义的文本表示,利用自编码器的解码器分别对融合多层语义的文本表示和步骤1)中学习到的最低维表示进行解码重构,并将其逐层融合得到最终的重构文本数据。本发明的优点在于:能够在文本数据重构时考虑到数据不同层次的语义表示,在深度文本聚类中的编码器对文本语义表示进行融合并用其对解码层语义表示进行逐层补充加强,得到更丰富的文本语义表示,从而得到更好的聚类结果,适应不同的下游任务。

技术研发人员:任丽娜,姚茂宣,冯丽霞
受保护的技术使用者:贵州轻工职业技术学院
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1