一种基于预训练模型的话题生成方法与流程

文档序号：34684869发布日期：2023-07-05 22:14阅读：23来源：国知局

本发明涉及自然语言处理领域，特别是涉及一种基于预训练模型的话题生成方法。

背景技术：

1、互联网的飞速发展伴随着每天产生大量的文本数据，与此同时，互联网上的海量内容中存在着大量的重复、无效内容和垃圾内容。如何从大量无序、杂乱、无结构的文本中快速、高效地获取有用信息已成为一个亟待解决的问题。话题能够概括相似文本的主要信息。在当前的话题生成研究方法中，大部分研究方法使用聚类，抽取话题中文本的关键词等作为话题的标签来表示话题，但是关键词没有顺序，没有完整的逻辑语义关系，不能充分表示话题的主要信息。

2、专利文献1(cn106503064a，一种自适应微博话题摘要的生成方法)公开了一种自适应微博话题摘要的生成方法，对微博中某一话题下的相关信息进行话题生成，但是它不能处理微博中有多个话题的情况，而且它对子话题只是选取一篇代表性博文代表该子话题，抽取摘要作为当前子话题的描述，该摘要并不能代表子话题中全部的博文，由于摘要文本过长，并不利于用户快速获取话题信息。

3、专利文献2(cn106446179a，热点话题的生成方法及装置)公开了一种热点话题的生成方法，对新闻进行聚类，根据聚类的相似新闻抽取权重较高的词作为话题的主题，然而，将词语作为主题并不能描述话题的主要信息，也不能概括话题中的全部新闻。

4、专利文献3(cn106528755a，热点话题的生成方法及装置,)公开了一种热点话题生成方法，该方法通过获取新闻中的主题词，根据主题词之间的词共现度生成主题词共现图，将共现图分割成多个子图，每个子图代表一个话题，然而，也没有生成特定的话题名代表这个话题，而且用主题词代表话题，也不能准确表示话题的信息。

5、由此可知，已有的话题生成方法主要利用文本聚类得到多个话题，然后对同一话题下的新闻抽取关键词或摘要或抽取标题的主谓宾作为话题标签表示整个话题。然而，关键词没有顺序，也没有语义信息，不能表示整个话题和话题中的全部文档。摘要的文本过长，不利于快速获得话题信息，也不能概括话题中全部新闻的内容。抽取主谓宾主要通过抽取标题中的主语、谓语、宾语等，然后进行拼接作为话题的描述，但是这样得到的话题描述不通顺，可读性较差。另外，已有的话题生成方法并没有对聚类结果进行清洗和优化，导致话题的聚类结果并不理想。

技术实现思路

1、针对上述技术问题，本发明采用的技术方案为：

2、本发明实施例提供了一种基于预训练模型的话题生成方法，所述方法包括如下步骤：

3、s1，获取待聚类文本中的每个文本的特征向量和关键词，并基于每个文本的特征向量，利用设定聚类算法对待聚类文本进行聚类，得到多个话题；每个文本包括h个关键词；

4、s2，获取当前话题中的任一话题中的任一文本以及任一话题的关键词和特征向量；

5、s3，基于文本和话题之间的关键词相同的数量和文本和话题的特征向量之间的相似度对当前话题进行第p次清洗处理，得到处理后的n(p)个话题；其中，n(p)个话题中的任一话题a满足如下条件：gp(a，q)≥d1p并且sfpaq≥d2p；其中，gp(a，q)为话题a和话题a中的第q个文本taq之间的关键词相同的数量，sfpaq为话题a的特征向量和taq的特征向量之间的相似度；d1p为第p次清洗处理对应的第一设定阈值，d2p为第p次清洗处理对应的第二设定阈值；a的取值为1到n(p)，p的取值为1到c0，c0为预设次数；q的取值为1到f(a)，f(a)为话题a中的文本数量；

6、s4，设置p＝p+1，如果p≤c0，执行s2；否则，得到清洗处理后的h个话题，并执行s5；

7、s5，基于h个话题获取按照文本数量递减的方式进行排序得到的话题列表s，并获取s中的任一话题u对应的关键词和特征向量，u的取值为1到h；

8、s6，基于话题之间的关键词相同的数量以及话题的特征向量之间的相似度对s进行合并处理，得到包括a个话题的目标话题列表；

9、s7，对于a个话题中的任一话题e，基于预训练生成模型生成对应的话题描述；e的取值为1到a；

10、s8，输出a个话题的话题描述和对应的文本，其中，每个话题对应的文本为按照文本发布时间进行排序后的文本。

11、本发明至少具有以下有益效果：

12、本发明实施例提供的基于预训练模型的话题生成方法，首先对文本进行特征提取、文本聚类，得到多个聚类结果，每个聚类结果相当于一个话题，然后基于话题与话题中文本的关键词相同个数和文本相似度大小，清洗和合并话题，然后基于预训练生成模型生成话题描述，最后输出话题结果。本发明由于采用预训练生成模型生成话题描述，使得得到的话题描述通顺，可读性强，并且由于对话题进行了清洗和合并，使得聚类结果更加准确。

技术特征：

1.一种基于预训练模型的话题生成方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，s7具体包括：

3.根据权利要求1所述的方法，其特征在于，s7具体包括：

4.根据权利要求1所述的方法，其特征在于，s3具体包括：

5.根据权利要求1所述的方法，其特征在于，s6具体包括：

6.根据权利要求4所述的方法，其特征在于，s32被替换为：

7.根据权利要求4所述的方法，其特征在于，任一话题的特征向量为该话题中所有文本的特征向量的平均值。

8.根据权利要求1所述的方法，其特征在于，话题i的关键词通过如下步骤获取：

9.根据权利要求1所述的方法，其特征在于，通过textrank算法获取每个文本的关键词。

10.根据权利要求1所述的方法，其特征在于，通过roformer-sim模型获取每个文本的特征向量。

技术总结
本发明提供了一种基于预训练模型的话题生成方法，包括：获取待聚类文本中的每个文本的特征向量和关键词，每个文本包括h个关键词；利用设定聚类算法对待聚类文本进行聚类，得到多个话题；对多个话题进行清洗和合并处理，得到处理后的n个话题；对于n个话题中的任一话题，基于预训练生成模型生成对应的话题描述；输出n个话题的话题描述和对应的文本。本发明由于采用预训练生成模型生成话题描述，使得得到的话题描述通顺，可读性强，并且由于对话题进行了清洗和合并，使得聚类结果更加准确。

技术研发人员：王磊,郭鸿飞,王俊艳,徐才,王柯淇,蔡昌艳,王宇琪,曹家,罗引
受保护的技术使用者：北京中科闻歌科技股份有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王磊郭鸿飞王俊艳徐才王柯淇蔡昌艳王宇琪曹家罗引
技术所有人：新华融合媒体科技发展（北京）有限公司
我是此专利的发明人

上一篇：一种域控制器及车辆的制作方法
上一篇：一种苯乙烯抽提蒸馏用输送泵的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。