文本处理方法、装置、设备及存储介质与流程

文档序号：36259287发布日期：2023-12-05 13:14阅读：46来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本申请涉及人工智能，更具体地说，涉及一种文本处理方法、装置、设备及存储介质。

背景技术：

1、目前，为方便用户从多个文本中快速找到所需要的文本，会提取各个文本的主题信息，然后将各个文本的主题信息进行聚类，将聚类后的主题信息展示给用户，方便用户根据聚类后的主题信息了解各文本的内容。

2、然而，目前的聚类方法在文本数量比较大的情况下能够取得较好的聚类效果，在文本数量比较小时的聚类效果则较差。

技术实现思路

1、有鉴于此，本申请提供了一种文本处理方法、装置、设备及存储介质，以提高文本数量较小情况下的聚类效果。

2、为了实现上述目的，现提出的方案如下：

3、一种文本处理方法，包括：

4、获得n个文本中各个文本的主题信息；

5、对应获得的所述n个主题信息的n个可能的分类数中的任一大于1且小于n的分类数k，对所述n个主题信息进行1次或多次聚类处理，得到所述分类数k对应的1个或多个聚类结果；其中，所述多次聚类处理采用了至少两种相似度度量方法和/或采用了从所述n个主题信息中选择k个主题信息作为k个初始聚类中心的多个可能结果，不同次聚类使用不同的相似度度量方法衡量主题信息间的相似度和/或不同次聚类作为k个初始聚类中心的主题信息不同；

6、基于得到的n个分类数对应的所有聚类结果确定所述n个主题信息的目标聚类结果。

7、上述方法，可选的，对所述n个主题信息进行多次聚类处理，包括：

8、获得从所述n个主题信息中取出k个不同的主题信息作为一个组合的多个组合；

9、对于任一组合中的k个主题信息，以该任一组合中的k个主题信息作为k个初始聚类中心，对所述n个主题信息进行一次聚类处理，得到该任一组合对应的一个聚类结果；或者，

10、对于任一组合中的k个主题信息，以该任一组合中的k个主题信息作为k个初始聚类中心，对所述n个主题信息进行m次聚类处理，得到该任一组合对应的m个聚类结果；其中，m为大于1的整数，所述m次聚类处理中，不同次聚类的初始聚类中心相同，不同次聚类使用不同的相似度度量方法衡量主题信息间的相似度。

11、上述方法，可选的，所述对所述n个主题信息进行1次或多次聚类处理，包括：

12、在所述n个主题信息中取出k个不同的主题信息作为目标初始聚类中心；

13、基于所述目标初始聚类中心对所述n个主题信息进行一次聚类处理，得到一个聚类结果；或者，

14、基于所述目标初始聚类中心对所述n个主题信息进行m次聚类处理，得到m个聚类结果；其中，m为大于1的整数，所述m次聚类处理中，不同次聚类的初始聚类中心为所述目标初始聚类中心，不同次聚类使用不同的相似度度量方法衡量主题信息间的相似度。

15、上述方法，可选的，所述基于得到的n个分类数对应的所有聚类结果确定所述n个主题信息的目标聚类结果，包括：

16、获得所述所有聚类结果中各个聚类结果的评估指标；

17、在对所述n个主题信息进行1次或多次聚类处理，且所述多次聚类处理中的不同次聚类处理使用同一相似度度量方法衡量主题信息间的相似度的情况下，选择评估指标最优的聚类结果作为所述目标聚类结果。

18、上述方法，可选的，每次聚类处理利用第一聚类方法对所述n个主题信息进行聚类；

19、所述基于得到的n个分类数对应的所有聚类结果确定所述n个主题信息的目标聚类结果，包括：

20、获得所述所有聚类结果中各个聚类结果的评估指标；

21、在对所述n个主题信息进行多次聚类处理，且所述多次聚类处理采用了m种相似度度量方法的情况下，在对应同一相似度度量方法的各聚类结果中选择评估指标最优的聚类结果；

22、基于各个相似度度量方法对应的评估指标最优的聚类结果，对所述n个主题信息中的任意两个主题信息属于同一类进行投票，将所述任意两个主题信息被投票的比例确定为所述任意两个主题信息的投票相似度；

23、基于主题信息间的投票相似度，利用第二聚类方法对所述n个主题信息进行聚类，得到所述目标聚类结果。

24、上述方法，可选的，所述第一聚类方法包括：k均值聚类法；所述第二聚类方法包括：层次聚类法或最大最小距离法。

25、上述方法，可选的，还包括：

26、将所述n个主题信息按照所述目标聚类结果输出；

27、获得针对任一类主题信息的溯源指令，获取所述任一类主题信息关联的各个文本；

28、输出所述任一类主题信息关联的文本。

29、一种文本处理装置，所述装置包括：

30、获取模块，用于获得n个文本中各个文本的主题信息；

31、聚类处理模块，用于对应获得的所述n个主题信息的n个可能的分类数中的任一大于1且小于n的分类数k，对所述n个主题信息进行1次或多次聚类处理，得到所述分类数k对应的1个或多个聚类结果；其中，所述多次聚类处理采用了至少两种相似度度量方法和/或采用了从所述n个主题信息中选择k个主题信息作为k个初始聚类中心的多个可能结果，不同次聚类使用不同的相似度度量方法衡量主题信息间的相似度和/或不同次聚类作为k个初始聚类中心的主题信息不同；

32、确定模块，用于基于得到的n个分类数对应的所有聚类结果确定所述n个主题信息的目标聚类结果。

33、一种文本处理设备，包括存储器和处理器；

34、所述存储器，用于存储程序；

35、所述处理器，用于执行所述程序，实现如上任一项所述的文本处理方法的各个步骤。

36、一种计算机可读存储介质，其上存储有计算机程序所述计算机程序被处理器执行时，实现如上任一项所述的文本处理方法的各个步骤。

37、从上述的技术方案可以看出，本申请实施例提供的文本处理方法、装置、设备及存储介质，获得n个文本中各个文本的主题信息；对应获得的n个主题信息的n个可能的分类数中的任一大于1且小于n的分类数k，对n个主题信息进行1次或多次聚类处理，得到分类数k对应的1个或多个聚类结果；其中，多次聚类处理采用了至少两种相似度度量方法和/或采用了从n个主题信息中选择k个主题信息作为k个初始聚类中心的多个可能结果，不同次聚类使用不同的相似度度量方法衡量主题信息间的相似度和/或不同次聚类作为k个初始聚类中心的主题信息不同；基于得到的n个分类数对应的所有聚类结果确定n个主题信息的目标聚类结果。本申请通过穷举n个主题信息所有可能的分类数，并针对每个分类数进行了1次或多次聚类处理，基于所有可能的分类数对应的所有聚类结果确定n个主题信息的目标聚类结果，提高了文本数量较小情况下的聚类效果，而且由于文本数量较少，相应的主题信息量也较小，不会降低处理效率。

技术特征：

1.一种文本处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，对所述n个主题信息进行多次聚类处理，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述n个主题信息进行1次或多次聚类处理，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述基于得到的n个分类数对应的所有聚类结果确定所述n个主题信息的目标聚类结果，包括：

5.根据权利要求1-3任一项所述的方法，其特征在于，每次聚类处理利用第一聚类方法对所述n个主题信息进行聚类；

6.根据权利要求5所述的方法，其特征在于，所述第一聚类方法包括：k均值聚类法；所述第二聚类方法包括：层次聚类法或最大最小距离法。

7.根据权利要求1所述的方法，其特征在于，还包括：

8.一种文本处理装置，其特征在于，所述装置包括：

9.一种文本处理设备，其特征在于，包括存储器和处理器；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1-7中任一项所述的文本处理方法的各个步骤。

技术总结
本申请实施例公开了一种文本处理方法、装置、设备及存储介质，获得n个文本中各个文本的主题信息；对应获得的n个主题信息的n个可能的分类数中的任一大于1且小于n的分类数k，对n个主题信息进行1次或多次聚类处理，得到分类数k对应的1个或多个聚类结果；其中，多次聚类处理采用了至少两种相似度度量方法和/或采用了从n个主题信息中选择k个主题信息作为k个初始聚类中心的多个可能结果，不同次聚类使用不同的相似度度量方法衡量主题信息间的相似度和/或不同次聚类作为k个初始聚类中心的主题信息不同；基于得到的n个分类数对应的所有聚类结果确定n个主题信息的目标聚类结果。本申请提高了文本数量较小情况下的聚类效果。

技术研发人员：张轶鑫,王宝鑫,伍大勇,王士进
受保护的技术使用者：河北省讯飞人工智能研究院
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张轶鑫王宝鑫伍大勇王士进
技术所有人：科大讯飞股份有限公司科大讯飞（北京）有限公司
我是此专利的发明人

上一篇：一种机器学习任务用水下视觉图像数据集的获取方法与流程
上一篇：一种角加速度传感器和确定角加速度的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。