一种基于无监督关键词提取的科学文献聚类方法与系统

文档序号：36871072发布日期：2024-02-02 20:51阅读：10来源：国知局

本发明涉及一种基于无监督关键词提取的科学文献聚类方法与系统，属于自然语言处理。

背景技术：

1、随着科学技术研究的融合与创新，包含新知识、新技术的科研文献也日益增多，这对科研工作者相对有限的阅读时间和信息理解力带来挑战。因此，如何对新增文献按照其领域进行整理，在方便科研工作者借鉴前人成果，避免重复研究的同时，保持对最新研究趋势的把握，从而推进研究工作的深入开展，具有十分重要的科研意义。

2、考虑到关键词识别是文献整理的基础，现有文献管理系统与网站(百度学术、知网等)，已经将相关文献按照其关键词进行分领域整理，但是上述文献整理方式对关键词的识别能力相对弱。现有方法和工具主要依靠文献作者自行标注的关键词进行分类整理，忽视了对文献标题和摘要中关键信息的有效识别，因此可能无法实现更加准确的文献整理。此外，如何基于关键词提取进行文献自动整理，即文本聚类研究，以提升文献整理的处理效率也具有明显的研究意义。

3、目前基于关键词提取进行文献研究主要存在以下两个挑战：

4、第一，有效地获得具有领域概念且信息丰富的关键词。如今的无监督关键词提取算法忽略了背景知识在科学文献关键词提取中的重要性。例如，对于一篇题目为《光纤器件流变制造过程数值分析与试验》的文献，机械工程领域相应的专业术语更有可能成为其关键词。同时，现有的无监督关键词提取算法使用预设关键词长度来对关键词得分进行调控，但预设关键词的长度是固定的。在不同的领域，对应的关键词长度也有所区别，需要模型自动化识别。例如在药学领域中，容易出现字数较多的关键词(“复方氯霉素滴耳液”)，而在计算机科学与技术领域中，容易出现字数较少的关键词(“机器学习”)。所以在使用关键词长度对关键词得分进行调控时，预设关键词长度需要根据领域特性进行自动化调整。因此如何有效地获得具有领域概念且信息丰富的关键词是有挑战性的。

5、第二，有效地对中文科学文献进行聚类。学术网络上存在着大量中文科学文献，这些文献可能同属于某一领域，并且在研究角度等方面具有相关性，但是容易受到非专业领域词的影响而无法聚成一类。例如两篇同属于研究历史学的文章，一篇研究“复辟时期的英国财政与税收史”，而另一篇研究“明代中叶陆楫的经济思想”，这两篇文章可能存在很少相似的词，但是二者的侧重有所相似(经济)，利用自动化的方法将其聚成一类具有挑战性。

技术实现思路

1、针对现有技术的不足，本发明提出了一种基于无监督关键词提取的科学文献聚类方法；

2、本发明构建一个基于无监督关键词提取的聚类模型，从给定的科学文献数据库中对相似的文献进行聚类。本发明提出了一种新的从科学文献中无监督提取关键词的方法，综合考虑词语在文献摘要和标题中的出现情况、词语和文献本身的语义相似度、领域关键词特点等方面，对科学文献的关键词进行有效提取；然后，本发明根据中文和英文的特性，对提取出来的中文文献关键词和英文文献关键词使用不同的嵌入方式进行聚类，从而实现对于中文科学文献和英文科学文献的有效聚类。

3、本发明面向中英文科学文献，进行基于关键词识别的文献聚类研究，即从文献摘要和标题中识别并提取关键词，随后基于关键词进行文献聚类。例如，从一篇介绍“抗高血压药利用分析”的文献的摘要和标题中提取出提供文献高级主题描述的关键词(“抗高血压药”、“销售金额”等)，然后通过这些关键词在文献数据库中对文献进行聚类，从而找到与该文献大致相似的其他文献。本发明一方面是对无监督关键词提取技术的深化，该技术聚焦于科学文献领域；另一方面，本发明将无监督关键词提取技术与科学文献聚类技术进行有效结合，从而实现高质量的文献聚类。

4、本发明还提出了一种基于无监督关键词提取的科学文献聚类系统；

5、术语解释：

6、paraphrase-multilingual-minilm-l12-v2预训练模型，该预训练模型可用于文本的嵌入表示，并可应用于语义文本相似性、语义搜索和同义词挖掘等常见任务。

7、本发明的技术方案如下：

8、一种基于无监督关键词提取的科学文献聚类方法，包括：

9、对于给定的科学文献的摘要，使用无监督方法进行初步的关键词提取，形成候选关键词和初始得分，对于每个候选关键词，根据其是否出现在标题中和其长度计算关键词得分，得到候选关键词与其关键词得分的二维表；

10、对于每个候选关键词，计算其和原文本的语义相似度；

11、根据候选关键词的相关特征进行打分；

12、将所有得分进行加权相加，排序后得到提取出的文献关键词；

13、将提取出的文献关键词进行嵌入，得到关键词的嵌入向量；

14、将得到的关键词的嵌入向量相加，得到文献的嵌入向量；

15、对所有的嵌入向量进行聚类，得到关键词聚类结果。

16、作为进一步的优选方案，根据其是否出现在标题中和其长度计算关键词得分，包括：如果该候选关键词出现在标题中，其关键词得分为初始得分乘以候选词长度，同时乘上权重因子。

17、作为进一步的优选方案，在本方法中，对于每个候选关键词，计算其和原文本的语义相似度，包括：使用sentence transformers库中的paraphrase-multi6ingual-minilm-l12-v2预训练模型，将原文本和候选关键词输入paraphrase-multilingual-minilm-l12-v2预训练模型中，得到原文本和候选关键词的向量嵌入表示，计算原文本和候选关键词的余弦相似度作为该候选词和原文本的语义相似度。

18、作为进一步的优选方案，在本方法中，根据候选关键词的相关特征进行打分，包括：

19、对于中文数据集，利用sentence transformers库中的paraphrase-multilingual-minilm-l12-v2预训练模型，将科学文献与每个领域的名称输入paraphrase-multilingual-minilm-l12-v2预训练模型中，得到科学文献与每个领域的名称的向量嵌入表示，计算科学文献与每个领域的名称的余弦相似度，余弦相似度最高的领域即为该科学文献最可能的领域；计算该科学文献最可能的领域对应的专业术语库中文关键词的平均长度，得到该科学文献对应领域关键词的平均长度；

20、对于英文数据集，将术语库中的所有专业术语取平均，得到英文数据集对应领域关键词的平均长度；

21、经过上述步骤，得到领域关键词平均长度tokens_average、avg_token_big和avg_token_small，avg_token_big为对tokens_average向上取整结果，avg_token_small为对tokens_average向下取整结果；

22、根据每个候选关键词的长度和该领域的关键词的平均长度对关键词得分进行惩罚；

23、综合考虑每个关键词的位置、词频、上下文关系和出现在不同句子中的次数，对关键词得分进行奖励。

24、进一步优选的，根据每个候选关键词的长度和该领域的关键词的平均长度对关键词得分进行惩罚，包括：如果该关键词大于avg_token_big或者小于avg_token_small，则关键词得分length_scoret为：

25、length_scoret＝-βe3×(toks_len-tokens_average-avg_token_big_avg_token_small)

26、其中，toks_len为该关键词长度，β为超参数。

27、进一步优选的，对关键词得分进行奖励，包括：

28、综合考虑每个关键词的位置、词频、上下文关系和出现在不同句子中的次数，计算该关键词的特征值feature_scoret(f_st)：

29、

30、其中，post是关键词t全文中的中间位置的对数，fret是t的频率，relt是t前后出现的单词的调和项，sent表示t出现在不同句子中的个数；

31、根据特征值对该关键词计算奖励得分f_scoret：

32、

33、左右信息熵分数h(t)的计算公式为：

34、

35、其中，a表示关键词t的所有相邻单词，t的左右信息熵分数是t的左侧和t的右侧的最小值；

36、将所有候选词的左右信息熵分数标准化，得到关键词t的左右信息熵最终得分entropy_scoret；

37、该关键词最终的关键词得分为惩罚得分、奖励得分和左右信息熵得分的和：

38、qt＝length_scoret+f_scoret+entropy_scoret。

39、作为进一步的优选方案，将所有得分进行加权相加，包括：根据每个候选关键词的长度和该领域关键词的平均长度计算候选关键词得分fi，q，如下所示：

40、fi，q＝αdi，q+βwi，q+γqi，q

41、其中，α、β、γ均为超参数，排序后得到提取出的文献关键词；di，q是指二维表中的关键词得分；wi，q是指候选关键词和原文本的语义相似度；qi，q是指关键词得分。

42、作为进一步的优选方案，在本方法中，对关键词进行嵌入并聚类，包括：

43、对于提取出的中文关键词，分词后使用嵌入词表进行嵌入，得到嵌入向量；

44、对于提取出的英文关键词，使用嵌入词表对逐个单词进行嵌入，得到嵌入向量；

45、对于嵌入后的关键词嵌入向量，使用球聚类方法和层次聚类方法进行聚类。

46、一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于无监督关键词提取的科学文献聚类方法的步骤。

47、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于无监督关键词提取的科学文献聚类方法的步骤。

48、一种基于无监督关键词提取的科学文献聚类系统，包括：

49、无监督关键词提取模块，被配置为：对于给定的科学文献的摘要，使用已有的无监督方法进行初步的关键词提取，形成候选关键词，对于每个候选关键词，根据其是否出现在标题中和其长度计算得分，得到候选关键词与其关键词得分的二维表；对于每个候选关键词，计算其和原文本的语义相似度；根据候选关键词的相关特征进行打分；将所有得分进行加权相加，排序后得到提取出的文献关键词；

50、聚类模块，被配置为：将提取出的文献关键词进行嵌入，得到关键词的嵌入向量；将得到的关键词的嵌入向量相加，得到文献的嵌入向量；对所有的嵌入向量进行聚类，得到关键词聚类结果。

51、与现有技术相比，本发明的有益效果为：

52、1、本发明所提出的无监督提取科学文献中关键词的方法，从多方面考虑单词的重要程度。该方法综合考虑词语在文献摘要和标题中的出现情况，使用根据领域特性自动化调整预设关键词长度的方式计算关键词得分，并集中了单词的更多特征。在开源基准数据集上进行对比实验，可以证明本发明所提供的模型，能够比已有的无监督关键词提取算法效果有所提升。

53、2、本发明所提出的使用关键词对文献进行聚类的方法，考虑了中文和英文的特性，对提取出来的中文文献关键词和英文文献关键词使用不同的嵌入方式，在得到科学文献的嵌入向量后对科学文献进行聚类，能够实现对中英科学文献的有效聚类。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘皓,王浩聪,韩昱东,于成龙,王明财,朱士博,胡宇鹏
技术所有人：山东大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。