热点研究方向获取方法、装置、设备及介质与流程

文档序号:36824135发布日期:2024-01-26 16:34阅读:17来源:国知局
热点研究方向获取方法、装置、设备及介质与流程

本申请涉及自然语言处理,更具体的说,是涉及热点研究方向获取方法、装置、设备及介质。


背景技术:

1、很多企业或高校收录有大量文献,为了能够把握国际研究的热点和前言,需要对收录的大量文献进行分析,以得到热点研究方向;从而辅助高校或企业的科研工作者选择热点研究方向作为选题。

2、因此如何通过大量文献确定热点研究方向是急需解决的技术问题。


技术实现思路

1、有鉴于此,本申请提供了一种热点研究方向获取方法、装置、设备及介质。

2、为实现上述目的,本申请提供如下技术方案:

3、根据本公开实施例的第一方面,提供一种热点研究方向获取方法,包括:

4、获取文档,所述文档包括多个文献分别对应的英文标题,以及,所述多个文献分别对应的英文关键词;

5、从所述文档中获取多个短语,每一所述短语为所述英文关键词或所述英文标题中位于设定字符之间的词汇,每一所述短语由多个词元组成;

6、获取共现矩阵,所述共现矩阵包括构成所述多个短语的每一词元对应的列向量,所述每一所述词元对应的列向量包括所述词元分别与构成所述多个短语的词元的共现次数;

7、针对每一所述词元,确定所述共现矩阵中所述词元对应的列向量中各个元素之和为所述词元的度;

8、针对每一所述词元,确定所述词元的度与所述词元在所述文档中出现的次数的比值,为所述词元的第一分数;

9、针对每一所述短语,确定组成所述短语的多个所述词元的第一分数之和,为所述短语的第二分数;

10、依据所述第二分数对所述多个短语进行降序排序,以得到排序结果;

11、确定所述排序结果中靠前的第一数目个所述短语,为所述热点研究方向。

12、根据本公开实施例的第二方面,提供一种热点研究方向获取装置,其特征在于,包括:

13、第一获取模块,用于获取文档,所述文档包括多个文献分别对应的英文标题,以及,所述多个文献分别对应的英文关键词;

14、第二获取模块,用于从所述文档中获取多个短语,每一所述短语为所述英文关键词或所述英文标题中位于设定字符之间的词汇,每一所述短语由多个词元组成;

15、第三获取模块,用于获取共现矩阵,所述共现矩阵包括构成所述多个短语的每一词元对应的列向量,所述每一所述词元对应的列向量包括所述词元分别与构成所述多个短语的词元的共现次数;

16、第一确定模块,用于针对每一所述词元,确定所述共现矩阵中所述词元对应的列向量中各个元素之和为所述词元的度;

17、第二确定模块,用于针对每一所述词元,确定所述词元的度与所述词元在所述文档中出现的次数的比值,为所述词元的第一分数;

18、第三确定模块,用于针对每一所述短语,确定组成所述短语的多个所述词元的第一分数之和,为所述短语的第二分数;

19、排序模块,用于依据所述第二分数对所述多个短语进行降序排序,以得到排序结果;

20、第四确定模块,用于确定所述排序结果中靠前的第一数目个所述短语,为所述热点研究方向。

21、根据本公开实施例的第三方面,提供一种电子设备,包括:

22、处理器;

23、用于存储所述处理器可执行指令的存储器;

24、其中,所述处理器被配置为执行所述指令,以实现如第一方面所述热点研究方向获取方法。

25、根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面所述热点研究方向获取方法。

26、经由上述的技术方案可知,本申请提供了热点研究方向获取方法,将多个文献分别对应的英文标题以及多个文献分别对应的英文关键词放置于同一文档;从文档中获取多个短语;获取共现矩阵,共现矩阵包括构成多个短语的每一词元对应的列向量,每一词元对应的列向量包括词元分别与构成多个短语的词元的共现次数;针对每一词元,确定共现矩阵中所述词元对应的列向量中各个元素之和为词元的度;针对每一词元,确定词元的度与词元在文档中出现的次数的比值为词元的第一分数;针对每一短语,确定组成短语的多个词元的度之和,为短语的第二分数;依据第二分数对所述多个短语进行降序排序,以得到排序结果;确定排序结果中靠前的第一数目个短语,为热点研究方向。从而实现了基于多个文献确定热点研究方向的目的。



技术特征:

1.一种热点研究方向获取方法,其特征在于,包括:

2.根据权利要求1所述热点研究方向获取方法,其特征在于,还包括:

3.根据权利要求2所述热点研究方向获取方法,其特征在于,所述候选数目的数量有多个,还包括:

4.根据权利要求3所述热点研究方向获取方法,其特征在于,计算主题ta与主题tb分别对应的短语集合的相似度cosθab的公式如下:

5.一种热点研究方向获取装置,其特征在于,包括:

6.根据权利要求5所述热点研究方向获取装置,其特征在于,还包括:

7.根据权利要求6所述热点研究方向获取装置,其特征在于,所述候选数目的数量有多个,还包括:

8.根据权利要求7所述热点研究方向获取装置,其特征在于,计算主题ta与主题tb分别对应的短语集合的相似度cosθab的公式如下:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至4中任一项所述热点研究方向获取方法。


技术总结
本申请公开了热点研究方向获取方法、装置、设备及介质,可应用于人工智能领域或金融领域。将多个文献分别对应的英文标题以及多个文献分别对应的英文关键词放置于同一文档;从文档中获取多个短语;获取共现矩阵,针对每一词元,确定共现矩阵中所述词元对应的列向量中各个元素之和为词元的度;针对每一词元,确定词元的度与词元在文档中出现的次数的比值为词元的第一分数;针对每一短语,确定组成短语的多个词元的度之和,为短语的第二分数;依据第二分数对所述多个短语进行降序排序,以得到排序结果;确定排序结果中靠前的第一数目个短语,为热点研究方向。从而实现了基于多个文献确定热点研究方向的目的。

技术研发人员:李姝霏,刘棋,翟玉月
受保护的技术使用者:中银金融科技(苏州)有限公司
技术研发日:
技术公布日:2024/1/25
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1