一种用于检索排序的文献评价方法、存储介质及终端与流程

文档序号:33151707发布日期:2023-02-03 22:59阅读:38来源:国知局
一种用于检索排序的文献评价方法、存储介质及终端与流程

1.本发明涉及信息检索技术领域,尤其涉及一种用于检索排序的文献评价方法、存储介质及终端。


背景技术:

2.检索结果的呈现是检索系统的重要组成部分,在文献越来越多的趋势下,判断哪些文献是符合用户场景需求的文献,对于节省用户时间有着举足轻重的作用。
3.传统的检索结果排序已经无法满足特定场景用户的使用需求,如仅凭相关度排序,虽然可以最大程度上匹配检索条件,但却不能保证排序靠前文献的质量;如按被引数量排序,虽然能够确定研究价值丰富的文献,但是更容易揭示历史文献,对于最新的文献曝光度不足的情况下,可能会错过有价值的突破性文章;如按时间排序虽然可以得到最新的研究,但依然无法判断哪些文献具有的突破性的创新与发展潜力。
4.综上,根据单一指标对检索结果进行排序,无法为用户提供满足参考价值的检索结果,因此亟待需要提供能够契合用户特定检索需求的结果排序方法。


技术实现要素:

5.本发明的目的在于克服现有技术的问题,提供一种用于检索排序的文献评价方法、存储介质及终端。
6.本发明的目的是通过以下技术方案来实现的:一种用于检索排序的文献评价方法,所述方法包括以下步骤:根据相关性、影响力、创新性中任意两个指标或多个指标对文献进行综合评价,根据综合评价结果指导检索结果排序;计算检索式与文献主题词的文本相似度进而得到检索式与文献的相关性;以文献的发表时间作为筛选切片,比较该切片下当前文献的被引数与整体文献被引数,进而得到当前文献的影响力;根据文献中词对出现概率确定文献的创新性。
7.在一示例中,对文献进行综合评价时,对各指标评价结果进行加权处理得到最终综合评价结果。
8.在一示例中,所述检索式与文献主题词的文本相似度sim(a ,b)计算式为:其中, ai、b
i 分别表示特征向量a、b的各分量;n为各向量长度。
9.在一示例中,获取当前文献的影响力时,还包括:以文献的发表时间、研究方向的热门程度、类型作为筛选切片,比较同一切片下当前文献的被引数与整体文献被引数,进而得到当前文献的影响力。
10.在一示例中,计算文献的影响力前还包括:
对于文献被引数大于阈值的第一文献,根据对应切片下的各文献被引数确定新的被引数数值,令第一文献的被引数为被引数数值。
11.在一示例中,获取当前文献的影响力时,还包括:根据文献发表平台的影响力对文献的影响力进行更新;比较当前文献发表平台中文献的被引数与整体文献发表平台的文献被引数,进而确定当前文献发表平台的影响力。
12.在一示例中,所述根据文献中词对出现概率确定文献的创新性包括:根据词对在整体数据集中实际出现的概率与预期出现概率的比值确定词对的普遍性;根据当前文献中所有词对的普遍性由小至大排序,取前5%-20%中任一值作为当前文献的普遍性score
com
;采用对数变换获取普遍性score
com
的正态分布变量并取负数,得到当前文献的创新性。
13.在一示例中,所述普遍性com(w1w2)计算式为:其中,w1,w2为组成词组的词的频次,w1w2为词对的频次;n表示整体数据集。
14.需要进一步说明的是,上述方法各示例对应的技术特征可以相互组合或替换构成新的技术方案。
15.本发明还包括一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一示例或多个示例组成形成的所述的一种用于检索排序的文献评价方法的步骤。
16.本发明还包括一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一示例或多个示例形成的所述的一种用于检索排序的文献评价方法的步骤。
17.与现有技术相比,本发明有益效果是:(1)在一示例中,通过计算检索式与文献主题词的文本相似度进而计算得到检索式与文献的相关性,提高了检索式与文献的匹配度,提高了检索精度;以文献的发表时间作为筛选切片进而确定文献的影响力,降低了对新发布文献的影响力评价的影响,保证了文献影响力评价的准确性;根据词对出现概率确定文献的创新性,实现对文献价值的评价;在此基础上,根据相关性、影响力、创新性中任意两个指标或多个指标对文献进行综合评价,并根据综合评价结果指导检索结果排序,能够使排序靠前的检索结果中文献兼容相关性、影响力、创新性中至少两个指标,进而为用户提供满足参考价值的检索结果,契合用户特定检索需求的检索结果排序。
18.(2)在一示例中,对各指标评价结果进行加权处理,能够平衡各指标对文献评价的影响,使最终综合评价结果更贴近文献本身特质,保证检索结果排序的精准性。
19.(3)在一示例中,进一步引入文献的研究方向的热门程度、类型作为筛选切片,综合考虑了各切片因子对文献影响力的影响,进而提高文献影响力的评价准确性。
20.(4)在一示例中,在计算文献的影响力前,对被引量较为极端的文献进行极端值处理,消除了极端值对文献影响力计算的影响,进一步提高了影响力计算的准确性与可靠性。
21.(5)在一示例中,通过文献发表平台的影响力对文献的影响力进行补充,避免了文献出现研究领域特别新或者发表时间特别早导致文献自身影响力计算失真的情况,保证影响力计算的准确度。
附图说明
22.下面结合附图对本发明的具体实施方式作进一步详细的说明,此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,在这些附图中使用相同的参考标号来表示相同或相似的部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。
23.图1为本发明一示例中的方法流程图。
具体实施方式
24.下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
25.在本发明的描述中,需要说明的是,属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系为基于附图所述的方向或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,使用序数词 (例如,“第一和第二”、“第一至第四”等 )是为了对物体进行区分,并不限于该顺序,而不能理解为指示或暗示相对重要性。
26.在本发明的描述中,需要说明的是,除非另有明确的规定和限定,属于“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
27.此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
28.在一示例中,一种用于检索排序的文献评价方法,该方法具体包括:根据相关性、影响力、创新性中任意两个指标或多个指标对文献进行综合评价,根据综合评价结果指导检索结果排序。其中,相关性表示文献与检索式中词组的相关性;影响力即检索结果中各文献的影响力,反应了文献的质量(价值);创新性即检索结果中各文献的创新性,反应了文献的创新度与发展潜力。当然,文献的影响力、创新性可提前进行评价,即将文献收录至检索数据库中即可开展文献的影响力、创新性评价,进而降低后续检索过程中文献综合评价难度,提升文献综合评价速度,优化用户的检索体验。
29.优选地,根据相关性、影响力、创新性对文献进行综合评价,并根据综合评价结果指导检索结果排序,能够使排序靠前的检索结果中文献兼容相关性、影响力、创新性中至少两个指标。此时,从三个维度对检索结果中的文献进行综合评价,从各方面综合考虑了用户对检索结果中文献的高质量要求,进而根据综合评价结果指导检索结果排序,能够为用户
提供满足参考价值的检索结果,契合用户特定检索需求的检索结果排序。其中,高质量要求(特定检索需求)表示检索结果中文献需具备参考价值、创新与发展潜力等,且检索结果不能错过有价值的、新发表的突破性文献。
30.作为一选项,可根据相关性、影响力、创新性中任一指标对文献进行综合评价,并根据综合评价结果指导检索结果排序,以保证排序的灵活性,以满足不同用户的检索需求。
31.进一步地,本发明计算检索式与文献主题词的文本相似度进而得到检索式与文献的相关性,提高了检索式与文献的匹配度以及检索精度。
32.进一步地,本发明以文献的发表时间作为筛选切片,比较该切片下当前文献的被引数与整体文献被引数,进而得到当前文献的影响力,降低了对新发布文献的影响力评价的影响,保证了文献影响力评价的准确性。其中,以文献的发表时间作为筛选切片表示通过相同发表时间作为筛选条件,进而评价文献的影响力。当然,相同发表时间的概念可延伸至一定时期,如同年一个月内或一年内发表的文献都可视为相同时间发表。
33.进一步地,本发明根据文献中词对出现概率确定文献的创新性,实现对文献价值(创新度与发展潜力)的评价,利于综合评价的开展。
34.在一示例中,对文献进行综合评价时,对各指标评价结果进行加权处理得到最终综合评价结果。具体地,为综合评价文献,得到用户需求的排序结果,需结合实际情况进行加权,本发明通过多次实验反馈最终确定方案。其中,综合评价计算式为:加权,本发明通过多次实验反馈最终确定方案。其中,综合评价计算式为:其中,score表示综合评价得分;score
sim
表示相关性评价得分;score
effect
表示影响力评价得分;score
nov
表示创新性评价得分;λ1、λ2、λ3分别表示相关性得分、影响力得分、创新性得分的加权系数;计算score
nov
时,将其值标准化至 。本示例中,对各指标评价结果进行加权处理,能够平衡各指标对文献评价的影响,使最终综合评价结果更贴近文献本身特质,保证检索结果排序的精准性。
35.在一示例中,在相关性计算过程中,文献由多个主题组成,主题由多个主题词组成,主题词才是文章的内容,检索式实质需要匹配是主题词,因此本技术先通过联合文献-主题概率分布与主题-词(主题词)概率分布得到文献的主题词概率分布,此时检索式仅需和文献的主题词进行匹配即可实现检索式与文献的匹配。具体地,文献-主题概率分布与主题-词(主题词)概率分布根据主题模型输出得到,即将文献中文本信息输入主题模型即可得到文献-主题概率、主题-词概率分布。
36.具体地,主题模型是以非监督学习的方式对文本集的隐含语义结构进行聚类的统计模型,常用于发现文献中的抽象主题。本发明基于主题模型中的经典模型lda(latent dirichlet allocation),lda认为一篇文档包含多个主题,而文章中的每个词由固定的主题生成,文档中的主题分布服从参数为α’的dirichlet(狄利克雷)分布,而各个主题上的词分布服从参数为β’的dirichlet分布,是一个三层贝叶斯概率模型。通过主题模型,可以生成文献-主题概率分布p(zk|dj)与主题-词概率分布p(wj| zk),其中zk代表主题集k中的某个给定主题,dj代表文献集中的某篇给定文献,wj代表关键词集中的某个给定的词。p(zk|dj)越大的主题,越能代表文献内容,而其中p(wj| zk)越大的词,越是能代表文献内容的主题
词。于是联合p(zk|dj)和p(wj| zk)可得:各主题词对于文献的重要程度,即文献-主题词的概率分布,文献的主要内容则可表示为各主题词的概率分布。
37.进一步地,检索式与文献的相关度sim(a ,b)计算包括以下步骤:1) 检索式规范;规范词表本质上是一种受控词表,它把词汇和同义词、近义词、上位类术语和下位类术语,以及相关关系术语连接起来,常用于辅助检索以及标准化展示。词表包括:规范词:指某个关键词或实体的规范化表达词语;规范缩写: 指某个关键词或实体的规范化缩写词语;扩展词:指某个关键词或实体的除规范化表达词语外的其他表达词语;上/下位词:指某个关键词或实体的规范化表达词语的语义扩展词,表达其种和属。
38.例如:靶点pd-1的规范词为“programmed cell death protein 1”,规范缩写为“pd-1”,扩展词包括“cd279”、“programmed cell death 1”、“programmed death 1”、“pd1”等等,这里的所有词都映射到同一个实体。pd-1的上位词为“costimulatory and inhibitory t-cell receptors(共刺激和抑制性t细胞受体)”,其代表着“pd-1”的一种扩展概念,而pd-1是属于该类概念下的一个靶点。
39.2) 对检索式s进行处理,采用分词算法进行分词,依据候选词表,保证医学专业名词短语不会被拆分;依据停用词表,去除无主要意义的符号、冠词、介词、副词、连词等,生成无序检索词表;遍历规范词表,判断检索词是否存在;此处匹配将会出现三种情况:第一种,检索词匹配到了规范词,即检索词本身就为规范词,则不做处理;第二种,检索词匹配到了扩展词,则将该检索词替换为扩展词;第三种检索词没有匹配到任何词,则不做处理,最终得到规范后的检索词表。
40.3) 为检索词分配权重;传统的文献检索中,用户为了扩大检索范围,会使用多个同义或近义词来进行检索,在这种情况下,检索词表经过规范化后中会出现多个相同的规范词。本技术中,检索式中越多提及的词,即检索词表s^'中频次更高的词,是用户检索策略中的重点。因此,我们将对检索词表进行去重处理,并依据频次给予权重,对于任意的检索词,有,其中ωi表示检索词si的权重,fi表示检索词si的频次,f代表总频次。
41.4) 生成特征向量;为计算检索式与主题的相似度,需将检索式与文献转换为其特征向量。遍历文献的主题词集,与检索词进行并集运算,得到不重复的词表,词表即位特征向量维度。对于检索式,将权重作为分量值;对于每篇文献,将其主题词的概率作为分量,空白分量填充为0,最终得到检索式特征向量a与主题特征向量b。
42.5) 计算相关性;采用余弦相似度,计算检索式与文献的相似性,得到文献与检索式的相关性指标score
sim

其中,sim(a,b)∈[0,1);ai、b
i 分别表示特征向量a、b的各分量,特征向量的值即为文献-主题词的概率分布;n为各向量长度;sim(a,b)结果越大,代表二者相关性更大,结果为0,则代表二者不相关。
[0043]
在一示例中,文献的被引数量能较大程度反应文献的影响力,但容易受发表时间早晚、研究方向的热门程度、文献类型的影响,为排除影响,采用这三个维度进行筛选切片,保证文献的被引数量有一定的可比性。本示例中,获取当前文献的影响力时,还包括:以文献的发表时间、研究方向的热门程度、类型作为筛选切片,比较同一切片下当前文献的被引数与整体文献被引数,进而得到当前文献的影响力。具体地,通过比较同一切片下某篇文献的被引与该切片的整体的被引情况,得出文献dj的自身影响力effect
doc
:其中,n为文献相关的主题数量;cite为选定文献被引数;cite
year,type,interest
为与该文献同一年、同发文类型、同研究方向的文献被引数。
[0044]
在一示例中,在切片中,部分文献的被引数量较为极端,如大部分文献的被引数量为100以内的整数,但是某些重磅文章的被引数量会达到几千甚至是万,而这些少部分的文献并不能反应大部分文献的分布,因此需当作极端值进行处理,此外,由于被引数量最低为0,文献被引数量整体呈偏态分布,所以在这里仅对极大值进行处理。
[0045]
对于文献被引数大于阈值的第一文献,根据对应切片下的各文献被引数确定新的被引数数值,令第一文献的被引数为被引数数值。作为一选项,新的被引数数值也可基于历史经验得出。
[0046]
具体地,阈值可根据历史经验得出或人为划分,如上所述,大部分文献的被引数量为100时,将千级及以上数量单位均进行极端值处理,此时1000即可作为阈值。进一步地,对于新的被引数数值的确定,采用分箱的方法来进行异常值的处理。具体地,对文献集的被引数量进行划分,找出其下四分位数q1、上四位数分位数q3、以及四分位数间范围iqr。根据正态分布中的经验得知,大约99.7%的数据位于平均值的三个标准差之内(<3σ),而箱体中的q1、q3分别位于离平均值的-0.675σ和0.675σ,即iqr为1.35。为确保大多数值可被计算到,我们取1.7iqr作为极端值的判定点,对于文献被引数cite>(q3+1.7*(q
3-q1))的文献,使其被引数等于q3(被引数数值);其中cite为文献被引数,q1为25%分位对应的被引数,q3为75%分位对应的被引数。
[0047]
在一示例中,为避免文献出现研究领域特别新或者发表时间特别早导致文献自身影响力计算失真的情况,获取当前文献的影响力时,还包括:根据文献发表平台的影响力effect
p
对文献的影响力进行补充。本示例中,通过给予期刊影响力与文献自身影响力一定的权重,最终结合得到文献的综合影响力指标 ;其中,表示权重系数。
[0048]
进一步地,文献发表平台的影响力的计算包括:比较当前文献发表平台中文献的被引数与整体文献发表平台的文献被引数,进而确定当前文献发表平台的影响力。其中,文献发表平台包括不限于各种类型学术期刊、学位
论文平台、会议论文平台、专利平台等等。
[0049]
作为一选项,学术辐射力、平台市场占有率、读者群和发行量、被国际权威检索系统或数据库收录率、文献被引率、文献被采纳及其实践效果情况中任意指标或多个指标都可用于对文献发表平台的影响力进行评价。其中,学术辐射力可以通过总被引频次(从期刊创刊至今发表的论文在统计当年被引用的总次数)、即年指标(某种期刊当年发表的论文被引用的总次数与当年总数之比)和基金产文率(该指标为期刊中基金资助项目的论文与论文总数之比)等主要指标综合评价学术期刊(或其他平台)的学术水平和学科地位。市场占有率表征学术期刊(或其他平台)对用户的作用,是体现学术期刊在市场竞争中地位和可持续发展潜力的一个重要指标,可用市场有效容量表示;市场有效容量等于某刊实际发行量与本学科领域同类期刊当年发行总量的比值。
[0050]
在一示例中,文献中的词对组合可以在一定程度表示文献的内容,而在研究领域大致相同的情况下,研究文献中越普遍的内容对应的某些词对组合出现的预期概率也将会越高;而词对组合实际出现概率越低,则代表该方向研究越稀缺。在切片中,构建目标论文数据集与词对应关系表,统计单篇论文所有词对组合,并将切片中所有论文的词对汇总在一起,构成切片的词对整体数据集 n。此时,根据文献中词对出现概率确定文献的创新性具体包括以下步骤:(1)比较某个词对组合在整体数据集实际出现的概率与其预期出现概率的比值,这个比值代表着该词对的组合难易程度,即普遍性com(w1w2):其中,w1,w2为组成词组的词的频次,w1w2为词对的频次;n表示整体数据集。
[0051]
(2)对于每篇文献,所有词对的普遍性由小到大排列,取前5%-20%中任一值作为当前文献的普遍性score
com
,本示例优选取10%处的值作为该篇论文的普遍性;(3)创新性与普遍性相反,因此,采用对数变换来获得普遍性的正态分布变量并取负数,得到创新性,score
nov
值越大,表示知识组合比预期组合越少见,文献创新性越高。
[0052]
现将上述方法各示例进行组合,得到本发明的优选示例如图1所示,此时已经根据输入的检索式获取得到对应的检索结果文献集,方法包括以下步骤:s1:计算检索式与文献主题词的文本相似度进而得到检索式与文献的相关性;s2:以文献的发表时间、研究方向的热门程度、类型作为筛选切片,比较同一切片下当前文献的被引数与整体文献被引数,计算当前文献的影响力;s3:根据文献中词对出现概率确定文献的创新性;s4:根据相关性、影响力、创新性的评价结果进行综合评价结果计算,得到最终排序结果。
[0053]
为验证本发明方法的有效性,分不同时间、不同影响因子期刊、不同被引情况的维度下共抽取了100篇文献,确保试验文献集中的文献在各维度上保持均匀分布,具有典型特征。通过相关专业人员进行问卷调研,给定关键词,随机抽取多篇文献,对文献进行综合推荐程度评分,分值为1-10分,结果得到每篇文献的多个用户的推荐程度矩阵。对每篇文献的
推荐程度进行计算,排除评价中的最低分与最高分后计算平均值,按分数划分为四个文献集,分别为强推荐文献(8分以上)、推荐文献(6-8分)、普通文献(3-6分)、不推荐文献(3分以下),作为对照组。
[0054]
对文献进行标注,确定索引。分别使用传统排序方法、多维评价指标进行文献排序,得到文献排序结果作为实验组。根据对照组我们得到,100篇文献中,有4篇文献为强烈推荐,对应排序结果中的top4,以此类推,top5-23应为推荐文献,top24-75应为普通文献,top76-100应为不推荐文献。分别计算各实验组不同推荐程度文献与对照组的交集,确定试验组在各个区间的命中情况,文献排序推荐结果如表1所示:表1 文献排序推荐结果表根据上表可知,相较于传统排序,本技术多维评价指标在确定推荐文献中具有更大的命中率,能够较好满足用户的检索需求。
[0055]
本技术还包括一种存储介质,与上述任一示例或多个示例组成的一种用于检索排序的文献评价方法具有相同的发明构思,其上存储有计算机指令,所述计算机指令运行时执行上述一种用于检索排序的文献评价方法的步骤。
[0056]
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0057]
本技术还包括一种终端,与上述任一示例或多个示例组成的一种用于检索排序的文献评价方法具有相同的发明构思,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述一种用于检索排序的文献评价方法的步骤。处理器可以是单核或者多核中央处理单元或者特定的集成电路,或者配置成实施本发明的一个或者多个集成电路。
[0058]
在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0059]
以上具体实施方式是对本发明的详细说明,不能认定本发明的具体实施方式只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演和替代,都应当视为属于本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1