一种评价查新报告质量的模型建立方法及应用方法

文档序号:9708616阅读:262来源:国知局
一种评价查新报告质量的模型建立方法及应用方法
【技术领域】
[0001] 本发明涉及科技文献查新技术领域,特别是涉及一种评价查新报告质量的模型建 立方法及应用方法。
【背景技术】
[0002] 随着对科技文献查新的需求不断增加,对科技文献查新工作的要求不断提升,亟 需一种定量的评价科技查新报告质量的方法,以客观地评价查新员查新工作的质量,并提 升对查新员查新工作的管理水平。
[0003] 查新报告通俗讲是在现有的文献记载中对给定的文献所做的检索工作,例如,对 给定的文献进行查重等,通过一定的检索工作对给定的文献做出相关的报告,例如重复性、 相似性、创新性等。由于查新报告是对给定的文献所做的总结性报告,因此,对查新报告的 质量提出了较高的要求。
[0004] 现有的查新报告评价方法中,都建立在专家打分的基础上,例如模糊综合评判模 型、层次分析法、熵权法都属于基于专家打分的方法。工作流程如下:
[0005] 第一步,采集N(通常NS 10)篇查新报告,设定Μ(通常MS 15)个评价指标;
[0006] 第二步,邀请专家为每篇报告的Μ个评价指标逐个打分,得到一个N*M的矩阵A;
[0007] 第三步,通过矩阵分析,判断Μ个指标的重要程度,并赋予其权重;
[0008] 第四步,对于第Ν+1个查新报告,专家在Μ个评价指标对其进行的打分,按照第三步 中求解得到的指标权重,对Μ个打分进行加权求和,即得到本篇查新报告的质量。
[0009] 对于上述方法,其严格依赖于人类专家在不同指标下的打分,尽管可以从打分矩 阵中自动求解得到不同指标的权重,但是专家打分的主观性会直接影响到评价结果的客观 与合理。同时,这一类方法不能适用于大规模的查新报告质量评估工作。此外,当查新报告 量较多时,需要的人工成本会非常大。
[0010]由此可见,当评价查新报告质量时,如何提高客观性和准确性,以及降低人工成本 是本领域技术人员亟待解决的问题。

【发明内容】

[0011] 本发明的目的是提供一种评价查新报告质量的模型建立方法,用于当评价查新报 告质量时,如何提高客观性和准确性,以及降低人工成本。
[0012] 为解决上述技术问题,本发明提供一种评价查新报告质量的模型建立方法,包括:
[0013] 抽取多篇查新报告对应的检索式、相关文献和查新结论;
[0014] 根据各所述检索式、所述相关文献和所述查新结论获取所述查新报告对应的特征 参数;
[0015] 获取专家对所述查新报告的打分信息;
[0016] 采用线性回归模型的方式建立所述特征参数与所述打分信息的关系;
[0017] 采用梯度下降法对使用所述特征参数和所述打分信息建立的线性回归模型进行 训练得到所述评价查新报告质量的模型。
[0018]优选地,所述特征参数包括:
[0019] 所述查新报告的检索式与查新项目的相关度;
[0020] 所述查新报告的相关文献与所述查新项目的相关度;
[0021 ]所述查新报告的相关文献的权威度;
[0022] 所述查新报告的相关文献的准确率;
[0023] 所述查新报告的相关文献的召回率;
[0024]所述查新报告的查新结论的正确度。
[0025] 优选地,所述查新报告的检索式与查新项目的相关度通过计算公式得到;
[0026]
[0027]
[0028]
[0029] Wi为所述检索式使用的关键词集合W= {wi,W2,···,Wm}中的第i个关键词,Wi为Wi的 向量表示;》/」为查新项目(1'提供的关键词集合1' = {¥'1,'\¥'2,~,'?'11}中的第」个关键词,'\¥'」 为V j的向量表示;pbi,·/ j)表示关键词Wi、·/ j在同一个文档中的共现概率,p(Wi)和j) 分别表示关键词在文档出现的先验概率,T为向量的转置。
[0030] 优选地,所述查新报告的相关文献与所述查新项目的相关度通过计算公式得到;
[0031] 其中,计算公式为
[0032] D为查新报告中检索的相关文献的集合;dk为D中的第k篇相关文献;d'为查新项 目;dk为dk的文档向量表示;d'为d'的文档向量表示;|D|表示集合D中的文献数量;T为向量 的转置。
[0033] 优选地,所述查新报告的相关文献的权威度通过查新文献的刊物来源、出版年限、 他引率获得。
[0034] 优选地,所述查新报告的相关文献的准确率通过计算公式得到;
[0035]其中,计算公式为:Precision= |Di|/|D| ;
[0036] D为查新报告中检索的相关文献的集合,DiSD中与查新项目真实相关的文献集 合,|Di|、|D|分别表不集合Di、D中的文献数量。
[0037] 优选地,所述查新报告的相关文献的召回率通过计算公式得到;
[0038]其中,计算公式为:Recall= |Di|/|D2| ;
[0039] D为查新报告中检索的相关文献的集合,DiSD中与查新项目真实相关的文献集 合,〇2为可检索的数据资源中与查新项目真实相关的文献集合,|D|、|Di|、|D 2|分别表示集 合0、01、出中的文献数量。
[0040] 优选地,所述查新报告的查新结论的正确度通过计算公式得到;
[0041] 其中,计算公式为:
[0042] ^为查新项目的第i个技术要点;ak为查新报告中的第k个相关文献的文献摘要;^ 为t i的段落向量表不;ak为ak的段落向量表不;T为向量的转置。
[0043] 优选地,所述评价查新报告质量的模型为:
[0044]
[0045] 其中,ω = [ ω0, ωι, · · ·,C06]1'为模型参数,通过公式
求解J的最小值得到;x=[0,xi,. . .,X6]为所述的 查新报告的特征参数;T为向量的转置。
[0046] -种评价查新报告质量的模型应用方法,基于所述的评价查新报告质量的模型, 包括:
[0047] 抽取待评价查新报告中的检索式、相关文献和查新结论;
[0048] 根据所述检索式、所述相关文献和所述查新结论获取所述评价查新报告质量的模 型对应的特征参数;
[0049] 将所述特征参数输入所述评价查新报告质量的模型中以得到对应的评价分数。
[0050] 本发明所提供的评价查新报告质量的模型建立方法,以多篇查新报告为基础,获 取每篇查新报告的检索式、相关文献和查新结论,然后通过上述三个参数获取每篇查新报 告对应的特征参数,以特征参数和专家的打分信息为训练样本采用梯度下降法得到评价查 新报告的模型。由此可见,上述过程中,只需要专家对选取的有限数量的查新报告进行打 分,并且该模型可以应用到其它待评价的查新报告中,因此,节约人力成本。
【附图说明】
[0051] 为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的 介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人 员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0052] 图1为本发明提供的一种评价查新报告质量的模型建立方法的流程图;
[0053] 图2为本发明提供的一种评价查新报告质量的模型应用方法的流程图。
【具体实施方式】
[0054]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本 发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他 实施例,都属于本发明保护范围
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1