科技文献检索方法及系统的制作方法

文档序号:6623396阅读:306来源:国知局
科技文献检索方法及系统的制作方法
【专利摘要】本发明提供一种基于限定词的中文科技文献检索方法,该方法首先计算检索词条的特征向量与数据集中每个科技文献名称的特征向量的语义相关度;接着基于“的”字,对该检索词条划界,找出前缀与所述检索词条的前缀相同的各个科技文献名称,并修正其对应的语义相关度,最后取其名称对应的语义相关度高的前若干个科技文献作为检索结果。该方法考虑了检索词与科技文献标题的语义相关性,并且结合了中文语法中词汇间的关联性,提高了对于中文科技文献的检索效率。
【专利说明】科技文献检索方法及系统

【技术领域】
[0001]本发明涉及信息检索和数据挖掘领域,尤其涉及对科技文献的检索方法。

【背景技术】
[0002]随着信息技术和计算机的发展,各类电子文档的数量以空前的速度增长,电子文档正逐步取代传统的纸质出版物。电子文献检索已经成为获取信息的有效途径。
[0003]现有的电子文献检索方法通常是基于统计词频的方式来实现的。当输入检索的关键词时,依据所统计的关键词在电子文件中出现的频率来对检索结果进行排序。这类方法都是机械式地进行统计和匹配,而忽视了词本身在语义上的实际意义和词与词之间在语义上的关联性,而且也没有结合各种语言的语言习惯,检索效果并不理想。特别是对于科技类文献,一些领域通用的理论和方法术语出现的频率很高,但这些词频高的术语并不能很好地表征文献的特点,因而采用统计词频的方式对科技文献的检索效率并不高。


【发明内容】

[0004]因此,本发明的目的在于克服上述现有技术的缺陷,提供一种新的科技文献检索方法及系统。
[0005]本发明的目的是通过以下技术方案实现的:
[0006]—方面,本发明提供了一种科技文献检索方法,包括:
[0007]步骤I)基于科技文献名称的特征向量空间,将接收到的检索词条表示为特征向量的形式,并计算该检索词条的特征向量与数据集中每个科技文献名称的特征向量之间的语义相关度;
[0008]步骤2)取其名称对应的语义相关度高的前若干个科技文献作为检索结果;
[0009]其中,所述科技文献名称的特征向量空间是通过下列操作得到的:
[0010]a)提取用于检索的数据集中所有科技文献名称来构成训练集;
[0011]b)对训练集中每个科技文献名称进行分词,统计每个词在训练集中出现的次数并计算每个词的词频与逆向文档频率;其中,每个词的词频等于该词在训练集中出现的次数除以所有词在训练集中出现的次数之和;所述每个词的逆向文档频率为:
[0012]

【权利要求】
1.一种科技文献检索方法,所述方法包括: 步骤I)基于科技文献名称的特征向量空间,将接收到的检索词条表示为特征向量的形式,并计算该检索词条的特征向量与数据集中每个科技文献名称的特征向量之间的语义相关度; 步骤2)取其名称对应的语义相关度高的前若干个科技文献作为检索结果; 其中,所述科技文献名称的特征向量空间是通过下列操作得到的: a)提取用于检索的数据集中所有科技文献名称来构成训练集; b)对训练集中每个科技文献名称进行分词,统计每个词在训练集中出现的次数并计算每个词的词频与逆向文档频率;其中,每个词的词频等于该词在训练集中出现的次数除以所有词在训练集中出现的次数之和;所述每个词的逆向文档频率为:该训练集屮的科技文献名称_总数丨1gi+調练集中包含该词的科技文献名称的数g C)取其词频与逆向文档频率的乘积大的前若干个词作为特征词来构成所述科技文献名称的特征向量空间。
2.根据权利要求1所述的方法,所述步骤I)还包括: 如果所述检索词条中包含中文字“的”,则对于其前缀与所述检索词条的前缀相同的各个科技文献名称,将其对应的语义相关度与相关度修正值相加;其中,所述前缀为检索词条和/或科技文献名称中处于中文字“的”之前的部分,所述相关度修正值为一个在O与I之间的实数。
3.根据权利要求2所述的方法,所述相关度修正值是通过下面的公式计算的:
_ Or Iη
(X = jP ' — Ig —
n r 其中,α表示相关度修正值,r表示训练集中其前缀与所述检索词条的前缀相同的各个科技文献名称的数目,η表示所述训练集中科技文献名称的总数目,β为相关度影响因子,其取值在O到I之间。
4.根据权利要求2或3所述的方法,还包括将用于检索的数据集中所有的科技文献分为多个指定的类别;以及在所述步骤I)还包括: 按照下列公式计算检索词条的前缀对于每个类别的类别相关度修正系数:对于第i个类别的类别相关度修正系数Wi为: %,其中t表示检索词条的前缀,m丨表示前缀t在属于第i个类别的所
m Mi有科技文献的名称中出现的总次数,m表示属于第i个类的科技文献的数目,nt表示前缀t在数据集的所有科技文献的名称中出现的总次数,α代表所述相关度修正值;以及 对于每个类别内包含的每个科技文献的名称对应的语义相关度都加上相应的类别相关度修正系数。
5.根据权利要求1所述的方法,在所述步骤I)中所述语义相关度为所述检索词条的特征向量与每个科技文献名称的特征向量之间的余弦距离、欧式距离或杰卡德距离。
6.—种科技文献检索系统,所述系统包括:语义相关度计算模块,用于基于科技文献名称的特征向量空间,将接收到的检索词条表示为特征向量的形式,并计算该检索词条的特征向量与数据集中每个科技文献名称的特征向量之间的语义相关度; 输出模块,取其名称对应的语义相关度高的前若干个科技文献作为检索结果; 其中,所述科技文献名称的特征向量空间是通过下列操作得到的: a)提取用于检索的数据集中所有科技文献名称来构成训练集; b)对训练集中每个科技文献名称进行分词,统计每个词在训练集中出现的次数并计算每个词的词频与逆向文档频率;其中,每个词的词频等于该词在训练集中出现的次数除以所有词在训练集中出现的次数之和;所述每个词的逆向文档频率为:
c)取其词频与逆向文档频率的乘积大的前若干个词作为特征词来构成所述科技文献名称的特征向量空间。
7.根据权利要求6所述的系统,所述语义相关度计算模块还包括相关度调整模块,用于如果所述检索词条中包含中文字“的”,则对于其前缀与所述检索词条的前缀相同的各个科技文献名称,将其对应的语义相关度与相关度修正值相加;其中,所述前缀为检索词条和/或科技文献名称中处于中文字“的”之前的部分,所述相关度修正值为一个在O与I之间的实数。
8.根据权利要求7所述的系统,所述相关度修正值是通过下面的公式计算的:
其中,α表示相关度修正值,r表示训练集中其前缀与所述检索词条的前缀相同的各个科技文献名称的数目,η表示所述训练集中科技文献名称的总数目,β为相关度影响因子,其取值在O到I之间。
9.根据权利要求7或8所述的系统,其中用于检索的数据集中所有的科技文献被分为多个指定的类别;以及所述相关度调整模块还用于: 按照下列公式计算检索词条的前缀对于每个类别的类别相关度修正系数:对于第i个类别的类别相关度修正系数Wi为:
其中t表示检索词条的前缀,mti表示前缀t在属于第i个类别的所有科技文献的名称中出现的总次数,m表示属于第i个类的科技文献的数目,nt表示前缀t在数据集的所有科技文献的名称中出现的总次数,α代表所述相关度修正值;以及 对于每个类别内包含的每个科技文献的名称对应的语义相关度都加上相应的类别相关度修正系数。
10.根据权利要求6所述的系统,其中,所述语义相关度为所述检索词条的特征向量与每个科技文献名称的特征向量之间的余弦距离、欧式距离或杰卡德距离。
【文档编号】G06F17/30GK104166712SQ201410398279
【公开日】2014年11月26日 申请日期:2014年8月13日 优先权日:2014年8月13日
【发明者】郭晓利, 曲朝阳, 潘峰, 娄建楼, 孙慧宇 申请人:东北电力大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1