一种词与词之间的相关度算法

文档序号:6499701阅读:312来源:国知局
一种词与词之间的相关度算法
【专利摘要】本发明涉及一种词与词之间的相关度算法,包括:按数据库中所有记录文献的相关度值及相关距离值生成由所述所有记录文献的所有关键词构成的关键词网;用户输入检索词后,在所述关键词网中查找其关键词包含所述检索词的记录文献,并按所述检索词与所述关键词相关度大小顺序将包含所述关键词的记录文献名输出。本发明通过生成由所述所有记录文献的所有关键词构成的关键词网,用户输入检索词后,在关键词网中查找其关键词包含所述检索词的记录文献,并按检索词与关键词相关度大小顺序将包含关键词的记录文献名输出,大大提高了记录文献的检索效率,并提供用户相关度排列好的记录文献名,有利于用户使用,提高了用户的检索体验。
【专利说明】一种词与词之间的相关度算法
【技术领域】
[0001]本发明属于信息检索【技术领域】,具体涉及一种词与词之间的相关度算法。
【背景技术】
[0002]在进行数据检索时,一般时通过在搜索框中输入相应的关键词来检索,特别是在一些期刊论文数据库中,输入关键词后,系统自动根据自己的规则输出相应的与输入的关键词相关的期刊或论文,供用户选择。这种检索数据的方法,大大提高了人们的检索效率与水平,但还不能满足人们的检索使用需求。如这种检索方法只是提供给用户与输入的关键词相关的文献,不能更多地提供与输入的关键词有一定相关的更多的文献来供用户使用,而且在用户关键词确定不准确时,往往检索不到有关的记录文献,需要用户多次确定关键词,多次进行检索,方有可能实现检索目的。而且,用户如还同时需要外围的有关文献时,还需要另行确定不同的关键词再次进行检索,不能一次提供给用户相应的资源,供用户使用,比较麻烦,检索效率还比较低。

【发明内容】

[0003]本发明的目的在于克服上述技术的不足而提供一种词与词之间的相关度算法。
[0004]本发明是这样实现的,一种词与词之间的相关度算法,包括以下步骤:
[0005]按数据库中所有记录文献的相关度值及相关距离值生成由所述所有记录文献的所有关键词构成的关键词网;
[0006]用户输入检索词后,在所述关键词网中查找其关键词包含所述检索词的记录文献,并按所述检索词与所述关键词相关度大小顺序将包含所述关键词的记录文献名输出。
[0007]所述关键词网的生成步骤如下:
[0008]依据公式:记录文献A与记录文献B的相关度值=记录文献A与记录B的关键词重复个数的平方+记录文献A的关键词数量X记录文献A的关键词数量,计算所述数据库中每篇记录文献与其它记录文献的相关度值:
[0009]依据公式:记录文献A与记录B的距离=1-记录文献A与记录文献B的相
[0010]依据公式:记录文献A与记录B的距离=1-记录文献A与记录文献B的相关度值,计算所述数据库中每篇记录文献与其它记录文献的相关距离值;
[0011]根据所述数据库中每篇记录文献与其它记录文献的相关距离值形成以所述所有记录文献的关键词为节点的包含N层关键词节点的关键词网。
[0012]所述每篇记录文献与其它记录文献的所述相关距离值为所述关键词网中各所述关键词节点间的距离。
[0013]所述在所述关键词网中查找关键词包含所述检索词的记录文献,并按所述检索词与所述关键词相关度大小顺序将包含所述关键词的记录文献名输出的步骤如下:
[0014]计算所述检索词与包含所述检索词的关键词的相关度值;
[0015]按所述相关度值的大小顺序将包含所述关键词的记录文献输出;[0016]计算公式如下:
[0017]检索词与关键词的相关度值=N层关键词节点距离的平均值X关键词出现次数的平方根。
[0018]本发明通过按数据库中所有记录文献的相关度值及相关距离值生成由所述所有记录文献的所有关键词构成的关键词网,在用户输入检索词后,在所述关键词网中查找其关键词包含所述检索词的记录文献,通过量化计算检索词与关键词之间的相关度,并按所述检索词与所述关键词相关度大小顺序将包含所述关键词的记录文献名输出,从而大大提高了记录文献的检索效率,并提供用户相关度排列好的记录文献名,有利于用户使用,提高了用户的检索体验。
【专利附图】

【附图说明】
[0019]图1是本发明实施例提供基于关键词的文献记录检索的流程图;
[0020]图2是本发明实施例提供的关键词网的组成示意图;
[0021]图3是本发明实施例提供的检索词与关键词之间相关度的雷达图;
[0022]图4是本发明实施例提供一记录文献检索例的示意图。
【具体实施方式】
[0023]下面结合附图及实施例详细说明本发明的【具体实施方式】。
[0024]众所周知,数据库中的每一篇文献,都会选择若干个关键词,用于表明与该文献紧密相关的信息。另外,一篇文献中的若干个关键词本身具备一定的相关性,不同的文献,当其描述的内容有一定的相关性时,这些文献的关键词也是具有相关性的,甚至会有个别关键词是相同的。本发明正是通过利用数据库中记录文献的关键词的上述性质,通过量化关键词间的关系,建立一关键词网,通过该关键网来实现快速检索的。
[0025]如图1所示,该图示出了本发明实施例提供的一种词与词之间的相关度算法的流程,为了便于说明,仅示出了与本发明实施例相关的部分。
[0026]请参阅图1,本发明实施例所述一种词与词之间的相关度算法,包括以下步骤:
[0027]SlOl:按数据库中所有记录文献的相关度值及相关距离值生成由所述所有记录文献的所有关键词构成的关键词网;
[0028]S102:用户输入检索词后,在所述关键词网中查找其关键词包含所述检索词的记录文献,并按所述检索词与所述关键词相关度大小顺序将包含所述关键词的记录文献名输出。
[0029]本发明实施例中,所述关键词网的生成步骤如下:
[0030]依据公式:记录文献A与记录文献B的相关度值=记录文献A与记录B的关键词重复个数的平方+记录文献A的关键词数量X记录文献A的关键词数量,计算所述数据库中每篇记录文献与其它记录文献的相关度值:
[0031]依据公式:记录文献A与记录B的距离=1-记录文献A与记录文献B的相关度值,计算所述数据库中每篇记录文献与其它记录文献的相关距离值;
[0032]本发明实施例中,根据所述数据库中每篇记录文献与其它记录文献的相关距离值形成以所述所有记录文献的关键词为节点的包含N层关键词节点的关键词网。[0033]所述每篇记录文献与其它记录文献的所述相关距离值为所述关键词网中各所述关键词节点间的距离。
[0034]本发明实施例中,所述在所述关键词网中查找关键词包含所述检索词的记录文献,并按所述检索词与所述关键词相关度大小顺序将包含所述关键词的记录文献名输出的步骤如下:
[0035]计算所述检索词与包含所述检索词的关键词的相关度值;
[0036]按所述相关度值的大小顺序将包含所述关键词的记录文献输出;
[0037]计算公式如下:
[0038]检索词与关键词的相关度值=N层关键词节点距离的平均值X关键词出现次数的平方根。
[0039]下面,依据具体的实施例对本发明进行详细说明。
[0040]准备若干文献的关键词数据,如下所示,其中,一条记录是一篇文献的关键词:
[0041]
【权利要求】
1.一种词与词之间的相关度算法,其特征在于,包括以下步骤: 按数据库中所有记录文献的相关度值及相关距离值生成由所述所有记录文献的所有关键词构成的关键词网; 用户输入检索词后,在所述关键词网中查找其关键词包含所述检索词的记录文献,并按所述检索词与所述关键词相关度大小顺序将包含所述关键词的记录文献名输出。
2.根据权利要求1所述一种词与词之间的相关度算法,其特征在于,所述关键词网的生成步骤如下: 依据公式:记录文献A与记录文献B的相关度值=记录文献A与记录B的关键词重复个数的平方+记录文献A的关键词数量X记录文献A的关键词数量,计算所述数据库中每篇记录文献与其它记录文献的相关度值: 依据公式:记录文献A与记录B的距离=1-记录文献A与记录文献B的相关度值,计算所述数据库中每篇记录文献与其它记录文献的相关距离值; 根据所述数据库中每篇记录文献与其它记录文献的相关距离值形成以所述所有记录文献的关键词为节点的包含N层关键词节点的关键词网。
3.根据权利要求2所述一种词与词之间的相关度算法,其特征在于,所述每篇记录文献与其它记录文献的所述相关距离值为所述关键词网中各所述关键词节点间的距离。
4.根据权利要求3所述一种词与词之间的相关度算法,其特征在于,所述在所述关键词网中查找关键词包含所述检索词的记录文献,并按所述检索词与所述关键词相关度大小顺序将包含所述关键词的记录文献名输出的步骤如下: 计算所述检索词与包含所述检索词的关键词的相关度值; 按所述相关度值的大小顺序将包含所述关键词的记录文献输出; 计算公式如下: 检索词与关键词的相关度值=N层关键词节点距离的平均值X关键词出现次数的平方根。
【文档编号】G06F17/30GK103970789SQ201310040098
【公开日】2014年8月6日 申请日期:2013年2月1日 优先权日:2013年2月1日
【发明者】尹科 申请人:北京英富森信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1