一种用于环境保护法规检索的关联优先排序方法

文档序号:9579344阅读:338来源:国知局
一种用于环境保护法规检索的关联优先排序方法
【技术领域】
[0001] 本发明涉及一种用于环境保护法规检索的关联优先排序方法,属于知识发现领 域。
【背景技术】
[0002] 信息爆炸是当今信息社会的一大特点,从web上进行搜索会查询到大量冗余繁琐 信息,需要我们再逐一去筛选来获得我们想要的信息。因而如何快速找到一种方法,给用户 更简洁的呈现出更有意义的信息成为了一个关键的问题。因此,为解决这一问题,提出知识 发现,知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式 的非平凡过程。目的是向使用者屏蔽原始数据的繁琐细节,从原始数据中提炼出有意义的、 简洁的知识,直接向使用者报告。为了向使用者提供更有意义的信息,本方法被提出来,它 通过计算元素与元素之间的距离,即关联度,以最快的方式寻找到与使用者想搜索的信息 的距离最优的词语组合,然后对应索引目录快速准确查找出更有意义的信息,即用户所需 要信息。

【发明内容】

[0003] 本发明提供了一种用于环境保护法规检索的关联优先排序方法,以用于解决快速 查找用户所需要信息的问题。
[0004] 本发明的技术方案是:一种用于环境保护法规检索的关联优先排序方法,首先对 环保法律法规检索系统构建一个关键词表A、关键字表B;然后清洗用户输入的数据并提炼 候选词;最后根据候选词的个数,计算距离并排序输出。
[0005] 所述用于环境保护法规检索的关联优先排序方法的具体步骤如下:
[0006] St印1、首先建立系统模型:
[0007] 对环保法律法规检索系统构建一个关键词表A、关键字表B;其中,关键词表A:存 储着法规名称及法规中抽取出来的t组关键词;关键字表B:存储着关键词表A中每个关键 词拆分成的不同字m个及各个字之间的特征值Aij;Aij表示角标为i和j所代表的字的组 合出现在关键词表A中的频数,角标i、j为关键词表A中每个关键词拆分成的不同字在关 键字表B中的标记;
[0008] St印2、清洗用户输入的数据并提炼候选词:
[0009] 针对用户输入的数据进行分词并去除停用词,将剩余的分词作为候选词;
[0010] Step3、根据候选词的个数,计算距离并排序输出:
[0011] St印3. 1、若候选词个数为1时:
[0012] 从关键字表B中获取与候选词的首字X联结的字、首字X之间的特征值Aix、获取 尾字y、与尾字y联结的字之间的特征值Ayj;计算Aix辛0情况下首字与关键字表B中字 的距离dix且得到ixy对应的词组合,计算Ayj辛0情况下尾字与关键字表B中字的距离 dyj且得到xyj对应的词组合;根据dix、dyj从小到大的顺序排列其对应的词组合;根据词 组合的顺序,将词组合与关键词表A中的关键词进行匹配获取对应的法规名称,将匹配的 结果去除重复后按照顺序显示;其中,当出现dix=dyj,则dix、dyj对应的词组合进行随 机排序;
[0013] St印3. 2、若候选词个数不为1时:
[0014] 将多个候选词按输入顺序排列,分别计算相邻两个候选词中先输入的候选词的尾 字u与后输入的候选词的首字v的距离duv及对应的两个候选词构成的词组合;从关键字 表B中获取与各个候选词的首字X联结的字、首字X之间的特征值Aix、获取尾字y、与尾字 y联结的字之间的特征值Ayj;计算Aix辛0情况下首字与关键字表B中字的距离dix且得 至IJixy对应的词组合,计算Ayj辛0情况下尾字与关键字表B中字的距离dyj且得到xyj对 应的词组合;根据duv、diX、dyj从小到大的顺序排列其对应的词组合;根据词组合的顺序, 将词组合与关键词表A中的关键词进行匹配获取对应的法规名称,将匹配的结果去除重复 后按照顺序显示;其中,当出现duv=dix=dyj,则仅仅保留duv对应的词组合进行排序, 当出现dix=dyj,则dix、dyj对应的词组合进行随机排序;
[0015] 所述u、v、x、y为字在关键字表B中的标记。
[0016]
I其中Auv、Aix、Ayj分别表示角标 为u、v所代表的字的组合,角标为i、x所代表的字的组合,角标为y、j所代表的字的组合出 现在关键词表A中的频数;duv、dix、dyj分别表示角标为u、v所代表的字,角标为i、X所 代表的字,角标为y、j所代表的字的距离。
[0017] 本发明的有益效果是:
[0018] 采用索引的方式,将庞大的信息源提炼成一个关键词表,作为整个信息源的目录 索引。因此,只要与索引匹配查询便能快速的在庞大的信息源中找到有意义的信息,进一步 提高检索效率。
[0019] 采用计算整个关键词库中各个独立汉字之间的距离,将其距离值存储在关键字表 中。因此在查询匹配的时候就只需要去寻找距离值最小的元素就能找到关联度很高的词语 或词组。在提高检索效率的同时,也提高了检索结果与搜索意图之间关联度的准确性。
【附图说明】
[0020] 图1为本发明元素间距离网状示意图;
[0021] 图2为本发明元素间距离网状实例示意图。
【具体实施方式】
[0022] 实施例1 :如图1-2所示,一种用于环境保护法规检索的关联优先排序方法,首先 对环保法律法规检索系统构建一个关键词表A、关键字表B;然后清洗用户输入的数据并提 炼候选词;最后根据候选词的个数,计算距离并排序输出。
[0023] 所述用于环境保护法规检索的关联优先排序方法的具体步骤如下:
[0024] St印1、首先建立系统模型:
[0025] 对环保法律法规检索系统构建一个关键词表A、关键字表B;其中,关键词表A:存 储着法规名称及法规中抽取出来的t组关键词;关键字表B:存储着关键词表A中每个关键 词拆分成的不同字m个及各个字之间的特征值Aij;Aij表示角标为i和j所代表的字的组 合出现在关键词表A中的频数,角标i、j为关键词表A中每个关键词拆分成的不同字在关 键字表B中的标记;
[0026]St印2、清洗用户输入的数据并提炼候选词:
[0027] 针对用户输入的数据进行分词并去除停用词,将剩余的分词作为候选词;
[0028]Step3、根据候选词的个数,计算距离并排序输出:
[0029]St印3. 1、若候选词个数为1时:
[0030] 从关键字表B中获取与候选词的首字X联结的字、首字X之间的特征值Aix、获取 尾字y、与尾字y联结的字之间的特征值Ayj ;计算Aix辛0情况下首字与关键字表B中字 的距离dix且得到ixy对应的词组合,计算Ayj辛0情况下尾字与关键字表B中字的距离 dyj且得到xyj对应的词组合;根据dix、dyj从小到大的顺序排列其对应的词组合;根据词 组合的顺序,将词组合与关键词表A中的关键词进行匹配获取对应的法规名称,将匹配的 结果去除重复后按照顺序显示;其中,当出现dix = dyj,则dix、dyj对应的词组合进行随 机排序;
[0031] St印3. 2、若候选词个数不为1时:
[0032] 将多个候选词按输入顺序排列,分别计算相邻两个候选词中先输入的候选词的尾 字u与后输入的候选词的首字v的距离duv及对应的两个候选词构成的词组合;从关键字 表B中获取与各个候选词的首字X联结的字、首字X之间的特征值Aix、获取尾字y、与尾字 y联结的字之间的特征值Ayj ;计算Aix辛0情况下首字与关键字表B中字的距离dix且得 至IJ ixy对应的词组合,计算Ay j辛0情况下尾字与关键字表B中字的距离dyj且得到xyj对 应的词组合;根据duv、diX、dyj从小到大的顺序排列其对应的词组合;根据词组合的顺序, 将词组合与关键词表A中的关键词进行匹配获取对应的法规名称,将匹配的结果去除重复 后按照顺序显示;其中,当出现duv = dix = dyj,则仅仅保留duv对应的词组合进行排序, 当出现dix = dyj,则dix、dyj对应的词组合进行随机排序;
[0033]所述u、V、X、y为字在关键字表B中的标记。
[0034]
其中Auv、Aix、Ayj分别表示角标 为u、v所代表的字的组合,角标
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1