电子词典模糊检索方法

文档序号：6471754阅读：195来源：国知局

专利名称：电子词典模糊检索方法
技术领域：
本发明属于模式识别领域，特别是涉及一种电子词典模糊检索方法。
背景技术：
目前的电子词典主要是支持精确匹配或者前缀匹配，精确匹配是在输入词条完整无误时，电子词典才能给出正确的结果。以中英电子词典为例，输入中文词条"中国人民银行"，输出结果"People' s Bank of China",而输入"中国人们银行"或"申国人民银行"这样有错误单字的词条则没有正确的结果输出。前缀匹配是电子词典在输入词条仅有前几个字或者仅有前几个字正确的情况下，电子词典可以根据正确的前几个字给出一系列结果。以中英电子词典为例，输入中文词条"中国人们银行"，输出以"中国人"为前缀的词条的结果。如果输入"申国人民银行"则输出以"申"为前缀的词条的结果。目前的电子词典还没有支持模糊检索的。模糊检索是电子词典在输入词条中有若干错误单字时，仍然可以输出一系列对应的结果。以中英电子词典为例，输入"中国人民银行"、"中国人们银行"或"申国人民银行"均能检索到正确结果"People' s Bank of China ，，。在一款OCR (OCR, Optical Character Recognition,光学字符识别)翻译词典中 (即首先获得图像，然后进行OCR识别，最后使用电子词典进行翻译并且输出翻译结果)， OCR识别完成输出的识别结果可能有误识的字符，如果使用传统的检索方式很可能在词典中找不到检索结果，因此，如果电子词典能够具有模糊检索的功能，势必会提高检索精度。

发明内容
针对目前的电子词典不支持模糊检索的功能，本发明的目的就是设计一种电子词典模糊检索方法，以提高检索精度。为了实现本发明目的，本发明提出了一种电子词典模糊检索方法，所述电子词典包括储存有多个词条的词条词典、储存有多个关键词的关键词词典、以及关键词索引表；其中每个词条由一个或多个关键词组成，所述索引表记录了所述关键词词典的每一个关键词与所述词条词典中所有包含了该关键词的词条的对应关系，所述方法包括以下步骤
(a)分词对用户输入的单词使用关键词词典进行分词，将输入的单词分成一个或多个关键词； (b)计算编辑距离根据分词步骤得到的关键词从所述关键词索引表中检索到其中每个关键词对应的一个或多个词条，分别计算所述输入的单词与这些词条之间的编辑距离； (c)选取检索结果对编辑距离进行排序并选取至少一个编辑距离最小的词条作为检索结果。优选地，其中步骤(a)采用逆向最大切分法进行分词，将输入的单词分成若干个关键词。
3
优选地，其中步骤(b)中所述的编辑距离可以指的是让一词条S1变成另一词条S2
需要操作的字符之和，所述操作包括增加、删除、或替换字符。优选地，其中步骤(c)后面还包括显示检索结果的步骤。优选地，其中所述的词条词典为支持精确匹配或前缀的电子词典。优选地，其中步骤(a)前还包括首先对用户输入的单词进行精确匹配检索，如果
找到精确匹配检索则直接显示该精确匹配检索结果。本发明具有积极的效果由于能够支持模糊检索，使得用户在输入词条中有若干错误单字时，原本通过传统精确检索方式不能检索到的结果，通过本发明的方法和装置很快就得到检索结果，既提高了速度，也提高了检索精度。本发明可用于手写输入的电子词典；以及OCR翻译词典中。

图1为本发明的词典结构图；图2为本发明检索流程中模糊检索的流程示意图。
具体实施例方式
下面结合附图详细说明本发明的支持模糊检索的电子词典。本发明的支持模糊检索的电子词典的数据结构，如图1所示，包括一个词条词典 10和一个关键词词典20。词条词典10指的是传统的电子词典，以中英电子词典为例包含一系列如"中国人民银行"这样的词条。关键词词典20包含了词条词典中每个词条可以分成的关键词，如"中国人民银行"包括了 "中国"、"人民"、"银行"三个关键词。而且本发明的支持模糊检索的电子词典还包括一个关键词索引表(图中未示)，该索引表记录了关键词词典20的每一个关键词与词条词典10中所有包含了该关键词的词条的对应关系，一般而言，一个关键词对应有几个词条。如图l所示，关键词"人民"在关键词词典中记录了所有包含关键词"人民"的词条(如"中国人民"、"人民群众"等)在词条词典中的索弓l。索引关系请看图l中的箭头。所述的词条词典10即支持精确匹配或前缀的电子词典的实现，可以使用多种数据结构(Hash表、搜索树、Trie树等)。本发明采用了双数组Trie树来实现。双数组Trie 树的数据结构是两个线性数组，一个是base数组，一个是check数组。base数组用于确定状态的转移，check数组用于检验转移的正确性。以汉英词典为例，首先把所有GB2312中的基本汉字转化成1-6768的顺序码，以作为状态转换的基本量值；然后将所有汉字的顺序码作为初始状态放入base数组；接下来将不同词条的后续汉字顺序码放进数组，生成新的状态，并对数组中初始状态的base值进行调整，以保证所有后续汉字能够放入数组；以此类推，直到将所有词条状态存入数组；同时用负值表示双数组Trie树的终止状态。
所述的关键词词典20的实现，也可以使用多种数据结构(Hash表、搜索树、Trie树等)。同词条词典lO—样，本发明采用了双数组Trie树来实现，并且在每个关键词结构中添加了一个索引列表来记录所有包括该关键词的词条在词条词典10中的索引。
如图1所示的本发明词典结构的构建方法如下 1)将包含所有词条的词条库中的每个词条分成关键词，并且保持关键词与其在原词条中的语义相同。组成关键词库。如"中国人民银行"分成了"中国"、"人民"、"银行"三
个关键字。 2)将这样的关键词库建立成关键词词典20。 3)使用根据词条库建立的词条词典IO，建立这两个词典的同时，对应于每个关键词有一个关键词索引表，该索引指向一个或多个词条，如"中国人民银行"分别要在"中国"、 "人民"、"银行"三个关键词的索引表中记录"中国人民银行"在词条词典10中的索引。
本发明的支持模糊检索的电子词典的检索方法，首先对用户输入的单词进行传统的精确匹配检索，如果找到精确匹配检索则直接显示该精确匹配检索结果；如果不能找到，则进行本发明的模糊检索。图2为本发明一个实施例中检索流程中模糊检索的流程示意图。模糊匹配检索包括以下步骤步骤210，首先对输入的单词使用关键词词典20采用逆向最大切分法进行分词，将输入的单词分成若干个关键词，如将"中国人民银行"分成"中国"、"人民"、"银行"三个关键词；如果有分词结果则进入下个步骤，否则显示未检索到；该步骤的分词结果得到了一个或多个关键词。步骤220，根据分词结果得到的关键词从索引表中检索到其中每个关键词对应的词条，分别计算输入的单词与这些词条之间的编辑距离，如检索"申国人民"时，词条被分成的关键词为"申"、"国"、"人民"，其中选取最长的关键词"人民"在索引表中对应的词条有 "中华人民共和国"、"中国人民"、"人民银行"、"人民解放军"等，与输入词条"申国人民"的编辑距离分别为"中华人民共和国"-5(两次替换操作，"申国"= >中华；三次插入操作，插入"共和国")，"中国人民"-1(一次替换操作，"申"=>"中")，"人民银行"_4(两次删除操作，删除"申国";两次插入操作，插入"银行")，"人民解放军"_5 (两次删除操作，删除"申国"；三次插入操作插入"解放军")等。在本发明中，用"编辑距离"来衡量两个词条的相似性，指的是让一词条Sl变成另一词条S2需要的操作(增加，删除，替换)的字符之和。在中文中一和汉字算一个字符，在英文或其他拼音语言中一个字母算一个字符，例如Sl ="申国人民"和S2 ="中国人民"则可以将S1中的"申"替换成"中"得到"中国人民"与S2 —致，由于进行了一次替换操作，在这里编辑距离为1。步骤230，对编辑距离从小到大排序进行排序，如前一步骤中的词条列表根据编辑距离从小到大排序，得到"中国人民"-l，"人民银行"-4，"中华人民共和国"-5，"人民解放军"-5 ; 步骤240，返回编辑距离最小的词条结果或者编辑距离较小的几个词条的结果，如在前一步骤中检索"申国人民"时，由于"中国人民"的编辑距离最小为l，所以返回词条"中国人民"及其对应解释。通过本发明方法检索后得到的结果可以输送到显示器等装置，也可以送至其他模块进行进一步的数据处理，因不是本发明重点，不再详述。本发明还提供了基于上述电子词典模糊检索方法的模糊检索装置，电子词典包括储存有多个词条的词条词典、储存有多个关键词的关键词词典、以及关键词索引表；其中每个词条由一个或多个关键词组成，索引表记录了关键词词典的每一个关键词与词条词典中所有包含了该关键词的词条的对应关系，模糊检索装置包括以下模块 (a)分词对用户输入的单词使用关键词词典进行分词，将输入的单词分成一个或多个关键词； (b)计算编辑距离根据分词模块得到的关键词从关键词索引表中检索到其中每个关键词对应的一个或多个词条，分别计算输入的单词与这些词条之间的编辑距离；
(c)选取检索结果对编辑距离进行排序并选取至少一个编辑距离最小的词条作为检索结果。其中模块(a)采用逆向最大切分法进行分词，将输入的单词分成若干个关键词。
其中模块(b)中的编辑距离指的是让词条SI变成词条S2需要操作的字符之和，操作包括增加、删除、或替换字符。其中模块(c)后面还包括显示检索结果的模块。
其中词条词典为支持精确匹配或前缀的电子词典。其中模块(a)前还包括以下模块首先对用户输入的单词进行精确匹配检索，如果找到精确匹配检索则直接显示该精确匹配检索结果。本发明还提供对应于上述检索方法和检索装置的电子词典，包括储存有多个词条的词条词典，还包括储存有多个关键词的关键词词典；
关键词索引表；以及如前面技术方案中的模糊检索装置；其中每个词条由一个或多个关键词组成，索引表记录了关键词词典的每一个关键词与词条词典中所有包含了该关键词。本发明可用于很多场合，可用于手写输入的电子词典；也可用于如前面提到的一款OCR翻译词典中，OCR识别完成输出的识别结果可能有误识的字符，如果使用传统的检索方式很可能在词典中找不到检索结果，但是使用本发明的词典进行模糊检索就能检索到用户需要的结果，提高了用户的满意度。应该注意的是上述实施例是示例而非限制本发明，本领域技术人员将能够设计很多替代实施例而不脱离附后的权利要求书的范围。
权利要求
一种电子词典模糊检索方法，其特征是所述电子词典包括储存有多个词条的词条词典、储存有多个关键词的关键词词典、以及关键词索引表；其中每个词条由一个或多个关键词组成，所述索引表记录了所述关键词词典的每一个关键词与所述词条词典中所有包含了该关键词的词条的对应关系，所述方法包括以下步骤(a)分词对用户输入的单词使用关键词词典进行分词，将输入的单词分成一个或多个关键词；(b)计算编辑距离根据分词步骤得到的关键词从所述关键词索引表中检索到其中每个关键词对应的一个或多个词条，分别计算所述输入的单词与这些词条之间的编辑距离；(c)选取检索结果对编辑距离进行排序并选取至少一个编辑距离最小的词条作为检索结果。
2. 如权利要求1所述的方法，其特征是步骤(a)采用逆向最大切分法进行分词，将输入的单词分成若干个关键词。
3. 如权利要求1或2所述的方法，其特征是步骤(b)中所述的编辑距离指的是让一词条SI变成另一词条S2需要操作的字符之和，所述操作包括增加、删除或替换字符。
4. 如权利要求1所述的方法，其特征是步骤(C)后面还包括显示检索结果的步骤。
5. 如前面任何一项权利要求所述的方法，其特征是所述的词条词典为支持精确匹配或前缀的电子词典。
6. 如前面任何一项权利要求所述的方法，其特征是步骤(a)前还包括首先对用户输入的单词进行精确匹配检索，如果找到精确匹配检索则直接显示该精确匹配检索结果。
全文摘要
本发明涉及一种电子词典模糊检索方法，属于模糊识别领域，该电子词典包括储存有多个词条的词条词典、储存有多个关键词的关键词词典、以及关键词索引表；其中每个词条由一个或多个关键词组成，索引表记录了每一个关键词与包含该关键词的词条的对应关系，方法包括以下步骤将用户输入的单词分成一个或多个关键词；检索每个关键词对应的一个或多个词条，分别计算输入的单词与这些词条之间的编辑距离；对编辑距离进行排序并选取至少一个编辑距离最小的词条作为检索结果。由于支持模糊检索，使得用户在输入词条中有若干错误单字时，原本通过传统精确检索方式不能检索到的结果，通过本发明的方法很快就得到检索结果。
文档编号G06F17/30GK101751430SQ20081023954
公开日2010年6月23日申请日期2008年12月12日优先权日2008年12月12日
发明者朱军民, 王琛申请人:汉王科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王琛;朱军民
技术所有人：汉王科技股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。