具有搜索相似特性字词能力的资料查询方法及搜索引擎服务器的制作方法

文档序号:6465806阅读:201来源:国知局
专利名称:具有搜索相似特性字词能力的资料查询方法及搜索引擎服务器的制作方法
技术领域
本发明涉及一种资料查询方法及系统,特别是涉及一种允许输入的 查询条件或资料库的内容有误的具有搜索相似特性字词能力的资料查询 方法及系统。
背景技术
随着科技发展,人们已习惯利用各种搜索引擎来查询包含特定内容
的资料。以因特网来说,著名的搜索引擎例如Google、 Yahoo,使用者需 输入关键词当作查询条件;另有例如酷比(Scupio)搜索引擎,查询条件 除了关键词的外,还可以是整篇或段落文章。前述查询条件,通常是由 使用者以键盘键入的方式输入,或由网页文章进行选取,但也可能通过 手写辨识装置输入查询条件,或通过光学字符辨识(Optical Character Recognition, OCR)技术将纸本转换得到的数字文字资料。再以语音查 询搜索引擎来说,使用者输入查询条件的方式更有别于前者,是利用例 如电话语音的方式输入。
然而,不论是键入关键词,或手写辨识、光学字符辨识、语音辨识 技术,都难以确保百分之百的正确率,实际上常会发生键入相似形状或 发音的字或词,或辨识成相似形状或发音的字或词的状况。举例来i兌, 使用者欲查询"遠東飯店",若以仓颉输入法打字或通过光学字符辨识, 输入条件可能会变成形状相似的"""還柬飯店",因为"遠"与"還", 以及"東,,与"柬,,形状非常相似;若以注音输入法打字或通过语音辨 识,可能会变成"元通飯店",因为"遠"与"元",以及"東"与"通" 在发音上非常相似。
以目前技术来说,当所输入的查询条件因为打错字或辨识错误而与 使用者想查询的内容有所出入,搜索引擎将无法查询到所需要的资料。另一方面,也有可能使用者所输入的查询条件是正确的,但搜索引 擎所连接的资料库中资料内容有错别字,甚至有些资料因为翻译、口传, 或存在别名的原因,以致有不同的文字形态,例如"遠東飯店,,也常被 称"遠東大飯店,,,在此情况下,搜索引擎也可能查询不到所需要的资料。
为解决上述问题,目前大多是着重于提高光学字符辨识及语音辨识 技术的辨识正确率,但即便辨识正确率可利用校正方式而稍微提高,但 输入关键词时打错字、资料库本身存在错别字缺陷,或者所查询的名称 有别名等状况,仍无法克服。

发明内容
本发明的目的是在提供一种具有搜索相似特性字词能力的资料查询 方法及搜索引擎服务器。
于是,本发明搜索引擎服务器包含一利用文字特性扩大查询范围的 系统,及一与利用文字特性扩大查询范围的系统连接的搜索单元。搜索 单元还与一资料库连接。
利用文字特性扩大查询范围的系统包括一供接收一查询条件的接收 模块、 一与接收模块连接且供撷取查询条件中的字的撷取模块、至少一 与该撷取才莫块连接且将纟皮撷取的字进行编码后存回该撷取才莫块的编码 器、 一与该撷取模块连接且内建一相似字表的对比模块,及一与该撷取 模块及该对比模块连接的替换模块。
前述编码器所采编码方式与文字的一种特性相关。对比模块的相似 字表上列举具有有相似特性的字,所述具有相似特性的字事先以该至少 一编码器编码处理过,对比模块将被撷取的字的字码与该相似字表对比, 得到对比结果为相似的字。替换模块以对比模块所得到的相似字对该查 询条件中的对应字进行替换,得到至少一个"相似查询条件"。搜索单 元则依据"查询条件"与"相似查询条件"在该资料库中进行搜索,并 将符合查询条件与该相似查询条件的资料输出。
本发明的搜索引擎服务器执行具有搜索相似特性字词能力的资料查
6询方法,包含以下步骤
(A) 接收一查询条件。
(B) 撷取查询条件中的字和/或词,对应地组成一字组和/或词组或 字词组,以下简称字词组。
(C) 针对该字词组中的字和/或词,依其至少一特性以与该特性相 关的编码方式进4于编码,产生对应的字码和/或词码。
(D )使每一字码和/或词码与一事前建立的相似字词表进行对比, 其中,该相似字词表上列举具有有相似特性的字、词其中至少一个,并 以与步骤(c)所采相同的编码方式进行过编码处理。
(E) 以对比结果为相似的字和/或词对该查询条件中的对应字和/或 词进行替换,得到至少一个"相似查询条件",定义该查询条件与该相 似查询条件总称为"扩大查询条件"。
(F) 依据该"扩大查询条件",在一资料库中进行搜索,将符合"扩 大查询条件"的资料输出。
本发明的有益效果在于可在不校正输入的查询条件以及资料库内 容的情况下,依据查询条件的字或词的形、音等文字特性,查询到所需 要的资料。


图l是一方框图,说明本发明搜索引擎服务器的优选实施例; 图2是一流程图,说明该搜索引擎服务器的演算流程。
具有体实施方式
下面结合附图及实施例对本发明进行详细说明
参阅图1,本发明搜索引擎服务器100的优选实施例包含一利用文字 特性扩大查询范围的系统1、及一与该系统1及一资料库4连接的搜索单 元2。该利用文字特性扩大查询范围的系统1也可独立安装至其它现有的 搜索引擎,使现有搜索引擎也能具有有搜索相似特性的字词的能力。
该系统1则包括一供接收一查询条件30的接收模块11 、 一与接收模块11连接且用以撷取查询条件30中的字及词而产生字词组的撷取模块 12、与撷取模块12连接且用以对字及词进行编码的一形编码器131与一 音编码器132、 一与撷取模块12连接且内建一相似字词表140的对比模 块14、及彼此相互连接的一用以产生"相似查询条件31"的替换模块15、 与一用以产生"减字查询条件32"的减字模块16。
其中,本实施例的撷取模块12是以撷取查询条件30中的字及词举 例说明,对比模块14中的"相似字词表,,内容包含字及词,但不以此为 限。本发明的撷取模块12也可以设定为只撷取字或只撷取词;当撷取模 块12设定为只撷取字,对比模块14的相似字词表140应缩减为"相似 字表";当撷取模块12设定为只撷取词,对比模块14的相似字词表140 应缩减为"相似词表"。此外,虽本实施例的撷取模块12是设定为撷取 字及词,但若由该查询条件30中撷取不出词,也会有字词组中只包含字 的情况。事实上,词乃多个字所组成,原则上只要取字作后续运算即可 达到本发明的目的,但由于有些口语连音的关系,有些词不容易被细分 出字,这状况在网络盛行的现代更加常见,因此以针对字及词都进行撷 取较佳。
配合参阅图2,该搜索引擎服务器100执行本发明的具有搜索相似特 性字词的能力的资料查询方法,该方法的优选实施例包含以下步骤
步骤Si—接收模块11接收查询条件30。该查询条件30 —般来说是 使用者以键入方式输入的关键词,但也可以是通过选取、手写辨识、光 学字符辨识、或语音输入等方式输入的关键词、句子或文章段落。以下 以查询条件30为"遠東飯店"举例说明。
步骤S2—撷取;f莫块12撷取查询条件30 "遠東飯店"中的字及词,组 成内容为"遠東、飯店、遠、東、飯、店"的字词组。
接着,字词组分别利用形编码器131及音编码器132进行编码步骤 S31、 S32,该两个编码步骤可同步进行,也可一先一后进行且顺序不限。
步骤Sn—形编码器131将字词组中的每一字、每一词依字形进行编 码,而产生字形码及词形码。本实施例以编码方式为仓颉输入法举例说 明,因此例如"遠東,,的词形码为"卜土口女木田","遠,,的字形码为
8"卜土口女",東的字形码为"木田"。当然,编码方式不以此为限,也可 以是五笔输入法、四角号码检字法、大易、无虾米、速成输入法等任何 与字形相关的编码方式。
步骤S32—音编码器132将字词组中的每一字、每一词依发音进行编 码,而产生字音码及词音码。本实施例以编码方式为罗马拼音举例说明, 因此例如"遠東,,的词音码为"yuandong","遠,,的字音码为"yuan", "東"的字音码为"dong"。当然,编码方式不以此为限,也可以是注音、 通用拼音、汉语拼音等任何与发音相关的编码方式。
上述字形码、词形码、字音码及词音码仍存于撷取^t块12的字词组 中,并由对比模块14进行接续的步骤S41 、 S42与S43。对比模块14中的 相似字词表140上列举具有有相似特性的字及词,并已事先经形编辑器 131以仓颉输入法进行过编码处理,产生"相似字词形表,,,也经音编辑 器132以罗马拼音进行过编码处理,产生"相似字词音表"。
步骤S"—接续步骤S^将字词组中的字形码、词形码与"相似字词 形表"进行对比,寻找形相似者, 一般来说,先比词在比字,但不以此 为限。在本实施例,相似与否的判断是利用量化的相似度,其计算方式 例如
1. "遠"的字形码是"卜土口女",而相似字词形表中的"還"的 字形码是"卜田中女,,,则四码中二码,"還,,字与"遠,,字的相似度为 2/4 = 50%。
2. "東,,的字形码是"木田,,,而相似字词形表中的"柬,,的字形 码是"木田火",则三码中二码,"柬,,字与"東,,字的形相似度为2/3 =67%。
步骤S42—接续步骤S32,将字词组中的字音码、词音码与"相似字词 音表"进行对比,寻找发音相似者, 一般来说,先比词在比字,但不以 此为限。在本实施例,相似与否的判断是利用量化的相似度,其计算方 式例i口
1."遠"的字音码是"yuan",而相似字词音表中的"元"的字音 码是"yuan",则四码完全相同,"元,,字与"遠,,字的音相似度为4/4=100%。
2."東"的字音码是"dong",而相似字词音表中的"通"的字音 码是"tong,,,则四码中三码,"通"字与"東"字的相似度为3/4 = 75% 。
本发明判断是否相似的方式不以量化相似度为限,且即便计算相似 度,也不以上述计算公式为限,可以调整为其它计算公式。举例来说, 若音编码器132是采注音编码,"遠"的字音码是"U弓v","旋"的字 音码是"丁U弓'","旋"字与"遠"字的音相似度可等于[2*2 (因为 重叠两码)]/[3 (遠有三码)+4 (旋有四码)]=4/7=57%。
步骤S"—对比模块14预设一相似度的门檻值,例如50%,高于该 门槛值的字词被判断为相似,接着进行步骤S5,相等或低于该门槛值的 字词,则被判断为不相似,将不进行后续演算流程。因此,以上述例子 来说,"還"及"柬"的形相似度高于门槛值,"元"及"通"的音相似 度也高于门搵值。
值得一提的是,本发明也可以只针对字形或发音其中的单一种文字 特性去扩大查询条件,也就是说,本发明可以只采形编码器131、音编码 器132其中一者进行编码,只用一种对比方式,不一定形、音两种编码 及对比步骤都进行。
步骤Sn—替换模块15将相似度高于门槛值的字及词,对查询条件 30 "遠東飯店"中的对应字及词进行替换,得到例如"還東飯店"、"遠 柬飯店"、"元東飯店"、"遠通飯店"等"相似查询条件31",同时计算得 分。分lt计算方式举例如下,但不以此方式为限。
"還東飯店":(50%+100%+100%+100%)/4=87. 5% "遠柬飯店":(100%+67%+100%+100%)/4=91. 75% "元東飯店":(100%+100%+100%+100%)/4 = 100% "遠通飯店,,(100%+75%+100%+100%)/4=93. 75 % 步骤Ss2—替换模块15接着判断"相似查询条件31"的分数是否高 于一预设的门槛值,在此的门槛值可与对比模块14的相同,也可提高为 例如75%或降低,若高于该门檻值,则进入步骤Ss3—连同原查询条件30定义为"扩大查询条件33",若相等或低于该门槛值,则不列入计算。
步骤S"—减字模块16预设有减字量,并将查询条件30与相似查询 条件31进行减字,得到"减字查询条件32"并计算得分。举例来说,减 字模块16预设减字数量为一,则"遠柬飯店"经过减字模块16处理后,
得到"柬飯店"、"遠飯店"、"遠柬店"、"遠柬飯,,这四个"减字查询条 件32"。减字查询条件32的分数需以原分数乘上一权重,本例因四字减 一字,权重为3/4,因此该四个减字查询条件32的分数皆为91.75% *3/4=68. 81%。
步骤S62—减字模块16接着判断"减字查询条件32"的分数是否高 于一预设的门槛值,在此的门槛值可与替换模块15的75%相同,也可稍 微降低或提高。若高于该门槛值,则进入步骤S63—并入"扩大查询条件 33",若相等或低于该门槛值,则不列入计算。
步骤S7—搜索单元2设定"容许间隔距离d",在此以d=2举例说明, 搜索单元2针对每一查询条件30、相似查询条件31、及减字查询条件32 的字与字间插入空格,空格数n^d,得到"容许间隔的查询条件",并并 入"扩大查询条件33",再以该"扩大查询条件33"在资料库4中搜索 资料。
当然,该步骤的演算方式不以上述为限,原则是当查询条件30、相 似查询条件31或减字查询条件32的字词出现在资料库4的一资料中但 出现的位置不同,只要字与字间的间隔距离在该设定的字符间隔距离d 的内,则该资料在下一步骤中将被认定为符合"扩大查询条件"。
步骤Ss—搜索单元2在资料库4中搜索符合"扩大查询条件33"的 资料,并针对搜索到的资料计算得分。举例来说,有一资料内容出现"遠 柬大旅店",以查询条件30 "遠東飯店"来说, 一般搜索引擎是不可能找 出该资料的,但本发明经过替换模块15以相似字形替换得到"遠柬飯店 (91.75%)",又经过减字模块16得到"遠柬店(68.81%)",且容许间 格距离,因此找到"遠柬大旅店,,的第一、二、五个字符合扩大查询条 件一"遠柬店",分数可以是68. 81%*3/5 = 41.29%。
步骤S9—搜索单元2接着判断该资料的分数是否高于一预设的门槛
ii值,在此的门槛值可与前述相同,但通常也可降低为例如40%,若高于 该门槛值,则进行输出,若相等或低于该门槛值,则不输出。输出方式 可依得分作递减排列,使最高分的资料出现在最前面,方便使用者选择 分数高者。
由以上可知,若使用者输入关4定词时误植错别字、或光学字符辨识、 语音辨识有误,甚或资料库中的资料内容有误,对一般搜索引擎来说几 乎不可能找回使用者真正想搜索的资料,但利用本发明的搜索引擎,依 然有机会找到该资料,且每一份输出的资料包含得分,使用者可利用该 得分选择要看的资料。综上所述,本发明利用文字特性扩大查询范围的 方法,使资料搜索的条件可扩及形、音等文字特性与该条件相似者,借 此在不校正输入的查询条件以及资料库内容的情况下,使用者仍可查询 到所需要的资料,确实可达到本发明的目的。
以上所述,^又为本发明的优选实施例,不能以此限定本发明实施的 范围,即凡依本发明申请专利范围及发明说明内容所作的简单的等效变 化与修饰,仍属本发明专利涵盖的范围。
权利要求
1.一种具有搜索相似特性字词能力的资料查询方法,其特征在于包含以下步骤(A)接收一查询条件;(B)撷取该查询条件中的字、词其中至少一个,组成一字词组;(C)针对该字词组中的字词,依其至少一特性以与所述特性相关的编码方式进行编码,产生对应的字码、词码;(D)使每一字码、词码与一事前建立的相似字词表进行对比,所述相似字词表上列举具有相似特性的字、词其中至少一个,并以与步骤(C)所采相同的编码方式进行过编码处理;(E)以对比结果为相似的字词对所述查询条件中的对应字词进行替换,得到至少一个“相似查询条件”,定义所述查询条件与所述相似查询条件总称为“扩大查询条件”;及(F)依据所述“扩大查询条件”,在一资料库中进行搜索,将符合“扩大查询条件”的资料输出。
2. 根据权利要求1所述的具有搜索相似特性字词能力的资料查询方法,其特;f正在于所述步骤(C)是依字形、字音其中至少一特性,对字词进4于编;马。
3. 根据权利要求1所述的具有搜索相似特性字词能力的资料查询方法,其特征在于所述步骤(D)所作的对比结果以量化的相似度表示;所述相似度与码的相同率相关;所述步骤(E)只有相似度达一门槛值的字词才对所述查询条件中的对应字词进行替换。
4. 根据权利要求1 3中任一项所述的具有搜索相似特性字词能力的资料查询方法,其特征在于所述步骤(D)所作的对比结果以量化的相似度表示;所述步骤(E)还利用所述相似度对所述"相似查询条件"计算分数,只有达一门槛值的相似查询条件,才并入"扩大查询条件"。
5. 根据权利要求4所述的具有搜索相似特性字词能力的资料查询方法,其特征在于所述方法还包含一步骤(F)前的步骤(G),设定减字量,并针对所述查询条件及"相似查询条件"进行减字,得到"减字查询条件"并并入所述"扩大查询条件"。
6. 根据权利要求1 3中任一项所述的具有搜索相似特性字词能力的资料查询方法,其特征在于所述步骤(F)还设定"容许间隔距离",若所述"扩大查询条件"的字词出现在所述资料库的一资料中但出现的位置不同,但字与字间的间隔距离在所述设定的字符间隔距离的内,则所述资料被认定为符合所述扩大查询条件。
7. 根据权利要求4所述的具有搜索相似特性字词能力的资料查询方法,其特征在于所述步骤(F)还设定"容许间隔距离",若所述"扩大查询条件"的字词出现在所述资料库的一资料中但出现的位置不同,但字与字间的间隔距离在所述设定的字符间隔距离的内,则所述资料被认定为符合所述扩大查询条件。
8. —种搜索引擎服务器,与一资料库连接,其特征在于所述服务器包含一利用文字特性扩大查询范围的系统,所述系统包括一接收模块,供接收一查询条件,一撷取模块,与所述接收模块连接,供撷取所述查询条件中的字,至少一编码器,与所述撷取模块连接,将被撷取的字进行编码后存回所述撷取模块,每一编码器所采编码方式与文字的一种特性相关,一对比模块,与所述撷取模块连接,内建一相似字表,所述相似字表上列举具有有相似特性的字,所述具有相似特性的字事先以所述至少一编码器编码处理过,所述对比模块将所述被撷取的字的字码与所述相似字表对比,得到对比结果为相似的字,及一替换模块,与所述撷取模块及所述对比模块连接,以所述对比模块所得到的相似字对所述查询条件中的对应字进行替换,得到至少一个"相似查询条件";及一搜索单元,与所述利用文字特性扩大查询范围的系统以及所述资料库连接,依据所述查询条件与所述相似查询条件在所述资料库中进行搜索,并将符合查询条件与所述相似查询条件的资料输出。
9. 根据权利要求8所述的搜索引擎服务器,其特征在于所述撷取模块将所撷取的字依字形及字音其中至少一者进行编码,获得对应的字形码及字音码其中至少 一个;所述相似字表上对应列举字形相似的字及发音相似的字其中至少一个。
10. 根据权利要求9所述的搜索引擎服务器,其特征在于所述撷取模块还撷取所述查询条件中的词,并将所述词依字形及字音其中至少一者进行编码,获得对应的词形码及字音码其中至少一个;所述相似字表扩张为相似字词表,其中对应列举字形相似的字及词、发音相似的字及词其中至少一个。
11. 根据权利要求8-10中任一项所述的搜索引擎服务器,其特征在于所述对比模块将对比结果量化为一相似度,当所述相似度高于一门槛值,则所述替换模块进行替换。
12. 根据权利要求11所述的搜索引擎服务器,其特征在于所述替换模块还针对所得到的"相似查询条件"利用所述相似度计算分数,只有分数达一门槛值的相似查询条件,才并入"扩大查询条件"。
13. 根据权利要求8-10中任一项所述的搜索引擎服务器,其特征在于还包含一减字模块,将所述查询条件与所述相似查询条件进行减字,得到"减字查询条件"并并入所述"扩大查询条件"。
14. 根据权利要求8-10中任一项所述的搜索引擎服务器,其特征在于所述搜索单元设定一 "容许间隔距离d",并在每一查询条件及相似查询条件的字与字间插入空格,空格数n^d,得到"容许间隔的查询条件",并并入所述"扩大查询条件"。
15. 根据权利要求13所述的搜索引擎服务器,其特征在于所述搜索单元设定一 "容许间隔距离d",在每一查询条件、相似查询条件及减字查询条件的字与字间插入空格,空格数n^d,得到"容许间隔的查询条件",并并入所述"扩大查询条件"。
全文摘要
一种具有搜索相似特性字词能力的资料查询方法,包含接收查询条件;撷取该查询条件中的字及词,组成一字词组;针对该字词组中的字词,依其至少一特性编码,产生对应的字码及词码;使字码、词码与一事前建立的相似字词表进行对比,其中,该相似字词表上列举具有相似特性的字词,并进行过编码处理;以对比结果为相似的字词对该查询条件中的对应字词进行替换,得到至少一个相似查询条件,连同查询条件形成扩大查询条件;及依据扩大查询条件,在资料库中进行搜索后输出。借本发明,即便查询条件或资料库的内容有误,仍可能查询得到所需资料。
文档编号G06F17/30GK101645068SQ20081013428
公开日2010年2月10日 申请日期2008年8月4日 优先权日2008年8月4日
发明者杨立伟 申请人:龙卷风科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1