数据查询系统及方法

文档序号:6610714阅读:217来源:国知局
专利名称:数据查询系统及方法
技术领域
本发明涉及搜索引擎领域,更具体地涉及一种数据查询系统及方法。
背景技术
搜索引擎系统是一种对信息资源进行搜集,并在对信息进行处理和组织之后,为用户提供信息查询的系统。用户可以输入想要查询的内容,搜索引擎系统根据用户的输入在海量信息中快速准确地定位用户需要的信息,并将搜索结果返回给用户。
目前,搜索引擎在进行用户输入串的查询分析时,一般采取以下几种方式目录搜索方式,采用系统预置搜索词的方式,用户通过目录分级选择,选择关键词;直接将用户输入作为关键字进行查询;以及将用户的查询结果按照词典进行分词后,将分词结果作为关键字进行查询。
上述几种方式存在以下缺陷1)如果由用户选择系统事先预置的关键词,所选择的内容有限,不能满足各种用户需求。
2)如果采取目录方式选择关键词,由于分类众多、关键词众多,用户选择需要的关键词比较费时。
3)如果直接对用户输入关键字进行查询,则要求用户描述特别简洁,清晰。而由于搜索引擎面对的是海量数据,数据的来源众多,结构多样,信息的描述可能与用户输入不尽相同。所以容易造成用户无法得到真正需要的信息,搜索得到的信息相对较少的问题。若用户输入不准确,甚至有可能无法得到搜索结果。
4)如果按照词典进行分词,若用户输入错误,可能造成分词失败,则搜索引擎系统会直接将该词分为单字进行查询,这样搜索结果众多,且多数为垃圾结果,用户无法从这些海量数据中找到自己真正想要的结果。

发明内容
鉴于以上所述的一个或多个问题,本发明提供了一种数据查询系统及方法。
根据本发明的数据查询系统包括入口模块,用于接收用户欲查询的查询串;分词模块,用于对查询串进行初步分词,判断是否需要对初步分词结果进行同音词搜索,并根据判断结果对初步分词结果进行处理;以及查询模块,用于根据经过处理的最终分词结果进行数据查询。
其中,分词模块包括中文分词模块,用于根据特定规则对查询串进行初步分词,以及在不需要对初步分词结果进行同音词搜索的情况下,将初步分词结果发送至入口模块;搜索判断模块,用于判断是否需要对初步分词结果进行同音词搜索;以及同音词处理模块,用于在需要对初步分词结果进行同音词搜索的情况下,对初步分词结果进行拼音标注,并根据拼音标注信息对初步分词结果进行同音词搜索。
其中,同音词处理模块包括拼音标注模块,用于对初步分词结果进行拼音标注;同音词搜索模块,用于根据拼音标注信息在同音词词典中对初步分词结果进行同音词搜索。
其中,查询模块包括数据查询模块,用于根据初步分词结果或最终分词结果进行数据查询;数据索引模块,用于对需要查询的资料建立索引,并对索引进行维护。
根据本发明的数据查询系统还可以包括同音词词典模块,用于生成并存储同音词词典,并对同音词词典进行实时更新。
根据本发明的数据查询方法,包括以下步骤S302,接收用户欲查询的查询串;S304,对查询串进行初步分词,判断是否需要对初步分词结果进行同音词搜索,并根据判断结果对初步分词结果进行处理;以及S306,根据经过处理的最终分词结果进行数据查询。
其中,步骤S304包括以下步骤S3042-1,对查询串进行初步分词;S3044-1,判断是否需要对初步分词结果进行同音词搜索;S3046-1,在不需要对初步分词结果进行同音词搜索的情况下,直接进行步骤S306。
其中,步骤S304包括以下步骤S3042-2,对查询串进行初步分词;S3044-2,判断是否需要对初步分词结果进行同音词搜索;S3046-2,在需要对初步分词结果进行同音词搜索的情况下,在同音词词典中对初步分词结果进行同音词搜索,然后进行步骤S306。
其中,在步骤S306中,还对需要查询的资料建立索引,并对索引进行维护。根据本发明的数据查询方法还可以包括以下步骤生成并存储同音词词典,并对同音词词典进行实时更新。
在本发明中,用户可以通过输入准确、简洁的关键字得到准确率高的结果,并可以通过输入拼音进行搜索。并且在用户输入的信息中出现同音别字或模糊音(如前鼻音、后鼻音等)别字时,本发明可以进行自动纠正,并得到正确的搜索结果。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中图1是根据本发明实施例的数据查询系统的框图;图2是根据本发明另一实施例的数据查询系统的框图;以及图3A至图3C是图1和图2所示的系统完成的数据查询方法及步骤的流程图。
具体实施例方式
下面参考附图,详细说明本发明的具体实施方式

参考图1,说明根据本发明实施例的数据查询系统。如图1所示,该数据查询系统包括入口模块102,用于接收用户欲查询的查询串;分词模块104,用于对查询串进行初步分词,判断是否需要对初步分词结果进行同音词搜索,并根据判断结果对初步分词结果进行处理;以及查询模块106,用于根据经过处理的最终分词结果进行数据查询。
其中,分词模块104包括中文分词模块1042,用于根据特定规则对查询串进行初步分词,以及在不需要对初步分词结果进行同音词搜索的情况下,将初步分词结果发送至入口模块;搜索判断模块1044,用于判断是否需要对初步分词结果进行同音词搜索;以及同音词处理模块1046,用于在需要对初步分词结果进行同音词搜索的情况下,对初步分词结果进行拼音标注,并根据拼音标注信息对初步分词结果进行同音词搜索。
其中,同音词处理模块1046包括拼音标注模块,用于对初步分词结果进行拼音标注;同音词搜索模块,用于根据拼音标注信息在同音词词典中对初步分词结果进行同音词搜索。
其中,查询模块106包括数据查询模块1062,用于根据初步分词结果或最终分词结果进行数据查询;数据索引模块1064,用于对需要查询的资料建立索引,并对索引进行维护。
根据本发明的数据查询系统还可以包括同音词词典模块,用于生成并存储同音词词典,并对同音词词典进行实时更新。
参考图2,说明根据本发明另一实施例的数据查询系统。如图2所示,该数据查询系统包括以下几个部分查询入口模块202,用于通过与外部系统的交互完成对用户输入内容的接收,并将接收到的文字内容发送给分词模块,以及用于接收从分词模块返回的分词信息,并将分词信息作为关键字进行搜索。
分词模块204,用于调用中文分词模块得到初步分词结果,并根据初步分词结果判断是否需要进行同音词搜索。若需要对分词信息进行同音词搜索,则将待处理信息发送给同音词处理模块,并接收从该模块返回的同音词信息。将同音词信息与其他分词信息一同返回给查询入口模块。
中文分词模块206,用于根据不同的分词策略对用户的输入信息进行切分。
同音词处理模块208,用于接收来自分词模块的文字信息,将文字信息发送给拼音标注模块,并接收从拼音标注模块返回的拼音标注信息。
拼音标注模块210,用于将文字信息转换为对应的拼音信息。在查询流程中,将标注结果发送给查询入口模块,在同音词词典维护流程中,将标注结果发送给同音词典维护模块。
同音词查找模块212,用于通过查找多音词词典的方式,提取出现频率最高的同音词,并将查找结果发送给同音词处理模块。
同音词典维护模块214,用于维护同音词系统需要使用的同音词词典。通过调用拼音标注模块对词典进行逐词标注,形成同音词词典。并在词典进行更新的时候同步更新同音词词典。在拼音标注过程中,多音字标注多个拼音,形成多个词条。同音词词典按照拼音顺序进行排序。
查询模块216,用于接收来自查询入口模块的关键字,根据关键字形成查询条件对索引文件进行查询,以得到匹配用户查询要求的结果,并将查询结果返回给用户索引模块218,用于维护全文索引。索引模块通过扫描需要搜索的信息中的每一个词,对每一个词建立索引,指明该词在文章中出现的次数和位置。
在使用图2所示的数据查询系统进行数据查询时,用户与查询入口模块进行交互,向查询入口模块提交查询串。查询入口模块将查询串发送给分词模块,分词模块调用中文分词模块根据不同的分词策略对用户的查询串进行分词,并根据分词结果判断是否需要进行同音词搜索。如果判断不需进行同音词搜索,则直接返回分词结果给查询模块,进入数据搜索流程。如果判断需要进行同音词搜索,则将待处理信息发送给同音词处理模块。同音词处理模块接收待处理信息并将之发送给拼音标注模块,拼音标注模块对文本信息进行拼音标注,并将标注结果返回给同音词处理模块。同音词处理模块接收到拼音标注信息后,调用同音词查询模块在同音词词典中对拼音标注信息进行查找,得到查找结果后将信息返回给分词模块。分词模块整合从同音词处理模块返回的信息与其他分词所得的关键词信息,作为搜索的关键词返回给查询入口模块。查询入口模块将关键词发送给查询模块。查询模块利用得到的关键词对索引库进行查找,并将索引库中匹配的信息返回给查询入口模块。由查询入口模块对结果进行调整,返回给用户。另外,该数据查询系统还可以利用索引模块对需要搜索的资料建立索引,对索引进行维护,并且在源信息更新时,同步更新索引库信息。
参考图3A至图3C,说明图1和图2所示的系统完成的数据查询方法。如图3A所示,该数据查询方法包括以下步骤S302,接收用户欲查询的查询串;S304,对查询串进行初步分词,判断是否需要对初步分词结果进行同音词搜索,并根据判断结果对初步分词结果进行处理;以及S306,根据经过处理的最终分词结果进行数据查询。
其中,如图3B所示,步骤S304包括以下步骤S3042-1,对查询串进行初步分词;S3044-1,判断是否需要对初步分词结果进行同音词搜索;S3046-1,在不需要对初步分词结果进行同音词搜索的情况下,直接进行步骤S306。
其中,如图3C所示,步骤S304包括以下步骤S3042-2,对查询串进行初步分词;S3044-2,判断是否需要对初步分词结果进行同音词搜索;S3046-2,在需要对初步分词结果进行同音词搜索的情况下,在同音词词典中对初步分词结果进行同音词搜索,然后进行步骤S306。
其中,在步骤S306中,还对需要查询的资料建立索引,并对索引进行维护。根据本发明的数据查询方法还可以包括以下步骤生成并存储同音词词典,并对同音词词典进行实时更新。
本发明可以在对用户输入进行分析的时候,对用户输入的诸如同音字、模糊音等错误输入进行处理,将其自动转换为标准输入,在搜索后,返回用户查询结果,并对用户的错误输入进行提示。通过本发明,用户可以快捷方便地搜索到自己需要的信息,同时可以降低搜索引擎使用者的门槛。通过本发明,用户甚至可以通过直接输入拼音的形式对信息进行查找。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
权利要求
1.一种数据查询系统,其特征在于,包括入口模块,用于接收用户欲查询的查询串;分词模块,用于对所述查询串进行初步分词,判断是否需要对初步分词结果进行同音词搜索,并根据判断结果对所述初步分词结果进行处理;以及查询模块,用于根据经过处理的最终分词结果进行数据查询。
2.根据权利要求1所述的数据查询系统,其特征在于,所述分词模块包括中文分词模块,用于根据特定规则对所述查询串进行初步分词,以及在不需要对所述初步分词结果进行同音词搜索的情况下,将所述初步分词结果发送至所述入口模块;搜索判断模块,用于判断是否需要对所述初步分词结果进行同音词搜索;以及同音词处理模块,用于在需要对所述初步分词结果进行同音词搜索的情况下,对所述初步分词结果进行拼音标注,并根据拼音标注信息对所述初步分词结果进行同音词搜索。
3.根据权利要求2所述的数据查询系统,其特征在于,所述同音词处理模块包括拼音标注模块,用于对所述初步分词结果进行拼音标注;同音词搜索模块,用于根据所述拼音标注信息在同音词词典中对所述初步分词结果进行同音词搜索。
4.根据权利要求1至3中任一项所述的数据查询系统,其特征在于,所述查询模块包括数据查询模块,用于根据所述初步分词结果或所述最终分词结果进行数据查询;数据索引模块,用于对需要查询的资料建立索引,并对所述索引进行维护。
5.根据权利要求4所述的数据查询系统,其特征在于,还包括同音词词典模块,用于生成并存储所述同音词词典,并对所述同音词词典进行实时更新。
6.一种数据查询方法,其特征在于,包括以下步骤S302,接收用户欲查询的查询串;S304,对所述查询串进行初步分词,判断是否需要对初步分词结果进行同音词搜索,并根据判断结果对所述初步分词结果进行处理;以及S306,根据经过处理的最终分词结果进行数据查询。
7.根据权利要求6所述的数据查询方法,其特征在于,所述步骤S304包括以下步骤S3042-1,对所述查询串进行初步分词;S3044-1,判断是否需要对所述初步分词结果进行同音词搜索;S3046-1,在不需要对所述初步分词结果进行同音词搜索的情况下,直接进行所述步骤S306。
8.根据权利要求6所述的数据查询方法,其特征在于,所述步骤S304包括以下步骤S3042-2,对所述查询串进行初步分词;S3044-2,判断是否需要对所述初步分词结果进行同音词搜索;S3046-2,在需要对所述初步分词结果进行同音词搜索的情况下,在同音词词典中对所述初步分词结果进行同音词搜索,然后进行所述步骤S306。
9.根据权利要求6至8中任一项所述的数据查询方法,其特征在于,在所述步骤S306中,还对需要查询的资料建立索引,并对所述索引进行维护。
10.根据权利要求9所述的数据查询方法,其特征在于,还包括以下步骤生成并存储所述同音词词典,并对所述同音词词典进行实时更新。
全文摘要
本发明公开了一种数据查询系统及方法。其中,该数据查询系统包括入口模块,用于接收用户欲查询的查询串;分词模块,用于对查询串进行初步分词,判断是否需要对初步分词结果进行同音词搜索,并根据判断结果对初步分词结果进行处理;以及查询模块,用于根据经过处理的最终分词结果进行数据查询。通过本发明,用户可以快捷方便地搜索到自己需要的信息,同时可以降低搜索引擎使用者的门槛。
文档编号G06F17/30GK101082936SQ20071012603
公开日2007年12月5日 申请日期2007年6月29日 优先权日2007年6月29日
发明者刘丽丽, 陆强, 游波 申请人:中兴通讯股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1