一种容错文本查询的方法和设备的制作方法

文档序号：6333940阅读：299来源：国知局

专利名称：一种容错文本查询的方法和设备的制作方法
技术领域：
本发明涉及网络信息检索技术，尤其涉及一种容错文本查询的方法和设备。
背景技术：
随着网络的普及以及网络资源的极大丰富，网络信息检索成为人们通过查询获取信息的重要手段之一。人们在计算机或者计算机检索网络的终端机上，使用一定的检索词以及检索技术，从计算机检索系统的数据库中获取需要的信息。检索技术通常包括两种基于精确匹配的检索技术，以及基于非精确匹配的检索技术。基于精确匹配的检索技术不能容错；而非精确匹配的检索技术，允许在用户输入的检索词与其目标资源之间存在一定不同的情况下，仍可以找到用户的目标资源。现有非精确匹配的检索技术的查询准确性，仍然较大地依赖于用户所输入检索词的正确性，也就是说，当用户输入的检索词与目标资源之间的存在较大差别时，现有的检索技术往往无法准确地查询出用户的目标资源，所以在使用非精确匹配的检索技术时，期望用户输入的检索词尽可能的准确。但是，用户在输入检索词时，往往不可能记住目标资源的完整名称，所以在检索词中会出现错别字、多余的字、缺字、词序不对等错误情况，这些错误情况对得到正确的搜索结果造成了一定的影响，使得无法准确获得用户的目标资源。比如，用户在电影库中想查找“山楂树之恋”，但是由于其不能准确输入电影的名字，而输入“苹果树之恋”作为检索词进行查询，在这种情况下，传统检索技术将无法准确地找到用户的期望资源。所以，人们一直期望存在一种文本查询方法，在检索词出现各种错误的情况下，也能够最大限度地挖掘出用户的目标资源。为了解决上述问题，需要提供一种高容错性的文本查询的方法。

发明内容
本发明的目的是提供一种解决上述问题的容错文本查询的方法和设备。根据本发明的一个方面，提供了一种容错文本查询的方法，该方法包括以下步骤
计算用户提交的第一检索词与词库中各个词条之间的文本相似度；检测所述文本相似度大于或等于第一阈值的结果词条；根据所述文本相似度的大小对所述结果词条进行排列；将排列后的所述结果词条提供给所述用户进行选择。根据本发明的另一个方面，还提供了一种容错文本查询的设备，包括
用于计算用户提交的第一检索词与词库中各个词条之间的文本相似度的装置；用于检测所述文本相似度大于或等于第一阈值的结果词条的装置；用于根据所述文本相似度的大小对所述结果词条进行排列的装置；用于将排列后的所述结果词条提供给所述用户进行选择的装置。与现有技术相比，本发明具有以下优点在用户进行文本查询时，当用户输入的检
5索词中出现错别字、或多余的字、或缺少一个或者多个字、或检索词中词序颠倒、或以上综合错误的情况下，仍可以最大限度的找出用户的目标词条，容错性较高。

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显
图1为根据本发明一个方面的容错文本查询的系统拓扑图；图2为根据本发明一个方面的容错文本查询的方法流程图；图3为根据本发明一个优选实施例的容错文本查询的方法流程图；图4为根据本发明另一个优选实施例的容错文本查询的方法流程图；图5为根据本发明又一个优选实施例的容错文本查询的方法流程图；以及图6为根据本发明另一个方面的容错文本查询的设备示意图。附图中相同或相似的附图标记代表相同或相似的部件。
具体实施例方式下面结合附图对本发明作进一步详细描述。图1为根据本发明一个方面的容错文本查询的系统拓扑图，如图所示，包括网络设备1以及多个与之经由网络相连接的用户设备2。其中，用户在用户设备2上输入第一检索词进行文本查询，并通过网络将所述第一检索词发送至网络设备1 ；网络设备1获取所述第一检索词后，计算用户提交的所述第一检索词与词库中各个词条之间的文本相似度；检测所述文本相似度大于或等于第一阈值的结果词条；根据所述文本相似度的大小对所述结果词条进行排列；将排列后的所述结果词条提供给所述用户进行选择。在此，网络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。另外，网络设备1包括但不限于网络主机、单个网络服务器、多个网络服务器集合或基于云计算的计算机集合。而用户设备2可以是任何一种可与用户通过键盘、鼠标、遥控器、触摸板或手写设备等方式进行人机交互的电子产品，例如计算机、手机、PDA、掌上电脑 PPC或IPTV等。网络设备1与多个用户设备2之间的通信相互独立，可以是基于诸如TCP/ IP协议、UDP (用户数据报)协议等的分组数据传输。本领域技术人员应能理解上述网络设备1、用户设备2以及连接其间的网络和通信方式仅为举例，其他现有的或今后可能出现的网络设备、用户设备、网络或通信方式如可适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。本领域技术人员还应能理解，图1中仅为简明起见而示出的各类网络元素的数量可能小于一个实际网络中的数量，但这种省略无疑地是以不会影响对本发明进行清楚、充分的公开为前提的。为了简明起见，下面以一个用户设备2为例对容错文本查询的方法以及设备分别进行描述。本领域技术人员应能理解，网络设备1可以同时与多个用户设备2交互，从不同用户设备2获取用户输入的第一检索词后，计算用户提交的所述第一检索词与词库中各个词条之间的文本相似度；检测所述文本相似度大于或等于第一阈值的结果词条；根据所述文本相似度的大小对所述结果词条进行排列；将排列后的所述结果词条提供给不同的用户
6设备2供用户进行选择。图2为根据本发明一个方面的容错文本查询的方法流程图。如图所示，在步骤 S201中，计算用户提交的第一检索词与词库中各个词条之间的文本相似度。具体地，在检测到用户进行文本查询时所提交的第一检索词后，将该第一检索词与词库中的词条逐一进行比较，计算出该第一检索词与词库中各个词条之间的文本相似度。其中，用户进行检索时输入的所述第一检索词通常是由文字、字母、数字以及符号构成的文本，短的只有几个字符，长的则包括十几个或者几十个字符；所述词库是由大量文本构成的数据库，在不同的应用场景下具有不同的内容，比如，可以是由歌曲名构成的索引数据库供用户对歌曲进行检索，也可以是摘要数据库供用户对文献进行查找，等等；所述第一检索词与词库中词条之间的文本相似度是对所述第一检索词与所述词条之间相似程度的一种量化，可以通过所述第一检索词与所述词条含有相同字符的个数来定义。当所述第一检索词与所述词条含有的相同字符的个数越多，则说明所述第一检索词与所述词条越相似。举例来说，用户在由歌曲名构成的索引数据库中进行查询，该索引数据库中存在10首歌曲的名字(在实际应用中，索引数据库中会存在大量的数据，此处为简明起见仅以10个歌曲名为例说明)，分别是1) 一天一点爱恋、2)恋上一个人、3)恋一世的爱、4)曲终人散、5)分开90天、6)恋爱达人、7) 有多少爱可以重来、8)电台情歌、9)乡恋、10)每天爱你多一点，用户在查询时输入第一检索词为“一天多点恋爱”(所述用户的目标歌曲名为“一天一点爱恋”)，那么所述第一检索词“一天多点恋爱”与上述10个歌名之间的文本相似度分别如下
权利要求
一种容错文本查询的方法，该方法包括以下步骤计算用户提交的第一检索词与词库中各个词条之间的文本相似度；检测所述文本相似度大于或等于第一阈值的结果词条；根据所述文本相似度的大小对所述结果词条进行排列；将排列后的所述结果词条提供给所述用户进行选择。
2.根据权利要求1所述的方法，其中所述第一检索词至少包括文字、字母、数字、符号中的一项。
3.根据权利要求1所述的方法，其中所述第一检索词与词条之间的文本相似度定义为所述第一检索词与所述词条含有相同字符的个数或比重。
4.根据权利要求3所述的方法，其中所述第一检索词与所述词条含有相同字符的比重w的定义为
5.根据权利要求1所述的方法，其中当所述第一检索词与所述词库中各个词条之间的文本相似度均小于第一阈值时，则根据所述第一检索词与所述词条之间的最长公共子串的长度对所述词条进行排列。
6.根据权利要求1所述的方法，其中当用户没有选择所述结果词条而是提交第二检索词时，计算所述第二检索词与所述用户提交的前一个第一检索词之间的文本相似度；如果所述文本相似度大于或等于第二阈值，则调低所述第一阈值。
7.根据权利要求1所述的方法，其中根据对用户群输入的所述第一检索词进行统计分析，建立/更新错误热词词库；根据所述错误热词词库，使用目标词条替换所述第一检索词进行查询。
8.根据权利要求7所述的方法，其中所述根据对用户群输入的所述第一检索词进行统计分析，建立/更新错误热词词库的步骤还包括当大量用户对所述第一检索词进行至少一次修正后查询到目标词条时，记录所述第一检索词、修正后的第二检索词以及所述目标词条；当所述第一检索词和所述修正后的第二检索词出现的频率大于等于第三阈值时，将所述第一检索词、所述修正后的第二检索词以及所述目标词条添加至所述错误热词词库。
9.根据权利要求7所述的方法，其中所述根据所述错误热词词库，使用目标词条替换所述第一检索词进行查询的步骤还包括在所述错误热词词库中对所述第一检索词进行匹配，如果所述第一检索词存在于所述错误热词词库中，则使用与所述第一检索词相对应的所述目标词条替换所述第一检索词进行查询；或者在所述错误热词词库中对所述第一检索词进行匹配，如果所述第一检索词存在于所述错误热词词库中，则首先使用所述第一检索词进行查询，然后使用与所述第一检索词相对应的所述目标词条替换所述第一检索词进行查询。
10.根据权利要求7至9中任一项所述的方法，其中使用所述目标词条直接替换所述第一检索词进行查询。
11.根据权利要求7至9中任一项所述的方法，其中提示所述用户使用所述目标词条替换所述第一检索词进行查询。
12.—种容错文本查询的设备，包括用于计算用户提交的第一检索词与词库中各个词条之间的文本相似度的装置；用于检测所述文本相似度大于或等于第一阈值的结果词条的装置；用于根据所述文本相似度的大小对所述结果词条进行排列的装置；用于将排列后的所述结果词条提供给所述用户进行选择的装置。
13.根据权利要求12所述的设备，其中所述第一检索词至少包括文字、字母、数字、符号中的一项。
14.根据权利要求12所述的设备，其中所述第一检索词与词条之间的文本相似度定义为所述第一检索词与所述词条含有相同字符的个数或比重。
15.根据权利要求14所述的设备，其中所述第一检索词与所述词条含有相同字符的比 w白勺定义为
16.根据权利要求12所述的设备，还包括用于当所述第一检索词与所述词库中各个词条之间的文本相似度均小于第一阈值时，则根据所述第一检索词与所述词条之间的最长公共子串的长度对所述词条进行排列的装置。
17.根据权利要求12所述的设备，还包括用于当用户没有选择所述结果词条而是提交第二检索词时，计算所述第二检索词与所述用户提交的前一个第一检索词之间的文本相似度的装置；用于如果所述文本相似度大于或等于第二阈值，则自动调低所述第一阈值的装置。
18.根据权利要求12所述的设备，还包括用于根据对用户群输入的所述第一检索词进行统计分析，建立/更新错误热词词库的装置；用于根据所述错误热词词库，使用目标词条替换所述第一检索词进行查询的装置。
19.根据权利要求18所述的设备，其中所述用于根据对用户群输入的所述第一检索词进行统计分析，建立/更新错误热词词库的装置还包括用于当大量用户对所述第一检索词进行至少一次修正后查询到目标词条时，记录所述第一检索词、修正后的第二检索词以及所述目标词条的装置；用于当所述第一检索词和所述修正后的第二检索词出现的频率大于等于第三阈值时，将所述第一检索词、所述修正后的第二检索词以及所述目标词条添加至所述错误热词词库的装置。
20.根据权利要求18所述的设备，其中所述用于根据所述错误热词词库，使用目标词条替换所述第一检索词进行查询的装置还包括用于在所述错误热词词库中对所述第一检索词进行匹配，如果所述第一检索词存在于所述错误热词词库中，则使用与所述第一检索词相对应的所述目标词条替换所述第一检索词进行查询的装置；或者用于在所述错误热词词库中对所述第一检索词进行匹配，如果所述第一检索词存在于所述错误热词词库中，则首先使用所述第一检索词进行查询，然后使用与所述第一检索词相对应的所述目标词条替换所述第一检索词进行查询的装置。
21.根据权利要求18至20中任一项所述的设备，其中还包括用于使用所述目标词条直接替换所述第一检索词进行查询的装置。
22.根据权利要求18至20中任一项所述的设备，其中还包括用于提示所述用户使用所述目标词条替换所述第一检索词进行查询的装置。
全文摘要
本发明提供一种容错文本查询的方法和设备，其中该方法包括以下步骤计算用户提交的第一检索词与词库中各个词条之间的文本相似度；检测所述文本相似度大于或等于第一阈值的结果词条；根据所述文本相似度的大小对所述结果词条进行排列；将排列后的所述结果词条提供给所述用户进行选择。本发明的优点是，在用户进行文本查询时，当用户输入的检索词中出现错别字、或多余的字、或缺少一个或者多个字、或检索词中词序颠倒、或以上综合错误的情况下，仍可以最大限度的找出用户的目标词条，容错性较高。
文档编号G06F17/30GK101984422SQ20101051138
公开日2011年3月9日申请日期2010年10月18日优先权日2010年10月18日
发明者黄志龙申请人:百度在线网络技术(北京)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄志龙
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

上一篇：一种三维智能视频监控方法
上一篇：一种基于组件的集装箱码头三维仿真方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。