信息检索的方法、装置与计算设备与流程

文档序号:12271509阅读:203来源:国知局
信息检索的方法、装置与计算设备与流程
本发明涉及计算机
技术领域
,并且更具体地,涉及一种信息检索的方法、装置与计算设备。
背景技术
:信息检索系统用于根据用户的输入的查询语句,检索出用户所需的相关内容。信息检索系统的大致检索流程为:对用户输入的查询语句做分词处理,然后进行停用词过滤处理,将停用词过滤处理后的关键词与索引文件进行关键词匹配,获取对应的文档,然后对这些文档打分,输出得分最高的N个文档返回给用户。模糊搜索的场景指的是,当用户不记得完整查询词ABC的时候,他会输入模糊词AB*,然后希望能够查出包含ABC的文档。为了支持模糊搜索的场景,现有的信息检索方案一般是通过模糊词(例如AB*)遍历索引文件中的关键词,以找到模糊词所匹配的关键词,然后根据匹配的关键词以及索引文件获取对应的文档。由于,需要通过模糊词遍历索引文件的关键词,导致信息检索的耗时较大,检索效率较低。技术实现要素:本发明提出一种信息检索的方法、装置与计算设备,能够有效提高模糊搜索场景中信息检索的效率。第一方面,提供了一种信息检索的方法,所述方法包括:接收查询语句,所述查询语句包括模糊关键词,所述模糊关键词为包含匹配符的词;根据所述模糊关键词,确定第一部分关键词,所述第一部分关键词为所述模糊关键词中除所述匹配符之外的部分;根据第一索引与所述第一部分关键词,获取第一完整关键词,所述第一完整关键词包含所述第一部分关键词,所述第一索引包括键值部分与属性值部分,其中,所述键值部分存储的信息与所述属性值部分存储的信息具有对应关系,所述键值部分存储有所述第一部分关键词,所述属性值部分存储有所述第一完整关键词;根据第二索引与所述第一完整关键词,获取第一文档,所述第一文档为所述第一完整关键词所在的文档,所述第二索引包括所述第一完整关键词与所述第一文档之间的对应关系。在本方案中,第一索引包括部分关键词与完整关键词之间的对应关系,通过第一索引能快速地找到部分关键词对应的完整关键词,相比于现有技术,本发明能够提高模糊搜索场景下信息检索的整体效率。应理解,第一索引的键值部分存储的部分关键词1对应于属性值部分存储的完整关键词1,第一索引的键值部分存储的部分关键词2对应于属性值部分存储的完整关键词2。还应理解,第一索引中的每个部分关键词可以对应一个或多个完整关键词。为了便于描述与理解,本文均以一个完整关键词为例进行描述,但并不对本发明的保护范围造成限定。结合第一方面,在第一方面的第一种可能的实现方式中,所述方法还包括:根据语料数据集获取完整关键词集合;对所述完整关键词集合中的第二完整关键词进行n元组切分,并将n元组切分后的词确定为第二部分关键词,n为小于或等于所述第二完整关键词的字符长度的正整数;确定第三完整关键词,所述第三完整关键词为所述完整关键词集合中包含所述第二部分关键词的词;根据所述第二部分关键词与所述第三完整关键词,生成所述第一索引,所述第一索引的键值部分包括所述第二部分关键词,所述第一索引的属性值部分包括所述第三完整关键词。在本方案中,通过建立包括部分关键词与完整关键词之间的对应关系的第一索引,从而使得在信息检索时,根据第一索引快速地获取部分关键词对应的完整关键词,从而能够提高模糊搜索场景下信息检索的整体效率。结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,所述确定第三完整关键词,包括:基于匹配类型,确定所述第三完整关键词,所述第三完整关键词基于所述匹配类型与所述第二部分关键词相匹配,所述匹配类型为前词匹配、后词匹配或前后词匹配中的任一种;其中,所述生成所述第一索引包括:根据所述第二部分关键词、所述匹配类型与所述第三完整关键词,生成所述第一索引,所述第一索引的属性值部分还包括所述匹配类型;所述根据第一索引与所述第一部分关键词,获取第一完整关键词,包括:根据所述第一索引、所述第一部分关键词以及所述第一部分关键词的匹配类型,获取所述第一完整关键词,所述第一部分关键词的匹配类型根据所述第一部分关键词与所述匹配符之间的位置关系确定。结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式中,所述方法还包括:根据所述第二部分关键词在所述完整关键词集合中的出现频率以及所述第三完整关键词在所述完整关键词集合中的出现频率,确定所述第二部分关键词与所述第三完整关键词的相关性参数;其中,所述生成所述第一索引包括:根据所述第二部分关键词、所述匹配类型、以及所述第三完整关键词与所述相关性参数,生成所述第一索引,所述第一索引的属性值部分还包括所述第二部分关键词与所述第三完整关键词的相关性参数;所述方法还包括:根据所述第一索引、所述第一部分关键词以及所述第一完整关键词,获取所述第一部分关键词与所述第一完整关键词的相关性参数;根据所述第一部分关键词与所述第一完整关键词的相关性参数、以及所述第一文档与所述查询语句的相关性参数,确定所述第一文档的打分。在本方案中,基于部分关键词与完整关键词之间的相关性参数确定完整关键词所在文档的打分,从而能够提高模糊搜索场景下信息检索的检索结果的相关性。结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,所述确定所述第二部分关键词与所述第三完整关键词的相关性参数,包括:根据下面公式计算所述第二部分关键词wp与所述第三完整关键词w的相关性参数r(wp,w):r(wp,w)=α·f(wp,w)·s(wp,w)+β·q(wp,w)其中,f(wp,w)表示wp与w的条件概率,s(wp,w)表示wp与w的紧密度参数,q(wp,w)表示wp与w的用户反馈权重,α与β为常数。结合第一方面的第三种或第四种可能的实现方式,在第一方面的第五种可能的实现方式中,所述方法还包括:获取第一文档数目,所述第一文档数目为所述第三完整关键词在所述完整关键词集合中所匹配的文档数目;其中,所述生成所述第一索引包括:根据所述第二部分关键词、所述匹配类型、所述第三完整关键词、所述相关性参数、以及所述第一文档数目,生成所述第一索引,所述第一索引的属性值部分还包括所述第一文档数目;所述方法还包括:根据所述第一索引与所述第一完整关键词,获取所述第一完整关键词对应的第二文档数目;所述根据所述第一部分关键词与所述第一完整关键词的相关性参数、以及所述第一文档与所述查询语句的相关性参数,确定所述第一文档的打分,包括:根据所述第二文档数目、所述第一部分关键词与所述第一完整关键词的相关性参数、以及所述第一文档与所述查询语句的相关性参数,确定所述第一文档的打分。结合第一方面的第五种可能的实现方式,在第一方面的第六种可能的实现方式中,所述生成所述第一索引,包括:根据下列信息,生成所述第一索引:wp=f:w,r(wp,w),n(w)其中,wp表示所述第二部分关键词,w表示所述第三完整关键词,f表示所述第二部分关键词wp的匹配类型,r(wp,w)表示所述第二部分关键词wp与所述第三完整关键词w的相关性参数,n(w)表示所述第三完整关键词w在所述完整关键词集合中所匹配的文档数目,=左边的部分表示所述第一索引的键值部分,=右边的部分表示所述第一索引的属性值部分。结合第一方面的第一种至第六种可能的实现方式中任一种可能的实现方式,在第一方面的第七种可能的实现方式中,所述第二完整关键词为所述完整关键词集合中字符长度大于阈值L的完整关键词,n为小于或等于L的正整数。本方案中,仅对字符长度超过L的完整关键词作n元组切分,能够有效控制第一索引中部分关键词的数量,从而避免不必要的存储开销。结合第一方面的第一种至第七种可能的实现方式中任一种可能的实现方式,在第一方面的第八种可能的实现方式中,所述根据语料数据集获取完整关键词集合,包括:根据所述语料数据集与预期想覆盖的完整关键词的总体覆盖率,获取所述完整关键词集合,所述完整关键词集合中包括的完整关键词的数量小于所述语料数据集中包括的完整关键词的数量。本方案中,根据模糊搜索预期想覆盖的完整关键词的总体覆盖率,确定要进行n元组切分的完整关键词集合,能够有效控制第一索引中部分关键词的数量,从而避免不必要的存储开销。第二方面,提供一种信息检索的装置,所述装置包括输入模块与处理模块,所述输入模块,用于接收查询语句,所述查询语句包括模糊关键词,所述模糊关键词为包括匹配符的词;处理模块,用于根据所述模糊关键词确定第一部分关键词,所述第一部分关键词为所述模糊关键词中除所述匹配符之外的部分;所述处理模块还用于,根据第一索引与所述第一部分关键词,获取第一完整关键词,所述第一完整关键词包括所述第一部分关键词,所述第一索引包括键值部分与属性值部分,其中,所述键值部分存储的信息与所述属性值部分存储的信息具有对应关系,所述键值部分存储有所述第一部分关键词,所述属性值部分存储有所述第一完整关键词;所述处理模块还用于,根据第二索引与所述第一完整关键词,获取第一文档,所述第一文档为所述第一完整关键词所在的文档,所述第二索引包括所述第一完整关键词与所述第一文档之间的对应关系。所述装置用于实现第一方面或第一方面的任一种可能实现方式中的信息检索的方法。第三方面,提供一种计算设备,所述计算设备包括处理器与存储器。所述计算设备运行时能够实现第一方面或第一方面的任一种可能实现方式中的信息检索的方法。用于实现第一方面或第一方面的任一种可能实现方式中的信息检索的方法的程序代码可以保存在存储器中,并由处理器来执行。第四方面,提供一种存储介质,所述存储介质中存储的程序代码被执行时能够实现第一方面或第一方面的任一种可能实现方式中的信息检索的方法。所述程序代码由实现第一方面或第一方面的任一种可能实现方式中的信息检索的方法的计算机指令构成。第五方面,提供一种计算机程序产品,所述计算机程序产品可以为一个软件安装包,所述软件安装包被计算机运行时,执行第一方面或第一方面的任一种可能实现方式中的信息检索的方法。附图说明为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例提供的信息检索系统的示意图。图2为本发明实施例提供的信息检索系统的另一示意图。图3为本发明实施例提供的检索设备的示意图。图4为本发明实施例提供的信息检索的方法的示意性流程图。图5为本发明实施例提供的信息检索的方法的另一示意性流程图。图6为本发明实施例提供的信息检索的方法的再一示意性流程图。图7为本发明实施例的信息检索的装置的示意性框图。图8为本发明实施例的计算设备的示意性框图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明实施例的应用场景为模糊搜索的场景。在模糊搜索时,用户输入的查询语句中包括模糊关键词,例如AB*。为了便于理解与描述本发明实施例,首先描述一下本发明实施例涉及的几个术语。1)模糊关键词模糊关键词指的是查询语句中包括匹配符的词。匹配符指的是没有实际语义含义的字符,例如星号(*)或问号(?),匹配符用于模糊搜索。匹配符也称为通配符。例如,查询语句为AB,CD*,则CD*为模糊关键词。2)部分关键词部分关键词指的是模糊关键词中除匹配符之外的部分。例如,在上面例子中,CD为部分关键词。3)完整关键词完整关键词是相对部分关键词而言的,指的是包含部分关键词、且语义完整的词。例如,部分关键词“葡”对应的完整关键词为“葡萄”,部分关键词“葡萄”对应的完整关键词为“葡萄”,“葡萄架”或“葡萄皮”。需要说明的是,部分关键词与完整关键词之间存在匹配类型,具体包括前词匹配、后词匹配或前后词匹配。其中,前词匹配指的是完整关键词与部分关键词的收尾字符完全一致,起始字符可以不一致;后词匹配指的是完整关键词与部分关键词的起始字符完全一致,收尾字符可以不一致;前后词匹配包括以下三种情况:1)完整关键词与部分关键词的收尾字符完全一致,起始字符可以不一致;2)完整关键词与部分关键词的起始字符完全一致,收尾字符可以不一致;3)完整关键词与部分关键词存在完全一致的中间字符,完整关键词与部分关键词的起始字符不同,且收尾字符也不同。即同一个部分关键词针对不同的匹配类型对应不同的完整关键词。具体地,例如,有如下几个完整语义的词:ABC,BCD,ABCDE。对于部分关键词BC,当其匹配类型为前词匹配(即对应的模糊关键词为*BC)时,对应的完整关键词为ABC;当其匹配类型为后词匹配(即对应的模糊关键词为BC*)时,对应的完整关键词为BCD;当其匹配类型为前后词匹配(即对应的模糊关键词为*BC*)时,对应的完整关键词包括ABCD、ABC与BCD。图1为本发明实施例所应用的信息检索系统100的架构示意图。信息检索系统100包括检索设备110与存储设备120。其中存储设备120中存储了信息检索系统100进行检索时需要的数据,具体地,如图1中所示的索引文件、文件库、历史查询语句、历史查询日志与词特征库等数据。存储设备120可以通过通信网络130与检索设备110建立通信;存储设备120也可以直接设置在检索设备110中。检索设备110中包括输入输出单元和处理单元,用户通过输入输入单元111向检索设备110发送一个查询语句后,检索设备110通过处理单元基于该查询语句进行信息检索,通过输入输入单元111向用户返回检索结果。信息检索系统的检索结果一般通过一系列的文件展现给用户。如果用户通过通信网络130向检索设备110发送查询语句,则输入输出单元可以为网络接口。如果用户在检索设备110本地向检索设备110发送查询语句,则输入输出单元还可以为检索设备110的输入/输出(Input/Ouput,I/O)接口。图2为信息检索系统100的另一架构示意图。信息检索系统100包括一个或多个检索设备110,还包括一个或多个存储设备120。各个检索设备110和各个存储设备120之间通过通信网络130实现通信。信息检索系统100的文件库、索引文件库、历史查询语句、历史查询日志、词特征库等数据可以分布式部署于各个存储设备120中。一个或多个检索设备110可以组成分布式计算系统对查询语句进行处理。该信息检索系统100在待处理的查询语句的数量较大,即信息检索系统100的负载较高时,能够将待处理任务分配至不同检索设备110上执行,以提升信息检索系统100的并行处理能力。图3为本发明一个实施例提供的检索设备110的结构示意图,检索设备110包括:输入输入单元111,用于接收用户输入的查询语句,并将查询语句发送给查询语句处理单元112,还用于向用户输出返回结果处理单元115的查询结果。查询语句处理单元112,用于解析查询语句,获得查询语句中的关键词,并向模糊搜索处理单元113发送关键词。具体地,查询语句处理单元112对查询语句的处理包括:分词处理、停用词过滤处理或变换处理等处理。具体地,变换处理包括同义词变换、时态变换(主要用于英文,例如把sitting变换为sit)等变换处理。模糊搜索处理单元113,用于从查询语句处理单元112发送的关键词中识别模糊关键词,并将模糊关键词中的部分关键词发送给第一索引单元114,并将查询语句处理单元112发送的关键词中的完整关键词发送给第二索引单元115。具体地,查询语句处理单元112发送的关键词为CD,AB*,模糊搜索处理单元113将模糊关键词AB*中的部分关键词AB发送给第一索引单元114,将完整关键词CD发送给第二索引单元115。第一索引单元114,包括第一索引,第一索引包括部分关键词与完整关键词的对应关系。第一索引单元114用于基于第一索引确定模糊搜索处理单元113发送的部分关键词所在的完整关键词,并向模糊搜索处理单元113返回该完整关键词。具体地,第一索引的键值(Key)部分包括部分关键字,第一索引的属性值(Value)部分包括完整关键词。模糊搜索处理单元113,还用于向第二索引单元114发送完整关键词。第二索引单元115,包括第二索引,所述第二索引包括完整关键词与完整关键词所在文档之间的对应关系。第二索引单元115用于,基于第二索引确定模糊搜索处理单元113发送的完整关键词所在的文档,并向返回结果处理单元116发送用于指示该文档的信息。具体地,第二索引单元115用于查找完整关键词所匹配的文档,并计算文档与查询语句的相关性分数,对文档打分,将打分topN的文档返回给返回结果处理模块116。应理解,检索设备110可以包括一个或多个第二索引单元115。返回结果处理单元116,用于对第二索引单元115发送的信息作处理,包括整理、排版、等。在第二索引单元115有多个的情况下,返回结果处理单元116在接收到所有第二索引单元115返回的文档后,进行全局排序。得到全局排好的文档后,根据最后展现的需要,会再去取文档相关的信息拼装成最后要展示的信息全集;同时也会根据最终展现的要求进行微调,比如同一个来源的文档数不能超过三个等。最后将排好序的文档结果通过输入输出单元111返回给用户。图4为本发明实施例提供的信息检索的方法200的示意性流程图,该方法200例如可以由图1或图2或图3所示的检索设备110执行,该方法200包括:210,接收查询语句,查询语句包括模糊关键词,模糊关键词为包含匹配符的词。具体地,用户的查询语句通过用户界面(UserInterface,UI)输入到搜索引擎后台,首先进行分词处理,例如,利用分词器对查询语句进行分词,会生成一个包括词和词频的列表。对分词处理的结果进行停用词过滤,停用词又称为停词,指代语句中对语句表述不构成直接影响的或影响微小的词汇,例如用户输入的查询语句内对搜索出相关文件无帮助的词汇。对查询语句进行分词处理与停用词过滤处理后,获取到查询语句中的关键词,然后从中确定模糊关键词。例如,获取到的查询语句中的关键词为AB,CD,*EF,则模糊关键词为*EF。220,根据模糊关键词,确定第一部分关键词,第一部分关键词为模糊关键词中除匹配符之外的部分。230,根据第一索引与第一部分关键词,获取第一完整关键词,第一完整关键词包含第一部分关键词,第一索引包括键值部分与属性值部分,其中,键值部分存储的信息与属性值部分存储的信息具有对应关系,键值部分存储有第一部分关键词,属性值部分存储有第一完整关键词。应理解,根据第一索引与第一部分关键词,可以得到一个或多个包含第一部分关键词的完整关键词,为了便于理解与描述,本发明实施例以第一完整关键词为例进行描述,换句话说,第一完整关键词表示根据第一索引与第一部分关键词得到的多个包含第一部分关键词的完整关键词中的任意一个。第一索引是针对部分关键词建立的索引。基于第一索引,可以快速获取到部分关键词对应的完整关键词。具体地,第一索引的具体形式如表1所示:表1键值(Key)属性值(Value)部分关键词1完整关键词1a,1b,…部分关键词2完整关键词2a,2b,…从表1可知,第一索引包括键值部分与属性值部分,键值部分存储部分关键词,属性值部分存储完整关键词。从表1的第二行开始,每行的部分关键词与本行的完整关键词具有对应关系。例如,部分关键词1对应完整关键词1a,1b,…;部分关键词2对应完整关键词2a,2b,…。应理解,一个部分关键词对应的完整关键词可以包括一个或多个,表1中不便于枚举,仅示意性地给出两个完整关键词,但并不限定本发明的保护范围。还应理解,表1仅作为示例而非限定,第一索引的具体形式除了可以采用表之外,还可以采用其他形式,例如数据库、文件,xml,json或者自己定义的数据结构等,本发明实施例对此不作限定。240,根据第二索引与第一完整关键词,获取第一文档,第一文档为第一完整关键词所在的文档,第二索引包括第一完整关键词与第一文档之间的对应关系。具体地,第二索引也包括键值部分与属性值部分,且第二索引的键值部分存储有完整关键词,第二索引的属性值部分存储有用于指示完整关键词所在文档的信息。第二索引可对应于现有的信息检索方案中的索引文件,具体内容为现有技术,本文不再赘述。在本发明实施例中,第一索引包括部分关键词与完整关键词之间的对应关系,通过第一索引能较为快速地找到部分关键词对应的完整关键词,因此,本发明实施例能够提高模糊搜索场景下信息检索的整体效率。应理解,本发明实施例在230中利用第一索引获取第一完整关键词之前,已经生成了第一索引。具体地,可以是系统预先生成。还应理解,第一索引可以定期更新或修改,本发明实施例对此不作限定。可选地,如图5所示,作为一个实施例,在图4所示实施例中,方法200还包括:250,根据语料数据集获取完整关键词集合。具体地,语料数据集包括文档数据集与查询语句集,其中,文档数据集包括用于用户搜索的文档,查询语句集包括历史时间内用户搜索过的查询语句。分别对文档数据集与查询语句集作分词处理与停用词过滤处理,得到对应的词与词频列表,然后基于这两个列表,得到该完整关键词集合。260,对完整关键词集合中的第二完整关键词进行n元组切分,并将n元组切分后的词确定为第二部分关键词,n为小于或等于第二完整关键词的字符长度的正整数。例如,对完整关键词ABCD作2元组切分,得到部分关键词AB、BC与CD。再例如,对完整关键词ABCD作3元组切分,得到部分关键词ABC与BCD。应理解,本实施例中的第二完整关键词指示完整关键词集合中的每个完整关键词。270,确定第三完整关键词,第三完整关键词为完整关键词集合中包含第二部分关键词的词。例如,完整关键词集合包括以下完整关键词ABCD、ABD、ABE与BCD。对ABCD进行2元组切分得到部分关键词AB,则部分关键词AB对应的第三完整关键词包括:ABCD、ABD与ABE。280,根据第二部分关键词与第三完整关键词,生成第一索引,第一索引的键值部分包括第二部分关键词,第一索引的属性值部分包括第三完整关键词。具体地,第一索引如表1所示。上文已经提及,部分关键词与完整关键词之间存在匹配类型,同一个部分关键词针对不同的匹配类型对应不同的完整关键词。为了更细粒度地匹配部分关键词与完整关键词,本发明实施例还提出在第一索引的属性值部分存储部分关键词的匹配类型,从而实现第一索引包括部分关键词、匹配类型以及完整关键词之间的对应关系。可选地,作为一个实施例,270确定第三完整关键词,包括:基于匹配类型,确定第三完整关键词,第三完整关键词基于匹配类型与第二部分关键词相匹配,匹配类型为前词匹配、后词匹配或前后词匹配中的任一种。其中,280生成第一索引包括:根据第二部分关键词、匹配类型与第三完整关键词,生成第一索引,第一索引的属性值部分还包括匹配类型。具体地,本发明实施例中生成的第一索引如表2所示:表2从表2可知,第一索引包括键值部分与属性值部分,键值部分存储部分关键词,属性值部分存储匹配类型与完整关键词,即第一索引指示了部分关键词、匹配类型与完整关键词之间的对应关系。例如,部分关键词1、前词匹配、完整关键词11a,11b,…之间具有对应关系;部分关键词2、后词匹配与完整关键词22a,22b,…之间具有对应关系;部分关键词2、前后词匹配与完整关键词23a,23b,…之间具有对应关系。应理解,一个部分关键词对应的完整关键词可以包括一个或多个,表2中不便于枚举,仅示意性地给出两个完整关键词,但并不限定本发明的保护范围。还应理解,表2仅作为示例而非限定,第一索引的具体形式除了可以采用表之外,还可以采用其他形式,例如数据库、文件,xml,json或者自己定义的数据结构等,本发明实施例对此不作限定。在本发明实施例中,在获知部分关键词以及部分关键词的匹配类型的情况下,可以根据第一索引获取对应的完整关键词。其中,230根据第一索引与第一部分关键词,获取第一完整关键词,包括:根据第一索引、第一部分关键词以及第一部分关键词的匹配类型,获取第一完整关键词,第一部分关键词的匹配类型根据第一部分关键词与匹配符之间的位置关系确定。例如,第一部分关键词为模糊关键词AB*中的AB,则第一部分关键词的匹配类型为后词匹配。再例如,第一部分关键词为模糊关键词*CD中的CD,则第一部分关键词的匹配类型为前词匹配。再例如,第一部分关键词为模糊关键词*BC*中的BC,则第一部分关键词的匹配类型为前后词匹配。可选地,作为一个实施例,在图5所示的实施例中,方法200还包括:根据第二部分关键词在完整关键词集合中的出现频率以及第三完整关键词在完整关键词集合中的出现频率,确定第二部分关键词与第三完整关键词的相关性参数。可选地,作为一个实施例,根据下面公式计算第二部分关键词wp与第三完整关键词w的相关性参数r(wp,w):r(wp,w)=α*f(wp,w)*sN(wp,w)+β*q(wp,w)(1)其中,f(wp,w)表示wp与w的条件概率,sN(wp,w)表示wp与w的紧密度参数,q(wp,w)表示wp与w的用户反馈权重,α与β为常数,可以预配置。其中,280生成第一索引包括:根据第二部分关键词、匹配类型、以及第三完整关键词与相关性参数,生成第一索引,第一索引的属性值部分还包括第二部分关键词与第三完整关键词的相关性参数。具体地,本发明实施例生成的第一索引如表3所示:表3从表3可知,第一索引包括键值部分与属性值部分,键值部分存储部分关键词,属性值部分存储匹配类型、完整关键词与相关性参数,即第一索引指示了部分关键词、匹配类型、完整关键词以及相关性参数之间的对应关系。例如,部分关键词1、前词匹配、完整关键词11a之间具有对应关系,且部分关键词1与完整关键词11a的相关性参数为r1;部分关键词2、前后词匹配与完整关键词23a之间具有对应关系,且部分关键词2与完整关键词23a的相关性参数为r11。应理解,一个部分关键词对应的完整关键词可以包括一个或多个,表3中不便于枚举,仅示意性地给出两个完整关键词,但并不限定本发明的保护范围。还应理解,表3仅作为示例而非限定,第一索引的具体形式除了可以采用表之外,还可以采用其他形式,例如数据库、文件,xml,json或者自己定义的数据结构等,本发明实施例对此不作限定。应理解,在图4所示实施例中,在获取到完整关键词所在的第一文档后,需要计算第一文档的打分,依次决定向用户呈现第一文档的顺序。在现有技术中,通常基于第一文档与查询语句的相关性参数,计算第一文档的打分。本发明实施例提出,在计算第一文档的打分时,还考虑部分关键词与完整关键词之间的相关性参数,相对于现有技术能够提高模糊搜索的相关性。可选地,作为一个实施例,在图4或图5所示实施例中,方法200还包括:根据第一索引、第一部分关键词以及第一完整关键词,获取第一部分关键词与第一完整关键词的相关性参数;根据第一部分关键词与第一完整关键词的相关性参数、以及第一文档与查询语句的相关性参数,确定第一文档的打分。在本发明实施例中,在确定完整关键词所在文档的打分时,考虑了部分关键词与完整关键词之间的相关性参数,从而能够提高模糊搜索场景下信息检索的检索结果的相关性。可选地,作为一个实施例,在图5所示实施例中,方法200还包括:获取第一文档数目,第一文档数目为第三完整关键词在完整关键词集合中所匹配的文档数目;其中,280,生成第一索引包括:根据第二部分关键词、匹配类型、第三完整关键词、相关性参数以及第一文档数目,生成第一索引,第一索引的属性值部分还包括第一文档数目。具体地,本实施例中的第一索引的具体表现形式如表4所示:表4从表4可知,第一索引包括键值部分与属性值部分,键值部分存储部分关键词,属性值部分存储匹配类型、完整关键词、相关性参数与文档数目,即第一索引指示了部分关键词、匹配类型、完整关键词、相关性参数与文档数目之间的对应关系。例如,部分关键词1、前词匹配、完整关键词11a具有对应关系,且部分关键词1与完整关键词11a的相关性参数为r1,完整关键词11a所匹配的文档数目为文档数目1;部分关键词2、前后词匹配与完整关键词23a具有对应关系,且部分关键词2与完整关键词23a的相关性参数为r11,完整关键词23a所匹配的文档数目为文档数目11。应理解,一个部分关键词对应的完整关键词可以包括一个或多个,表4中不便于枚举,仅示意性地给出两个完整关键词,但并不限定本发明的保护范围。还应理解,表4仅作为示例而非限定,第一索引的具体形式除了可以采用表之外,还可以采用其他形式,例如数据库、文件,xml,json或者自己定义的数据结构等,本发明实施例对此不作限定。可选地,作为一个实施例,在图4或图5所示实施例中,方法200还包括:根据第一索引与第一完整关键词,获取第一完整关键词对应的第二文档数目;其中,根据第一部分关键词与第一完整关键词的相关性参数、以及第一文档与查询语句的相关性参数,确定第一文档的打分,包括:根据第二文档数目、第一部分关键词与第一完整关键词的相关性参数、以及第一文档与查询语句的相关性参数,确定第一文档的打分。在本发明实施例中,在确定完整关键词所在文档的打分时,考虑了部分关键词与完整关键词之间的相关性参数,还考虑了完整关键词所匹配的文档数目,从而能够提高模糊搜索场景下信息检索的检索结果的相关性。在本发明实施例中,第一索引包括部分关键词与完整关键词之间的对应关系,通过第一索引能较为快速地找到部分关键词对应的完整关键词,因此,本发明实施例能够提高模糊搜索场景下信息检索的整体效率。应理解,图4或图5所示实施例可以由图3所示检索设备110执行。具体地,图4所示实施例中的步骤210由输入输出单元111与查询语句处理单元113执行,步骤220由查询语句处理单元113与模糊搜索处理单元113执行,步骤230由模糊搜索处理单元113与第一索引单元114执行,步骤240由模糊搜索处理单元113与第二索引单元115执行,步骤250-280由第一索引单元114执行。可选地,作为一个实施例,糊搜索处理单元113在执行步骤220时,还包括:在接收到查询语句处理单元113下发的关键词后,根据里边是否包括模糊关键词来区分处理。具体地,如果查询语句处理单元113下发的关键词中包括模糊关键词,例如,包含前词模糊匹配(如*AB),后词模糊匹配(如AB*)或者前后词匹配(如*AB*),则糊搜索处理单元113根据匹配符*的位置来判断模糊关键词是前词/后词/前后词中的哪种类型的模糊匹配。例如,模糊关键词为*AB,则确定部分关键词为AB,且匹配类型为前词匹配。模糊关键词为AB*,则确定部分关键词为AB,且匹配类型为后词匹配。模糊关键词为*AB*,则确定部分关键词为AB,且匹配类型为前后词匹配。不同类型会决定糊搜索处理单元113向第一索引单元114发送的具体内容。如果查询语句处理单元113下发的关键词中包括完整关键词,则直接将其发送至第二索引单元115处理。以查询语句处理单元113下发的关键词为CDAB*为例,糊搜索处理单元113会把关键词CD直接下发到第二索引单元115去处理,模糊关键词AB*被判定为后词模糊匹配,则下发部分关键词AB到第一索引单元114,并指示为后词匹配(即只用第一索引中Bf部分内容来查询)。第一索引单元114根据输入的部分关键词(例如AB)和匹配类型(例如后词匹配),基于第一索引(如表4所示),找到部分关键词AB对应的完整关键词、部分关键词与完整关键词之间的相关性参数、以及完整关键词匹配的文档数目,然后将这些信息返回糊搜索处理单元113。可选地,作为一个实施例,糊搜索处理单元113在执行步骤240时,还包括:在收到第一索引单元114发送的所有完整关键词(例如ABC),相关性参数(例如r(AB,ABC)),匹配文档数目(例如n(ABC))后,通过一下规则过滤出需要重点考虑的完整关键词及其相关性系数,并下发到第二索引单元115中:对整词信息按照整词相关性排序,按照整词匹配文档数目和前述CoverRatio的计算公式来计算TopN个词的文档覆盖率,然后根据覆盖率的阈值决定需要发哪些整词和相关性系数;有时候一些整词对应文档数目是其他整词对应的文档数的x倍以上(x自己定义,比如50倍),为了保证匹配整词的多样性,我们可以给这些整词匹配的文档数做一个截断,比如为平均文档数,然后重新计算topN个词的文档覆盖率用于第一条规则。下面以AB部分词举一个例子,如表5所示:表5因为1000是10的100倍,是20的50倍,所以取平均文档数(1000+10+20)/3=343来代替1000,重新计算上述表5得到如表6所示的覆盖率的值用于第一步的规则输入。表6当原来覆盖率是取93%的情况,原来就只会发ABC到第二索引单元115,经过表6所示处理后,则会发ABC与ABD到第二索引单元115。可选地,在本发明实施例中,第二完整关键词为完整关键词集合中字符长度大于阈值L的完整关键词,n为小于或等于L的正整数。具体描述参见下文步骤340的描述。可选地,在本发明实施例中,250根据语料数据集获取完整关键词集合,包括:根据语料数据集与预期想覆盖的完整关键词的总体覆盖率,获取完整关键词集合,完整关键词集合中包括的完整关键词的数量小于语料数据集中包括的完整关键词的数量。具体描述参见下文步骤330的描述。为了更好地理解本发明实施例,下面结合图6描述生成第一索引的流程,如图6所示,包括:310,获取文档数据集与查询语句集。文档数据集是搜索引擎要入库的、用于被用户进行搜索的所有文档的集合。查询语句集是一段历史时间内,用户在搜索引擎上使用的查询语句集合。320,对文档数据集与查询语句集进行分词处理。具体地,利用分词器对文档数据集中的每篇文档进行分词,每篇文档都会生成一个词和词频的列表。例如,一篇文档是“青葡萄,紫葡萄,青葡萄没紫葡萄紫,吃葡萄不吐葡萄皮,不吃葡萄倒吐葡萄皮”,利用分词器对这篇文档进行分词后产生的词和词频列表如表7所示:表7对查询语句集进行分词处理的过程与对文档数据集进行分词处理的过程类似,这里不再赘述。330,确定完整关键词集合。步骤330也可称为重点词挖掘。由于文档数据集和查询语句集的差异较大,因此,分别对这两个数据集作处理。1)文档数据集的处理。根据步骤320中分词处理得到的文档数据集的词和词频列表(下文简称为第一词频表),利用TF-IDF方法或者其他可行方法计算第一词频表中每个词的重要性指标,然后根据该重要性指标对第一词频表中的各个词进行降序排序,为了便于下文描述,将经过降序排序的第一词频表记为第二词频表。其中,TF的意思是词频(TermFrequency),IDF的意思是逆向文件频率(InverseDocumentFrequency)。在一份确定的文档里,词频指的是某一个给定的词语在该文档中出现的次数。词频通常会被归一化,以防止它偏向长的文件。逆向文件频率是一个词语普遍重要性的度量。例如某一特定词语的逆向文件频率可以由总文档数目除以包含该词语的文档数目,再将得到的商取对数得到。TF-IDF方法用于过滤掉常见的词语,保留重要的词语。TF-IDF方法为现有技术,具体内容不再详述。可以根据模糊搜索想覆盖的重点词的总体覆盖率(CoverRatio)1,获取第二词频表中排名前N的词,用于重点词切分。具体地,利用下面公式确定取第二词频表中排名前N的词用于重点词切分:CoverRatio1=(x1+x2+…+xN)/(x1+x2+…+xtotalNum1)(2)其中,CoverRatio1表示总体覆盖率,xi表示第二词频表中排在第i位的词的词频,即该第i位的词在文档数据集中出现的次数,totalNUM1是文档数据集中不同词的总数。应理解,总体覆盖率是一个系统预配置的百分比值,实际应用中,可以根据想要覆盖的重点词的数量来确定该总体覆盖率。为了便于下文描述,将第二词频表中排名前N的词以及对应的词频构成的表记为重点词列表1。2)查询语句集的处理。通过步骤320中分词处理得到的查询语句集的词和词频列表(下文简称为第三词频表)。根据第三词频表中各个词的词频对各个词进行降序排序,为了便于下文描述,将经过降序排序的第三词频表记为第四词频表。可以根据模糊搜索想覆盖的重点词的总体覆盖率(CoverRatio)2来决定,取第四词频表中排名前M的词用于重点词切分。具体地,利用下面公式确定取第四词频表中排名前M的词用于重点词切分:CoverRatio2=(y1+y2+…+yM)/(y1+y2+…+ytotalNum2)(3)其中,CoverRatio2表示总体覆盖率,yi表示第四词频表中排在第j位的词的词频,即该第i位的词在查询语句集中出现的次数;totalNUM2是查询语句集中不同词的总数。为了便于下文描述,将第四词频表中排名前M的词以及对应的词频构成的表记为重点词列表2。应理解,上述总体覆盖率(CoverRatio)1与总体覆盖率(CoverRatio)2可以相同,也可以不同,本发明实施例对此不作限定。合并重点词列表1与重点词列表2,得到完整关键词集合。具体合并方式为:同一个词合并为一行,该词的总体词频为该词在重点词列表1中的词频加上α倍的该词在重点词列表2中的词频,α为可配置参数,α用于表征文档数据集与查询语句集的相对重要性。下文中,将完整关键词集合中包括的各个词记为完整关键词。具体地,完整关键词集合如表8所示:表8完整关键词完整关键词的词频ABCD20ABCE30ABCER50340,对完整关键词集合进行全切分,获取部分关键词。对完整关键词集合中字符长度大于阈值L的完整关键词做进一步的细分。L通常取3。例如,将完整关键词看成一个字符串,取该字符串的所有n元组(这个时候可以支持*AB,AB*,*AB*三种场景),也可以取以该字符串的第一个字符开头的n元组(这个时候仅可以支持AB*场景),也可以取以该字符串的最后一个字符结尾的n元组(这个时候仅能支持*AB的场景),n为小于L的正整数。例如,对完整关键词ABCD进行3元组切分,得到部分关键词:ABC,BCD。后续就是要生成以这些部分关键词为键值(Key)的第一索引来支持模糊搜索。为了后面步骤350中计算部分关键词与完整关键词之间相关性参数的需要,在本步骤中需要对完整关键词作全切分,例如,对完整关键词ABCD进行全切分之后得到全切分n元组:A,B,C,D,AB,BC,CD,ABC,BCD,ABCD。统计这些全切分n元组的频率,统计的时候只需要把n元组所在完整关键词的词频相加即可,比如3元组ABC分别位于完整关键词ABCD(词频为20)、完整关键词ABCE(词频为30)、完整关键词ABCER(词频为50),则3元组ABC的词频为20+30+50=100。将对完整关键词集合中字符长度大于阈值L的完整关键词作全切分之后的表称为全切分信息表,该全切分信息表包括n元组以及词频。应理解,在本发明实施例中,n元组与部分关键词是等效概念。具体地,完整关键词集合为表8为例,对各个完整关键词进行全切分之后的全切分信息表的一部分如表9所示:表9部分关键词(n元组)部分关键词的词频AB100BC100CD20350,计算部分关键词与完整关键词之间的相关性参数。首先,利用上述步骤得到的完整关键词集合(如表8所示)与全切分信息表(如表9所示),可以计算出每个完整关键词w在完整关键词集合中的出现概率p(w),以及每个部分关键词wp在完整关键词集合中的出现概率p(wp)。具体地,p(w)等于完整关键词w的词频除以完整关键词集合(如表8所示)与全切分信息表(如表9所示)中所有词频之和;p(wp)等于部分关键词wp的词频除以完整关键词集合(如表8所示)与全切分信息表(如表9所示)中所有词频之和。然后,计算如下几个指标:1)条件概率f(wp,w)f(wp,w)=p(w)/p(wp)(4)条件概率f(wp,w)表征了完整关键词w相对于部分关键词wp所在的所有完整关键词的重要性,是一个看整体重要性的指标。2)紧密度s(wp,w)s(wp,w)=p(w)/p(wbp)p(wp)p(wap)(5)其中,p(wbp)和p(wap)分别表示完整关键词w中部分关键词wp的前面和后面部分的词段的出现概率。紧密度s(wp,w)表征了部分关键词wp在完整关键词w内部的重要性。由于s(wp,w)相对于wp不是归一化指标,需要对s(wp,w)做如下归一化操作:其中,wi表示完整关键词集合中包含部分关键词wp的完整关键词,N1为完整关键词集合中包含部分关键词wp的完整关键词的数目。3)用户反馈权重q(wp,w)用户反馈权重q(wp,w)用于表征用户输入包括部分关键词wp的模糊查询条件下,用户最终要找的是完整关键词w的概率。具体地,利用搜索日志来计算q(wp,w)。搜索日志包括用户的查询语句、查询语句解析信息、解析的查询语句下发到搜索引擎后端处理的每个模块里面的细节信息、最后返回的文档信息、以及用户点击搜索结果的信息等。通常,当用户点击某个文档后没有再点击其他任何文档,认为该某个文档为用户想要的文档;当用户点击某个文档s秒(s一般取30)后再去点击其他文档,认为该某个文档也是用户想要的文档。利用上面的两个规则,可以从所有模糊搜索日志中过滤出含有用户找到想要文档的日志信息,这样就可以获取到模糊查询语句与文档的映射信息。例如,当模糊查询语句为AB*时,文档Doc1与Doc2是用户想要的。应理解,此次模糊查询中,AB为部分关键词wp。利用Doc1中以AB开头的完整关键词w1在Doc1中的重要性指标来定义用户反馈权重的值;利用Doc2中以AB开头的完整关键词w1在Doc2中的重要性指标来定义用户反馈权重如果Doc1与Doc2中,还存在以AB为开头的完整关键词w2,同理得到与的值。通过上述方法,可以从每个模糊搜索的日志中挖掘出对应的用户反馈指标。最后综合所有模糊搜索日志挖掘得到的用户反馈指标,可以得到最终的用户反馈指标q(wp,w)。以q(wp,w1)为例,找到所有包含wp的其中,x遍历所有的包含wp的w的下标,y1遍历所有包含w1的文档下标,yx遍历所有包含wx的文档下标,cy1表示所有wp模糊查询中有Docy1为满意文档的次数,cyx表示所有wp模糊查询中有Docyx为满意文档的次数。根据定义可以看出q(wp,w)是相对于wp的归一化指标。最后,根据上述三个指标计算部分关键词wp与完整关键词w的相关性参数r(wp,w),具体地可以通过如下两个公式中的任意一个公式计算r(wp,w):r(wp,w)=α·f(wp,w)·s(wp,w)+β·q(wp,w)(1)r(wp,w)=α·f2(wp,w)·s(wp,w)+β·q(wp,w)(8)上面公式仅作为示例而非限定,例如,f(wp,w)的幂次方还可以是3,其中系数α与β可配置。360,生成第一索引。以部分关键词(n元组)为键值(Key)建立第一索引,该第一索引的属性值包括部分关键词的匹配类型、部分关键词所在的完整关键词、部分关键词与完整关键词之间的相关性参数、以及完整关键词所在的文档数目。具体地,如表4所示。具体地,按照下列信息生成第一索引:wp=f:w,r(wp,w),n(w)(9)其中,wp表示第二部分关键词,w表示第三完整关键词,f表示第二部分关键词wp的匹配类型,r(wp,w)表示第二部分关键词wp与第三完整关键词w的相关性参数,n(w)表示第三完整关键词w在完整关键词集合中所匹配的文档数目,=左边的部分表示第一索引的键值部分,=右边的部分表示第一索引的属性值部分。其中,公式(9)的展开式可以为:其中,Bf表示部分关键词的匹配类型为前词匹配,表示部分关键词wp前词匹配到的完整关键词,Af表示部分关键词的匹配类型为后词匹配,表示部分关键词wp后词匹配到的完整关键词,ABf表示部分关键词的匹配类型为后词匹配,表示部分关键词wp后词匹配到的完整关键词。应理解,包括与还包括与wp严格前后词匹配的完整词,例如,部分关键词BC的前后词匹配的完整关键词包括:ABC、BCD、ABCD。还应理解,上述用于表达第一索引的公式仅为示例而非限定,即只是一种表达式,具体实现的时候可以用xml,json或者自己定义的数据结构去实现,本发明实施例对此不作限定。图7为本发明实施例的信息检索的装置600的示意性框图,装置600包括:输入模块610,用于接收查询语句,查询语句包括模糊关键词,模糊关键词为包含匹配符的词;处理模块620,用于根据模糊关键词,确定第一部分关键词,第一部分关键词为模糊关键词中除匹配符之外的部分;处理模块620还用于,根据第一索引与第一部分关键词,获取第一完整关键词,第一完整关键词包含第一部分关键词,第一索引包括键值部分与属性值部分,其中,键值部分存储的信息与属性值部分存储的信息具有对应关系,键值部分存储有第一部分关键词,属性值部分存储有第一完整关键词;处理模块620还用于,根据第二索引与第一完整关键词,获取第一文档,第一文档为第一完整关键词所在的文档,第二索引包括第一完整关键词与第一文档之间的对应关系。在本发明实施例中,第一索引包括部分关键词与完整关键词之间的对应关系,通过第一索引能较为快速地找到部分关键词对应的完整关键词,因此,本发明实施例能够提高模糊搜索场景下信息检索的整体效率。可选地,作为一个实施例,处理模块620还用于,根据语料数据集获取完整关键词集合;对完整关键词集合中的第二完整关键词进行n元组切分,并将n元组切分后的词确定为第二部分关键词,n为小于或等于第二完整关键词的字符长度的正整数;确定第三完整关键词,第三完整关键词为完整关键词集合中包含第二部分关键词的词;根据第二部分关键词与第三完整关键词,生成第一索引,第一索引的键值部分包括第二部分关键词,第一索引的属性值部分包括第三完整关键词。具体地,第一索引如表1所示。可选地,作为一个实施例,处理模块620具体用于,基于匹配类型,确定第三完整关键词,第三完整关键词基于匹配类型与第二部分关键词相匹配,匹配类型为前词匹配、后词匹配或前后词匹配中的任一种;处理模块620具体用于,根据第二部分关键词、匹配类型与第三完整关键词,生成第一索引,第一索引的属性值部分还包括匹配类型;处理模块620具体用于,根据第一索引、第一部分关键词以及第一部分关键词的匹配类型,获取第一完整关键词,第一部分关键词的匹配类型根据第一部分关键词与匹配符之间的位置关系确定。具体地,第一索引如表2所示。可选地,作为一个实施例,处理模块620还用于,根据第二部分关键词在完整关键词集合中的出现频率以及第三完整关键词在完整关键词集合中的出现频率,确定第二部分关键词与第三完整关键词的相关性参数;处理模块620具体用于,根据第二部分关键词、匹配类型、以及第三完整关键词与相关性参数,生成第一索引,第一索引的属性值部分还包括第二部分关键词与第三完整关键词的相关性参数;处理模块620还用于,根据第一索引,获取第一部分关键词与第一完整关键词的相关性参数;处理模块620还用于,根据第一部分关键词与第一完整关键词的相关性参数、以及第一文档与查询语句的相关性参数,确定第一文档的打分。具体地,第一索引如表3所示。可选地,作为一个实施例,处理模块620具体用于,根据下面公式计算第二部分关键词wp与第三完整关键词w的相关性参数r(wp,w):r(wp,w)=α·f(wp,w)·s(wp,w)+β·q(wp,w)其中,f(wp,w)表示wp与w的条件概率,s(wp,w)表示wp与w的紧密度参数,q(wp,w)表示wp与w的用户反馈权重,α与β为常数。可选地,作为一个实施例,处理模块620还用于,获取第一文档数目,第一文档数目为第三完整关键词在完整关键词集合中所匹配的文档数目;处理模块620具体用于,根据第二部分关键词、匹配类型、第三完整关键词、相关性参数、以及第一文档数目,生成第一索引,第一索引的属性值部分还包括第一文档数目;处理模块620还用于,根据第一索引,获取第一完整关键词对应的第二文档数目;处理模块620具体用于,根据第二文档数目、第一部分关键词与第一完整关键词的相关性参数、以及第一文档与查询语句的相关性参数,确定第一文档的打分。具体地,第一索引如表4所示。可选地,作为一个实施例,处理模块620具体用于,根据下列信息,生成第一索引:wp=f:w,r(wp,w),n(w)其中,wp表示第二部分关键词,w表示第三完整关键词,f表示第二部分关键词wp的匹配类型,r(wp,w)表示第二部分关键词wp与第三完整关键词w的相关性参数,n(w)表示第三完整关键词w在完整关键词集合中所匹配的文档数目,=左边的部分表示第一索引的键值部分,=右边的部分表示第一索引的属性值部分。可选地,作为一个实施例,第二完整关键词为完整关键词集合中字符长度大于阈值L的完整关键词。可选地,作为一个实施例,处理模块620具体用于,根据语料数据集与预期想覆盖的完整关键词的总体覆盖率,获取完整关键词集合,完整关键词集合中包括的完整关键词的数量小于语料数据集中包括的完整关键词的数量。具体地,本发明实施例中的输入模块610可以由接收器或接收器相关电路实现,例如图8所示的收发器740;处理模块620可以由处理器或处理器相关电路实现,例如图8所示的处理器710。应理解,本发明实施例提供的信息检索的装置600可以指代计算机程序产品,该计算机程序产品可以为一个软件安装包,所述软件安装包被计算机运行时,能够执行本发明实施例提供的信息检索的方法。换句话说,本发明实施例提供的信息检索的装置600可以指代软件模块,对应地,信息检索的装置600所包括的输入模块610与处理模块可以指代软件子模块。还应理解,本发明实施例提供的信息检索的装置600可用于执行本发明实施例提供的信息检索的方法,并且装置600中的各个模块的上述和其它操作和/或功能分别为了实现图3-图5中的各个方法的相应流程,为了简洁,在此不再赘述。图8为本发明实施例的计算设备700的示意性框图,计算设备700包括处理器710、存储器720、总线系统730与收发器740,其中,处理器710、存储器720和收发器740通过总线系统730相连。存储器720用于存储程序(或指令),处理器710用于执行存储器720中存储的指令(或程序),以控制收发器740接收信号和/或发送信号。具体地,处理器710读取存储器720中的指令用于:控制收发器740,接收查询语句,查询语句包括模糊关键词,模糊关键词为包含匹配符的词;处理器710还用于,根据模糊关键词,确定第一部分关键词,第一部分关键词为模糊关键词中除匹配符之外的部分;根据第一索引与第一部分关键词,获取第一完整关键词,第一完整关键词包含第一部分关键词,第一索引包括键值部分与属性值部分,其中,键值部分存储的信息与属性值部分存储的信息具有对应关系,键值部分存储有第一部分关键词,属性值部分存储有第一完整关键词;根据第二索引与第一完整关键词,获取第一文档,第一文档为第一完整关键词所在的文档,第二索引包括第一完整关键词与第一文档之间的对应关系。在本发明实施例中,第一索引包括部分关键词与完整关键词之间的对应关系,通过第一索引能较为快速地找到部分关键词对应的完整关键词,因此,本发明实施例能够提高模糊搜索场景下信息检索的整体效率。可选地,作为一个实施例,处理器710还用于,根据语料数据集获取完整关键词集合;对完整关键词集合中的第二完整关键词进行n元组切分,并将n元组切分后的词确定为第二部分关键词,n为小于或等于第二完整关键词的字符长度的正整数;确定第三完整关键词,第三完整关键词为完整关键词集合中包含第二部分关键词的词;根据第二部分关键词与第三完整关键词,生成第一索引,第一索引的键值部分包括第二部分关键词,第一索引的属性值部分包括第三完整关键词。具体地,第一索引如表1所示。可选地,作为一个实施例,处理器710具体用于,基于匹配类型,确定第三完整关键词,第三完整关键词基于匹配类型与第二部分关键词相匹配,匹配类型为前词匹配、后词匹配或前后词匹配中的任一种;处理器710具体用于,根据第二部分关键词、匹配类型与第三完整关键词,生成第一索引,第一索引的属性值部分还包括匹配类型;处理器710具体用于,根据第一索引、第一部分关键词以及第一部分关键词的匹配类型,获取第一完整关键词,第一部分关键词的匹配类型根据第一部分关键词与匹配符之间的位置关系确定。具体地,第一索引如表2所示。可选地,作为一个实施例,处理器710还用于,根据第二部分关键词在完整关键词集合中的出现频率以及第三完整关键词在完整关键词集合中的出现频率,确定第二部分关键词与第三完整关键词的相关性参数;处理器710具体用于,根据第二部分关键词、匹配类型、以及第三完整关键词与相关性参数,生成第一索引,第一索引的属性值部分还包括第二部分关键词与第三完整关键词的相关性参数;处理器710还用于,根据第一索引,获取第一部分关键词与第一完整关键词的相关性参数;处理器710还用于,根据第一部分关键词与第一完整关键词的相关性参数、以及第一文档与查询语句的相关性参数,确定第一文档的打分。具体地,第一索引如表3所示。可选地,作为一个实施例,处理器710具体用于,根据下面公式计算第二部分关键词wp与第三完整关键词w的相关性参数r(wp,w):r(wp,w)=α·f(wp,w)·s(wp,w)+β·q(wp,w)其中,f(wp,w)表示wp与w的条件概率,s(wp,w)表示wp与w的紧密度参数,q(wp,w)表示wp与w的用户反馈权重,α与β为常数。可选地,作为一个实施例,处理器710还用于,获取第一文档数目,第一文档数目为第三完整关键词在完整关键词集合中所匹配的文档数目;处理器710具体用于,根据第二部分关键词、匹配类型、第三完整关键词、相关性参数、以及第一文档数目,生成第一索引,第一索引的属性值部分还包括第一文档数目;处理器710还用于,根据第一索引,获取第一完整关键词对应的第二文档数目;处理器710具体用于,根据第二文档数目、第一部分关键词与第一完整关键词的相关性参数、以及第一文档与查询语句的相关性参数,确定第一文档的打分。具体地,第一索引如表4所示。可选地,作为一个实施例,处理器710具体用于,根据下列信息,生成第一索引:wp=f:w,r(wp,w),n(w)其中,wp表示第二部分关键词,w表示第三完整关键词,f表示第二部分关键词wp的匹配类型,r(wp,w)表示第二部分关键词wp与第三完整关键词w的相关性参数,n(w)表示第三完整关键词w在完整关键词集合中所匹配的文档数目,=左边的部分表示第一索引的键值部分,=右边的部分表示第一索引的属性值部分。可选地,作为一个实施例,第二完整关键词为完整关键词集合中字符长度大于或等于阈值L的完整关键词。可选地,作为一个实施例,处理器710具体用于,根据语料数据集与预期想覆盖的完整关键词的总体覆盖率,获取完整关键词集合,完整关键词集合中包括的完整关键词的数量小于语料数据集中包括的完整关键词的数量。应理解,在本发明实施例中,处理器710可以是中央处理单元(CentralProcessingUnit,简称为“CPU”),处理器710还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuits,ASIC)、现成可编程门阵列(FieldProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。存储器720可以包括只读存储器和随机存取存储器,并向处理器710提供指令(程序)和数据。存储器720的一部分还可以包括非易失性随机存取存储器。例如,存储器720还可以存储设备类型的信息。总线系统730除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都标为总线系统730。在实现过程中,上述方法的各步骤可以通过处理器710中的硬件的集成逻辑电路或者软件形式的指令完成。结合本发明实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器720,处理器710读取存储器720中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。应理解,本发明实施例提供的计算设备700可用于执行本发明实施例提供的信息检索的方法,以及可以对应于本发明实施例提供的信息检索的装置600,并且计算设备700中的各个模块的上述和其它操作和/或功能分别为了实现图3-图5中的各个方法的相应流程,为了简洁,在此不再赘述。还应理解,本文中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本发明实施例的范围。应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本
技术领域
的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1