一种语义检索方法及装置与流程

文档序号:19879735发布日期:2020-02-08 06:52阅读:119来源:国知局
一种语义检索方法及装置与流程

本发明涉及搜索引擎技术领域,尤其涉及一种语义检索方法及装置。



背景技术:

随着计算机技术的发展,搜索引擎的检索技术不断提高。

目前,现有的搜索引擎可以在获得用户输入的检索信息后,在数据库中查找包含该检索信息的网页,之后,将查找的网页进行排序并返回至用户,为用户提供有效的信息检索服务。

但是,由于现有的搜索引擎只关注用户所输入检索信息的字面本身,未能获知用户真实的检索意图,因此现有的搜索引擎的检索准确率低。例如,当用户首次在搜索引擎中输入:明天天气如何,搜索引擎会根据“明天天气如何”向用户返回关于明天天气的网页,之后,用户接着在搜索引擎中输入:后天呢,搜索引擎依然会根据“后天呢”向用户返回网页,而不能识别出用户想询问“后天天气如何”的意图。这样,用户往往需要多次在搜索引擎进行检索,才能获得满足其检索意图的网页,而多次检索必然给搜索引擎带来了不必要的运行负担。



技术实现要素:

鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的语义检索方法及装置,技术方案如下:

一种语义检索方法,所述方法包括:

根据用户输入的当前的检索信息,获得相应的待推理文本;

对所述待推理文本进行上下文推理,以确定目标检索文本;

在预设的标准问题文本库中,查找与所述目标检索文本匹配的至少一个标准问题文本,并将查找到的各所述标准问题文本均确定为目标标准问题文本;

对于查找到的各所述目标标准问题文本:在预设的答案信息库中获得与该目标标准问题文本对应的答案信息,在预设的知识信息库中获得与该所述答案信息对应的知识信息,将该目标标准问题文本、获得的所述答案信息以及获得的所述知识信息输出。

可选的,所述对所述待推理文本进行上下文推理,以确定目标检索文本,包括:

将在所述当前的检索信息之前输入的至少一个检索信息对应的目标检索文本确定为上文文本;

根据确定的所述上文文本,对所述待推理文本进行下文文本推理;

将推理出的下文文本确定为当前的目标检索文本。

可选的,所述对所述待推理文本进行上下文推理,以确定目标检索文本,包括:

将在所述当前的检索信息之后输入的至少一个检索信息对应的目标检索文本确定为下文文本;

根据确定的所述下文文本,对所述待推理文本进行上文文本推理;

将推理出的上文文本确定为当前的目标检索文本。

可选的,所述对所述待推理文本进行上下文推理,以确定目标检索文本,包括:

将在所述当前的检索信息之前输入的至少一个检索信息对应的目标检索文本确定为上文文本,将在所述当前的检索信息之后输入的至少一个检索信息对应的目标检索文本确定为下文文本;

根据确定的所述下文文本和所述上文文本,对所述待推理文本进行上下文文本推理;

将推理出的文本确定为当前的目标检索文本。

可选的,所述对所述待推理文本进行上下文推理,以确定目标检索文本,包括:

将所述待推理文本中的部分文本确定为周围文本;

根据确定的所述周围文本,对所述待推理文本中除所述周围文本以外的其余部分文本进行上下文推理,以获得第一推理文本;

将所述周围文本和获得的所述第一推理文本确定为当前的目标检索文本。

可选的,所述在预设的标准问题文本库中,查找与所述目标检索文本匹配的至少一个标准问题文本,并将查找到的各所述标准问题文本均确定为目标标准问题文本,包括:

将所述目标检索文本的字符串确定为第一字符串;

在预设的标准问题文本库中各标准问题文本的字符串中,查找与所述第一字符串匹配的至少一个字符串;

判断是否查找到与所述第一字符串匹配的至少一个字符串,若是,则将查找到的与所述第一字符串匹配的各字符串均确定为第二字符串,并将与各所述第二字符串对应的标准问题文本均确定为目标标准问题文本。

可选的,在所述在预设的标准问题文本库中,查找与所述目标检索文本匹配的至少一个标准问题文本,并将查找到的各所述标准问题文本均确定为目标标准问题文本之后,所述方法还包括:

如果没有查找到与所述第一字符串匹配的至少一个字符串,则:计算所述目标检索文本与预设的标准问题文本库中至少一个标准问题文本的文本相似度;

将超过所述预设相似度阈值的各所述文本相似度对应的标准问题文本均确定为目标标准问题文本。

一种语义检索装置,所述装置包括:第一文本获得单元、第一文本确定单元、第二文本确定单元和第一输出单元,其中:

所述第一文本获得单元,用于根据用户输入的当前的检索信息,获得相应的待推理文本;

所述第一文本确定单元,用于对所述待推理文本进行上下文推理,以确定目标检索文本;

所述第二文本确定单元,用于在预设的标准问题文本库中,查找与所述目标检索文本匹配的至少一个标准问题文本,并将查找到的各所述标准问题文本均确定为目标标准问题文本;

所述第一输出单元,用于对于查找到的各所述目标标准问题文本:在预设的答案信息库中获得与该目标标准问题文本对应的答案信息,在预设的知识信息库中获得与该所述答案信息对应的知识信息,将该目标标准问题文本、获得的所述答案信息以及获得的所述知识信息输出。

可选的,所述第一文本确定单元,具体包括:第三文本确定单元、第一推理单元和第四文本确定单元,其中:

所述第三文本确定单元,用于将在所述当前的检索信息之前输入的至少一个检索信息对应的目标检索文本确定为上文文本;

所述第一推理单元,用于根据确定的所述上文文本,对所述待推理文本进行下文文本推理;

所述第四文本确定单元,用于将推理出的下文文本确定为当前的目标检索文本。

可选的,所述第一文本确定单元,具体包括:第五文本确定单元、第二推理单元和第六文本确定单元,其中:

所述第五文本确定单元,用于将在所述当前的检索信息之后输入的至少一个检索信息对应的目标检索文本确定为下文文本;

所述第一推理单元,用于根据确定的所述下文文本,对所述待推理文本进行上文文本推理;

所述第六文本确定单元,用于将推理出的上文文本确定为当前的目标检索文本。

可选的,所述第一文本确定单元,具体包括:第七文本确定单元、第三推理单元和第八文本确定单元,

所述第七文本确定单元,用于将在所述当前的检索信息之前输入的至少一个检索信息对应的目标检索文本确定为上文文本,将在所述当前的检索信息之后输入的至少一个检索信息对应的目标检索文本确定为下文文本;

所述第四推理单元,用于根据确定的所述下文文本和所述上文文本,对所述待推理文本进行上下文文本推理;

所述第八文本确定单元,用于将推理出的文本确定为当前的目标检索文本。

可选的,所述第一文本确定单元,具体包括:第九文本确定单元、第三推理单元和第十文本确定单元,

所述第九文本确定单元,用于将所述待推理文本中的部分文本确定为周围文本;

所述第五推理单元,用于根据确定的所述周围文本,对所述待推理文本中除所述周围文本以外的其余部分文本进行上下文推理,以获得第一推理文本;

所述第十文本确定单元,用于将所述周围文本和获得的所述第一推理文本确定为当前的目标检索文本。

可选的,所述第二文本确定单元,具体包括:第一确定单元、第一查找单元、判断单元和第二确定单元,其中:

所述第一确定单元,用于将所述目标检索文本的字符串确定为第一字符串;

所述第一查找单元,用于在预设的标准问题文本库中各标准问题文本的字符串中,查找与所述第一字符串匹配的至少一个字符串;

所述判断单元,用于判断是否查找到与所述第一字符串匹配的至少一个字符串,若是,则触发所述第二确定单元;

所述第二确定单元,用于将查找到的与所述第一字符串匹配的各字符串均确定为第二字符串,并将与各所述第二字符串对应的标准问题文本均确定为目标标准问题文本。

可选的,所述装置还包括:相似度计算单元和第三确定单元,其中:

所述相似度计算单元,用于如果没有查找到与所述第一字符串匹配的至少一个字符串,则:计算所述目标检索文本与预设的标准问题文本库中至少一个标准问题文本的文本相似度;

所述第三确定单元,用于将超过所述预设相似度阈值的各所述文本相似度对应的标准问题文本均确定为目标标准问题文本。

本发明提供的语义检索方法及装置,通过根据用户输入的当前的检索信息,获得相应的待推理文本,对所述待推理文本进行上下文推理,以确定目标检索文本,在预设的标准问题文本库中,查找与所述目标检索文本匹配的至少一个标准问题文本,并将查找到的各所述标准问题文本均确定为目标标准问题文本,对于查找到的各所述目标标准问题文本:在预设的答案信息库中获得与该目标标准问题文本对应的答案信息,在预设的知识信息库中获得与该所述答案信息对应的知识信息,将该目标标准问题文本、获得的所述答案信息以及获得的所述知识信息输出,可以基于用户前后输入的检索信息,对用户输入的检索信息进行上下文推理来获知用户真实的检索意图,以更准确的为用户返回满足其意图的答案信息和知识信息,提高搜索引擎的检索效率,减少搜索引擎的运行负担。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了一种语义检索方法的流程图;

图2示出了另一种语义检索方法的流程图;

图3示出了另一种语义检索方法的流程图;

图4示出了一种语义检索装置的结构示意图;

图5示出了另一种语义检索装置的结构示意图;

图6示出了另一种语义检索装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。

如图1所示,本实施例提出了一种语义检索方法,该方法可以包括以下步骤:

s10、根据用户输入的当前的检索信息,获得相应的待推理文本;

其中,检索信息的类型可以是语音、文字、数字、字母和符号等中的一种或几种组合信息,本发明对于检索信息的具体类型不做限定。

需要说明的是,用户输入的当前的检索信息并非等同于用户当前输入的检索信息,而可以是在用户已输入的多次的检索信息(每当用户对输入的检索信息进行搜索,本发明即可认为用户输入了一次检索信息)中的任一次检索信息,因此,用户输入的当前的检索信息可以认为是本发明本次从用户多次输入的检索信息中选定的检索信息。本发明在选定本次检索信息后,可以随之确定用户相对于本次检索信息之前(如上一次)和之后(如下一次)输入的检索信息。

具体的,本发明可以先行从检索信息中提取出相应的文本信息,例如:当用户在检索窗口中输入语音检索信息时,本发明可以先行将语音检索信息转换为文本信息并进行提取。

具体的,本发明在提取出文本信息后,可以通过过滤纠错和词性标注,对文本信息中的非法词、语气词等进行过滤,对错别的字符(如错别字、拼错的拼音)等进行纠错处理,进而获得待推理文本。例如,用户在搜索窗口中输入文本信息“舔气如何呀”时,本发明可以从该文本信息中分析出“舔气”中的“舔”为错别字,并将“舔气”纠正为“天气”,且在搜索窗口中提供纠正后的文本信息(即“天气”)供用户选择;也可以从该文本信息中分析出“天气”为名词、“如何”为疑问词(疑问词为语气词,可过滤),而将“天气”确定为待推理文本。

s20、对所述待推理文本进行上下文推理,以确定目标检索文本;

需要说明的是,用户的检索行为通常可以基于时间进行分段,各段的时间间隔较为明显,且在每个时间段中,用户前后输入的检索信息在语义上往往相互关联。因此,当用户在搜索窗口中连续输入检索信息时,为确定本发明本次选定的检索信息所对应的目标检索文本,本发明可以根据与用户在之前和/或在之后输入的检索信息对应的、已确定的目标检索文本来对待推理文本进行上下文推理。

具体的,本发明本次选定的检索信息与待推理文本相对应。

具体的,本发明可以根据用户之前输入的检索信息所对应的目标检索文本,和/或用户之后输入的检索信息所对应的目标检索文本,来对获得的待推理文本进行上下文推理,以获得与本发明本次选定的检索信息所对应的目标检索文本。例如,若用户上一次输入的检索信息对应的目标检索文本为“今天天气”,而待推理文本为“明天”,则本发明可以将上一次已确定的目标检索文本“今天天气”作为上文,对待推理文本“明天”进行下文推理而获得“明天天气”,即本发明本次选定的检索信息所对应的目标检索文本。

还需要说明的是,本发明对进行上下文推理所引用的用户之前或之后输入的检索信息的次数不做限定,例如,本发明可以引用用户之前输入的两次检索信息对待推理文本进行上下文推理,可以引用用户之后输入的三次检索信息对待推理文本进行上下文推理,还可以引用用用户之前输入的三次检索信息和用户之后输入的两次检索信息对待推理文本进行上下文推理。

可选的,本发明还可以根据在本次选定的检索信息中的部分检索信息所对应的目标检索文本,来确定本次选定的检索信息中其余部分检索信息所对应的目标检索文本,进而确定本次选定的检索信息所对应的目标检索文本。例如,用户在搜索窗口中输入的检索信息为“今天天气怎么样?明天呢”,本发明可以将“今天天气怎么样”对应的目标检索文本“今天天气”作为该检索信息中的上文,对“明天呢”所对应的待推理文本“明天”进行下文推理,以获得相应的目标检索文本“明天天气”,之后再将“今天天气”和“明天天气”确定为本次选定的检索信息所对应的目标检索文本。

具体的,本发明可以通过上下文内容比较、自动推理来获得上文或下文中需要补充的字符。

s30、在预设的标准问题文本库中,查找与所述目标检索文本匹配的至少一个标准问题文本,并将查找到的各所述标准问题文本均确定为目标标准问题文本;

其中,本发明可以根据具体的应用场景,来对标准问题文本库中的标准问题进行设置。例如,当本发明应用于电商的在线智能客服时,标准问题文本库中的标准问题可以是退换货的规则、如何退换货和如何更改寄送地址等,当本发明应用于供电局的电费缴纳应用程序时,标准问题文本库中的标准问题可以是电费查询、电费缴纳操作等。需要说明的是,本发明对于标准问题文本库中标准问题文本的设置过程不做限定。

可选的,本发明可以使用字符串匹配算法,在标准问题文本库中查找与目标检索文本的字符串相同的标准问题文本。

可选的,本发明也可以使用文本相似度的计算方式,在标准问题文本库中,查找与目标检索文本的文本相似度超过预设文本相似度阈值的标准问题文本。

s40、对于查找到的各所述目标标准问题文本:在预设的答案信息库中获得与该目标标准问题文本对应的答案信息,在预设的知识信息库中获得与该所述答案信息对应的知识信息,将该目标标准问题文本、获得的所述答案信息以及获得的所述知识信息输出。

其中,本发明可以基于标准问题文本库中的各标准问题文本,在答案信息库中设置相应的答案信息,以解决各标准问题文本中的问题。本发明也可以基于答案信息库中的各答案信息,在知识信息库中设置相应的知识信息,使用户可以更好理解与答案信息相关的知识信息,提供更好的信息检索服务检索。

其中,答案信息库中的各答案信息可以是语音格式、文本格式或图片格式,知识信息库中的各知识信息也可以是语音格式、文本格式或图片格式,本发明对此均不做限定。

其中,知识信息库可以包括答案信息所在的文章、该文章的知识内容所属知识场景和相近的知识内容等。例如,在手机缴费应用程序中,当用户输入的检索信息对应到标准问题文本“交费方式”时,本发明会将与“交费方式”相应的答案信息输出,且将该答案信息所在的文章“业务使用类常见问题”、所属知识场景“移动交费的方式有哪些”和相近的知识内容(例如中国移动交费介绍、交费号码的组成)。

具体的,本发明可以通过输出知识信息的链接地址来实现知识信息的输出,用户可以点击链接地址来查看知识信息,也可以通过链接地址来下载知识信息。

需要说明的是,本发明在为用户提供信息检索服务的过程中,不仅可以关注用户所输入检索信息的字面本身,还可以基于用户前后输入的检索信息,对用户输入的检索信息(本发明本次选定的检索信息)进行上下文推理来获知用户真实的检索意图,以更准确的为用户返回满足其意图的答案信息和知识信息,提高搜索引擎的检索效率,减少搜索引擎的运行负担。

本实施例提出的语义检索方法,通过根据用户输入的当前的检索信息,获得相应的待推理文本,对所述待推理文本进行上下文推理,以确定目标检索文本,在预设的标准问题文本库中,查找与所述目标检索文本匹配的至少一个标准问题文本,并将查找到的各所述标准问题文本均确定为目标标准问题文本,对于查找到的各所述目标标准问题文本:在预设的答案信息库中获得与该目标标准问题文本对应的答案信息,在预设的知识信息库中获得与该所述答案信息对应的知识信息,将该目标标准问题文本、获得的所述答案信息以及获得的所述知识信息输出,可以基于用户前后输入的检索信息,对用户输入的检索信息进行上下文推理来获知用户真实的检索意图,以更准确的为用户返回满足其意图的答案信息和知识信息,提高搜索引擎的检索效率,减少搜索引擎的运行负担。

基于图1所示方法,本实施例提出了另一种语义检索方法,如图2所示,在该方法中,步骤s20可以具体包括以下步骤:

s210、将在所述当前的检索信息之前输入的至少一个检索信息对应的目标检索文本确定为上文文本;

s211、根据确定的所述上文文本,对所述待推理文本进行下文文本推理;

s212、将推理出的下文文本确定为当前的目标检索文本。

需要说明的是,当用户在搜索窗口中连续输入检索信息时,本发明为确定本发明本次选定的检索信息所对应的目标检索文本,可以根据与用户在之前和/或在之后输入的检索信息对应的、已确定的目标检索文本来对待推理文本(与本发明本次选定的检索信息对应)进行上下文推理。

可选的,步骤s20还可以具体包括以下步骤:

将在所述当前的检索信息之后输入的至少一个检索信息对应的目标检索文本确定为下文文本;

根据确定的所述下文文本,对所述待推理文本进行上文文本推理;

将推理出的上文文本确定为当前的目标检索文本。

还需要说明的是,用户若在检索信息的语句不完整或语义不清晰时就开始进行搜索,则搜索引擎会无法返回满足用户真实意图的准确信息,例如,用户想了解昨天的天气,但只在搜索窗口中只输入“天气”,则搜索引擎会由于缺少“昨天”这一时间关键词而无法返回满足用户意图的准确信息(例如,返回今天和未来多天的天气)。当用户为了解昨天的天气而再次输入检索信息时,本发明可以结合该次检索信息对应的目标检索文本,对之前的检索信息对应的待推理文本进行推理,例如,用户再次输入的检索信息为“昨天”,则本发明就可以推理出用户之前输入检索信息“天气”的真实意图是想了解昨天天气。

具体的,本发明在确定用户某次输入的检索信息对应的目标检索文本后,可以结合该次确定的目标检索文本,对与用户之前输入的检索信息(本次选定的检索信息)对应的待推理文本进行上下文推理。

可选的,步骤s20还可以具体包括以下步骤:

将在所述当前的检索信息之前输入的至少一个检索信息对应的目标检索文本确定为上文文本,将在所述当前的检索信息之后输入的至少一个检索信息对应的目标检索文本确定为下文文本;

根据确定的所述下文文本和所述上文文本,对所述待推理文本进行上下文文本推理;

将推理出的文本确定为当前的目标检索文本。

还需要说明的是,用户当前输入的检索信息不完整时,搜索引擎往往难以及时获知用户的真实意图。

具体的,本发明在选定本次检索信息后,可以根据用户之前输入的检索信息所对应的目标检索文本,和之后输入的检索信息所对应的目标检索文本,对与本次选定的检索信息对应的待推理文本进行上下文推理,以获知用户的真实意图。下面举例1进行说明。

举例1:用户想了解由于吃多东西引起的胃疼的适用胃药,但是,用户第一次只输入“胃疼”进行检索,搜索引擎无法准确获知用户真实意图,会返回较多的关于胃疼的答案信息和知识信息给用户,用户难以查找到需要的信息;用户第二次输入检索信息“胃药”并进行检索时,搜索引擎依然不能准确获知用户的真实意图;当用户第三次输入检索信息“吃多了”,则本发明可以根据之前输入的检索信息所对应的目标检索文本“胃疼”,以及之后输入的检索信息所对应的目标检索文本“吃多了”,对用户输入的检索信息(本次选定的检索信息)对应的待推理文本“胃药”进行上下文推理,获知用户的真实意图即“由于吃多了引起的胃疼的胃药”。

可选的,步骤s20还可以具体包括以下步骤:

将所述待推理文本中的部分文本确定为周围文本;

根据确定的所述周围文本,对所述待推理文本中除所述周围文本以外的其余部分文本进行上下文推理,以获得第一推理文本;

将所述周围文本和获得的所述第一推理文本确定为当前的目标检索文本。

其中,周围文本可以是在待推理文本中具有完整语义的文本。

其中,对于待推理文本中除周围文本以外的其余部分文本,周围文本可以是该其余部分文本的上文文本,当然,周围文本也可以是该其余部分文本的下文文本,本发明对此不做限定。

具体的,本发明可以基于周围文本,对待推理文本中除周围文本以外的其余部分文本进行上下文推理。例如,用户在搜索窗口中输入的检索信息为“这周足球赛事赛程?下周呢”,本发明可以将“这周足球赛事赛程”作为与该检索信息对应的待推理文本中的周围文本,对“下周”进行下文推理而获得第一推理文本,即“下周足球赛事赛程”,这样,搜索引擎就可以根据周围文本和第一推理文本,获知用户所输入的“这周足球赛事赛程?下周呢”的真实意图为两个问题,即“这周足球赛事赛程”和“下周足球赛事赛程”。

具体的,对于用户所输入搜索引擎的检索信息,本发明可以将问号、逗号或句号等标点符号作为前一句文本与后一句文本的分隔标识,以确定出具有完整语义的周围文本(一句文本)。

本实施例提出的语义检索方法,可以根据与用户在之前和/或在之后输入的检索信息对应的、已确定的目标检索文本,来确定用户输入的当前的检索信息对应的目标检索文本,也可以根据用户输入的当前的检索信息中的部分信息所对应的目标检索文本,来确定该检索信息中其余部分信息所对应的目标检索文本,提高了搜索引擎获知用户真实意图的准确性。

基于图1所示方法,本实施例还提出了另一种语义检索方法,如图3所示,步骤s30可以具体包括:

s310、将所述目标检索文本的字符串确定为第一字符串;

s320、在预设的标准问题文本库中各标准问题文本的字符串中,查找与所述第一字符串匹配的至少一个字符串;

s330、判断是否查找到与所述第一字符串匹配的至少一个字符串,若是,则执行s340;

s340、将查找到的与所述第一字符串匹配的各字符串均确定为第二字符串,并将与各所述第二字符串对应的标准问题文本均确定为目标标准问题文本。

具体的,本发明可以使用字符串匹配算法,如:暴风(bf,bruteforce)算法、bm(boyer-moore)算法、kmp(knuth-morris-pratt)算法等,在标准问题文本库中查找与目标检索文本的字符串相同的标准问题文本。需要说明的是,本发明对于采用的字符串匹配算法的具体类型不做限定。

其中,在步骤s30之后,即在步骤s340之后,图3所示方法还可以包括步骤s350和s360。

需要说明的是,若在执行步骤s330后,即判断是否查找到与所述第一字符串匹配的至少一个字符串后,若判断结果为否,即未查找到与所述第一字符串匹配的至少一个字符串,则可以执行s350。

s350、计算所述目标检索文本与预设的标准问题文本库中至少一个标准问题文本的文本相似度;

s360、将超过所述预设相似度阈值的各所述文本相似度对应的标准问题文本均确定为目标标准问题文本。

需要说明的是,若本发明在标准问题文本库中未查找到与目标检索文本的字符串相同的标准问题文本,则可以使用文本相似度的计算方式来确定与目标检索文本匹配的标准问题文本。

具体的,本发明对于采用的文本相似度的计算方式不做限定,例如本发明可以采用word2vec算法(如连续词袋模型(cbow,continuousbag-of-wordmodel)和跳字模型skip-gram),再例如差异化比较算法。

其中,预设相似度阈值可以由技术人员根据实际情况进行设置,本发明对此不做限定。

本实施例提出的语义检索方法,通过采用字符串匹配算法和文本相似度计算法,在标准问题文本库中查找与目标检索文本匹配的标准问题文本,提高了查找标准问题文本的速率,也提高了查找的准确性。

与图1所示方法相对应,本实施例提出了一种语义检索装置,如图4所示,该装置可以包括:第一文本获得单元10、第一文本确定单元20、第二文本确定单元30和第一输出单元40,其中:

所述第一文本获得单元10,用于根据用户输入的当前的检索信息,获得相应的待推理文本;

其中,检索信息的类型可以是语音、文字、数字、字母和符号等中的一种或几种组合信息,本发明对于检索信息的具体类型不做限定。

需要说明的是,用户输入的当前的检索信息并非等同于用户当前输入的检索信息,而可以是在用户已输入的多次的检索信息(每当用户对输入的检索信息进行搜索,本发明即可认为用户输入了一次检索信息)中的任一次检索信息,因此,用户输入的当前的检索信息可以认为是本发明本次从用户多次输入的检索信息中选定的检索信息。本发明在选定本次检索信息后,可以随之确定用户相对于本次检索信息之前(如上一次)和之后(如下一次)输入的检索信息。

具体的,本发明可以先行从检索信息中提取出相应的文本信息,例如:当用户在检索窗口中输入语音检索信息时,本发明可以先行将语音检索信息转换为文本信息并进行提取。

具体的,本发明在提取出文本信息后,可以通过过滤纠错和词性标注,对文本信息中的非法词、语气词等进行过滤,对错别的字符(如错别字、拼错的拼音)等进行纠错处理,进而获得待推理文本。

所述第一文本确定单元20,用于对所述待推理文本进行上下文推理,以确定目标检索文本;

需要说明的是,用户的检索行为通常可以基于时间进行分段,各段的时间间隔较为明显,且在每个时间段中,用户前后输入的检索信息在语义上往往相互关联。因此,当用户在搜索窗口中连续输入检索信息时,为确定本发明本次选定的检索信息所对应的目标检索文本,本发明可以根据与用户在之前和/或在之后输入的检索信息对应的、已确定的目标检索文本来对待推理文本进行上下文推理。

具体的,本发明本次选定的检索信息与待推理文本相对应。

具体的,本发明可以根据用户之前输入的检索信息所对应的目标检索文本,和/或用户之后输入的检索信息所对应的目标检索文本,来对获得的待推理文本进行上下文推理,以获得与本发明本次选定的检索信息所对应的目标检索文本。

还需要说明的是,本发明对进行上下文推理所引用的用户之前或之后输入的检索信息的次数不做限定。

可选的,本发明还可以根据在本次选定的检索信息中的部分检索信息所对应的目标检索文本,来确定本次选定的检索信息中其余部分检索信息所对应的目标检索文本,进而确定本次选定的检索信息所对应的目标检索文本。

具体的,本发明可以通过上下文内容比较、自动推理来获得上文或下文中需要补充的字符。

所述第二文本确定单元30,用于在预设的标准问题文本库中,查找与所述目标检索文本匹配的至少一个标准问题文本,并将查找到的各所述标准问题文本均确定为目标标准问题文本;

其中,本发明可以根据具体的应用场景,来对标准问题文本库中的标准问题进行设置。需要说明的是,本发明对于标准问题文本库中标准问题文本的设置过程不做限定。

可选的,本发明可以使用字符串匹配算法,在标准问题文本库中查找与目标检索文本的字符串相同的标准问题文本。

可选的,本发明也可以使用文本相似度的计算方式,在标准问题文本库中,查找与目标检索文本的文本相似度超过预设文本相似度阈值的标准问题文本。

所述第一输出单元40,用于对于查找到的各所述目标标准问题文本:在预设的答案信息库中获得与该目标标准问题文本对应的答案信息,在预设的知识信息库中获得与该所述答案信息对应的知识信息,将该目标标准问题文本、获得的所述答案信息以及获得的所述知识信息输出。

其中,本发明可以基于标准问题文本库中的各标准问题文本,在答案信息库中设置相应的答案信息,以解决各标准问题文本中的问题。本发明也可以基于答案信息库中的各答案信息,在知识信息库中设置相应的知识信息,使用户可以更好理解与答案信息相关的知识信息,提供更好的信息检索服务检索。

其中,答案信息库中的各答案信息可以是语音格式、文本格式或图片格式,知识信息库中的各知识信息也可以是语音格式、文本格式或图片格式,本发明对此均不做限定。

其中,知识信息库可以包括答案信息所在的文章、该文章的知识内容所属知识场景和相近的知识内容等。

具体的,本发明可以通过输出知识信息的链接地址来实现知识信息的输出,用户可以点击链接地址来查看知识信息,也可以通过链接地址来下载知识信息。

需要说明的是,本发明在为用户提供信息检索服务的过程中,不仅可以关注用户所输入检索信息的字面本身,还可以基于用户前后输入的检索信息,对用户输入的检索信息(本发明本次选定的检索信息)进行上下文推理来获知用户真实的检索意图,以更准确的为用户返回满足其意图的答案信息和知识信息,提高搜索引擎的检索效率,减少搜索引擎的运行负担。

本实施例提出的语义检索装置,可以基于用户前后输入的检索信息,对用户输入的检索信息进行上下文推理来获知用户真实的检索意图,以更准确的为用户返回满足其意图的答案信息和知识信息,提高搜索引擎的检索效率,减少搜索引擎的运行负担。

基于图4所示装置,本实施例提出了另一种语义检索装置,如图5所示,在该装置中,所述第一文本确定单元20,可以具体包括:第三文本确定单元210、第一推理单元211和第四文本确定单元212,其中:

所述第三文本确定单元210,用于将在所述当前的检索信息之前输入的至少一个检索信息对应的目标检索文本确定为上文文本;

所述第一推理单元211,用于根据确定的所述上文文本,对所述待推理文本进行下文文本推理;

所述第四文本确定单元212,用于将推理出的下文文本确定为当前的目标检索文本。

需要说明的是,当用户在搜索窗口中连续输入检索信息时,本发明为确定本发明本次选定的检索信息所对应的目标检索文本,可以根据与用户在之前和/或在之后输入的检索信息对应的、已确定的目标检索文本来对待推理文本(与本发明本次选定的检索信息对应)进行上下文推理。

可选的,所述第一文本确定单元20,还可以具体包括:第五文本确定单元、第二推理单元和第六文本确定单元,其中:

所述第五文本确定单元,用于将在所述当前的检索信息之后输入的至少一个检索信息对应的目标检索文本确定为下文文本;

所述第二推理单元,用于根据确定的所述下文文本,对所述待推理文本进行上文文本推理;

所述第六文本确定单元,用于将推理出的上文文本确定为当前的目标检索文本。

还需要说明的是,用户若在检索信息的语句不完整或语义不清晰时就开始进行搜索,则搜索引擎会无法返回满足用户真实意图的准确信息。

具体的,本发明在确定用户某次输入的检索信息对应的目标检索文本后,可以结合该次确定的目标检索文本,对与用户之前输入的检索信息(本次选定的检索信息)对应的待推理文本进行上下文推理。

可选的,所述第一文本确定单元20,还可以具体包括:第七文本确定单元、第三推理单元和第八文本确定单元,

所述第七文本确定单元,用于将在所述当前的检索信息之前输入的至少一个检索信息对应的目标检索文本确定为上文文本,将在所述当前的检索信息之后输入的至少一个检索信息对应的目标检索文本确定为下文文本;

所述第四推理单元,用于根据确定的所述下文文本和所述上文文本,对所述待推理文本进行上下文文本推理;

所述第八文本确定单元,用于将推理出的文本确定为当前的目标检索文本。

还需要说明的是,用户当前输入的检索信息不完整时,搜索引擎往往难以及时获知用户的真实意图。

具体的,本发明在选定本次检索信息后,可以根据用户之前输入的检索信息所对应的目标检索文本,和之后输入的检索信息所对应的目标检索文本,对与本次选定的检索信息对应的待推理文本进行上下文推理,以获知用户的真实意图。

可选的,所述第一文本确定单元20,还可以具体包括:第九文本确定单元、第三推理单元和第十文本确定单元,

所述第九文本确定单元,用于将所述待推理文本中的部分文本确定为周围文本;

所述第五推理单元,用于根据确定的所述周围文本,对所述待推理文本中除所述周围文本以外的其余部分文本进行上下文推理,以获得第一推理文本;

所述第十文本确定单元,用于将所述周围文本和获得的所述第一推理文本确定为当前的目标检索文本。

其中,周围文本可以是在待推理文本中具有完整语义的文本。

其中,对于待推理文本中除周围文本以外的其余部分文本,周围文本可以是该其余部分文本的上文文本,当然,周围文本也可以是该其余部分文本的下文文本,本发明对此不做限定。

具体的,本发明可以基于周围文本,对待推理文本中除周围文本以外的其余部分文本进行上下文推理。

具体的,对于用户所输入搜索引擎的检索信息,本发明可以将问号、逗号或句号等标点符号作为前一句文本与后一句文本的分隔标识,以确定出具有完整语义的周围文本(一句文本)。

本实施例提出的语义检索装置,可以根据与用户在之前和/或在之后输入的检索信息对应的、已确定的目标检索文本,来确定用户输入的当前的检索信息对应的目标检索文本,也可以根据用户输入的当前的检索信息中的部分信息所对应的目标检索文本,来确定该检索信息中其余部分信息所对应的目标检索文本,提高了搜索引擎获知用户真实意图的准确性。

基于图4所示装置,本实施例还提出了另一种语义检索装置,如图6所示,所述第二文本确定单元30,可以具体包括:第一确定单元310、第一查找单元320、判断单元330和第二确定单元340,其中:

所述第一确定单元310,用于将所述目标检索文本的字符串确定为第一字符串;

所述第一查找单元320,用于在预设的标准问题文本库中各标准问题文本的字符串中,查找与所述第一字符串匹配的至少一个字符串;

所述判断单元330,用于判断是否查找到与所述第一字符串匹配的至少一个字符串,若是,则触发所述第二确定单元340;

所述第二确定单元340,用于将查找到的与所述第一字符串匹配的各字符串均确定为第二字符串,并将与各所述第二字符串对应的标准问题文本均确定为目标标准问题文本。

具体的,本发明可以使用字符串匹配算法,在标准问题文本库中查找与目标检索文本的字符串相同的标准问题文本。需要说明的是,本发明对于采用的字符串匹配算法的具体类型不做限定。

其中,图6所示装置还可以包括相似度计算单元350和第三确定单元360,其中:

所述相似度计算单元350,用于计算所述目标检索文本与预设的标准问题文本库中至少一个标准问题文本的文本相似度;

需要说明的是,当所述判断单元330的判断结果为否时,即未查找到与所述第一字符串匹配的至少一个字符串时,触发所述相似度计算单元350。

所述第三确定单元360,用于将超过所述预设相似度阈值的各所述文本相似度对应的标准问题文本均确定为目标标准问题文本。

需要说明的是,若本发明在标准问题文本库中未查找到与目标检索文本的字符串相同的标准问题文本,则可以使用文本相似度的计算方式来确定与目标检索文本匹配的标准问题文本。

具体的,本发明对于采用的文本相似度的计算方式不做限定,例如本发明可以采用word2vec算法(如cbow模型和跳字模型skip-gram),再例如差异化比较算法。

其中,预设相似度阈值可以由技术人员根据实际情况进行设置,本发明对此不做限定。

本实施例提出的语义检索装置,通过采用字符串匹配算法和文本相似度计算法,在标准问题文本库中查找与目标检索文本匹配的标准问题文本,提高了查找标准问题文本的速率,也提高了查找的准确性。

还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1