一种智能语义识别方法、搜索方法、装置及系统与流程

文档序号:11514988阅读:288来源:国知局
一种智能语义识别方法、搜索方法、装置及系统与流程

本发明涉及计算机技术领域,特别涉及一种智能语义识别方法、搜索方法、装置及系统。



背景技术:

随着大数据时代的到来,数据量急剧增加。如何从海量的数据中快速准确的获取有用的数据,成为用户关注的重点。搜索引擎作为可为用户提供搜索服务的系统,成为解决此类问题的首选。

全文搜索引擎是最常用的搜索引擎,其工作原理一般为:按照预定义的分词规则,对各个文章中的字符进行分词,然后对分词后的每一个词建立相应的索引,并指明该词在文章中出现的次数和位置。当接收到用户输入的关键词时,可根据预先建立的索引查找对应的文章,并将查找到的文章反馈给用户。

由于用户一般根据日常使用习惯进行关键词的输入,这使得用户输入的关键词与搜索引擎的分词规则不相符,从而导致无法利用用户输入的关键词准确搜索到对应的文章,造成搜索结果准确性较低。



技术实现要素:

本发明实施例提供了一种智能语义识别方法、搜索方法、装置及系统,能提高搜索结果的准确性。

第一方面,本发明实施例提供了一种智能语义识别方法,包括:

构建配置文件,所述配置文件中包括至少一个关键词以及每一个所述关键词分别对应的正则表达式;

还包括:

获取用户输入的至少一个关键词;

从所述配置文件中确定与所述用户输入的至少一个关键词对应的至少一个目标正则表达式;

根据所述至少一个目标正则表达式,将所述用户输入的至少一个关键词转换为至少一个设定格式的目标关键词;

将所述至少一个设定格式的目标关键词发送给外部的搜索引擎。

优选地,

所述构建配置文件,所述配置文件中包括至少一个关键词以及每一个所述关键词分别对应的正则表达式,包括:

构建可扩展标记语言xml文档,所述xml文档中包括至少一个关键词以及每一个所述关键词分别对应的正则表达式。

优选地,

所述构建可扩展标记语言xml文档,所述xml文档中包括至少一个关键词以及每一个所述关键词分别对应的正则表达式,包括:

构建xml初始文档;

在所述xml初始文档中构建至少一个节点,每一个所述节点下存储至少一个所述正则表达式,形成所述xml文档;其中,同一个节点下存储的各个所述正则表达式与当前节点下对应的关键词的类型相同。

优选地,

所述从所述配置文件中确定与所述用户输入的至少一个关键词对应的至少一个目标正则表达式,包括:

针对所述用户输入的每一个所述关键词,均执行:

根据所述关键词的格式,确定所述关键词对应的类型;

从所述xml文档中确定与所述关键词的类型对应的节点;

从确定出的所述节点下存储的至少一个正则表达式中,确定与所述关键词对应的目标正则表达式。

第二方面,本发明实施例提供了一种搜索方法,应用于搜索引擎,包括:

接收至少一个设定格式的目标关键词;

根据所述至少一个设定格式的目标关键词,进行搜索。

优选地,

进一步包括:预先构建至少一个设定格式的关键词与至少一个文档之间的索引关系;

所述根据所述至少一个设定格式的目标关键词,进行搜索,包括:

根据所述索引关系,确定与所述至少一个目标关键词相对应的至少一个目标文档。

第三方面,本发明实施例提供了一种基于配置文件的智能语义识别装置,包括:构建单元、获取单元、处理单元和发送单元;其中,

所述构建单元,用于构建配置文件,所述配置文件中包括至少一个关键词以及每一个所述关键词分别对应的正则表达式;

所述获取单元,用于获取用户输入的至少一个关键词;

所述处理单元,用于从所述配置文件中确定与所述用户输入的至少一个关键词对应的至少一个目标正则表达式;根据所述至少一个目标正则表达式,将所述用户输入的至少一个关键词转换为至少一个设定格式的目标关键词;

所述发送单元,用于将所述至少一个设定格式的目标关键词发送给外部的搜索引擎。

优选地,

所述构建单元,用于构建xml初始文档,并在所述xml初始文档中构建至少一个节点,每一个所述节点下存储至少一个所述正则表达式,形成所述xml文档;其中,同一个节点下存储的各个所述正则表达式与当前节点下对应的关键词的类型相同。

第四方面,本发明实施例提供了一种搜索引擎,包括:接收单元和搜索单元;其中,

所述接收单元,用于接收至少一个设定格式的目标关键词;

所述搜索单元,用于根据所述至少一个设定格式的目标关键词,进行搜索。

第五方面,本发明实施例提供了一种搜索系统,包括:本发明上述任一实施例提供的智能语义识别装置,以及本发明上述任一实施例提供的搜索引擎;其中,

所述智能语义识别装置,用于将用户输入的至少一个关键词转换为至少一个设定格式的目标关键词,并将所述目标关键词发送给所述搜索引擎;

所述搜索引擎,用于接收所述智能语义识别装置发送的目标关键词,并根据所述目标关键词进行搜索。

本发明实施例提供了一种智能语义识别方法、搜索方法、装置及系统,通过预先构建包括至少一个关键词以及每一个关键词分别对应的正则表达式的配置文件。当获取到用户输入的关键词时,从配置文件中确定与此关键词相对应的目标正则表达式,并根据确定出的目标正则表达式,将获取到的关键词转换为设定格式的目标关键词,然后将转换后的目标关键词发送给搜索引擎,以使搜索引擎根据接收到的目标关键词进行搜索。由于通过预先构建的正则表达式对用户输入的关键词进行转换,从而使得用户输入的关键词与搜索引擎的分词规则相符,由此提高了搜索结果的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种智能语义识别方法的流程图;

图2是本发明一个实施例提供的一种搜索方法的流程图;

图3是本发明一个实施例提供的一种智能语义识别装置的结构示意图;

图4是本发明一个实施例提供的一种搜索装置的结构示意图;

图5是本发明一个实施例提供的一种搜索系统的结构示意图;

图6是本发明一个实施例提供的一种搜索系统的使用方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明实施例提供了一种智能语义识别方法,该方法可以包括以下步骤:

步骤101:构建配置文件,所述配置文件中包括至少一个关键词以及每一个所述关键词分别对应的正则表达式;

步骤102:获取用户输入的至少一个关键词;

步骤103:从所述配置文件中确定与所述用户输入的至少一个关键词对应的至少一个目标正则表达式;

步骤104:根据所述至少一个目标正则表达式,将所述用户输入的至少一个关键词转换为至少一个设定格式的目标关键词;

步骤105:将所述至少一个设定格式的目标关键词发送给外部的搜索引擎。

上述实施例中,通过预先构建包括至少一个关键词以及每一个关键词分别对应的正则表达式的配置文件。当获取到用户输入的关键词时,从配置文件中确定与此关键词相对应的目标正则表达式,并根据确定出的目标正则表达式,将获取到的关键词转换为设定格式的目标关键词,然后将转换后的目标关键词发送给搜索引擎,以使搜索引擎根据接收到的目标关键词进行搜索。由于通过预先构建的正则表达式对用户输入的关键词进行转换,从而使得用户输入的关键词与搜索引擎的分词规则相符,由此提高了搜索结果的准确性。

本发明一个实施例中,步骤101的具体实施方式,可以包括:

构建可扩展标记语言xml文档,所述xml文档中包括至少一个关键词以及每一个所述关键词分别对应的正则表达式。

在这里,构建的配置文件可为可扩展标记语言(extensiblemarkuplanguage,xml)文档,则配置文件中的关键词以及与关键词对应的正则表达式为xml格式。例如,年龄格式的关键词对应的正则表达式为:/^[0-9]{2}[-/\.岁]?/,/^[0-9]{2}[-/\.岁]{1}-[0-9]{2}[-/\.岁]{1}?/。这使得各个关键词以及对应的正则表达式可直接被计算机理解,从而可提高对用户输入的关键词的转换效率,进而提高搜索效率。

具体地,本发明一个实施例中,所述构建可扩展标记语言xml文档,所述xml文档中包括至少一个关键词以及每一个所述关键词分别对应的正则表达式,包括:

构建xml初始文档;

在所述xml初始文档中构建至少一个节点,每一个所述节点下存储至少一个所述正则表达式,形成所述xml文档;其中,同一个节点下存储的各个所述正则表达式与当前节点下对应的关键词的类型相同。

在这里,首先构建xml初始文档,在xml初始文档中构建分别与各种关键词的类型相对应的节点,然后将同一类型的关键词对应的正则表达式存入同一节点下。例如,关键词类型包括年龄类、日期类和车牌号类,则在xml初始文档中建立三个节点,分别与每一种关键词类型对应,则将年龄类、日期类和车牌号类的关键词对应的正则表达式存入自身对应的节点下,形成xml文档,从而便于对配置文件进行管理。

本发明一个实施例中,步骤103的具体实施方式,可以包括:

针对所述用户输入的每一个所述关键词,均执行:

根据所述关键词的格式,确定所述关键词对应的类型;

从所述xml文档中确定与所述关键词的类型对应的节点;

从确定出的所述节点下存储的至少一个正则表达式中,确定与所述关键词对应的目标正则表达式。

举例来说,用户输入的关键词包括年龄a、日期b和车牌号c时,由于年龄中包括的字符为数字,日期中会包括数字和汉字或数字和标点,车牌号中包括数字和字母,则可根据各个关键词的不同格式,确定出关键词对应的类型。在这里,年龄a、日期b和车牌号c分别对应的类型为年龄类、日期类和车牌号类。则可从xml文档中确定出与各个类型相对应的节点,再从确定出的节点中确定出与关键词对应的目标正则表达式。通过这种逐级确定的方式,可提高确定目标正则表达式的效率,进而提高搜索效率。

如图2所示,本发明实施例提供了一种搜索方法,应用于搜索引擎,该方法可以包括以下步骤:

步骤201:接收至少一个设定格式的目标关键词;

步骤202:根据所述至少一个设定格式的目标关键词,进行搜索。

上述实施例中,根据接收到的设定格式的目标关键词进行搜索,由于设定格式的目标关键词与搜索引擎的分词规则相符,从而提高了搜索结果的准确性。

本发明一个实施例中,该方法可以进一步包括:预先构建至少一个设定格式的关键词与至少一个文档之间的索引关系;

步骤202的具体实施方式,可以包括:

根据所述索引关系,确定与所述至少一个目标关键词相对应的至少一个目标文档。

在全文搜索引擎中,可预先构建至少一个设定格式的关键词与至少一篇文章的索引关系,则在接受到设定格式的关键词之后,可根据预先构建的索引关系,确定出与关键词对应的目标文章。由于预先构建了关键词和文档之间的索引关系,则在接收到关键词之后,可根据索引关系,直接确定出对应的目标文档,则使得在提高搜索结果的准确性的同时,还提高了搜索效率。

如图3所示,本发明实施例提供了一种基于配置文件的智能语义识别装置,包括:构建单元301、获取单元302、处理单元303和发送单元304;其中,

所述构建单元301,用于构建配置文件,所述配置文件中包括至少一个关键词以及每一个所述关键词分别对应的正则表达式;

所述获取单元302,用于获取用户输入的至少一个关键词;

所述处理单元303,用于从所述构建单元301构建的配置文件中确定与所述获取单元302获取到的至少一个关键词对应的至少一个目标正则表达式;根据所述至少一个目标正则表达式,将所述用户输入的至少一个关键词转换为至少一个设定格式的目标关键词;

所述发送单元304,用于将所述处理单元303转换后的至少一个设定格式的目标关键词发送给外部的搜索引擎。

上述实施例中,通过预先构建包括至少一个关键词以及每一个关键词分别对应的正则表达式的配置文件。当获取到用户输入的关键词时,从配置文件中确定与此关键词相对应的目标正则表达式,并根据确定出的目标正则表达式,将获取到的关键词转换为设定格式的目标关键词,然后将转换后的目标关键词发送给搜索引擎,以使搜索引擎根据接收到的目标关键词进行搜索。由于通过预先构建的正则表达式对用户输入的关键词进行转换,从而使得用户输入的关键词与搜索引擎的分词规则相符,由此提高了搜索结果的准确性。

本发明一个实施例中,所述构建单元301,用于构建xml初始文档,并在所述xml初始文档中构建至少一个节点,每一个所述节点下存储至少一个所述正则表达式,形成所述xml文档;其中,同一个节点下存储的各个所述正则表达式与当前节点下对应的关键词的类型相同。

在这里,构建的配置文件可为可扩展标记语言(extensiblemarkuplanguage,xml)文档,则配置文件中的关键词以及与关键词对应的正则表达式为xml格式。例如,年龄格式的关键词对应的正则表达式为:/^[0-9]{2}[-/\.岁]?/,/^[0-9]{2}[-/\.岁]{1}-[0-9]{2}[-/\.岁]{1}?/。这使得各个关键词以及对应的正则表达式可直接被计算机理解,从而可提高对用户输入的关键词的转换效率,进而提高搜索效率。

在构建xml文档时,首先构建xml初始文档,在xml初始文档中构建分别与各种关键词的类型相对应的节点,然后将同一类型的关键词对应的正则表达式存入同一节点下。例如,关键词类型包括年龄类、日期类和车牌号类,则在xml初始文档中建立三个节点,分别与每一种关键词类型对应,则将年龄类、日期类和车牌号类的关键词对应的正则表达式存入自身对应的节点下,形成xml文档,从而便于对配置文件进行管理。

上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。

如图4所示,本发明实施例提供了一种搜索引擎,包括:接收单元401和搜索单元402;其中,

所述接收单元401,用于接收至少一个设定格式的目标关键词;

所述搜索单元402,用于根据所述至少一个设定格式的目标关键词,进行搜索。

上述实施例中,根据接收到的设定格式的目标关键词进行搜索,由于设定格式的目标关键词与搜索引擎的分词规则相符,从而提高了搜索结果的准确性。

上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。

如图5所示,本发明实施例提供了一种搜索系统,包括:本发明上述任一实施例提供的智能语义识别装置501,以及本发明上述任一实施例提供的搜索引擎502;其中,

所述智能语义识别装置501,用于将用户输入的至少一个关键词转换为至少一个设定格式的目标关键词,并将所述目标关键词发送给所述搜索引擎;

所述搜索引擎502,用于接收所述智能语义识别装置发送的目标关键词,并根据所述目标关键词进行搜索。

上述实施例中,将转换成设定格式的目标关键词发送给搜索引擎,以使搜索引擎根据接收到的目标关键词进行搜索。由于设定格式的关键词与搜索引擎的分词规则相符,由此提高了搜索结果的准确性。

如图6所示,本发明实施例提供了一种搜索系统的使用方法,该方法可以包括以下步骤:

步骤601:智能语义识别装置构建xml初始文档。

步骤602:在所述xml初始文档中构建至少一个节点,每一个所述节点下存储至少一个所述正则表达式,形成所述xml文档;其中,同一个节点下存储的各个所述正则表达式与当前节点下对应的关键词的类型相同。

例如,关键词类型包括年龄类、日期类和车牌号类,则在xml初始文档中建立三个节点,分别与每一种关键词类型对应,则将年龄类、日期类和车牌号类的关键词对应的正则表达式存入自身对应的节点下,形成xml文档。

步骤603:获取用户输入的至少一个关键词。

例如,用户输入的关键词包括年龄a、日期b和车牌号c。

步骤604:根据所述关键词的格式,确定所述关键词对应的类型,并从所述xml文档中确定与所述关键词的类型对应的节点。

步骤605:从确定出的所述节点下存储的至少一个正则表达式中,确定与所述关键词对应的目标正则表达式。

举例来说,年龄中包括的字符为数字,日期中会包括数字和汉字或数字和标点,车牌号中包括数字和字母,则可根据各个关键词的不同格式,确定出关键词对应的类型。在这里,年龄a、日期b和车牌号c分别对应的类型为年龄类、日期类和车牌号类。则可从xml文档中确定出与各个类型相对应的节点,再从确定出的节点中确定出与关键词对应的目标正则表达式。

步骤606:根据所述至少一个目标正则表达式,将所述用户输入的至少一个关键词转换为至少一个设定格式的目标关键词。

步骤607:将所述至少一个设定格式的目标关键词发送给外部的搜索引擎。

根据正则表达式,将用户输入的关键词进行转换,以使其符合搜索引擎的分词规则。例如,针对用户输入的年龄a,将其转化为出生年月a’,则搜索引擎可根据出生年月进行检索。

步骤608:搜索引擎预先构建至少一个设定格式的关键词与至少一个文档之间的索引关系。

例如,预先构建不同的出生年月与对应的文档之间的索引关系。

步骤609:根据所述索引关系,确定与所述至少一个目标关键词相对应的至少一个目标文档。

在这里,根据转化后得到的出生年月a’以及预先构建的索引关系,确定与出生年月a’对应的目标文档。

综上所述,由于智能语义识别装置将用户输入的关键词转化为与搜索引擎的分词规则相符的设定格式的关键词,从而使得搜索引擎可根据转化得到的设定格式的关键词进行搜索,从而提高的搜索准确性。

本发明还提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行本发明上述任一实施例提供的方法。

另外,本发明还提供了一种存储控制器,包括:处理器、存储器和总线;所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行本发明上述任一实施例提供的方法。

综上所述,本发明的各个实施例至少具有如下有益效果:

1、在本发明实施例中,通过预先构建包括至少一个关键词以及每一个关键词分别对应的正则表达式的配置文件。当获取到用户输入的关键词时,从配置文件中确定与此关键词相对应的目标正则表达式,并根据确定出的目标正则表达式,将获取到的关键词转换为设定格式的目标关键词,然后将转换后的目标关键词发送给搜索引擎,以使搜索引擎根据接收到的目标关键词进行搜索。由于通过预先构建的正则表达式对用户输入的关键词进行转换,从而使得用户输入的关键词与搜索引擎的分词规则相符,由此提高了搜索结果的准确性。

2、在本发明实施例中,构建的配置文件可为xml文档,则配置文件中的关键词以及与关键词对应的正则表达式为xml格式。这使得各个关键词以及对应的正则表达式可直接被计算机理解,从而可提高对用户输入的关键词的转换效率,进而提高搜索效率。

3、在本发明实施例中,首先构建xml初始文档,在xml初始文档中构建分别与各种关键词的类型相对应的节点,然后将同一类型的关键词对应的正则表达式存入同一节点下,从而便于对配置文件进行管理。

4、在本发明实施例中,根据用户输入的关键词的格式,确定关键词对应的类型,并从xml文档中确定出与此关键词类型相对应的节点,并从确定出的该节点下存储的至少一个正则表达式中,确定与用户输入的关键词对应的正则表达式。通过这种逐级确定的方式,可提高确定目标正则表达式的效率,进而提高搜索效率。

5、在本发明实施例中,通过预先构建至少一个设定格式的关键词与至少一篇文章的索引关系,则在接受到设定格式的关键词之后,可根据索引关系,直接确定出对应的目标文档,则使得在提高搜索结果的准确性的同时,还提高了搜索效率。

需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质中。

最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1