一种语义检索方法及检索系统与流程

文档序号：14940989发布日期：2018-07-13 20:46阅读：206来源：国知局

本发明涉及信息检索技术领域，特别涉及一种语义检索方法及系统。

背景技术：

随着科学的发展、技术的创新，科技信息、资讯信息等各类信息以指数形式呈现爆发式地增长。而无论是科学技术研究、还是社会管理都离不开文献的检索。如何在海量的信息中精准并全面地获得目标内容，这对搜索技术提出了更好的要求。

目前，存在着众多搜索引擎系统，这些搜索引擎一般采用单一的检索方式：通过用户输入的原始关键词进行检索，或者通过语义分析进行检索，或者通过其他的单一方式进行检索。这种检索方式比较单一，在面对当前海量的信息时，搜索比较低效，而且搜索出的结果往往含有大量的非目标内容，极大地影响了用户的使用感受。

技术实现要素：

针对现有技术中搜索方式单一的问题，本发明提出了一种组合式的语义检索方法及检索系统。

一种语义检索方法，所述方法包括：

将任意多个模块化语义检索流程进行一次组合或多次组合，形成检索条件规则；

利用所述形成的检索条件规则进行语义检索；

其中，所述模块化语义检索流程包括：

客观式概念相似度语义检索流程，其通过文本内容利用相似度进行语义检索，

客观式概念匹配度语义检索流程，其利用训练的检索模型进行筛选，

主观式内容关键字语义检索流程，其利用设定的关键字或关键词进行语义检索，

主观式正则表达式语义检索流程，其利用正则表达式进行语义检索。

进一步地，在所述语义检索流程中构建语义检索条件模型。

进一步地，

对上述形成的检索条件规则进行存储，和/或，

对构建的语义检索条件模型进行存储。

进一步地，

所述通过文本内容利用相似度进行语义检索具体为，通过对文本内容进行语料分析，确定内容相似度；

所述利用设定的关键字或关键词进行语义检索具体为，将所述关键字或关键词组合成逻辑表达式进行检索。

所述正则表达式，是表示检索目标特征的表达式。

进一步地，在所述客观式概念相似度语义检索流程中，能够利用内容相似度和/或内容相似文本数量对检索结果进行限制。

进一步地，在利用所述训练的检索模型进行筛选的过程中，将获得的反例反馈到所述训练的检索模型中，对所述检索模型进行再次训练。

一种语义检索系统，所述系统包括：

相似度检索模块，用于构建文本语义检索条件模型；

匹配度检索模块，用于利用训练的检索模型进行筛选；

关键字检索模块，用于构建关键词语义检索条件模型；

表达式检索模块，用于构建正则表达式语义检索条件模型；

组合检索模块，用于将上述相似度检索模块、匹配度检索模块、关键字检索模块、表达式检索模块中的多个进行一次组合或多次组合，形成检索条件规则，并利用所述形成的检索条件规则进行检索。

进一步地，所述系统还包括：

存储模块，用于存储上述检索条件规则和/或构建的语义检索条件模型。

进一步地，所述系统还包括：

输入模块，用于输入检索条件规则和/或语义检索条件模型。

进一步地，所述系统还包括：

展示模块，用于展示检索结果。

本发明的语义检索方法及检索系统可以将各种检索方式进行模块化组合，用户可以按照实际需求灵活组合检索方式，满足了用户的个性化需求。同时，能够对检索条件模型和检索条件规则存储，方便用户利用之前的检索思路及习惯进行再次检索。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本发明实施例的语义检索系统架构图；

图2示出了根据本发明实施例的语义检索方法基本流程图；

图3示出了根据本发明实施例的检索框架图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，根据本发明实施例的语义检索系统基本包括：

输入模块，用于接收用户输入的检索诉求表达，包括输入检索语义条件模型，输入设置检索条件规则指令等。

语义检索模块，包括四个模块化的模块：相似度检索模块、匹配度检索模块、关键字检索模块、表达式检索模块，其中，

所述相似度检索模块，用于构建文本语义检索条件模型；

所述匹配度检索模块，用于利用训练的检索模型进行筛选；

所述关键字检索模块，用于构建关键词语义检索条件模型；

所述表达式检索模块，用于构建正则表达式语义检索条件模型。

组合检索模块，用于接收检索条件规则，从数据库中进行实际检索，并将检索结果发送给展示模块进行展示。

本发明实施例以中文为例对本发明的语义检索方法和系统进行示例性说明，但并非仅仅限于中文数据检索。

如图2所示，根据本发明实施例的语义检索方法主要包括：

步骤一，编制基础语义检索条件模型；步骤二，形成检索条件规则；步骤三，运用检索规则对目标文本进行检索；步骤四，检索结果展示。

步骤一、编制基础语义检索条件模型

如图1所示，所述的语义检索系统主要包括输入模块、语义检索模块、组合检索模块和展示模块。

用户可以通过所述输入模块输入检索诉求，例如在语义检索模块中的相似度模块、匹配度模块、关键词模块和/或表达式模块中输入对应的语义检索条件模型，即通过输入模块在相似度检索模块、匹配度检索模块、关键词检索模块和表达式检索模块分别构建客观式概念相似度语义条件模型、客观式概念匹配度语义条件模型、主观式内容关键字语义条件模型和主观式正则表达式语义条件模型，具体地：

(1)所述相似度检索模块中构建有客观式概念相似度语义条件模型。该客观式概念相似度语义条件模型用于进行客观式概念相似度语义条件检索。

用户可以通过输入模块在相似度检索模块中直接输入目标文本内容来表达检索目标，以通过构建的文本语义检索条件模型进行检索。

示例性地，用户希望检索所有与《红楼梦》相关的文献，其可以在所述相似度检索模块中输入《红楼梦》全文或一段文本这类文本，以《红楼梦》全文文本作为目标文本。所述相似度检索模块接收到《红楼梦》全文后，对输入的《红楼梦》全文和数据库中的语料进行语料分析，利用内容概念相似度在数据库中进行检索查找。

同时，为了增加检索的可读性、提高用户的检索体验，通过内容概念相似程度和/或内容概念最接近文本实体数量为约束条件对检索结果作出进一步限定。通过上述约束条件对检索结果进行了限定这防止出现大量相似度较低的检索结果，造成用户体验较差的问题。不失一般性，例如将上述对《红楼梦》全文检索后，可以设定与《红楼梦》内容相似度超过30％的语料进行展示；同时，可以限定与《红楼梦》内容概念最接近的10篇语料文本进行展示。通过上述限定后，仅仅将与《红楼梦》全文相似度超过30％的文献进行了展示，而将相似度低于30％的文献屏蔽其展示，这防止大量相似度低的文献呈现给用户，造成用户浏览体验差的问题。

(2)在所述匹配度检索模块中构建客观式概念匹配度语义条件模型。

用户可以通过大量文本对匹配度检索模块中的客观式概念匹配度语义条件模型进行训练，形成训练后的客观式概念匹配度语义条件模型，并利用训练后的客观式概念匹配度语义条件模型进行检索或筛选。

示例性地，用户可以选取若干唐诗和宋词作为目标训练样本。不是一般性，各选取100首唐诗和宋词，利用多种人工智能算法组合方案(例如支持向量机(svm)算法))对客观式概念匹配度语义条件模型进行学习训练，形成训练后的客观式概念匹配度语义条件模型。训练后的客观式概念匹配度语义条件模型能够从数据库中的文献中检索并筛选出唐诗和宋词。

上述学习训练可以是一种动态的、反馈式的学习训练过程。在使用上述训练后的客观式概念匹配度语义条件模型进行检索时，如果出现明显与检索目标不同的检索结果，例如，通过上述100首唐诗和宋词进行训练形成检索模型后，利用该检索模型在检索过程中出现了张爱玲的“秋雨”散文语料。而该散文“秋雨”明显不是唐诗和宋词，因此，这篇散文属于一种反例，所以可以将该反例反馈给上述训练形成的客观式概念匹配度语义条件模型，使该客观式概念匹配度语义条件模型以该反例作进一步学习和更正调整，以进一步提高客观式概念匹配度语义条件模型的可靠性和准确性。

在利用学习训练后的客观式概念匹配度语义条件模型进行检索时，可以利用子项细分训练和/或概念肯定度等条件作为约束。例如通过唐诗、宋词的学习训练的客观式概念匹配度语义条件模型检索出唐诗和宋词后，可以直接对唐诗和宋词作出进一步的细分，区分出唐诗子项和宋词子项。

为了增加检索的可读性、提高用户的检索体验，同样可以通过约束条件对检索结果作进一步约束，例如通过约束条件“概念确定度”限定保留确定度在80％以上的唐诗和宋词语料。这同样也提高了用户的使用体验。

(3)在所述关键词检索模块中构建主观式内容关键字语义条件模型。

用户可以通过所述输入模块在所述关键词检索模块中输入关键词，并进行逻辑运算形成检索式，从而构建主观式内容关键词语义条件模型。

示例性地，如果用户期望检索含有“智能”和“机器人”这两个关键词但不含有“人脸识别”这一关键词的文献，用户可以通过所述输入模块在所述关键字检索模块中输入“智能+机器人-人脸识别”这一关键字逻辑检索式，这就形成了检索含有“智能、机器人”这两个关键词但不含“人脸识别”这个关键词的基础语义检索条件模型。上述关键字检索模块接收到上述关键字检索式后，通过字符“+”确定语料中必须含有“智能”和“机器人”这两个关键词，通过字符“-”确定语料中不能出现“人脸识别”这一关键词，然后可以进行实际检索。

需要说明的是本发明实施例中以“+”、“-”字符符号表示必须含有和不能含有的逻辑上的与非、排除含义，但并不限定于上述符号，“and”、“not”等表达必须含有、不含有等与非、排除、选择等含义的字符、字串等逻辑运算符均可适用于本发明。

(4)在所述表达式检索模块中构建正则表达式语义检索条件模型。

用户可以通过所述输入模块在所述表达式检索模块中输入正则表达式以构建主观式正则表达式语义条件模型。所述正则表达式是表示检索目标特征的表达式，例如各种文献的命名规则、各种证件的特征规则、银行卡的特征规则等等。

示例性地，现在无论国际、国内还是企业公司内部，都有大量的文献和文件。为了便于对这些文献、文件资料的管理，国家或公司一般都按照一定的规则对这些大量的文献、或文件资料进行命名。例如中国专利文献申请号一般由15位组成：前两位为国别号(cn)，接下来的四位为申请年份号(例如，2012年)，接下来的一位为专利类型号(例如：1为发明，2为实用新型)，接下来的七位为系列号，最后一位为校验位。再例如，中国政府规定，中国公民身份号码要符合《中华人民共和国国家标准gb11643-1999》中有关公民身份号码的规定。公民身份号码是特征组合码，由十七位数字本体码和一位数字校验码组成。排列顺序从左至右依次为：六位数字地址码，八位数字出生日期码，三位数字顺序码和一位数字校验码组成。根据上述命名标准，可以得到身份证号码符合的正则表达式如下：

<1-9><0-9>5<19-20>2<00-99>2<01-12>2<01-31>2<0-9>3<0-x>

其中，

<1-9>：表示身份证号的首位为1-9中的任意一个数字；

<0-9>5：表示接下来的5位为0-9中的数字组成的5位数；

<19-20>2：表示接下来的2位为19或20，也就是公民的出生年份前两位；

<00-99>2：表示接下来的2位为00-99，也就是公民的出生年份后两位；

<01-12>2：表示接下来的2位为01-12，也就是公民的出生月份；

<01-31>2：表示接下来的2位为01-31，也就是公民的出生日；

<0-9>3：表示接下来的3位为0-9中的数字组成；

<0-x>：表示最后一位为0-x中的数字，也就是校验位。

用户通过所述输入模块在所述表达式检索模块中输入上述正则表达式后，就形成基础语义检索条件模型。所述表达式模块对上述正则表达式进行分析，确定是检索身份证号码的基础语义检索条件模型，则可以在上述数据库中检索真实的身份证号码。

对于所有编制的基础语义检索条件模型，可以存储在相应的检索模块或存储设备中。这样便于用户在后续检索中，无需再次重新建立基础语义检索条件模型，而只需调取出以前存储的基础语义检索条件模型并直接进行检索，这有效地提高了检索效率。

步骤二、形成检索条件规则

在所述相似度检索模块、所述匹配度检索模块、所述关键字检索模块和/或所述表达式检索模块中形成各自的基础语义检索条件模型后，可以在组合检索模块中将所述相似度检索模块、所述匹配度检索模块、所述关键字检索模块和/或所述表达式检索模块中的两个、三个或四个检索模块进行灵活组合形成检索条件规则。用户可以根据实际检索情况，在组合过程中，各个检索模块可以使用一次、两次或两次以上。

可选地，可以先将所述相似度检索模块、所述匹配度检索模块、所述关键字检索模块和/或所述表达式检索模块中的两个、三个或四个进行灵活组合形成一种检索条件规则，然后再在形成检索条件规则的每个检索模块中构建各自的基础语义检索条件模型。

本发明实施例对各种组合方式形成的检索条件规则示例地列举如下：

(1)检索条件规则一：

以先后顺序将所述相似度检索模块、所述匹配度检索模块、所述关键字检索模块和所述表达式检索模块进行组合。

(2)检索条件规则二：

以先后顺序将所述匹配度检索模块、所述关键字检索模块、所述相似度检索模块和所述表达式检索模块进行组合。

通过该检索条件规则二可以看出，各个检索模块之间的先后顺序可以进行调整。

(3)检索条件规则三：

以先后顺序将所述匹配度检索模块、所述相似度检索模块和所述表达式检索模块进行组合。

通过该检索条件规则三可以看出，本发明并非局限于必须使用相似度检索模块、匹配度检索模块、关键字检索模块和表达式检索模块四个模块进行组合，相反，使用其中的两个或两个以上进行的组合均可适用于本发明。

(4)检索条件规则四：

以先后顺序将所述匹配度检索模块、所述相似度检索模块、所述匹配度检索模块和所述表达式检索模块进行组合。

通过该检索条件规则四可以看出，上述匹配度检索模块使用了两次。也就是说，本发明并不限于每个检索模块在一个检索条件规则中只使用一次，相反在一个检索条件规则中将同一个检索模块使用两次或两次以上均可以适用于本发明。

本发明实施例无法穷举出所有的检索条件规则，仅仅示例性地示出了上述四种检索条件规则，但是通过将不同模块化的检索方式进行灵活组合的技术方案均涵盖在本发明的本质范围内。

通过上述示例性的检索条件规则可以看出，本发明建立了模块化的检索方式：包括相似度检索模块、匹配度检索模块、关键字检索模块、表达式检索模块。在实际检索时，用户可以根据实际需求进行多种方式的组合形成不同的检索条件规则。

对于所有的检索条件规则，在建立后，可以存储在存储系统中。由于不同用户的检索习惯不同，方便不同用户能够迅速找到以前使用的检索规则，节约了检索时间，提高了检索效率。而且不同用户可能会使用不同的检索设备，一个用户在一台检索设备上保存其使用的检索条件规则后，可以在另一台检索设备上调出其存储在存储设备中的检索规则，这同样会节约检索时间、提高检索效率。

步骤三、运用检索条件规则对目标文本进行检索

检索过程中，上述检索模块基于上述基础语义检索条件模型并运用制定的上述检索规则进行检索，对符合上述基础语义检索条件模型的语料单体进行记录和标记。

不失一般性，本发明实施例以用户希望在某电子文献馆中检索与送别有关的唐诗、并将匹配度检索模块、关键字检索模块和表达式检索模块组合形成检索条件规则为例进行示例性说明，但本发明并不限于此。

用户在检索时，可以编制以下基础语义检索条件模型：

(1)、在匹配度检索模块中，以100首唐诗为训练样本进行训练，构建形成唐诗客观式概念匹配度语义条件模型。

(2)、在关键字检索模块中，构建第一个语义检索条件模型“送行+送别”，构建第二个语义检索条件模型：“离别”。

(3)、在表达式检索模块中，构建正则表达式语义检索条件模型。

示例性地，上述电子文献馆对电子文献的命名规则是：

对于科学类，文献号的命名规则是：<s+j/b+四位数字年份+六位的数字序列号>。例如sj2010123456，表示这是一本2010年的期刊性科学类文献，在本电子文献馆的编号是123456。

对于文学类，文献号的命名规则是：<l+8位数字序列号>。例如，l12345678，这是一本文学类书籍，在本电子文献馆的编号是12345678。

用户根据上述电子文献馆对电子文献的命名规则，构建“<l><0-9>8”的正则表达式语义检索条件模型。

在完成检索条件模型的构建后，示例性地，该用户希望将所述表达式检索模块、所述关键字检索模块、所述匹配度检索模块、所述关键字检索模块组合形成检索条件规则，进行实际检索。

如图3示出了根据本发明实施例的检索框架图。如图所示，所述组合检索模块首先利用上述形成的检索条件规则中的“表达式检索模块”进行检索。由于在所述表达式检索模块中建立了“<l><0-9>8”的正则表达式语义检索条件模型，而该正则表达式语义检索条件模型就是电子文献馆中对文学类文献的命名规则，所以，通过该正则表达式检索模块就检索出了所有文学类的文献。利用所述表达式检索模块中的正则表达式语义检索条件模型完成后，根据上述形成的检索条件规则，利用所述关键词检索模块中的“送行+送别”的关键词语义检索条件模型进行进一步检索。然后，再利用所述匹配度检索模块中训练形成的唐诗筛选模型，对上述关键词检索模块的结果作进一步筛选，筛选出所有的唐诗。最后，再利用检索模块中的“离别”关键词语义检索条件模型进行进一步检索。通过上述检索也就检索出了所有与送别有关的唐诗。

组合检索模块将检索得到的上述检索结果推送给展示模块。

步骤四、检索结果展示

所述展示模块从检索模块接收到检索结果后，将检索结果进行展示。

本发明中各个步骤之间并非必然紧密相连，除非特别声明，并不排除两个步骤之间还有其他步骤的情况，只要实现本发明的目的，均在本发明的范围之内。本发明所声称的系统，可以由单个设备、多个设备、单个元件、多个元件、单个模块或多个模块构成。各设备、系统、模块之间并不必然表示有线地、直接地连接，间接连接或者无线连接只要能够实现本发明的目的，均中本发明的范围内。本发明所声称的模块，包括硬件模块、软件模块或固件模块。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：柯红伟;张诚;陈海宁
技术所有人：北京吉高软件有限公司
我是此专利的发明人

上一篇：基于缓存的数据信息处理方法及装置与流程
上一篇：万级维度数据生成方法、装置、设备以及存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。