检索方法、装置和系统与流程

文档序号:12464926阅读:162来源:国知局
检索方法、装置和系统与流程

本发明涉及数字信息化技术领域,具体而言,涉及一种检索方法、装置和系统。



背景技术:

随着现代信息技术的发展,信息数据的表现形式从单一的文本,发展到文本、图像、语音、视频等多种媒体信息并存。多媒体信息非结构化的数据格式、巨大的数据量以及对内容理解的主观性与多义性,使得信息检索技术面临着巨大的挑战。

传统的信息检索方法主要是基于关键字的检索方式,缺乏对用户潜在查询意图进行获取的能力。

随着检索技术的发展,语义检索被广泛应用到各个领域中,特别是信息领域。例如,采用本体概念开发的图像检索工具,构建的面向教育领域的概念映射学习系统,用于生态环境信息检索的语义服务搜素引擎等。同时,利用知识表示形式特点开发的检索系统可以分析查询结果,例如知识管理系统、本体知识获取系统等。然而,由于本体技术是通过捕获相关领域的知识,提供对该领域知识的共同理解,因此本体技术受到领域限制很大。



技术实现要素:

有鉴于此,本发明提供了一种检索方法、装置和系统,能够准确理解用户的查询意图,且不受技术领域的限制。

第一方面,本发明实施例提供了一种检索方法,应用于搜索引擎中,包括:

当接收到的搜索信息中包括关键词和所述关键词对应的感知度时,将所述关键词与预设的主题感知树的主题节点进行匹配,得到所述关键词对应的主题节点;其中,所述感知度指示所述关键词与查询意图的匹配程度;

判断所述关键词对应的主题节点的类型,所述主题节点的类型包括连接节点和叶子节点;

根据所述关键词对应的主题节点、主题节点的类型和所述感知度对所述关键词进行扩展,得到扩展词集合;

将所述扩展词集合中的词作为所述搜索信息的检索对象,进行检索。

结合第一方面,本发明实施例还提供了第一方面的第一种可能的实施方式,其中,所述预设的主题感知树的构建过程包括:

从训练数据的文档样本中获取主题词、概念词和实例词;

将所述主题词嵌入主题感知树的主题层内,根据主题词的含义设置不同类型的主题节点,包括具有子节点的连接节点和没有子节点的叶子节点;

将所述概念词嵌入主题感知树的概念层内,建立概念节点,并为主题层的叶子节点与对应的概念节点建立关联;

将所述实例词嵌入主题感知树的实例层内,建立实例节点,并为概念层的概念节点与对应的实例节点建立关联;

为每个主题节点和每个概念节点设置属性标识;

根据每个主题节点和每个概念节点的属性标识,获取每个主题节点的主题感知度、每个概念节点的概念感知度和每个实例节点的实例感知度。

结合第一方面的第一种可能的实施方式,本发明实施例还提供了第一方面的第二种可能的实施方式,其中,根据所述关键词对应的主题节点、主题节点的类型和所述感知度对所述关键词进行扩展,包括:

如果所述关键词对应的主题节点的类型是叶子节点,判断用户输入的感知度的数值区间;

如果所述感知度大于0且小于1,则查找所述主题节点对应的所有概念节点和所有实例节点,找到所有实例感知度大于所述感知度的实例节点;

如果所述感知度大于1,从所述主题节点的父节点对应的所有子节点中,查找主题感知度满足预设条件的节点对应的概念节点和实例节点;所述父节点为所述主题节点对应的连接节点;

如果所述关键词所对应的主题节点的类型是连接节点,判断用户输入的感知度的数值区间;

如果所述感知度大于0且小于1,从所述主题节点的子节点中,查找主题感知度满足预设条件的节点对应的概念节点和实例节点;

如果所述感知度大于1,从所述主题节点的父节点及所述父节点对应的所有子节点中,查找主题感知度满足预设条件的节点所对应的概念节点和实例节点;

将上述步骤中获取的实例节点作为扩展词存入扩展词集合。

结合第一方面,本发明实施例还提供了第一方面的第三种可能的实施方式,其中,在将所述关键词与预存的主题感知树的主题节点进行匹配之前,所述方法还包括:

对所述关键词进行预处理,提取所述关键词中的实词;

将提取的所述实词作为新的关键词。

结合第一方面的第三种可能的实施方式,本发明实施例还提供了第一方面的第四种可能的实施方式,其中,对所述关键词进行预处理,包括:

采用非空探测方法和/或中文分词方法对所述关键词进行预处理。

第二方面,本发明实施例还提供一种检索装置,包括:

节点匹配模块,用于当接收到的搜索信息中包括关键词和所述关键词对应的感知度时,将所述关键词与预设的主题感知树的主题节点进行匹配,得到所述关键词对应的主题节点;其中,所述感知度指示所述关键词与查询意图的匹配程度;

节点类型判断模块,用于判断所述关键词对应的主题节点的类型,所述主题节点的类型包括连接节点和叶子节点;

扩展词获取模块,根据所述关键词对应的主题节点、主题节点的类型和所述感知度对所述关键词进行扩展,得到扩展词集合;

检索模块,将所述扩展词集合中的词作为所述搜索信息的检索对象,进行检索。

结合第二方面,本发明实施例还提供了第二方面的第一种可能的实施方式,其中,所述扩展词获取模块包括:

叶子节点处理单元,用于在所述关键词对应的主题节点的类型是叶子节点时,根据用户输入的感知度查找对应的实例节点;

连接节点处理单元,用于在所述关键词对应的主题节点的类型是连接节点时,根据用户输入的感知度查找对应的实例节点。

结合第二方面,本发明实施例还提供了第二方面的第二种可能的实施方式,其中,所述装置还包括:

关键词预处理模块,用于对所述关键词进行预处理,提取所述关键词中的实词;将提取的所述实词作为新的关键词。

第三方面,本发明实施例还提供一种检索系统,包括上述任意一种检索装置和预设的主题感知树。

结合第三方面,本发明实施例还提供了第三方面的第一种可能的实施方式,其中,所述主题感知树包括主题层、概念层和实例层;

所述主题层内设有多个主题节点;

所述概念层内设有多个与所述主题节点有关联的概念节点;

所述实例层内设有多个与所述概念节点有关联的实例节点。

本发明实施例带来了以下有益效果:,

本发明实施例提供的检索方法、装置和系统,根据用户的感知度,结合构建主题感知树和主题感知扩展规则实现进行查询扩展,能够准确理解用户的查询意图,给出用户需要的查询结果,提高了用户体验度。

本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一实施例所提供的检索方法的流程图;

图2为本发明另一实施例所提供的主题感知树的构建过程的流程图;

图3为本发明一实施例所提供的检索装置的结构框图;

图4为本发明另一实施例所提供的检索系统的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

现有的检索方法中,用于捕获查询词的查询扩展技术主要分为以下三类:局部分析方法、全局分析方法和基于语义辞典的方法。

局部分析方法采用相关反馈等方式根据与原查询最相关的文档来扩展词语,其缺点是依赖用户反馈。

全局分析方法需要对整个集合词语进行相关分析,根据词语的关联程度构建新的查询,因此需要所有词语的相关计算,计算过程复杂。

基于语义辞典的方法借助语义知识词典,选择与初始查询词存在一定语义关联性的词来进行扩展,需要消耗人力物力对字典进行维持。

为了解决上述三种检索方法存在的或依赖用户反馈、或计算过程复杂、或存在字典维持消耗等缺陷。本发明实施例提供了一种能够准确理解用户的查询意图的检索方法、检索装置和检索系统。以下首先对本发明实施例提供的检索方法进行详细介绍。

实施例一

该实施例提供了一种检索方法,该方法的流程图如图1所示,包括:

步骤S101,当接收到的搜索信息中包括关键词和关键词对应的感知度时,将关键词与预设的主题感知树的主题节点进行匹配,得到关键词对应的主题节点;其中,所述感知度指示关键词与查询意图的匹配程度;

步骤S102,判断关键词对应的主题节点的类型,主题节点的类型包括连接节点和叶子节点;

步骤S103,根据关键词对应的主题节点、主题节点的类型和感知度对关键词进行扩展,得到扩展词集合;

步骤S104,将扩展词集合中的词作为搜索信息的检索对象,进行检索。

该方法根据用户的感知度,结合构建主题感知树和主题感知扩展规则实现进行查询扩展,能够准确理解用户的查询意图,同时,避免了全局分析方法中的所有词语相关计算,不需要局部分析中的用户反馈,而且降低了语义词典方法中的字典维持消耗。

其中,预设的主题感知树的构建过程,如图2所示,该过程包括:

步骤S201,从训练数据的文档样本中获取主题词、概念词和实例词;

步骤S202,将所述主题词嵌入主题感知树的主题层内,根据主题词的含义设置不同类型的主题节点,包括具有子节点的连接节点和没有子节点的叶子节点;

步骤S203,将所述概念词嵌入主题感知树的概念层内,建立概念节点,并为主题层的叶子节点与对应的概念节点建立关联;

步骤S204,将所述实例词嵌入主题感知树的实例层内,建立实例节点,并为概念层的概念节点与对应的实例节点建立关联;

步骤S205,为每个主题节点和每个概念节点设置属性标识;

步骤S206,根据每个主题节点和每个概念节点的属性标识,获取每个主题节点的主题感知度、每个概念节点的概念感知度和每个实例节点的实例感知度。

上述步骤构建的主题感知树包括主题层、概念层和实例层。主题层内设有多个主题节点SN,主题节点按类型分为具有子节点的连接节点和没有子节点的叶子节点;概念层内设有多个与主题节点有关联的概念节点CN;实例层内设有多个与概念节点有关联的实例节点IN。主题节点SN的属性标识可以表示为<sid,h,nc,ns>,其中sid为SN的标识、h为SN的层数、nc为SN的概念数、ns为所包含的子节点数,包括叶子节点和连接节点;概念节点CN的属性标识可以表示为<cid,sort,ni>,cid为CN的标识、sort为CN的类型(包括基本概念,关联概念,说明概念),ni为CN关联的实例数量。

步骤S103中,根据关键词对应的主题节点、主题节点的类型和感知度对关键词进行扩展,包括如下步骤:

如果关键词对应的主题节点的类型是叶子节点,判断用户输入的感知度的数值区间;

如果感知度大于0且小于1,则查找主题节点对应的所有概念节点和实例节点,找到所有实例感知度大于感知度的实例节点;

如果所述感知度大于1,从所述主题节点的父节点对应的所有子节点中,查找主题感知度满足预设条件的节点对应的概念节点和实例节点;所述父节点为所述主题节点对应的连接节点;

如果所述关键词所对应的主题节点的类型是连接节点,判断用户输入的感知度的数值区间;

如果所述感知度大于0且小于1,从所述主题节点的子节点中,查找主题感知度满足预设条件的节点对应的概念节点和实例节点;

如果所述感知度大于1,从所述主题节点的父节点及所述父节点对应的所有子节点中,查找主题感知度满足预设条件的节点所对应的概念节点和实例节点;

将上述步骤中获取的实例节点作为扩展词存入扩展词集合。

上述扩展关键词的步骤按照表1中制定的主题感知扩展规则进行。

表1主题感知扩展规则

表1中,σ为用户输入的感知度,IN为实例层的实例节点,MR为扩展词集合,Key为关键词对应的主题节点,SN为主题层的主题节点。为key的主题感知度的值。Pi为实例节点的实例感知度。

为了对查询关键词的语义进行量化,计算主题感知度Ps,概念感知度Pc和实例感知度Pi。Ps反映了主题节点与所属领域主题相关的程度,Ps值越大,这个主题被关注的程度越高。计算公式为:

其中,wi(i=1,2,3,4)为权重因子,满足w1+w2+w3+w4=1,θ(h)=(11-h)/10,Nmax为给定主题所包含的概念关键词的最大数量,κ为包含此主题的标注文档相比于全部标注文档的比例,为放大因子。

θ(h)=(11-h)/10中,h为主题节点所在的层数;θ(h)反映主题节点所在的层数对主题感知度的影响;

概念节点的概念感知度Pc的计算公式为:

其中,PC为概念感知度,r为概念层类型,θ(r)反映概念层类型对概念感知度的影响;θ(r)=(11-r)/10,Imax为相同主题节点所对应的概念节点中所包含的实例节点的最大数量;

实例节点的实例感知度Pi公式如下:

Pi=ε1*Pc+ε2*η (3)

其中,Pi为实例感知度,ε1、ε2为调整系数,η为线性变换函数,nl为包含给定实例节点的标注文档数量,nmin为被任一实例节点包含的标注文档的最少数量,nmax被任一实例节点包含的标注文档的最大数量。

考虑到用户在输入关键词时,可能会存在关键词输入错误或存在虚词(如“XX的XX”)的情况,为了避免关键词扩展错误,在将关键词与预存的主题感知树的主题节点进行匹配之前,所述方法还包括:

对述关键词进行预处理,提取关键词中的实词;

将提取的实词作为新的关键词。

对所述关键词进行预处理的方法包括:采用非空探测方法和/或中文分词方法对所述关键词进行预处理。

实现本发明实施例所提供的检索方法,平台可以采用Myeclipse开发工具,该方法能够反映用户潜在的查询意图,能够满足信息检索的智能化、个性化需求,有较高的应用价值。

实施例二

该实施例提供了一种与上述检索方法相对应的检索装置,如图3所示,该装置包括:

节点匹配模块301,用于当接收到的搜索信息中包括关键词和关键词对应的感知度时,将关键词与预设的主题感知树的主题节点进行匹配,得到关键词对应的主题节点;其中,感知度指示关键词与查询意图的匹配程度;

节点类型判断模块302,用于判断关键词对应的主题节点的类型,主题节点的类型包括连接节点和叶子节点;

扩展词获取模块303,根据关键词对应的主题节点、主题节点的类型和感知度对关键词进行扩展,得到扩展词集合;

检索模块304,将扩展词集合中的词作为搜索信息的检索对象,进行检索。

其中,扩展词获取模块包括:

叶子节点处理单元,用于在关键词对应的主题节点的类型是叶子节点时,根据用户输入的感知度查找对应的实例节点;

连接节点处理单元,用于在关键词对应的主题节点的类型是连接节点时,根据用户输入的感知度查找对应的实例节点。

与实施例一相对应地,该装置还包括:

关键词预处理模块,用于对关键词进行预处理,提取关键词中的实词;将提取的实词作为新的关键词。

实施例三

该实施例提供了一种检索系统,如图4所示,该系统包括上述实施例二记载的检索装置和预设的主题感知树。

其中,所述主题感知树包括主题层、概念层和实例层;

所述主题层内设有多个主题节点,分布在不同的层上;例如:主题节点“旅游景点”在第一层上,“旅游景点”的子节点“自然景点”和“人文景点”在第二层上,“自然景点”的子节点“山川”、“公园”、“水上”在第三层上,“公园”的子节点“XX公园”在第四层上;其中,“XX公园”为没有子节点的叶子节点;“旅游景点”“自然景点”“公园”为有子节点的连接节点;“旅游景点”是“自然景点”的父节点;“自然景点”是“山川”的父节点;

所述概念层内设有多个与所述主题节点有关联的概念节点;

所述实例层内设有多个与所述概念节点有关联的实例节点。

本发明实施例提供的检索方法、装置和系统具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。

需要说明的是,在本发明所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1