基于多维语义的可视化网络检索呈现系统及呈现控制方法

文档序号:6381853阅读:239来源:国知局
专利名称:基于多维语义的可视化网络检索呈现系统及呈现控制方法
技术领域
本发明涉及网络检索技术领域,具体网络检索呈现技术领域,具体是指一种基于多维语义的可视化网络检索呈现系统及呈现控制方法。
背景技术
随着检索技术的飞速发展,国内外涌现出如谷歌(Google)、雅虎(Yahoo)、百度(Baidu)等各类成熟的搜索引擎。这些搜索引擎主要基于文本的信息检索技术,为用户提供完备性强、相关性高的信息检索引擎。虽然现有的文本搜索技术能搜索到包含用户的文本查询信息的文件,但是呈现形式主要是按照搜索结果的相关度进行排序,并将结果按照相关程度的大小,以链接结果集的形式返回给用户。这种检索技术最大的缺点是,检索关键词的多义性导致搜索结果集的语义关系千差万别,比如,当用户提交给搜索引擎的搜索关键词为“苹果”时,搜索引擎无法正确判断“苹果”是指水果“苹果”,还是由Steve Jobs创办的“苹果”公司,或者是指法国电影“The Apple”。搜索引擎在毫无上下文相关的情况下,无法准确确定出搜索的“苹果”关键词与哪一种候选内容最相关,所以导致搜索到的结果往往不能满足用户的需求。

发明内容
本发明的目的是克服了上述现有技术中的缺点,提供一种通过匹配用户的文本查询信息和文件的索引信息,将检索结果按照语义的逻辑性分层次分维度地呈现给用户,以利于在用户在基于多维度的候选检索结果呈现形式中,快速地定位到检索的目标结果,从而有效区分同一文本的不同语义,提高检索效率,且系统结构简单,成本低廉,方法应用方式简便,应用范围广泛的基于多维语义的可视化网络检索呈现系统及呈现控制方法。为了实现上述的目的,本发明的基于多维语义的可视化网络检索呈现系统具有如下构成该系统包括查询服务器、语义匹配与推理模块、索引数据库、语义索引结果集、分维规则单元和多维结果呈现单元。其中,查询服务器用以提供用户搜索关键词输入接口 ;语义匹配与推理模块连接所述的查询服务器,根据相关领域内的知识集合对关键词语义进行匹配和推理;索引数据库分别连接所述的查询服务器和语义匹配与推理模块,用以为搜索关键词提供对应的搜索结果;语义索引结果集连接所述的索引数据库,用以保存与搜索关键词对应的索引结果集;分维规则单元分别连接所述的语义索引结果集和语义匹配与推理模块,根据语义索引结果集中关键词的语义距离,将索引结果集聚类成多个维度上的多个层次数据结果;多维结果呈现单元则连接所述的分维规则单元,用以向用户呈现所述的多个维度上的多个层次数据结果。该基于多维语义的可视化网络检索呈现系统中,所述的语义匹配与推理模块包括标准本体知识库、语义匹配单元和语义推理单元。其中,标准本体知识库存储有相应领域内的本体知识集合;语义匹配单元连接所述的标准本体知识库,根据所述的本体知识集合获得关键词的语义匹配规则,并进行语义匹配;语义推理单元连接所述的标准本体知识库,根据所述的本体知识集合获得关键词的语义推理规则,并进行语义推理。本发明还提供一种利用所述的系统基于多维语义实现可视化网络检索呈现控制的方法,该方法包括以下步骤(I)所述的查询服务器接收到查询关键词,并判断关键词是否是复杂句,若是,则进入步骤(2),若否,则进入步骤(3);(2)所述的查询服务器进行分词过滤处理,并向所述的索引数据库输出包含分隔号的关键词字符串,然后进入步骤(3);(3)所述的语义匹配与推理模块对所述的关键词进行语义匹配和推理,并将语义推理结果集发送到所述的索引数据库;(4)所述的索引数据库根据获取的语义匹配和推理结果集建立并保存语义本体索引,并将语义匹配和推理结果集的索引结果集发送至所述的分维规则单元;(5)多维规则单元根据所述的语义索引结果集中关键词的语义距离,将索引结果集聚类成具有多个维度的数据形式,所述的数据形式在各个维度上聚类多个层次的数据结果;(6)多维结果呈现单元向用户呈现多个维度上的多个层次数据结果。该基于多维语义实现可视化网络检索呈现控制的方法中,所述的查询服务器进行分词过滤处理,并向所述的索引数据库输出包含分隔号的关键词字符串,具体为所述的查询服务器根据关键词的不同语言类型分别进行分词和过滤处理,并输出包含分隔号的关键词字符串。该基于多维语义实现可视化网络检索呈现控制的方法中,所述的语义匹配与推理模块包括标准本体知识库、语义匹配单元和语义推理单元,所述的标准本体知识库存储有相应领域内的本体知识集合;所述的语义匹配单元和所述的语义推理单元均连接所述的标准本体知识库,所述的步骤(3)具体包括以下步骤(31)所述的语义匹配与推理模块接收到查询关键词之后,所述的语义匹配单元根据所述的标准本体知识库对关键词进行语义匹配处理,并将语义匹配结果集提交给所述的语义推理单元;(32)所述的语义推理单元对所述的语义匹配结果集进行语义推理处理,得到语义推理结果集,并将所述的语义推理结果集发送至所述的索引数据库。该基于多维语义实现可视化网络检索呈现控制的方法中,所述的语义匹配处理,具体为根据本领域特定的关键词集合,将其与查询关键词进行语义相似度计算,实现语义匹配。该基于多维语义实现可视化网络检索呈现控制的方法中,所述的语义推理处理,具体为根据特定领域中的本体知识,得出该领域的推理规则,利用规则对语义匹配结果进行推理,获得语义推理结果集。该基于多维语义实现可视化网络检索呈现控制的方法中,所述的步骤(5)具体包括以下步骤(51)所述的多维规则单元计算所述的语义索引结果集中的关键词之间的语义距离;
5
(52)所述的多维规则单元根据所述的语义距离将索引结果集聚类成多个维度多个层次的数据结果。该基于多维语义实现可视化网络检索呈现控制的方法中,所述的步骤(51)具体包括以下步骤 (51-1)所述的多维规则单元查找所述的语义索引结果集中的多个关键词的最近的公共祖先节点;(51-2)所述的多维规则单元计算各个关键词与所述的最近的公共祖先节点之间的距离;(51-3)所述的多维规则单元将各个关键词与所述的最近的公共祖先节点间的距离之和作为语义索引结果集中的关键词之间的语义距离。该基于多维语义实现可视化网络检索呈现控制的方法中,所述的步骤(52)具体包括以下步骤(52-1)所述的多维规则单元根据所述的关键词之间的语义距离,分析检索关键词和语义距离之间的关系;(52-2)所述的多维规则单元对多维数据集中的某一维度进行展开,确定检索结果所属的维度和层次;(52-3)将各个检索结果集合成为具有多个维度多个层次的数据结果。采用了该发明的基于多维语义的可视化网络检索呈现系统及呈现控制方法,该系统包括查询服务器、语义匹配与推理模块、索引数据库、语义索引结果集、分维规则单元和多维结果呈现单元,从而能够利用语义匹配与推理模块对所述的关键词进行语义匹配和推理,索引数据库根据获取的语义匹配和推理结果集建立并保存语义本体索引;多维规则单元根据语义索引结果集中关键词的语义距离,将索引结果集聚类成多维度多层次的数据结果;最后由多维结果呈现单元呈现给用户,以利于在用户在基于多维度的候选检索结果呈现形式中,快速地定位到检索的目标结果,有效区分同一文本信息的不同语义,提高检索效率,且系统结构简单,成本低廉,方法应用方式简便,应用范围广泛的基于多维语义的可视化网络检索呈现系统及呈现控制方法。


图I为本发明的基于多维语义的可视化网络检索呈现系统的结构示意图。图2为本发明的基于多维语义实现可视化网络检索呈现控制的方法的具体实施例的流程图。图3为本发明实施例中多维语义空间的检索呈现模块的流程图。图4为本发明中基于多维语义空间的可视化检索呈现系统实施例的时序图。
具体实施例方式为了能够更清楚地理解本发明的技术内容,特举以下实施例详细说明。请参阅图I所示,为本发明的基于多维语义的可视化网络检索呈现系统的结构示意图。在一种实施方式中,该系统包括查询服务器、语义匹配与推理模块、索引数据库、语义索引结果集、分维规则单元和多维结果呈现单元。其中,查询服务器用以提供用户搜索关键词输入接口 ;语义匹配与推理模块连接所述的查询服务器,根据相关领域内的知识集合对关键词语义进行匹配和推理;索引数据库分别连接所述的查询服务器和语义匹配与推理模块,用以为搜索关键词提供对应的搜索结果;语义索引结果集连接所述的索引数据库,用以保存与搜索关键词对应的索引结果集;分维规则单元分别连接所述的语义索引结果集和语义匹配与推理模块,根据语义索引结果集中关键词的语义距离,将索引结果集聚类成多个维度上的多个层次数据结果;多维结果呈现单元则连接所述的分维规则单元,用以向用户呈现所述的多个维度上的多个层次数据结果。利用该实施方式所述的系统基于多维语义实现可视化网络检索呈现控制的方法,包括以下步骤(I)所述的查询服务器接收到查询关键词,并判断关键词是否是复杂句,若是,则进入步骤(2),若否,则进入步骤(3);(2)所述的查询服务器进行分词过滤处理,并向所述的索引数据库输出包含分隔号的关键词字符串,然后进入步骤(3);(3)所述的语义匹配与推理模块对所述的关键词进行语义匹配和推理,并将语义推理结果集发送到所述的索引数据库;(4)所述的索引数据库根据获取的语义匹配和推理结果集建立并保存语义本体索弓丨,并将语义匹配和推理结果集的索引结果集发送至所述的分维规则单元;(5)多维规则单元根据所述的语义索引结果集中关键词的语义距离,将索引结果集聚类成具有多个维度的数据形式,所述的数据形式在各个维度上聚类多个层次的数据结果;(6)多维结果呈现单元向用户呈现多个维度上的多个层次数据结果。其中,步骤(2)中所述的查询服务器进行分词过滤处理,并向所述的索引数据库输出包含分隔号的关键词字符串,具体为所述的查询服务器根据关键词的不同语言类型分别进行分词和过滤处理,并输出包含分隔号的关键词字符串。在一种较优选的实施方式中,所述的语义匹配与推理模块包括标准本体知识库、语义匹配单元和语义推理单元。其中,标准本体知识库存储有相应领域内的本体知识集合;语义匹配单元连接所述的标准本体知识库,根据所述的本体知识集合获得关键词的语义匹配规则,并进行语义匹配;语义推理单元连接所述的标准本体知识库,根据所述的本体知识集合获得关键词的语义推理规则,并进行语义推理。在利用该较优选的实施方式所述的系统基于多维语义实现可视化网络检索呈现控制的方法中,所述的步骤(3)具体包括以下步骤(31)所述的语义匹配与推理模块接收到查询关键词之后,所述的语义匹配单元根据所述的标准本体知识库对关键词进行语义匹配处理,并将语义匹配结果集提交给所述的语义推理单元,所述的语义匹配处理,具体为根据本领域特定的关键词集合,将其与查询关键词进行语义相似度计算,实现语义匹配;(32)所述的语义推理单元对所述的语义匹配结果集进行语义推理处理,得到语义推理结果集,并将所述的语义推理结果集发送至所述的索引数据库。其中,所述的语义推理处理,具体为根据特定领域中的本体知识,得出该领域的推理规则,利用规则对语义匹配结果进行推理,获得语义推理结果集。在一种进一步优选的实施方式中,所述的步骤(5)具体包括以下步骤(51)所述的多维规则单元计算所述的语义索引结果集中的关键词之间的语义距离;(52)所述的多维规则单元根据所述的语义距离将索引结果集聚类成多个维度多个层次的数据结果。在一种更优选的实施方式中,所述的步骤(51)具体包括以下步骤(51-1)所述的多维规则单元查找所述的语义索引结果集中的多个关键词的最近的公共祖先节点;(51-2)所述的多维规则单元计算各个关键词与所述的最近的公共祖先节点之间的距离;(51-3)所述的多维规则单元将各个关键词与所述的最近的公共祖先节点间的距离之和作为语义索引结果集中的关键词之间的语义距离。且所述的步骤(52)具体包括以下步骤(52-1)所述的多维规则单元根据所述的关键词之间的语义距离,分析检索关键词和语义距离之间的关系;(52-2)所述的多维规则单元对多维数据集中的某一维度进行展开,确定检索结果所属的维度和层次;(52-3)将各个检索结果集合成为具有多个维度多个层次的数据结果。在实际应用中,本发明的提供的基于多维语义空间的可视化检索呈现系统中,扩展检索关键词的语义相似性计算,两个关键词之间的语义距离可以理解成两个结点,两个结点之间的语义距离指的是两个结点的最近公共祖先结点分别到这两个结点的路径之和。计算两个结点的最小距离即找到最近的公共祖先结点,然后计算分别到两个结点之间的距离,最后将两个距离相加即为所求。语义聚类算法中,采用多维数组计算检索关键词的语义距离,经过分析检索两个关键词之间的语义关系,可对多维数据集中的某一维度进行展开,进而确定检索结果是在哪几个维度的哪几个层次上的数据结果。图I示意了本发明实现的基于多维语义空间的可视化检索呈现系统原理图,包括查询服务器、标准本体知识库、语义匹配单元、语义推理单元、索引数据库、语义索引结果集、分维规则和多维结果呈现单元。查询服务器是提供用户搜索关键词的接口 ;标准本体知识库保存该领域内的本体知识集合,为语义匹配单元和语义推理单元提供语义匹配和推理规则;索引数据库为搜索关键词提供对应的搜索结果;语义索引结果集保存了与搜索关键词对应的索引结果集;分维规则单元根据语义索引结果中关键词的语义距离,将索引结果集聚类成具有多个维度的数据形式,多个维度上聚类多个层次的数据结果。图2表示的是本发明的方法的实施例流程图,主要包括如下步骤。步骤201,接收查询关键词,并判断输入的关键词是否是复杂句,若是,则进行步骤202 ;否则,继续进行步骤203,发送到索引数据库。步骤202,按查询关键词的不同语言类型分别进行不同的分词、过滤处理,输出中文单词、英文单词和数字串等一系列分隔号的字符串。
步骤203,根据索引数据库的内容,索引得出与查询关键分词相对应的搜索结果集

口 ο 步骤204,语义推理根据特定领域中的本体知识,得出该领域的推理规则,利用规则对描述结果进行推理,得出推理结果集;语义匹配根据推理结果集和本领域特定的关键词集合进行语义相似度计算和语义匹配。步骤205,分维规则单元根据语义索引结果中关键词的语义距离,将索引结果集聚类成具有多个维度的数据形式,多个维度上聚类多个层次的数据结果。步骤206,结果呈现模块,将搜索结果按照多维的数据形式呈现出来。图3为本发明实施例中多维语义空间的检索呈现模块的流程图,主要包括如下步骤。步骤301,根据索引数据库已建立的索引内容,得出与查询关键分词相对应的搜索结果集合。步骤302,语义匹配模块,根据推理结果集和本领域特定的关键词集合进行语义相似度计算和语义匹配。步骤303,语义推理模块,设定本领域的推理规则,利用该规则对描述结果进行推理,得到推理结果集。步骤304,计算两个关键词的语义距离,可以假设待求的两个关键词可以表示为两个结点(和),它们的公共祖先结点有如下的性质公共祖先结点本身及其左右子树中必有“和”结点。于是从头结点开始依次访问它本身、左子树和右子树,其中含有“或”结点,则计数符号加I。当访问结束后发现标记为2时,则说明当前结点以下同时包含“和”结点,即当前结点是目标的最近公共结点,则两个关键词的语义距离即“和”结点分别到最近公共结点的总和。步骤305,分类、聚类搜索结果,采用多维数组计算检索关键词的语义距离,经过分析检索关键词和语义距离之间的关系,可对多维数据集中的某一维度进行展开,进而确定检索结果是在哪几个维度的哪几个层次上的数据结果。步骤306,分维呈现检索结果,根据语义索引结果中关键词的语义距离,将索引结果集聚类成具有多个维度的数据形式,多个维度上聚类多个层次的数据结果。图4为本发明中基于多维语义空间的可视化检索呈现系统实施例的时序图,主要包括如下步骤。步骤401,查询服务器向语义扩展模块发出查询请求;步骤402和步骤403,语义扩展模块根据标准本体知识库对搜索关键词进行扩展,得到扩展查询请求关键词,并将之发送给索引数据库模块;步骤404,索引数据库模块,索引得出与查询关键分词相对应的搜索结果集合。步骤405,索引数据库模块将搜索结果集合发送给分维呈现模块。步骤406,分维呈现模块计算语义距离,检索关键词的语义相似性计算的方法是,将两个结点的最近公共祖先结点分别到这两个结点的路径加起来,所以,计算两个结点的最小距离的关键是要找到最近的公共祖先结点,然后计算分别到两个结点之间的距离,将距离相加即为所求。步骤407,分维呈现模块分类、聚类搜索结果,采用多维数组计算检索关键词的语义距离,经过分析检索关键词和语义距离之间的关系,可对多维数据集中的某一维度进行展开,进而确定检索结果是在哪几个维度的哪几个层次上的数据结果。步骤408,分维呈现模块将搜索结果组织成语义的网络关系,并按照多维度的数据形式显示。采用了该发明的基于多维语义的可视化网络检索呈现系统及呈现控制方法,该系统包括查询服务器、语义匹配与推理模块、索引数据库、语义索引结果集、分维规则单元和多维结果呈现单元,从而能够利用语义匹配与推理模块对所述的关键词进行语义匹配和推理,索引数据库根据获取的语义匹配和推理结果集建立并保存语义本体索引;多维规则单元根据语义索引结果集中关键词的语义距离,将索引结果集聚类成多维度多层次的数据结果;最后由多维结果呈现单元呈现给用户,以利于在用户在基于多维度的候选检索结果呈现形式中,快速地定位到检索的目标结果,有效区分同一文本信息的不同语义,提高检索效率,且系统结构简单,成本低廉,方法应用方式简便,应用范围广泛的基于多维语义的可视化网络检索呈现系统及呈现控制方法。在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。
10
权利要求
1.一种基于多维语义的可视化网络检索呈现系统,其特征在于,所述的系统包括查询服务器,用以提供用户搜索关键词输入接口 ;语义匹配与推理模块,连接所述的查询服务器,根据相关领域内的知识集合对关键词语义进行匹配和推理;索引数据库,分别连接所述的查询服务器和语义匹配与推理模块,用以为搜索关键词提供对应的搜索结果;语义索引结果集,连接所述的索引数据库,用以保存与搜索关键词对应的索引结果集;分维规则单元,分别连接所述的语义索引结果集和语义匹配与推理模块,根据语义索引结果集中关键词的语义距离,将索引结果集聚类成多个维度上的多个层次数据结果;多维结果呈现单元,连接所述的分维规则单元,用以向用户呈现所述的多个维度上的多个层次数据结果。
2.根据权利要求I所述的基于多维语义的可视化网络检索呈现系统,其特征在于,所述的语义匹配与推理模块包括标准本体知识库,存储有相应领域内的本体知识集合;语义匹配单元,连接所述的标准本体知识库,根据所述的本体知识集合获得关键词的语义匹配规则,并进行语义匹配;语义推理单元,连接所述的标准本体知识库,根据所述的本体知识集合获得关键词的语义推理规则,并进行语义推理。
3.一种利用权利要求I所述的系统基于多维语义实现可视化网络检索呈现控制的方法,其特征在于,所述的方法包括以下步骤(1)所述的查询服务器接收到查询关键词,并判断关键词是否是复杂句,若是,则进入步骤(2),若否,则进入步骤(3);(2)所述的查询服务器进行分词过滤处理,并向所述的索引数据库输出包含分隔号的关键词字符串,然后进入步骤(3);(3)所述的语义匹配与推理模块对所述的关键词进行语义匹配和推理,并将语义推理结果集发送到所述的索引数据库;(4)所述的索引数据库根据获取的语义匹配和推理结果集建立并保存语义本体索引,并将语义匹配和推理结果集的索引结果集,将索引结果集发送至所述的分维规则单元;(5)多维规则单元根据所述的语义索引结果集中关键词的语义距离,将索引结果集聚类成具有多个维度的数据形式,所述的数据形式在各个维度上聚类多个层次的数据结果;(6)多维结果呈现单元向用户呈现多个维度上的多个层次数据结果。
4.根据权利要求3所述的基于多维语义实现可视化网络检索呈现控制的方法,其特征在于,所述的查询服务器进行分词过滤处理,并向所述的索引数据库输出包含分隔号的关键词字符串,具体为所述的查询服务器根据关键词的不同语言类型分别进行分词和过滤处理,并输出包含分隔号的关键词字符串。
5.根据权利要求3所述的基于多维语义实现可视化网络检索呈现控制的方法,其特征在于,所述的语义匹配与推理模块包括标准本体知识库、语义匹配单元和语义推理单元,所述的标准本体知识库存储有相应领域内的本体知识集合;所述的语义匹配单元和所述的语义推理单元均连接所述的标准本体知识库,所述的步骤(3)具体包括以下步骤(31)所述的语义匹配与推理模块接收到查询关键词之后,所述的语义匹配单元根据所述的标准本体知识库对关键词进行语义匹配处理,并将语义匹配结果集提交给所述的语义推理单元;(32)所述的语义推理单元对所述的语义匹配结果集进行语义推理处理,得到语义推理结果集,并将所述的语义推理结果集发送至所述的索引数据库。
6.根据权利要求5所述的基于多维语义实现可视化网络检索呈现控制的方法,其特征在于,所述的语义匹配处理,具体为根据本领域特定的关键词集合,将其与查询关键词进行语义相似度计算,实现语义匹配。
7.根据权利要求5所述的基于多维语义实现可视化网络检索呈现控制的方法,其特征在于,所述的语义推理处理,具体为根据特定领域中的本体知识,得出该领域的推理规则,利用规则对语义匹配结果进行推理,获得语义推理结果集。
8.根据权利要求3至7中任一项所述的基于多维语义实现可视化网络检索呈现控制的方法,其特征在于,所述的步骤(5)具体包括以下步骤(51)所述的多维规则单元计算所述的语义索引结果集中的关键词之间的语义距离;(52)所述的多维规则单元根据所述的语义距离将索引结果集聚类成多个维度多个层次的数据结果。
9.根据权利要求8所述的基于多维语义实现可视化网络检索呈现控制的方法,其特征在于,所述的步骤(51)具体包括以下步骤(51-1)所述的多维规则单元查找所述的语义索引结果集中的多个关键词的最近的公共祖先节点;(51-2)所述的多维规则单元计算各个关键词与所述的最近的公共祖先节点之间的距离;(51-3)所述的多维规则单元将各个关键词与所述的最近的公共祖先节点间的距离之和作为语义索引结果集中的关键词之间的语义距离。
10.根据权利要求9所述的基于多维语义实现可视化网络检索呈现控制的方法,其特征在于,所述的步骤(52)具体包括以下步骤(52-1)所述的多维规则单元根据所述的关键词之间的语义距离,分析检索关键词和语义距离之间的关系;(52-2)所述的多维规则单元对多维数据集中的某一维度进行展开,确定检索结果所属的维度和层次;(52-3)将各个检索结果集合成为具有多个维度多个层次的数据结果。
全文摘要
本发明涉及一种基于多维语义的可视化网络检索呈现系统及呈现控制方法,属于网络检索技术领域。该系统包括查询服务器、语义匹配与推理模块、索引数据库、语义索引结果集、分维规则单元和多维结果呈现单元,该方法利用语义匹配与推理模块对关键词进行语义匹配和推理,索引数据库根据获取的语义匹配和推理结果集建立并保存语义本体索引;多维规则单元根据语义索引结果集中关键词的语义距离,将索引结果集聚类成多维度多层次的数据结果,以利于在用户在基于多维度的候选检索结果呈现形式中,快速地定位到检索的目标结果,从而有效区分同一文本信息的不同语义,提高检索效率。
文档编号G06F17/30GK102915381SQ201210473410
公开日2013年2月6日 申请日期2012年11月20日 优先权日2012年11月20日
发明者李逸, 胡传平, 梁辰, 梅林 , 齐力 申请人:公安部第三研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1