搜索引擎实现方法、搜索方法以及装置与流程

文档序号:18481952发布日期:2019-08-20 23:50阅读:271来源:国知局
搜索引擎实现方法、搜索方法以及装置与流程

本发明涉及互联网领域,尤其涉及一种搜索引擎实现方法、搜索方法以及装置。



背景技术:

搜索引擎技术是随着互联网技术发展而发展起来的,主要作用是在信息爆炸的情况下,应对海量信息的检索,满足人们获取信息的需求。

搜索引擎技术的一个核心方面是采用各类先进的算法计算用户输入关键词或问题与后台海量数据索引中信息的相关性,采取的算法可以从各个角度评价众多信息与关键词的关系,评价结果就是一个信息按照相关大小的列表。当用户获得这个列表后,需要自己主动筛选合适的搜索结果。用户在筛选列表的过程中,逐步理解搜索引擎的使用方法,理解关键词输入的技巧,会调整关键词的输入来重新表达信息需求,从这个角度来讲人参与了搜索过程,搜索引擎等信息服务系统的特点、服务能力对于用户是不可见的。但是现有技术需要依靠用户对结果的判断来学习系统的使用方法和调整输入的关键词,以达到搜索目的,搜索数据手段相对不智能,用户获取时间长、搜索体验低、比较浪费用户时间。

因此,有必要提出一种搜索引擎实现方法,能节约用户搜索信息时间,为用户提供更准确高效的信息服务。



技术实现要素:

本公开要解决的一个技术问题是如何提供一种搜索引擎实现以节约用户搜索信息时间,为用户提供更准确高效的信息服务。

本公开提供一种搜索引擎实现方法,包括:

获得用户一个连续搜索过程中输入的搜索表达式历史和选择的目标结果;根据搜索表达式历史确定表达关键词序列;根据表达关键词序列和目标结果生成语义网以用于搜索引擎,语义网中包括表达关键词之间以及表达关键词和目标结果之间的连接关系和权重。

可选地,获得用户一个连续搜索过程中输入的搜索表达式历史和选择的目标结果,包括:获取用户输入的表达关键词、调整的表达关键词以及根据搜索结果选择的目标结果。

可选地,根据表达关键词序列和目标结果生成语义网之前还包括:确定服务领域,服务领域包括单一用户、群组、垂直领域、或综合信息服务领域;判断服务领域下用户输入的表达关键词序列中表达关键词及根据表达关键词选择目标结果的过程是否是完整的信息服务过程。

可选地,语义网中包括表达关键词之间以及表达关键词和目标结果之间的连接关系和权重,包括:

若用户输入的表达关键词不满足语义网更新规则,则舍去所述表达关键词;

若用户输入的表达关键词满足语义网更新规则,用户输入的表达关键词与语义网中关键词的相似度小于相似度阈值,在语义网添加用户输入的表达关键词作为语义网中的新关键词,并记录用户选择的目标结果,生成或更新所述新关键词与语义网中其他关键词之间的连接关系权重、及所述新关键词与目标结果的综合因子;

若用户输入的表达关键词满足语义网更新规则,用户输入的表达关键词与语义网中关键词的相似度大于等于相似度阈值,生成或更新语义网中关键词与目标结果的综合因子,综合因子是根据语义网中的关键词到目标结果的最短路径因子以及权重因子确定的,权重因子为根据历史统计的语义网中关键词到达目标结果的次数归一化确定的。

可选地,判断服务领域下用户输入的表达关键词序列中表达关键词及根据表达关键词选择目标结果的过程是否是完整的信息服务过程,包括:确定用户输入表达关键词搜索目标结果的过程对各目标结果的点击次数;若目标结果的点击次数大于信息服务阈值,则将服务过程确定为完整的服务过程;

和/或

将用户输入表达关键词后选择的目标结果的过程确定为完整的服务过程。

本公开还提供了一种搜索方法,包括:确定用户输入表达式中的表达关键词;确定表达关键词在语义网中匹配的初始节点,其中,语义网基于用户搜索历史中的表达关键词和目标结果生成;在语义网中根据初始节点确定目标结果,目标结果根据初始节点到目标结果的距离和权重确定;提示目标结果。

可选地,该方法还包括:在语义网中根据初始节点确定提示关键词;提示提示关键词。

可选地,在语义网中根据初始节点确定提示关键词包括:

若初始节点不为语义网的末端节点,选择初始节点演化到目标结果的路径,确定路径上的节点作为提示关键词。

可选地,若初始节点为语义网的末端节点,将初始节点对应的目标结果提示给用户;若初始节点不是语义网的末端节点,选择目标结果的权重因子大于权重阈值的目标结果;选择初始节点演化到目标结果的路径因子大于路径阈值的路径;确定路径上的其他节点作为提示关键词;提示提示关键词和/或多个目标结果;其中,语义网中的节点为相同或相似的关键词组成的集合,权重因子为根据历史统计的语义网中关键词到达目标结果的次数归一化确定的。

本公开一种搜索引擎实现装置,包括:获取模块,用于获得用户一个连续搜索过程中输入的搜索表达式历史和选择的目标结果;确定模块,用于根据搜索表达式历史确定表达关键词序列;生成模块,用于根据表达关键词序列和目标结果生成语义网以用于搜索引擎,语义网中包括表达关键词之间以及表达关键词和目标结果之间的连接关系和权重。

可选地,获取模块用于获取用户输入的表达关键词、调整的表达关键词以及根据搜索结果选择的目标结果。

可选地,该装置还包括:

服务领域确定模块,用于确定服务领域,服务领域包括单一用户、群组、企业、或行业;信息服务过程判断模块,用于判断服务领域下用户输入的表达关键词序列中表达关键词及根据表达关键词选择目标结果的过程是否是完整的信息服务过程。

可选地,评价模块,用于若用户输入的表达关键词不满足语义网更新规则,则舍去所述表达关键词;

评价模块还用于若用户输入的表达关键词满足语义网更新规则,用户输入的表达关键词与语义网中关键词的相似度小于相似度阈值,在语义网添加用户输入的表达关键词作为语义网中的新关键词,并记录用户选择的目标结果,生成或更新所述新关键词与语义网中其他关键词之间的连接关系权重、及所述新关键词与目标结果的综合因子;

评价模块还用于若用户输入的表达关键词满足语义网更新规则,用户输入的表达关键词与语义网中关键词的相似度大于等于相似度阈值,生成或更新语义网中关键词与目标结果的综合因子,综合因子是根据语义网中的关键词到目标结果的最短路径因子以及权重因子确定的,权重因子为根据历史统计的语义网中关键词到达目标结果的次数归一化确定的。

可选地,信息服务过程判断模块用于:确定用户输入表达关键词搜索目标结果的过程对各目标结果的点击次数;若目标结果的点击次数大于信息服务阈值,则将服务过程确定为完整的服务过程;和/或将用户输入表达关键词后选择的目标结果的过程确定为完整的服务过程。

本公开一种搜索装置,包括:表达关键词分析模块,用于确定用户输入表达式中的表达关键词;初始节点分析模块,用于确定表达关键词在语义网中匹配的初始节点,其中,语义网基于用户搜索历史中的表达关键词和目标结果生成;确定模块,用于在语义网中根据初始节点确定目标结果,目标结果根据初始节点到目标结果的距离和权重确定;提示模块,用于提示目标结果。

可选的,确定模块还用于在语义网中根据初始节点确定提示关键词;提示模块还用于提示提示关键词。

可选地,提示模块用于:若初始节点不为语义网的末端节点,选择初始节点演化到目标结果的路径,确定路径上的节点作为提示关键词。

可选地,提示模块用于若初始节点为语义网的末端节点,将初始节点对应的目标结果提示给用户;和/或提示模块用于若初始节点不是语义网的末端节点,选择目标结果的权重因子大于权重阈值的目标结果;选择初始节点演化到目标结果的路径因子大于路径阈值的路径;确定路径上的其他节点作为提示关键词;提示提示关键词和/或多个目标结果,其中,语义网中的节点为相同或相似的关键词组成的集合,权重因子为根据历史统计的语义网中关键词到达目标结果的次数归一化确定的。

本公开提供的搜索引擎实现方法、搜索方法以及装置,基于用户输入的表达关键词和选择的目标结果进行统计建立语义网,获取关键词与关键词之间以及关键词与目标结果之间的距离和权重关系,当用户搜索目标结果时,可以基于该语义网为用户提供服务信息,节约用户搜索信息时间,为用户提供更准确高效的信息服务。

附图说明

图1示出本发明一个实施例的搜索引擎实现方法的流程图。

图2示出本发明一个实施例的连续搜索过程获得目标结果的示意图。

图3示出本发明另一个实施例的搜索引擎实现方法的流程图。

图4示出本发明一个实施例的搜索引擎实现优化方法的流程图。

图5示出本发明一个实施例的搜索方法的流程图。

图6示出本发明另一个实施例的搜索方法的流程图。

图7示出本发明又一个实施例的搜索方法的流程图。

图8示出本发明一实施例的一学术领域一教授群组的语义网的示意图。

图9示出本发明一个实施例的搜索引擎系统的结构示意图。

图10示出本发明一个实施例的搜索引擎实现装置的结构框图。

图11示出本发明另一个实施例的搜索引擎实现装置的结构框图。

图12示出本发明一个实施例的搜索装置的结构框图。

图13示出了本发明的另一个实施例的搜索引擎实现装置的结构框图。以及

图14示出了本发明的另一个实施例的搜索装置的结构框图。

具体实施方式

下面参照附图对本发明进行更全面的描述,其中说明本发明的示例性实施例。

搜索引擎对于用户问题的理解是搜索引擎追求的核心目标。一般情况下,在搜索引擎的服务过程中,有三个核心环节。第一个核心环节是对于问题的理解,搜索引擎通过各类算法和方法理解用户请求提问(QUERY)的核心点,知道用户找的是什么。第二个核心环节是:如何对后台信息资源进行组织,进行索引,使后台信息以一种能表达信息本质的方式和适应信息查询的方式进行存储;第三核心环节是:搜索需求和搜索结果直接的匹配,使用户需求与存储信息之间进行匹配,并进行合理计算,计算结果即面对用户信息的需求,又反映信息本质表达的信息。

本发明实施例基本思想是在搜索引擎等信息服务领域,引入语义网技术,提出一种可针对个人、群组、领域的应用的搜索引擎实现的方法,该方法形成的是一种可感知领域变化及某一段时期某类问题表达方法变化的语义网络,并且该语义网可以根据个人、群组、领域的信息服务应用自主演化,最终形成面向特定人、群组、领域的理解服务引擎。根据该语义网络,在用户搜索过程中,可克服不同用户针对同一事物不同描述的差异性,即使不同用户针对同一事物采用不同的表达,也可以获得相同的目标结果或者提示关键词。本发明实施例的方法还具备根据时间及信息需求、表达、产生的变化,理解信息的能力,适应不同时期的搜索表达和搜索理解、及目标结果推荐能力。

图1示出本发明一个实施例的搜索引擎实现方法的流程图。如图1所示,该方法主要包括:

步骤S100,获得用户一个连续搜索过程中输入的搜索表达式历史和选择的目标结果;

在一实施例中,可以根据用户的搜索过程,获取用户输入的表达关键词、调整的表达关键词以及根据搜索结果选择的目标结果。

对于相同问题,不同表达方式的识别,应用用户的搜索历史记录,学习服务成功所对应的历史输入表达关键词,若服务成功则记录连续输入的表达关键词和对应的目标结果。搜索引擎系统对于一定时间内的用户搜索输入的记录,分析记录中用户搜索输入表达的调整,学习用户在一段时间内若干个连续输入过程中选择的最终目标结果和对应这个目标结果的不同表达关键词。

需要说明的是,本发明的搜索表达式并不仅仅指的是输入文字,本领域人员可以理解,用户可以以多种方式输入搜索表达式,例如,可以是声音图像等方式。例如,在基于语音对话的搜索过程中,针对一个问题,用户可能能有多种语言表达方式,若用户根据系统的搜索结果选择了目标结果,一般会停止搜索查看目标结果,可以将用户声音表达和选择的目标结果作为日志记录下来,以便统计分析生成语义网。

步骤S102,根据搜索表达式历史确定表达关键词序列;

在搜索流程中,用户需一边学习陌生领域的知识,同时不断的调整输入表达,可以在一个陌生领域获得所需要的信息,记录与学习用户搜索过程中关键词和选择的目标结果,通过学习不同用户对相同问题有不同的表达,记录多个用户搜索的过程,可以提炼出关键词与关键词之间的连接关系。

步骤S104,根据表达关键词序列和目标结果生成语义网以用于搜索引擎,语义网中包括表达关键词之间以及表达关键词和目标结果之间的连接关系和权重。

在一实施例中,可以根据表达关键词与目标结果的距离和表达关键与目标结果的权重确定该关键词的综合因子。

表达关键词路径和关键词与目标结果权重确定的综合因子决定着一个初始节点如何得到到达最后为用户提供的目标信息。一方面,分析关键词与关键词之间的连接关系,获取一关键词连接到另一关键词的最短路径,另一方面,计算关键词连接目标结果在某条路径上的权重值,路径权重是建立语义网过程中及在建立后使用过程中,根据新的用户表达及对目标结果的选择不断优化调整而得的。

在一实施例中,可以记录若干个用户在若干次搜索过程中,记录用户根据一个表达关键词调整到另一个表达关键词次数,并将该次数作为连接权重。该连接权重是指从一个关键词到下一个关键词,用户选择的次数,可以经过加权或归一化而得的该权重。

在一实施例中,该综合因子是根据语义网中的关键词与目标结果之间路径和权重复合加权确定。这样可以根据该综合因子确定表达关键词和目标结果的关系。在搜索处理中,若用户输入的是该关键词,则根据该综合因子为用户提供服务。

在一实施例中,通过学习多个用户的多个搜索过程,基于多个用户的输入关键词、调整关键词以及选择的目标结果,可以生成关键词序列与目标结果的关系网络,可以将该网络称之为语义网。生成该语义网时,记录各个表达关键词的连接关系以及根据表达关键词获得目标结果的次数,并经历史统计将该次数归一化作为该关键词与目标结果的权重因子。

本发明实施例的语义网络是根据表达关键词和目标结果组成的网络,它按照关键词的意义组成一个“关键词和目标结果网络”,并且该关键词网络中的各个节点都与相邻节点具有连接关系,关键词是该语义网的基本组成元素,该语义网遵循词汇语义学原理,可以使用同义词集合来表达节点,并用一定数量的关系类型将这些关键词节点关联起来,构成了一张关键词以及目标结果语义网。形成的该语义网可以将该语义网可以应用到自然语言理解领域、机器翻译、输入法领域及搜索引擎领域中。

本发明实施例的搜索引擎实现方法,基于用户输入的表达关键词和选择的目标结果进行统计建立语义网,获取关键词与关键词之间以及关键词与目标结果之间的距离和权重关系,在用户搜索过程中,基于该语义网为用户提供服务,可以节约用户搜索信息时间,为用户提供更准确高效的信息服务。

在一实施例中,用户在获得最终结果之前,输入的信息可能是变化的。用户在一个连续的信息获取过程中,存在一个根据系统返回的结果学习如何表达的过程;用户通过了解返回结果,也有一个对自己需求的认识过程。通过记录用户输入,每次输入对应返回结果和最终结果,进行特征提取后,建立一个语义网络或语义网络数据库。

图2示出本发明一个实施例的连续搜索过程获得目标结果的示意图,如图2所示,在输入1到输入n中用户输入不同的表达关键词希望搜索到买百货的好商场,第一次输入知名百货显示了多个目标结果,用户并未选择任何搜索显示结果,在第二次输入中,用户调整表达输入其他几个关键词,显示的多个搜索结果,用户均未选择,在第n次输入中、用户输入著名百货,在搜索的结果显示有八佰伴结果,用户点击上海第一八佰伴,进入相关商城信息页面获得用户需要的信息。百货、著名百货、八佰伴以及上海第一八佰伴组成一个搜索历史记录,其中,百货、著名百货、八佰伴属于连续输入的表达关键词,上海第一八佰伴属于目标结果。

参照图2,将百货、著名百货、八佰伴作为用户连续输入的表达关键词确定为关键词序列。

基于多次的统计结果,获得百货到著名百货的权重,著名百货到八佰伴的权重,以及八佰伴到上海第一八佰伴的权重。

基于图2形成的语义网,当一用户使用基于该语义网的搜索引擎或者输入法时,若搜索“百货”,搜索引擎可以根据该语义网提示关键词“著名百货”、“八佰伴”,当用户点击确定搜索“百货”后,浏览器优先输出“上海第一八佰伴”相关的搜索信息,供用户使用。

本发明实施例的搜索引擎实现方法,可以解决人们对于问题理解、描述上的差异性,个体差异带来了标准化产品的适应性不足。基于搜索引擎交互过程中的记录挖掘,理解服务领域知识和概念,解决用户搜索请求时需要多方调整才能获得目标结果问题。

图3示出本发明另一个实施例的搜索引擎实现方法的流程图,如图3所示,该方法包括:

步骤300,获得用户一个连续搜索过程中输入的搜索表达式历史和选择的目标结果;

步骤301,根据搜索表达式历史确定表达式关键词;

步骤S302,确定服务领域,服务领域包括单一用户、群组等;

举例而言,在信息服务领域,可以针对个人、群组、垂直领域、或一个综合性的服务领域,信息服务系统记录用户输入关键词和最终选择结果。这个服务领域可以是传统互联网领域,移动互联网领域,也可以是语音信息服务平台。

记录用户输入关键词及对应选择的目标结果信息,这样通过长一段时间的积累,就能获得关键词和播报企业、搜索结果信息、或目标结果的一个对应关系网。进一步地,可以在用户使用信息服务系统过程中记录用户输入关键词的变化。

步骤S303,判断服务领域下用户输入的表达关键词序列中表达关键词及根据表达关键词选择目标结果的过程是否是完整的信息服务过程。

在一实施例中,判断服务领域下用户输入的表达关键词序列中表达关键词及根据表达关键词选择目标结果的过程是否是完整的信息服务过程,包括:在一个时间周期内,如1天、1个月、1年等,确定用户输入表达关键词搜索目标结果的过程对各目标结果的点击次数;若目标结果的点击次数大于信息服务阈值,则将服务过程确定为完整的服务过程。

在一实施例中,可以将用户输入表达关键词后选择的目标结果的过程视为完整的服务过程。可以通过其他方法判断服务过程是否为完整的服务过程,如用户明确表达目前搜索结果就是其想获得的目标结果;或用户在选择某个目标结果后停止了搜索。

一个完整的信息服务过程可以如下表达,用户首先输入关键词,然后观察搜索结果列表,如果用户在列表中点击的结果,记录用户点击的每个搜索结果和点击搜索结果的个数N,N≥0。在本发明中,我们可定义N为信息服务因子,在普通服务过程中,当N不为零时,认为这是一个完整的信息服务过程;在某些特定环境下或某一领域中,N可以取系统的一个经验值,大于这个经验值的认为是一个完整的信息服务过程,小于这个经验值的认为不是一个完整的信息服务过程。在一个完整的信息服务过程中,用户变换关键词,但是并不产生搜索结果的原因有多种。

举例而言,以语音信息服务平台坐席服务人员的搜索过程为例,在客服系统中,前向用户指打电话或通过其它接入手段询问信息的用户,坐席用户指客服人员,其根据用户与用户的交流及自己的理解,输入关键词及一些特征表达,在后台服务信息中进行搜索信息。这个变换关键词可能由以下原因产生:

1、前向用户对于信息表达的差异性,前向用户的表达是其依据自身对所需求问题描述的理解,而用户(坐席)自身在服务开始可能并不了解这个理解表达是否正确,是否在后台存储相对应的信息,因此造成了首次关键词搜索没有找到符合要求的结果。

2、用户(坐席)通过对系统的了解和交互调整了输入关键词,并依靠服务经验的积累,抽象出(前向用户)信息需求的核心点,但这个中心点在服务过程中存在一定的变化。

这样通过长期积累,就能获得关键词和目标结果例如播报企业的一个对应关系网。这个网的最后一层是最后用户(坐席)最终输入的关键词,这个关键词对应的用户(坐席)选择的最终目标信息。经过长期的学习和优化,基于多次的记录与调整,当这个信息网络达到一定程度后,就可以在现实系统中进行应用。即当用户输入那些可能没有播报结果的关键词后,例如,根据传统信息搜索或检索方法,可能没有播报结果的关键词后,根据语义网获得最终节点的关键词和这个关键词对应的播报企业。

步骤S304,根据表达关键词序列和目标结果生成语义网,语义网中包括表达关键词之间以及表达关键词和目标结果之间的连接关系和权重。

在一实施例中,语义网中包括表达关键词之间以及表达关键词和目标结果之间的连接关系和权重,包括:

若用户输入的表达关键词不满足语义网更新规则,则舍去所述表达关键词;若用户输入的表达关键词满足语义网更新规则,用户输入的表达关键词与语义网中关键词的相似度小于相似度阈值,在语义网添加用户输入的表达关键词作为语义网中的新关键词,并记录用户选择的目标结果,生成或更新所述新关键词与语义网中其他关键词之间的连接关系权重、及所述新关键词与目标结果的综合因子;若用户输入的表达关键词满足语义网更新规则,用户输入的表达关键词与语义网中关键词的相似度大于等于相似度阈值,生成或更新语义网中关键词与目标结果的综合因子,综合因子是根据语义网中的关键词到目标结果的最短路径因子以及权重因子确定的,经历史统计根据语义网中关键词到达目标结果的次数归一化确定权重因子。

在一实施例中,权重因子为根据语义网中关键词达到目标结果的次数,经过历史统计、归一化计算而得。还可以考虑其他因素确定该权重因子,例如考虑时间因素,在一个时间段次数多的结果,在下一个时间段中并不一定多。

在一实施例中,语义网更新规则可以是新增关键词规则、保留关键词规则、删除关键词规则、更新关键词综合因子规则等。

在一实施例中,若用户新输入的关键词,不满足语义网更新规则,则系统舍去这个关键词;新增节点规则可以如下描述:1、用户在一系列连续的输入是否获得了目标结果;2、连续输入内容的相关性判断;或离散度判断;连续输入是否针对同一个目标描述,或是连续输入在概念上是否相同,或连续输入在表达上是否相似等3、用户输入是否可以提炼出关键词或是系统可以重复利用的表达等;若用户输入满足语义网新增节点的技术判断;同时,用户输入表达关键词与语义网中原有的关键词相似度小于相似度阈值,即可以判断这是一个新的用户表达,例如:关键词,则在语义网中添加用户输入的表达如关键词作为语义网中的新关键词,并记录用户选择的目标结果。

在一实施例中,针对个人、群组、垂直领域、地区、或是一个选定的服务方向设定信息服务因子。并依据这个信息服务因子,选定信息服务过程。

记录一个信息服务过程中,用户输入的关键词及对应在搜索结果列表中选择的搜索结果。

在一实施例中,语义网更新规则可以通过关键词筛选确定,依靠一个评价函数,判断这个词是否可以被保留作为语义网新增节点。

在一个实施例中,这个评价函数可以采取以下原则:

1、在服务积累的服务词典中,判断用户输入表达关键词是否是一个完整的词,或是否是一个完整的表达。判断算法有多种,例如采用基本的二元或三元分词法,判断分词后的词与词典中的词是否相同。这里我们记录这个评价为α1,其中0≤α1≤1,若α1较小,则说明与语义网词典中的关键词匹配较低,α1越大,则说明与语义网中关键词的匹配度高。

一般而言,认为词是由两个字构成,或三个字构成的。如果认为是由两个字构成的,一句话,从首字开始,每两个字分为一个词;之后去掉首字,再每两个字一个词,这样,就得到了一组分词,实际中还可以去掉一些虚词后再分。实际使用中还应考虑词之间的连续性,或上下文关系,并利用上述二元、三元分词法理解用户输入的表达关键词。

需要说明的是,尽管本发明以二元、三元分词法为例子说明了如何理解用户输入的表达关键词,但是本发明不限于此,该分词理解方法仅为本发明举例的一个示例的分词方法,事实上,在本发明实施例中可以采用多种分词方法,或自然语言处理领域的概念抽取或特征抽取的方法,获得一个关键词,或对应输入的特征表达。

在一实施例中,若用户输入的是一个完整的表达,如具有主谓宾组成的句子,如“去哪里购物购百货比较好”,或者短的句子如“著名的百货”,或者短的关键词如“八佰伴”,则可以通过分词方法获得“著名”“百货”、“著名百货”、“八佰伴”,进而基于用户所在地区“上海”,确定关键词的连接关系是“百货”→“著名百货”→“八佰伴”。

在一实施例中,还可以根据为确定语义网,基于网络地址识别和时间记录,可以获取用户所在地区和搜索时间,基于不同的地区、时间,调整语义网,使得搜索引擎能够更好的理解用户的表达关键词并根据关键词建立关键词连接关系、关键词与目标结果的关系。

2、判断用户当前输入的关键词是否与已记录的用户输入表达关键词匹配存在一定的匹配关系。这个已记录的关键词可以是本发明中语义网节点的关键词。可以采用完全匹配和相似性匹配两种规则,具体规则的选择需要依据具体的服务领域确定。例如是服务于个人用户的语义网,可以采用完全匹配规则;例如是服务于群组或是垂直领域的语义网可以采用相似性为主的规则;例如是一个服务范围更大的语义网,则最好采用相似性规则。这里我们记录这个评价为α2,其中0≤α2≤1。

当α1小于一定门槛值时,则认为这个关键词不是一个标准的信息表达,系统舍去这个关键词。

当α1大于一定门槛值,而α2又小于一定门槛值时,认为用户输入的是一个合格的可被系统使用的关键词。那么在语义网中的相应位置添加这个节点。同时记录后续是否有关键词继续输入,并记录后续用户选择的信息。

当α1大于一定门槛值,而α2又大于一定门槛值时,则认为用户输入与语义网的某个节点相匹配,这时可以经过计算获得从这个节点到最终用户选择答案的综合考虑距离和权重的综合因子,记为β。

需要说明的是,α1、α2的大小以实际选择为准,在不同领域可以选用不同大小的值,本发明对这两个值的大小并不做具体地限定。

在一实施例中,综合因子β是由β1、β2两个因子计算得来的。其中,因子β1,是计算这个关键词到最终播报信息的最短路径。因子β2,是计算这个关键词到最终播报信息的权重系数,这里的权重为根据语义网中关键词达到目标结果的次数,经过历史统计、归一化计算而得。还可以考虑其他因素确定该权重因子,例如考虑时间因素,在一个时间段次数多的结果,在下一个时间段中并不一定多。

可以采用优化算法综合计算因子β1和因子β2的综合因子β。例如,可以首先选择若干个路径最短的表达,在路径最短的表达中,选择路径权重最大的表达,进而确定综合因子β;也可以首先选择若干个权重最大的表达,在权重最大的表达中选择路径最短的表达,进而确定综合因子β;还可以综合考虑路径和权重的复合加权确定综合因子等。以综合因子的高低来排列两类数据供用户选择:第一类是为用户推荐的搜索提示关键词,第二类是为用户推荐的可能的搜索结果。

搜索引擎判别一个关键词与网页的相关程度基本原理是采用pagerank技术的,现有技术中没有考虑用户使用和表达行为的计算过程。在一实施例中,可以将关键词与目标结果的连接关系和权重关系叠加到系统所应用的搜索服务系统相关性判别计算公式中,改善公式的相关计算过程和结果。即如果在网页中出现了这个关键词,首先认为其相关,相关程度按照网页的重要程度排序,这个重要程度是由pagerank模型算出的,即如果一个网页处在一个重要的网站,且指向或链接这个网页的数量越多(也考虑链接这个网页的网页重要程度)。

需要说明是,尽管本发明以α1为门槛值,判断用户输入的表达是否是一个正常的表达,用α2为门槛值,判断输入的关键词与语义网数据库中关键词的相似度。但是本发明对α1、α2的大小并不做具体的限定,本领域人员可以根据实际情况设定这两个值的大小。

基于现有的搜索技术,本发明实施例形成的语义网是一个表达关键词与目标结果的空间网状结构,这个网状结构的生成是由用户使用过程的记录和提炼生成的,因此可以改善由一个关键词到达一个目标结果列表的计算过程,即可以改善传统的pagerank技术。

这样,通过学习用户的搜索过程,基于用户输入的关键词、调整的关键词以及最终选择的目标结果,并通过匹配度方法和相似度方法建立语义网,该语义网中包括关键词与关键词之间的关系以及关键词与目标结果之间的关系。

本发明实施例的搜索引擎实现方法,可以获取人们对于问题理解、描述上的差异性,消除个体差异带来了标准化产品的适应性不足的问题,解决在现实应用中不能将形成相对标准化的语义网及与将该语义网与具体领域应用结合的问题。

图4示出本发明一个实施例的搜索引擎实现优化方法的流程图,如图4所示,该方法包括:

步骤S401、确定服务领域。

在一实施例中,先确定要服务的领域,该服务领域可以使某一个人,某一群组、某一领域如酒店服务、医疗服务、汉字输入等领域;也可以针对某一普适的领域,不具体限定到某个具体地领域。

步骤S402、确定信息服务因子。

步骤S403、获得用户搜索或使用的系统推荐结果。

步骤S404、用户输入与特征关键词相似度计算。

在执行相似度计算时,需要执行步骤S405查询语义网关键词、信息表达库,根据语义网关键词、信息表达库,判断用户输入的表达与现有语义网中关键词的相似度。

步骤S406、判断是否达到评价门槛值。

可以根据语义网词典判断用户输入的表达是否是一个正常的表达,可以采用相似度的判断方法,判断用户输入的关键词是否是一个正常的表达,如果是一个正常的表达,则根据用户输入的关键词以及选择的目标结果优化语义网,如果不是正常的表达,则舍弃该关键词,进入普通的搜索流程,即执行步骤S407。

步骤S407、未达到门槛值,流程结束。

步骤S408、应用用户搜索关键词及最终选择(或未选择)结果形成优化语义网。

步骤S409、判断与语义网已有关键词的相似度。

步骤S410、语义网关键词、信息表达库。

步骤S411、判断是否达到语义网门槛值。

步骤S412、强化语义网的相关有向连结。

步骤S413、在语义网上添加新节点和目标结果。

不同用户对相同问题有不同的表达,同时服务领域知识很难被用户理解。用户需一边学习陌生领域的知识,同时不断的调整输入表达,才能在一个陌生领域获得所需要的信息。系统学习对于用户搜索输入一定时间的记录,分析记录中用户搜索输入调整的变化,学习用户在一个连续输入过程中,最终结果的选择和对应该选择的目标结果的不同表达关键词。同时,根据本专利实施例提供的方法或也可以判别后台可服务信息质量之间的差异性,根据用户的选择,按照使用频率,对信息进行一个优化排序。

对于相同问题,识别用户不同表达关键词,应用这种历史记录,学习服务成功所对应的历史输入表达,如通过关键词的调整获得目标结果的历史输入表达关键词,与后台可服务信息内容一起进行概念理解及特征抽取,形成一种基于语义网的输入提示方法或用户可能的输入关键词提示及相应的目标结果提示。

本发明实施例的搜索引擎实现方法,基于对服务领域知识的概念理解,搜索引擎交互过程中的记录挖掘,理解用户搜索请求的问题。基于用户对输入的信息进行理解,使用一种可优化自主演进的语义网的方式进行优化系统。

可以将上述搜索引擎实现方法应用于手机客户端、手持设备、互联网设备、语音信息服务坐席等搜索引擎服务系统或信息推荐系统。这样,通过对用户、用户群组、服务领域等搜索服务系统历史服务日志进行分析,提炼出可以被后来用户或系统所使用的有价值的可用信息。也可以应用到服务资源调度系统等方面,可以判别用户需求的业务种类,并根据业务种类和当前信息服务的特点合理的调度后台能提供信息服务的资源,使后台服务能力最大化。在以后的用户服务中,可以利用上述提炼出来的有价值的可用信息提供以后的用户,可以提高用户体验,增强服务企业的服务效果,进而获得更大的商业利益,同时有利于服务商进行更好资源配置,节省服务成本。本发明实施例的搜索引擎实现方法可以根据信息服务商网络的能力、服务的能力开发出用户使用方便的搜索引擎及相关电信信息服务系统,可以根据该搜索实现方法开发出新的产品例如类似Siri、服务机器人等产品。

在一实施例中,提出一种可针对个人、群组、领域的应用的搜索方法,该方法形成的是一种可感知领域变化及某一段时期某类问题表达方法变化的语义网络,根据这个网络,可克服不同用户针对同一事物不同描述的差异性,使得不同用户针对同一事物不同的描述,也可以获得相同的结果。

图5示出本发明一个实施例的搜索方法的流程图。如图5所示,该方法主要包括:

步骤S501、确定用户输入表达式中的表达关键词。

判断用户输入表达关键词是否是一个完整的词,或是否是一个完整的表达。判断算法有多种,例如采用基本的二元或三元分词法,判断分词后的词与词典中的词是否相同。

在一实施例中,用户输入的表达可能包括多个关键词,基于语义网中的关键词理解用户输入的表达的意思,确定用户输入表达中的表达关键词。

在一实施例中,可以采用如上述实施例中的评价值α2,其中0≤α2≤1,若α2较小,则说明与语义网词典中的关键词匹配较低,α1越大,则说明与语义网中关键词的匹配度高。根据该评价值可以确定用户欲搜索的关键词。

步骤S502、确定表达关键词在语义网中匹配的初始节点,其中,该语义网是基于用户搜索历史中的表达关键词和目标结果生成。

在一实施例中,语义网中节点可以是多个意思相同或者相近的关键词的集合。

通过理解分析用户的表达,获取表达关键词后,将该表达关键词与语义网中的关键词相匹配,在语义网中的确定一个或多个初始节点。可以根据上述相似度方法判断关键词与语义网中关键词的匹配关系。

初始节点的选择,有若干种计算方法。其中一种计算方法是计算输入的表达和某一个节点(关键词、或某种表达特征)之间的相似度,如果都是词,就计算词与词之间相同字的个数,及顺序是否相关,即关键词匹配计算。如果是表达,可以采用语法分析、语义分析、关键词向量之间的比较关系计算。

在一实施例中,判断用户输入的表达关键词是否存在与语义网中节点的匹配关系,语义网节点可以是一个关键词,也可以是多个相同或者相似的关键的结合。可以采用完全匹配和相似性匹配等规则,具体规则的选择需要依据具体的服务领域确定。

举例而言,如果是服务于个人用户的语义网,可以采用完全匹配规则;如果是服务于群组或是垂直领域的语义网可以采用相似性为主的规则;如果是一个服务范围更大的语义网,则最好采用相似性规则。

需要说明的是,在具体实施过程中,可以根据信息服务资源的情况,灵活选择相似性计算规则。

若根据用户输入的表达确定的关键词与语义网中关键词的相似度大于一定值,则选择语义网中的该关键词作为初始节点,进而为用户提供服务。

步骤S503、在语义网中根据初始节点确定目标结果,目标结果根据初始节点到目标结果的距离和权重确定;

步骤S504、提示目标结果。

在语义网中确定了初始节点之后,根据语义网中关键词与关键词之间的关系,以及关键词与目标结果之间的关系,可以为用户提供目标结果并显示在显示装置上,若有多个目标结果,根据目标结果的权重排序提示目标结果。

本发明实施例的搜索方法,可以分析用户输入的表达式,根据用户输入的表达关键词查询语义网,语义网根据关键词与关键词的连接关系和关键词与目标结果的权重为用户提示关键词和信息服务,可以节约用户搜索信息时间,为用户提供更准确高效的信息服务。

图6示出本发明另一个实施例的搜索方法的流程图。图6的步骤S601~步骤S603与图5中对应步骤S501~步骤S503基本相同,为简洁起见此处不再赘述,如图6所示,该方法还包括:

步骤S604,在语义网中根据初始节点确定提示关键词;

步骤S605,向用户提示提示关键词;

步骤S606,提示目标结果。

确定了语义网中初始节点之后,确定该初始节点演化至多个目标节点的多个可能路径,根据关键词与关键词之间的关系,为用户提供用户可能想输入的关键词,并为用户提示该关键词。

在一实施例中,在语义网中根据初始节点确定提示关键词包括:若初始节点不为语义网的末端节点,选择初始节点演化到目标结果的路径,确定路径上的节点作为提示关键词。

在一实施例中,若初始节点为语义网的末端节点,将初始节点对应的目标结果提示给用户;若初始节点不是语义网的末端节点,选择目标结果的权重因子大于权重阈值的目标结果;选择初始节点演化到目标结果的路径因子大于路径阈值的路径;确定路径上的其他节点作为提示关键词;提示提示关键词和/或多个目标结果;其中,语义网中的节点为相同或相似的关键词组成的集合,权重因子为根据历史统计的语义网中关键词到达目标结果的次数归一化确定的。

在一实施例中目标结果可以是服务的企业列表,当用户输入这个网络任意节点的关键词后,这个关键词如果处在语义网络的最后一层,就可以把由这个关键词触发的企业列表或服务信息,按照权重或频次的高低排列,也可以把这个关系叠加到系统所应用的搜索服务系统相关性判别计算公式中,改善公式的相关计算过程和结果。

若坐席用户输入关键词搜索可用企业服务信息,当这个关键词处在网络非最后节点,则可以计算由这个节点演化至目标结果的路径,获得一个达到门槛值之上的几个带有最终目标结果的路径,同时获得路径上变化了关键词,此时基于上述搜索引擎实现方法中的形成的语义网,搜索引擎系统可以给坐席用户提示与这个关键词可能的搜索输入或目标结果。

当通过搜索引擎输入关键词后,基于搜索引擎实现方法生成的语义网,坐席或用户获得一个可能为用户提供服务或是满足用户信息需求的服务列表,坐席通过与用户沟通(或是用户自己在列表中选择),选择了最终为用户播报的企业信息。

在这个服务过程中,通过服务日志的积累,能获得一个多对多关键词对应播报企业的列表。进一步地,由于获得了坐席在信息搜索过程中调整的关键词,因此能形成一个层数有限的网状结构。因此在信息服务过程中,当坐席明确输入一个关键词时,就能判断后台曾经被选择提供的企业。因此,可以在每次坐席进行搜索时,把那些由这个关键词触发的,曾经为用户提供满意服务的企业信息排列在前面,节约了用户搜寻相关服务企业的信息。

图7示出本发明又一个实施例的搜索方法的流程图。如图7所示,该方法主要包括:

步骤S701、用户输入关键词或问题。

步骤S702、用于输入与语义网节点相匹配计算。

可以根据上述搜索引擎实现方式形成的语义网与用户输入的表达进行匹配计算,也可以根据人工统计形成的语义网进行匹配计算。在一实施例中,执行步骤S711、搜索语义网关键词、信息表达库,根据该语义网中关键词进行匹配计算,判断用户输入的表达是否是一个正常的表达。

在一实施例中,若用户输入的是一个表达,

步骤S703、判断是否达到评价门槛值。

若未达到门槛值,步骤S712、进入搜索流程。

步骤S705、选择语义网初始节点。

步骤S706、计算初始节点到目标播报信息的权重距离。

步骤S707、语义网关键词、信息表达库。查询该语义网关键词、信息表达库是否存在推荐关键词和服务信息,若未找到则执行步骤S712进入搜索流程,若找到,执行步骤S708。

步骤S712、进入搜索流程。

当用户只选择推荐的关键词,并没有选择推荐的目标结果之后,搜索系统需要根据用户的搜索点击指令,重新在数据库中搜索。此时的搜索结果排列按照系统相关度计算算法,可以将语义网积累的相关性作为普通搜索系统,相关度算法的一个输入参数,普通搜索系统相对于基于语义网的搜索系统而言的搜索系统,可以指现有的非基于语义网的系统。

步骤S708、推荐门槛值之上的语义网关键词以及相应的目标结果。

步骤S709、用户判断推荐结果并选择。

可以采用相似度的方法与语义网中关键词进行匹配。若用户输入的表达是一个词,则直接与语义网中的关键词进行匹配计算,根据用户输入的关键词与语义网关键词的相似度,确定搜索的初始节点。若用户输入的是一个句子,根据一定的分词方法分词,确定用户输入表达中的多个关键词,可以在语义网中选择多个初始节点,根据语义网中各节点的与目标结果之间的权重距离,为用户推荐目标结果。

步骤S713、记录用户选择,利用负反馈调整优化语义网,并进入搜索流程。

用户输入表达后,根据语义网推荐或者用户自己选择的目标结果的以负反馈方式调整上述语义网。

步骤S710、记录用户选择并优化语义网。

本发明实施例提供的搜索方法是一种基于过程知识概念抽取的搜索请求理解和结果推荐的方法,同时可以基于领域知识和业务感知的搜索请求理解标注提示,搜索系统可以在用户进行搜索输入时,根据后台可服务的信息内容特征来提示用户如何正确输入信息,或把后台重要业务信息第一时间反馈到用户界面。

本发明实施例的搜索方法感知用户的信息需求特征和用户信息需求环境的变化,对用户的搜索请求进行用户不可见的完善性标注,使搜索引擎的搜索结果更加符合用户的需求,并能适应需求环境的要求。

图8示出本发明一实施例的一学术领域一教授群组的语义网的示意图,基于该语义网,假如语义网中教授1节点包括多个关键词如“蒂姆·伯纳斯-李”、“蒂姆·李”、“伯纳斯-李”、“Tim Lee”、“Berners-Lee”“Tim Berners-Lee”,若用户输入教授1的名字如“蒂姆·伯纳-李”,根据该语义网,搜索系统将用户输入的关键词与语义网词库中的关键词相匹配,发现用户输入的词与“蒂姆·伯纳斯-李”比较相像,因此可以选择语义网中的教授1所在的节点为初始节点,根据与该初始节点相连接的目标结果为用户提供服务信息。

教授1处于语义网的末端节点,与目标结果直接相连,与该初始节点有连接关系的目标结果包括“大学”“教授”“作者”“语义网”“计算机网络系统”,若教授1和上述目标结果的权重距离为“100”“200”“300”“400”“1000”、则根据权重距离为用户推荐的目标结果的排序为“计算机网络系统”“语义网”“作者”“教授”“大学”。还可以为用户提供提示关键词如“教授2”“领域1”“著作1”“著作3”“著作2”“学生1”“实验室1”。综合考虑路径和权重的关系,在该语义网中各个计算各关键词与相关联的目标结果的综合因子,该综合因子根据权重和距离综合加权得到的。若判断初始节点后,根据该初始节点与各目标结果的综合因子大小直接为用户推荐目标结果或提示关键词。具体的推荐目标结果的方法或提示关键词的方法与上述搜索方法中的推荐方法相同,此处不再赘述。

本发明实施例的搜索方法,涉及针对搜索引擎等信息搜索查询系统服务过程中,针对特定用户个人、应用用户群组的、特定垂直领域服务过程中的问题回答的评价,可积累应用信息的抽取及知识积累等。可以根据服务过程中,针对特定问题回答的记录,由相似的回答答案,反过来获得触发这个答案的起始问题。进一步地,在用户输入类似的起始问题后,不需经过用户关键词的调整,直接为用户提供可能的搜索答案。

图9示出本发明一个实施例的搜索引擎系统的结构示意图。如图9所示,搜索引擎实现及优化侧的模块包括:

用户使用数据记录模块905,记录关键词及选择目标结果信息,例如,记录一个定义的信息服务过程中,用户输入的关键词、调整的关键词、及最终选择的搜索结果。

服务日志库906,存放用户使用数据记录模块905所记录的信息。

用户使用信息分析评价模块907,用来评价用户输入关键词与关键词标准库中关键词及语义网节点关键词的相似度。

候选关键词、问题累计库908,用户存放标准的关键词,这个词库中的关键词可用来评价计算α1。

关键词、信息表达库909,基于用户的关键词和目标结果统计出关键词、信息表达库。

语义网形成及优化计算模块910,根据用户搜索行为,形成一个推理语义网,该语义网在反复使用过程中不断被优化。

基于语义网的推荐模块911,选择推荐的关键词或是选择推荐的目标结果,给用户一定的搜索进行提示,在用户输入之后,通过理解分析用户输入的信息感知用户可能的搜索结果提示给用户。

用户应用侧包括如下模块:

用户输入关键词模块901,用于接收用户输入的搜索关键词;

信息搜索推荐模块902,可以基于语义网信息推荐而提供给用户。

推荐结果展现模块903,用户应用根据不同的计算结果展现不同的内容,例如推荐关键词,推荐关键词对应的结果,最终搜索结果等。

进入搜索流程模块904,若用户未选择搜索引擎实现流程推荐的结果,则进入普通搜索流程,执行普通的搜索。

当用户只选择推荐的关键词,并没有选择推荐的搜索结果之后,搜索引擎实现及优化侧需要根据用户的搜索点击指令,重新在数据库中搜索,此时的搜索结果排列按照系统原来设定的相关度计算算法,语义网积累的相关性可以作为系统相关度算法的一个输入参数。

本发明实施例的搜索引擎系统,并不是完全替代现有搜索系统,其作用主要有两个:一个是根据用户的输入和搜索引擎实现的语义网,为用户推荐与输入关键词相关的服务信息,这个相关的服务信息时经过历史服务成功的搜索目标结果记录综合计算出的。另一个作用是推荐与用户当前输入相关的输入关键词,纠正用户错误或是没有搜索结果的输入或是给用户提供可能的正确输入,当用户没有选择这些推荐的关键词和搜索结果时,系统可以仍然按照用户的输入进行输入。

对于按照用户输入进行的搜索结果的排序,可以选择考虑语义网的积累调整排序结果,也可以不考虑语义网的积累,按照系统自身的相关度计算方法进行排序。

本发明实施例的搜索引擎系统,根据针对某一个人、用户群组、领域或是一段时间内的服务信息搜索记录,学习用户搜索使用习惯,提炼一种关键词、信息表达方式及最终目标结果之间的语义及概念关系;同时对后台可服务的信息进行概念理解、抽取,形成用户输入与最终服务结果之间对应的概念特征网络。当用户输入一个搜索请求时,根据本搜索引擎系统提供的方法或装置,为用户推荐与这个搜索请求相关的服务信息表达及可服务的后台信息。进一步地,可以实现针对搜索引擎历史服务数据的概念抽取及应用,为用户提供一种输入法、信息提示方法、或信息推荐系统。

图10示出本发明一个实施例的搜索引擎实现装置的结构框图,如图10所示,该搜索引擎实现装置1000包括:

获取模块1001,用于获得用户一个连续搜索过程中输入的搜索表达式历史和选择的目标结果;

确定模块1002,用于根据搜索表达式历史确定表达关键词序列;

生成模块1003,用于根据表达关键词序列和目标结果生成语义网,语义网中包括表达关键词之间以及表达关键词和目标结果之间的连接关系和权重。

本发明实施例的搜索引擎实现装置,基于用户输入的表达关键词和选择的目标结果进行统计建立语义网,获取关键词与关键词之间以及关键词与目标结果之间的距离和权重关系,在用户搜索过程中,基于该语义网为用户提供服务,可以节约用户搜索信息时间,为用户提供更准确高效的信息服务。

在一实施例中,获取模块用于获取用户输入的表达关键词、调整的表达关键词以及根据搜索结果选择的目标结果。

图11示出本发明另一个实施例的搜索引擎实现装置的结构框图,如图11所示,该搜索引擎实现装置1100包括:获取模块1001,确定模块1002,生成模块1003;以及

服务领域确定模块1104,用于确定服务领域,服务主体包括单一用户、群组;

信息服务过程判断模块1105,用于判断服务领域下用户输入的表达关键词序列中表达关键词及根据表达关键词选择目标结果的过程是否是完整的信息服务过程。

在一实施例中,该搜索引擎实现装置1100还包括:评价模块1106,用于若用户输入的表达关键词不满足语义网更新规则,则舍去所述表达关键词;

评价模块1106还用于若用户输入的表达关键词满足语义网更新规则,用户输入的表达关键词与语义网中关键词的相似度小于相似度阈值,在语义网添加用户输入的表达关键词作为语义网中的新关键词,并记录用户选择的目标结果,生成或更新所述新关键词与语义网中其他关键词之间的连接关系权重、及所述新关键词与目标结果的综合因子;

评价模块1106还用于若用户输入的表达关键词满足语义网更新规则,用户输入的表达关键词与语义网中关键词的相似度大于等于相似度阈值,生成或更新语义网中关键词与目标结果的综合因子,综合因子是根据语义网中的关键词到目标结果的最短路径因子以及权重因子确定的,权重因子为根据历史统计的语义网中关键词到达目标结果的次数归一化确定的。

在一实施例中,信息服务过程判断模块1105用于:

确定用户输入表达关键词搜索目标结果的过程对各目标结果的点击次数;若目标结果的点击次数大于信息服务阈值,则将服务过程确定为完整的服务过程,或将用户输入表达关键词后选择的目标结果的过程确定为完整的服务过程。

图12示出本发明一个实施例的搜索装置的结构框图,如图12所示,该搜索装置1200包括:

表达关键词分析模块1201,用于确定用户输入表达式中的表达关键词;

初始节点分析模块1202,用于确定表达关键词在语义网中匹配的初始节点,其中,语义网基于用户搜索历史中的表达关键词和目标结果生成;

确定模块1203,用于在语义网中根据初始节点确定目标结果,目标结果根据初始节点到目标结果的距离和权重确定;

提示模块1204,用于提示目标结果。

本发明实施例的搜索装置,可以根据用户输入的表达查询语义网,根据用户的输入表达为用户提示关键词和信息服务,可以节约用户搜索信息时间,为用户提供更准确高效的信息服务。

在一实施例中,确定模块还用于在语义网中根据初始节点确定提示关键词;

提示模块还用于提示提示关键词。

在一实施例中,提示模块用于:

若初始节点不为语义网的末端节点,选择初始节点演化到目标结果的路径,确定路径上的节点作为提示关键词。

在一实施例中,提示模块,用于若初始节点为语义网的末端节点,将初始节点对应的目标结果提示给用户;

和/或

提示模块用于若初始节点不是语义网的末端节点,选择目标结果的权重因子大于权重阈值的目标结果;选择初始节点演化到目标结果的路径因子大于路径阈值的路径;确定路径上的其他节点作为提示关键词;提示提示关键词和/或多个目标结果,其中,语义网中的节点为相同或相似的关键词组成的集合,权重因子为根据历史统计的语义网中关键词到达目标结果的次数归一化确定的。

图13示出了本发明的另一个实施例的搜索引擎实现装置的结构框图。搜索引擎实现装置1300可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对计算节点的具体实现做限定。

搜索引擎实现装置1300包括处理器(processor)1310、通信接口(Communications Interface)1320、存储器(memory)1330和总线1340。其中,处理器1310、通信接口1320、以及存储器1330通过总线1340完成相互间的通信。

通信接口1320用于与网络设备通信,其中网络设备包括例如虚拟机管理中心、共享存储等。

处理器1310用于执行程序。处理器1310可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器1330用于存放文件。存储器1330可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1330也可以是存储器阵列。存储器1330还可能被分块,并且块可按一定的规则组合成虚拟卷。

在一种可能的实施方式中,上述程序可为包括计算机操作指令的程序代码。该程序具体可用于:获得用户一个连续搜索过程中输入的搜索表达式历史和选择的目标结果;根据搜索表达式历史确定表达关键词序列;根据表达关键词序列和目标结果生成语义网,语义网中包括表达关键词之间以及表达关键词和目标结果之间的连接关系和权重。

在一实施方式中,获得用户一个连续搜索过程中输入的搜索表达式历史和选择的目标结果,包括:

获取用户输入的表达关键词、调整的表达关键词以及根据搜索结果选择的目标结果。

在一实施方式中,根据表达关键词序列和目标结果生成语义网之前还包括:

确定服务领域,服务主体包括单一用户、群组;

判断服务领域下用户输入的表达关键词序列中表达关键词及根据表达关键词选择目标结果的过程是否是完整的信息服务过程。

在一实施方式中,语义网中包括表达关键词之间以及表达关键词和目标结果之间的连接关系和权重,包括:

若用户输入的表达关键词不满足语义网更新规则,则舍去所述表达关键词;

若用户输入的表达关键词满足语义网更新规则,用户输入的表达关键词与语义网中关键词的相似度小于相似度阈值,在语义网添加用户输入的表达关键词作为语义网中的新关键词,并记录用户选择的目标结果,生成或更新所述新关键词与语义网中其他关键词之间的连接关系权重、及所述新关键词与目标结果的综合因子;

若用户输入的表达关键词满足语义网更新规则,用户输入的表达关键词与语义网中关键词的相似度大于等于相似度阈值,生成或更新语义网中关键词与目标结果的综合因子,综合因子是根据语义网中的关键词到目标结果的最短路径因子以及权重因子确定的,权重因子为根据历史统计的语义网中关键词到达目标结果的次数归一化确定的。

在一实施方式中,判断服务领域下用户输入的表达关键词序列中表达关键词及根据表达关键词选择目标结果的过程是否是完整的信息服务过程,包括:确定用户输入表达关键词搜索目标结果的过程对各目标结果的点击次数;若目标结果的点击次数大于信息服务阈值,则将服务过程确定为完整的服务过程,或将用户输入表达关键词后选择的目标结果的过程确定为完整的服务过程。

本发明实施例的搜索引擎实现装置,根据用户输入的表达式和选择目标结果进行统计建立语义网,基于该语义网为用户提供服务,可以节约用户搜索信息时间,为用户提供更准确高效的信息服务。

图14示出了本发明的另一个实施例的搜索装置的结构框图。搜索装置1400可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对计算节点的具体实现做限定。

搜索装置1400包括处理器(processor)1410、通信接口(Communications Interface)1420、存储器(memory)1430和总线1440。其中,处理器1410、通信接口1420、以及存储器1430通过总线1440完成相互间的通信。

通信接口1420用于与网络设备通信,其中网络设备包括例如虚拟机管理中心、共享存储等。

处理器1410用于执行程序。处理器1410可能是一个中央处理器CPU,或者是专用集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器1430用于存放文件。存储器1430可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1430也可以是存储器阵列。存储器1430还可能被分块,并且块可按一定的规则组合成虚拟卷。

在一种可能的实施方式中,上述程序可为包括计算机操作指令的程序代码。该程序具体可用于:确定用户输入表达式中的表达关键词;确定表达关键词在语义网中匹配的初始节点,其中,语义网基于用户搜索历史中的表达关键词和目标结果生成;在语义网中根据初始节点确定目标结果,目标结果根据初始节点到目标结果的距离和权重确定;提示目标结果。

在一实施方式中,还包括:在语义网中根据初始节点确定提示关键词;提示提示关键词。

在一实施方式中,在语义网中根据初始节点确定提示关键词包括:若初始节点不为语义网的末端节点,选择初始节点演化到目标结果的路径,确定路径上的节点作为提示关键词。

在一实施方式中,若初始节点为语义网的末端节点,将初始节点对应的目标结果提示给用户;若初始节点不是语义网的末端节点,选择目标结果的权重因子大于权重阈值的目标结果;选择初始节点演化到目标结果的路径因子大于路径阈值的路径;确定路径上的其他节点作为提示关键词;提示提示关键词和/或多个目标结果;其中,语义网中的节点为相同或相似的关键词组成的集合,权重因子为根据历史统计的语义网中关键词到达目标结果的次数归一化确定的。

本发明实施例的搜索装置,可以根据用户输入的表达查询语义网,根据用户的输入表达为用户提示关键词和信息服务,可以节约用户搜索信息时间,为用户提供更准确高效的信息服务。

本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1