一种搜索引擎系统的搜索方法

文档序号:82364阅读:408来源:国知局
专利名称:一种搜索引擎系统的搜索方法
技术领域
本发明涉及一种搜索引擎技术,特别涉及一种解决用户提交基于自然语言搜索请求的搜索方法。
背景技术
互联网的出现给人们带来了前所未有的信息量,它提供了即时丰富的信息,成为人与人各种沟通的平台,已经极为深层地影响着现代人的生活。但随着网站数量和内容的急增,互联网就像是没有目录的巨大百科全书,让人们无法找寻自己想要的信息。而搜索是互联网最显著的特点之一,是仅次于邮件的第二大互联网应用。搜索引擎的出现,为互联网这本百科全书加上了目录和索引。不论我们想了解任何知识,我们都可以尝试通过搜索引擎从互联网中寻找答案。
“第一代搜索引擎”依靠人工分拣的分类目录搜索,以雅虎为标志;“第二代搜索引擎”依靠机器抓取,建立在超链分析基础上的网页搜索,以Google和百度为代表,其信息量大、更新及时、但返回信息过多,可能有很多无关信息。根据搜索引擎营销公司iProspect的研究显示,超过81%的使用者会在看完前三页之前就停止阅读搜索结果。可见人们对搜索的“海量”需求已逐步向“精准”转移。此外,多数用户很难通过一两个词精确描述所查内容,即使对同一个词,用户也会有不同的需求,比如“绿茶”,人们要的可能是茶文化、电影、化妆品或其他。同时,当人们提交自然语言的搜索请求时,大多数搜索引擎返回的结果是没有找到相匹配的记录。
由于以上原因,各大公司和研究机构纷纷推出“第三代搜索引擎技术”甚至是“第四代搜索引擎技术”。这些概念很多都是关键词搜索加上了一些分类搜索定义,引擎根据用户的查询内容,智能展开多组相关的主题,帮助用户找到相关搜索结果,比如中国搜索和搜狗等。而有些采用中文自动分类、自动聚类等技术,区域智能识别技术,或者是根据用户的历史搜索记录来分析用户的领域,从而加强搜索引擎的查询能力,比如Google等。
而未来真正意义上的智能搜索引擎,是能识别任何形式的自然语言检索请求,以最快的速度返回最精确的答案集合。未来的门户,是基于智能搜索引擎以及在线应用程序的个性化的个人门户。
技术上,目前的搜索引擎对用户提交的关键词,由网络服务器将查询发送到索引服务器。索引服务器所包含的内容与书本末尾的索引目录相似,即说明哪些网页包含与查询匹配的文字。查询传输到文档服务器,由后者实际检索所存储的文档。然后,生成描述每个搜索结果的摘录。通常这些查询以及结果摘录存放于高速缓存中,搜索引擎瞬间即可返回用户需要的搜索结果。
Google使用PageRankTM技术检查整个网络链接结构,并确定哪些网页重要性最高。然后进行超文本匹配分析,以确定哪些网页与正在执行的特定搜索相关。在综合考虑整体重要性以及与特定查询的相关性之后,Google可以将最相关最可靠的搜索结果放在首位。
百度以及新浪的爱问搜索都相继推出了“百度知道”以及“新浪知识人”,采用了问答聚合的方式,简单的说就是各种专业论坛的集合。他们的目的就是解决用户在普通搜索引擎上提交自然语言的搜索请求而得不到答案的问题。
但是,上述的现有的搜索引擎仍然存在以下问题
一 用户局限在互联网上提交自己的搜索引擎。这给其他同样需要获得问题答案的非互联网用户,或者是非在线的互联网用户带来不便。目前出现的一些非互联网搜索技术只能解决局限领域的部分问题,而且,需要用户提供固定的搜索请求格式。
二 普通搜索引擎无法正确理解用户最习惯的自然语言的搜索请求。返回的结果绝大多数是无记录或者根本不是用户想要的搜索结果。
三 对用户提交的搜索请求,分词处理后,返回大量的信息。这些信息已经被搜索引擎优化过,但是仍然有大量的搜索结果是重复的,搜索结果在本次搜索处理上没有任何关联。用户也不能得到一个最佳的答案和排序方式。
四 对于自然语言问题的解答,现有技术通常在各种论坛上提交问题,等待用户解答。或者象上述新浪知识人,百度知道一样,采用问答聚合的方式。这类方式偏重于知识的收集,不能满足用户即时获得答案的需要。由于用户回答问题是自由的,这种方式对问题的答案有很大的随意性。最重要的是,问题的提出到问题的回答的时间是不固定的。也就是说,仍然存在大量问题没有人及时回答或者是从来就没有人回答。

发明内容本发明的目的之一就是让用户从不同方式提交,采用自然语言形式,任何领域的搜索请求成为可能。
本发明的另一目的是提高搜索结果的准确性以及搜索结果的排序合理性。
本发明的再一目的是提高对自然语言搜索请求的处理速度,在预定的时间内回答用户的问题。
为了实现以上目的,本发明的搜索引擎系统的搜索方法包括以下步骤(一) 接收用户从不同方式提交,采用自然语言形式,任何领域的搜索请求;(二) 对用户搜索请求进行预搜索处理,形成预搜索结果记录集合;(三) 对预搜索结果的各条记录进行投票处理,计算每条记录的各自投票得分,形成确认搜索结果记录集合;(四) 按照规则将确认后搜索结果排序返回给用户;(五) 储存并发布本次搜索请求的用户请求与确认后搜索结果,形成搜索历史数据库。
其中,上述步骤(一)中接收的请求可以是来自用户发送短信形式的搜索请求。
其中,上述步骤(一)中的接收的请求可以是来自用户通过语音方式提交的搜索请求。
其中,上述步骤(一)中的接收的请求可以是用户通过互联网网页提交的搜索请求。
其中,上述步骤(二)中的预搜索处理包括以下步骤设定一个问题相关度阀值,计算用户提交的搜索请求问题与历史搜索数据库中的问题的相关度,将相关度大于设定阀值的搜索结果从历史搜索数据库取出,形成预搜索结果记录集合。
其中,上述步骤(二)中的预搜索处理包括对用户搜索请求进行分类处理的步骤。这个分类可以是由专门的分类人员进行分类,也可以是由程序进行自动的分类处理。专门的分类人员可以是预先注册的在线分类用户。分类过程采用投票制度,在规定的时间内,达到预先定义的票数,则分类确定。同时,更新正确分类人员的分类积分。
其中,上述步骤(二)中的的预搜索处理可以是向互联网搜索引擎提交搜索并返回预搜索结果。可以向多个不同的搜索引擎提交搜索请求,将搜索结果形成一个新的搜索结果集合。
其中,上述步骤(二)中的预搜索处理也可以是向预先注册的专家团提交查询,由专家团解答,并返回专家团各自的推荐结果。这些专家团可以是通过即时沟通软件在线的注册用户,也可以是真正的各个行业类别的专家。这些专家团人员不受地理位置和时间的限制,只要他们能和服务器保持即时的联系。专家团成员在预定的时间内返回各自搜索结果。
其中,上述步骤(三)的投票处理可以是预搜索结果记录条目之间的自动投票处理。预搜索结果记录的每个条目包括答案概要,答案页面超级链接,该页面的标题。投票程序对答案概要,答案页面超级链接,该页面的标题进行分析,比如对每个答案概要,对答案页面标题进行分词处理,然后对这些分词结果进行投票。由投票结果,结合给出答案的时间,产生该答案的综合投票得分。并且,根据综合得分,计算出专家团成员的本次搜索积分。
其中,上述步骤(三)的投票处理可以是预先注册的投票人员人工进行投票处理。这些投票人员预先在系统注册,并有自己的领域分类。在限定的时间内,结合来自用户的搜索请求问题,预搜索结果进行投票,由投票结果,结合给出答案的时间,产生该答案的综合投票得分。并且,根据综合得分,计算出专家团成员的本次搜索积分以及本次投票人员的投票积分。
其中,上述步骤(四)的排列规则可以是按照投票结果得分由高至低排列。
其中,上述步骤(四)的排列规则也可以是对投票结果进行分类,按照类别进行排列。答案中有很多相同或者基本相同的答案,用户不希望看到一样的答案全部出现在一个页面上,所以可以按照一定的规则将结果进行分类。比如将结果分按照排序得分分为10个类,用户点击每个得分类后展开当前得分类下所有答案。
其中,上述步骤(四)的排列规则是仅仅返回给用户得分最高的最佳答案。如果用户的搜索请求来自短信或者是电话,我们只需要返回给用户得分最高的最佳答案。
其中,上述步骤(五)还包括以下步骤用户可以对发布在互联网页面上的搜索答案进行重新分类或者投票,或者其他方式,如短信,电话确认给搜索答案投票,也可以改变搜索答案的分类信息。搜索引擎系统记录用户的动作,更新历史搜索数据库的分类以及投票信息。
通过以上技术方案,首先,我们让用户从不同方式提交,采用自然语言形式,任何领域的搜索请求成为可能。用户不必局限于搜索某个固定的领域,也不需要提交固定的搜索请求格式。
其次,用户得到的搜索结果是准确的,不再是海量的搜索结果,搜索结果已经被处理过,重复的搜索结果将不再显示给用户。用户能得到一个最佳的排序方式,甚至得到一个最简短的最佳答案。
最后,搜索引擎不局限于知识的搜集和问题的聚合,系统提高了对自然语言搜索请求的处理速度,对于每一个搜索请求,我们都在限定的时间内回答。随着历史搜索数据库的增加,这个速度将越来越快。
图1为本发明的总体流程图。
具体实施方式实施例一用户通过短信提交搜索请求,搜索历史库,人工进行问题分类,由专家团回答,程序自动对搜索答案投票,返回用户最佳答案。具体步骤如下接收用户来自短信的搜索请求问题A;将A提交到历史搜索数据库。设定一个问题相关度阀值,比如90%,计算用户提交的搜索请求问题A与历史搜索数据库中的问题记录的相关度,若存在与A的相关度大于设定阀值90%的记录,则从历史搜索数据库取出搜索答案,直接形成预搜索结果记录集合B,直接转入到答案处理中心。
若不存在与A的相关度大于设定阀值90%的记录,则进行人工的问题分类。
问题分类表预先定义。问题分类由专门的分类人员进行分类。这些专门的分类人员是预先注册的在线问题分类用户。我们设定很多的问题分类投票室,将进入每个问题分类投票室的人员限定在20人,分类过程采用投票制度,在规定的时间,比如1分钟内,如果某个分类类别达预先设定的2票,则关闭投票,该问题分类确定,将问题A以及分类类别C交给下一步处理。同时,将上述投票正确的注册的分类人员的分类积分进行更新。
根据问题分类类别C,将问题A发送到预先注册的C类别的专家团成员,由这些专家团成员解答。这些专家团已经在搜索引擎系统的专家团数据库注册,他们可以回答C类别的问题。这些成员可以是通过即时沟通软件在线的注册用户,也可以是真正的各个行业类别的专家。这些人员不受地理位置和时间的限制,他们能和服务器保持即时的联系。
对于短信搜索请求,用户希望返回的结果越简短越好。我们限定专家团成员回答问题的答案的格式为70汉字以内的答案概要,答案详情页面的超级链接,该页面的标题。其中后两项为非必选项。第一项如果答案确实超过70字,可以适当放宽限制。
问题分类表中我们预先定义每个类别的搜索返回时间。对短信问题A,根据它的分类,我们预定C类问题的搜索返回时间是2分钟。在2分钟内,将专家团成员的答案D1,D2,D3,直到Dn的答案集合D收集到答案处理中心。
答案处理中心的任务就是确定最佳答案,它由程序自动投票计算确定。若从历史搜索数据库中直接形成预搜索结果记录集合B,则将B等同于D。首先对答案集合D的每一条答案记录Dn的70字内的答案概要进行分词处理,形成n条记录的分词表,然后n个分词表相互之间进行投票,由投票结果,结合给出答案的时间,产生该答案记录的综合投票得分。并且,根据综合得分,计算出专家团成员的本次搜索积分,将专家团成员的搜索积分进行更新。
答案返回程序提取得分最高的最佳答案E,将E通过短信返回给用户。
将本次搜索的搜索请求问题A,问题分类类别C,最佳答案E,答案为E的专家信息,回答问题时间,投票分数存入历史搜索数据库。并且,将这些信息发布在互联网站上,提供给浏览用户进一步确定分类和投票的功能。搜索引擎系统记录用户的动作,并更新历史搜索数据库信息。
若短信用户对搜索答案E进行确认,将历史搜索数据库中答案的投票得分以及分类信息更新。
实施例二接收用户打电话的搜索请求,搜索历史库,人工进行问题分类,由专家团回答,形成预搜索结果,人工投票,返回精确结果。
接收用户来自电话的搜索请求问题AY;将用户的语音搜索请求转换为文字A2,将A2提交到历史搜索数据库。设定一个问题相关度阀值,比如90%,计算用户提交的搜索请求问题A2与历史搜索数据库中的问题记录的相关度,若存在与A2的相关度大于设定阀值90%的记录,则从历史搜索数据库取出搜索答案,形成预搜索结果记录集合B2。
若不存在与A2的相关度大于设定阀值90%的记录,则进行人工的分类。
问题分类表预先定义。问题分类由专门的分类人员进行分类。这些专门的分类人员是预先注册的在线分类用户。我们设定很多的问题分类投票室,将进入每个问题分类投票室的人员限定在20人,问题分类过程采用投票制度,在规定的时间,比如20秒内,如果某个分类类别达预先设定的2票,则关闭投票,该问题分类确定,将问题A2以及分类类别C2交给下一步处理。同时,将上述投票正确的注册的分类人员的分类积分进行更新。
根据问题分类类别C2,将问题A2发送到预先注册的C2类别的专家团成员,由这些专家团成员解答。这些专家团已经在搜索引擎系统的专家团数据库注册,他们可以回答C2类别的问题。这些成员可以是通过即时沟通软件在线的注册用户,也可以是真正的各个行业类别的专家。这些人员不受地理位置和时间的限制,他们能和服务器保持即时的联系。
对于电话搜索请求,用户希望返回的时间越快越好,结果越简短越好。我们限定专家团成员回答问题的答案的格式为100汉字以内的答案概要,答案详情页面的超级链接,该页面的标题。其中后两项为非必选项。第一项如果答案确实超过100字,可以适当放宽限制。
问题分类表中我们预先定义每个类别的搜索返回时间。对来自电话的问题A2,根据它的分类,我们预定C2类问题的搜索返回时间是1分钟。在1分钟内,将专家团成员的答案DD1,DD2,DD3,直到DDn的答案集合DD收集到答案处理中心。
答案处理中心的任务就是确定最佳答案,它由人工投票确定。若从历史搜索数据库中直接形成预搜索结果记录集合B2,则将B等同于DD。这些专门的答案投票人员是预先注册的在线答案投票用户。我们设定各个类别的答案确定投票室。与问题分类投票室不一样,我们设定进入每个答案确定投票室的人数的下限为10人,若某个投票室的人数不足10人,则将由专人进入该投票室进行问题的投票审核。在规定的时间内,比如1分钟内,关闭投票,计算出答案集合DD的每条记录的投票得分。由投票得分结果,结合给出答案的时间,产生该答案记录的综合投票得分。并且,根据综合得分,计算出专家团成员的本次搜索积分,将专家团成员的搜索积分进行更新。同时,将注册的答案确定投票人员的积分进行更新。
答案返回程序提取得分最高的最佳答案E2,将E2通过语音返回给搜索用户。
将本次搜索的搜索请求问题A2,问题分类类别C2,最佳答案E2,答案为E2的专家信息,回答问题时间,投票分数存入历史搜索数据库。并且,将这些信息发布在互联网站上,提供给浏览用户进一步确定分类和投票的功能。搜索引擎系统记录用户的动作,并更新历史搜索数据库信息。
若打电话提交搜索的用户对搜索答案E2进行确认,将历史搜索数据库中答案的投票得分以及分类信息更新。
实施例三具体步骤如下用户在互联网站的搜索页面输入搜索请求问题A3;将A3提交到历史搜索数据库。设定问题相关度阀值,比如80%,计算用户提交的搜索请求问题A3与历史搜索数据库中的问题记录的相关度,若存在与A3的相关度大于设定阀值80%的记录,则从历史搜索数据库取出搜索答案,形成预搜索结果记录集合B3。
若不存在与A3的相关度大于设定阀值80%的记录,则进行自动的问题分类。根据用户提交的关键词,搜索问题分类数据库,首先将问题分为搜索网页,图片,MP3,新闻,交通,地图,软件,职位,购物,生活,天气,综合等搜索大类,如果不确定,分为综合大类。
根据问题分类类别C3,将问题A3发送到预先定义的C3类别的互联网搜索引擎,由这些专业搜索引擎形成预搜索结果集合DE。我们也可以从不同的搜索引擎处分别取出一定数量的搜索结果形成搜索集合DE。
Google以及其他的搜索引擎计算的每个网页单独与关键词之间的相关性,并不计算预搜索结果集合DE中各个记录之间的相关性。这样,在形成预搜索结果集合DE后,存在大量重复的文章内容,只是这些文章的超级链接不一样,页面包含的其他次要信息不一样。而现有的搜索引擎出于速度至上的原因,对此对此并没有处理。
我们将预搜索结果DE不直接返回给请求用户。我们将预搜索结果集合DE发送到答案确认处理中心。答案确认程序的任务就是重新对这些搜索结果记录进行投票处理,计算这些记录的投票分数。
它由程序自动投票计算确定。通常情况下,搜索引擎第100条以后的信息失去了它的参考意义。我们设定预搜索答案集合DE的记录数为100条。这些记录由页面标题,包含关键词的页面摘要,页面超级链接组成。我们对答案集合DE的全部100条答案记录的页面摘要,页面标题进行再次分词处理,形成100条记录的分词表,然后对100个分词表相互之间进行程序投票,由投票结果,产生100条答案记录相互的投票得分。结合本来的排序位置的固有得分,计算出100条答案记录的综合得分。
由于答案中存在很多同样的页面内容,我们由必要计算出每个页面的排序得分,页面的排序得分公式为页面排序得分=当前页面投票得分%最高页面投票得分那么,投票得分最高的页面的排序得分是100分,其他的页面的排序分数参考最高页面依次计算出来。根据排序得分,我们将排序结果分为10类,最高排序得分到第10排序得分为第1类,第11排序得分到第20排序得分为第2类,依次类推,最后的10条记录排在第10类。我们将每类的的一条记录,也就是第1,第11,21,31,41,51,61,71,81,91条记录返回给用户。用户点击“该分类所有答案”后再展开该分类下的其他答案。
上述页面排序得分形成最后的答案集合E3。
将本次搜索的搜索请求问题A3,问题分类类别C3,答案集合E3,E3的排序分数存入历史搜索数据库。并且,将这些信息发布在互联网站上,提供给浏览用户进一步确定分类和投票确定排序分数的功能。搜索引擎系统记录用户的动作,并更新历史搜索数据库信息。
本发明并不仅限于上述的实施例。比如,对历史搜索数据库的处理,采用人工问题分类或者是自动分类,人工投票或者自动投票,都可以根据需要进行组合。本领域技术人员可以根据以上说明了的内容,在不脱离本发明的技术思想的范围内进行变更和修正,本发明的技术范围不限于说明书记载的内容。
权利要求
1一种搜索引擎系统的搜索方法,其特征在于,该方法包括以下步骤(一)接收用户的搜索请求;(二)对用户搜索请求进行预搜索处理,形成预搜索结果记录集合;(三)对预搜索结果的各条记录进行投票处理,计算每条记录的各自投票得分,形成确认后搜索结果记录集合;(四)按照规则将确认后搜索结果排序返回给用户;(五)储存并发布本次搜索请求的用户请求与确认后搜索结果,形成搜索历史数据库。
2根据权利要求
1所述的方法,其特征在于,所述步骤(一)中接收的请求是用户发送短信形式的搜索请求。
3根据权利要求
1所述的方法,其特征在于,所述步骤(一)中接收的请求是用户通过语音方式提交的搜索请求。
4根据权利要求
1所述的方法,其特征在于,所述步骤(二)中的预搜索处理包括以下步骤设定一个问题相关度阀值,计算用户提交的搜索请求问题与历史搜索数据库中的问题的相关度,将相关度大于设定阀值的搜索结果从历史搜索数据库取出,形成预搜索结果记录集合。
5根据权利要求
1所述的方法,其特征在于,所述步骤(二)中的预搜索处理包括对用户搜索请求进行分类处理的步骤分类过程由预先注册的用户投票确定;投票确定后更新正确投票人员的投票积分。
6根据权利要求
1所述的方法,其特征在于,所述步骤(二)中的预搜索处理可以是向预先注册的专家团提交查询,由专家团解答,并返回专家团各自的推荐结果。
7根据权利要求
1所述的方法,其特征在于,所述步骤(三)的投票处理可以是预搜索结果记录条目之间的自动投票处理。
8根据权利要求
1所述的方法,其特征在于,所述步骤(三)的投票处理可以是预先注册的投票人员人工进行投票处理。
9根据权利要求
1所述的方法,其特征在于,所述步骤(四)的排列规则是对投票结果进行分类,按照类别进行排列。
10根据权利要求
1所述的方法,其特征在于,所述步骤(五)还包括以下步骤用户对发布的答案进行分类确认和投票后,将历史搜索数据库中答案的得分以及分类信息更新。
专利摘要
本发明涉及一种搜索引擎技术,特别涉及一种解决用户提交基于自然语言搜索请求的搜索方法。搜索系统接收用户从不同方式提交,采用自然语言形式,任何领域的搜索请求;搜索引擎对用户搜索请求进行查询历史搜索数据库,问题分类,向互联网搜索引擎或者注册的专家团进行查询等预搜索处理,并形成预搜索结果记录集合;然后,对预搜索结果的各条记录进行程序自动投票或者是注册的投票人员的投票处理,计算每条记录的各自投票得分数,形成确认后的搜索结果记录集合;按规则将确认后的搜索结果排序返回给用户;储存并发布本次搜索请求的用户请求问题以及确认后的搜索结果信息,形成搜索历史数据库。用户可对发布的搜索结果进行分类确认和重新投票。
文档编号G06F17/30GK1991829SQ200510135196
公开日2007年7月4日 申请日期2005年12月29日
发明者陈亚斌 申请人:陈亚斌导出引文BiBTeX, EndNote, RefMan
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1