交互式互联网实体名称的消歧方法

文档序号:6432887阅读:161来源:国知局
专利名称:交互式互联网实体名称的消歧方法
技术领域
本发明涉及搜索技术,更具体地说,涉及一种能够在网络上精确查找实体的交互式互联网实体名称的消歧方法。
背景技术
在诸如社交网络是的网络上,每一个“人”被看做是一个“实体”,用来识别或者查找这个实体(即“人”)的主要手段就是查找这个实体的互联网实体名称(webappearance)。网络,由其实近来风靡的社交网络的一个最主要的功能是缩短了人与人之间的距离,使得每个人与自己的朋友或者亲人能够保持密切的联系。所以,在社交网络上,使用真实姓名的比例很高,如果在社交网络上使用真实姓名,那么这个姓名就是这个人(实体)的互联网实体名称。真实的姓名所带来的一个问题就是重名的概率比较高。·无论是在社交网络还是一般的互联网上,如果要查找一个人或者一个网络实体,那么基于文字的关键字搜索是主要的方式。在查找自己感兴趣的人的时候,以姓名作为关键字进行查找是最常用的方式。上面提到,因为重名的现象比较普遍,所以很难实现“精确搜索”,往往搜索引擎会提供许多重名的人的信息或者页面,用户必须一个一个地进行浏览,才能够确定哪一个才是自己真正想要查询的人。这需要花费用户大量的时间。此外,一般的搜索引擎不提供页面的合并功能,这就使得用户可能会得到很多个重复的结果。再者,搜索引擎有自己的结果排序规则,提供给用户的搜索结果是按照搜索引擎自己的排序规则排列,但这对于用户来说并不是理想的顺序。在找人的时候,用户显然希望能够按照与目标人物(实体)的符合程度来进行排列,这样才能够节省用户的时间。

发明内容
本发明旨在提出一种通过与用户的交互来获取信息,并借助于这些信息对搜索结果进行合并和优化排序的交互式互联网实体名称的消歧方法。根据本发明的一实施例,提出一种交互式互联网实体名称的消歧方法。该方法包括三个主要的步骤预处理步骤、迭代排序步骤和呈现步骤。在预处理步骤中,接收查询信息并基于查询信息检索与实体相关的互联网实体名称,查找包含查询信息的互联网实体名称,将与同一个实体相关的互联网实体名称初始聚合。在迭代排序步骤中,循环执行下述步骤直至满足终止条件根据排序模型按照与实体的类似程度对互联网实体名称进行排序;产生交互问题,交互问题包含选项;向用户呈现交互问题并接收用户选择的选项作为用户反馈;根据用户反馈对排序模型进行优化,并根据优化的排序模型对互联网实体名称重新进行排序。在一个实施例中,终止条件包括排序模型不再产生新的信息或者收到用户的终止指令。在呈现步骤中,选择排序最前的互联网实体名称,基于该互联网实体名称生成总结页面,该总结页面与被查询的实体相关,向用户呈现总结页面。根据本发明的一实施例,提出交互式互联网实体名称的消歧装置。该装置包括预处理装置、迭代排序装置和呈现装置。预处理装置接收查询信息并基于查询信息检索与实体相关的互联网实体名称,查找包含查询信息的互联网实体名称,将与同一个实体相关的互联网实体名称初始聚合。迭代排序装置包括依次连接并依次工作的排序模型、问题产生模块、问题呈现模块和模型优化模块。迭代排序装置循环工作直至满足终止条件,在一个实施例中,迭代排序装置的终止条件包括排序模型不再产生新的信息或者收到用户的终止指令。迭代排序装置所包含的模块中,排序模型按照与实体的类似程度对互联网实体名称进行排序。问题产生模块产生包含选项的交互问题。问题呈现模块向用户呈现交互问题并接收用户选择的选项作为用户反馈。模型优化模块根据用户反馈对排序模型进行优化,并指示经过优化的排序模型对互联网实体名称重新进行排序。呈现装置选择排序最前的互联网实体名称,基于该互联网实体名称生成总结页面,该总结页面与被查询的实体相关,向用户呈现总结页面。根据本发明的一实施例,提出一种交互式互联网实体名称的消歧方法。该方法首先接收与被查询的实体相关的查询信息。然后检索与实体相关的互联网实体名称并查找包含查询信息的互联网实体名称,将与同一个实体相关的互联网实体名称初始聚合。该方法之后循环执行下述步骤,直至满足终止条件根据排序模型按照与实体的类似程度对互联网实体名称进行排序;与用户交互并收集用户的反馈;依据用户的反馈对排序模型进行优·化,并根据优化的排序模型对互联网实体名称重新进行排序;选择排序最前的互联网实体名称,基于该互联网实体名称生成总结页面,该总结页面与被查询的实体相关。在一个实施例中,终止条件包括排序模型不再产生新的信息;或者收到用户的终止指令。在一个实施例中,与用户交互并收集用户的反馈包括产生包含选项的交互问题并向用户呈现交互问题并接收用户选择的选项作为用户反馈。该方法最后向用户呈现总结页面。


本发明的上述的以及其他的特征、性质和优势将通过下面结合附图和实施例的描述而变得更加明显,在附图中,相同的附图标记始终表示相同的特征,其中图I揭示了根据本发明的一实施例的交互式互联网实体名称的消歧方法的流程图。图2揭示了根据本发明的一实施例的交互式互联网实体名称的消歧装置的结构图。图3揭示了根据本发明的一实施例的交互式互联网实体名称的消歧方法的流程图。图4揭示了根据本发明的一具体实现,iKnoweb的交互过程。
具体实施例方式参考图I所示,揭示了根据本发明的一实施例的交互式互联网实体名称的消歧方法。该方法100包括如下的步骤预处理步骤102、迭代排序步骤104和呈现步骤106。在预处理步骤102中接收查询信息并基于查询信息检索与实体相关的互联网实体名称,查找包含查询信息的互联网实体名称,将与同一个实体相关的互联网实体名称初始聚合(initial clustering)。在一个实施例中,初始聚合应用启发式规则。这里,以利用本发明的技术的一个具体实现iKnoweb为例来对本发明的方法进行更加具体的说明。当用户来到iKnoweb时,即开始了预处理步骤(pre-processing part)。通常,用户会输入希望查询的人的姓名,输入查询姓名(query name)就被视为是输入了查询信息。iKnoweb会检索所有的互联网实体名称,并且找到那些该查询姓名至少出现一次的互联网实体名称。iKnoweb从这些互联网实体名称中提取一些预先设定的特征,这些特征包括词组出现频率、网页上的名字实体、查询人的真实信息等等。由于存在多个社交网络,并且有许多的应用都提供实体名称的服务,因此,同一个人在互联网上可能拥有许多个实体名称,这些实体名称都是与同一个人相关。对于使用iKnoweb进行查找的用户来说,用户所关心的是“人”(实体本身)而不是某一个实体名称或者某一个网页,因此,对于这些与同一个人(实体)相关的实体名称,需要将它们进行合并。合并与同一个实体相关的实体名称是有利于加快与用户的交互进程和搜索效率的。在iKnoweb中,利用聚合组件(clustering component)来将比较类似的互联网实体名称进行合并,合并成组(group)。此处将这个合并的过程称之为初始聚合(initial clustering)。在初始聚合过程中,使用的初始聚合算法需要十分精确。因为iKnoweb的目标是提供给用户100%精确的实体名称。将类似(与同一个人关联)的实体名称合并到一个单一的组中·能够节省用户的时间。如果组是不精确的,那么用户还是需要重新展开这些组并且仔细地浏览族中的每一个页面,这将耗费用户大量的时间。在该初始聚合的过程中使用了一些启发式(heuristic)的规则。进行初始聚合的目的是将类似的(与同一个人相关的)页面进行聚合。通常由搜索引擎返回的互联网实体名称可能包含重复的或者近似重复的页面。为了减少用户浏览并标记每一个类似的实体名称,使用一种聚合算法来将实体名称聚合成小型的组,这些组称之为最大识别单元(maximum recognition unit,MRU)。最大识别单元的尺寸不需要很大,但是最大识别单元需要十分精确,其含义是,在每一个最大识别单元中的网页需要是关于同一个人的。用户只需要浏览一个最大识别单元中的一个网页就可以获得信息,并且确定是否这些网页就是所要查询的人的。有时候用户希望要查看所有的网页,这时也可以通过简单的方法来在用户界面中展开最大识别单元。在iKnoweb中,应用启发式(heuristic)的规则来完成该初始聚合步骤。所有的实体名称被视为无方向的图形(undirected graph),而每一个实体名称是一个节点(node)。如果至少一个规则在两个端节点处被满足,则使用一条无方向的边连接两个节点。之后基于连接的组件来聚合互联网实体名称。下面是iKnoweb使用的启发性规则的三个例子I)两个文件具有10个相同的标记(token);2)有5个以上的人(除了被查询的人)是相同的;3)两个文件进行的相同的提取操作。这些启发式的规则是严格的并且在大多数时候是正确的。这些最大识别单元被视为下面所要描述的重新排序算法(re-ranking algorithm)中最小的信息单元。在完成了初始聚合之后,后续的操作会利用到这些聚合得到的组,这会进一步地节省用户的时间。在预处理步骤中,本发明还提供了多种开始进程的方式,除了上面介绍的输入查询名字以外,还可以通过如下的方式来开始iKnoweb的预处理步骤通过登陆社交网络,利用社交网络提供的应用程序编程接口(API)来开始预处理步骤。在社交网络上通常会提供数个应用程序编程接口(API)来访问这些用户的信息。用户也可以通过输入用户名和口令的方式登录,之后利用这些API来获取用户的信息。因此在iKnoweb上也提供了用户通过输入社交网络以及社交网络的介绍(profile)来启动查询的方式。利用社交网络,除了名字以外,还可以利用介绍中的关键字,例如职业、教育背景等等来实现查询。迭代排序步骤104循环执行下述步骤直至满足终止条件,终止条件包括排序模型不再产生新的信息,例如没有新的互联网实体名称产生、互联网实体名称的顺序不再变动;或者收到用户的终止指令。迭代排序步骤104循环执行的步骤包括140.根据排序模型(ranking model)按照与实体的类似程度对互联网实体名称进行排序。142.产生交互问题,交互问题包含选项。144.向用户呈现交互问题并接收用户选择的选项作为用户反馈,还包括对交互问·题进行选择并呈现被选中的交互问题。146.根据用户反馈对排序模型进行优化,并根据优化的排序模型对聚合体重新进行排序。在一个实施例中,排序模型进行优化包括基于归一化期望标准对排序模型进行优化。在迭代排序步骤104中,对由预处理步骤102获得的互联网实体名称进行排序,得到一个排序列表。最终的目的是,这个排序列表中排在最前面的互联网实体名称应当是最有可能与所查询的实体相关的。在具体的实现,例如上面所描述的iKnoweb的实现中,迭代排序步骤在开始阶段,在对于所查询的实体,即查询的人没有预先的了解的情况下,第一次迭代中的初始排序表是依据网络搜索引擎(Web Search Engine)的排序结果。本发明的方案中,为了使得搜索结果能够更加符合用户的需求,希望对特征进行排序,这些特征反映了搜索到的实体与所查询的实体的类似程度。本发明试图对特征进行排序并且从这些特征中产生交互问题。在获取经过排序的互联网实体名称与特征后,iKnoweb自动在这些数据中进行选择。只有可以确定与所查询的实体相关的实体名称以及与所查询的实体相关的问题被选择,选择的内容被呈现给用户。为了节省用户的而时间,可以限制呈现给用户的项目的数量。在用户接收到这些内容之后,用户给所呈现的实体名称标记以三种标记“是”、“否”或者“不确定”。iKnoweb不会自动为用户选择一个实体名称作为最终确定的实体名称搜索结果,即使iKnoweb可以确定该互联网实体名称有很高的可能性就是用户需要的那个实体的实体名称,iKnoweb也不会这么做。如此设计的目的有二 I)净化(pure)结果的准确性;2) iKnoweb是一项搜索服务,用户通过阅读由搜索服务查询到的信息来进行选择,iKnoweb不进行任何的最终确定工作可以确保用户不会遗漏阅读任何有价值的实体名称。在用户标记了所有了项目之后,这些被标记的实例和问题将被用作新的训练数据(training data)。用户回答的问题可以而被认为是对特征的标记,于是就可以得到两种训练数据经标记的实例(instance)和经标记的特征(feature)。这些训练数据被用于训练多项逻辑回归模型(multinomial logistic regression model),该多项逻辑回归模型依据归一化期望标准(generalized expectation criteria)对所有的互联网实体名称进行排序。归一化期望标准具有模型化经标记的实例和经标记的特征的能力。当iKnoweb得到一个新的重新经过训练的模型时,重新开始这个过程,对所有未经确认的实体名称进行重新排序,并基于用户的反馈产生新的问题。iKnoweb反复执行如下的四个步骤对互联网实体名称进行排序并产生问题、选择实体名称以及问题、用户反馈、重新训练模型。上述的步骤将被反复进行直至出现下列之一的条件I) 没有关于所查询的实体的新的实体名称出现,或者这些实体名称的排列顺序不再改变;2)用户终止了交互进程。下面,对上述四个步骤中的关键过程进行详细的说明重新排序算法(Re-rankingalgorithm)在用户提供了他们的反馈之后,重新排序算法首先基于这些用户反馈重新训练模型,然后尝试对余下的实体名称进行重新排序。在iKnoweb中,接收两种类型的用户反馈选择/删除实体名称以及回答问题。被选择的或者被删除的实体名称被视为经标记的实例,而回答的问题被视为经标记的特征。例如,如果用户回答一个问题“你认识A么? ”,如果用户回答“是”,那么,将所有包含有关键字“A”的实体名称与所查询的实体之间的关联可能性设置为一个十分接近“I”的值,例如“0. 99”,可以理解为这是一个条件概率。于是,每一个回答的问题都可以被视为是一个条件概率分布。将每一个实体名称dsi作为一个特征向量xsi。每一个实体名称可被标记为“是”或者“否”,分别以标记ysi = I或者ysi = 0来表示。训练问题可以被描述如下在一个集合Ds所包含的所有实体名称中,一个子集L被标记,其中ZcA。V之eZ,可以得到一个标记ysi。同时得到一个关于所有的特征的集合F,其中V/, e F,得到一个估计的分布例^ I / > 0)。从DS、L和F中,希望训练一个模型M,模型M被用于对未经确认的部分Ds-L进行排序,排序的顺序是依据与查询实体Ps的类似程度。归一化期望标准被用于考虑这些输入。归一化期望标准(generalizedexpectation criteria)传统的可能性模型的参数是按照最大(后验)似然估计(maximum aposteriorilikelihood estimation)、动差拟合(moment matching)或者是最大熵原贝丨J (maximumentropy principle) 而归一化期望标准从另一个角度提供了一种估计参数的方法。归一化期望标准是一个参数估计对象函数项,该函数表示了模型对于变量值的一些倾向性。该项(term)可以是多种类型,例如,可以将该项(term)定义为模型的期望值与目标值之间的距离。目标值可以是来自于外部的知识源,例如训练数据、已知知识或者来自专家的帮助。归一化期望标准的一个主要的好处是提供了一种人类直接展示他们头脑中的知识并且方便地使用期望与模型进行交互的方法。设F为一些特征的集合,并指定f E F。设0为定义F的概率分布的模型的参数Pe(F)0可以定义归一化期望标准项为函数G。G(Ee [f(X)]) — R其中f (X)是特征X的任意函数,产生一些标量(scalar)或者向量值。Ee [f (X)]是根据模型对f的期望。一般,距离函数G可以是两个分布之间的KL偏离(KL divergency),或者是两个期望之间的标准距离(norm distance)。在本实施例中,使用KL偏离(KLdivergency)来度量用户输入的参考分布与模型估计的特征分布之间的距离。该项可被用作目标函数的一部分。通过最小化目标函数就能够得到优化的参数
权利要求
1.一种交互式互联网实体名称(web appearance)的消歧方法,其特征在于,包括 预处理步骤,接收查询信息并基于查询信息检索与实体相关的互联网实体名称,查找包含所述查询信息的互联网实体名称,将与同一个实体相关的互联网实体名称初始聚合(initial clustering); 迭代排序步骤,循环执行下述步骤直至满足终止条件 根据排序模型(ranking model),按照与实体的类似程度对互联网实体名称进行排序; 产生交互问题,所述交互问题包含选项; 向用户呈现交互问题并接收用户选择的选项作为用户反馈; 根据用户反馈对排序模型进行优化,并根据优化的排序模型对互联网实体名称重新进行排序; 呈现步骤,选择排序最前的互联网实体名称,基于该互联网实体名称生成总结页面(summarization page),该总结页面与被查询的实体相关,向用户呈现所述总结页面。
2.如权利要求I所述的交互式互联网实体名称的消歧方法,其特征在于,所述终止条件包括 排序模型不再产生新的信息;或者 收到用户的终止指令。
3.如权利要求I所述的交互式互联网实体名称的消歧方法,其特征在于,向用户呈现交互问题包括对交互问题进行选择并呈现被选中的交互问题。
4.如权利要求I所述的交互式互联网实体名称的消歧方法,其特征在于,将与同一个实体相关的互联网实体名称初始聚合包括应用启发式规则。
5.如权利要求I所述的交互式互联网实体名称的消歧方法,其特征在于,对排序模型进行优化包括基于归一化期望标准对排序模型进行优化。
6.如权利要求I所述的交互式互联网实体名称的消歧方法,其特征在于,所述呈现步骤还包括 利用所述排序模型对新获取的互联网实体名称进行分类并通知用户。
7.一种交互式互联网实体名称的消歧装置,其特征在于,包括 预处理装置,接收查询信息并基于查询信息检索与实体相关的互联网实体名称,查找包含所述查询信息的互联网实体名称,将与同一个实体相关的互联网实体名称初始聚合;迭代排序装置,迭代排序装置包括依次连接并依次工作的下述模块,迭代排序装置循环工作直至满足终止条件 排序模型(ranking model),按照与实体的类似程度对互联网实体名称进行排序; 问题产生模块,产生交互问题,所述交互问题包含选项; 问题呈现模块,向用户呈现交互问题并接收用户选择的选项作为用户反馈; 模型优化模块,根据用户反馈对排序模型进行优化,并指示经过优化的排序模型对互联网实体名称重新进行排序; 呈现装置,选择排序最前的互联网实体名称,基于该互联网实体名称生成总结页面,该总结页面与被查询的实体相关,向用户呈现所述总结页面。
8.如权利要求7所述的交互式互联网实体名称的消歧装置,其特征在于,迭代排序装置的终止条件包括 排序模型不再产生新的信息;或者 收到用户的终止指令。
9.如权利要求7所述的交互式互联网实体名称的消歧装置,其特征在于,问题呈现模块进一步包括问题选择模块,问题选择模块对交互问题进行选择,问题呈现模块呈现被问题选择模块选中的交互问题。
10.如权利要求7所述的交互式互联网实体名称的消歧装置,其特征在于,预处理装置应用启发式规则将与同一个实体相关的互联网实体名称初始聚合。
11.如权利要求7所述的交互式互联网实体名称的消歧装置,其特征在于,模型优化模块对排序模型进行优化包括基于归一化期望标准对排序模型进行优化。
12.如权利要求7所述的交互式互联网实体名称的消歧装置,其特征在于,所述呈现装置还包括 分类及通知模块,利用所述排序模型对新获取的互联网实体名称进行分类并通知用户。
13.一种交互式互联网实体名称的消歧方法,其特征在于,包括 接收查询信息,该查询信息与被查询的实体相关; 检索互联网实体名称,所述互联网实体名称与实体相关,查找包含所述查询信息的互联网实体名称,将与同一个实体相关的互联网实体名称初始聚合; 循环执行下述步骤,直至满足终止条件 根据排序模型对互联网实体名称进行排序,排序的顺序是按照与实体的类似程度; 与用户交互并收集用户的反馈; 依据用户的反馈对排序模型进行优化,并根据优化的排序模型对互联网实体名称重新进行排序; 选择排序最前的互联网实体名称,基于该互联网实体名称生成总结页面,该总结页面与被查询的实体相关; 向用户呈现所述总结页面。
14.如权利要求13所述的交互式互联网实体名称的消歧方法,其特征在于,所述终止条件包括 排序模型不再产生新的信息;或者 收到用户的终止指令。
15.如权利要求13所述的交互式互联网实体名称的消歧方法,其特征在于,与用户交互并收集用户的反馈包括 产生包含选项的交互问题; 向用户呈现交互问题并接收用户选择的选项作为用户反馈。
16.如权利要求15所述的交互式互联网实体名称的消歧方法,其特征在于,与用户交互并收集用户的反馈包括 向用户呈现交互问题包括对交互问题进行选择并呈现被选中的交互问题。
17.如权利要求13所述的交互式互联网实体名称的消歧方法,其特征在于,将包含查询信息的互联网实体名称初始聚合包括应用启发式规则。
18.如权利要求13所述的交互式互联网实体名称的消歧方法,其特征在于,对排序模型进行优化包括基于归一化期望标准对排序模型进行优化。
19.如权利要求13所述的交互式互联网实体名称的消歧方法,其特征在于,还包括 利用所述排序模型对新获取的互联网实体名称进行分类并通知用户。
全文摘要
本发明揭示了一种交互式互联网实体名称的消歧方法。该方法包括三个主要的步骤预处理步骤、迭代排序步骤和呈现步骤。在预处理步骤中,接收查询信息并基于查询信息检索与实体相关的互联网实体名称,将与同一个实体相关的互联网实体名称初始聚合。在迭代排序步骤中,循环执行下述步骤直至满足终止条件根据排序模型按照与实体的类似程度对互联网实体名称进行排序;产生包含选项的交互问题;向用户呈现交互问题并接收用户选择的选项作为用户反馈;根据用户反馈对排序模型进行优化,并重新对互联网实体名称进行排序。在呈现步骤中,选择排序最前的互联网实体名称并生成与被查询的实体相关的总结页面,向用户呈现总结页面。
文档编号G06F17/30GK102968419SQ20111026673
公开日2013年3月13日 申请日期2011年8月31日 优先权日2011年8月31日
发明者刘晓江, 聂再清, 曹涌, 吕正东, 罗刚, 文继荣, 马维英 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1