一种用于人物搜索的方法、装置和计算机设备的制作方法

文档序号:6525193阅读:191来源:国知局
一种用于人物搜索的方法、装置和计算机设备的制作方法
【专利摘要】本发明提供一种用于人物搜索的方法,其中,该方法包括以下步骤:获取来自用户的搜索序列;由所述搜索序列中获取至少一个搜索分词;基于所述至少一个搜索分词获得至少一个候选人物,其中,所述至少一个搜索分词的全部或部分中的每个搜索分词均能与一个候选人物的人物标签中的一个或多个匹配;根据各个候选人物的、与所述搜索分词匹配的人物标签的权重信息,对所述至少一个候选人物中的全部或部分候选人物进行排序;将排序后的候选人物提供给所述用户。
【专利说明】一种用于人物搜索的方法、装置和计算机设备
【技术领域】
[0001]本发明涉及计算机网络领域,尤其涉及一种用于人物搜索的方法、装置和计算机设备。
【背景技术】
[0002]现有技术中,当用户需要搜素人物时,其多通过通用搜索引擎,输入用于搜索人物的关键词,并在搜索结果中查找其希望获得的信息。然而,由于现有技术的通用搜索引擎缺乏针对人物搜索的处理,故现有技术的搜索引擎无法提供较好的人物搜索结果,如其往往会提供大量的、用户可能不需要的或不准确的信息。例如,搜索引擎往往会提供大量的、并非针对人物的搜索结果,使得用户需要在海量结果中查询其需要的人物信息;又例如,搜索引擎可能提供错误的人物信息,因为互联网中往往由于诸如恶作剧、恶意标注、自我标榜等因素而使得人物介绍与人物不符,如一个普通人可以标榜其为全国著名的心脏病专家并被搜索引擎提供给用户;再例如,一些专业人物可能仅在小众网站或社区中活动,使得其难以被搜索弓I擎挖掘出并提供给用户等。

【发明内容】

[0003]本发明的目的是提供一种用于搜索人物的方法、装置和计算机设备。
[0004]根据本发明的一个方面,提供一种用于搜索人物的方法,其中,该方法包括以下步骤:
[0005]a获取来自用户的搜索序列;
[0006]b由所述搜索序列中获取至少一个搜索分词;
[0007]c基于所述至少一个搜索分词获得至少一个候选人物,其中,所述至少一个搜索分词的全部或部分中的每个搜索分词均能与一个候选人物的人物标签中的一个或多个匹配;
[0008]d根据各个候选人物的、与所述搜索分词匹配的人物标签的权重信息,对所述至少一个候选人物中的全部或部分候选人物进行排序;
[0009]e将排序后的候选人物提供给所述用户。
[0010]根据本发明的另一个方面,还提供了一种用于搜索人物的搜索装置,其中,该搜索装置包括:
[0011]第一获取装置,用于获取来自用户的搜索序列;
[0012]第二获取装置,用于由所述搜索序列中获取至少一个搜索分词;
[0013]第一确定装置,用于基于所述至少一个搜索分词获得至少一个候选人物,其中,所述至少一个搜索分词的全部或部分中的每个搜索分词均能与一个候选人物的人物标签中的一个或多个匹配;
[0014]排序装置,用于根据各个候选人物的、与所述搜索分词匹配的人物标签的权重信息,对所述至少一个候选人物中的全部或部分候选人物进行排序;[0015]提供装置,用于将排序后的候选人物提供给所述用户。
[0016]与现有技术相比,本发明具有以下优点:I)能够针对人物进行检索,并能够基于与搜索序列匹配的人物标签的权重,来对候选人物进行排序,从而使得人物检索结果的可靠度较高;2)可以结合人物的社区网络活动或者个人信息来确定其人物标签的权重信息,从而进一步确保了基于人物标签的搜索和排序的准确性;3)能够在通用搜索引擎中实现人物搜索,从而能够实现跨网络社区的人物搜索功能;4)通过与人物相关联的其他人物以及人物自身所发布的内容来为该人物更新标签,使得人物的标签能更有效的、更完整的反应人物的特征,且通过人物标签的添加、删除以及更改等操作使得人物标签能够更准确的反应人物当前所具有的特征,减少了在人物搜索中出现人物遗漏或者人物标签不准确的情况,从而使得人物搜索的搜索结果更加全面,也更加符合用户的搜索条件。
【专利附图】

【附图说明】
[0017]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0018]图1为本发明一个实施例的用于搜索人物的方法流程示意图;
[0019]图2为本发明另一个实施例的用于搜索人物的方法流程示意图;
[0020]图3为本发明另一个实施例的用于搜索人物的方法流程示意图;
[0021]图4为本发明一个实施例的用于搜索人物的搜索装置的结构示意图;
[0022]图5为本发明另一个实施例的用于搜索人物的搜索装置的结构示意图;
[0023]图6为本发明另一个实施例的用于搜索人物的搜索装置的结构示意图。
[0024]附图中相同或相似的附图标记代表相同或相似的部件。
【具体实施方式】
[0025]下面结合附图对本发明作进一步详细描述。
[0026]图1为本发明一个实施例的用于搜索人物的方法流程示意图。其中,本实施例的方法主要通过计算机设备来实现;所述计算机设备包括网络设备和用户设备;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机;所述用户设备可包括但不限于PC机、平板电脑、智能手机、PDA、IPTV等;所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
[0027]需要说明的是,所述网络设备、用户设备和网络仅为举例,其他现有的或今后可能出现的计算设备或网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
[0028]根据本实施例的方法包括步骤S1、步骤S2、步骤S3、步骤S4和步骤S5。优选地,根据本实施例的方法可在通用搜索引擎中实现,该通用搜索引擎能够获得跨网络社区的人物信息。
[0029]在步骤SI中,计算机设备获取来自用户的搜索序列。
[0030]其中,计算机设备获取来自用户的搜索序列的方式包括但不限于:[0031]I)计算机设备为直接与用户交互的用户设备,则计算机设备直接获取用户输入的搜索序列。
[0032]例如,计算机设备为PC机,PC机直接获得用户直接在其浏览器搜索输入框中输入的搜索序列。
[0033]2)计算机设备通过其他计算机设备获取用户输入的搜索序列。
[0034]例如,计算机设备为网络设备,用户在用户设备的浏览器搜索输入框中输入搜索序列,用户设备将该搜索序列通过网络提供给网络设备,网络设备通过网络获取该搜索序列。
[0035]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取来自用户的搜索序列的实现方式,均应包含在本发明的范围内。
[0036]在步骤S2中,计算机设备由所述搜索序列中获取至少一个搜索分词。
[0037]具体地,计算机设备可采用多种方式,从搜索序列中获取至少一个搜索分词。
[0038]如作为步骤S2的一种优选方式,步骤S2进一步包括步骤S201和步骤S202。
[0039]在步骤S201中,计算机设备对所述搜索序列进行分词,获得分词列表。
[0040]例如,计算机设备在步骤SI中获得来自用户的搜索序列“经济类的律师”,计算机设备根据语义分析以及预定分词词库,对该搜索序列进行分词,获取分词列表包含“经济类”、“的”以及“律师”的分词列表。
[0041]在步骤S202中,计算机设备从所述分词列表中选择重要分词,作为所述至少一个搜索分词。其中,计算机设备可通过多种方式来确定分词列表中的分词是否为重要分词;例如计算机设备可通过将分词列表中`的分词与预定分词词库中的分词匹配,和/或,基于对搜索序列的语义分析、对分词列表中的分词本身的语义分析以及基于分词列表中的分词在搜索序列中的语法位置分析等,来确定分词列表中的分词是否为重要分词。
[0042]例如,在步骤S201中,计算机设备通过对搜索序列“经济类的律师”进行分词,获得分词列表,其中包含的分词为“经济类”、“的”以及“律师”;在步骤S202中,计算机设备将分词列表中的分词与预定分词词库中的分词进行匹配,并根据匹配结果选择重要分词“经济类”和“律师”,作为搜索序列“经济类的律师”所对应的两个搜索分词。
[0043]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对所述搜索序列进行分词,获得分词列表,并从所述分词列表中选择重要分词,作为所述至少一个搜索分词的实现方式,均应包含在本发明的范围内。
[0044]又如作为步骤S2的另一种优选方式,步骤S2包括步骤S2’。
[0045]在步骤S2’中,计算机设备对所述搜索序列进行分词,获得所述至少一个搜索分
ο
[0046]其中,计算机设备对搜索序列进行的分词的操作,考虑以下至少一项因素:
[0047]I)所述搜索序列的不同分词结果的语义差别。
[0048]优选地,计算机设备选择语义歧义更小的分词方式。如若搜索序列中的一个短语在进一步被划分后获得的多个子短语中存在与该短语的语义区别较大的子短语,则选择该完整的短语作为一个分词,且不选择该短语的子短语作为分词。又如搜索序列中多个互相不包含的短语能够产生多种组合时,选择组合后与搜索序列语义差别更小的组合方式等。需要说明的是,搜索序列可直接为一个短语。
[0049]例如,搜索序列包含短语“苹果手机”,该短语在进一步被划分后获得的多个子短语为“苹果”和“手机”,则计算机设备通过查询预确定的短语类别,确定短语“苹果手机”的主要类别为“手机”,并确定该短语的子短语“苹果”的主要类别包括“水果”和“手机”,子短语“手机”的主要类别为“手机”,则计算机设备判断“苹果手机”在进一步被划分后获得的多个子短语中存在与该短语的语义区别较大的子短语“苹果”,则计算机设备选择短语“苹果手机”作为一个分词,且不选择该短语的子短语“苹果”和“手机”作为分词。
[0050]2)所述搜索序列与预定分词词库的匹配结果。
[0051]优选地,当以较小的粒度进行分词获得的短语不能在预定分词词库中获得与之相匹配的词汇时,优先选择以较大的粒度进行分词所得的短语。如若搜索序列中的一个短语在进一步细分后获得的多个子短语中存在不属于预定分词词库的子短语,则直接选择该短语,而不选择该短语的子短语,作为分词。
[0052]例如,搜索序列中的一个短语为“魔兽霍华德”,该短语分词后获得子短语“魔兽”和“霍华德”,然而在预定分词词库中,不具有分词“霍华德”,则直接将“魔兽霍华德”作为一个搜索分词。
[0053]需要说明的是,在步骤S201中,可参考上述因素进行分词操作。
[0054]需要说明的是,计算机设备获得的搜索分词可部分重叠,例如,搜索序列“魔戒作者托尔金”可具有3个搜索分词“魔戒作者托尔金”、“魔戒作者”和“托尔金”。
[0055]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对所述搜索序列进行分词,获得所述至少一个搜索分词的实现方式,均应包含在本发明的范围内。
[0056]需要说明的是,上述所举多种优选方式仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何由搜索序列中获取至少一个搜索分词的实现方式,如直接通过将搜索序列与一个预定词库进行匹配,并搜索序列中能够与该预定词库中的词汇匹配的短语直接作为搜索分词等,均应包含在本发明的范围内。
[0057]在步骤S3中,计算机设备基于在步骤S2中获得的至少一个搜索分词获得至少一个候选人物,其中,所述至少一个搜索分词的全部或部分中的每个搜索分词均能与一个候选人物的人物标签中的一个或多个匹配。例如,搜索序列的各个搜索分词中的每个搜索分词,均能在任意一个候选人物的人物标签中获得匹配;又例如,搜索序列的各个搜索分词中的重要搜索分词,均能在任意一个候选人物的人物标签中获得匹配等。其中,一个搜索分词可与一个或多个人物标签匹配。
[0058]其中,所述候选人物可为实际的自然人,如一个明星;也可为虚拟人物,如一个法人组织。
[0059]具体地,计算机设备可采用多种方式,来获得至少一个候选人物。例如,计算机设备可先从各个搜索分词中获得重要搜索分词,再基于重要搜索分词,来确定至少一个候选人物;其中,每个重要搜索分词均能与任意一个候选人物的人物标签中的一个或多个匹配。其中,计算机设备获得重要搜索分词的方式,与前述参照步骤S202中计算机设备获得重要分词的方式相同或相似,在此不再赘述。[0060]作为步骤S3的一种优选方式,步骤S3进一步包括步骤S31和步骤S32。
[0061]在步骤S31中,计算机设备获取与所述至少一个搜索分词中的每个搜索分词所匹配的人物列表。
[0062]具体地,对于每个搜索分词,计算机设备将该搜索分词与各个人物列表对应的人物标签匹配,并将能够匹配的人物标签对应的人物列表,作为该搜索分词所匹配的人物列表。优选地,当一个搜索分词能够与多个人物标签相匹配时,选择匹配度最高的人物标签所对应的人物列表,作为该搜索分词所匹配的人物列表。其中,一个人物标签对应的人物列表中的每个人物,均具有该人物标签;例如,若人物标签“医生”所对应的人物列表中具有245个人物,则该等245个人物中的每个人物,均具有人物标签“医生”。
[0063]例如,计算机设备在步骤S2中获得搜索序列的2个搜索分词“外科”和“医生”;则对于搜索分词“医生”,计算机设备将该搜索分词与各个人物列表对应的人物标签进行匹配,获得与人物标签“医生”对应的人物列表,作为搜索分词“医生”所匹配的人物列表;对于搜索分词“外科”,计算机设备同样执行上述步骤,获得其所匹配的人物列表。
[0064]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取与所述至少一个搜索分词中的每个搜索分词所匹配的人物列表的实现方式,均应包含在本发明的范围内。
[0065]在步骤S32中,计算机设备确定在所有匹配获得的人物列表中均存在的人物,作为所述至少一个候选人物。
[0066]例如,计算机设备在步骤S2中获取搜索分词“外科”和“医生”,在步骤S31中,计算机设备获得搜索分词“外科”对应的人物列表Listl和搜索分词“医生”对应的人物列表List2,其中,Listl中包含人物A、B、C、D和E,List2中包含人物A、B、E、F和G,则计算机设备确定Listl和List2中均存在人物A、B和E,并将人物A、B和E作为搜索序列的候选人物。
[0067]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何确定在所有匹配获得的人物列表中均存在的人物,作为所述至少一个候选人物的实现方式,均应包含在本发明的范围内。
[0068]在步骤S4中,计算机设备根据各个候选人物的、与所述搜索分词匹配的人物标签的权重信息,对所述至少一个候选人物中的全部或部分候选人物进行排序。其中,候选人物的人物标签的权重信息可由人工指定,或者,可由计算机设备确定;并且,由计算机设备确定权重信息的步骤,可在步骤S4执行的过程中执行,也可在步骤SI之前执行。其中,计算机设备确定候选人物的人物标签的权重信息的方式将在后续优选方案中予以详述,在此不在赘述。其中,对于一个候选人物,其与搜索分词匹配的人物标签的权重信息越高,则其排序较闻的可能性越闻。
[0069]具体地,计算机设备可采用多种方式来根据各个候选人物的、与所述搜索分词匹配的人物标签的权重信息,对所述至少一个候选人物中的全部或部分候选人物进行排序。
[0070]如在步骤S4的一个优选方式中,步骤S4进一步包括步骤S401和步骤S402。
[0071]在步骤S401中,计算机设备对所述至少一个候选人物中的每一个候选人物,根据该候选人物的、与所述至少一个搜索分词匹配的人物标签的权重信息,确定该候选人物与所述搜索序列相对应的权重信息。[0072]例如,计算机设备在步骤S2中获取的搜索分词为“外科”和“医生”,在步骤S3中获得候选人物A、B和E,其中,候选人物A、B和E均具有人物标签“外科”和“医生”。计算机设备获得的候选人物A、B和E的权重信息如下:候选人物A的人物标签“外科”的权重值为WAl,人物标签“医生”的权重值为WA2 ;候选人物B的人物标签“外科”的权重值为WBl,人物标签“医生”的权重值为WB2 ;候选人物E的人物标签“外科”的权重值为WEl,人物标签“医生”的权重值为WE2。计算机设备根据上述权重信息确定:候选人物A与搜索序列对应的权重信息=WA1+WA2 ;候选人物B与搜索序列对应的权重信息=WB1+WB2 ;候选人物E与搜索序列对应的权重信息=WE1+WE2。
[0073]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对所述至少一个候选人物中的每一个候选人物,根据该候选人物的、与所述至少一个搜索分词匹配的人物标签的权重信息,确定该候选人物与所述搜索序列相对应的权重信息的实现方式,均应包含在本发明的范围内。
[0074]在步骤S402中,计算机设备根据各个候选人物的权重信息,对所述至少一个候选人物中的全部或部分候选人物进行排序。
[0075]例如,计算机设备在步骤S3中获得候选人物A、B和E。计算机设备在步骤S401中确定候选人物A的权重为95,候选人物B的权重为85,候选人物E的权重为92。在步骤S402中,计算机设备根据上述权重信息对候选人物按照权重从高至低进行排序,获得排序结果为:候选人物A,候选人物E,候选人物B。
[0076]需要说明的是,计算机设备可根据各个候选人物的权重信息,按照预定规则对所述至少一个候选人物中的全部或部分候选人物进行排序。其中,所述预定规则用于确定可参与排序的候选人物或者可参与排序的候选人物的个数。
[0077]例如,预定规则包括对候选人物中权重超过预定权重阈值的候选人物进行排序,且预定权重阈值为90,计算机设备在步骤S3中获得候选人物A、B和E,且在步骤S401中确定候选人物A的权重为95,候选人物B的权重为85,候选人物E的权重为92。在步骤S402中,计算机设备对满足该预定规则的候选人物A和E进行排序,获得排序结果为:候选人物A,候选人物E。
[0078]又例如,预定规则包括当候选人物的数量超过100时,仅对其中的100个候选人物进行排序。则计算机设备可先确定权重前100位的候选人物,再对该等100位候选人物进行排序等。
[0079]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据各个候选人物的权重信息,对所述至少一个候选人物中的全部或部分候选人物进行排序的实现方式,均应包含在本发明的范围内。
[0080]需要说明的是,步骤S401和步骤S402并无严格的先后顺序,计算机设备可在执行步骤S401的同时执行步骤S402,例如,计算机设备可在获得一个候选人物的权重信息后,即根据其与其他候选人物的权重信息,将其插入适当的排序位置,与此同时,计算机设备还执行步骤S401,获取另一个候选人物的权重信息。
[0081]又如在步骤S4的另一个优选方式中,步骤S4进一步包括步骤S4’。
[0082]在步骤S4’中,计算机设备根据各个候选人物的、与所述搜索分词匹配的人物标签的权重信息,并结合各个候选人物对应的认证信息,对所述至少一个候选人物中的全部或部分候选人物进行排序。
[0083]其中,对于一个候选人物,其与搜索分词匹配的人物标签的权重信息越高,则其排序较闻的可能性越闻;其具有认证?目息,则其排序较闻的可能性越闻。
[0084]具体地,计算机设备可采用多种方式,来根据各个候选人物的、与所述搜索分词匹配的人物标签的权重信息,并结合各个候选人物对应的认证信息,对所述至少一个候选人物中的全部或部分候选人物进行排序。
[0085]例如,对于每个候选人物,计算机设备可直接基于该候选人物的、与搜索分词匹配的人物标签的权重信息以及该候选人物的认证信息,计算该候选人物与搜索序列对应的权重,并且,计算机设备根据各个候选人物与该搜索序列对应的权重,来对各个候选人物中的全部或部分进行排序。
[0086]并且,步骤S4’与步骤S401和S402可以相结合。例如:对所述至少一个候选人物中的每一个候选人物,计算机设备根据该候选人物的、与所述至少一个搜索分词匹配的人物标签的权重信息,确定该候选人物与所述搜索序列相对应的权重信息,并根据各个候选人物的权重信息,对所述至少一个候选人物中的全部或部分候选人物进行排序;接着,计算机设备根据各个候选人物是否具有认证信息,来提高具有认证信息的候选人物的排序,并降低不具有认证信息的候选人物的排序。又例如,对所述至少一个候选人物中的每一个候选人物,计算机设备根据该候选人物的、与所述至少一个搜索分词匹配的人物标签的权重信息,确定该候选人物与所述搜索序列相对应的权重信息,并且,计算机设备根据各个候选人物是否具有认证信息,来对各个候选人物的权重信息进行加权;并且,计算机设备根据加权后的权重信息,来对至少一个候选人物中的全部或部分候选人物进行排序等。
[0087]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据各个候选人物的、与所述搜索分词匹配的人物标签的权重信息,并结合各个候选人物对应的认证信息,对所述至少一个候选人物中的全部或部分候选人物进行排序的实现方式,均应包含在本发明的范围内。
[0088]需要说明的是,步骤S3和步骤S4并无严格的先后顺序,计算机设备可在执行步骤S3并获得候选人物的同时,执行步骤S4来对已获得的候选人物进行排序。
[0089]在步骤S5中,计算机设备将排序后的候选人物提供给所述用户。
[0090]优选地,计算机设备将排序后的候选人物提供给所述用户的同时,可将候选人物中的附加信息一并提供给用户,其中,所述附加信息可包括该候选人物的描述信息。
[0091]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何将排序后的候选人物提供给所述用户的实现方式,均应包含在本发明的范围内。
[0092]作为本实施例的一种优选方案,计算机设备根据以下至少一项因素,确定人物的人物标签的权重信息:
[0093]I)具有该人物标签的其他人物对该人物的关注程度。
[0094]其中,所述具有该人物标签的其他人物对该人物的关注程度可基于以下因素确定:具有该人物标签的其他人物关注或转发该人物发布的内容的数量、关注该人物且具有该人物标签的其他人物的数量等。
[0095]例如,人物A具有“律师”标签,可根据关注人物A的其他人物中具有“律师”标签的人物的数量,和/或,具有“律师”标签的人物转发该人物A发布的贴子的数量等,来确定人物A的“律师”标签的权重信息。
[0096]2)该人物对具有该人物标签的其他人物的关注程度。
[0097]其中,该人物对具有该人物标签的其他人物的关注程度可基于以下因素确定:该人物关注的具有该人物标签的其他人物的数量、该人物转发的、具有该人物标签的其他人物发布的内容的数量。
[0098]例如,人物A具有“律师”标签,根据人物A关注的其他人物中具有“律师”标签的人物的数量,和/或,人物A转发的、具有“律师”标签的其他人物发布的内容的数量,来确定人物A的“律师”标签的权重信息。
[0099]3)该人物发布的、具有该人物标签的特征的内容的数量。
[0100]其中,计算机设备可通过解析该人物发布的内容来确定该内容是否具有该人物标签的特征。
[0101]例如,可通过解析该人物发布的内容中是否包含具有该人物标签的特征的短语等,来确定该内容是否具有该人物标签的特征。
[0102]4)该人物发布的、具有该人物标签的特征的内容被其他人物关注的程度。其中,可通过分析人物发布的内容来确定该内容是否具有该人物标签的特征。
[0103]例如,根据人物A发布的、具有“律师”标签的特征的内容被其他人物转发或标记的数量,确定人物A的“律师”标签的权重信息。
[0104]5)该人物对其他人物发布的、具有该人物标签的特征的内容的关注程度。
[0105]例如,根据人物A对其他人物发布的、具有“律师”标签的特征的内容进行转发或标记的数量,确定人物A的“律师”标签的权重信息。
[0106]6)该人物是否具有与该人物标签对应的认证信息。
[0107]其中,该认证信息包括任何能够用于认证该人物的真实性的信息。如认证信息可包括但不限于:职业认证信息,如律师证信息、医生执业证信息、教师资格证信息等;该人物所属工作单位信息,如医生所在的医院信息、律师所在的律师事务所信息等;身份认证信息,如实名认证信息等。优选地,一个人物可具有多个认证信息,且各个认证信息可对应不同的人物标签,则当该人物作为候选人物被排序时,可仅考虑与搜索分词匹配的人物标签对应的认证信息。
[0108]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何确定人物的人物标签的权重信息的实现方式,均应包含在本发明的范围内。
[0109]根据本实施例的方案,能够针对人物进行检索,并能够基于与搜索序列匹配的人物标签的权重,来对候选人物进行排序,从而使得人物检索结果的可靠度较高;优选地,本实施例可以结合人物的社区网络活动或者个人信息来确定其人物标签的权重信息,从而进一步确保了基于人物标签的搜索和排序的准确性;优选地,本实施例的方案能够在通用搜索引擎中实现人物搜索,从而能够实现跨网络社区的人物搜索功能。
[0110]图2为本发明另一个实施例的用于搜索人物的方法流程示意图。
[0111]本实施例的方法主要由计算机设备实现;其中,对参照图1所示实施例中所述的计算机设备的任何说明,均以引用的方式包含于本实施例中。其中,本实施例的方法包括步骤S1、步骤S2、步骤S3、步骤S4、步骤S5和步骤S6。其中,步骤S1、步骤S2、步骤S3、步骤S4和步骤S5已在参照图1中予以详述,在此不再赘述。
[0112]在步骤S6中,计算机设备根据与一个人物相关联的其他人物的人物标签和/或所述其他人物发布的内容,更新所述人物的人物标签。
[0113]其中,所述与一个人物相关联的其他人物包括与该人物存在网络关系的其他人物;例如,该人物关注的其他人物、关注该人物的其他人物、与该人物具有好友关系的其他人物等。
[0114]其中,所述人物标签的更新包括但不限于人物标签的增加、修改和删除等。
[0115]具体地,计算机设备根据与一个人物相关联的其他人物的人物标签和/或所述其他人物发布的内容,更新所述人物的人物标签的方式包括但不限于:
[0116]I)计算机设备直接根据与一个人物相关联的其他人物的人物标签和/或所述其他人物发布的内容,获得一个或多个人物标签,并根据所获得的人物标签,来更新该人物的人物标签。
[0117]其中,计算机设备可采用多种方式,来根据与一个人物相关联的其他人物的人物标签和/或所述其他人物发布的内容,获得一个或多个人物标签。
[0118]例如,计算机设备统计与一个人物相关联的其他人物的人物标签,并将出现数量的排序较高或出现的数量高于一个预定数量的人物标签,作为适用于该人物的人物标签。
[0119]又例如,对于一个其他人物的人物标签Tagl,计算机设备统计该人物标签Tagl在所有与该人物相关联的其他人物的人物标签中出现的次数,并结合该人物标签Tagl在大量的人物(如计算机设备的人物库)的人物标签中出现的次数,来确定该人物标签Tagl是否能够表征与该人物相关联的其他人物的特征,并将能够表征特征的人物标签作为适用于所述更新的人物标签。其中,人物标签Tagl在与该人物相关联的其他人物的人物标签中出现的次数越高,且在大量的人物(如计算机设备的人物库)的人物标签中出现的次数越低,则人物标签Tagl的特征表征能力越强,越适用于更新操作;人物标签Tagl在与该人物相关联的其他人物的人物标签中出现的次数越低,且在大量的人物(如计算机设备的人物库)的人物标签中出现的次数越高,则人物标签Tagl的特征表征性能力弱,不适用于更新操作。
[0120]又例如,计算机设备根据与一个人物相关联的其他人物发布的内容,并根据该等内容所具有的人物标签的特征,来确定一个或多个人物标签。如计算机设备根据一个人物相关联的其他人物发布的内容中出现大量的医学专业词汇,确定人物标签“医生”等。
[0121]2)步骤S6进一步包括步骤S61、步骤S62和步骤S63。
[0122]在步骤S61中,计算机设备根据与所述人物相关联的其他人物的地址特征与网络社交关系特征,将与所述人物相关联的其他人物划分为多个分组。
[0123]优选地,所述地址特征包括网络地址特征。例如,包括其他人物所使用的IP地址。
[0124]优选地,所述网络社交关系可包括任何在网络社区中的关联关系。例如,其他人物与该人物存在关注关系、其他人物与该人物存在好友关系、其他人物与该人物关注相同的人物等。
[0125]具体地,具有相同或相似的地址特征或网络社交关系特征的其他人物,更容易被划分为一组。例如,将IP地址相同或相近(如IP地址前3段相同)的其他人物划分为一组;又例如,将与该人物存在关注关系或好友关系,且均关注同一个知名人物的其他人物划分为一组等,其中,知名人物可通过其诸如粉丝数等因素确定。
[0126]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据与所述人物相关联的其他人物的地址特征与网络社交关系特征,将与所述人物相关联的其他人物划分为多个分组的实现方式,均应包含在本发明的范围内。
[0127]在步骤S62中,计算机设备根据所述多个分组中全部或部分分组包含的所述其他人物的人物标签和/或所述其他人物发布的内容,获得一个或多个人物标签。其中,计算机设备根据每个分组包含的所述其他人物的人物标签和/或所述其他人物发布的内容,获得一个或多个人物标签的方式,与步骤S6的前述实现方式I)中,计算机设备直接根据与一个人物相关联的其他人物的人物标签和/或所述其他人物发布的内容,获得一个或多个人物标签的方式相同或相似,在此不再赘述。
[0128]例如,在步骤S61中,计算机设备将与人物A相关联的其他人物分为组Gl和组G2,在步骤S62中,计算机设备解析得到组Gl中90%的人物均具有“医生”标签,且组Gl中的人物发布的内容80%与“外科”有关,则计算机设备获得“医生”标签和“外科”标签。
[0129]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述多个分组中全部或部分分组包含的所述其他人物的人物标签和/或所述其他人物发布的内容,获得一个或多个人物标签的实现方式,均应包含在本发明的范围内。
[0130]在步骤S63中,计算机设备根据所述一个或多个人物标签,更新所述人物的人物标签。
[0131]例如,计算机设备在步骤S62中根据与人物A相关联的其他人物获得“医生”标签和“外科”标签,而人物A不具有该两个标签,则为人物A添加该两个标签。
[0132]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述一个或多个人物标签,更新所述人物的人物标签的实现方式,均应包含在本发明的范围内。
[0133]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据与一个人物相关联的其他人物的人物标签和/或所述其他人物发布的内容,更新所述人物的人物标签的实现方式,均应包含在本发明的范围内。
[0134]跟据本实施例的方案,通过与人物相关联的其他人物来为该人物更新标签,使得人物的标签能更有效的、更完整的反应人物的特征,且通过人物标签的添加、删除以及更改等操作使得人物标签能够更准确的反应人物当前所具有的特征,减少了在人物搜索中出现人物遗漏或者人物标签不准确的情况,从而使得人物搜索的搜索结果更加全面,也更加符合用户的搜索条件。
[0135]需要说明的是,为简便起见,图2中将步骤S6置于步骤SI之前,但本领域技术人员应能理解,步骤S6与步骤SI至步骤S5并无先后顺序。
[0136]图3为本发明另一个实施例的用于搜索人物的方法流程示意图。
[0137]本实施例的方法主要由计算机设备实现;其中,对参照图1所示实施例中所述的计算机设备的任何说明,均以引用的方式包含于本实施例中。其中,本实施例的方法包括步骤S1、步骤S2、步骤S3、步骤S4、步骤S5、步骤S7和步骤S8。其中,步骤S1、步骤S2、步骤S3、步骤S4和步骤S5已在参照图1中予以详述,在此不再赘述。
[0138]在步骤S7中,计算机设备根据所述人物发布的内容,确定至少一个人物标签。
[0139]具体地,计算机设备根据人物发布的内容,确定至少一个人物标签的方式,与前述步骤S6中计算机设备根据其他人物发布的内容,确定至少一个人物标签的方式相同或相似。
[0140]例如,计算机设备对人物A发布的内容中的每一个进行解析,提取该内容中的各个词语出现的频率,排除常用词、语气词以及连接词等,获取出现频率最高的多个词语作为该内容的关键词,并通过语义分析来判断该等关键词对应的人物标签为“医生”标签。
[0141]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,根据所述人物发布的内容,确定至少一个人物标签的实现方式,均应包含在本发明的范围内。
[0142]在步骤S8中,计算机设备根据所述至少一个人物标签,更新所述人物的人物标签。
[0143]其中,计算机设备根据所述至少一个人物标签,更新所述人物的人物标签的方式,与前述步骤S63中计算机设备根据一个或多个人物标签,更新所述人物的人物标签的方式相同或相似,在此不再赘述。
[0144]需要说明的是,为简便起见,图3中将步骤S7和S8置于步骤SI之前,但本领域技术人员应能理解,步骤S7和S8与步骤SI至步骤S5并无先后顺序。
[0145]跟据本实施例的方案,人物的人物标签能够根据人物的发布内容进行更新,使得人物的标签能更有效的、更完整的反应人物的特征,且能够通过人物自身发布的内容,更准确的反应人物当前所具有的特征,减少了在人物搜索中出现人物遗漏或者人物标签不准确的情况,从而使得人物搜索的搜索结果更加全面,也更加符合用户的搜索条件。
[0146]图4为本发明一个实施例的用于搜索人物的搜索装置的结构示意图。
[0147]本实施例的搜索装置包括第一获取装置1、第二获取装置2、第一确定装置3、排序装置4和提供装置5。优选地,本实施例的搜索装置可包括在计算机设备中。该计算机设备可实现通用搜索引擎的功能,该通用搜索引擎能够获得跨网络社区的人物信息。
[0148]第一获取装置I获取来自用户的搜索序列。
[0149]其中,第一获取装置I获取来自用户的搜索序列的方式包括但不限于:
[0150]I)搜索装置所在的计算机设备为直接与用户交互的用户设备,则第一获取装置I直接获取用户输入的搜索序列。
[0151]例如,搜索装置所在的计算机设备为PC机,第一获取装置I直接获得用户直接在PC机的浏览器搜索输入框中输入的搜索序列。
[0152]2)第一获取装置I通过其他计算机设备获取用户输入的搜索序列。
[0153]例如,搜索装置所在的计算机设备为网络设备,用户在用户设备的浏览器搜索输入框中输入搜索序列,用户设备将该搜索序列通过网络提供给网络设备,第一获取装置I通过网络获取该搜索序列。
[0154]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取来自用户的搜索序列的实现方式,均应包含在本发明的范围内。
[0155]第二获取装置2由所述搜索序列中获取至少一个搜索分词。
[0156]具体地,第二获取装置2可采用多种方式,从搜索序列中获取至少一个搜索分词。
[0157]如作为第二获取装置2的一种优选方式,第二获取装置2进一步包括分词装置(图未示出)和选择装置(图未示出)。
[0158]分词装置对所述搜索序列进行分词,获得分词列表。
[0159]例如,第一获取装置I获得来自用户的搜索序列“经济类的律师”,分词装置根据语义分析以及预定分词词库,对该搜索序列进行分词,获取分词列表包含“经济类”、“的”以及“律师”的分词列表。
[0160]选择装置从所述分词列表中选择重要分词,作为所述至少一个搜索分词。其中,选择装置可通过多种方式来确定分词列表中的分词是否为重要分词;例如选择装置可通过将分词列表中的分词与预定分词词库中的分词匹配,和/或,基于对搜索序列的语义分析、对分词列表中的分词本身的语义分析以及基于分词列表中的分词在搜索序列中的语法位置分析等,来确定分词列表中的分词是否为重要分词。
[0161]例如,分词装置通过对搜索序列“经济类的律师”进行分词,获得分词列表,其中包含的分词为“经济类”、“的”以及“律师”;选择装置将分词列表中的分词与预定分词词库中的分词进行匹配,并根据匹配结果选择重要分词“经济类”和“律师”,作为搜索序列“经济类的律师”所对应的两个搜索分词。
[0162]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对所述搜索序列进行分词,获得分词列表,并从所述分词列表中选择重要分词,作为所述至少一个搜索分词的实现方式,均应包含在本发明的范围内。
[0163]又如作为第二获取装置2的另一种优选方式,第二获取装置2包括子获取装置(图未示出)。
[0164]子获取装置对所述搜索序列进行分词,获得所述至少一个搜索分词。
[0165]其中,子获取装置对搜索序列进行的分词的操作,考虑以下至少一项因素:
[0166]I)所述搜索序列的不同分词结果的语义差别。
[0167]优选地,子获取装置选择语义歧义更小的分词方式。如若搜索序列中的一个短语在进一步被划分后获得的多个子短语中存在与该短语的语义区别较大的子短语,则选择该完整的短语作为一个分词,且不选择该短语的子短语作为分词。又如搜索序列中多个互相不包含的短语能够产生多种组合时,选择组合后与搜索序列语义差别更小的组合方式等。需要说明的是,搜索序列可直接为一个短语。
[0168]例如,搜索序列包含短语“苹果手机”,该短语在进一步被划分后获得的多个子短语为“苹果”和“手机”,则子获取装置通过查询预确定的短语类别,确定短语“苹果手机”的主要类别为“手机”,并确定该短语的子短语“苹果”的主要类别包括“水果”和“手机”,子短语“手机”的主要类别为“手机”,则子获取装置判断“苹果手机”在进一步被划分后获得的多个子短语中存在与该短语的语义区别较大的子短语“苹果”,则子获取装置选择短语“苹果手机”作为一个分词,且不选择该短语的子短语“苹果”和“手机”作为分词。
[0169]2)所述搜索序列与预定分词词库的匹配结果。[0170]优选地,当以较小的粒度进行分词获得的短语不能在预定分词词库中获得与之相匹配的词汇时,优先选择以较大的粒度进行分词所得的短语。如若搜索序列中的一个短语在进一步细分后获得的多个子短语中存在不属于预定分词词库的子短语,则直接选择该短语,而不选择该短语的子短语,作为分词。
[0171 ] 例如,搜索序列中的一个短语为“魔兽霍华德”,该短语分词后获得子短语“魔兽”和“霍华德”,然而在预定分词词库中,不具有分词“霍华德”,则直接将“魔兽霍华德”作为一个搜索分词。
[0172]需要说明的是,分词装置可参考上述因素进行分词操作。
[0173]需要说明的是,搜索装置获得的搜索分词可部分重叠,例如,搜索序列“魔戒作者托尔金”可具有3个搜索分词“魔戒作者托尔金”、“魔戒作者”和“托尔金”。
[0174]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对所述搜索序列进行分词,获得所述至少一个搜索分词的实现方式,均应包含在本发明的范围内。
[0175]需要说明的是,上述所举多种优选方式仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何由搜索序列中获取至少一个搜索分词的实现方式,如直接通过将搜索序列与一个预定词库进行匹配,并搜索序列中能够与该预定词库中的词汇匹配的短语直接作为搜索分词等,均应包含在本发明的范围内。
[0176]第一确定装置3基于第二获取装置2获得的至少一个搜索分词获得至少一个候选人物,其中,所述至少一个搜索分词的全部或部分中的每个搜索分词均能与一个候选人物的人物标签中的一个或多个匹配。例如,搜索序列的各个搜索分词中的每个搜索分词,均能在任意一个候选人物的人物标签中获得匹配;又例如,搜索序列的各个搜索分词中的重要搜索分词,均能在任意一个候选人物的人物标签中获得匹配等。其中,一个搜索分词可与一个或多个人物标签匹配。
[0177]其中,所述候选人物可为实际的自然人,如一个明星;也可为虚拟人物,如一个法人组织。
[0178]具体地,第一确定装置3可采用多种方式,来获得至少一个候选人物。例如,第一确定装置3可先从各个搜索分词中获得重要搜索分词,再基于重要搜索分词,来确定至少一个候选人物;其中,每个重要搜索分词均能与任意一个候选人物的人物标签中的一个或多个匹配。其中,第一确定装置3获得重要搜索分词的方式,与前述选择装置获得重要分词的方式相同或相似,在此不再赘述。
[0179]作为第一确定装置3的一种优选方式,第一确定装置3进一步包括步骤列表获取装置(图未示出)和人物确定装置(图未示出)。
[0180]列表获取装置获取与所述至少一个搜索分词中的每个搜索分词所匹配的人物列表。
[0181]具体地,对于每个搜索分词,列表获取装置将该搜索分词与各个人物列表对应的人物标签匹配,并将能够匹配的人物标签对应的人物列表,作为该搜索分词所匹配的人物列表。优选地,当一个搜索分词能够与多个人物标签相匹配时,选择匹配度最高的人物标签所对应的人物列表,作为该搜索分词所匹配的人物列表。其中,一个人物标签对应的人物列表中的每个人物,均具有该人物标签;例如,若人物标签“医生”所对应的人物列表中具有245个人物,则该等245个人物中的每个人物,均具有人物标签“医生”。
[0182]例如,第二获取装置2获得搜索序列的2个搜索分词“外科”和“医生”;则对于搜索分词“医生”,列表获取装置将该搜索分词与各个人物列表对应的人物标签进行匹配,获得与人物标签“医生”对应的人物列表,作为搜索分词“医生”所匹配的人物列表;对于搜索分词“外科”,列表获取装置同样执行上述操作,获得其所匹配的人物列表。
[0183]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取与所述至少一个搜索分词中的每个搜索分词所匹配的人物列表的实现方式,均应包含在本发明的范围内。
[0184]人物确定装置确定在所有匹配获得的人物列表中均存在的人物,作为所述至少一个候选人物。
[0185]例如,第二获取装置2获取搜索分词“外科”和“医生”,列表获取装置获得搜索分词“外科”对应的人物列表Listl和搜索分词“医生”对应的人物列表List2,其中,Listl中包含人物A、B、C、D和E,List2中包含人物A、B、E、F和G,则人物确定装置确定Listl和List2中均存在人物A、B和E,并将人物A、B和E作为搜索序列的候选人物。
[0186]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何确定在所有匹配获得的人物列表中均存在的人物,作为所述至少一个候选人物的实现方式,均应包含在本发明的范围内。
[0187]排序装置4根据各个候选人物的、与所述搜索分词匹配的人物标签的权重信息,对所述至少一个候选人物中的全部或部分候选人物进行排序。其中,候选人物的人物标签的权重信息可由人工指定,或者,可由计算机设备确定;并且,由计算机设备确定权重信息的步骤,可在排序装置4执行操作的过程中执行,也可在第一获取装置I之前执行。其中,计算机设备确定候选人物的人物标签的权重信息的方式将在后续优选方案中予以详述,在此不在赘述。其中,对于一个候选人物,其与搜索分词匹配的人物标签的权重信息越高,则其排序较高的可能性越高。
[0188]具体地,排序装置4可采用多种方式来根据各个候选人物的、与所述搜索分词匹配的人物标签的权重信息,对所述至少一个候选人物中的全部或部分候选人物进行排序。
[0189]如在排序装置4的一个优选方式中,排序装置4进一步包括第一权重确定装置(图未示出)和第一子排序装置(图未示出)。
[0190]第一权重确定装置对所述至少一个候选人物中的每一个候选人物,根据该候选人物的、与所述至少一个搜索分词匹配的人物标签的权重信息,确定该候选人物与所述搜索序列相对应的权重信息。
[0191]例如,第二获取装置2获取的搜索分词为“外科”和“医生”,第一确定装置3获得候选人物A、B和E,其中,候选人物A、B和E均具有人物标签“外科”和“医生”。第一权重确定装置获得的候选人物A、B和E的权重信息如下:候选人物A的人物标签“外科”的权重值为WA1,人物标签“医生”的权重值为WA2 ;候选人物B的人物标签“外科”的权重值为WBl,人物标签“医生”的权重值为WB2 ;候选人物E的人物标签“外科”的权重值为WEl,人物标签“医生”的权重值为WE2。第一权重确定装置根据上述权重信息确定:候选人物A与搜索序列对应的权重信息=WA1+WA2 ;候选人物B与搜索序列对应的权重信息=WB1+WB2 ;候选人物E与搜索序列对应的权重信息=WE1+WE2。[0192]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何对所述至少一个候选人物中的每一个候选人物,根据该候选人物的、与所述至少一个搜索分词匹配的人物标签的权重信息,确定该候选人物与所述搜索序列相对应的权重信息的实现方式,均应包含在本发明的范围内。
[0193]第一子排序装置根据各个候选人物的权重信息,对所述至少一个候选人物中的全部或部分候选人物进行排序。
[0194]例如,第一确定装置3获得候选人物A、B和E。第一权重确定装置确定候选人物A的权重为95,候选人物B的权重为85,候选人物E的权重为92。第一子排序装置根据上述权重信息对候选人物按照权重从高至低进行排序,获得排序结果为:候选人物A,候选人物E,候选人物B。
[0195]需要说明的是,第一子排序装置可根据各个候选人物的权重信息,按照预定规则对所述至少一个候选人物中的全部或部分候选人物进行排序。其中,所述预定规则用于确定可参与排序的候选人物或者可参与排序的候选人物的个数。
[0196]例如,预定规则包括对候选人物中权重超过预定权重阈值的候选人物进行排序,且预定权重阈值为90,第一确定装置3获得候选人物A、B和E,第一权重确定装置确定候选人物A的权重为95,候选人物B的权重为85,候选人物E的权重为92。第一子排序装置对满足该预定规则的候选人物A和E进行排序,获得排序结果为:候选人物A,候选人物E。
[0197]又例如,预定规则包括当候选人物的数量超过100时,仅对其中的100个候选人物进行排序。则第一子排序装置可先确定权重前100位的候选人物,再对该等100位候选人物进行排序等。
[0198]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据`各个候选人物的权重信息,对所述至少一个候选人物中的全部或部分候选人物进行排序的实现方式,均应包含在本发明的范围内。
[0199]需要说明的是,第一权重确定装置和第一子排序装置的触发执行的操作并无严格的先后顺序,第一权重确定装置可与第一子排序装置同时执行操作,例如,搜索装置在获得一个候选人物的权重信息后,第一子排序装置即根据其与其他候选人物的权重信息,将其插入适当的排序位置,与此同时,第一权重确定装置获取另一个候选人物的权重信息。
[0200]又如在排序装置4的另一个优选方式中,排序装置4进一步包括第二子排序装置(图未示出)。
[0201]第二子排序装置根据各个候选人物的、与所述搜索分词匹配的人物标签的权重信息,并结合各个候选人物对应的认证信息,对所述至少一个候选人物中的全部或部分候选人物进行排序。
[0202]其中,对于一个候选人物,其与搜索分词匹配的人物标签的权重信息越高,则其排序较闻的可能性越闻;其具有认证?目息,则其排序较闻的可能性越闻。
[0203]具体地,第二子排序装置可采用多种方式,来根据各个候选人物的、与所述搜索分词匹配的人物标签的权重信息,并结合各个候选人物对应的认证信息,对所述至少一个候选人物中的全部或部分候选人物进行排序。
[0204]例如,对于每个候选人物,第二子排序装置可直接基于该候选人物的、与搜索分词匹配的人物标签的权重信息以及该候选人物的认证信息,计算该候选人物与搜索序列对应的权重,并且,第二子排序装置根据各个候选人物与该搜索序列对应的权重,来对各个候选人物中的全部或部分进行排序。
[0205]并且,第二子排序装置与第一权重确定装置和第一子排序装置实现的功能可以相结合。例如:对所述至少一个候选人物中的每一个候选人物,并根据该候选人物的、与所述至少一个搜索分词匹配的人物标签的权重信息,确定该候选人物与所述搜索序列相对应的权重信息,并根据各个候选人物的权重信息,对所述至少一个候选人物中的全部或部分候选人物进行排序;接着,根据各个候选人物是否具有认证信息,来提高具有认证信息的候选人物的排序,并降低不具有认证信息的候选人物的排序。又例如,对所述至少一个候选人物中的每一个候选人物,可根据该候选人物的、与所述至少一个搜索分词匹配的人物标签的权重信息,确定该候选人物与所述搜索序列相对应的权重信息,并且,根据各个候选人物是否具有认证信息,来对各个候选人物的权重信息进行加权;并且,根据加权后的权重信息,来对至少一个候选人物中的全部或部分候选人物进行排序等。
[0206]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据各个候选人物的、与所述搜索分词匹配的人物标签的权重信息,并结合各个候选人物对应的认证信息,对所述至少一个候选人物中的全部或部分候选人物进行排序的实现方式,均应包含在本发明的范围内。
[0207]需要说明的是,第一确定装置3和排序装置4执行的操作并无严格的先后顺序,在第一确定装置3执行操作并获得候选人物的同时,排序装置4可对已获得的候选人物进行排序。
[0208]提供装置5将排序后的候选人物提供给所述用户。
[0209]优选地,提供装置5将排序后的候选人物提供给所述用户的同时,可将候选人物中的附加信息一并提供给用户,其中,所述附加信息可包括该候选人物的描述信息。
[0210]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何将排序后的候选人物提供给所述用户的实现方式,均应包含在本发明的范围内。
[0211]作为本实施例的一种优选方案,搜索装置包括第二权重确定装置(图未示出),第二权重确定装置用于根据以下至少一项因素,确定人物的人物标签的权重信息:
[0212]I)具有该人物标签的其他人物对该人物的关注程度。
[0213]其中,所述具有该人物标签的其他人物对该人物的关注程度可基于以下因素确定:具有该人物标签的其他人物关注或转发该人物发布的内容的数量、关注该人物且具有该人物标签的其他人物的数量等。
[0214]例如,人物A具有“律师”标签,可根据关注人物A的其他人物中具有“律师”标签的人物的数量,和/或,具有“律师”标签的人物转发该人物A发布的贴子的数量等,来确定人物A的“律师”标签的权重信息。
[0215]2)该人物对具有该人物标签的其他人物的关注程度。
[0216]其中,该人物对具有该人物标签的其他人物的关注程度可基于以下因素确定:该人物关注的具有该人物标签的其他人物的数量、该人物转发的、具有该人物标签的其他人物发布的内容的数量。
[0217]例如,人物A具有“律师”标签,根据人物A关注的其他人物中具有“律师”标签的人物的数量,和/或,人物A转发的、具有“律师”标签的其他人物发布的内容的数量,来确定人物A的“律师”标签的权重信息。
[0218]3)该人物发布的、具有该人物标签的特征的内容的数量。
[0219]其中,第二权重确定装置可通过解析该人物发布的内容来确定该内容是否具有该人物标签的特征。
[0220]例如,可通过解析该人物发布的内容中是否包含具有该人物标签的特征的短语等,来确定该内容是否具有该人物标签的特征。
[0221]4)该人物发布的、具有该人物标签的特征的内容被其他人物关注的程度。其中,可通过分析人物发布的内容来确定该内容是否具有该人物标签的特征。
[0222]例如,根据人物A发布的、具有“律师”标签的特征的内容被其他人物转发或标记的数量,确定人物A的“律师”标签的权重信息。
[0223]5)该人物对其他人物发布的、具有该人物标签的特征的内容的关注程度。
[0224]例如,根据人物A对其他人物发布的、具有“律师”标签的特征的内容进行转发或标记的数量,确定人物A的“律师”标签的权重信息。
[0225]6)该人物是否具有与该人物标签对应的认证信息。
[0226]其中,该认证信息包括任何能够用于认证该人物的真实性的信息。如认证信息可包括但不限于:职业认证信息,如律师证信息、医生执业证信息、教师资格证信息等;该人物所属工作单位信息,如医生所在的医院信息、律师所在的律师事务所信息等;身份认证信息,如实名认证信息等。优选地,一个人物可具有多个认证信息,且各个认证信息可对应不同的人物标签,则当该人物作为候选人物被排序时,可仅考虑与搜索分词匹配的人物标签对应的认证信息。
[0227]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何确定人物的人物标签的权重信息的实现方式,均应包含在本发明的范围内。
[0228]根据本实施例的方案,能够针对人物进行检索,并能够基于与搜索序列匹配的人物标签的权重,来对候选人物进行排序,从而使得人物检索结果的可靠度较高;优选地,本实施例可以结合人物的社区网络活动或者个人信息来确定其人物标签的权重信息,从而进一步确保了基于人物标签的搜索和排序的准确性;优选地,本实施例的方案能够在通用搜索引擎中实现人物搜索,从而能够实现跨网络社区的人物搜索功能。
[0229]图5为本发明另一个实施例的用于搜索人物的搜索装置的结果示意图。
[0230]其中,本实施例的搜索装置包括第一获取装置1、第二获取装置2、第一确定装置3、排序装置4、提供装置5和第一更新装置6。其中,第一获取装置1、第二获取装置2、第一确定装置3、排序装置4和提供装置5已在参照图4中予以详述,在此不再赘述。
[0231]第一更新装置6根据与一个人物相关联的其他人物的人物标签和/或所述其他人物发布的内容,更新所述人物的人物标签。
[0232]其中,所述与一个人物相关联的其他人物包括与该人物存在网络关系的其他人物;例如,该人物关注的其他人物、关注该人物的其他人物、与该人物具有好友关系的其他人物等。
[0233]其中,所述人物标签的更新包括但不限于人物标签的增加、修改和删除等。[0234]具体地,第一更新装置6根据与一个人物相关联的其他人物的人物标签和/或所述其他人物发布的内容,更新所述人物的人物标签的方式包括但不限于:
[0235]I)第一更新装置6直接根据与一个人物相关联的其他人物的人物标签和/或所述其他人物发布的内容,获得一个或多个人物标签,并根据所获得的人物标签,来更新该人物的人物标签。
[0236]其中,第一更新装置6可采用多种方式,来根据与一个人物相关联的其他人物的人物标签和/或所述其他人物发布的内容,获得一个或多个人物标签。
[0237]例如,第一更新装置6统计与一个人物相关联的其他人物的人物标签,并将出现数量的排序较高或出现的数量高于一个预定数量的人物标签,作为适用于该人物的人物标签。
[0238]又例如,对于一个其他人物的人物标签Tagl,第一更新装置6统计该人物标签Tagl在所有与该人物相关联的其他人物的人物标签中出现的次数,并结合该人物标签Tagl在大量的人物(如计算机设备的人物库)的人物标签中出现的次数,来确定该人物标签Tagl是否能够表征与该人物相关联的其他人物的特征,并将能够表征特征的人物标签作为适用于所述更新的人物标签。其中,人物标签Tagl在与该人物相关联的其他人物的人物标签中出现的次数越高,且在大量的人物(如计算机设备的人物库)的人物标签中出现的次数越低,则人物标签Tagl的特征表征能力越强,越适用于更新操作;人物标签Tagl在与该人物相关联的其他人物的人物标签中出现的次数越低,且在大量的人物(如计算机设备的人物库)的人物标签中出现的次数越高,则人物标签Tagl的特征表征性能力弱,不适用于更新操作。
[0239]又例如,第一更新装置6根据与一个人物相关联的其他人物发布的内容,并根据该等内容所具有的人物标签的特征,来确定一个或多个人物标签。如第一更新装置6根据一个人物相关联的其他人物发布的内容中出现大量的医学专业词汇,确定人物标签“医生”
坐寸ο
[0240]2)第一更新装置6进一步包括分组装置(图未示出)、第一标签确定装置(图未示出)和子更新装置(图未示出)。
[0241]分组装置根据与所述人物相关联的其他人物的地址特征与网络社交关系特征,将与所述人物相关联的其他人物划分为多个分组。
[0242]优选地,所述地址特征包括网络地址特征。例如,包括其他人物所使用的IP地址。
[0243]优选地,所述网络社交关系可包括任何在网络社区中的关联关系。例如,其他人物与该人物存在关注关系、其他人物与该人物存在好友关系、其他人物与该人物关注相同的人物等。
[0244]具体地,具有相同或相似的地址特征或网络社交关系特征的其他人物,更容易被划分为一组。例如,将IP地址相同或相近(如IP地址前3段相同)的其他人物划分为一组;又例如,将与该人物存在关注关系或好友关系,且均关注同一个知名人物的其他人物划分为一组等,其中,知名人物可通过其诸如粉丝数等因素确定。
[0245]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据与所述人物相关联的其他人物的地址特征与网络社交关系特征,将与所述人物相关联的其他人物划分为多个分组的实现方式,均应包含在本发明的范围内。
[0246]第一标签确定装置根据所述多个分组中全部或部分分组包含的所述其他人物的人物标签和/或所述其他人物发布的内容,获得一个或多个人物标签。其中,第一标签确定装置根据每个分组包含的所述其他人物的人物标签和/或所述其他人物发布的内容,获得一个或多个人物标签的方式,与第一更新装置6的前述实现方式I)中,第一更新装置6直接根据与一个人物相关联的其他人物的人物标签和/或所述其他人物发布的内容,获得一个或多个人物标签的方式相同或相似,在此不再赘述。
[0247]例如,分组装置将与人物A相关联的其他人物分为组Gl和组G2,第一标签确定装置解析得到组Gl中90%的人物均具有“医生”标签,且组Gl中的人物发布的内容80%与“夕卜科”有关,则第一标签确定装置获得“医生”标签和“外科”标签。
[0248]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述多个分组中全部或部分分组包含的所述其他人物的人物标签和/或所述其他人物发布的内容,获得一个或多个人物标签的实现方式,均应包含在本发明的范围内。
[0249]子更新装置根据所述一个或多个人物标签,更新所述人物的人物标签。
[0250]例如,第一标签确定装置根据与人物A相关联的其他人物获得“医生”标签和“外科”标签,而人物A不具有该两个标签,则子更新装置为人物A添加该两个标签。
[0251]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述一个或多个人物标签,更新所述人物的人物标签的实现方式,均应包含在本发明的范围内。
[0252]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据与一个人物相关联的其他人物的人物标签和/或所述其他人物发布的内容,更新所述人物的人物标签的实现方式,均应包含在本发明的范围内。
[0253]跟据本实施例的方案,通过与人物相关联的其他人物来为该人物更新标签,使得人物的标签能更有效的、更完整的反应人物的特征,且通过人物标签的添加、删除以及更改等操作使得人物标签能够更准确的反应人物当前所具有的特征,减少了在人物搜索中出现人物遗漏或者人物标签不准确的情况,从而使得人物搜索的搜索结果更加全面,也更加符合用户的搜索条件。
[0254]需要说明的是,为简便起见,图5中显示第一更新装置6的逻辑顺序位于第一获取装置I之前,但本领域技术人员应能理解,第一更新装置6与第一获取装置I至提供装置5执行的操作并无先后顺序。
[0255]图6为本发明另一个实施例的用于搜索人物的搜索装置的结构示意图。
[0256]本实施例的搜索装置包括第一获取装置1、第二获取装置2、第一确定装置3、排序装置4、提供装置5、第二标签确定装置7和第二更新装置8。其中,第一获取装置1、第二获取装置2、第一确定装置3、排序装置4和提供装置5已在参照图4中予以详述,在此不再赘述。
[0257]第二标签确定装置7根据所述人物发布的内容,确定至少一个人物标签。
[0258]具体地,第二标签确定装置7根据人物发布的内容,确定至少一个人物标签的方式,与前述第一更新装置6根据其他人物发布的内容,确定至少一个人物标签的方式相同或相似。
[0259]例如,第二标签确定装置7对人物A发布的内容中的每一个进行解析,提取该内容中的各个词语出现的频率,排除常用词、语气词以及连接词等,获取出现频率最高的多个词语作为该内容的关键词,并通过语义分析来判断该等关键词对应的人物标签为“医生”标签。
[0260]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,根据所述人物发布的内容,确定至少一个人物标签的实现方式,均应包含在本发明的范围内。
[0261]第二更新装置8根据所述至少一个人物标签,更新所述人物的人物标签。
[0262]其中,第二更新装置8根据所述至少一个人物标签,更新所述人物的人物标签的方式,与前述子更新装置根据一个或多个人物标签,更新所述人物的人物标签的方式相同或相似,在此不再赘述。
[0263]需要说明的是,为简便起见,图6中显示第一获取装置I的逻辑顺序在第二标签确定装置7和第二更新装置8之前,但本领域技术人员应能理解,第二标签确定装置7和第二更新装置8与第一获取装置I至提供装置5执行的操作之间并无先后顺序。
[0264]跟据本实施例的方案,人物的人物标签能够根据人物的发布内容进行更新,使得人物的标签能更有效的、更完整的反应人物的特征,且能够通过人物自身发布的内容,更准确的反应人物当前所具有的特征,减少了在人物搜索中出现人物遗漏或者人物标签不准确的情况,从而使得人物搜索的搜索结果更加全面,也更加符合用户的搜索条件。
[0265]需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,本发明的各个装置可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
[0266]对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此夕卜,显然“包括” 一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
【权利要求】
1.一种用于搜索人物的方法,其中,该方法包括以下步骤: a获取来自用户的搜索序列; b由所述搜索序列中获取至少一个搜索分词; c基于所述至少一个搜索分词获得至少一个候选人物,其中,所述至少一个搜索分词的全部或部分中的每个搜索分词均能与一个候选人物的人物标签中的一个或多个匹配;d根据各个候选人物的、与所述搜索分词匹配的人物标签的权重信息,对所述至少一个候选人物中的全部或部分候选人物进行排序;e将排序后的候选人物提供给所述用户。
2.根据权利要求1所述的方法,其中,所述步骤c包括以下步骤: -获取所述至少一个搜索分词中的每个搜索分词所匹配的人物列表; -确定在所有匹配获得的人物列表中均存在的人物,作为所述至少一个候选人物。
3.根据权利要求1或2所述的方法,其中,所述步骤d包括以下步骤: -对所述至少一个候选人物中的每一个候选人物,根据该候选人物的、与所述至少一个搜索分词匹配的人物标签的权重信息,确定该候选人物与所述搜索序列相对应的权重信息; -根据各个候选人物的权重信息,对所述至少一个候选人物中的全部或部分候选人物进行排序。
4.根据权利要求1或2所述的方法,其中,所述步骤d包括以下步骤: -根据各个候选人物的、与所述搜索分词匹配的人物标签的权重信息,并结合各个候选人物对应的认证信息,对所述至少一个候选人物中的全部或部分候选人物进行排序。
5.根据权利要求1至4中任一项所述的方法,其中,所述步骤b包括以下步骤: -对所述搜索序列进行分词,获得分词列表; -从所述分词列表中选择重要分词,作为所述至少一个搜索分词。
6.根据权利要求1至4中任一项所述的方法,其中,所述步骤b包括以下步骤: -对所述搜索序列进行分词,获得所述至少一个搜索分词; 其中,所述分词的操作考虑以下至少一项因素: -所述搜索序列的不同分词结果的语义差别; -所述搜索序列与预定分词词库的匹配结果。
7.根据权利要求1至6中任一项所述的方法,其中,该方法还包括以下步骤: X根据与一个人物相关联的其他人物的人物标签和/或所述其他人物发布的内容,更新所述人物的人物标签。
8.根据权利要求7所述的方法,其中,所述步骤X包括以下步骤: -根据与所述人物相关联的其他人物的地址特征与网络社交关系特征,将与所述人物相关联的其他人物划分为多个分组; -根据所述多个分组中全部或部分分组包含的所述其他人物的人物标签和/或所述其他人物发布的内容,获得一个或多个人物标签; -根据所述一个或多个人物标签,更新所述人物的人物标签。
9.根据权利要求1至8中任一项所述的方法,其中,该方法还包括以下步骤: -根据所述人物发布的内容,确定至少一个人物标签;-根据所述至少一个人物标签,更新所述人物的人物标签。
10.根据权利要求1至9中任一项所述的方法,其中,该方法还包括以下步骤: -根据以下至少一项因素,确定人物的人物标签的权重信息; -具有该人物标签的其他人物对该人物的关注程度; -该人物对具有该人物标签的其他人物的关注程度; -该人物发布的、具有该人物标签的特征的内容的数量; -该人物发布的、具有该人物标签的特征的内容被其他人物关注的程度; -该人物对其他人物发布的、具有该人物标签的特征的内容的关注程度; -该人物是否具有与该人物标签对应的认证信息。
11.一种用于搜索人物的搜索装置,其中,该搜索装置包括: 第一获取装置,用于获取来自用户的搜索序列; 第二获取装置,用于由所述搜索序列中获取至少一个搜索分词; 第一确定装置,用于基于所述至少一个搜索分词获得至少一个候选人物,其中,所述至少一个搜索分词的全部或部分中的每个搜索分词均能与一个候选人物的人物标签中的一个或多个匹配; 排序装置,用于根据各个候选人物的、与所述搜索分词匹配的人物标签的权重信息,对所述至少一个候选人物中的全部或部分候选人物进行排序; 提供装置,用于将排序后的候选人物提供给所述用户。
12.根据权利要求11所述的搜索装置,其中,所述第一确定装置包括: 列表获取装置,用于获取与所述至少一个搜索分词中的每个搜索分词所匹配的人物列表; 人物确定装置,用于确定在所有匹配获得的人物列表中均存在的人物,作为所述至少一个候选人物。
13.根据权利要求11或12所述的搜索装置,其中,所述排序装置包括: 第一权重确定装置,用于对所述至少一个候选人物中的每一个候选人物,根据该候选人物的、与所述至少一个搜索分词匹配的人物标签的权重信息,确定该候选人物与所述搜索序列相对应的权重信息; 第一子排序装置,用于根据各个候选人物的权重信息,对所述至少一个候选人物中的全部或部分候选人物进行排序。
14.根据权利要求11或12所述的搜索装置,其中,所述排序装置包括: 第二子排序装置,用于根据各个候选人物的、与所述搜索分词匹配的人物标签的权重信息,并结合各个候选人物对应的认证信息,对所述至少一个候选人物中的全部或部分候选人物进行排序。
15.根据权利要求11至14中任一项所述的搜索装置,其中,所述第二获取装置包括: 分词装置,用于对所述搜索序列进行分词,获得分词列表; 选择装置,用于从所述分词列表中选择重要分词,作为所述至少一个搜索分词。
16.根据权利要求11至14中任一项所述的搜索装置,其中,所述第二获取装置包括以下装置: 子获取装置:用于对所述搜索序列进行分词,获得所述至少一个搜索分词;其中,所述分词的操作考虑以下至少一项因素: -所述搜索序列的不同分词结果的语义差别; -所述搜索序列与预定分词词库的匹配结果。
17.根据权利要求11至16中任一项所述的搜索装置,其中,该搜索装置还包括: 第一更新装置,用于根据与一个人物相关联的其他人物的人物标签和/或所述其他人物发布的内容,更新所述人物的人物标签。
18.根据权利要求17所述的搜索装置,其中,所述第一更新装置包括: 分组装置,用于根据与所述人物相关联的其他人物的地址特征与网络社交关系特征,将与所述人物相关联的其他人物划分为多个分组; 第一标签确定装置,用于根据所述多个分组中全部或部分分组包含的所述其他人物的人物标签和/或所述其他人物发布的内容,获得一个或多个人物标签; 子更新装置,用于根据所述一个或多个人物标签,更新所述人物的人物标签。
19.根据权利要求11至18中任一项所述的搜索装置,其中,该搜索装置还包括: 第二标签确定装置,用于根据所述人物发布的内容,确定至少一个人物标签; 第二更新装置,用于根据所述至少一个人物标签,更新所述人物的人物标签。
20.根据权利要求11至19中任一项所述的搜索装置,其中,该搜索装置还包括: 第二权重确定装置,用于根据以下至少一项因素,确定人物的人物标签的权重信息; -具有该人物标签的其他人物对该人物的关注程度; -该人物对具有该人物标签的其他人物的关注程度; -该人物发布的、具有该人物标签的特征的内容的数量; -该人物发布的、具有该人物标签的特征的内容被其他人物关注的程度; -该人物对其他人物发布的、具有该人物标签的特征的内容的关注程度; -该人物是否具有与该人 物标签对应的认证信息。
21.一种计算机设备,包括如权利要求11至20中至少一项所述的搜索装置。
【文档编号】G06F17/30GK103744887SQ201310717845
【公开日】2014年4月23日 申请日期:2013年12月23日 优先权日:2013年12月23日
【发明者】张超, 赵世奇 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1