一种在网络设备中用于确定关键子词权重的方法和设备的制作方法

文档序号:6333359阅读:323来源:国知局
专利名称:一种在网络设备中用于确定关键子词权重的方法和设备的制作方法
技术领域
本发明涉及计算机网络技术,尤其涉及一种在网络设备中用于确定关键子词权重的方法和设备。
背景技术
网站上非目标关键词但也可以带来搜索流量的关键词,称为长尾关键词。长尾关键词由往往是2-3个词,甚至是短语组成,其除了内容页的标题,往往还存在于内容中。虽然长尾关键词搜索量少,并且较为不稳定,但其带来的客户转化为网站产品客户的概率却远高于目标关键词。因此,在搜索竞价拍卖中,不少用户会选择拍卖一定量的长尾关键词。但是,普通的搜索用户输入的query往往与所拍卖的长尾关键词意义相近但有所不同,因此,为了提高搜索准确性和搜索效率,需要确定长尾关键词中的核心词及其权重,而现有技术中,尚缺乏针对长尾关键词的核心词及其权重的确定方案。

发明内容
本发明的目的是提供一种在网络设备中用于确定关键子词权重的方法和设备。根据本发明的一个方面,提供一种在网络设备中用于确定关键子词权重的方法, 其中,该方法包括以下步骤
a获取来自用户的长尾关键词;
b根据第一预定规则并基于关联关键词来确定所述长尾关键词所包含的多个关键子词的权重,其中,所述关联关键词与所述多个关键子词中的至少一个相关联。根据本发明的另一个方面,还提供了一种用于确定关键子词权重的网络设备,其中,该网络设备包括
第一获取装置、用于获取来自用户的长尾关键词;
权重分析装置、用于根据第一预定规则并基于关联关键词来确定所述长尾关键词所包含的多个关键子词的权重,其中,所述关联关键词与所述多个关键子词中的至少一个相关联。与现有技术相比,本发明具有以下优点1)与现有技术中多从大段的文本中或 query中提取关键词不同,本发明提供的确定关键子词的方案针对长尾关键词,能够有效地判断长尾关键词中所包含的关键子词的权重;2)本发明通过横向分析用户的关键词的内聚性及/或纵向分析来自该用户的长尾关键词与其他用户的关键词之间的关联,进一步提高了权重判断的准确性。


通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显图1为本发明一个方面的在网络设备中用于确定关键子词权重的方法流程图; 图2为本发明一个优选实施例的在网络设备中用于确定关键子词权重的方法流程图; 图3为本发明另一优选实施例的在网络设备中用于确定关键子词权重的方法流程图; 图4为本发明另一个优选实施例的在网络设备中用于确定关键子词权重的方法流程
图5为本发明一个优选实施例的关联关系集的树型结构示意图; 图6为本发明再一优选实施例的在网络设备中用于确定关键子词权重的方法流程图; 图7为本发明一个方面的用于确定关键子词权重的网络设备结构示意图; 图8为本发明一个优选实施例的用于确定关键子词权重的网络设备结构示意图; 图9为本发明另一优选实施例的用于确定关键子词权重的网络设备结构示意图; 图10为本发明另一个优选实施例的用于确定关键子词权重的网络设备结构示意图; 图11为本发明再一优选实施例的用于确定关键子词权重的网络设备结构示意图; 附图中相同或相似的附图标记代表相同或相似的部件。
具体实施例方式下面结合附图对本发明作进一步详细描述。图1为示出了本发明一个方面的在网络设备中用于确定关键子词权重的方法流程图。其中,所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。在步骤Sl中,网络设备获取来自用户的长尾关键词。其中,所述长尾关键词包含多个关键子词,所述关键子词为可从所述长尾关键词中分离的词汇,并且,属于同一长尾关键词的各个关键子词可相关联,例如,长尾关键词“北京鲜花速递”中,“北京鲜花”、“鲜花速递” “北京”、“鲜花”、“速递”均为该长尾关键词所包含的关键子词。具体地,网络设备获取所述长尾关键词的方式包括但不限于
1)网络设备从该用户的关键词库中获取长尾关键词;
网络设备在该用户的关键词库中进行查找,根据查找得到的关键词是否在语义上包含多个词,来判断并获得长尾关键词;或者,网络设备已对关键词进行分类,网络设备可直接从中分类后的关键词库中获取长尾关键词;
其中,用户可通过任何一种能够与所述网络设备建立连接的用户设备,输入所述长尾关键词,以使所述网络设备将所述关键词记录至该用户的关键词库中,所述用户设备包括但不限于计算机、智能手机、PDA或IPTV等;或者,所述长尾关键词可直接由网络端操作人员直接输入至该用户的关键词库中;
2)网络设备直接获取用户通过用户设备输入的长尾关键词;
用户可通过安装在用户设备上的客户端,或通过浏览器连接网络设备,将需要分析的长尾关键词提供给网络设备。接着,在步骤S2中,网络设备根据第一预定规则并基于关联关键词来确定所述长尾关键词所包含的多个关键子词的权重。其中,所述关联关键词与所述多个关键子词中的至少一个相关联,所述关联关键词可为仅在语义上包含一个词的关键词,也可为其他长尾关键词。当所述长尾关键词所包含的多个关键子词中的至少一个与所述在在语义上包含一个词的关键词相同或相似,即可认为该关键词与所述长尾关键词相关联;当所述长尾关键词所包含的多个关键子词中的至少一个出现在所述其他长尾关键词中或与该其他长尾关键词所包含的至少一个关键子词相似时,即可认为该关键词与所述长尾关键词相关联。网络设备在根据第一预定规则及关联关键词,确定所述多个关键子词的权重的过程中,参照以下至少一项因素
-所述多个关键子词或其近似词分别出现的次数;
具体地,网络设备在该用户的关键词库中及/或其他用户的关键词库中查找关联关键词,并记录所述多个关键子词出现在所述关联关键词中的次数,即记录分别与所述多个关键子词相关联的关联关键词的个数,所记录得到的次数越多,则该关键子词的权重越高; -所述多个关键子词和与其相关的所述关联关键词的语义相似度; 具体地,网络设备在该用户的关键词库中及/或其他用户的关键词库中查找关联关键词,并对于每个关键子词,分别分析该关键子词与该关键子词相关联的各个关联关键词之间的相似度,例如,当该关键子词与一个关键关键词完全相同,则给予第一等级的相似度评价,当该关键子词与一个关联关键词在语义上相似,则给予第二等级的相似度评价,当该关键子词与一个关联关键词中的部分相同或相似,则给予第三等级的评价等,然后,综合分析该关键子词与各个关联关键词之间的相似度,例如,对所述相似度进行平均计算等,来得到权重。本发明中,还可综合上述两个参数,得到权重。例如,根据所述多个关键子词或其近似词分别出现在所述关联关键词中的次数得到权重后,再根据所述多个关键子词和与其相关的所述关联关键词的语义相似度来调整所述权重。需要说明的是,本领域技术人员应该理解,上述举例仅为更好地说明本发明的技术方案,而非对本发明所做的限制,任何根据所述第一预定规则及关联关键词,确定所述多个关键子词的权重的方案,均应包含在本发明的范围内,并以引用的方式包含于此。图2示出了本发明一个较佳实施例的在网络设备中用于确定关键子词权重的方法流程图。本实施例中,步骤S2进一步包括步骤S211及步骤S212。在步骤Sl中,网络设备获取来自用户的长尾关键词。本步骤已在参照图1所述的实施例中予以详述,在此以引用的方式包含,不再赘述。接着,在步骤S211中,网络设备基于所述长尾关键词,从来自该用户的其他关键词中获取所述关联关键词。具体地,网络设备在该用户的其他关键词中进行匹配,当判断该长尾关键词的全部或者部分内容,能够与其他关键词的全部或者部分内容相匹配,则认为该长尾关键词与该其他关键词相关联。例如,所述长尾关键词为“鲜花速递”,而该用户的关键词中还包括“鲜花”、“北京鲜花速递”、“北京鲜花”,则网络设备在将“鲜花速递”与“北京鲜花速度”匹配的过程中,判断该长尾关键词的全部内容“鲜花速递”与“北京鲜花速度”中的部分内容“鲜花”相匹配, “北京鲜花速度”是“鲜花速递”的关联关键词,在将“鲜花速递”与“鲜花”匹配的过程中, 判断该长尾关键词“鲜花速递”中的部分内容与“鲜花”的全部内容相匹配,“鲜花”是“鲜花速递”的关联关键词,在将“鲜花速递”与“北京鲜花”匹配的过程中,判断该长尾关键词“鲜花速递”的部分内容“鲜花”与“北京鲜花”中的部分内容“鲜花”相匹配,“北京鲜花速度”是“鲜花速递”的关联关键词。或者,网络设备通过语义分析所述长尾关键词,得到所述长尾关键词所包含的多个关键子词,并判断其中一个或多个关键子词能够与来自该用户的其他关键词的全部或部分内容相匹配,则认为该长尾关键词与该其他关键词相关联。例如,分析“鲜花速递”,得到“鲜花”、“速递”两个关键子词,并通过判断两个关键子词是否与来自该用户的其他关键词中的全部或部分内容相匹配,例如“鲜花”与“鲜花”中的全部内容相匹配,“速递”与“北京鲜花速递”中的部分内容相匹配等,来得到关联关键词。需要说明的是,虽然上述例子均以是将相同的词作为相匹配为例,但本领域技术人员应该理解,相似的词,如“鲜花”与“花朵”,亦可认为相匹配。最后,在步骤S212中,网络设备根据第一预定规则并基于来自该用户的关联关键词来确定所述多个关键子词的权重。网络设备在根据第一预定规则及来自该用户的关联关键词,确定所述多个关键子词的权重的过程中,参照以下至少一项因素
"所述多个关键子词或其近似词分别出现在所述关联关键词中的次数; 具体地,网络设备并记录所述多个关键子词出现在已得到的所述关联关键词中的次数,即记录分别与所述多个关键子词相关联的关联关键词的个数,所记录得到的次数越多, 则该关键子词的权重越高;
例如,关键子词“鲜花”出现在“鲜花”、“北京鲜花速递”、“北京鲜花”三个关联关键字中,而“速递”进出现在“北京鲜花速递” 一个关联关键词中,则“鲜花”的权重较高,“速递” 的权重较低;
"所述多个关键子词与所述关联关键词的语义相似度;
具体地,对于每个关键子词,网络设备分别分析该关键子词与该关键子词相关联的各个关联关键词之间的相似度,例如,当该关键子词与一个关键关键词完全相同,则给予第一等级的相似度评价,当该关键子词与一个关联关键词在语义上相似,则给予第三等级的相似度评价,当该关键子词与一个关联关键词中的部分内容相同或相似,则给予第二等级的评价等,然后,综合分析该关键子词与各个关联关键词之间的相似度,例如,对所述相似度进行统计及处理等,来得到权重;
例如,关键子词“鲜花”与关联关键词“鲜花”相同,给予第一等级的相似度评价,“鲜花” 与关联关键词“花朵”语义相似,给予第三等级的相似度评价,“鲜花”与“北京鲜花速递”中的部分内容相同,给予第二等级的评价,最后,将“鲜花”所得的相似度进行统计处理,确定其综合评价所得的权重为第二等级等;
又例如,关键子词“速递”仅与“北京鲜花速递”中的部分内容相同,则直接给予第二等级的评价作为“速递”的评价。本发明中,还可综合上述两个参数,得到权重。具体地,根据所述多个关键子词或其近似词分别出现在所述关联关键词中的次数得到权重后,再根据所述多个关键子词与所述关联关键词的语义相似度来调整所述权重。例如,根据“鲜花”及其近似词出现所述关联关键词中的次数为三次,“速递”的出现次数为一次,得到“鲜花”权重较高,“速递”权重较低,并因“鲜花”根据相似度评价所得的等级与“速递”根据相似度评价所得的等级相同,则不调整两者的权重比。需要说明的是,步骤S211与步骤S212可同时进行,步骤S211每获取一个关联关键词,步骤S212即可相应地根据该关联关键词建立或调整关键子词的权重。需要进一步说明的是,本领域技术人员应该理解,上述举例仅为更好地说明本发明的技术方案,而非对本发明所做的限制,任何根据所述第一预定规则及关联关键词,确定所述多个关键子词的权重的方案,均应包含在本发明的范围内,并以引用的方式包含于此。图3示出了本发明另一较佳实施例的在网络设备中用于确定关键子词权重的方法流程图。本实施例中,步骤S2进一步包括步骤S221及步骤S222。在步骤Sl中,网络设备获取来自用户的长尾关键词。本步骤已在参照图1所述的实施例中予以详述,在此以引用的方式包含,不再赘述。接着,在步骤S221中,网络设备基于所述长尾关键词,从来自其他用户的关键词中获取所述关联关键词。本步骤与前述步骤S211的差别在于,网络设备从其他用户的关键词中而非该用户的关键词中获取关联关键词,但其获取关联关键词的方法与前述步骤S211 相同或相似,因此,以引用的方式包含于此,不再赘述。最后,在步骤S222中,网络设备根据所述第一预定规则并基于来自其他用户的关联关键词来确定所述多个关键子词的权重。本步骤与前述步骤S212的差别在于,所述关联关键词来自其他用户的关键词中而非来自该用户的关键词中,但其确定权重的方法与前述步骤S212相同或相似,因此,以引用的方式包含于此,不再赘述。需要说明的是,步骤S221与步骤S222可同时进行,步骤S221每获取一个关联关键词,步骤S222即可相应地根据该关联关键词建立或调整关键子词的权重。图4示出了本发明另一个较佳实施例的在网络设备中用于确定关键子词权重的方法流程图。本实施例中,步骤S2进一步包括步骤S223步骤S232、步骤S233及步骤S234。在步骤Sl中,网络设备获取来自用户的长尾关键词。本步骤已在参照图1所述的实施例中予以详述,在此以引用的方式包含,不再赘述。接着,在步骤S231中,网络设备基于所述长尾关键词,从来自该用户的其他关键词中获取一个或多个关联关键词,以根据所述一个或多个关联关键词建立所述长尾关键词与所述关键子词中的一个或多个的第一关联关系。本步骤中,如何获取一个或多个关联关键词的步骤与前述步骤S211相同或相似,因此,以引用的方式包含于此,不再赘述。网络设备在获取所述关联关键词的过程中,或者,获得全部关联关键词后,根据所述关联关键词所相关的一个或多个关键子词,建立所述长尾关键词与所述一个或多个关键子词的第一关联关系。其中,所述第一关联关系表示基于一个用户建立的一个长尾关键词与在该用户的关键词库中能够分析得到的关键子词的关联关系。具体地,当网络设备每获取到一个关联关键词,即以所述长尾关键词及该关联关键词所相关的一个或多个关键子词为节点,所述长尾关键词与该一个或多个关键子词的相关性为边,建立该长尾关键词与该关联关键词一个或多个关键子词之间的关联关系,直至获取了所有的关联关键词,完整建立了所述长尾关键词与一个或多个关键子词的第一关联关系。例如,当网络设备在该用户的其他关键词中获取到了长尾关键词“鲜花速递”的关联关键词“鲜花”,该关联关键词所相关的关键子词为“鲜花”,即以“鲜花速递”及“鲜花”为节点,两者的相关性为边,建立“鲜花速递”与“鲜花”的关联关系;随后,网络设备又在该用户的其他关键词中获取到了关联关键词“鲜花快递”,该关联关键词所相关的关键子词为 “鲜花”,由于“鲜花速递”与“鲜花”的关联关系已建立,因此,网络设备不再重复建立两者的关联关系,随后,网络设备未在该用户的其他关键词中继续查找关联关键词,则网络设备判断长尾关键词“鲜花速递”基于该用户建立的第一关联关系为“鲜花速递”与“鲜花”的关联关系。或者,获取所有关联关键词后,网络设备以所述长尾关键词及所述所有关联关键词所相关的多个关键子词为节点,所述长尾关键词与所述所有多个关键子词的相关性为
边,建立第一关联关系。例如,网络设备在该用户的其他关键词中查找得到了关联关键词“鲜花”及“鲜花快递”,建立长尾关键词“鲜花速递”基于该用户建立的第一关联关系为“鲜花速递”与“鲜花”的关联关系。需要说明的是,上述关联关系的结构包括但不限于1)树型结构;2)链接结构;3) 对应表等。本领域技术人员应该理解,本发明所指的关联关系并非以上述结构为限,任何能够建立所述长尾关键词及其关联关键词的关联关系的方案均应包含在本发明的范围内,并以引用的方式包含。接着,在步骤S232中,网络设备查找基于所述长尾关键词及从来自其他用户的关键词库中获取的一个或多个关联关键词而建立的基于该其他用户的所述长尾关键词与所述关键子词中的一个或多个的第一关联关系。例如,对于长尾关键词“鲜花速递”,网络设备查找得到基于其他两个用户的该长尾关键词与其关键子词的第一关联关系,例如,基于其中一个用户的第一关联关系为“鲜花速递”与“鲜花”,基于另一个用户的第一关联关系为“鲜花速递”与“速递”。接着,在步骤S233中,网络设备将基于该用户的所述长尾关键词与所述关键子词中的一个或多个的第一关联关系与基于该其他用户的所述长尾关键词与所述关键子词中的一个或多个的第一关联关系合并,以获得所述长尾关键词与所述关键子词中的一个或多个的第二关联关系。其中,所述第二关联关系表示一个长尾关键词基于多个用户建立的该长尾关键词与其一个或多个关键子词间的关联关系。例如,网络设备将基于该用户的所述长尾关键词“鲜花速递”与所述关键子词中的一个“鲜花”的第一关联关系,与基于其他两个用户的两个第一关联关系“鲜花速递”与“鲜花”、“鲜花速递”与“速递”合并,得到长尾关键词“鲜花速递”与其两个关键子词“鲜花”、 “速递”的第二关联关系鲜花速递,(鲜花,速递)。最后,在步骤S234中,网络设备根据所述第一预定规则,基于所述第二关联关系, 来确定所述多个关键子词的权重。其中,所述第一预定规则根据以下至少一项因素来确定所述关键子词的权重 "所述多个关键子词或其近似词出现的次数;
例如,对于第二关联关系鲜花速递,(鲜花,速递),网络设备在建立所述第一关联关系及第二关联关系的过程中,记录到“鲜花”出现过两次,“速递”出现过一次,则认为关键子词“鲜花”的权重高于关键子词“速递”的权重;
"所述多个关键子词和与所述长尾关键词的语义相似度;
11其中,所述语义相似度可通过该关键子词与所述长尾关键词在第二关联关系中的接近度来进行判断,例如,对于第二关联关系鲜花速递,(鲜花,速递),由于“鲜花”及“速递” 均直接与“鲜花速递”建立连接,则确定鲜花”及“速递”的权值相同。然而,本领域技术人员应该理解,本发明中,还可综合上述两个参数,得到权重。具体地,根据所述多个关键子词出现的次数得到权重后,再根据所述多个关键子词与所述长尾关键词的语义相似度来调整所述权重。需要说明的是,上述所举例子,仅为更好地说明本发明的方案,而非对本发明所作的限制,本领域技术人员应该理解,任何根据第一关联关系建立所述第二关联关系,并确定关键子词权重的方案,均应包含在本发明的范围内,并以引用的方式包含。优选地,本实施例还包括步骤S4 (图未示)、S5 (图未示)及S6 (图未示)。在步骤S4中,网络设备查找其他长尾关键词与其关键子词中的一个或多个的第二关联关系。接着,在步骤S5中,网络设备根据所述长尾关键词与其关键子词中的一个或多个的第二关联关系及所述其他长尾关键词与其关键子词中的一个或多个的第二关联关系,来建立关联关系集。具体地,网络设备通过判断所查找的所述其他长尾关键词是否包含所述长尾关键词或是否与该长尾关键词的关键子词相同,来判断是否能够将所述长尾关键词的第二关联关系与所述其他长尾关键词的第二关联关系合并,若能够,则进行合并,来建立关联关系集。例如,当网络设备查找得到长尾关键词“北京鲜花速递”,则认为“北京鲜花速递” 包含长尾关键词“鲜花速递”,将“北京鲜花速度”与“鲜花速递”的第二关联关系进行合并, 例如“北京鲜花速度”的第二关联关系为北京鲜花速递,(北京鲜花,鲜花速递),“鲜花速递”的第二关联关系为鲜花速递,(鲜花,速递),则合并得到{北京鲜花速递,北京鲜花, 鲜花速递(鲜花,速递)},其树型结构图如图5所示。最后,在步骤S6中,根据所述第一预定规则,确定所述长尾关键词及其他长尾关键词所包含的多个关键子词的权重。其中,所述第一预定规则根据以下至少一项因素来确定所述关键子词的权重 -所述多个关键子词或其近似词出现的次数;
例如,对于关联关系集{北京鲜花速递,北京鲜花,鲜花速递(鲜花,速递)},网络设备在建立所述第一关联关系、第二关联关系及所述关联关系集的过程中,记录到“鲜花速递” 出现过三次,“鲜花”出现过两次,“速递”出现过一次,“北京鲜花”出现过一次,则关键子词的权重顺序为“鲜花速递” > “鲜花” > “速递”=“北京鲜花”; -所述多个关键子词和与长尾关键词的语义相似度;
其中,所述语义相似度可通过该关键子词与所述长尾关键词在第二关联关系中的接近度来进行判断,例如,对于关联关系集{北京鲜花速递,北京鲜花,鲜花速递(鲜花,速递)},由于“鲜花”通过“鲜花速度”与“北京鲜花速递”连接,“北京鲜花”直接与“北京鲜花速递”连接,则确定“鲜花”的权值低于“北京速递”的权值相同。然而,本领域技术人员应该理解,本发明中,还可综合上述两个参数,得到权重。具体地,根据所述多个关键子词出现的次数得到权重后,再根据所述多个关键子词与所述长尾关键词的语义相似度来调整所述权重。需要进一步说明的是,若多个关联关系集中具有可合并的关键子词或长尾关键词,则多个关联关系集可进一步合并。优选地,当在步骤S231中,该用户的一个或多个关键词无法与其他来自该用户的关键词建立第一关联关系,则认为该一个或多个关键词为异常关键词,不对其进行处理。图6示出了本发明再一较佳实施例的在网络设备中用于确定关键子词权重的方法流程图。在步骤Sl中,网络设备获取来自用户的长尾关键词。本步骤已在参照图1所述的实施例中予以详述,在此以引用的方式包含,不再赘述。接着,在步骤S31中,网络设备对所述长尾关键词进行语义分析,以获得所述多个关键子词。例如,对于长尾关键词“北京鲜花速递”进行语义分析,获得三个关键子词“北京”、 “鲜花”、“速递”。接着,在步骤S32中,网络设备根据第二预定规则,得到所述多个关键子词的初始权重。其中,所述第二预定规则包括根据以下至少一项因素来确定所述关键子词的初始权重
"所述多个关键子词在总关键词库中的分布状况;
其中,所述总关键词库是指包含所有用户关键词的词库,所述分布状况包括但不限于 1)关键子词出现在所述总关键词库中的次数;2)关键子词在所述总关键词库中的疏密;
例如,对于关键子词“北京”、“鲜花”、“速递”,“鲜花”、“速递”,出现次数较多,初始权重较高,“北京”出现次数较少,初始权重较低;
又例如,对于关键子词“北京”、“鲜花”、“速递”,出现越密集的关键子词初始权重越高; -所述多个关键子词是否为实;
可根据实体词典判断所述多个关键子词是否为实体,若为实体,则初始权重较高,若非实体,则初始权重较低。最后,在步骤S2’中,网络设备根据所述第一预定规则并基于所述关联关键词来调整所述初始权重,以得到所述多个关键子词的权重。具体的,网络设备首先根据所述第一预定规则并基于所述关联关键词来获得一个估计权重,其中,如何获得该估计权重的方法与参照图1至图4所示的实施例中确定关键子词权重的方法相同或相似,在此以引用的方式包含,不再赘述。随后,网络设备根据所述估计权重,调整所述初始权重,以获得多个关键子词的权重。调整的方法包括但不限于1)对所述估计权重与所述初始权重进行平均计算;2)对所述估计权重与所述初始权重进行方差计算;3)对所述估计权重及所述初始权重加权后运算等等。本领域技术人员应理解,根据所述估计权重与所述初始权重获得多个关键子词的权重的方法并不限于上述举例。优选地,本发明还包括当一个关键子词的初始权重小于第一预定阈值,则保持该关键子词的初始权重的步骤(图未示)。事实上,确定关键子词权重的过程,也是确定长尾关键词中的核心词的过程,对于权重低于第一预定阈值的关键子词,即可认为该关键子词不是核心词。
13
在确定关键子词初始权重的步骤S32中,当根据实体词典,判断关键子词不是实体,例如长尾关键词“购买手机”中的关键子词“购买”等,则可直接确定该关键子词的权重低于第一预定阈值,则在后续的步骤中,保持该关键子词的初始权重,无需再对该关键子词进行处理,以节省系统资源。作为本发明的一个优选实施例,本发明还包括根据所述用户的用户相关信息,调整所述多个关键子词的权重的步骤(图未示)。其中,所述用户相关信息包括以下至少一项 -所述用户的属性;
其中,所述用户的属性包括但不限于该用户所在的行业、该用户的特性,用户购买的关键词的多少等。例如,若该用户所在的行业为鲜花销售行业,则对于关键子词“鲜花”、“速递”,将 “鲜花”的权重提高;
-所述用户设定的搜索效果偏好;
对于不同的关键子词,往往会带来不同的搜索效果倾向,网络设备可根据用户设定的搜索效果偏好,将自身的搜索效果倾向符合用户的搜索效果偏好的关键子词的权重提高寸。本领域技术人员应该理解,本发明所述的根据用户相关信息来调整关键子词权重的方法并不限于上述举例。图7为示出了本发明一个方面的用于确定关键子词权重的网络设备结构示意图。 本实施例中,网络设备包括第一获取装置1及权重分析装置2。第一获取装置1获取来自用户的长尾关键词。其中,所述长尾关键词包含多个关键子词,所述关键子词为可从所述长尾关键词中分离的词汇,并且,属于同一长尾关键词的各个关键子词可相关联,例如,长尾关键词“北京鲜花速递”中,“北京鲜花”、“鲜花速递”“北京”、“鲜花”、“速递”均为该长尾关键词所包含的关键子词。具体地,第一获取装置1获取所述长尾关键词的方式包括但不限于
1)第一获取装置1从该用户的关键词库中获取长尾关键词;
第一获取装置1在该用户的关键词库中进行查找,根据查找得到的关键词是否在语义上包含多个词,来判断并获得长尾关键词;或者,网络设备已对关键词进行分类,第一获取装置1可直接从中分类后的关键词库中获取长尾关键词;
其中,用户可通过任何一种能够与所述网络设备建立连接的用户设备,输入所述长尾关键词,以使所述网络设备将所述关键词记录至该用户的关键词库中,所述用户设备包括但不限于计算机、智能手机、PDA或IPTV等;或者,所述长尾关键词可直接由网络端操作人员直接输入至该用户的关键词库中;
2)第一获取装置1直接获取用户通过用户设备输入的长尾关键词;
用户可通过安装在用户设备上的客户端,或通过浏览器连接网络设备,将需要分析的长尾关键词提供给网络设备。权重分析装置2根据第一预定规则并基于关联关键词来确定所述长尾关键词所包含的多个关键子词的权重。其中,所述关联关键词与所述多个关键子词中的至少一个相关联,所述关联关键词可为仅在语义上包含一个词的关键词,也可为其他长尾关键词。当所述长尾关键词所包含的多个关键子词中的至少一个与所述在在语义上包含一个词的关键词相同或相似,即可认为该关键词与所述长尾关键词相关联;当所述长尾关键词所包含的多个关键子词中的至少一个出现在所述其他长尾关键词中或与该其他长尾关键词所包含的至少一个关键子词相似时,即可认为该关键词与所述长尾关键词相关联。权重分析装置2在根据第一预定规则及关联关键词,确定所述多个关键子词的权重的过程中,参照以下至少一项因素
“所述多个关键子词或其近似词分别出现在所述关联关键词中的次数; 具体地,权重分析装置2在该用户的关键词库中及/或其他用户的关键词库中查找关联关键词,并记录所述多个关键子词出现在所述关联关键词中的次数,即记录分别与所述多个关键子词相关联的关联关键词的个数,所记录得到的次数越多,则该关键子词的权重越高;
-所述多个关键子词和与其相关的所述关联关键词的语义相似度; 具体地,权重分析装置2在该用户的关键词库中及/或其他用户的关键词库中查找关联关键词,并对于每个关键子词,分别分析该关键子词与该关键子词相关联的各个关联关键词之间的相似度,例如,当该关键子词与一个关键关键词完全相同,则给予第一等级的相似度评价,当该关键子词与一个关联关键词在语义上相似,则给予第二等级的相似度评价, 当该关键子词与一个关联关键词中的部分相同或相似,则给予第三等级的评价等,然后,综合分析该关键子词与各个关联关键词之间的相似度,例如,对所述相似度进行平均计算等, 来得到权重。本发明中,还可综合上述两个参数,得到权重。例如,根据所述多个关键子词或其近似词分别出现在所述关联关键词中的次数得到权重后,再根据所述多个关键子词和与其相关的所述关联关键词的语义相似度来调整所述权重。需要说明的是,本领域技术人员应该理解,上述举例仅为更好地说明本发明的技术方案,而非对本发明所做的限制,任何根据所述第一预定规则及关联关键词,确定所述多个关键子词的权重的方案,均应包含在本发明的范围内,并以引用的方式包含于此。图8示出了本发明一个较佳实施例的用于确定关键子词权重的网络设备结构示意图。本实施例中,网络设备包括第一获取装置1及权重分析装置2,其中,权重分析装置2 包括第二获取装置211及第一子分析装置212。第一获取装置1获取来自用户的长尾关键词。由于第一获取装置1已在参照图6 所述的实施例中予以详述,因此,在此以引用的方式包含,不再赘述。第二获取装置211基于所述长尾关键词,从来自该用户的其他关键词中获取所述关联关键词。具体地,第二获取装置211在该用户的其他关键词中进行匹配,当判断该长尾关键词的全部或者部分内容,能够与其他关键词的全部或者部分内容相匹配,则认为该长尾关键词与该其他关键词相关联。例如,所述长尾关键词为“鲜花速递”,而该用户的关键词中还包括“鲜花”、“北京鲜花速递”、“北京鲜花”,则第二获取装置211在将“鲜花速递”与“北京鲜花速度”匹配的过程中,判断该长尾关键词的全部内容“鲜花速递”与“北京鲜花速度”中的部分内容“鲜花” 相匹配,“北京鲜花速度”是“鲜花速递”的关联关键词,在将“鲜花速递”与“鲜花”匹配的过程中,判断该长尾关键词“鲜花速递”中的部分内容与“鲜花”的全部内容相匹配,“鲜花” 是“鲜花速递”的关联关键词,在将“鲜花速递”与“北京鲜花”匹配的过程中,判断该长尾关键词“鲜花速递”的部分内容“鲜花”与“北京鲜花”中的部分内容“鲜花”相匹配,“北京鲜花速度”是“鲜花速递”的关联关键词。或者,第二获取装置211通过语义分析所述长尾关键词,得到所述长尾关键词所包含的多个关键子词,并判断其中一个或多个关键子词能够与来自该用户的其他关键词的全部或部分内容相匹配,则认为该长尾关键词与该其他关键词相关联。例如,分析“鲜花速递”,得到“鲜花”、“速递”两个关键子词,并通过判断两个关键子词是否与来自该用户的其他关键词中的全部或部分内容相匹配,例如“鲜花”与“鲜花”中的全部内容相匹配,“速递”与“北京鲜花速递”中的部分内容相匹配等,来得到关联关键词。需要说明的是,虽然上述例子均以是将相同的词作为相匹配为例,但本领域技术人员应该理解,相似的词,如“鲜花”与“花朵”,亦可认为相匹配。第一子分析装置212根据第一预定规则并基于来自该用户的关联关键词来确定所述多个关键子词的权重。第一子分析装置212在根据第一预定规则及来自该用户的关联关键词,确定所述多个关键子词的权重的过程中,参照以下至少一项因素
-所述多个关键子词或其近似词分别出现在所述关联关键词中的次数; 具体地,第一子分析装置212并记录所述多个关键子词出现在已得到的所述关联关键词中的次数,即记录分别与所述多个关键子词相关联的关联关键词的个数,所记录得到的次数越多,则该关键子词的权重越高;
例如,关键子词“鲜花”出现在“鲜花”、“北京鲜花速递”、“北京鲜花”三个关联关键字中,而“速递”进出现在“北京鲜花速递” 一个关联关键词中,则“鲜花”的权重较高,“速递” 的权重较低;
-所述多个关键子词与所述关联关键词的语义相似度;
具体地,对于每个关键子词,第一子分析装置212分别分析该关键子词与该关键子词相关联的各个关联关键词之间的相似度,例如,当该关键子词与一个关键关键词完全相同, 则给予第一等级的相似度评价,当该关键子词与一个关联关键词在语义上相似,则给予第三等级的相似度评价,当该关键子词与一个关联关键词中的部分内容相同或相似,则给予第二等级的评价等,然后,综合分析该关键子词与各个关联关键词之间的相似度,例如,对所述相似度进行统计及处理等,来得到权重;
例如,关键子词“鲜花”与关联关键词“鲜花”相同,给予第一等级的相似度评价,“鲜花” 与关联关键词“花朵”语义相似,给予第三等级的相似度评价,“鲜花”与“北京鲜花速递”中的部分内容相同,给予第二等级的评价,最后,将“鲜花”所得的相似度进行统计处理,确定其综合评价所得的权重为第二等级等;
又例如,关键子词“速递”仅与“北京鲜花速递”中的部分内容相同,则直接给予第二等级的评价作为“速递”的评价。本发明中,还可综合上述两个参数,得到权重。具体地,根据所述多个关键子词或其近似词分别出现在所述关联关键词中的次数得到权重后,再根据所述多个关键子词与所述关联关键词的语义相似度来调整所述权重。例如,根据“鲜花”及其近似词出现所述关联关键词中的次数为三次,“速递”的出现次数为一次,得到“鲜花”权重较高,“速递”权重较低,并因“鲜花”根据相似度评价所得的等级与“速递”根据相似度评价所得的等级相同,则不调整两者的权重比。需要说明的是,第二获取装置211与第一子分析装置212可同时进行操作,第二获取装置211每获取一个关联关键词,第一子分析装置212即可相应地根据该关联关键词建立或调整关键子词的权重。需要进一步说明的是,本领域技术人员应该理解,上述举例仅为更好地说明本发明的技术方案,而非对本发明所做的限制,任何根据所述第一预定规则及关联关键词,确定所述多个关键子词的权重的方案,均应包含在本发明的范围内,并以引用的方式包含于此。图9示出了本发明另一较佳实施例的用于确定关键子词权重的网络设备结构示意图。本实施例中,网络设备包括第一获取装置1及权重分析装置2,其中,权重分析装置2 包括第三获取装置221及第二子分析装置222。第一获取装置1获取来自用户的长尾关键词。由于第一获取装置1已在参照图6 所述的实施例中予以详述,因此,在此以引用的方式包含,不再赘述。第三获取装置221基于所述长尾关键词,从来自其他用户的关键词中获取所述关联关键词。第三获取装置221与第二获取装置211的差别在于,第三获取装置221从其他用户的关键词中而非该用户的关键词中获取关联关键词,但第三获取装置221获取所述关联关键词的方法与第二获取装置211相同或相似,因此,以引用的方式包含于此,不再赘述。第二子分析装置222根据所述第一预定规则并基于来自其他用户的关联关键词来确定所述多个关键子词的权重。第二子分析装置222与第一子分析装置S212的差别在于,所述关联关键词来自其他用户的关键词中而非来自该用户的关键词中,但第二子分析装置222确定权重的过程与第一子分析装置S212相同或相似,因此,以引用的方式包含于此,不再赘述。需要说明的是,第三获取装置221与第二子分析装置222可同时进行操作,第三获取装置221每获取一个关联关键词,第二子分析装置222即可相应地根据该关联关键词建立或调整关键子词的权重。图10示出了本发明另一个较佳实施例的用于确定关键子词权重的网络设备结构示意图。本实施例中,网络设备包括第一获取装置1及权重分析装置2,其中,权重分析装置 2包括第四获取装置231、第一查找装置232、第一合并装置233及第三子分析装置234。第一获取装置1获取来自用户的长尾关键词。由于第一获取装置1已在参照图6 所述的实施例中予以详述,因此,在此以引用的方式包含,不再赘述。第四获取装置231基于所述长尾关键词,从来自该用户的其他关键词中获取一个或多个关联关键词,以根据所述一个或多个关联关键词建立所述长尾关键词与所述关键子词中的一个或多个的第一关联关系。第四获取装置231如何获取一个或多个关联关键词的过程与第二获取装置211相同或相似,因此,以引用的方式包含于此,不再赘述。第四获取装置231在获取所述关联关键词的过程中,或者,获得全部关联关键词后,根据所述关联关键词所相关的一个或多个关键子词,建立所述长尾关键词与所述一个或多个关键子词的第一的关联关系。其中,所述第一关联关系表示基于一个用户建立的一个长尾关键词与在该用户的关键词库中能够分析得到的关键子词的关联关系。
具体地,当第四获取装置231每获取到一个关联关键词,即以所述长尾关键词及该关联关键词所相关的一个或多个关键子词为节点,所述长尾关键词与该一个或多个关键子词的相关性为边,建立该长尾关键词与该关联关键词一个或多个关键子词之间的关联关系,直至获取了所有的关联关键词,完整建立了所述长尾关键词与一个或多个关键子词的第一关联关系。例如,当第四获取装置231在该用户的其他关键词中获取到了长尾关键词“鲜花速递”的关联关键词“鲜花”,该关联关键词所相关的关键子词为“鲜花”,即以“鲜花速递”及 “鲜花”为节点,两者的相关性为边,建立“鲜花速递”与“鲜花”的关联关系;随后,第四获取装置231又在该用户的其他关键词中获取到了关联关键词“鲜花快递”,该关联关键词所相关的关键子词为“鲜花”,由于“鲜花速递”与“鲜花”的关联关系已建立,因此,第四获取装置231不再重复建立两者的关联关系,随后,第四获取装置231未在该用户的其他关键词中继续查找关联关键词,则第四获取装置231判断长尾关键词“鲜花速递”基于该用户建立的第一关联关系为“鲜花速递”与“鲜花”的关联关系。或者,获取所有关联关键词后,第四获取装置231以所述长尾关键词及所述所有关联关键词所相关的多个关键子词为节点,所述长尾关键词与所述所有多个关键子词的相关性为边,建立第一关联关系。例如,第四获取装置231在该用户的其他关键词中查找得到了关联关键词“鲜花” 及“鲜花快递”,建立长尾关键词“鲜花速递”基于该用户建立的第一关联关系为“鲜花速递” 与“鲜花”的关联关系。需要说明的是,上述关联关系的结构包括但不限于1)树型结构;2)链接结构;3) 对应表等。本领域技术人员应该理解,本发明所指的关联关系并非以上述结构为限,任何能够建立所述长尾关键词及其关联关键词的关联关系的方案均应包含在本发明的范围内,并以引用的方式包含。第一查找装置232查找基于所述长尾关键词及从来自其他用户的关键词库中获取的一个或多个关联关键词而建立的基于该其他用户的所述长尾关键词与所述关键子词中的一个或多个的第一关联关系。例如,对于长尾关键词“鲜花速递”,第一查找装置232查找得到基于其他两个用户的该长尾关键词与其关键子词的第一关联关系,例如,基于其中一个用户的第一关联关系为“鲜花速递”与“鲜花”,基于另一个用户的第一关联关系为“鲜花速递”与“速递”。第一合并装置233将基于该用户的所述长尾关键词与所述关键子词中的一个或多个的第一关联关系与基于该其他用户的所述长尾关键词与所述关键子词中的一个或多个的第一关联关系合并,以获得所述长尾关键词与所述关键子词中的一个或多个的第二关联关系。其中,所述第二关联关系表示一个长尾关键词基于多个用户建立的该长尾关键词与其一个或多个关键子词间的关联关系。例如,第一合并装置233将基于该用户的所述长尾关键词“鲜花速递”与所述关键子词中的一个“鲜花”的第一关联关系,与基于其他两个用户的两个第一关联关系“鲜花速递”与“鲜花”、“鲜花速递”与“速递”合并,得到长尾关键词“鲜花速递”与其两个关键子词 “鲜花”、“速递”的第二关联关系鲜花速递,(鲜花,速递)。第三子分析装置234根据所述第一预定规则,基于所述第二关联关系,来确定所述多个关键子词的权重。其中,所述第一预定规则根据以下至少一项因素来确定所述关键子词的权重 “所述多个关键子词或其近似词出现的次数;
例如,对于第二关联关系鲜花速递,(鲜花,速递),在建立所述第一关联关系及第二关联关系的过程中,记录到“鲜花”出现过两次,“速递”出现过一次,则第三子分析装置234 认为关键子词“鲜花”的权重高于关键子词“速递”的权重; -所述多个关键子词和与所述长尾关键词的语义相似度;
其中,所述语义相似度可通过该关键子词与所述长尾关键词在第二关联关系中的接近度来进行判断,例如,对于第二关联关系鲜花速递,(鲜花,速递),由于“鲜花”及“速递” 均直接与“鲜花速递”建立连接,则第三子分析装置234确定鲜花”及“速递”的权值相同。然而,本领域技术人员应该理解,本发明中,还可综合上述两个参数,得到权重。具体地,根据所述多个关键子词出现的次数得到权重后,再根据所述多个关键子词与所述长尾关键词的语义相似度来调整所述权重。需要说明的是,上述所举例子,仅为更好地说明本发明的方案,而非对本发明所作的限制,本领域技术人员应该理解,任何根据第一关联关系建立所述第二关联关系,并确定关键子词权重的方案,均应包含在本发明的范围内,并以引用的方式包含。优选地,本实施例还包括第二查找装置(图未示)、第二合并装置(图未示)及第四子分析装置。第二查找装置查找其他长尾关键词与其关键子词中的一个或多个的第二关联关系。第二合并装置根据所述长尾关键词与其关键子词中的一个或多个的第二关联关系及所述其他长尾关键词与其关键子词中的一个或多个的第二关联关系,来建立关联关系集。具体地,第二合并装置通过判断所查找的所述其他长尾关键词是否包含所述长尾关键词或是否与该长尾关键词的关键子词相同,来判断是否能够将所述长尾关键词的第二关联关系与所述其他长尾关键词的第二关联关系合并,若能够,则进行合并,来建立关联关系集。例如,当第二查找装置查找得到长尾关键词“北京鲜花速递”,则认为“北京鲜花速递”包含长尾关键词“鲜花速递”,将“北京鲜花速度”与“鲜花速递”的第二关联关系进行合并,例如“北京鲜花速度”的第二关联关系为北京鲜花速递,(北京鲜花,鲜花速递),“鲜花速递”的第二关联关系为鲜花速递,(鲜花,速递),则合并得到{北京鲜花速递,北京鲜花,鲜花速递(鲜花,速递)},其树型结构图如图5所示。第四子分析装置根据所述第一预定规则,确定所述长尾关键词及其他长尾关键词所包含的多个关键子词的权重。其中,所述第一预定规则根据以下至少一项因素来确定所述关键子词的权重 "所述多个关键子词或其近似词出现的次数;
例如,对于关联关系集{北京鲜花速递,北京鲜花,鲜花速递(鲜花,速递)},在建立所述第一关联关系、第二关联关系及所述关联关系集的过程中,记录到“鲜花速递”出现过三次,“鲜花”出现过两次,“速递”出现过一次,“北京鲜花”出现过一次,则第四子分析装置确
19定关键子词的权重顺序为“鲜花速递” > “鲜花” > “速递”=“北京鲜花”; "所述多个关键子词和与长尾关键词的语义相似度;
其中,所述语义相似度可通过该关键子词与所述长尾关键词在第二关联关系中的接近度来进行判断,例如,对于关联关系集{北京鲜花速递,北京鲜花,鲜花速递(鲜花,速递)},由于“鲜花”通过“鲜花速度”与“北京鲜花速递”连接,“北京鲜花”直接与“北京鲜花速递”连接,则第四子分析装置确定“鲜花”的权值低于“北京速递”的权值相同。然而,本领域技术人员应该理解,本发明中,还可综合上述两个参数,得到权重。具体地,根据所述多个关键子词出现的次数得到权重后,再根据所述多个关键子词与所述长尾关键词的语义相似度来调整所述权重。需要进一步说明的是,若多个关联关系集中具有可合并的关键子词或长尾关键词,则多个关联关系集可进一步合并。优选地,当第四获取装置231无法将该用户的一个或多个关键词无法与其他来自该用户的关键词建立第一关联关系,则认为该一个或多个关键词为异常关键词,不对其进行处理。图11示出了本发明再一较佳实施例的用于确定关键子词权重的网络设备结构示意图。本实施例中,网络设备包括第一获取装置1、语义分析装置31、初始权重分析装置32 及权重分析装置2。第一获取装置1获取来自用户的长尾关键词。由于第一获取装置1已在参照图6 所述的实施例中予以详述,因此,在此以引用的方式包含,不再赘述。语义分析装置31对所述长尾关键词进行语义分析,以获得所述多个关键子词。例如,语义分析装置31对于长尾关键词“北京鲜花速递”进行语义分析,获得三个关键子词“北京”、“鲜花”、“速递”。初始权重分析装置32根据第二预定规则,得到所述多个关键子词的初始权重。其中,所述第二预定规则包括根据以下至少一项因素来确定所述关键子词的初始权重
"所述多个关键子词在总关键词库中的分布状况;
其中,所述总关键词库是指包含所有用户关键词的词库,所述分布状况包括但不限于 1)关键子词出现在所述总关键词库中的次数;2)关键子词在所述总关键词库中的疏密;
例如,对于关键子词“北京”、“鲜花”、“速递”,初始权重分析装置32确定“鲜花”、“速递”,出现次数较多,初始权重较高,“北京”出现次数较少,初始权重较低;
又例如,对于关键子词“北京”、“鲜花”、“速递”,初始权重分析装置32确定出现越密集的关键子词初始权重越高;
-所述多个关键子词是否为实;
初始权重分析装置32可根据实体词典判断所述多个关键子词是否为实体,若为实体, 则初始权重较高,若非实体,则初始权重较低。权重分析装置2还根据所述第一预定规则并基于所述关联关键词来调整所述初始权重,以得到所述多个关键子词的权重。具体的,权重分析装置2首先根据所述第一预定规则并基于所述关联关键词来获得一个估计权重,其中,获得该估计权重的过程与参照图6至图9所示的实施例中确定关键子词权重的过程相同或相似,在此以引用的方式包含,不再赘述。随后,权重分析装置2根据所述估计权重,调整所述初始权重,以获得多个关键子词的权重。权重分析装置2对初始权重进行调整的方法包括但不限于1)对所述估计权重与所述初始权重进行平均计算;2) 对所述估计权重与所述初始权重进行方差计算;3)对所述估计权重及所述初始权重加权后运算等等。本领域技术人员应理解,根据所述估计权重与所述初始权重获得多个关键子词的权重的方法并不限于上述举例。优选地,当一个关键子词的初始权重小于第一预定阈值时,权重分析装置2保持该关键子词的初始权重。事实上,确定关键子词权重的过程,也是确定长尾关键词中的核心词的过程,对于权重低于第一预定阈值的关键子词,即可认为该关键子词不是核心词。在确定关键子词初始权重的过程中,当初始权重确定装置32根据实体词典,判断关键子词不是实体,例如长尾关键词“购买手机”中的关键子词“购买”等,则可直接确定该关键子词的权重低于第一预定阈值,则权重分析装置2在后续的处理过程中,保持该关键子词的初始权重,无需再对该关键子词进行处理,以节省系统资源。作为本发明的一个优选实施例,权重分析装置2还用于根据所述用户的用户相关信息,调整所述多个关键子词的权重。其中,所述用户相关信息包括以下至少一项 "所述用户的属性;
其中,所述用户的属性包括但不限于该用户所在的行业、该用户的特性,用户购买的关键词的多少等。例如,若该用户所在的行业为鲜花销售行业,则对于关键子词“鲜花”、“速递”,权重分析装置2将“鲜花”的权重提高;
-所述用户设定的搜索效果偏好;
对于不同的关键子词,往往会带来不同的搜索效果倾向,权重分析装置2可根据用户设定的搜索效果偏好,将自身的搜索效果倾向符合用户的搜索效果偏好的关键子词的权重
提尚等。本领域技术人员应该理解,本发明所述的根据用户相关信息来调整关键子词权重的方法并不限于上述举例。对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括” 一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
2权利要求
1.一种在网络设备中用于确定关键子词权重的方法,其中,该方法包括以下步骤 a获取来自用户的长尾关键词;b根据第一预定规则并基于关联关键词来确定所述长尾关键词所包含的多个关键子词的权重,其中,所述关联关键词与所述多个关键子词中的至少一个相关联。
2.根据权利要求1所述的方法,其中,所述关联关键词包括来自该用户的关联关键词, 其中,所述步骤b还包括以下步骤-基于所述长尾关键词,从来自该用户的其他关键词中获取一个或多个所述关联关键词;-根据第一预定规则并基于来自该用户的所述一个或多个关联关键词来确定所述多个关键子词的权重。
3.根据权利要求1所述的方法,其中,所述关联关键词包括来自其他用户的关联关键词,其中,所述步骤b还包括以下步骤-基于所述长尾关键词,从来自其他用户的关键词中获取一个或多个所述关联关键词;-根据所述第一预定规则并基于来自其他用户的所述一个或多个关联关键词来确定所述多个关键子词的权重。
4.根据权利要求1所述的方法,其中,所述步骤b包括以下步骤-基于所述长尾关键词,从来自该用户的其他关键词中获取一个或多个关联关键词, 以根据所述一个或多个关联关键词建立基于该用户的所述长尾关键词与所述关键子词中的一个或多个的第一关联关系;-查找基于所述长尾关键词及从来自其他用户的关键词库中获取的一个或多个关联关键词而建立的基于该其他用户的所述长尾关键词与所述关键子词中的一个或多个的第一关联关系;-将基于该用户的所述长尾关键词与所述关键子词中的一个或多个的第一关联关系与基于该其他用户的所述长尾关键词与所述关键子词中的一个或多个的第一关联关系合并,以获得所述长尾关键词与所述关键子词中的一个或多个的第二关联关系;-根据所述第一预定规则,基于所述第二关联关系,来确定所述多个关键子词的权重。
5.根据权利要求4所述的方法,其中,该方法还包括以下步骤-查找其他长尾关键词与其关键子词中的一个或多个的第二关联关系; -根据所述长尾关键词与其关键子词中的一个或多个的第二关联关系及所述其他长尾关键词与其关键子词中的一个或多个的第二关联关系,来建立关联关系集;-根据所述第一预定规则,确定所述长尾关键词及其他长尾关键词所包含的多个关键子词的权重。
6.根据权利要求1至5中任一项所述的方法,其中,所述第一预定规则根据以下至少一项因素来确定所述关键子词的权重-所述多个关键子词或其近似词出现的次数;-所述多个关键子词和与其相关联的所述关联关键词或所述长尾关键词的语义相似度。
7.根据权利要求1至6中任一项所述的方法,其中,该方法还包括以下步骤-对所述长尾关键词进行语义分析,以获得所述多个关键子词;-根据第二预定规则,得到所述多个关键子词的初始权重;其中,所述步骤b还包括以下步骤-根据所述第一预定规则并基于所述关联关键词来调整所述初始权重,以得到所述多个关键子词的权重。
8.根据权利要求7所述的方法,其中,所述第二预定规则包括根据以下至少一项因素来确定所述关键子词的初始权重-所述多个关键子词在总关键词库中的分布状况;-所述多个关键子词是否为实体。
9.根据权利要求7或8所述的方法,其中,所述步骤b还包括以下步骤-当一个关键子词的初始权重小于第一预定阈值,则保持该关键子词的初始权重。
10.根据权利要求1至9中任一项所述的方法,其中,所述步骤b中的调整关键子词权重的步骤还包括以下步骤-根据所述用户的用户相关信息,调整所述多个关键子词的权重。
11.根据权利要求10所述的方法,其中,所述用户相关信息包括以下至少一项-所述用户的属性;-所述用户设定的搜索效果偏好。
12.根据权利要求1至11中任一项所述的方法,其中,所述网络设备包括单个网络服务器、多个网络服务器组成的网络服务器组、或计算机集组成的云。
13.一种用于确定关键子词权重的网络设备,其中,该网络设备包括第一获取装置、用于获取来自用户的长尾关键词;权重分析装置、用于根据第一预定规则并基于关联关键词来确定所述长尾关键词所包含的多个关键子词的权重,其中,所述关联关键词与所述多个关键子词中的至少一个相关联。
14.根据权利要求13所述的网络设备,其中,所述关联关键词包括来自该用户的关联关键词,其中,所述权重分析装置还包括第二获取装置,基于所述长尾关键词,从来自该用户的其他关键词中获取一个或多个所述关联关键词;第一子分析装置、用于根据第一预定规则并基于来自所述用户的所述一个或多个关联关键词来确定所述多个关键子词的权重。
15.根据权利要求13所述的网络设备,其中,所述关联关键词包括来自其他用户的关联关键词,其中,所述权重分析装置还包括第三获取装置,用于基于所述长尾关键词,从来自其他用户的关键词中获取一个或多个所述关联关键词;第二子分析装置、用于根据所述第一预定规则并基于来自其他用户的所述一个或多个关联关键词来确定所述多个关键子词的权重。
16.根据权利要求13所述的网络设备,其中,所述权重分析装置还包括第四获取装置、用于基于所述长尾关键词,从该用户的其他关键词中获取一个或多个关联关键词,以根据所述一个或多个关联关键词建立基于该用户的所述长尾关键词与所述关键子词中的一个或多个的第一关联关系;第一查找装置,用于查找基于所述长尾关键词及从来自其他用户的关键词库中获取的一个或多个关联关键词而建立的基于该其他用户的所述长尾关键词与所述关键子词中的一个或多个的第一关联关系;第一合并装置,用于将基于该用户的所述长尾关键词与所述关键子词中的一个或多个的第一关联关系与基于该其他用户的所述长尾关键词与所述关键子词中的一个或多个的第一关联关系合并,以获得所述长尾关键词与所述关键子词中的一个或多个的第二关联关系;第三子分析装置、用于根据所述第一预定规则,基于所述第二关联关系,来确定所述多个关键子词的权重。
17.根据权利要求16所述的网络设备,其中,该网络设备还包括-第二查找装置、用于查找其他长尾关键词与其关键子词中的一个或多个的第二关联关系;-第二合并装置、用于根据所述长尾关键词与其关键子词中的一个或多个的第二关联关系及所述其他长尾关键词与其关键子词中的一个或多个的第二关联关系,来建立关联关系集;-第四子分析装置、用于根据所述第一预定规则,确定所述长尾关键词及其他长尾关键词所包含的多个关键子词的权重。
18.根据权利要求13至所17中任一项所述的网络设备,其中,所述第一预定规则包括根据以下至少一项因素来确定所述关键子词的权重-所述多个关键子词或其近似词出现的次数;-所述多个关键子词和与其相关联的所述关联关键词或所述长尾关键词的语义相似度。
19.根据权利要求13至18中任一项所述的网络设备,其中,该网络设备还包括 语义分析装置、用于对所述长尾关键词进行语义分析,以获得所述多个关键子词; 初始权重分析装置、用于根据第二预定规则,得到所述多个关键子词的初始权重; 其中,所述权重分析装置还用于根据所述第一预定规则并基于所述关联关键词,来调整所述初始权重,以得到所述多个关键子词的权重。
20.根据权利要求19所述的网络设备,其中,所述第二预定规则包括根据以下至少一项因素来确定所述关键子词的初始权重-所述多个关键子词在总关键词库中的分布状况; -所述多个关键子词是否为实体。
21.根据权利要求19或20所述的网络设备,其中,所述权重分析装置还用于 当一个关键子词的初始权重小于第一预定阈值,则保持该关键子词的初始权重。
22.根据权利要求13至21中任一项所述的网络设备,其中,所述权重分析装置还用于根据所述用户的用户相关信息,调整所述多个关键子词的权重。
23.根据权利要求22所述的网络设备,其中,所述用户相关信息包括以下至少一项-所述用户的属性; -所述用户设定的搜索效果偏好。
24.根据权利要求13至22中任一项所述的网络设备,其中,所述网络设备包括单个网络服务器、多个网络服务器组成的网络服务器组、或计算机集组成的云。
全文摘要
本发明涉及一种在网络设备中用于确定关键子词权重的方法和设备,本发明通过获取来自用户的长尾关键词,并根据第一预定规则并基于关联关键词来确定所述长尾关键词所包含的多个关键子词的权重,其中,所述关联关键词与所述多个关键子词中的至少一个相关联。与现有技术相比,本发明具有以下优点1)与现有技术中多从大段的文本中或query中提取关键词不同,本发明提供的确定关键子词的方案针对长尾关键词,能够有效地判断长尾关键词中所包含的关键子词的权重;2)本发明通过横向分析用户的关键词的内聚性及/或纵向分析来自该用户的长尾关键词与其他用户的关键词之间的关联,进一步提高了权重判断的准确性。
文档编号G06F17/30GK102446174SQ201010501398
公开日2012年5月9日 申请日期2010年10月9日 优先权日2010年10月9日
发明者何仁清, 林赛群 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1