一种用于获取关键词的应用领域属性信息的方法、装置与设备的制作方法

文档序号:6488772阅读:216来源:国知局
一种用于获取关键词的应用领域属性信息的方法、装置与设备的制作方法
【专利摘要】本发明的目的是提供一种用于获取关键词的应用领域属性信息的方法、装置与设备。其中,本发明首先获取待处理的多个关键词集合中每个关键词集合包括的至少一个关键词的初始应用领域特征值信息;接着根据至少一个关键词的初始应用领域特征值信息,对所述每个关键词集合进行分类统计处理,以获取每个关键词集合的应用领域分布特征值信息;随后根据每个关键词集合的应用领域分布特征值信息,获取每个关键词的至少一个第一应用领域特征值信息;随后对每个关键词的至少一个第一应用领域特征值信息进行统计处理,以获取每个关键词的第二应用领域特征值信息。
【专利说明】—种用于获取关键词的应用领域属性信息的方法、装置与设备
【技术领域】
[0001]本发明涉及计算机【技术领域】,尤其涉及一种用于获取关键词的应用领域属性信息的方法、装置与设备。
【背景技术】
[0002]现有的网络信息发布系统中,对信息发布用户设定的多个关键词的应用领域划分大多依靠人工完成,或利用统计型分类方法对多个关键词进行分类,得到多个关键词的初始应用领域划分,然后通过大量信息发布用户对多个关键词的购买关系进行迭代计算,最后得到多个关键词的应用领域属性信息。现有技术由于主要依靠人的主观意志来进行关键词的划分,从而使得划分结果的准确性及客观性较低,且由于信息发布用户对其自身所属领域属性划分不够准确,通过大量信息发布用户对多个关键词的购买关系获取关键词的应用领域属性信息准确性也相对较低;同时,随着搜索技术的不断发展,对关键词的应用领域划分的准确度及细分度要求也越来越高,现有的划分方式不能满足高准确度及高细分度的需求。
[0003]因此,如何提供一种获取关键词的应用领域属性信息的方法、装置及设备,从而能够准确地、且高效地获取关键词的应用领域属性信息,成为目前急需解决的问题之一。

【发明内容】

[0004]本发明的目的是提供一种获取关键词的应用领域属性信息的方法、装置与设备。
[0005]根据本发明的一个方面,提供了一种获取关键词的应用领域属性信息的方法,该方法包括以下步骤:
[0006]a获取待处理的多个关键词集合中每个关键词集合包括的至少一个关键词的初始应用领域特征值信息,其中,所述每个关键词集合包括多个关键词;
[0007]b根据所述至少一个关键词的初始应用领域特征值信息,对所述每个关键词集合进行分类统计处理,以获取所述每个关键词集合的应用领域分布特征值信息;
[0008]c根据所述每个关键词集合的应用领域分布特征值信息,获取每个关键词的至少一个第一应用领域特征值信息,其中,至少一个第一应用领域特征值信息对应该关键词所属的至少一个关键词集合的应用领域分布特征值信息;
[0009]d对所述每个关键词的至少一个第一应用领域特征值信息进行统计处理,以获取所述每个关键词的第二应用领域特征值信息;
[0010]将所述每个关键词的第二应用领域特征值信息作为该关键词的初始应用领域特征值信息,重复执行步骤b、C、d,直至满足预定停止条件;
[0011]其中,该方法还包括:
[0012]w当满足所述预定停止条件时,根据所述每个关键词的第二应用领域特征值信息,获取所述每个关键词的应用领域属性信息。[0013]根据本发明的另一方面,还提供了一种获取关键词的应用领域属性信息的获取装置,该获取设备包括:
[0014]初始特征值获取装置,用于获取待处理的多个关键词集合中每个关键词集合包括的至少一个关键词的初始应用领域特征值信息,其中,所述每个关键词集合包括多个关键词;
[0015]应用领域分布获取装置,用于根据所述至少一个关键词的初始应用领域特征值信息,对所述每个关键词集合进行分类统计处理,以获取所述每个关键词集合的应用领域分布特征值信息;
[0016]第一特征值获取装置,用于根据所述每个关键词集合的应用领域分布特征值信息,获取每个关键词的至少一个第一应用领域特征值信息,其中,至少一个第一应用领域特征值信息对应该关键词所属的至少一个关键词集合的应用领域分布特征值信息;
[0017]第二特征值获取装置,用于对所述每个关键词的至少一个第一应用领域特征值信息进行统计处理,以获取所述每个关键词的第二应用领域特征值信息;
[0018]控制装置,当未满足预定停止条件时,将所述每个关键词的第二应用领域特征值信息作为该关键词的初始应用领域特征值信息,以控制所述应用领域分布获取装置、所述第一特征值获取装置及所述第二特征值获取装置重复执行相应操作,直至满足所述预定停止条件;
[0019]其中,该获取装置还包括:
[0020]应用领域属性获取装置,用于当满足所述预定停止条件时,根据所述每个关键词的第二应用领域特征值信息,获取所述每个关键词的应用领域属性信息。
[0021]与现有技术相比,本发明具有以下优点:通过对每个关键词集合的应用领域分布特征值信息进行获取,从而能够获取每个关键词属于一个或多个关键词集合的第一应用领域特征值信息,进而可从多个关键词集合的角度获取每个关键词的第二应用领域特征值信息,通过重复执行上述步骤,迭代计算以获取每个关键词的准确度较高的应用领域属性信息,实现了对海量关键词所属应用领域的准确获取,使得获取结果更加具有客观性;同时,满足了现有搜索技术对关键词更为细化的应用领域划分的需求;进一步,对关键词所属应用领域的准确分类,可以指导信息发布用户建立合理的关键词与发布信息的对应关系,从而有效地优化该用户信息发布策略。
【专利附图】

【附图说明】
[0022]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
[0023]图1示出根据本发明一个方面的用于获取关键词的应用领域属性信息的获取装置的结构示意图;
[0024]图2示出根据本发明一个优选实施例的用于获取每个关键词与多个应用领域属性信息的相关度信息的获取装置的结构示意图;
[0025]图3示出根据本发明另一个方面的获取关键词的应用领域属性信息的方法流程图;
[0026]图4示出根据本发明一个优选实施例的获取每个关键词与多个应用领域属性信息的相关度信息的方法流程图。
[0027]附图中相同或相似的附图标记代表相同或相似的部件。
【具体实施方式】
[0028]下面结合附图对本发明作进一步详细描述。
[0029]图1示出根据本发明一个方面的用于获取关键词的应用领域属性信息的获取装置的结构示意图。本实施例的获取装置包含于计算机设备中;该获取装置包括初始特征值获取装置1、应用领域分布获取装置2、第一特征值获取装置3、第二特征值获取装置4、控制装置5和应用领域属性获取装置6。
[0030]所述计算机设备包括但不限于网络设备和用户设备。其中,所述用户设备包括但不限于PC机等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述用户设备和网络设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络
坐寸ο
[0031]需要说明的是,所述用户设备和网络设备仅为举例,其他现有的或今后可能出现的用户设备、网络设备或网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
[0032]首先,初始特征值获取装置I获取待处理的多个关键词集合中每个关键词集合包括的至少一个关键词的初始应用领域特征值信息,其中,所述每个关键词集合包括多个关键词。
[0033]其中,应用领域是指所述关键词被应用于的领域,包括但不限于,行业等。
[0034]其中,所述特征值信息包括但不限于概率信息。
[0035]具体地,初始特征值获取装置I将每个关键词集合中包括的多个关键词在预设的应用领域分类表中进行查询,来获取该每个关键词集合包括的至少一个关键词的初始应用领域特征值信息。
[0036]其中,所述预设的应用领域分类表包括多个关键词与其分别对应的初始应用领域特征值信息,其可通过语料训练等方式获取。优选地,语料训练方式包括对预置的每个应用领域的关键词语料进行应用领域属性标注,并对关键词语料进行分词和词性标注等处理,接着利用分类算法,例如基于最大熵的文本分类算法,对关键词语料进行训练,以获得多个关键词分别对应的初始应用领域特征值信息。
[0037]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何获取待处理的多个关键词集合中每个关键词集合包括的至少一个关键词的初始应用领域特征值信息的实现方式,均应包含在本发明的范围内。
[0038]接着,应用领域分布获取装置2根据初始特征值获取装置I获取的至少一个关键词的初始应用领域特征值信息,对所述每个关键词集合进行分类统计处理,以获取所述每个关键词集合的应用领域分布特征值信息。
[0039]具体地,应用领域分布获取装置2根据已获取的每个关键词集合中至少一个关键词的初始应用领域特征值信息,对该至少一个关键词的初始应用领域特征值信息按应用领域进行应用领域特征值统计处理,以获取该每个关键词集合的应用领域分布特征值信息。
[0040]在一示例中,当关键词集合Unitl中包括关键词wordp word2、word6、Word7,其中,Word1的初始应用领域特征值信息为属于应用领域T1的概率为Wa,word2属于应用领域T1的的概率信息为Wb,则应用领域分布获取装置2对Unitl进行分类统计处理,获取Unitl的应用领域特征值分布信息为Unitl属于应用领域T1的概率为P (T11 Unitl) = Wa/ (ffa+ffb),Unitl属于应用领域T2的概率为P (T21 Unitl) = Wb/ (ffa+ffb)。
[0041]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述至少一个关键词的初始应用领域特征值信息,对所述每个关键词集合进行分类统计处理,以获取所述每个关键词集合的应用领域分布特征值信息的实现方式,均应包含在本发明的范围内。
[0042]随后,第一特征值获取装置3根据应用领域分布获取装置2获取的每个关键词集合的应用领域分布特征值信息,获取每个关键词的至少一个第一应用领域特征值信息,其中,至少一个第一应用领域特征值信息对应该关键词所属的至少一个关键词集合的应用领域分布特征值信息。
[0043]其中,每个关键词可属于一个或多个关键词集合。
[0044]具体地,第一特征值获取装置3根据已获取的每个关键词集合的应用领域分布特征值信息,将每个关键词集合的应用领域分布特征值信息离散化至该集合中包括的每个关键词,来获取每个关键词的至少一个第一应用领域特征值信息。
[0045]在一示例中,关键词集合Unitl中包括关键词wordpwordywordpwordp关键词集合 Unitl 的应用领域分布特征值信息为=P(TjUnitl) = Wa/ (ffa+ffb), P(T2| Unitl) =Wb/(ffa+ffb);第一特征值获取装置3将Unitl的应用领域分布特征值信息离散化至该集合中的关键词 word” word2、word6、word” 获取:
[0046]关键词wordp word2、word6、Word7属于应用领域T1的第一应用领域特征值信息为P (T11 Word1) = P (T11 word2) = P (T1 word6) = P (T1 word7) = Wa/ (ffa+ffb),
[0047]而关键词wordp word2、word6、Word7属于应用领域T2的第一应用领域特征值信息为 P (T21 Word1) = P (T21 word2) = P (T2 word6) = P (T2 word7) = Wb/ (ffa+ffb);
[0048]另外,关键词集合Unit2中包括关键词word2、word3、word6、Word7,关键词集合Unit2 的应用领域分布特征值信息为:P(T2|Unit2) = Wb/(ffb+ffc), P(T3|Unit2) = ffc/(Wb+ffc);第一特征值获取装置3将Unit2的应用领域分布特征值信息离散化至该集合中的关键词 word2 > Word3 > word6 > word” 获取:
[0049]关键词word2、word3、word6、Word7属于应用领域T2的第一应用领域特征值信息为P (T21 Word2) = P (T21 word3) = P (T2 word6) = P (T2 word7) = Wb/ (ffb+ffc);
[0050]关键词word2、word3、word6、Word7属于应用领域T3的第一应用领域特征值信息为P (T31 Word2) = P (T31 word3) = P (T3 word6) = P (T3 word7) = ffc/ (ffb+ffc)。
[0051]需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限制,本领域技术人员应该理解,任何根据所述每个关键词集合的应用领域分布特征值信息,获取每个关键词的至少一个第一应用领域特征值信息的实现方式,均应包含在本发明的范围内。
[0052]随后,第二特征值获取装置4对第一特征值获取装置3获取的每个关键词的至少一个第一应用领域特征值信息进行统计处理,以获取所述每个关键词的第二应用领域特征
值信息。
[0053]具体地,对每个关键词的至少一个第一应用领域特征值信息进行统计处理,以获取所述每个关键词的第二应用领域特征值信息的方法包括但不限于:
[0054]I)第二特征值获取装置4从每个关键词的至少一个第一应用领域特征值信息中选择第一应用领域特征值信息的最大值作为第二应用领域特征值信息;
[0055]在一示例中,接上例,在关键词集合Unitl中,Word2属于应用领域T2的第一应用领域特征值信息为P(T2Iword2) = Wb/ (ffa+ffb),在关键词集合Unit2中,Word2属于应用领域T2的第一应用领域特征值信息为P (T21 Word2) = Wb/ (ffb+ffc),则从该两个第一应用领域特征值信息中选择最大值作为Word2的属于应用领域T2的第二应用领域特征值信息。
[0056]2)第二特征值获取装置4根据下式1)对所述每个关键词的至少一个第一应用领域特征值信息进行合并处理,以获取所述每个关键词的第二应用领域特征值信息:

[0057]
【权利要求】
1.一种用于获取关键词的应用领域属性信息的方法,该方法包括以下步骤: a获取待处理的多个关键词集合中每个关键词集合包括的至少一个关键词的初始应用领域特征值信息,其中,所述每个关键词集合包括多个关键词; b根据所述至少一个关键词的初始应用领域特征值信息,对所述每个关键词集合进行分类统计处理,以获取所述每个关键词集合的应用领域分布特征值信息; c根据所述每个关键词集合的应用领域分布特征值信息,获取每个关键词的至少一个第一应用领域特征值信息,其中,至少一个第一应用领域特征值信息对应该关键词所属的至少一个关键词集合的应用领域分布特征值信息; d对所述每个关键词的至少一个第一应用领域特征值信息进行统计处理,以获取所述每个关键词的第二应用领域特征值信息; 将所述每个关键词的第二应用领域特征值信息作为该关键词的初始应用领域特征值信息,重复执行步骤b、C、d,直至满足预定停止条件; 其中,该方法还包括: W当满足所述预定停止条件时,根据所述每个关键词的第二应用领域特征值信息,获取所述每个关键词的应用领域属性信息。
2.根据权利要求1所述的方法,其中,所述步骤a包括: -将所述每个关键词集合中包括的多个关键词在预设的应用领域分类表中进行查询,来获取所述每个关键词集合包括的至少一个关键词的初始应用领域特征值信息。
3.根据权利要求1或2所述的方法,其中,对所述每个关键词的至少一个第一应用领域特征值信息进行统计处理以获取所述每个关键词的第二应用领域特征值信息的方式还包括: -根据下式对所述每个关键词的至少一个第一应用领域特征值信息进行合并处理,以获取所述每个关键词的第二应用领域特征值信息:
4.根据权利要求1至3任一项所述的方法,其中,该方法还包括: -获取每个关键词分别与多个应用领域属性信息的相关度信息; 其中,所述步骤c包括: -根据所述每个关键词集合的应用领域分布特征值信息,并结合所述相关度信息进行加权计算,以获取所述每个关键词的至少一个第一应用领域特征值信息。
5.根据权利要求4所述的方法,其中,所述获取每个关键词与多个应用领域属性信息的相关度信息的方法还包括以下步骤:-对所述每个关键词进行切词处理,以获取所述每个关键词的至少一个关键词切词片段; -根据所述每个关键词的至少一个关键词切词片段,在预置的多个应用领域属性信息各自对应的应用领域切词库中进行查询,来获取该至少一个关键词切词片段分别在多个应用领域属性信息各自对应的应用领域切词库中的出现频率信息; -根据所述出现频率信息,来获取每个关键词分别与多个应用领域属性信息的相关度信息。
6.一种用于获取关键词的应用领域属性信息的获取装置,该获取装置包括: 初始特征值获取装置,用于获取待处理的多个关键词集合中每个关键词集合包括的至少一个关键词的初始应用领域特征值信息,其中,所述每个关键词集合包括多个关键词; 应用领域分布获取装置,用于根据所述至少一个关键词的初始应用领域特征值信息,对所述每个关键词集合进行分类统计处理,以获取所述每个关键词集合的应用领域分布特征值信息; 第一特征值获取装置,用于根据所述每个关键词集合的应用领域分布特征值信息,获取每个关键词的至少一个第一应用领域特征值信息,其中,至少一个第一应用领域特征值信息对应该关键词所属的至少一个关键词集合的应用领域分布特征值信息; 第二特征值获取装置,用于对所述每个关键词的至少一个第一应用领域特征值信息进行统计处理,以获取所述每个关键词的第二应用领域特征值信息; 控制装置,当未满足预定停止条件时,将所述每个关键词的第二应用领域特征值信息作为该关键词的初始应用领域特征值信息,以控制所述应用领域分布获取装置、所述第一特征值获取装置及所述第二特征值获取装置重复执行相应操作,直至满足所述预定停止条件; 其中,该获取装置还包括: 应用领域属性获取装置,用于当满足所述预定停止条件时,根据所述每个关键词的第二应用领域特征值信息,获取所述每个关键词的应用领域属性信息。
7.根据权利要求6所述的获取装置,其中,所述初始特征值获取装置用于将所述每个关键词集合中包括的多个关键词在预设的应用领域分类表中进行查询,来获取所述每个关键词集合包括的至少一个关键词的初始应用领域特征值信息。
8.根据权利要求6或7所述的获取装置,其中,对所述每个关键词的至少一个第一应用领域特征值信息进行统计处理以获取所述每个关键词的第二应用领域特征值信息的方式还包括: -根据下式对所述每个关键词的至少一个第一应用领域特征值信息进行合并处理,以获取所述每个关键词的第二应用领域特征值信息:

9.根据权利要求6至8任一项所述的获取装置,其中,该获取装置还包括: 第一相关度获取装置,用于获取每个关键词分别与多个应用领域属性信息的相关度信息; 其中,所述第一特征值获取装置包括: 加权装置,用于根据所述每个关键词集合的应用领域分布特征值信息,并结合所述相关度信息进行加权计算,以获取所述每个关键词的至少一个第一应用领域特征值信息。
10.根据权利要求9所述的获取装置,其中,该获取装置还包括: 切分装置,用于对所述每个关键词进行切词处理,以获取所述每个关键词的至少一个关键词切词片段; 出现频率获取装置,用于根据所述每个关键词的至少一个关键词切词片段,在预置的多个应用领域属性信息各自对应的应用领域切词库中进行查询,来获取该至少一个关键词切词片段分别在多个应用领域属性信息各自对应的应用领域切词库中的出现频率信息;第二相关度获取装置,用于根据所述出现频率信息,来获取每个关键词分别与多个应用领域属性信息的相关度信息。
11.一种计算机设`备,包括如权利要求6至10中至少一项所述的获取装置。
【文档编号】G06F17/30GK103678356SQ201210335806
【公开日】2014年3月26日 申请日期:2012年9月11日 优先权日:2012年9月11日
【发明者】高徽, 王平, 郎文静 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1