用于网络热词与对象的关联度的数据处理方法和装置制造方法

文档序号:6634879阅读:302来源:国知局
用于网络热词与对象的关联度的数据处理方法和装置制造方法
【专利摘要】本发明公开了一种用于网络热词与对象的关联度的数据处理方法和装置。其中,该用于网络热词与对象的关联度的数据处理方法包括:获取目标对象的对象信息;根据对象信息获取目标热词,目标热词为与对象信息的共现频率大于第一预设频率的词语,共现频率为目标热词与对象信息同时出现的频率;从目标热词中滤除常规热词,得到过滤后的目标热词,常规热词为预先设定的词语;以及确定目标对象与过滤后的目标热词的关联度。通过本发明,解决了相关技术中难以判断出高频词语与对象之间的真实关联度的问题。
【专利说明】用于网络热词与对象的关联度的数据处理方法和装置

【技术领域】
[0001]本发明涉及数据处理领域,具体而言,涉及一种用于网络热词与对象的关联度的数据处理方法和装置。

【背景技术】
[0002]目前,随着媒体营销渠道的社会化发展,各商家开始重视并分析网民在网络渠道上发出的声音,希望将其转化为自身的商业效益。
[0003]在相关技术中,为了分析网民在网络渠道上发出的声音:首先采用机器爬虫的方式来爬取互联网网页上的文本信息,对机器而言,这些文本信息是由大量的词语构成的;然后,当确定一个对象时,根据所爬取的文本信息可以统计出与该对象同时出现的高频词语,进而可以判断出这些高频词语与该对象之间的关联度。
[0004]然而,由于受“我” “的” “这”等常规高频词的影响,根据上述技术方案,难以判断出这些热词与该对象之间的真实关联度。
[0005]针对相关技术中难以判断出热词与对象之间的真实关联度的问题,目前尚未提出有效的解决方案。


【发明内容】

[0006]本发明的主要目的在于提供一种用于网络热词与对象的关联度的数据处理方法和装置,以解决相关技术中难以判断出高频词语与对象之间的真实关联度问题。
[0007]为了实现上述目的,根据本发明的一个方面,提供了一种用于网络热词与对象的关联度的数据处理方法。该方法可以包括:获取目标对象的对象信息;根据上述对象信息获取目标热词,上述目标热词为与上述对象信息的共现频率大于第一预设频率的词语,上述共现频率为上述目标热词为与上述对象信息同时出现的频率;从上述目标热词中滤除常规热词,得到过滤后的目标热词,上述常规热词为预先设定的词语;以及确定上述目标对象与上述过滤后的目标热词的关联度。
[0008]进一步地,从上述目标热词中滤除上述常规热词,得到过滤后的目标热词可以包括:获取上述常规热词;以及判断上述目标对象热词中是否存在上述常规热词,其中,如果判断出上述目标对象热词中存在上述常规热词,则从上述目标热词中滤除上述常规热词,得到上述过滤后的目标热词。
[0009]进一步地,可以通过以下方式确定上述常规热词:获取上述目标热词的独现频率,上述独现频率为上述目标热词独立出现的频率;判断上述目标热词的上述独现频率是否大于第二预设频率;以及如果判断出上述目标热词的上述独现频率大于上述第二预设频率,则将上述目标热词作为上述常规热词。
[0010]进一步地,上述对象信息可以包括上述目标对象的关键词,根据上述对象信息获取目标热词可以包括:获取预先设置的网络爬虫;利用上述预先设置的网络爬虫爬取目标网站上的文本信息;以及根据上述关键词从上述文本信息中获取上述目标热词。
[0011]进一步地,在从上述目标热词中滤除常规热词,得到过滤后的目标热词之后,上述数据处理方法还可以包括:确定上述过滤后的目标热词的情绪属性;以及根据上述共现频率显示上述过滤后的目标热词和上述对象信息,和/或根据上述关联度显示上述过滤后的目标热词和上述对象信息,和/或根据上述情绪属性显示上述过滤后的目标热词和上述对象息。
[0012]为了实现上述目的,根据本发明的另一方面,提供了一种用于网络热词与对象的关联度的数据处理装置。该装置包括:第一获取单元,用于获取目标对象的对象信息;第二获取单元,用于根据上述对象信息获取目标热词,上述目标热词为与上述对象信息的共现频率大于第一预设频率的词语,上述共现频率为上述目标热词与上述对象信息同时出现的频率;过滤单元,用于从上述目标热词中滤除常规热词,得到过滤后的目标热词,上述常规热词为预先设定的词语;以及第一确定单元,用于确定上述目标对象与上述过滤后的目标热词的关联度。
[0013]进一步地,上述过滤单元包括:第一获取模块,用于获取上述常规热词;第一判断模块,用于判断上述目标热词中是否存在上述常规热词;以及过滤模块,用于在判断出上述目标热词中存在上述常规热词时,从上述目标热词中滤除上述常规热词,得到上述过滤后的目标热词。
[0014]进一步地,上述数据处理装置还包括第二确定单元,上述第二确定单元用于确定上述常规热词,其中,上述第二确定单元包括:第二获取模块,用于获取上述目标热词的独现频率,上述独现频率为上述目标热词独立出现的频率;第二判断模块,用于判断上述目标热词的上述独现频率是否大于第二预设频率;确定模块,用于在判断出上述目标热词的上述独现频率大于上述第二预设频率时,将上述目标热词作为上述常规热词。
[0015]进一步地,上述对象信息包括上述目标对象的关键词,上述第二获取单元包括:第三获取模块,用于获取预先设置的网络爬虫;爬取模块,用于利用上述预先设置的网络爬虫爬取目标网站上的文本信息;以及第四获取模块,用于根据上述关键词从上述文本信息中获取上述目标热词。
[0016]进一步地,上述数据处理还包括:第三获取单元,用于在从上述目标热词中滤除常规热词,得到过滤后的目标热词之后,确定上述过滤后的目标热词的情绪属性;以及显示单元,用于根据上述共现频率显示上述过滤后的目标热词和上述对象信息,和/或根据上述关联度显示上述过滤后的目标热词和上述对象信息,和/或根据上述情绪属性显示上述过滤后的目标热词和上述对象信息。
[0017]通过本发明,采用获取目标对象的对象信息;根据对象信息获取目标热词,目标热词为与对象信息的共现频率大于第一预设频率的词语,共现频率为目标热词为与对象信息同时出现的频率;从目标热词中滤除常规热词,得到过滤后的目标热词,常规热词为预先设定的词语;以及确定目标对象与过滤后的目标热词的关联度,解决了相关技术中难以判断出高频词语与对象之间的真实关联度的问题,进而达到了提高高频词语与对象之间的关联度的准确性效果。

【专利附图】

【附图说明】
[0018]构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0019]图1是根据本发明第一实施例的用于网络热词与对象的关联度的数据处理方法的流程图;
[0020]图2是根据本发明第二实施例的用于网络热词与对象的关联度的数据处理方法的流程图;
[0021]图3是根据本发明第一实施例的用于网络热词与对象的关联度的数据处理装置的不意图;以及
[0022]图4是根据本发明第二实施例的用于网络热词与对象的关联度的数据处理装置的示意图。

【具体实施方式】
[0023]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
[0024]为了使本【技术领域】的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0025]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0026]根据本发明的实施例,提供了一种用于热词与对象的关联度的数据处理方法,该用于热词与对象的关联度的数据处理方法用于确定网页中热词与对象的关联度。该用于热词与对象的关联度的数据处理方法可以运行在计算机处理设备上。
[0027]图1是根据本发明第一实施例的用于网络热词与对象的关联度的数据处理方法的流程图。如图1所示,该方法可以包括步骤S102至步骤S108:
[0028]步骤S102,获取目标对象的对象信息。
[0029]目标对象也即待分析的对象,该目标对象的对象信息可以包括用于描述该目标对象的数据信息,例如,其可以为目标对象的关键词。
[0030]在实施时,可以预先通过多种途径获取目标对象的对象信息,例如,可以接收用户输入的目标对象的关键词,并将该关键词作为该目标对象的对象信息。以下以对象信息为关键词为例详细阐述本发明。
[0031]步骤S104,根据对象信息获取目标热词。
[0032]目标热词为与对象信息的共现频率大于第一预设频率的词语,共现频率为目标热词与对象信息同时出现的频率。
[0033]在执行步骤S104之前,可以预先通过搜索引擎,利用网络爬虫自动爬取目标网站上的文本信息,并将爬取到的文本信息存入数据库中,其中,该文本信息包含目标对象的关键词及与该关键词对应的全部热词。这样,在分析目标对象及其热词的关联度时,可以从数据库中查询目标热词(也即,与目标对象相关联的热词)。
[0034]例如,可以根据目标对象的关键词获取与该关键词相关联的目标热词,其中,目标热词为与该关键词的共现频率大于第一预设频率的词语,共现频率可以为目标热词与关键词同时出现的频率。具体地,可以从存储在上述数据库中的文本信息中筛选共现频率大于第一预设频率的目标热词。
[0035]步骤S106,从目标热词中滤除常规热词,得到过滤后的目标热词。
[0036]常规热词为预先设定的词语,例如,其可以包括“我” “的” “这”等。由于常规热词的出现频率并不完全依赖于目标对象的关键词,也即,不管目标对象是什么,这些常规热词的出现频率都可能保持大于第一预设频率的频率值。因此,在做关联度分析时,如果不对这些常规热词进行过滤处理,则会影响分析结果的准确度,进而影响用户的网络数据投放行为。因而,从目标热词中滤除常规热词,得到过滤后的目标热词,也即,得到真正的目标热词,这样,由于过滤后的目标热词可以真实的反映其与关键词的关联度,因而其可以对用户的网络数据投放行为起到准确的导向作用。
[0037]具体地,在从网路爬虫爬取的文本信息中获取目标热词之后,可以再从数据列表中获取预先设定的常规热词,然后,将所有的目标热词与所有的常规热词逐一对比,如果某个目标热词与某个常规热词一致,则将其滤除,否则,如果某个目标热词与任何一个常规热词都不一致,则保留该目标热词,其中,被保留下来的目标热词即为过滤后的目标热词。
[0038]步骤S108,确定目标对象与过滤后的目标热词的关联度。
[0039]也即,确定目标对象的关键词与过滤后的目标热词的关联度。其中,关联度=共现频率/独现频率,独现频率可以为过滤后的目标热词在文本信息中单独出现的频率。
[0040]例如,在实施时,假设目标对象为“可口可乐”,那么相应的“可口可乐”的对象信息可以为“可口可乐”这4个字,而与“可口可乐”关联的目标热词可以包括:“刘翔”、“姚明”、“百事可乐”、“巴菲特”、“果汁”、“雾霾”、“金秀贤”、“麦当劳”、“肯德基”以及“的”、“了”、“代言”、“明星”等等。显然,“的”、“了”、“代言”、“明星”并不是“可口可乐”的真正的目标热词,例如,即使目标对象换为“百事可乐”,“的”、“了”、“代言”、“明星”等的共现频率也会超出第一预设频率,也即,“的”、“了”、“代言”、“明星”是常规热词,因此,执行本发明的上述步骤,可以将“的”、“了”、“代言”、“明星”等常规热词滤除,从而可以确定“可口可乐”的真正的目标热词为“刘翔”、“姚明”、“百事可乐”、“巴菲特”、“果汁”、“雾霾”、“金秀贤”、“麦当劳”、“肯德基”,并得到“可口可乐”与这些真正的目标热词的关联度。
[0041]通过本发明实施例,由于从目标热词中滤除了常规热词,避免了常规热词的干扰,过滤后的目标热词能够更加准确地反映目标对象与过滤后的目标热词的关联度,达到了提高高频词语与对象之间的关联度的准确性效果。
[0042]图2是根据本发明第二实施例的用于网络热词与对象的关联度的数据处理方法的流程图。该实施例可以作为图1所示实施例的优选实施方式。该用于热词与对象的关联度的数据处理方法包括如下的步骤S202至步骤S212:
[0043]步骤S202和步骤S204,分别同图1所示实施例的步骤S102和步骤S104,在此不再赘述。
[0044]步骤S206,获取常规热词。
[0045]常规热词为预先设定的词语,无论对象是谁,这些常规热词的出现频率都会大于第一预设频率。具体地,可以从数据库列表中获取预先设定的常规热词。
[0046]步骤S208,判断目标热词中是否存在常规热词。
[0047]可以将所有的目标热词与所有的常规热词逐一对比,如果某个目标热词与某个常规热词一致,则判断出该目标热词是常规热词;否则,如果某个目标热词与任何一个常规热词都不一致,则判断出该目标热词不是常规热词。
[0048]步骤S210,如果判断出目标热词中存在常规热词,则从目标热词中滤除常规热词,得到过滤后的目标热词。
[0049]步骤S212,同图1所示实施例的步骤S104,在此不再赘述。
[0050]通过本发明实施例,由于预先建立了常规热词的词库,并将其存储在相应的数据库列表中,便于目标热词与该词库中的常规热词进行对比。
[0051]优选地,在本发明实施例中,可以通过以下方式确定常规热词:
[0052]S2,获取目标热词的独现频率,独现频率为目标热词独立出现的频率,也即,目标热词不依附于目标对象的关键词而单独出现的频率。
[0053]S4,判断目标热词的独现频率是否大于第二预设频率。第二预设频率可以与前述的第一预设频率相同。
[0054]S6,如果判断出目标热词的独现频率大于第二预设频率,则将目标热词作为常规热词。
[0055]优选地,根据本发明实施例,对象信息可以包括目标对象的关键词,根据对象信息获取目标热词可以包括:
[0056]S8,获取预先设置的网络爬虫。
[0057]该网络爬虫可以是定向抓取相关网页资源,自动下载网页程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。它将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。
[0058]S10,利用预先设置的网络爬虫爬取目标网站上的文本信息。这里,网络爬虫爬取的信息可以为目标对象所在的文本信息。
[0059]S12,根据关键词从文本信息中获取目标热词。
[0060]通过本发明实施例,采用网络爬虫的手段,当确定一个对象的对象信息(如,关键词)时,可以从互联网的网页上爬取到与该关键词对应的所有的文本信息,其中,该文本信息由大量的词语构成,根据爬取的文本信息确定与该对象同时出现的目标热词。
[0061 ] 优选地,在本发明实施例中,在从目标热词中滤除常规热词,得到过滤后的目标热词之后,该数据处理方法还可以包括:
[0062]S14,确定过滤后的目标热词的情绪属性。可以通过语义分析技术分析过滤后的目标热词的情绪属性,其中,情绪属性包含正、负情绪属性以及中性情绪属性。例如,在实施时,可以预先设定词语的情绪属性,并将这些词语存储在预先设定的情绪属性列表中,这样,在确定过滤后的目标热词的情绪属性时,可以将目标热词与情绪属性列表中的词语进行逐一匹配,如果匹配成功,则目标热词的情绪属性即为所匹配的词语的情绪属性。
[0063]S16,根据共现频率显示过滤后的目标热词和对象信息;和/或,根据关联度显示过滤后的目标热词和对象信息;和/或,根据情绪属性显示过滤后的目标热词和对象信息。
[0064]例如,在根据情绪属性显示过滤后的目标热词和对象信息(如,关键词)时,可以以气泡、词云等形式进行显示,使得目标热词与目标对象的关联度更直观、更形象。
[0065]例如,可以将目标热词的情绪属性展示在图形上,并通过左右分布来区分不同情绪的目标热词,以及通过目标热词与坐标原点的距离来表现关联度的大小。例如,正面情绪的目标热词可以以气泡的形式展现在示意图的右边,负面情绪的目标热词可以以气泡的形式展现在示意图的左边。气泡的大小表示目标热词的共现频率,气泡到坐标原点的距离表示关联度大小,其中,坐标原点即表示对象信息(如,关键词),距离坐标原点越近,目标热词与对象信息(如,关键词)的关联度越大;反之,距离坐标原点越远,目标热词与对象信息(如,关键词)的关联度越小。
[0066]需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
[0067]根据本发明的实施例,提供了一种用于热词与对象的关联度的数据处理装置,该用于热词与对象的关联度的数据处理装置用于确定网页中热词与对象的关联度。需要说明的是,本发明实施例所提供的用于热词与对象的关联度的数据处理方法可以通过本发明实施例的用于热词与对象的关联度的数据处理装置来执行,本发明实施例的用于热词与对象的关联度的数据处理装置也可以用于执行本发明实施例的用于热词与对象的关联度的数据处理方法。
[0068]图3是根据本发明第一实施例的用于网络热词与对象的关联度的数据处理装置的示意图。如图3所示,该装置包括:第一获取单元10、第二获取单元20、过滤单元30和第一确定单兀40。
[0069]第一获取单元10用于获取目标对象的对象信息。目标对象也即待分析的对象,该目标对象的对象信息可以包括用于描述该目标对象的数据信息,例如,其可以为目标对象的关键词。在实施时,可以预先通过多种途径获取目标对象的对象信息,例如,可以接收用户输入的目标对象的关键词,并将该关键词作为该目标对象的对象信息。以下对象信息为关键词为例详细阐述本发明。
[0070]第二获取单元20用于根据对象信息获取目标热词,目标热词为与对象信息的共现频率大于第一预设频率的词语,共现频率为目标热词与对象信息同时出现的频率。目标热词为与对象信息的共现频率大于第一预设频率的词语,共现频率为目标热词与对象信息同时出现的频率。
[0071]在执行第二获取单元20的功能之前,可以预先通过搜索引擎,利用网络爬虫自动爬取目标网站上的文本信息,并将爬取到的文本信息存入数据库中,其中,该文本信息包含目标对象的关键词及与该关键词对应的全部热词。这样,在分析目标对象及其热词的关联度时,可以从数据库中查询目标热词(也即,与目标对象相关联的热词)。
[0072]例如,可以根据目标对象的关键词获取与该关键词相关联的目标热词,其中,目标热词为与该关键词的共现频率大于第一预设频率的词语,共现频率可以为目标热词与关键词同时出现的频率。具体地,可以从存储在上述数据库中的文本信息中筛选共现频率大于第一预设频率的目标热词。
[0073]过滤单元30用于从目标热词中滤除常规热词,得到过滤后的目标热词,常规热词为预先设定的词语。常规热词为预先设定的词语,例如,其可以包括“我”“的”“这”等。由于常规热词的出现频率并不完全依赖与目标对象的关键词,也即,不管目标对象是什么,这些常规热词的出现频率都可能保持大于第一预设频率的频率值。因此,在做关联度分析时,如果不对这些常规热词进行过滤处理,则会影响分析结果的准确度,进而影响用户的网络数据投放行为。因而,从目标热词中滤除常规热词,得到过滤后的目标热词,也即,得到真正的目标热词,这样,由于过滤后的目标热词可以真实的反映其与关键词的关联度,因而其可以对用户的网络数据投放行为起到准确的导向作用。
[0074]具体地,在从网路爬虫爬取的文本信息中获取目标热词之后,可以再从数据列表中获取预先设定的常规热词,然后,将所有的目标热词与所有的常规热词逐一对比,如果某个目标热词与某个常规热词一致,则将其滤除,否则,如果某个目标热词与任何一个常规热词都不一致,则保留该目标热词,其中,被保留下来的目标热词即为过滤后的目标热词。
[0075]第一确定单元40用于确定目标对象与过滤后的目标热词的关联度。也即,确定目标对象的关键词与过滤后的目标热词的关联度。其中,关联度=共现频率/独现频率,独现频率可以为过滤后的目标热词在文本信息中单独出现的频率。
[0076]通过本发明实施例,由于从目标热词中滤除了常规热词,避免了常规热词的干扰,过滤后的目标热词能够更加真确地反映目标对象与过滤后的目标热词的关联度,达到了提高高频词语与对象之间的关联度的准确性效果。
[0077]图4是根据本发明第二实施例的用于网络热词与对象的关联度的数据处理装置的示意图。如图4所示,该装置包括:第一获取单元10、第二获取单元20、过滤单元30和第一确定单元40,其中,过滤单元30包括:第一获取模块301、第一判断模块302和过滤模块303。
[0078]第一获取单元10、第二获取单元20和第一确定单元40的作用与前述实施例中的相同,在此不再赘述。
[0079]第一获取模块301用于获取常规热词。常规热词为预先设定的词语,无论对象是谁,这些常规热词的出现频率都会大于第一预设频率。具体地,可以从数据库列表中获取预先设定的常规热词。
[0080]第一判断模块302用于判断目标热词中是否存在常规热词。可以将所有的目标热词与所有的常规热词逐一对比,如果某个目标热词与某个常规热词一致,则判断出该目标热词是常规热词;否则,如果某个目标热词与任何一个常规热词都不一致,则判断出该目标热词不是常规热词。
[0081]过滤模块303用于在判断出目标热词中存在常规热词时,从目标热词中滤除常规热词,得到过滤后的目标热词。
[0082]通过本发明实施例,由于预先建立了常规热词的词库,并将其存储在相应的数据库列表中,便于目标热词与该词库中的常规热词进行对比。
[0083]优选地,在本发明实施例中,该数据处理装置还可以包括:第二确定单元。第二确定单元用于确定常规热词,其中,第二确定单元可以包括:第二获取模块、第二判断模块和确定模块。第二获取模块用于获取目标热词的独现频率,独现频率为目标热词独立出现的频率,也即,目标热词不依附于目标对象的关键词而单独出现的频率。第二判断模块用于判断目标热词的独现频率是否大于第二预设频率。第二预设频率可以与前述的第一预设频率相同。确定模块用于在判断出目标热词的独现频率大于第二预设频率时,将目标热词作为常规热词。
[0084]优选地,根据本发明实施例,对象信息包括目标对象的关键词,第二获取单元可以包括:第三获取模块、爬取模块和第四获取模块。
[0085]第三获取模块用于获取预先设置的网络爬虫。该网络爬虫可以是定向抓取相关网页资源,自动下载网页程序,它根据既定的抓取目标,有选择的访问万维网上的网页与相关的链接,获取所需要的信息。它将目标定为抓取与某一特定主题内容相关的网页,为面向主题的用户查询准备数据资源。爬取模块用于利用预先设置的网络爬虫爬取目标网站上的文本信息。这里,网络爬虫爬取的信息可以为目标对象所在的文本信息。第四获取模块,用于根据关键词从文本信息中获取目标热词。
[0086]通过本发明实施例,采用网络爬虫的手段,当确定一个对象的对象信息(如,关键词)时,可以从互联网的网页上爬取到与该关键词对应的所有的文本信息,其中,该文本信息由大量的词语构成,根据爬取的文本信息确定与该对象同时出现的目标热词。
[0087]优选地,在本发明实施例中,该数据处理还可以包括:第三获取单元和显示单元。第三获取单元用于在从目标热词中滤除常规热词,得到过滤后的目标热词之后,确定过滤后的目标热词的情绪属性。可以通过语义分析技术分析过滤后的目标热词的情绪属性,其中,情绪属性包含正、负情绪属性以及中性情绪属性。例如,在实施时,可以预先设定词语的情绪属性,并将这些词语存储在预先设定的情绪属性列表中,这样,在确定过滤后的目标热词的情绪属性时,可以将目标热词与情绪属性列表中的词语进行逐一匹配,如果匹配成功,则目标热词的情绪属性即为所匹配的词语的情绪属性。
[0088]显示单元用于根据共现频率显示过滤后的目标热词和对象信息;和/或,根据关联度显示过滤后的目标热词和对象信息;和/或,根据情绪属性显示过滤后的目标热词和对象信息。例如,在根据情绪属性显示过滤后的目标热词和对象信息(如,关键词)时,可以以气泡、词云等形式进行显示,使得目标热词与目标对象的关联度更直观、更形象。
[0089]显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
[0090]以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种用于网络热词与对象的关联度的数据处理方法,其特征在于,包括: 获取目标对象的对象信息; 根据所述对象信息获取目标热词,所述目标热词为与所述对象信息的共现频率大于第一预设频率的词语,所述共现频率为所述目标热词与所述对象信息同时出现的频率; 从所述目标热词中滤除常规热词,得到过滤后的目标热词,所述常规热词为预先设定的词语;以及 确定所述目标对象与所述过滤后的目标热词的关联度。
2.根据权利要求1所述的用于网络热词与对象的关联度的数据处理方法,其特征在于,从所述目标热词中滤除所述常规热词,得到过滤后的目标热词包括: 获取所述常规热词;以及 判断所述目标热词中是否存在所述常规热词;以及 如果判断出所述目标热词中存在所述常规热词,则从所述目标热词中滤除所述常规热词,得到所述过滤后的目标热词。
3.根据权利要求2所述的用于网络热词与对象的关联度的数据处理方法,其特征在于,通过以下方式确定所述常规热词: 获取所述目标热词的独现频率,所述独现频率为所述目标热词独立出现的频率; 判断所述目标热词的所述独现频率是否大于第二预设频率;以及如果判断出所述目标热词的所述独现频率大于所述第二预设频率,则将所述目标热词作为所述常规热词。
4.根据权利要求1所述的用于网络热词与对象的关联度的数据处理方法,其特征在于,所述对象信息包括所述目标对象的关键词,根据所述对象信息获取目标热词包括: 获取预先设置的网络爬虫; 利用所述预先设置的网络爬虫爬取目标网站上的文本信息;以及 根据所述关键词从所述文本信息中获取所述目标热词。
5.根据权利要求1所述的用于网络热词与对象的关联度的数据处理方法,其特征在于,在从所述目标热词中滤除常规热词,得到过滤后的目标热词之后,所述数据处理方法还包括: 确定所述过滤后的目标热词的情绪属性;以及 根据所述共现频率显示所述过滤后的目标热词和所述对象信息,和/或根据所述关联度显示所述过滤后的目标热词和所述对象信息,和/或根据所述情绪属性显示所述过滤后的目标热词和所述对象信息。
6.一种用于网络热词与对象的关联度的数据处理装置,其特征在于,包括: 第一获取单元,用于获取目标对象的对象信息; 第二获取单元,用于根据所述对象信息获取目标热词,所述目标热词为与所述对象信息的共现频率大于第一预设频率的词语,所述共现频率为所述目标热词与所述对象信息同时出现的频率; 过滤单元,用于从所述目标热词中滤除常规热词,得到过滤后的目标热词,所述常规热词为预先设定的词语;以及 第一确定单元,用于确定所述目标对象与所述过滤后的目标热词的关联度。
7.根据权利要求6所述的用于网络热词与对象的关联度的数据处理装置,所述过滤单元包括: 第一获取模块,用于获取所述常规热词; 第一判断模块,用于判断所述目标热词中是否存在所述常规热词;以及 过滤模块,用于在判断出所述目标热词中存在所述常规热词时,从所述目标热词中滤除所述常规热词,得到所述过滤后的目标热词。
8.根据权利要求7所述的用于网络热词与对象的关联度的数据处理装置,其特征在于,所述数据处理装置还包括第二确定单元,所述第二确定单元用于确定所述常规热词,其中,所述第二确定单元包括: 第二获取模块,用于获取所述目标热词的独现频率,所述独现频率为所述目标热词独立出现的频率; 第二判断模块,用于判断所述目标热词的所述独现频率是否大于第二预设频率;以及 确定模块,用于在判断出所述目标热词的所述独现频率大于所述第二预设频率时,将所述目标热词作为所述常规热词。
9.根据权利要求6所述的用于网络热词与对象的关联度的数据处理装置,其特征在于,所述对象信息包括所述目标对象的关键词,所述第二获取单元包括: 第三获取模块,用于获取预先设置的网络爬虫; 爬取模块,用于利用所述预先设置的网络爬虫爬取目标网站上的文本信息;以及 第四获取模块,用于根据所述关键词从所述文本信息中获取所述目标热词。
10.根据权利要求6所述的用于网络热词与对象的关联度的数据处理装置,其特征在于,所述数据处理还包括: 第三获取单元,用于在从所述目标热词中滤除常规热词,得到过滤后的目标热词之后,确定所述过滤后的目标热词的情绪属性;以及 显示单元,用于根据所述共现频率显示所述过滤后的目标热词和所述对象信息,和/或根据所述关联度显示所述过滤后的目标热词和所述对象信息,和/或根据所述情绪属性显示所述过滤后的目标热词和所述对象信息。
【文档编号】G06F17/30GK104408102SQ201410665109
【公开日】2015年3月11日 申请日期:2014年11月19日 优先权日:2014年11月19日
【发明者】陈俊宏, 余德乐, 杨韬 申请人:北京国双科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1