数据信息处理的方法和装置与流程

文档序号:12597738阅读:219来源:国知局
数据信息处理的方法和装置与流程

本发明涉及数据处理领域,具体而言,涉及一种数据信息处理的方法和装置。



背景技术:

随着互联网的迅速发展,各品牌厂商不在使用原始的途径来寻求合作伙伴,因为原始的途径寻求的合作伙伴大多数为上下游的关系或者正向竞争关系,这种合作并没有建立在有根据的分析之上,所以更多时候有很多潜在的合作伙伴没有被挖掘。

现今,由于人们可以通过互联网中的社交平台发布一些个人的言论信息,而各厂商也开始重视并分析网民在网络渠道上发出的声音,以此进行分析来寻找新的商业契机,那么如何对互联网中数据信息进行处理以获取目标信息成为一个亟待解决的难题。

针对上述如何对互联网中数据信息进行处理以获取目标信息的问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明实施例提供了一种数据信息处理的方法和装置,以至少解决如何对互联网中数据信息进行处理以获取目标信息的技术问题。

根据本发明实施例的一个方面,提供了一种数据信息的处理方法,包括:提取至少两个不同的目标关键词和与目标关键词对应的情绪关键词;其中,每个目标关键词对应多个不同情绪关键词,每个情绪关键词所属于预先分配的情绪关键词类别中;分别确定目标关键词的权重值和与目标关键词对应的情绪关键词的类别的权重值;根据目标关键词的权重值和对应的情绪关键词的类别的权重值,确定至少两个目标关键词的关联度值;当关联度值大于第一预设阈值时,将至少两个目标关键词进行组合。

根据本发明实施例的另一方面,还提供了一种数据信息的处理装置,包括:提取模块,用于提取至少两个不同的目标关键词和与目标关键词对应的情绪关键词;其中,每个目标关键词对应多个不同情绪关键词,每个情绪关键词所属于预先分配的情绪关键词类别中;权重配置模块,用于分别确定目标关键词的权重值和与目标关键词对应的情绪关键词的类别的权重值;关联度值配置模块,用于根据目标关键词的权重值和 对应的情绪关键词的类别的权重值,确定至少两个目标关键词的关联度值;配置模块,用于当关联度值大于第一预设阈值时,将至少两个目标关键词进行组合。

在本发明实施例中,采用提取至少两个不同的目标关键词和与目标关键词对应的情绪关键词;其中,每个目标关键词对应多个不同情绪关键词,每个情绪关键词所属于预先分配的情绪关键词类别中;分别确定目标关键词的权重值和与目标关键词对应的情绪关键词的类别的权重值;根据目标关键词的权重值和对应的情绪关键词的类别的权重值,确定至少两个目标关键词的关联度值;当关联度值大于第一预设阈值时,将至少两个目标关键词进行组合,达到了获取到关联度值的目的,从而实现了根据用户需求从互联网中分析数据的技术效果,进而解决了如何对互联网中数据信息进行处理以获取目标信息的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的一种数据信息处理的方法的流程示意图;

图2是根据本发明实施例的一种可选的数据信息处理的方法的流程示意图;

图3是根据本发明实施例的一种数据信息处理的装置的结构示意图;

图4是根据本发明实施例的另一种数据信息处理的装置的结构示意图;以及,

图5是根据本发明实施例的又一种数据信息处理的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二” 等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

根据本发明实施例,提供了一种数据信息处理的方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种数据信息处理的方法的流程示意图,如图1所示,该方法包括如下步骤:

步骤S102,提取至少两个不同的目标关键词和与目标关键词对应的情绪关键词;其中,每个目标关键词对应多个不同情绪关键词,每个情绪关键词所属于预先分配的情绪关键词类别中。

具体的,本申请实施例可以利用爬虫技术在各个客户端以及网络平台抓取用户信息和用户信息对应的目标关键词,其中,该客户端可以为微博、脸书和推特一类的社交网络客户端,网络平台可以为各大论坛的所属网站,用户信息可以至少包含以下一种信息性别、年龄、地域、职业、学历等,然后提取对应目标关键词的多个情绪关键词,该情绪关键词可以为用于描述目标关键词的用户评论,例如,假设目标关键词为“可乐”,情绪关键词则可以对应为“好喝”、“甜”或“治感冒”等描述“可乐”的用户评论。

步骤S104,分别确定目标关键词的权重值和与该目标关键词对应的情绪关键词的类别的权重值。

具体的,基于步骤S102中提取的目标关键词以及该目标关键词对应的情绪关键词,分别确定该目标关键词的权重值和与该目标关键词对应的情绪关键词的类别的权重值,即,可以根据目标关键词在客户端或网络平台中的“热度”(出现频率或点击率)设置对应的权重值,其中,对应目标关键词的情绪关键词的类别可以设置为:褒义、中等和/或贬义等,进而确定对该目标关键词的情绪关键词的类别的权重值。

例如,仍旧以步骤S102中的目标关键词为“可乐”,对应的情绪关键词为“好喝”、“甜”或“治感冒”为例,若“可乐”在客户端或网络平台中的“热度”占整个网络“热度”的 60%,则确定“可乐”的权重值为0.6;情绪关键词的类别:褒义、中等和/或贬义的权重值分别配置为0.5,0.3,0.2。若对应“可乐”的情绪关键词:“好喝”、“甜”或“治感冒”属于“褒义”类别,则“可乐”对应的情绪关键词的类别的权重值为0.5。

这里本申请实施例中提供的对“可乐”的权重值以及“可乐”对应的情绪关键词类别的权重值的确定方式,仅以实现本申请实施例提供的数据信息处理的方法为准,具体不做限定。

步骤S106,根据目标关键词的权重值和对应的情绪关键词类别的权重值,确定至少两个目标关键词的关联度值。

具体的,基于步骤S102和步骤S104,在确定目标关键词的权重值和对应的情绪关键词类别的权重值后,依据目标关键词的权重值和对应的情绪关键词类别的权重值确定至少两个目标关键词的关联度值。

步骤S108,当关联度值大于第一预设阈值时,将至少两个目标关键词进行组合。

具体的,当关联度值大于第一预设阈值时,将该关联度值对应的至少两个目标关键词进行组合,以通过组合目标关键词得到资源最大利用化。例如为了寻求具备品牌合作的潜在概率的至少两个品牌,通过确定至少两个目标关键词的关联度值,确定目标关联词的组合,即,品牌合作的组合。

本发明实施例提供的数据信息的处理方法,采用提取至少两个不同的目标关键词和与目标关键词对应的情绪关键词;其中,每个目标关键词对应多个不同情绪关键词,每个情绪关键词所属于预先分配的情绪关键词类别中;分别确定目标关键词的权重值和与目标关键词对应的情绪关键词的类别的权重值;根据目标关键词的权重值和对应的情绪关键词的类别的权重值,确定至少两个目标关键词的关联度值;当关联度值大于第一预设阈值时,将至少两个目标关键词进行组合,达到了获取到关联度评估值的目的,从而实现了根据用户需求从互联网中分析数据的技术效果,进而解决了如何对互联网中数据信息进行处理以获取目标信息的技术问题。

图2是根据本发明实施例的一种可选的数据信息处理的方法的流程示意图,如图2所示,以微博为例,利用爬虫技术在微博平台上抓取该用户信息,然后在抓取用户在微博平台上发表的言论信息,并从该言论信息中提取多个目标关键词。

假设可口可乐公司根据需求想获知“可口可乐”和“牛栏奶粉”的关联度值,则需要提取目标关键词“可口可乐”和“牛栏奶粉”,并分别获取“可口可乐”与“牛栏奶粉”用户信息,并将“可口可乐”的用户信息,与“牛栏奶粉”用户信息存储至数据库,通过上述步骤完成了从客户端中获取每个品牌所对应的用户群体,是通过每个品牌对应的用户 群体为获取每个品牌的用户群体的数据信息的基础。

进一步的,分别提取“可口可乐”和“牛栏奶粉”对应的情绪关键词,并在提取到“可口可乐”和“牛栏奶粉”对应的情绪关键词后,依据可口可乐对应的“热度”和“牛栏奶粉”(曝光率或点击率),以及“可口可乐”和“牛栏奶粉”对应的情绪关键词的类别所属属性确定权重值,进而依据“可口可乐”和“牛栏奶粉”的权重值,以及“可口可乐”和“牛栏奶粉”对应的情绪关键词的类别的权重值确定“可口可乐”和“牛栏奶粉”的关联度值,最后判断“可口可乐”和“牛栏奶粉”是否可以成为一个组合,即,是否具有合作潜力的品牌。

优选的,本发明实施例中步骤S102中提取至少两个不同的目标关键词和与目标关键词对应的情绪关键词的步骤包括:

通过获取网络平台中的多媒体信息提取至少两个不同的目标关键词和与目标关键词对应的情绪关键词,其中,网络平台中的多媒体信息包括:文本、图片、音频或视频中的一种或至少两种的组合,网络平台包括:客户端平台和/或网页平台。

具体的,仍旧以提取目标关键词“可口可乐”和“牛栏奶粉”为例进行说明,在网络平台为客户端平台和/或网页平台的情况下,从上述平台中的多媒体信息中提取至少两个不同的目标关键词以及与该目标关键词对应的情绪关键词,即,从文本、图片、音频或视频中的一张或至少两种组合的信息中提取可口可乐”和“牛栏奶粉”。

进一步的,上述步骤S102中通过获取网络平台中的多媒体信息提取至少两个不同的目标关键词和与目标关键词对应的情绪关键词的步骤包括:

Step1,判断多媒体信息中是否存在目标关键词;

Step2,在多媒体信息中存在目标关键词的情况下,提取多媒体信息中的目标关键词;

Step3,依据预设对应关系提取目标关键词对应的情绪关键词。

具体的,根据在多媒体信息中提取出“可口可乐”这个品牌的属性信息,其中,属性信息可以是网民在互联网上发布的一些关于“可口可乐”这个品牌的情绪关键词,比如,情绪关键词可以包括:好喝、难喝、一般、爽口、价钱贵或节日,同理,提取“牛栏”奶粉这个品牌的情绪关键词,比如,情绪关键词可以包括:“长得壮、上火、普通、无味、价钱贵或进口”。

优选的,本发明实施例的步骤S104中确定目标关键词的权重值的步骤包括:

步骤a,对网络平台中目标关键词的进行分类,得到目标关键词的所属类别;

步骤b,记录目标关键词在所属类别中的出现次数,判断出现次数是否大于第二预设阈值;

步骤c,在出现次数大于第二预设阈值的情况下,依据出现次数设置目标关键词的权重值。

具体的,对目标关键词进行分类,在该目标关键词的所属类别判断出现次数是否大于第二预设阈值,在该目标关键词的出现次数大于第二预设阈值的情况下,依据出现次数设置目标关键词的权重值,如图2所示,在目标关键词为“牛栏”这个品牌词时,设置“牛栏”所属的类别为饮品,在“饮品”中记录“牛栏”这个品牌词的出现的次数,例如,在微博用户名为“桃子”的微博言论中,“牛栏”这个品牌词的出现次数为10次,而第二预设阈值为3次,则说明“牛栏”属于当前“热词”,进而设置“牛栏”的权重值为0.8,并提取微博用户名为“桃子”的用户信息作为参考。

优选的,本发明实施例的步骤S104中确定目标关键词对应的情绪关键词的类别的权重值的步骤包括:

步骤a,对情绪关键词进行分类;

步骤b,按照第一预设顺序,对分类后的情绪关键词所属类别分配对应的权重值,第一预设顺序包括:权重值从大到小的顺序,或权重值从小到大的顺序。

具体的,仍旧以“可口可乐”和“牛栏奶粉”对应的情绪关键词为例,比如,“可口可乐”对应的情绪关键词可以包括:好喝、爽口、价钱贵或节日;对“可口可乐”对应的情绪关键词进行词性分析,可以分为褒义词;同理,假设“牛栏奶粉”对应的情绪关键词可以包括:长得壮、上火、普通、无味、价钱贵或进口;对“牛栏奶粉”对应的情绪关键词进行词性分析,可以分为褒义词;进而依第一预设顺序对“可口可乐”和“牛栏奶粉”对应的情绪关键词所属类别分配对应的权重值,假设,褒义词权重值可以为0.6,中性词权重值可以为0.3,贬义词权重值可以为0.1,则“可口可乐”和“牛栏奶粉”对应的情绪关键词所属类别对应的权重值为0.6。

进一步的,基于上述步骤S104,本发明实施例的步骤S106中根据目标关键词的权重值和对应的情绪关键词的类别的权重值,确定至少两个目标关键词的关联度值的步骤包括:

Step1,获取在同一网络平台上出现的至少两个目标关键词对应的特征值,其中,特征值包含:曝光率和/或点击率;

Step2,依据特征值对至少两个目标关键词分别配置对应的权重值;

Step3,根据目标关键词的权重值、目标关键词对应的情绪关键词类别的权重值和依据曝光率配置的至少两个目标关键词对应的权重值,确定至少两个目标关键词的关联度值。

具体的,结合步骤Step1至Step3,仍旧以“可口可乐”和“牛栏奶粉”对应的情绪关键词为例,其中,网络平台可以以微博平台或社交论坛平台为例,这里,在微博平台或社交论坛平台中进行查找,获取“可口可乐”和“牛栏奶粉”的特征值,即,“可口可乐”和“牛栏奶粉”的曝光率和/或点击率,并依据该“可口可乐”和“牛栏奶粉”的特征值配置对应的权重值,最后,依据“可口可乐”和“牛栏奶粉”对应的权重值、“可口可乐”和“牛栏奶粉”对应的情绪关键词类别的权重值和依据曝光率配置的“可口可乐”和“牛栏奶粉”对应的权重值,确定“可口可乐”和“牛栏奶粉”的关联度值,即,

假设“可口可乐”的权重值为0.8、“牛栏奶粉”的权重值为0.7;

“可口可乐”的情绪关键词类别的权重值为0.6,“牛栏奶粉”的情绪关键词类别的权重值为0.6;

依据曝光率配置的“可口可乐”的权重值为0.7,依据曝光率配置的“牛栏奶粉”的权重值为0.6;

由上可知,累加上述“可口可乐”对应的权重值得到“可口可乐”的关联度值:0.8+0.6+0.7=2.1;

累加上述“牛栏奶粉”对应的权重值得到“牛栏奶粉”的关联度值:0.7+0.6+0.6=1.9。

同理,在微博平台或社交论坛平台上还可以得到“某牌汽车”和“某某婴幼奶粉”的关联度值,即,对应的关联度值计算方式与上述相同,“某牌汽车”的关联度值为:1.6;“某某婴幼奶粉”的关联度值为:1.5。

这里本发明实施例提供的数据信息的处理方法中,计算关联度值的方法仅以累加求和为例进行说明,以实现数据信息的处理方法为准,具体不做限定。

进一步的,基于上述步骤S106,本发明实施例的步骤S108中当关联度值大于第一预设阈值时,将至少两个目标关键词进行组合的步骤包括:

步骤一,提取关联度值大于第一预设阈值的目标关键词;

步骤二,按照第二预设顺序将提取后的目标关键词进行分组,第二预设顺序包括:关联度值从小到大的顺序,或关联度值从大到小的顺序;

步骤三,选取最大关联度值的两个目标关键词进行组合。

基于上述步骤S106中的步骤Step1至Step3,在步骤S108中,假设第一预设阈值为1.3,仍旧以上述步骤S106中的步骤Step1至Step3的示例为例进行说明,提取关联度值大于1.3的目标关键词,即,2.1>1.3,提取“可口可乐”;1.9>1.3,提取“牛栏奶粉”;1.6>1.3,提取“某牌汽车”;1.5>1.3,提取“某某婴幼奶粉”;进而对上述提取的目标关键词进行分组,由于:2.1>1.9>1.6>1.5,则得到的分组为“可口可乐”、“牛栏奶粉”、“某牌汽车”和“某某婴幼奶粉”;最后,由于“可口可乐”和“牛栏奶粉”对应的关联度值分别为小组中第一和第二,因此将“可口可乐”和“牛栏奶粉”进行组合,即,得到“可口可乐”和“牛栏奶粉”最具潜在合作概率。

结合上述步骤S102至步骤S108,本发明实施例提供的数据信息的处理方法,参照图2,具体实施可以为:

首先,抓取微博平台上的人物的个人资料信息(性别、年龄、地域、职业、学历、兴趣标签),以及各微博用户的微博言论。再根据微博言论中对品牌的提及量情况确定品牌的相关人群。例如:预先在后台设定曝光率的阈值,当某用户对品牌的曝光率高于这个阀值时,即表示该用户为该品牌的相关人群。

其次,爬虫抓取互联网上文本信息,储存在数据库中,预设在后台设置品牌数据库,按照品牌从文本数据库中提取出相关品牌的网民情绪态度,和网民关注点(即热词)。

最后,将各品牌间的相关人群按人物信息中的各个维度计算出重合度,即为品牌的人群重合度(即性别、年龄、地域、职业、学历、兴趣标签)以百分比的形式出现,结合不同的预先根据需求设定的权重,例如:性别重合度80%,但权重为0.3,则结果为24%;兴趣标签重合度为40%,但权重为0.8,则结果为32%。同样,将网民情绪态度按正负中立分出百分比,按需求分别赋予不同权重,例如正面权重0.6,中立0.3,负面0。同时计算出热词重合度,并赋予权重。最后结合所有的三方面信息权重算出总得分,算出一个品牌跟其他所有品牌的各个总得分,选出最高的最为有合作潜力的品牌。

本发明实施例通过爬虫抓取大量的数据,通过本发明实施例提供的数据信息处理方法计算出有合作潜力的品牌,以此提高了他的时效性,减少了人工成本,同时结合了人群相似度、情绪、关注点,从多个维度来挖掘合作可能性,提高了准确性。

实施例二

图3是根据本发明实施例的一种数据信息的处理装置的结构示意图,如图3所示,该装置包括:提取模块32、权重配置模块34、关联度值配置模块36和配置模块38, 其中,

提取模块32,用于提取至少两个不同的目标关键词和与目标关键词对应的情绪关键词;其中,每个目标关键词对应多个不同情绪关键词,每个情绪关键词所属于预先分配的情绪关键词类别中;

权重配置模块34,与提取模块32建立电连接,用于分别确定目标关键词的权重值和与目标关键词对应的情绪关键词的类别的权重值;

关联度值配置模块36,与权重配置模块34建立电连接,用于根据目标关键词的权重值和对应的情绪关键词的类别的权重值,确定至少两个目标关键词的关联度值;

配置模块38,与关联度值配置模块36建立电连接,用于当关联度值大于第一预设阈值时,将至少两个目标关键词进行组合。

本发明实施例提供的数据信息的处理装置,采用提取至少两个不同的目标关键词和与目标关键词对应的情绪关键词;其中,每个目标关键词对应多个不同情绪关键词,每个情绪关键词所属于预先分配的情绪关键词类别中;分别确定目标关键词的权重值和与目标关键词对应的情绪关键词的类别的权重值;根据目标关键词的权重值和对应的情绪关键词的类别的权重值,确定至少两个目标关键词的关联度值;当关联度值大于第一预设阈值时,将至少两个目标关键词进行组合,达到了获取到关联度评估值的目的,从而实现了根据用户需求从互联网中分析数据的技术效果,进而解决了如何对互联网中数据信息进行处理以获取目标信息的技术问题。

优选的,图4是根据本发明实施例的另一种数据信息的处理装置的结构示意图,如图4所示,提取模块32包括:提取单元321,其中,

提取单元321,用于通过获取网络平台中的多媒体信息提取至少两个不同的目标关键词和与目标关键词对应的情绪关键词,网络平台中的多媒体信息包括:文本、图片、音频或视频中的一种或至少两种的组合,网络平台包括:客户端平台和/或网页平台。

优选的,图5是根据本发明实施例的又一种数据信息的处理装置的结构示意图,如图5所示,提取单元321包括:判断子单元3211、第一提取子单元3212和第二提取子单元3213,其中,

判断子单元3211,用于判断多媒体信息中是否存在目标关键词;

第一提取子单元3212,用于在多媒体信息中存在目标关键词的情况下,提取多媒体信息中的目标关键词;

第二提取子单元3213,用于依据预设对应关系提取目标关键词对应的情绪关键词。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1