一种互联网数据分析方法及系统与流程

文档序号：12063716阅读：192来源：国知局

本发明涉及通信技术领域，尤其涉及一种互联网数据分析方法及系统。

背景技术：

在电子信息飞速发展的今天，各类电子商务网站纷纷提供了发表在线评论的平台，电子商务网站通常采用的是用星级评分来大致表示在线评论中所体现出来的消费者对产品总体或者不同属性的评价，然后再计算该产品所有评论的星级评分的平均值，基于平均值来表示该产品的在线评价结果。

可见，上述通过星级评分的平均值来表示消费者对该产品的在线评价结果忽略了评论的文本内容所包含的信息以及不同评论的有用性差异，而且产品的在线评论文本中通常会提及多种产品属性，仅看总体星级评分不能了解消费者对不同产品属性的评价，而消费者对产品属性的偏好存在异质性，即重视的产品属性不一样，仅依据目前的平均星级评分，不便于消费者根据其偏好来快速选择产品，也不便于制造商依据此结果指导产品的改进方向。

综上，现有的星级评分方法仅依据平均值分析评论数据，存在分析结果不准确的问题。

技术实现要素：

本发明实施例提供一种互联网数据分析方法及装置，用以解决现有的星级评分方法仅依据平均值分析评论数据，存在分析结果不准确的问题。

本发明方法包括一种互联网数据分析方法，该方法包括：获取互联网上的产品的属性以及所述产品对应的评论；针对一个产品，根据所述产品对应的每条评论的关注程度信息，确定所述每条评论对应的第一权重值；以及根据对所述产品的每个属性对应的评论进行情感分类得到的结果，确定所述产品的每个属性的第二权重值；结合所述每条评论对应的第一权重值和所述产品的每个属性的第二权重值，确定关于所述产品的评论的数据分析结果。

基于同样的发明构思，本发明实施例进一步提供一种互联网数据分析系统，该系统包括：获取单元，用于获取互联网上的产品的属性以及所述产品对应的评论；第一确定单元，用于针对一个产品，根据所述产品对应的每条评论的关注程度信息，确定所述每条评论对应的第一权重值；以及根据对所述产品的每个属性对应的评论进行情感分类得到的结果，确定所述产品的每个属性的第二权重值；第二确定单元，用于结合所述每条评论对应的第一权重值和所述产品的每个属性的第二权重值，确定关于所述产品的评论的数据分析结果。

本发明实施例通过获取互联网上的产品的属性以及所述产品对应的评论，针对一个产品，一方面根据所述产品对应的每条评论的关注程度信息，确定所述每条评论对应的第一权重值，另一方面根据对所述产品的每个属性对应的评论进行情感分类得到的结果，确定所述产品的每个属性的第二权重值。最后，结合所述每条评论对应的第一权重值和所述产品的每个属性的第二权重值，确定关于所述产品的评论的数据分析结果。可见，本发明实施例将不同评论赋予不同级别的权重，并对评论文本内容进行解析，得出不同产品的每个属性的权重，在现有的评论数据的基础上进一步地结合上述两个权重因素，使得评论数据的分析结果更加准确，有利于指导用户产品的选择或厂商进行产品的改进。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供一种互联网数据分析方法流程示意图；

图2为本发明实施例提供一种向量机模型示意图；

图3为本发明实施例提供一种互联网数据分析系统架构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

参见图1所示，本发明实施例提供一种互联网数据分析方法流程示意图，具体地实现方法包括：

步骤S101，获取互联网上的产品的属性以及所述产品对应的评论。

步骤S102，针对一个产品，根据所述产品对应的每条评论的关注程度信息，确定所述每条评论对应的第一权重值；以及根据对所述产品的每个属性对应的评论进行情感分类得到的结果，确定所述产品的每个属性的第二权重值。

步骤S103，结合所述每条评论对应的第一权重值和所述产品的每个属性的第二权重值，确定关于所述产品的评论的数据分析结果。

举例来说，互联网电商通过网络平台销售线上的商品，消费者会针对自己的订单发表评论，评论内容通常会涉及产品的质量、大小、物流等多个方面，最终电商根据消费者的星级评分结果得出该订单是好评或者是差评两种结果。在步骤S101中，本发明实施例主动获取待分析的数据中的所有产品类型、以及每个产品的属性，例如手机就涉及价格、型号、电池待机能力等，以及该产品所有订单的评论数据。

考虑到有些订单的评论内容较为详细，对其它用户的参考价值很大，那么就要考虑对这种评论赋予一定的权重，例如，消费者李某针对某个新款手机订单在网上发表了一条评论，评论的内容涉及该手机的试用经历、手机性价比、手机辐射强弱等多方面信息，而且还配上的图片。因此消费者李某的这条评论就非常具有参考价值，其它的消费者看到这条评论就会觉得很好，会对该条评论点赞，为了把这些点赞的数据和评论的总数等关注程度信息也作为该产品的评价结果的考虑因素，因此本发明实施例提出了第一权重值。具体地，针对一个产品，所述关注程度信息包括所述产品的评论总数和每条评论的支持分数；所述第一权重值满足下列公式：

……………..公式1

其中，表示第i条评论的第一权重值，HVs(v_i)表示第i条评论的支持分数，p表示所述产品的评论总数，λ表示第i条评论的的加权因子，λ通常取值为1。

因此，针对每条评论均采用上述公式赋予权重之后，可以得到一个1×p的行矩阵

当然，也可以直接根据所述产品的支持分数和第一权重的对应关系，确定所述每条评论对应的第一权重。

另外，不同的用户等级发表的评论有用性有所差异，因此也可以根据用户的等级赋予一定的权重值，这样就可以区分不同用户发表的评论有用性。

基于针对产品的在线评论中通常会涉及到该产品的多个属性，而且评论中对该产品的一个属性作出肯定的同时，可能会对该产品的另一个属性表示不满，因此只是看该产品的星级评分结果是好评还是差评是不合适的。因此本发明实施例进一步地根据所述产品对应的属性和所述产品的每个属性的评论生成关于所述产品的评价矩阵。

具体地，采用文本挖掘的方法抽取评论中提及的产品属性，设A＝(A₁,A₂,…,A_n)为产品属性集，然后利用语义分析，根据评论星级，当时三星级以上代表是好评，一星级代表差评，其余定性为中性评论，因此将评论的情感倾向分为三个级别：正面、中性、负面，依次用1、0、-1表示，这样可以得到某一款产品的属性评价矩阵，如表一所示。

表一：

从表一中可见，有些评论文本中关于产品的部分属性并没有提及，因此该部分属性在上述评价矩阵表中存在空值。为了便于后续基于其它因素进行矩阵运算，本发明实施例进一步地采用缺省值填充所述空值。具体地，若所述产品的部分属性没有评论，则根据所述产品的已有评论预设评价值，并将所述评价值作为所述没有评论的部分属性的缺省值，以使根据所述产品对应的属性和所述产品的每个属性的评论生成关于所述产品的评价矩阵。

例如，空值的填充方式为：将该条评论给出的星级评分(1星～5星)映射到(-1～1)的范围内之后，然后利用映射函数将映射值填入同一行的所有缺失值。映射函数为：

………………公式2

其中，Score表示星级评分的映射值，Rating表示原星级评分。如此处理后，即可得到完整的产品属性评价矩阵。

为了进一步地突显产品的不同属性的差异性，本发明实施例继续基于上述评论矩阵对每个产品的不同的属性赋予不同的权重值。具体地，针对一个属性，根据对所述产品的每个属性对应的评论的情感分类的结果，确定所述产品每条评论对应的每个属性的第一特征值；

根据所述第一特征值确定用于正面评价的每条评论对应的每个属性的第二特征值；以及根据所述第一特征值确定用于负面评价的每条评论对应的每个属性的第二特征值；

根据所述第二特征值确定所述产品的每个属性的第二权重值。

上述第二权重值在实际的确定过程中涉及到图2中的支持向量机模型以及权重分析模型，具体地第二权重值的确定过程如下：

步骤一：通过文本挖掘和语义分析的工作，我们分别得到了用户对产品的整体打分y_i(评论的星级评定)与用户对各个产品属性的打分x_ij，两者之间存在的关系如公式3所示：

………..公式3

其中，y_i表示用户对产品的整体打分；w_j表示产品的各个属性的权重；x_ij表示用户对各个产品属性的打分。

步骤二：基于图2中的向量机模型是二分类(即+1，-1)，而现有的数据是可以是多种类型，例如分为五类，如果我们要将五分类转化为二分类，转化规则为公式4所示。

if y_i＝y_j (x_i-x_j,-1)y＝-1……….公式4

转化前评价矩阵如表二所示。

表二：

转化后评价矩阵如表三所示。

表三：

步骤三：基于上述关系式，求解w_j，在求解权重ω的时候，我们建立了权重分析模型，模型依据上述公式3，并参考图2中的向量机模型和支持向量机算法进行改进最后建立而成。

其中，可以把每条评论看做一个样本，y可作为样本类别的标签，x作为样本在各个维度上的取值。权重分析模型算法如下：

ω≥0

ξ_i≥0…………….公式5

其中，1/C表示惩罚系数(相当于在松弛变量前乘以C)，避免离群点过多；ξ_i表示松弛变量，使方程有可行解；ω表示产品特征的权重值列向量，ω≥0；x_i表示样本在各个维度上的取值，表示；y_i表示样本类别的标签。

支持向量机算法支持向量机算法可用于解决不同样本的分类问题，求取不同类别样本的最大间隔，确保样本的分类结果最为准确，wx+b＝0为决策函数。公式中的w作为本发明实施例待求的第二权重值。支持向量机算法公式如下：

s.t.:y(ω^Tx_i+b)≥1,i＝1,......,n…………………..公式6

其中，ω表示权重值的列向量，ω≥0；ξ_i表示松弛变量；b表示常数项；y表示样本的类别标签；

综上，通过上述方法确定出第一权重值、第二权重值、评价矩阵之后，根据所述所述评价矩阵、所述每条评论对应的第一权重和所述产品的每个属性的第二权重的乘积结果可以确定所述产品对应的整体评价结果。基于这个整体评价结果厂商可以了解产品各个属性对产品总体综合评价的影响程度，可以找出大部分消费者都比较关注的属性，然后在这些属性的研发及改进上投入更多的资源，以更好的满足消费者的需要。此外，还可以直接测度各个属性的综合评价，这便于找出影响产品总体综合评价的短板，然后有针对性的进行改善和管理，可以取得更加显著的效果。

基于相同的技术构思，本发明实施例还提供一种互联网数据分析系统，该互联网数据分析系统可执行上述方法实施例。本发明实施例提供的互联网数据分析系统如图3所示，包括：获取单元301、第一确定单元302、第二确定单元303。其中：

获取单元301，用于获取互联网上的产品的属性以及所述产品对应的评论；

第一确定单元302，用于针对一个产品，根据所述产品对应的每条评论的关注程度信息，确定所述每条评论对应的第一权重值；以及根据对所述产品的每个属性对应的评论进行情感分类得到的结果，确定所述产品的每个属性的第二权重值；

第二确定单元303，用于结合所述每条评论对应的第一权重值和所述产品的每个属性的第二权重值，确定关于所述产品的评论的数据分析结果。

当然，也可以直接根据所述产品的支持分数和第一权重的对应关系，确定所述每条评论对应的第一权重。

另外，不同的用户等级发表的评论有用性有所差异，因此也可以根据用户的等级赋予一定的权重值，这样就可以区分不同用户发表的评论有用性。

基于针对产品的在线评论中通常会涉及到该产品的多个属性，而且评论中对该产品的一个属性作出肯定的同时，可能会对该产品的另一个属性表示不满，因此只是看该产品的星级评分结果是好评还是差评是不合适的。因此本发明实施例进一步地利用评价矩阵生成单元生成评价矩阵。所述评价矩阵生成单元304，用于根据所述产品对应的属性和所述产品的每个属性的评论生成关于所述产品的评价矩阵。

从表一中可见，有些评论文本中关于产品的部分属性并没有提及，因此该部分属性在上述评价矩阵表中存在空值。为了便于后续基于其它因素进行矩阵运算，本发明实施例进一步地采用缺省值填充所述空值。具体地，所述评价矩阵生成单元304具体用于：若所述产品的部分属性没有评论，则根据所述产品的已有评论预设评价值，并将所述评价值作为所述没有评论的部分属性的缺省值，以使根据所述产品对应的属性和所述产品的每个属性的评论生成关于所述产品的评价矩阵。

例如，空值的填充方式为：将该条评论给出的星级评分(1星～5星)映射到(-1～1)的范围内之后，然后利用映射函数将映射值填入同一行的所有缺失值。映射函数如公式2所述，不再赘述。

为了进一步地突显产品的不同属性的差异性，本发明实施例继续基于上述评论矩阵对每个产品的不同的属性赋予不同的权重值。第一确定单元具体用于：针对一个属性，根据对所述产品的每个属性对应的评论的情感分类的结果，确定所述产品每条评论对应的每个属性的第一特征值；

根据所述第二特征值确定所述产品的每个属性的第二权重值。

上述第二权重值在实际的确定过程中涉及到图2中的支持向量机模型以及权重分析模型，具体地第二权重值的确定过程如下：

步骤一：通过文本挖掘和语义分析的工作，我们分别得到了用户对产品的整体打分y_i(评论的星级评定)与用户对各个产品属性的打分x_ij，两者之间存在的关系如公式3所示。

其中，可以把每条评论看做一个样本，y可作为样本类别的标签，x作为样本在各个维度上的取值。权重分析模型算法如公式5所示。支持向量机算法支持向量机算法可用于解决不同样本的分类问题，求取不同类别样本的最大间隔，确保样本的分类结果最为准确，wx+b＝0为决策函数。公式中的w作为本发明实施例待求的第二权重值。支持向量机算法公式如公式6所示。

综上，通过上述方法确定出第一权重值、第二权重值、评价矩阵之后，根据所述所述评价矩阵、所述每条评论对应的第一权重和所述产品的每个属性的第二权重的乘积结果可以确定所述产品对应的整体评价结果。可见，本发明实施例将不同评论赋予不同级别的权重，并对评论文本内容进行解析，得出不同产品的每个属性的权重，在现有的评论数据的基础上进一步地结合上述两个权重因素，使得评论数据的分析结果更加准确，有利于提高营销的精准度，厂商利用该分析结果可以快速定位产品的突出属性特征，然后在制定营销策略时，可以有针对性的加强宣传，这样可以强化这些属性特征在消费者心中的印象，打造产品的核心竞争力，这样，恰好重视这些属性的消费者就会更加关注该产品，从而提高产品销量。可见，本发明实施例涉及的方法源于以人为本的思想，充分考虑用户的需求，以满足用户需求为重要目标。相关的电商网站可以在已有的按人气、销量、价格排名的基础上，利用本发明实施例增加各个属性的排名，这样，偏好不同的消费者可以选择按照自己看重的属性的综合评价来进行搜索排名，而不必再去浏览众多在线评论的文本内容后推测产品各个属性的大致评价，极大地降低了搜索的时间成本和交易的风险性。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何子琳;刘彦;齐佳音;傅湘玲;张镇平
技术所有人：中国移动通信集团北京有限公司;北京邮电大学
我是此专利的发明人

上一篇：一种群组数据处理的方法及装置与流程
上一篇：一种基于数据基类型的资源调配方法和服务器与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。