基于网络评论的产品质量问题发现及风险评估方法

文档序号:10489535阅读:320来源:国知局
基于网络评论的产品质量问题发现及风险评估方法
【专利摘要】本发明提供了一种基于网络评论的产品质量问题发现及风险评估方法,包括下述步骤:步骤1,数据获取:利用网络爬虫,抓取与指定产品相关的网页,然后抽取网页中的评论数据,并保存到数据库中;步骤2,质量特征词提取:首先对评论文本进行预处理,然后利用条件随机场模型从评论数据中提取质量特征词;步骤3,质量问题发现及风险评估:基于质量问题描述模板统计产品的质量问题,基于风险评估算法对产品质量的各个方面进行风险评估。本发明能快速有效地发现用户反映的质量问题,并对产品使用过程中的质量风险进行实时监督。
【专利说明】
基于网络评论的产品质量问题发现及风险评估方法
技术领域:
[0001] 本发明属于产品质量管理领域,尤其涉及一种基于网络评论的产品质量问题发现 及风险评估方法。
【背景技术】:
[0002] 产品质量是企业的生命,是一个企业整体素质的展示,也是一个企业综合实力的 体现。传统的质量管理方法往往只注重生产过程中的质量管理,产品的出厂意味着质量管 理的结束。随着全面质量管理的兴起,质量管理的范围扩展到了用户使用阶段,企业致力于 发现用户使用过程中的产品质量问题,并将这些质量问题反馈给设计和生产部门,从而改 善广品质量,提尚用户体验。
[0003] 目前,企业主要通过售后服务部门来收集用户使用过程中的产品质量问题。很多 大型制造企业在全国设立售后服务点,通过售后服务点收集用户在使用过程中遇到的质量 问题,并将这些质量问题反馈给设计和生产部门,为产品的质量改进提供方向。但是由于资 金、人力、物力等的限制,售后服务点覆盖的范围有限,甚至有的企业根本就没有设立售后 服务点,所以传统的通过售后服务部门来收集用户使用过程中的产品质量问题并不能完全 满足企业的需求。
[0004] 随着网络的发展,越来越多的用户在论坛、电商等网络平台上以评论的方式发表 自己的对某个产品的评价,这些评论中往往隐含着用户在使用过程中发现的产品质量问 题。有效利用这些评论,从中挖掘出产品在使用过程中的质量问题,弥补了售后服务部门收 集信息不全的缺点。

【发明内容】

[0005] 本发明的主要目的在于提供一种基于网络评论的产品质量问题发现及风险评估 方法,是对传统质量管理方法的一种补充。
[0006] -种基于网络评论的产品质量问题发现及风险评估方法,包括下述步骤:
[0007] 步骤1,数据获取:利用网络爬虫,抓取与指定产品相关的论坛、电商等网页,然后 抽取网页中的评论数据,并将评论数据保存到数据库中;
[0008] 步骤2,质量特征词提取:首先对评论文本进行分词及词性标注、句法分析、情感词 标注三步预处理,并制定特征模板,然后训练条件随机场模型,最后利用条件随机场模型从 评论数据中提取质量特征词;
[0009] 步骤3,质量问题发现及风险评估:首先提出质量问题描述模板,并基于该模板统 计出与每个质量特征词相关的质量问题;然后提出基于质量特征词的风险评估算法,利用 风险评估算法计算每个质量特征词的风险评估值。
[0010]在上述的基于网络评论的产品质量问题发现及风险评估方法中,在所述的步骤1 中,抓取与指定产品相关的论坛、电商等网页时,计算产品名与网页标题相似度的公式为:
[0011]
[0012]其中,Z是归一化因子,Ctk是位置系数,且0 <ak ,Pk是单次相似度,Pk的取值为ο 或1。
[0013] 在上述的基于网络评论的产品质量问题发现及风险评估方法中,在所述的步骤2 中,使用情感词词典进行情感词标注。在情感词词典中,词语的情感倾向包括三类:褒义、贬 义、中性,分别用P、N、M表示,对于褒义情感词和贬义情感词,情感强度分为1、3、5、7、9五档, 9表示强度最大,1为强度最小,对于中性情感词,情感强度均为0。
[0014] 在上述的基于网络评论的产品质量问题发现及风险评估方法中,在所述的步骤3 中,质量问题描述模板主要分为两类:第一类由质量特征词和情感词组成,第二类由"不"字 和质量特征词组成。
[0015] 在上述的基于网络评论的产品质量问题发现及风险评估方法中,在所述的步骤3 中,风险评估算法的实现利用了情感词词典和程度副词词典。在程度副词词典中,词语按照 情感强度分为四类,分别为:"极其"、"很"、"较"、"稍",对应的情感强度值为4、3、2、1。
[0016] 在上述的基于网络评论的产品质量问题发现及风险评估方法中,在所述的步骤3 中,风险评估算法的公式如下:
[0017] V(S)=Vi(S)+V2(S)
[0018] 其中,V1(S)是在满足第一类质量问题描述模板的评论数据中,S的风险评估值,V2 (S)是在满足第二类质量问题描述模板的评论数据中,S的风险评估值。
[0019] 在上述的风险评估算法的公式中,V1(S)的计算公式为:
[0020]
[0021] 其中,Vp(S)、Vn(S)、Vm(S)分别表示质量特征词S的褒义风险评估值、贬义风险评估 值、中性风险评估值。a、b、c分别表示修饰特征词S的褒义情感词的个数、贬义情感词的个 数、中性情感词的个数;Score (Psk)表示修饰特征词S的第k个褒义情感词的情感强度,Score (PAsk)表示修饰特征词S的第k个褒义情感词的程度副词的情感强度,Sco re(Ns1)表示修饰 特征词S的第1个贬义情感词的情感强度;Pi表示修饰特征词S的第i个中性情感词所在的那 条评论中的褒义情感词的个数,^表示修饰特征词S的第i个中性情感词所在的那条评论中 的贬义情感词的个数,Sco re(Pslj)表示修饰特征词S的第i个中性情感词所在的那条评论中 的第j个褒义情感词的情感强度。
[0022] 在上述的风险评估算法的公式中,V2(S)的计算公式为:
[0023]
[0024] 其中,T1表示第i个模板的分值,Num1表示满足第i个模板的评论数据出现的次数。
[0025] 本发明能够自动抓取网络上与指定产品相关的用户评论数据,并从中发现产品的 质量问题,进而对产品质量的各个方面进行风险评估。利用本发明的方法,企业可以更快速 有效地发现用户反映的产品质量问题,并对产品使用过程中的质量风险进行实时监督。
【附图说明】:
[0026]图1是本发明的流程图。
[0027]图2是本发明的数据获取流程图。
[0028] 图3是本发明的质量特征词提取流程图。
[0029] 图4是本发明的依存关系分析示例图。
[0030] 图5是本发明的质量特征词提取的训练文本示例。 图6是本发明的质量特征词提取的特征模板。
【具体实施方式】:
[0031]下面结合具体附图对本发明作进一步的说明。
[0032] 本发明以论坛、电商等网络平台上的用户评论为研究对象,目的是从网络评论中 挖掘产品的质量问题,并做出质量风险评估。
[0033] 基于网络评论的产品质量问题发现及风险评估方法,包括数据获取、质量特征词 提取、质量问题发现及风险评估三个步骤,如图1所示。下面分别对这三个步骤进行详细的 说明。
[0034] 步骤1,数据获取:利用网络爬虫,抓取与指定产品相关的论坛、电商等网页,然后 抽取网页中的评论数据,并将评论数据保存到数据库中。
[0035] 数据获取的流程如图2所示。首先,调用百度搜索接口搜索指定产品,得到指定页 数的搜索结果页,且每个搜索结果页包含13个搜索结果;然后按照如下步骤处理每个搜索 结果页:
[0036]步骤S101:提取第i搜索结果页中第j个搜索结果的标题。
[0037] 步骤S102:计算标题相似度:利用公式(1)计算标题和产品名的相似度,相似度用 Sim(标题,产品名)表示,并且OS Sim(标题,产品名H 1。如果相似度大于等于0.8,则继续 下一步,否则,:i加1,返回步骤SlOl。
[0045] 在公式(1)、(2)、(3)和(4)中,m是"产品名"中包含的文字个数,η是"标题"中包含 的文字个数,"标题(k+1-ir表示标题中的第k+1-l个字,"产品名(1)"表示产品名中的第1
[0038] >
[0039]
[0040]
[0041]
[0042]
[0043]
[0044] ⑷ 个字。
[0046] 步骤S103:提取第i搜索结果页中第j个搜索结果的URL。
[0047] 步骤S104:匹配URL:根据第j个搜索结果的URL,判断该搜索结果是否为论坛或电 商网站,若是,则继续下一步,否则,j加1,返回步骤S101。
[0048] 步骤S105:网页抓取与信息抽取:不同类型的网页对应的抓取与抽取策略是不同 的,所以需要对不同的网站制定不同的抓取与抽取模板,图2中给出了中关村、太平洋、天极 网、京东、苏宁、1号店等模板,模板的个数不限,可以进行扩展。
[0049]步骤S106:结束判断:当第i搜索结果页的全部搜索结果都处理完后,如果在第i页 中的13个搜索结果中,满足标题相似度的搜索结果个数大于10,则i+l,j = l,转到SlOl,继 续处理下一个搜索结果页,否则,数据获取工作结束。
[0050]步骤2,质量特征词提取:首先对评论文本进行分词及词性标注、句法分析、情感词 标注三步预处理,并制定特征模板,然后训练条件随机场模型,最后利用条件随机场模型从 评论数据中提取质量特征词。
[0051 ]本发明提供了从评论数据中提取质量特征词的方法,方法流程图如图3所示。首先 进行分词及词性标注S201、句法分析S202、情感词标注S203等三步预处理,得到结构化文本 201;然后采用均匀采样方法从文本201中取出500条评论的处理结果,人工将这500条评论 中的所有质量特征词标注为"S",得到训练集202;然后以训练集202和特征模板203作为输 入,利用条件随机场算法训练出一个表征了质量特征词与词语、词性、依存关系、支配词及 支配的情感方向之间统计关系的条件随机场模型204;然后利用模型204对文本201进行质 量特征词的自动标注,得到结果集205;最后从结果集中提取标注为S的词语,得到质量特征 词集206。
[0052] 下面对S201~S204进行详细说明:
[0053]步骤S201,分词及词性标注:质量特征词提取的目的是从评论数据中提取出与产 品质量相关的词语,但是由于汉语在书写时词与词之间不存在空格,计算机无法直接进行 词语的识别,所以,要先进行分词处理。分词的作用是将连续的一段文本分成一个一个的词 语,例如,给定一句话"手机的屏幕很模糊",分词后的结果为"手机的屏幕很模糊"。描述质 量问题的词语在词性上有一定的统计规律,例如:质量特征词大部分都是名词;副词是质量 特征词的概率几乎为零等。所以,在分词之后,要进行词性标注,标注出每一个词语的词性, 上述例子的标注结果为"手机/n的/u屏幕/n很/d模糊/a"。
[0054]步骤S202,依存关系分析:依存关系分析的理论基础是依存语法,该语法认为句子 中的述语动词是支配其他成分的中心,而它本身却不受其他任何成分的支配,所有的受支 配成分都以某种依存关系从属于其支配者,依存语法直接描述词与词之间的关系。给定例 子"手机/n的/u屏幕/n很/d模糊/a",依存关系分析的结果如图4所示。在依存关系分析的 结果中,词与词之间直接发生依存关系,构成一个依存对,其中一个是支配词,另一个叫从 属词,依存关系用一个有向弧表示,叫做依存弧,依存弧的方向为由支配词指向从属词,每 个依存弧上有一个标记,叫做关系类型,表示该依存对中的两个词之间存在什么样的依存 关系。在本例中,屏幕是质量特征词,从图4中可以看出,"屏幕"的支配词为"模糊","屏幕" 与"模糊"之间的依存关系为"SBV",即主谓关系。
[0055] 步骤S203,情感词标注:经过步骤S201、S202,得到了词语、词性、依存关系、支配词 等4项内容,对于"手机的屏幕很模糊"这个例子,得到的结果为图5中表格的前5列,其中每 一行为一条记录,每条记录包括词语、词性、依存关系、支配词等四个字段。情感词标注的基 础是情感词典,在情感词典中,包含常用的情感词,如"模糊"、"高"、"好"等。情感标注的对 象为支配词,利用情感词典,标注出支配词是不是情感词,是情感词则标记为?',不是情感 词则标记为"N"。情感标注后得到了如图5所示的结果。
[0056] 步骤S204,基于条件随机场模型的质量特征词提取:基于条件随机场的质量特征 词提取由两部分构成:训练和处理。在训练阶段,首先采用均匀采样方法从文本201中取出 500条评论的处理结果,人工将这500条评论中的所有质量特征词标注为"S",得到训练集 202;然后考虑词语、词性、依存关系、支配词及支配的情感方向等五种因素,制定出如图6所 示的特征模板;然后以训练集202和特征模板203作为输入,利用条件随机场算法训练出一 个表征了质量特征词与词语、词性、依存关系、支配词及支配的情感方向之间统计关系的条 件随机场模型204;在处理阶段,利用已训练好的模型204对文本201进行质量特征词的自动 标注,得到结果集205,然后从结果集中提取标注为S的词语,得到质量特征词集206。
[0057] 步骤3,质量问题发现及风险评估:首先提出质量问题描述模板,并基于该模板统 计出与每个质量特征词相关的质量问题;然后提出基于质量特征词的风险评估算法,利用 风险评估算法,计算出每个质量特征词的风险评估值。
[0058] 用户在描述质量问题时,由于每个人的语言习惯不同,对同一个质量问题往往多 种描述形式。本发明在分析了大量评论数据的基础上,抽象出可以涵盖大部分质量问题描 述的模板,质量问题描述模板主要分为两类:第一类由质量特征词和情感词组成,例如"屏 幕模糊",其中"屏幕"是质量特征词,"模糊"是情感词;第二类由"不"字和质量特征词组成, 如"读不了通讯录",其中含有"不"字,"通讯录"是质量特征词。质量问题描述模板的更详细 的分类如表1所不,其中1、2、3为第一类模板,4、5、6为第二类模板。
[0059] 表1:质量问题描述模板详细分类 L〇〇61 J 卜_介绍一卜风险评佶算法。
[0062]风险评估算法基于情感词词典和程度副词词典。本发明采用的情感词词典基于大 连理工的情感词汇本体,选取了情感词汇本体中的部分词语,并另外加入了一些新的网络 用语,还对词语的情感分类重新进行了划分。在本发明的情感词词典中,词语的情感倾向包 括三类:褒义、贬义、中性,分别用P、N、M表示,对于褒义情感词和贬义情感词,情感强度分为 1、3、5、7、9五档,9表示强度最大,1为强度最小,对于中性情感词,情感强度均为0。本发明采 用的程度副词词典基于知网的程度级别词语集,从中选取了部分词语,并另外加入了一些 常用的程度副词。本程度副词词典将词语按照情感强度分为四类,分别为:"极其"、"很"、 "较"、"稍",对应的情感强度值为4、3、2、1。
[0063] 给定一个质量特征词S,它的风险评估值记为V(S),V(S)的计算公式如下:
[0064] V(S)=Vi(S)+V2(S) (5)
[0065] 其中,V1(S)是在满足第一类质量问题描述模板的评论数据中,S的风险评估值,它 的计算方法如下:
[0066] 质量特征词的风险评估分为褒义风险评估、贬义风险评估、中性风险评估三类。
[0067] 褒义风险评估:在一条评论中,如果符合第一类质量描述模板,且修饰该特征词的 情感词是褒义的,则要进行褒义风险评估的计算。先找出修饰该特征词的情感词,然后判断 是否符合含有程度副词的模板,若符合,则风险评估为:"情感词的情感强度+程度副词的情 感强度";若不符合,风险评估为:"情感词的情感强度"。
[0068] 贬义风险评估:在一条评论中,如果符合第一类质量描述模板,且修饰该特征词的 情感词是贬义的,则要进行贬义风险评估的计算。先找出修饰该特征词的情感词,然后判断 是否符合含有程度副词的模板,若符合,则风险评估为:"情感词的情感强度+程度副词的 情感强度";若不符合,风险评估为:"情感词的情感强度"。
[0069] 中性风险评估:在一条评论中,如果符合第一类质量描述模板,修饰该特征词的最 近的情感词是中性的,则要进行中性风险评估的计算。这时,该特征词的风险评估=这条评 论风险评估=该条评论的褒义风险评估与贬义风险评估之差。
[0070] V1 (S)的计算公式如下:
[0071]
[0072] 其中,Ti是标准化因子:
[0073] Ti = Pi+Ni (7)
[0074] 在公式(6)、(7)中^[5(5)、¥45)、¥[?(5)分别表示质量特征词5的褒义风险评估值、 贬义风险评估值、中性风险评估值。a、b、c分别表示修饰特征词S的褒义情感词的个数、贬义 情感词的个数、中性情感词的个数;Score (Psk)表示修饰特征词S的第k个褒义情感词的情感 强度,Score(PAsk)表示修饰特征词S的第k个褒义情感词的程度副词的情感强度,Score (Ns 1)表示修饰特征词S的第1个贬义情感词的情感强度;Pi表示修饰特征词S的第i个中性情 感词所在的那条评论中的褒义情感词的个数,^表示修饰特征词S的第i个中性情感词所在 的那条评论中的贬义情感词的个数,Sco re(Pslj)表示修饰特征词S的第i个中性情感词所在 的那条评论中的第j个褒义情感词的情感强度。
[0075] V2(S)是在满足第二类质量问题描述模板的评论数据中,S的风险评估值。它们的 计算公式如下:
[0076]
(8)
[0077] 其中,T1表示第i个模板的分值,Num1表示满足第i个模板的评论数据出现的次数,i 的取值范围为4、5、6,分别对应第4、5、6号模板。
[0078]本发明能够自动抓取网络上与指定产品相关的用户评论数据,并从中发现产品的 质量问题,进而对产品质量的各个方面进行风险评估。利用本发明的方法,企业可以更快速 有效地发现用户反映的产品质量问题,并对产品使用过程中的质量风险进行实时监督。
【主权项】
1. 一种基于网络评论的产品质量问题发现及风险评估方法,其特征在于,包括: 步骤1,数据获取:利用网络爬虫,抓取与指定产品相关的论坛、电商等网页,然后抽取 网页中的评论数据,并将评论数据保存到数据库中; 步骤2,质量特征词提取:首先对评论文本进行分词及词性标注、句法分析、情感词标注 Ξ步预处理,并制定特征模板,然后训练条件随机场模型,最后利用条件随机场模型从评论 数据中提取质量特征词; 步骤3,质量问题发现及风险评估:首先提出质量问题描述模板,并基于该模板统计出 与每个质量特征词相关的质量问题;然后提出基于质量特征词的风险评估算法,利用风险 评估算法计算每个质量特征词的风险评估值。2. 如权利要求1所述的基于网络评论的产品质量问题发现及风险评估方法,其特征在 于:在步骤1中,抓取与指定产品相关的论坛、电商等网页时,计算产品名与网页标题相似度 的公式为:其中,Z是归一化因子,Qk是位置系数,且0<ak含l,Pk是单次相似度,Pk的取值为0或1。3. 如权利要求1所述的基于网络评论的产品质量问题发现及风险评估方法,其特征在 于:在步骤2中,使用情感词词典进行情感词标注。4. 如权利要求3所述的基于网络评论的产品质量问题发现及风险评估方法,其特征在 于:所述情感词词典中,词语的情感倾向包括Ξ类:褒义、贬义、中性,分别用P、N、M表示,对 于褒义情感词和贬义情感词,情感强度分为1、3、5、7、9五档,9表示强度最大,1为强度最小, 对于中性情感词,情感强度均为0。5. 如权利要求1所述的基于网络评论的产品质量问题发现及风险评估方法,其特征在 于:在步骤3中,质量问题描述模板主要分为两类:第一类由质量特征词和情感词组成,第二 类由"不"字和质量特征词组成。6. 如权利要求1所述的基于网络评论的产品质量问题发现及风险评估方法,其特征在 于:在步骤3中,风险评估算法的实现利用了情感词词典和程度副词词典。7. 如权利要求6所述的基于网络评论的产品质量问题发现及风险评估方法,其特征在 于:所述程度副词词典中,词语按照情感强度分为四类,分别为:"极其"、"很"、"较稍", 对应的情感强度值为4、3、2、1。8. 如权利要求1所述的基于网络评论的产品质量问题发现及风险评估方法,其特征在 于:在步骤3中,风险评估算法的公式为: V(S)=Vi(S)+V2(S) 其中,Vi(S)是在满足第一类质量问题描述模板的评论数据中,S的风险评估值,V2(S)是 在满足第二类质量问题描述模板的评论数据中,S的风险评估值。9. 如权利要求8所述的基于网络评论的产品质量问题发现及风险评估方法,其特征在 于:所述风险评估算法的公式中,Vi(S)的计算公式为:其中,Vp(S)、Vn(S)、Vm(S)分别表示质量特征词S的褒义风险评估值、贬义风险评估值、 中性风险评估值;a、b、c分别表示修饰特征词S的褒义情感词的个数、贬义情感词的个数、中 性情感词的个数;Score (Psk)表示修饰特征词S的第k个褒义情感词的情感强度,Score (PAsk)表示修饰特征词S的第k个褒义情感词的程度副词的情感强度,Score(Nsi)表示修饰 特征词S的第1个贬义情感词的情感强度;Pi表示修饰特征词S的第i个中性情感词所在的那 条评论中的褒义情感词的个数,Ni表示修饰特征词S的第i个中性情感词所在的那条评论中 的贬义情感词的个数,Score(Psu)表示修饰特征词S的第i个中性情感词所在的那条评论中 的第j个褒义情感词的情感强度。10.如权利要求8所述的基于网络评论的产品质量问题发现及风险评估方法,其特征在 于:所述风险评估算法的公式中,V2(S)的计算公式为:其中,Τι表示第i个模板的分值,Numi表示满足第i个模板的评论数据出现的次数。
【文档编号】G06Q30/00GK105844424SQ201610212917
【公开日】2016年8月10日
【申请日】2016年5月30日
【发明人】徐新胜, 朱凡凡, 林静
【申请人】中国计量学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1