基于互联网评论挖掘的失效模式风险评估方法及系统

文档序号:28359494发布日期:2022-01-05 12:35阅读:215来源:国知局
基于互联网评论挖掘的失效模式风险评估方法及系统

1.本发明涉及一种失效模式风险评估方法,尤其涉及一种基于互联网评论挖掘的失效模式风险评估方法,同时还涉及相应的失效模式风险评估系统,属于失效分析技术领域。


背景技术:

2.失效模式与影响分析(failure mode and effect analysis,简称为fmea),是在产品设计阶段和过程设计阶段,对构成产品的子系统、零件,对构成过程的各个工序逐一进行分析,找出所有潜在的失效模式,并分析其可能的后果,从而预先采取必要的措施,以提高产品的质量和可靠性的系统化解决方案。fmea是一种自下而上的分析方法。如果对某些可能造成特别严重后果的故障类型单独拿出来分析,称为致命度分析(ca)。fmea与ca合称为fmeca(失效模式、影响及致命度分析)。
3.在申请号为202010000407.x的中国专利申请中,上海大学提出了一种基于毕达哥拉斯模集和topsis的改进fmea方法,包括如下的步骤:s1、计算集体风险评价矩阵;s2、计算加权风险评估矩阵;s3、确定正理想解和负理想解;s4、计算失效模式与正、负理想解的距离;s5、计算每一失效模式的相对贴进度;s6、确定失效模式风险排序。但是,该改进fmea方法使用fmea团队的主观风险评价矩阵,缺少客观性;其严重度(s)、发生度(o)、难检度(d)的风险权重并未给出计算依据,权重数值的准确性有待商榷。
4.另外,在申请号为201710748331.7的中国专利申请中,电子科技大学提出一种通过svm文本挖掘处理数据的fmeca方法,包括以下步骤:s1、搜集fmeca分析的故障数据;s2、将不利于模型建立的数据删除;s3、将整理的非结构化数据处理成能够用于svm分析的结构化数据;s4、选取部分经过预处理的数据作为训练样本,余下部分为测试样本;s5、建立预测模型:通过训练样本建立预测模型,使数据通过预测模型预测输出故障模式;s6、验证模型,修改参数:通过测试样本验证建立预测模型的准确度,修改参数调整出最佳模型;s7、完善fmea;s8、生成fmea报告表;s9、生成ca报告表。该技术方案的特点是利用svm文本挖掘对故障数据进行结构化处理,无需耗费大量人力分析数据,只需简单的设置即可完成故障模式的提取,分析成本降低,数据利用率显著提高。


技术实现要素:

5.本发明所要解决的首要技术问题在于提供一种基于互联网评论挖掘的失效模式风险评估方法。
6.本发明所要解决的另一技术问题在于提供一种基于互联网评论挖掘的失效模式风险评估系统。
7.为了实现上述目的,本发明采用下述的技术方案:
8.根据本发明实施例的第一方面,提供一种基于互联网评论挖掘的失效模式风险评估方法,包括如下步骤:
9.步骤1:获取互联网评论数据,并进行预处理;
10.步骤2:基于文本特征,提取产品或服务的失效模式;
11.步骤3:计算各失效模式的严重度、发生度、难检度;
12.步骤4:分别计算严重度、发生度、难检度的客观权重;
13.步骤5:计算各失效模式的风险严重度。
14.其中较优地,所述步骤1中,所述互联网评论数据是售后用户评论中的消极用户评价。
15.其中较优地,所述步骤2中,对预处理后的文本数据进行文本特征提取,从中选取最能描述失效模式的词汇作为产品或服务的失效模式。
16.其中较优地,所述步骤3中,所述严重度通过如下公式进行计算:
[0017][0018]
其中,表示失效模式f
i
的严重度s,为情感倾向值。
[0019]
其中较优地,所述步骤3中,所述发生度通过如下公式进行计算:
[0020][0021]
其中,表示失效模式f
i
的发生度o,为失效模式的发生次数。
[0022]
其中较优地,所述步骤3中,所述难检度通过如下公式进行计算:
[0023][0024]
其中,d(f
i
)表示失效模式f
i
的难检度d,是失效模式f
i
的差评数,t
j
(f
i
)为各失效模式的词频,i=1,2,...,a,j=1,2,...,m。
[0025]
其中较优地,所述步骤4中,包括如下的子步骤:
[0026]
4.1对各评价指标进行无量纲化处理;
[0027]
4.2计算指标变异性;
[0028]
4.3计算指标冲突性;
[0029]
4.4计算指标信息量;
[0030]
4.5计算客观权重,根据客观权重更新加权决策矩阵。
[0031]
其中较优地,所述步骤5中,包括如下的子步骤:
[0032]
5.1根据所述加权决策矩阵求得评价目标的正理想解和负理想解;
[0033]
5.2计算各个失效模式的方案值分别和正、负理想值之间的距离;
[0034]
5.3计算各个失效模式的方案值与正理想解之间的相对贴进度,并按照相对贴进度由大到小的顺序对各个失效模式的风险严重度进行排序。
[0035]
根据本发明实施例的第二方面,提供一种基于互联网评论挖掘的失效模式风险评估系统,包括:
[0036]
信息采集存储服务器,用于采集外部的互联网评论数据,从中爬取产品或服务的消极用户评价,对所述消极用户评价进行文本数据清洗后,设置停用词词典并进行文本分词,得到预处理后的文本数据并导入信息数据库进行存储;
[0037]
核心数据处理服务器,包括评论文本挖掘模块、风险矩阵计算模块、critic权重计算模块、topsis风险严重度评估模块;其中,
[0038]
所述评论文本挖掘模块,用于从所述信息数据库中获取预处理后的文本数据,对该文本数据进行文本特征提取,从中选取最能描述失效模式的词汇作为产品或服务的失效模式;
[0039]
所述风险矩阵计算模块,用于计算各失效模式的严重度、发生度、难检度;
[0040]
所述critic权重计算模块,用于计算严重度、发生度、难检度的客观权重;
[0041]
所述topsis风险严重度评估模块,用于计算失效模式的风险严重度。
[0042]
其中较优地,所述topsis风险严重度评估模块中,根据加权决策矩阵求得评价目标的正理想解和负理想解;计算各个失效模式的方案值分别和正、负理想值之间的距离;计算各个失效模式的方案值与正理想解之间的相对贴进度,并按照相对贴进度由大到小的顺序对各个失效模式的风险严重度进行排序。
[0043]
与现有技术相比较,本发明创造性地在fmea分析框架中引入了外部的互联网评论因素,通过对互联网评论数据的挖掘,实现了产品或服务的失效模式识别。另外,本发明采用统一处理方法处理互联网评论数据,相比于现有fmea分析框架中专家打分的主观评价过程,解决了数据量匮乏来源单一的问题,增加了失效模式分析结果的客观性,能够很好地辅助质量管理人员进行质量改进工作。
附图说明
[0044]
图1为本发明所提供的失效模式风险评估方法的整体流程图;
[0045]
图2为本发明所提供的失效模式风险评估系统的结构示意图。
具体实施方式
[0046]
下面结合附图和具体实施例对本发明的技术内容做进一步的详细说明。
[0047]
在现有的fmea分析方法中,“用户”的定义不仅仅是“最终使用者”,而且也包括负责整体或更高一层总成设计的工程师/设计组以及负责生产、装配和服务活动的生产/工艺工程师。因此,现有fmea分析框架对于用户使用体验的重视程度是不够的。另一方面,广大用户在实际使用某一产品或服务后,对于产品或服务的质量会有第一手的使用体验。这些使用体验往往以互联网评论的方式发表出来,虽然存在一定的个体差异,但是将海量的互联网评论数据累积起来,可以在很大程度上弥补个体差异,从而获得针对该产品或服务的客观评价。
[0048]
因此,本发明实施例所提供的失效模式风险评估方法创造性地在fmea分析框架中引入了外部的互联网评论因素,通过对海量互联网评论数据的挖掘、清洗和使用,实现了基于用户评论挖掘的产品或服务质量提升,提高了企业和互联网平台对文本数据的利用程度,可以很好地辅助质量管理人员进行质量改进工作。
[0049]
下面结合图1,对该基于互联网评论挖掘的失效模式风险评估方法的具体步骤进行详细说明:
[0050]
步骤1:获取互联网评论数据,并进行预处理
[0051]
首先选定某种产品或服务,并从其售后用户评论中爬取其消极用户评价(例如各
互联网平台中的差评)。这里爬取消极用户评价是考虑到用户的好评往往千篇一律,只有差评才对产品或服务的质量提高有直接的促进作用。
[0052]
在对互联网评论数据进行文本数据清洗后,设置停用词词典并对各文本进行分词、去除停用词,得到预处理后的文本数据。这里设置停用词词典的目的是因为在互联网评论数据中,存在一些对完全无意义或句意表述不产生影响的词汇和符号,例如人称代词、语气助词、标点符号等。在对互联网评论进行处理时,通常删除这些停用词来提高文本处理的精确性和效率。
[0053]
步骤2:基于文本特征,提取产品或服务的失效模式
[0054]
对于预处理后的文本数据,首先进行文本特征提取,得到一些关键程度较高的词汇(即关键词),从中选取最能描述失效模式的词汇作为产品或服务的失效模式。其中,关键程度较高的词汇(即关键词)是基于tf

idf算法进行重要性评估的。
[0055]
上述的tf

idf算法是一种用于信息检索与数据挖掘的常用加权技术。其中,tf是词频,idf是逆文本频率指数。词频,idf是逆文本频率指数。通过计算tf与idf的乘积,得到tf

idf指数,用来分析文档中词汇的重要性。例如在一个评论文本数据集中,餐饮、住宿、交通三个词汇的tf

idf值较高,则说明这三个词汇消费者在评论中比较在意,而这三个词汇也恰好可以描述失效模式的来源,例如餐饮词汇在差评中可能代指餐饮的口味不好或质量不佳,住宿可能代指住宿条件不佳等。所以,对于旅游服务的用户评价而言,餐饮,住宿,交通等词汇作为失效模式。
[0056]
设失效模式共有a个,将a个失效模式记做f
i
(i=1,2,...,a),其中a为正整数。
[0057]
步骤3:计算各失效模式的严重度(s)、发生度(o)、难检度(d)
[0058]
3.1:严重度(s)的计算
[0059]
在fmea分析框架中,s代表失效模式的严重度,原则上认为严重度(s)越大,那么该失效模式发生的后果越严重。在传统的fmea分析框架中,通过专家打分来评判严重度(s)的大小,容易受到主观判断的干扰。
[0060]
在本发明实施例提供的失效模式风险评估方法中,我们用用户的不满意程度来代替严重度大小,而用户不满意程度的大小恰好可以由用户差评中的情感消极程度来描述。具体地说,我们将失效模式的总类别数目为p条,将失效模式记为f
i
(i=1,2,

,p),假设包括失效模式f
i
的用户评论有条,在这里我们就认为这个失效模式在所有用户中发生了次。我们将失效模式f
i
发生的评论文本的情感倾向值分别记做发生的评论文本的情感倾向值分别记做接下来给出严重度(s)的计算公式如下式所示:
[0061][0062]
其中,作为情感倾向值,是一个情感分析领域经常使用的概念,它代表一段文本倾向于正向或负向的概率,当然概率越大也可以侧面印证情感程度较高。q代表失效模式f
i
的任意一条用户评论。严重度(s)的计算思路是将所有包含失效模式f的评论的情感倾向值做一个均值,以代表消费者对该失效模式的平均情感消极程度。代表失效模式f
i
的失效模式严重程度。
[0063]
3.2:发生度(o)的计算
[0064]
所有用户评论的总条数记为t条,可以看作该服务总共发生了t次。在上述严重度(s)的计算中,我们提到包含失效模式f
i
的用户评论条数有条,我们便认为这个失效模式发生了次。因此,我们定义发生度(o)的计算公式如下式所示:
[0065][0066]
失效模式f
i
的发生度,也就是发生频率。上述公式可以理解为:我们用某失效模式的发生次数除以发生服务的次数,可以计算出发生度的大小。
[0067]
3.3:难检度(d)的计算
[0068]
在本发明的实施例中,难检度(d)的计算应用到了信息熵的概念。信息熵解决了对信息的量化度量问题。本发明实施例给出信息熵的计算公式如下:
[0069][0070]
其中,o(x
i
)表示随机事件x
i
发生的概率。
[0071]
一段文本的信息熵越高,则代表这句话的包含的信息量越高,进而说明信息难检程度越高,原因是信息量过多,因此对于信息的检索难度也会加大。基于上述信息熵的计算公式,本发明对某一失效模式f的难检度计算方法定义如下:
[0072]
假设包括失效模式f
i
的差评总共有条,对于其中的第j条评论统计各失效模式的词频,记为t
j
(f
i
)(i=1,2,...,a)(j=1,2,

,m)。我们对每条包含f
i
的差评的信息熵求平均值,并将该数值作为fmea框架中的难检度(d),那么难检度(d)的计算公式如下式所示:
[0073][0074]
步骤4:分别计算严重度(s)、发生度(o)、难检度(d)的客观权重
[0075]
critic方法是一种客观权重赋权法。它的基本思路是以两个基本概念为基础确定指标的客观权数:一是对比强度,它表示同一指标各个评价方案取值差距的大小,以标准差的形式来表现,即标准化差的大小表明了在同一指标内各方案的取值差距的大小,标准差越大各方案的取值差距越大;二是评价指标之间的冲突性,指标之间的冲突性是以指标之间的相关性为基础,如两个指标之间具有较强的正相关,说明两个指标冲突性较低。
[0076]
本发明实施例提供的失效模式风险评估方法利用critic方法来计算严重度(s)、发生度(o)、难检度(d)的客观权重,为各失效模式的风险严重性比较做基础。具体说明如下:
[0077]
假设最终提取出p个失效模式(p为正整数),那么根据步骤3中的计算方法,设原始的s,o,d值的数据矩阵x为:
[0078]
[0079]
其中,第一二三列分别代表各失效模式的严重度(s)、发生度(o)、难检度(d)的值,每一行代表一个失效模式的s,o,d值。
[0080]
4.1指标归一化处理
[0081]
为了消除不同失效模式之间数量级的差异,需要对各评价指标进行无量纲化处理。假设无量纲处理后的原始数据矩阵为a,具体处理方法为:
[0082][0083]
其中,j=1,2,3(1代表s,2代表o,3代表d),a
ij
是归一化处理后的数据。
[0084]
4.2计算指标变异性
[0085]
指标变异性主要由数据的标准差决定,标准差越大表示指标反映的信息越多,指标本身的评价强度也越大。指标变异性的计算公式如下:
[0086][0087][0088]
其中,s
j
即代表严重度(s)、发生度(o)、难检度(d)的指标变异性,j=1,2,3。s
j
越大,则说明第j个指标的指标变异性越强,对于评价结果的影响强度越大。
[0089]
4.3计算指标冲突性
[0090][0091]
其中,r
ij
代表指标i和j之间的相关系数,r
j
代表指标冲突性,指标冲突性越大,该指标对评价结果的影响强度越大。r
ij
的计算方法如下:
[0092]
r
ij
=cov(x
i
,x
j
)/s
i
s
j
[0093]
x
i
,x
j
分别代表指标i与指标j的列向量,cov(x
i
,x
j
)代表x
i
x
j
的协方差,s
i
,s
j
分别代表指标i与指标j的方差。
[0094]
4.4计算指标信息量
[0095]
c
j
=s
j
×
r
j
[0096]
c
j
代表指标j的信息量。c
j
越大,表示第j个评价指标所包含的信息量越大。该指标在整个评价指标体系中的作用也越大,为其分配的权重就越多。
[0097]
4.5计算客观权重
[0098]
第j个评价指标的客观权重w
j
为:
[0099][0100]
至此,严重度(s)、发生度(o)、难检度(d)的客观权重计算完成。将每个指标的权重乘到原始的s,o,d值的数据矩阵中,其中,f
ij
=w
i
×
a
ij
代表加权后的矩阵中的数值。
[0101]
矩阵v则作为失效模式风险严重度评估的输入矩阵:
[0102][0103]
步骤5:计算各失效模式的风险严重度
[0104]
topsis(technique for order preference by similarity to an ideal solution)是一个常用的决策框架,通过寻找距离最优理想点最近和距离最差理想点最远的点来选择候选方案。它充分利用了原始数据的信息,能充分反映各方案之间的差距、客观真实地反应实际情况,具有真实、直观、可靠的优点,而且对样本资料的量纲无特殊要求。
[0105]
在本发明的一个实施例中,利用topsis综合评价法对各失效模式的重要性进行评估,将提取出的失效模式按照风险严重度进行评级,从而提供给商家或互联网平台解决失效模式的内容和先后顺序。具体步骤如下:
[0106]
5.1根据加权决策矩阵求得失效模式的正理想解z
+
和负理想解z

[0107][0108][0109]
其中,j
+
为效益型指标,即指标越大越优;j

为成本型指标,即指标越小越优。很显然,失效模式风险评估方法中的严重度(s)、发生度(o)、难检度(d)均是数值越大、风险严重度越高的指标,因此可以全部归类为效益型指标。
[0110]
5.2计算各个失效模式的s,o,d值的向量分别和正、负理想解之间的距离
[0111][0112][0113]
其中,和分别为各个失效模式的s,o,d值的向量与正、负理想解的距离。
[0114]
5.3计算各个失效模式的s,o,d值的向量与正理想解之间的相对贴进度,并按照相对贴进度由大到小的顺序对各个失效模式的风险严重度进行排序
[0115][0116]
相对贴进度γ
i
的值介于0和1之间,越接近1,说明该失效模式的风险严重度越大。
[0117]
通过以上计算步骤,可以最终得到各个失效模式的风险严重度排序,从而辅助质量管理人员有针对性地开展质量改进工作。需要说明的是,现有fmea分析框架中的相关步骤也可以用于辅助实施本发明实施例所提供的失效模式风险评估方法。这是本领域技术人员能够做出的常规技术选择,在此就不详细说明了。
[0118]
与现有技术相比较,本发明创造性地在fmea分析框架中引入了外部的互联网评论因素,通过对互联网评论数据的挖掘,实现了产品或服务的失效模式识别。另外,本发明采
用统一处理方法处理互联网评论数据,相比于现有fmea分析框架中专家打分的主观评价过程,解决了数据量匮乏来源单一的问题,增加了失效模式分析结果的客观性,能够很好地辅助质量管理人员进行质量改进工作。
[0119]
进一步地,本发明实施例还提供一种基于互联网评论挖掘的失效模式风险评估系统,该系统可以应用在pc等智能设备中。如图2所示,该失效模式风险评估系统至少包括:
[0120]
信息采集存储服务器,用于采集外部的互联网评论数据,从中爬取产品或服务的消极用户评价(例如各互联网平台中的差评),然后对这些消极用户评价进行文本数据清洗后,设置停用词词典并进行文本分词,得到预处理后的文本数据。该预处理后的文本数据导入信息数据库进行存储;
[0121]
核心数据处理服务器,包括评论文本挖掘模块、风险矩阵计算模块、critic权重计算模块、topsis风险严重度评估模块;其中,
[0122]
评论文本挖掘模块,用于从信息数据库中获取预处理后的文本数据,对该文本数据进行文本特征提取,得到一些关键程度较高的词汇,从中选取最能描述失效模式的词汇作为产品或服务的失效模式;
[0123]
风险矩阵计算模块,用于计算各失效模式的严重度(s)、发生度(o)、难检度(d);其中,
[0124]
通过如下公式计算严重度(s):
[0125][0126]
通过如下公式计算发生度(o):
[0127][0128]
通过如下公式计算难检度(d):
[0129][0130]
critic权重计算模块,用于计算严重度(s)、发生度(o)、难检度(d)的客观权重;
[0131]
topsis风险严重度评估模块,用于计算失效模式的风险严重度;其中,根据加权决策矩阵求得评价目标的正理想解和负理想解;计算各个失效模式的方案值分别和正、负理想值之间的距离;计算各个失效模式的方案值与正理想解之间的相对贴进度,并按照相对贴进度由大到小的顺序对各个失效模式的风险严重度进行排序。
[0132]
需要说明的是,上述信息采集存储服务器和核心数据处理服务器可以由pc或专用服务器实现,其中的各个模块可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,本发明实施例中的各个模块中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。
[0133]
以上对本发明所提供的基于互联网评论挖掘的失效模式风险评估方法及系统进行了详细的说明。对本领域的一般技术人员而言,在不背离本发明实质内容的前提下对它
所做的任何显而易见的改动,都将属于本发明专利权的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1