一种针对APP软件缺陷的用户评论挖掘方法与流程

文档序号:17723507发布日期:2019-05-22 02:20阅读:307来源:国知局
一种针对APP软件缺陷的用户评论挖掘方法与流程

本发明涉及一种针对app软件缺陷的用户评论挖掘方法,属于app软件缺陷类型分析领域。



背景技术:

当前,app软件种类越来越多样化,向人们提供信息和服务,app软件的质量越来越重要。高质量的软件,其缺陷应该尽可能的少。但是,软件开发是一项智力活动,势必会引入缺陷。sw-cmm将软件缺陷定义为:“系统或系统成分中能造成他们无法实现其被要求的功能的缺点。如果在执行过程中遇到缺陷,它可能导致系统的失败”。

feldman等将数据挖掘的计算机技术应用在海量非结构化数据上,首次提出了文本挖掘的理论。用户评论与一般文本相较,具有海量、简短、低质等特点,传统的文本挖掘方法应用到用户评论这类短文本数据时,具有复杂度高,准确率低,噪声大的缺点。针对这一问题,随后的研究大多是通过外部链接或知识库来扩展词汇的语义,或者利用后缀树模型构建短语,从而改善短文本稀疏性问题。例如,利用wordnet或hownet的概念与义原等丰富词汇信息。在用户评论的缺陷识别方面,wenhaozhang等人提出了一个弱点查找器专家系统,采用基于分词的方法和hownet的相似度算法提取产品特征,对显性特征进行分类,并利用搭配选择的方法对隐性特征进行识别和分类;然后利用情感分析的方法确认句子极性,寻找产品弱点。abraham提出基于产品缺陷识别的文本特征构建体系,以用户评论归属分论坛的属性名当做汽车评论的分类标志,得到若干二元产品评论分类器,并以汽车和电子产品为实现对象检验方法准确性。张嵩等提出互联网环境下的手机缺陷识别研究方法,其中利用支持向量机分类算法需要大量的人工标注。蒋翠清等提出了中文互联网环境下运用半监督分类算法识别汽车故障,对缺陷率在30%的汽车论坛评论使用半监督tri-training方法大大减少了人工标记数量,但分类准确率不够高。如何从大量app用户评论中挖掘含有app软件缺陷的用户评论并进行分析,成为亟需解决的问题。



技术实现要素:

本发明提供了一种针对app软件缺陷的用户评论挖掘方法,以用于对与app软件简介相关及不相关的用户评论进行缺陷分类。

本发明的技术方案是:一种针对app软件缺陷的用户评论挖掘方法,所述方法的具体步骤如下:

step1、提取出与app软件简介相关及不相关的用户评论;

step2、将与app软件简介相关的含有缺陷的用户评论归类为功能性缺陷用户评论;

step3、将与app软件简介不相关的含有缺陷的用户评论进行分类:如果与app软件简介不相关的用户评论含有缺陷特征词集合中元素,则依据该元素对应的缺陷类型对用户评论进行分类;否则标记为其他缺陷类。

所述step1的具体步骤如下:

step1.1、将app软件简介分词后获取名词和动词放入集合introductionfeature{if1,if2,……,ifn}中,初始化:i=1;

step1.2、获取该app软件的num_comment条用户评论;

step1.3、判断i是否小于等于num_comment:如果是,则执行step1.4;否则,结束;

step1.4、将第i条用户评论与集合introductionfeature中的元素进行匹配;

step1.5、判断第i条用户评论中是否含有集合introductionfeature中元素:如果是,则执行step1.6;否则,执行①;

①、获取第i条用户评论的评论对象放入用户评论对象集合evaluationobject{eo1,eo2,……,eom}中,执行②;其中,评论对象是指某段文本中讨论的主题,即评论中的名词;

②、利用知网词典hownet计算app软件简介introductionfeature{if1,if2,……,ifn}和用户评论对象evaluationobject{eo1,eo2,……,eom}之间的相似度simlaritynm,执行③;

其中,从app软件简介获取出的introductionfeature集合和evaluationobject集合间含有n*m个词语相似度值;

③、使用公式(1)计算第i条用户评论中m个评论对象与app软件简介的相似度平均值ave,执行④;

ave=∑simlaritynm/nm(1)

式(1)中:n表示app软件简介中名词和多字动词的个数,m表示该条用户评论中评论对象的个数,simlaritynm表示app软件简介introductionfeature{if1,if2,……,ifn}中元素ifn和用户评论evaluationobject{eo1,eo2,……,eom}中元素eom之间的相似度;

④、判断ave值是否大于0.2:如果是,则执行step1.6;否则,执行step1.7;

step1.6、标记第i条用户评论为与app软件简介相关的用户评论,执行step1.8;

step1.7、标记第i条用户评论为与app软件简介不相关的用户评论,执行step1.8;

step1.8、i++,执行step1.3。

所述step2的具体步骤如下:

step2.1、初始化变量:j=1;

step2.2、获取步骤1标记的与app软件简介相关的num_recomment条用户评论;

step2.3、判断j是否小于等于num_recomment:如果是,则执行step2.4;否则,结束;

step2.4、将第j条评论与句型集合defectsentencepattern{dsp1,dsp2,……,dspx}中元素和缺陷特征词集合defectwords{dw1,dw2,……,dwy}进行匹配;

判断第j条用户评论中是否含有集合defectsentencepattern或defectwords中元素:如果是,则执行step2.5;否则,执行step2.7;

step2.5、标记第j条为功能性缺陷用户评论,执行step2.6;

step2.6、如果第j条用户评论含有defectwords中的元素,则根据该元素对应的缺陷类型将第j条评论分类;否则,不做其他分类;

step2.7、j++,执行step2.3。

所述step3的具体步骤如下:

step3.1、初始化变量:k=1;

step3.2、获取步骤1标记的与app软件简介不相关的num_nocomment条用户评论;

step3.3、判断k是否小于等于num_nocomment:如果是,则执行step3.4;否则,执行step3.8;

step3.4、将第k条评论与句型集合defectsentencepattern{dsp1,dsp2,……,dspx}中元素和缺陷特征词集合defectwords{dw1,dw2,……,dwy}进行匹配;判断第k条用户评论中是否含有集合defectsentencepattern或defectwords中元素:如果是,则执行step3.5;否则,执行step3.7;

step3.5、标记第k条用户评论为含有缺陷的评论,执行step3.6;

step3.6、根据第k条用户评论含有的defectwords中的元素对应的缺陷类型将第k条评论分类;

step3.7、k++,执行step3.3;

step3.8、将含有缺陷标记且未分类的评论标记为其他缺陷类。

所述缺陷特征词集合defectwords为:{“安装”,“不兼容”,“不匹配”,“内存”,“耗/费电”,“耗/费流量”,“臃肿”,“存储”,“崩溃”,“闪退”,“黑屏”,“没/无响应”,“死机”,“停止运行”,“不/没经过同意”,“没/无反应”,“卡”,“速度慢”}。

所述句型集合defectsentencepattern为:{“为什么……”,“不能……”,“……就好了”,“总是……”,“没有……”,“有时候……”,“只是……”,“但是……”,“连……都”,“……不了……”,“为啥……”,“怎么……”,“不可以……”,“希望……”,“建议……”,“……怎么回事”}。

本发明的有益效果是:

(1)本发明将用户评论与app软件简介作对比,通过句型和缺陷词相结合的方法,有助于从大量的app软件用户评论中挖掘出与软件缺陷相关的用户评论;

(2)本发明提出了一种针对app用户评论的软件缺陷分类方法,有助于分析用户在使用app软件时发现的软件缺陷及其类别。

综上,本发明有助于从大量的app软件用户评论中挖掘出含有app软件缺陷的用户评论,有助于分析用户在使用app软件时发现的软件缺陷及其类别。

附图说明

图1是本发明总流程图;

图2是步骤step1的流程图;

图3是步骤step2的流程图;

图4是步骤step3的流程图。

具体实施方式

实施例1:如图1-4所示,一种针对app软件缺陷的用户评论挖掘方法,所述方法的具体步骤如下:

step1、提取出与app软件简介相关及不相关的用户评论;

step2、将与app软件简介相关的含有缺陷的用户评论归类为功能性缺陷用户评论;

step3、将与app软件简介不相关的含有缺陷的用户评论进行分类:如果与app软件简介不相关的用户评论含有缺陷特征词集合中元素,则依据该元素对应的缺陷类型对用户评论进行分类;否则标记为其他缺陷类。

进一步地,可以设置所述方法具体步骤如下:

step1、提取出与app软件简介相关及不相关的用户评论;

表1“qq”的软件简介

step1.1、将app软件简介分词后获取名词和动词放入集合introductionfeature中,introductionfeature={“聊天”,“消息”,“好友”,“语音”,“通话”,“视频”,“想念”,“文件”,“手机”,“电脑”,“空间”,“动态”,“分享”,“生活”,“感动”,“装扮”,“胶囊”,“个性”,“厘米”,“主题”,“名片”,“彩铃”,“气泡”,“游戏中心”,“支付”,“话费”,“转账”,“内容”,“平台”},初始化数据:i=1;

step1.2、获取表2-app软件用户评论表中的8条用户评论;

表2app软件用户评论表

step1.3、判断是否i≤num_comment,1<8,执行step1.4;

step1.4、匹配第1条用户评论与集合introductionfeature中元素;

step1.5、“冲不了钱”中没有集合introductionfeature中元素,执行①;

①、获取“冲不了钱”的评论对象放入集合evaluationobject中,evaluationobject={“钱”},

其中,评论对象是指某段文本中讨论的主题,为用户评论中的名词n和非单字动词v,“冲不了钱”分词后为“冲/v不/d了/ule钱/n”,获取其中名词n“钱”为评论对象;

②、利用知网词典hownet计算app软件简介introductionfeature{“聊天”,“消息”,“好友”,“语音”,“通话”,“视频”,“想念”,“文件”,“手机”,“电脑”,“空间”,“动态”,“分享”,“生活”,“感动”,“装扮”,“胶囊”,“个性”,“厘米”,“主题”,“名片”,“彩铃”,“气泡”,“游戏中心”,“支付”,“话费”,“转账”,“内容”,“平台”}和评论对象evaluationobject{“钱”}之间的相似度∑simlaritynm=5.945;

③、使用公式(1)计算该条用户评论中m个评论对象与app软件简介的相似度平均值ave:

ave=∑simlaritynm/nm=0.205(1)

式(1)中n表示app软件简介中名词和多字动词的个数,m表示该条用户评论中评论对象的个数,simlaritynm表示app软件简介introductionfeature{if1,if2,……,ifn}和用户评论evaluationobject{eo1,eo2,……,eom}之间的相似度。其中,从app软件简介获取出的introductionfeature集合和evaluationobject集合间含有29*1个词语相似度值;

④、判断ave值是否大于0.2:0.205>0.2,执行step1.6;

step1.6、标记第1条用户评论“冲不了钱”为与app软件简介相关的用户评论,执行step1.8;

step1.8、i++,i=2,执行step1.3;

step1.3、判断是否i≤num_comment,2<8,执行step1.4;

step1.4、匹配第2条用户评论与集合introductionfeature中元素;

step1.5、“玩手机,都是必备的,没毛病”中含有集合introductionfeature中元素“手机”,执行step1.6;

step1.6、标记第2条用户“玩手机,都是必备的,没毛病”为与app软件简介相关的用户评论,执行step1.8;

step1.8、i++,i=3,执行step1.3;

step1.3、判断是否i≤num_comment,3<8,执行step1.4;

step1.4、匹配第3条用户评论与集合introductionfeature中元素;

step1.5、“内存要是少就好了,??”中没有集合introductionfeature中元素,执行①;

①、获取“内存要是少就好了,??”的评论对象放入集合evaluationobject中,evaluationobject={“内存”};

其中,评论对象是指某段文本中讨论的主题,为用户评论中的名词n和非单字动词v,“内存要是少就好了,??”分词后为“内存/n要是/c少/d就/d好/a了/y,/wd?/ww?/ww”,获取其中名词n“内存”为评论对象;

②、利用知网词典hownet计算app软件简介introductionfeature{“聊天”,“消息”,“好友”,“语音”,“通话”,“视频”,“想念”,“文件”,“手机”,“电脑”,“空间”,“动态”,“分享”,“生活”,“感动”,“装扮”,“胶囊”,“个性”,“厘米”,“主题”,“名片”,“彩铃”,“气泡”,“游戏中心”,“支付”,“话费”,“转账”,“内容”,“平台”}和用户评论evaluationobject{“内存”}之间的相似度∑simlaritynm=2.117;

③、使用公式(1)计算该条用户评论中1个评论对象与app软件简介的相似度平均值ave:

ave=∑simlaritynm/nm=0.073(1)

式(1)中n表示app软件简介中名词和多字动词的个数,m表示该条用户评论中评论对象的个数,simlaritynm表示app软件简介introductionfeature{if1,if2,……,ifn}和用户评论evaluationobject{eo1,eo2,……,eom}之间的相似度。其中,从app软件简介获取出的introductionfeature集合和evaluationobject集合间含有29*1个词语相似度值;

④、判断ave值是否大于0.2:0.073<0.2,执行step1.7;

step1.7、标记第3条用户评论“内存要是少就好了,??”为与app软件简介不相关的用户评论,执行step1.8;

step1.8、i++,i=4,执行step1.3;

step1.3、判断是否i≤num_comment,4<8,执行step1.4;

step1.4、匹配第4条用户评论与集合introductionfeature中元素;

step1.5、“改不了资料,你更新有什么用”中没有集合introductionfeature中元素,执行①;

①、获取“改不了资料,你更新有什么用”的评论对象放入集合evaluationobject中,evaluationobject={“资料”};

其中,评论对象是指某段文本中讨论的主题,为用户评论中的名词n和非单字动词v,“改不了资料,你更新有什么用”分词后为“改/v不/d了/ule资料/n,/wd你/rr更/d新/a有/vyou什么/ry用/v”,获取其中名词n“资料”为评论对象;

②、利用知网词典hownet计算app软件简介introductionfeature{“聊天”,“消息”,“好友”,“语音”,“通话”,“视频”,“想念”,“文件”,“手机”,“电脑”,“空间”,“动态”,“分享”,“生活”,“感动”,“装扮”,“胶囊”,“个性”,“厘米”,“主题”,“名片”,“彩铃”,“气泡”,“游戏中心”,“支付”,“话费”,“转账”,“内容”,“平台”}和用户评论evaluationobject{“资料”}之间的相似度∑simlaritynm=3.596;

③、使用公式(1)计算该条用户评论中1个评论对象与app软件简介的相似度平均值ave:

ave=∑simlaritynm/nm=0.12(1)

式(1)中n表示app软件简介中名词和多字动词的个数,m表示该条用户评论中评论对象的个数,simlaritynm表示app软件简介introductionfeature{if1,if2,……,ifn}和用户评论evaluationobject{eo1,eo2,……,eom}之间的相似度。其中,从app软件简介获取出的introductionfeature集合和evaluationobject集合间含有29*1个词语相似度值;

④、判断ave值是否大于0.2:0.12<0.2,执行step1.7;

step1.7、标记第4条用户评论“改不了资料,你更新有什么用”为与app软件简介不相关的用户评论,执行step1.8;

step1.8、i++,i=5,执行step1.3;

step1.3、判断是否i≤num_comment,5<8,执行step1.4;

step1.4、匹配第5条用户评论与集合introductionfeature中元素;

step1.5、“太卡了,升级还升卡了”中没有集合introductionfeature中元素,执行①;

①、获取“太卡了,升级还升卡了”的评论对象放入集合evaluationobject中,evaluationobject={“升级”,“卡”};

其中,评论对象是指某段文本中讨论的主题,为用户评论中的名词n和非单字动词v,“太卡了,升级还升卡了”分词后为“太/d卡/v了/y,/wd升级/vi还/d升/v卡/n了/y”,获取其中动词vi“升级”和名词n“卡”为评论对象;

②、利用知网词典hownet计算app软件简介introductionfeature{“聊天”,“消息”,“好友”,“语音”,“通话”,“视频”,“想念”,“文件”,“手机”,“电脑”,“空间”,“动态”,“分享”,“生活”,“感动”,“装扮”,“胶囊”,“个性”,“厘米”,“主题”,“名片”,“彩铃”,“气泡”,“游戏中心”,“支付”,“话费”,“转账”,“内容”,“平台”}和用户评论evaluationobject{“升级”,“卡”}之间的相似度∑simlaritynm=10.034;

③、使用公式(1)计算该条用户评论中2个评论对象与app软件简介的相似度平均值ave:

ave=∑simlaritynm/nm=0.173(1)

式(1)中n表示app软件简介中名词和多字动词的个数,m表示该条用户评论中评论对象的个数,simlaritynm表示app软件简介introductionfeature{if1,if2,……,ifn}和用户评论evaluationobject{eo1,eo2,……,eom}之间的相似度。其中,从app软件简介获取出的introductionfeature集合和evaluationobject集合间含有29*2个词语相似度值;

④、判断ave值是否大于0.2:0.173<0.2,执行step1.7;

step1.7、标记第5条用户评论“太卡了,升级还升卡了”为与app软件简介不相关的用户评论,执行step1.8;

step1.8、i++,i=6,执行step1.3;

step1.3、判断是否i≤num_comment,6<8,执行step1.4;

step1.4、匹配第6条用户评论与集合introductionfeature中元素;

step1.5、“为什么安装不了”中没有集合introductionfeature中元素,执行①;

①、获取“为什么安装不了”的评论对象放入集合evaluationobject中,evaluationobject={“安装”};

其中,评论对象是指某段文本中讨论的主题,为用户评论中的名词n和动词v,“为什么安装不了”分词后为“为什么/ryv安装/v不/d了/y”,获取其中非单字动词v“安装”为评论对象;

②、利用知网词典hownet计算app软件简介introductionfeature{“聊天”,“消息”,“好友”,“语音”,“通话”,“视频”,“想念”,“文件”,“手机”,“电脑”,“空间”,“动态”,“分享”,“生活”,“感动”,“装扮”,“胶囊”,“个性”,“厘米”,“主题”,“名片”,“彩铃”,“气泡”,“游戏中心”,“支付”,“话费”,“转账”,“内容”,“平台”}和用户评论evaluationobject{“安装”}之间的相似度∑simlaritynm=1.682;

③、使用公式(1)计算该条用户评论中1个评论对象与app软件简介的相似度平均值ave:

ave=∑simlaritynm/nm=0.058(1)

式(1)中n表示app软件简介中名词和多字动词的个数,m表示该条用户评论中评论对象的个数,simlaritynm表示app软件简介introductionfeature{if1,if2,……,ifn}和用户评论evaluationobject{eo1,eo2,……,eom}之间的相似度。其中,从app软件简介获取出的introductionfeature集合和evaluationobject集合间含有29*1个词语相似度值;

④、判断ave值是否大于0.2:0.058<0.2,执行step1.7;

step1.7、标记第6条用户评论“为什么安装不了”为与app软件简介不相关的用户评论,执行step1.8;

step1.8、i++,i=7,执行step1.3;

step1.3、判断是否i≤num_comment,7<8,执行step1.4;

step1.4、匹配第7条用户评论与集合introductionfeature中元素;

step1.5、“我密码十九位数换了这个版本输不进去,差评。版本也不兼容”中没有集合introductionfeature中元素,执行①;

①、获取“我密码十九位数换了这个版本输不进去,差评。版本也不兼容”的评论对象放入集合evaluationobject中,evaluationobject={“密码”,“数”,“版本”};

其中,评论对象是指某段文本中讨论的主题,为用户评论中的名词n和非单字动词v,“我密码十九位数换了这个版本输不进去,差评。版本也不兼容”分词后为“我/rr密码/n十九/m位/q数/n换/v了/ule这个/rz版本/n输/v不/d进去/vf,/wd差/v评/v。/wj版本/n也/d不/d兼容/vi”,获取其中名词n“密码”,名词n“数”,名词n“版本”为评论对象;

②、利用知网词典hownet计算app软件简介introductionfeature{“聊天”,“消息”,“好友”,“语音”,“通话”,“视频”,“想念”,“文件”,“手机”,“电脑”,“空间”,“动态”,“分享”,“生活”,“感动”,“装扮”,“胶囊”,“个性”,“厘米”,“主题”,“名片”,“彩铃”,“气泡”,“游戏中心”,“支付”,“话费”,“转账”,“内容”,“平台”}和用户评论evaluationobject{“密码”,“数”,“版本”}之间的相似度∑simlaritynm=9.657;

③、使用公式(1)计算该条用户评论中3个评论对象与app软件简介的相似度平均值ave:

ave=∑simlaritynm/nm=0.111(1)

式(1)中n表示app软件简介中名词和多字动词的个数,m表示该条用户评论中评论对象的个数,simlaritynm表示app软件简介introductionfeature{if1,if2,……,ifn}和用户评论evaluationobject{eo1,eo2,……,eom}之间的相似度。其中,从app软件简介获取出的introductionfeature集合和evaluationobject集合间含有29*3个词语相似度值;

④、判断ave值是否大于0.2:0.111<0.2,执行step1.7;

step1.7、标记第7条用户评论“我密码十九位数换了这个版本输不进去,差评。版本也不兼容”为与app软件简介不相关的用户评论,执行step1.8;

step1.8、i++,i=8,执行step1.3;

step1.3、判断是否i≤num_comment,8=8,执行step1.4;

step1.4、匹配第8条用户评论与集合introductionfeature中元素;

step1.5、“这几天发消息,字数一多就闪退”中含有集合introductionfeature中元素“消息”,执行step1.6;

step1.6、标记第8条用户“这几天发消息,字数一多就闪退”为与app软件简介相关的用户评论,执行step1.8;

step1.8、i++,i=9,执行step1.3;

step1.3、判断是否i≤num_comment,9>8,结束;

step2、将与app软件简介相关的含有缺陷的用户评论归类为功能性缺陷用户评论;

step2.1、初始化变量:j=1;

step2.2、获取与app软件简介相关的3条用户评论;

step2.3、判断是否j≤num_recomment:1<3;执行step2.4;

step2.4、将第1条用户评论“冲不了钱”与句型集合defectsentencepattern{dsp1,dsp2,……,dspx}中元素和缺陷特征词集合defectwords{dw1,dw2,……,dwy}进行匹配进行匹配;

其中defectsentencepattern句型为集合为:{“为什么……”,“不能……”,“……就好了”,“总是……”,“没有……”,“有时候……”,“只是……”,“但是……”,“连……都”,“……不了……”,“为啥……”,“怎么……”,“不可以……”,“希望……”,“建议……”,“……怎么回事”};defectwords缺陷特征词集合为:{“安装”,“不兼容”,“不匹配”,“内存”,“耗/费电”,“耗/费流量”,“臃肿”,“存储”,“崩溃”,“闪退”,“黑屏”,“没/无响应”,“死机”,“停止运行”,“不/没经过同意”,“没/无反应”,“卡”,“速度(慢)”};速度(慢)为速度慢、速度*慢(如:速度很慢)。

判断第1条用户评论“冲不了钱”中是否含有集合defectsentencepattern或defectwords中元素:含有“……不了……”句型,执行step2.5;

step2.5、标记“冲不了钱”为功能性缺陷用户评论;

step2.6、根据缺陷特征词表(表3)将“冲不了钱”分类;未含有缺陷特征词,不做其他分类;

表3缺陷特征词表

step2.7、j++,j=2执行step2.3;

step2.3、判断是否j≤num_recomment:2<3;执行step2.4;

step2.4、将第2条用户评论“玩手机,都是必备的,没毛病”与句型集合defectsentencepattern{dsp1,dsp2,……,dspx}中元素和缺陷特征词集合defectwords{dw1,dw2,……,dwy}进行匹配进行匹配;

其中defectsentencepattern句型为集合为:{“为什么……”,“不能……”,“……就好了”,“总是……”,“没有……”,“有时候……”,“只是……”,“但是……”,“连……都”,“……不了……”,“为啥……”,“怎么……”,“不可以……”,“希望……”,“建议……”,“……怎么回事”};defectwords缺陷特征词集合为:{“安装”,“不兼容”,“不匹配”,“内存”,“耗/费电”,“耗/费流量”,“臃肿”,“存储”,“崩溃”,“闪退”,“黑屏”,“没/无响应”,“死机”,“停止运行”,“不/没经过同意”,“没/无反应”,“卡”,“速度(慢)”};速度(慢)为速度慢、速度*慢(如:速度很慢)。

判断第2条用户评论“玩手机,都是必备的,没毛病”中是否含有集合defectsentencepattern或defectwords中元素:未含有任何集合中元素,执行step2.7;

step2.7、j++,j=3执行step2.3;

step2.3、判断是否j≤num_recomment:3=3;执行step2.4;

step2.4、将第3条用户评论“这几天发消息,字数一多就闪退”与句型集合defectsentencepattern{dsp1,dsp2,……,dspx}中元素和缺陷特征词集合defectwords{dw1,dw2,……,dwy}进行匹配进行匹配;

其中defectsentencepattern句型为集合为:{“为什么……”,“不能……”,“……就好了”,“总是……”,“没有……”,“有时候……”,“只是……”,“但是……”,“连……都”,“……不了……”,“为啥……”,“怎么……”,“不可以……”,“希望……”,“建议……”,“……怎么回事”};defectwords缺陷特征词集合为:{“安装”,“不兼容”,“不匹配”,“内存”,“耗/费电”,“耗/费流量”,“臃肿”,“存储”,“崩溃”,“闪退”,“黑屏”,“没/无响应”,“死机”,“停止运行”,“不/没经过同意”,“没/无反应”,“卡”,“速度(慢)”};速度(慢)为速度慢、速度*慢(如:速度很慢)。

判断第3条用户评论“这几天发消息,字数一多就闪退”中是否含有集合defectsentencepattern或defectwords中元素:含有缺陷词“闪退”,执行step2.5;

step2.5、标记“这几天发消息,字数一多就闪退”为功能性缺陷用户评论;

step2.6、根据缺陷特征词表(表3)将“这几天发消息,字数一多就闪退”分类;含有“可靠性缺陷”类缺陷特征词“闪退”,标记为可靠性缺陷;

step2.7、j++,j=4执行step2.3;

step2.3、判断是否j≤num_recomment:4>3;结束;

step3、依据缺陷特征词表对与app软件简介不相关的含有缺陷的用户评论进行分类。

step3.1、初始化变量:k=1;

step3.2、获取与app软件简介相关与不相关的5条用户评论;

step3.3、判断是否k≤num_nocomment1:1<5:执行step3.4;

step3.4、将第1条评论“内存要是少就好了,??”与句型集合defectsentencepattern{dsp1,dsp2,……,dspx}中元素和缺陷特征词集合defectwords{dw1,dw2,……,dwy}进行匹配;

其中defectsentencepattern句型为集合为:{“为什么……”,“不能……”,“……就好了”,“总是……”,“没有……”,“有时候……”,“只是……”,“但是……”,“连……都”,“……不了……”,“为啥……”,“怎么……”,“不可以……”,“希望……”,“建议……”,“……怎么回事”};defectwords缺陷特征词集合为:{“安装”,“不兼容”,“不匹配”,“内存”,“耗/费电”,“耗/费流量”,“臃肿”,“存储”,“崩溃”,“闪退”,“黑屏”,“没/无响应”,“死机”,“停止运行”,“不/没经过同意”,“没/无反应”,“卡”,“速度(慢)”};速度(慢)为速度慢、速度*慢(如:速度很慢)。

判断“内存要是少就好了,??”中是否含有集合defectsentencepattern或defectwords中元素:含有句型“……就好了”,含有缺陷特征词“内存”,执行step3.5;

step3.5、标记“内存要是少就好了,??”为含有缺陷的评论,执行step3.6;

step3.6、根据缺陷特征词表将“内存要是少就好了,??”分类;

“内存要是少就好了,??”中含有“资源性缺陷”类,缺陷特征词“内存”,将此评论标记为“资源性缺陷”评论。

step3.7、k++,k=2;执行step3.3

step3.3、判断是否k≤num_nocomment1:2<5:执行step3.4;

step3.4、将第2条评论“改不了资料,你更新有什么用”与句型集合defectsentencepattern{dsp1,dsp2,……,dspx}中元素和缺陷词集合defectwords{dw1,dw2,……,dwy}进行匹配;

其中defectsentencepattern句型为集合为:{“为什么……”,“不能……”,“……就好了”,“总是……”,“没有……”,“有时候……”,“只是……”,“但是……”,“连……都”,“……不了……”,“为啥……”,“怎么……”,“不可以……”,“希望……”,“建议……”,“……怎么回事”};defectwords缺陷特征词集合为:{“安装”,“不兼容”,“不匹配”,“内存”,“耗/费电”,“耗/费流量”,“臃肿”,“存储”,“崩溃”,“闪退”,“黑屏”,“没/无响应”,“死机”,“停止运行”,“不/没经过同意”,“没/无反应”,“卡”,“速度(慢)”};速度(慢)为速度慢、速度*慢(如:速度很慢)。

判断“改不了资料,你更新有什么用”中是否含有集合defectsentencepattern或defectwords中元素:含有句型“……不了……”,执行step3.5;

step3.5、标记“改不了资料,你更新有什么用”为含有缺陷的评论,执行step3.6;

step3.6、根据缺陷特征词表将“改不了资料,你更新有什么用”分类,其中未含有缺陷特征词表中的缺陷特征词;

step3.7、k++,k=3;执行step3.3

step3.3、判断是否k≤num_nocomment1:3<5:执行step3.4;

step3.4、将第3条评论“太卡了,升级还升卡了”与句型集合defectsentencepattern{dsp1,dsp2,……,dspx}中元素和缺陷词集合defectwords{dw1,dw2,……,dwy}进行匹配;

其中defectsentencepattern句型为集合为:{“为什么……”,“不能……”,“……就好了”,“总是……”,“没有……”,“有时候……”,“只是……”,“但是……”,“连……都”,“……不了……”,“为啥……”,“怎么……”,“不可以……”,“希望……”,“建议……”,“……怎么回事”};defectwords缺陷特征词集合为:{“安装”,“不兼容”,“不匹配”,“内存”,“耗/费电”,“耗/费流量”,“臃肿”,“存储”,“崩溃”,“闪退”,“黑屏”,“没/无响应”,“死机”,“停止运行”,“不/没经过同意”,“没/无反应”,“卡”,“速度(慢)”};速度(慢)为速度慢、速度*慢(如:速度很慢)。

判断“太卡了,升级还升卡了”中是否含有集合defectsentencepattern或defectwords中元素:含有缺陷词“卡”,执行step3.5;

step3.5、标记“太卡了,升级还升卡了”为含有缺陷的评论,执行step3.6;

step3.6、根据缺陷特征词表将“太卡了,升级还升卡了”分类;

“太卡了,升级还升卡了”中含有“有效性缺陷”类,缺陷特征词“卡”,将此评论标记为“有效性缺陷”评论;

step3.7、k++,k=4;执行step3.3;

step3.3、判断是否k≤num_nocomment1:3<5:执行step3.4;

step3.4、将第4条评论“为什么安装不了”与句型集合defectsentencepattern{dsp1,dsp2,……,dspx}中元素和缺陷词集合defectwords{dw1,dw2,……,dwy}进行匹配;

其中defectsentencepattern句型为集合为:{“为什么……”,“不能……”,“……就好了”,“总是……”,“没有……”,“有时候……”,“只是……”,“但是……”,“连……都”,“……不了……”,“为啥……”,“怎么……”,“不可以……”,“希望……”,“建议……”,“……怎么回事”};defectwords缺陷特征词集合为:{“安装”,“不兼容”,“不匹配”,“内存”,“耗/费电”,“耗/费流量”,“臃肿”,“存储”,“崩溃”,“闪退”,“黑屏”,“没/无响应”,“死机”,“停止运行”,“不/没经过同意”,“没/无反应”,“卡”,“速度(慢)”};速度(慢)为速度慢、速度*慢(如:速度很慢)。

判断“为什么安装不了”中是否含有集合defectsentencepattern或defectwords中元素:含有“为什么……”句型,含有缺陷特征词“安装”,执行step3.5;

step3.5、标记“为什么安装不了”为含有缺陷的评论,执行step3.6;

step3.6、根据缺陷特征词表将“为什么安装不了”分类;

“为什么安装不了”中含有“安装缺陷”类,缺陷特征词“安装”,将此评论标记为“安装缺陷”评论;

step3.7、k++,k=5;执行step3.3;

step3.3、判断是否k≤num_nocomment1:5=5:执行step3.4;

step3.4、将第5条评论“我密码十九位数换了这个版本输不进去,差评。版本也不兼容”与句型集合defectsentencepattern{dsp1,dsp2,……,dspx}中元素和缺陷词集合defectwords{dw1,dw2,……,dwy}进行匹配;

其中defectsentencepattern句型为集合为:{“为什么……”,“不能……”,“……就好了”,“总是……”,“没有……”,“有时候……”,“只是……”,“但是……”,“连……都”,“……不了……”,“为啥……”,“怎么……”,“不可以……”,“希望……”,“建议……”,“……怎么回事”};defectwords缺陷特征词集合为:{“安装”,“不兼容”,“不匹配”,“内存”,“耗/费电”,“耗/费流量”,“臃肿”,“存储”,“崩溃”,“闪退”,“黑屏”,“没/无响应”,“死机”,“停止运行”,“不/没经过同意”,“没/无反应”,“卡”,“速度(慢)”};速度(慢)为速度慢、速度*慢(如:速度很慢)。

判断“我密码十九位数换了这个版本输不进去,差评。版本也不兼容”中是否含有集合defectsentencepattern或defectwords中元素:含有缺陷词“不兼容”,执行step3.5;

step3.5、标记“我密码十九位数换了这个版本输不进去,差评。版本也不兼容”为含有缺陷的评论,执行step3.6;

step3.6、根据缺陷特征词表将“我密码十九位数换了这个版本输不进去,差评。版本也不兼容”分类;

“我密码十九位数换了这个版本输不进去,差评。版本也不兼容”中含有“兼容性缺陷”类,缺陷特征词“不兼容”,将此评论标记为“兼容性缺陷”评论。

step3.7、k++,k=6;执行step3.3;

step3.3、判断是否k≤num_nocomment1:6>5:执行step3.8;

step3.8、将含有缺陷标记且未分类的评论标记为其他缺陷类,“改不了资料,你更新有什么用”分为“其他缺陷”类。

上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1