应用软件体验的分析方法、装置、设备及计算机存储介质与流程

文档序号:17741014发布日期:2019-05-24 20:05阅读:183来源:国知局
应用软件体验的分析方法、装置、设备及计算机存储介质与流程

本发明涉及计算机信息技术领域,尤其涉及一种应用软件体验的分析方法、装置、设备及计算机存储介质。



背景技术:

在互联网上通常有某个软件下载平台(这个平台可以是一个网站,也可以是一个类似电子在线商店的手机应用程序)是集中提供多个app(计算机应用程序软件,application)下载资源链接供终端(如手机或平板电脑)的用户选择下载,用户可以看到各个app应用软件相应的图标、名称、下载量以及历史用户对各app应用软件的使用评价反馈。

但是目前对于电子在线商店或者网站,提供给使用者的评分选项通常为两个,即“好”与“不好”或者“有用”与“没用”,使用者选择其一打钩进行使用体验评价,得到一个很粗略的评价,又或者使用者在下载完并使用该app应用软件后,对该app应用软件进行留言评价,评价内容虽多但是很杂,不能直接体现出该app应用程序真实地优点和不足,当新的用户想要下载该app应用软件时,无法从评论信息中得到一个比较真实的用户使用体验结果,用户就会比较纠结是否对其下载。



技术实现要素:

本发明的主要目的在于提供了一种应用软件体验的分析装置方法、装置、设备以及计算机存储介质,旨在解决目前无法从app软件下载平台的评论信息中得到一个比较真实的用户使用体验结果,给想要下载应用软件的用户带来不便的问题。

为实现上述目的,本发明提供了一种应用软件体验的分析方法,所述方法包括以下步骤:

从网络信息源中抓取待处理的应用软件的各条评论文本;

分别对各条评论文本进行分词,使得各条评论文本分别具有多个特征词;

分别从所述各条评论文本的特征词中确定关键特征词,形成关键特征词集合;

统计各关键特征词在所述关键特征词集合中的词频,将词频大于预设词频阈值的关键特征词定义为目标关键特征词;

将包含目标关键特征词的评论文本作为待处理评论文本,分别对各待处理评论文本进行语义分析;

按照语义分析结果对各待处理评论文本进行展示。

优选地,所述从网络信息源中抓取待处理的应用软件的各条评论文本之前,还包括:

将与所述待处理的应用软件相关的预设特征词添加至语料模型;

所述从所述各条评论文本的特征词中确定关键特征词,包括:

将所述评论文本中各特征词分别与所述语料模型中的预设特征词进行匹配,将与所述预设特征词匹配成功的特征词作为关键特征词。

优选地,所述将包含目标关键特征词的评论文本作为待处理评论文本,分别对各待处理评论文本进行语义分析,包括:

将包含目标关键特征词的评论文本作为待处理评论文本,调用预设程序编程接口keras分别对各待处理评论文本进行语义分析。

优选地,所述语料模型包括长短期记忆网络lstm;

所述将包含目标关键特征词的评论文本作为待处理评论文本,调用预设程序编程接口keras分别对各待处理评论文本进行语义分析,包括:

将包含目标关键特征词的评论文本作为待处理评论文本,调用预设程序编程接口keras分别对各待处理评论文本中的特征词分配具有哈希空间中的索引序列,不同索引序列对应不同的特征词类别,使得所述待处理评论文本转换为待处理索引文本;

基于所述长短期记忆网络lstm分别对各待处理索引文本进行语义分析,得到语义分析结果。

优选地,所述语料模型包括预先存储的标准体验语句,所述标准体验语句表征所述待处理的应用软件的体验指数;

所述将包含目标关键特征词的评论文本作为待处理评论文本,分别对各待处理评论文本进行语义分析,包括:

从所述语料模型中的获取与所述目标关键特征词相关的多个标准体验语句;

获取所述待处理评论文本中各特征词对应的词向量;

分别获取各标准体验语句中不同成分词语对应的词向量;

计算所述待处理评论文本与各标准体验语句中相应成分的词语对应词向量之间的余弦距离;

选取与所述待处理评论文本对应的余弦距离最小的标准体验语句作为目标标准体验语句,并确定所述目标标准体验语句对应的体验指数,以实现对待处理评论文本进行语义分析。

优选地,还包括通过预设词向量工具对所述语料模型以及所述待处理评论文本进行训练,以执行所述获取所述待处理评论文本中各特征词对应的词向量以及所述分别获取各标准体验语句中不同成分词语对应的词向量的步骤。

优选地,所述从网络信息源中抓取待处理的应用软件的各条评论文本,包括:

通过预设爬虫工具从网络信息源中抓取待处理的应用软件的各条评论文本。

此外,为实现上述目的,本发明还提出一种应用软件体验的分析装置,所述装置包括:

抓取模块,用于从网络信息源中抓取待处理的应用软件的各条评论文本;

分词模块,用于分别对各条评论文本进行分词,使得各条评论文本分别具有多个特征词;

确定模块,用于分别从所述各条评论文本的特征词中确定关键特征词,形成关键特征词集合;

统计模块,用于统计各关键特征词在所述关键特征词集合中的词频,将词频大于预设词频阈值的关键特征词定义为目标关键特征词;

分析模块,用于将包含目标关键特征词的评论文本作为待处理评论文本,分别对各待处理评论文本进行语义分析;

展示模块,用于按照语义分析结果对各待处理评论文本进行展示。

此外,为实现上述目的,本发明还提出一种用于应用软件体验的分析的设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的应用软件体验的分析程序,所述应用软件体验的分析程序配置为实现如上所述的应用软件体验的分析方法的步骤。

此外,为实现上述目的,本发明还提出一种计算机存储介质,所述计算机存储介质存储有应用软件体验的分析程序,所述应用软件体验的分析程序配置为实现如上所述的应用软件体验的分析方法的步骤。

本发明首先从网络信息源中抓取待处理的应用软件的各条评论文本;分别对各条评论文本进行分词,使得各条评论文本分别具有多个特征词;再分别从所述各条评论文本的特征词中确定关键特征词,形成关键特征词集合;统计各关键特征词在所述关键特征词集合中的词频,将词频大于预设词频阈值的关键特征词定义为目标关键特征词;最后将包含目标关键特征词的评论文本作为待处理评论文本,分别对各待处理评论文本进行语义分析,按照语义分析结果对各待处理评论文本进行展示,进而能够得到一个客观上能够真实反映该应用软件优点和不足的使用体验数据。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的用于应用软件体验的分析设备的结构示意图;

图2为本发明一种应用软件体验的分析方法第一实施例的流程示意图;

图3为本发明一种应用软件体验的分析方法第二实施例的流程示意图;

图4为本发明一种应用软件体验的分析方法第三实施例流程示意图;

图5为本发明一种应用软件体验的分析装置的结构框图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

参照图1,图1为本发明实施例方案涉及的硬件运行环境的用于应用软件体验的分析设备的结构示意图。

如图1所示,该设备可以包括:处理器1001,例如cpu,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解,图1中示出的结构并不构成对所述设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接收模块以及应用软件体验的分析程序。

在图1所示的设备中,本发明的应用软件体验的分析装置通过处理器1001调用存储器1005中存储的应用软件体验的分析程序,并执行应用软件体验的分析方法的步骤。

参照图2,图2为本发明一种应用软件体验的分析方法第一实施例的流程示意图。

本实施例中,所述应用软件体验的分析方法包括以下步骤:

步骤s10:从网络信息源中抓取待处理的应用软件的各条评论文本。

需要说明的是,本实施例的执行主体是上述用于应用软件体验的分析的设备的处理器,同时本实施例的执行主体也可以理解为装载于上述设备内的一种用于应用软件体验的分析的应用程序。本实施例的所述网络信息源可以是一个网站,也可以是一个类似电子在线商店的手机应用程序。

可选地,通过预设爬虫工具从网络信息源中抓取待处理的应用软件app的各条评论文本,本实施例的预设爬虫工具为python脚本,使用python脚本实现抓取脚本,执行脚本时会传入对应app在应用商店的页面地址,python脚本通过正则抓取待处理的应用软件app的评论文本。

步骤s20:分别对各条评论文本进行分词,使得各条评论文本分别具有多个特征词。

可理解的是,本实施例以中文分词为例进行说明,将某个待处理的应用软件app的各条评论文本分别切分成一个一个单独的词,即将连续的字序列按照一定的规范重新组合成词序列。

需要说明的是,本实施例会预先建立一个语料模型,预先将与所述待处理的应用软件相关的各种类别的特征词添加至语料模型,即通过抓取不同网络信息源(某个电子在线商店或者网站)的评论信息来构建丰富的语料模型,得到一个丰富的文本语料库,该语料库包含大量的词语及词段。本实施例优选使用基于统计的分词方法对各条评论文本进行分词。

在具体实现中,会对所述待处理的应用软件的每条评论文本进行遍历,在给定大量词语及词段的前提下,利用统计机器学习模型学习词语切分的规律,并通过最大概率分词法并结合最大熵分词法对遍历到的评论文本的切分。

例如当前遍历到的评论文本为“下载软件到手机后,感觉等待启动时间太长,体验不佳”这句话,文本被切分后的结果为:“下载”、“软件”、“手机”、“启动”、“等待”、“时间”、“长”、“体验”和“不佳”。其中,本实施例采用n元文法模型(n-gram)、隐马尔可夫模型(hiddenmarkovmodel,hmm)、最大熵模型(me)、以及条件随机场模型(conditionalrandomfields,crf)等作为统计机器学习模型。

步骤s30:分别从所述各条评论文本的特征词中确定关键特征词,形成关键特征词集合,所述关键特征词集合由所述各条评论文本的关键特征词组成。

可理解的是,所述关键特征词表征与app应用软件使用相关的词汇,如“启动”、“时间”、“速度”、“等待”、“复杂”、“简单”、“卡”、“病毒”,分别提取各条评论文本中的关键特征词到一个关键特征词集合中。

步骤s40:统计各关键特征词在所述关键特征词集合中的词频,将词频大于预设词频阈值的关键特征词定义为目标关键特征词。

具体地,本实施例设定预设词频阈值为1000,统计同一个关键特征词在所述关键特征词集合中的词频,将关键特征词的词频大于1000的关键特征词作为需要进行下一步处理的目标关键特征词;

在具体实现中,可将所述评论文本中各特征词分别与所述语料模型中的预设特征词进行匹配,将与所述预设特征词匹配成功的特征词作为关键特征词。其中,所述预设关键特征词可以是能够反映app应用软件使用体验程度的相关词语和词组,例如“(启动)时间”或“运行(速度)”这类与app性能相关的词汇,也可以是“(使用/操作)方便”、“(操作)简单”、“(操作)复杂”、“(操作)垃圾”等与用户体验感受相关的词语和词组,本实施例会预先将这些类别的词语作为预设关键特征词存入语料模型中。对这些预设关键特征词进行聚类,例如“(使用/操作)方便”和“(操作)简单”表征用户体验较好,归为一类词汇;而“(操作)复杂”和“(操作)垃圾”表征用户体验较差,归为另一类词汇,以此类推。

例如,对当前评论文本“下载软件到手机后,感觉等待启动时间太长,体验不佳”进行分词是,将当前评论文本中特征词与语料模型中的预设特征词进行匹配,匹配成功的关键特征词为:“启动”、“等待”、“时间”、“长”、“体验”和“不佳”,这些匹配成功的特征词可理解为能够反映app应用软件使用体验的相关词汇。

步骤s50:将包含目标关键特征词的评论文本作为待处理评论文本,分别对各待处理评论文本进行语义分析。

具体地,可调用预设程序编程接口keras分别对各待处理评论文本进行语义分析。

可理解的是,keras是一个高层神经网络api(applicationprogramminginterface,应用程序编程接口),keras由纯python编写而成并基于tensorflow(第二代人工智能学习系统)以及cntk(computationalnetworktoolkit,开源深度学习工具包)后端,用于深度学习。本实施例在调用keras程序编程接口后,使用keras中的tokenizer类对待处理评论文本进行预处理,以使得待处理评论文本转换成符合隐马尔可夫模型、最大熵模型、以及条件随机场模型规范的文本,然后将预处理后的结果送入语料模型中进行语义分析以的得到语义分析结果数据。

步骤s60:按照语义分析结果对各待处理评论文本进行展示。

可理解的是,得到的语义分析结果数据能够反应下载了应用软件app的用户对其体验的好坏,从客观上反应是好体验还是差体验;将各个待处理评论文本按照语义分析结果分为好体验评论文本的和差体验评论文本,并对分类后的评论文本进行展示,最终可以得到一个直观的体验分析数据。

本实施例首先从网络信息源中抓取待处理的应用软件的各条评论文本;分别对各条评论文本进行分词,使得各条评论文本分别具有多个特征词;再分别从所述各条评论文本的特征词中确定关键特征词,形成关键特征词集合;统计各关键特征词在所述关键特征词集合中的词频,将词频大于预设词频阈值的关键特征词定义为目标关键特征词;最后将包含目标关键特征词的评论文本作为待处理评论文本,分别对各待处理评论文本进行语义分析,按照语义分析结果对各待处理评论文本进行展示。进而能够得到一个客观上能够真实反映该应用软件优点和不足的使用体验数据。

进一步地,参照图3,图3为本发明一种应用软件体验的分析方法第二实施例的流程示意图;基于上述应用软件体验的分析方法的第一实施例,提出本发明一种应用软件体验的分析方法第二实施例。

本实施例中,会预先将长短期记忆网络lstm(longshort-termmemory,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件)添加至所述语料模型中;相应地,所述步骤s50具体包括:

步骤s501:将包含目标关键特征词的评论文本作为待处理评论文本,调用预设程序编程接口keras分别对各待处理评论文本中的特征词分配具有哈希空间中的索引序列,不同索引序列对应不同的特征词类别,使得所述待处理评论文本转换为待处理索引文本。

在具体实现中,本实施例会调用keras中的特征哈希函数hashing_trick()将待处理评论文本进行转换,为待处理评论文本中的特征词分配具有固定大小的哈希空间中的索引序列。对于“下载软件到手机后,感觉等待启动时间太长,体验不佳”这个评论文本,最终得到的待处理索引文本为“等待”(3)、“启动”(3)、“时间”(5)、“长”(2)、“体验”(13)和“不佳”(1),用索引表示则为“[3,3,5,2,13,1]”。

可理解的是,不同索引序列对应不同的特征词类别,这里“等待”和“启动”为文本前半句的谓语,序列记为3;“时间”为宾语,序列记为5,长为前半句的状语,序列记为2;“体验”为文本后半句的谓语,序列记为13;“不佳”为文本后半句的状语,序列记为1。

步骤s502:基于所述长短期记忆网络lstm分别对各待处理索引文本进行语义分析,得到语义分析结果。

在具体实现中,在得到具有哈希空间中的索引序列的待处理索引文本后,调用所述语料库中长短期记忆网络lstm,将待处理索引文本送入lstm,由lstm对待处理索引文本对应的评论文本进行语义分析。

可理解的是,lstm其特性为其固有的算法中加入了名称为cell的类似于“处理器”作用的结构,其作用在于判断一条信息的有用与否,一个cell当中被放置了三扇门,分别叫做输入门、遗忘门和输出门。当所述待处理索引文本通过输入们进入长短期记忆网络lstm中,根据不同索引序列对应不同的特征词类别来判断所述待处理索引文本中哪些索引对应的特征词为有用,只有符合算法认证的信息才会留下,不符的信息则通过遗忘门被滤除。例如待处理索引文本“等待(3)、启动(3)、时间(5)、长(2)、体验(13)和不佳(1)”中“等待”和“启动”均属于表征行为类别的词语,而“启动”是与宾语“时间”连着来的谓语,其维度要高于“等待”,因此本实施例会将“等待”视为非必要字符,调用遗忘门对“等待”进行滤除。

本实施例由于是对索引文本进行分析,可以节省很多内存,处理速度会更快,效果更好。

进一步地,参照图4,图4为本发明一种应用软件体验的分析方法第三实施例的流程示意图;基于上述应用软件体验的分析方法的第一实施例,提出本发明一种应用软件体验的分析方法第三实施例。

本实施例中,所述语料模型包括预先存储的标准体验语句(即一些类似的参考评论信息),所述标准体验语句表征所述待处理的应用软件的体验指数;

相应地,所述步骤s50,具体包括:

步骤s51,从所述语料模型中的获取与所述目标关键特征词相关的多个标准体验语句。

可理解的是,本实施例预先抓取不同网络信息源的评论信息构建了丰富的语料模型,得到一个丰富的文本语料库,该语料库包含大量的词语、词段以及有词语词段构成的多个标准体验语句。

步骤s52,获取所述待处理评论文本中各特征词对应的词向量;分别获取各标准体验语句中不同成分词语对应的词向量。

在具体实现中,通过预设词向量工具对所述语料模型以及所述待处理评论文本进行训练,以执行所述获取所述待处理评论文本中各特征词对应的词向量以及所述分别获取各标准体验语句中不同成分词语对应的词向量的步骤。

例如所述预设词向量工具可为word2vec工具,word2vec工具包括多个用来产生词向量的相关模型。这些模型包括浅而双层的神经网络,用来训练以重新建构语言学之词文本。通过word2vec对所述语料模型中的标准体验语句以及所述待处理评论文本进行词向量的训练。主要采用了一个三层神经网络模型对汉语自然语言语料进行训练。

步骤s53,计算所述待处理评论文本与各标准体验语句中相应成分的词语对应词向量之间的余弦距离。

可理解的是,所述语料模型中的标准体验语句以及所述待处理评论文本的特征词经过word2vec工具训练之后,每一个汉语词语可以用一个向量来表示(50维),两个汉语词语之间的近似程度通过表示它们的两个向量之间的余弦距离来衡量。距离越小代表两个词语近似程度越大,距离越大代表两个词语近似程度越小。

具体地,对需要比较的两个句子进行句法分析得到句法树,句法树代表了句子各个成分的结构化特征,比如主语、谓语、宾语、从句等。

利用步骤s52中的词向量,对两个句子的相同成分的词语进行余弦距离的计算,然后将各个部分余弦距离进行加权平均得到最终的句子之间的平均余弦距离。这个距离就可以衡量句子之间的近似程度。距离越小代表两个句子近似程度越大,距离越大代表两个句子近似程度越小。

步骤s54,选取与所述待处理评论文本对应的余弦距离最小的标准体验语句作为目标标准体验语句,并确定所述目标标准体验语句对应的体验指数。

可理解的是,每条待处理评论文本都对应有多个类似的目标标准体验语句,对于每条待处理评论文本来说必须选取一条与其近似程度最小标准体验语句作为目标标准体验语句,确定目标标准体验语句对应的体验指数,以更快地实现对待处理评论文本进行语义分析,通过这些匹配的方式能够快速得到语义分析结果。

此外,参照图5,本发明还提出一种应用软件体验的分析装置,所述装置包括:

抓取模块10,用于从网络信息源中抓取待处理的应用软件的各条评论文本;

分词模块20,用于分别对各条评论文本进行分词,使得各条评论文本分别具有多个特征词;

确定模块30,用于分别从所述各条评论文本的特征词中确定关键特征词,形成关键特征词集合;

统计模块40,用于统计各关键特征词在所述关键特征词集合中的词频,将词频大于预设词频阈值的关键特征词定义为目标关键特征词;

分析模块50,用于将包含目标关键特征词的评论文本作为待处理评论文本,分别对各待处理评论文本进行语义分析;

展示模块60,用于按照语义分析结果对各待处理评论文本进行展示。

可理解的是,本实施的应用软件体验的分析装置可以是一种app应用程序,该app应用程序装载在上述实施例的应用软件体验的分析设备中,本发明应用软件体验的分析装置的具体实现方式可参照上述应用软件体验的分析方法实施例,此处不再赘述。

此外,本发明还提供一种计算机存储介质,其特征在于,所述计算机存储介质上存储有应用软件体验的分析程序,所述应用软件体验的分析程序被处理器执行时实现如上所述的应用软件体验的分析方法步骤。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1