用户评价的分析方法和装置与流程

文档序号:18257918发布日期:2019-07-24 10:25阅读:248来源:国知局
用户评价的分析方法和装置与流程
本说明书涉及机器学习
技术领域
,尤其涉及一种用户评价的分析方法和装置。
背景技术
:随着互联网技术的发展,越来越多的业务可以通过互联网实现,例如购买商品,与好友通信等。目前,很多服务提供商都会向用户提供评价功能,用户可以评价购买的商品或使用的软件服务。技术实现要素:有鉴于此,本说明书提供一种评价的分析方法和装置。具体地,本说明书是通过如下技术方案实现的:一种用户评价的分析方法,包括:将用户评价文本中的词语转换为对应的词向量;根据所述词向量对若干评价文本所包括的词语进行聚类,以得到每个词语所属的词语类别;将所述评价文本中的词语替换为所述词语所属词语类别下的中心词,得到所述评价文本的替换文本;采用文本分类模型对各评价文本的替换文本进行分类;对指定文本类别下的替换文本进行汇总,并提取汇总结果中满足预定条件的词语作为对应该文本类别的用户评价分析结果。一种用户评价的分析装置,包括:向量转换单元,将用户评价文本中的词语转换为对应的词向量;词聚类单元,根据所述词向量对若干评价文本所包括的词语进行聚类,以得到每个词语所属的词语类别;文本替换单元,将所述评价文本中的词语替换为所述词语所属词语类别下的中心词,得到所述评价文本的替换文本;文本分类单元,采用文本分类模型对各评价文本的替换文本进行分类;评价分析单元,对指定文本类别下的替换文本进行汇总,并提取汇总结果中满足预定条件的词语作为对应该文本类别的用户评价分析结果。一种用户评价的分析装置,包括:处理器;用于存储机器可执行指令的存储器;其中,通过读取并执行所述存储器存储的与用户评价的分析逻辑对应的机器可执行指令,所述处理器被促使:将用户评价文本中的词语转换为对应的词向量;根据所述词向量对若干评价文本所包括的词语进行聚类,以得到每个词语所属的词语类别;将所述评价文本中的词语替换为所述词语所属词语类别下的中心词,得到所述评价文本的替换文本;采用文本分类模型对各评价文本的替换文本进行分类;对指定文本类别下的替换文本进行汇总,并提取汇总结果中满足预定条件的词语作为对应该文本类别的用户评价分析结果。由以上描述可以看出,本说明书可先将用户评价文本中的词语替换为所述词语所属类别下的中心词,得到所述评价文本的替换文本,然后采用文本分类模型对各评价文本的替换文本进行分类,并对指定文本类别下的替换文本进行汇总,并提取汇总结果中满足预定条件的词语作为对应该文本类别的用户评价分析结果,从而实现对用户评价的分析,有助于协助评价对象发现产品、服务的优势与劣势。附图说明图1是本说明书一示例性实施例示出的一种用户评价的分析方法的流程示意图。图2是本说明书一示例性实施例示出的一种用于用户评价的分析装置的一结构示意图。图3是本说明书一示例性实施例示出的一种用户评价的分析装置的框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。本说明书提供一种用户评价的分析方案,可先将用户评价文本中的词语替换为所述词语所属类别下的中心词,得到所述评价文本的替换文本,然后对各评价文本的替换文本进行分类,并对指定文本类别下的替换文本进行汇总,并提取汇总结果中满足预定条件的词语作为对应该文本类别的用户评价分析结果。图1是本说明书一示例性实施例示出的一种用户评价的分析方法的流程示意图。请参考图1,所述用户评价的分析方法可包括以下步骤:步骤102,将用户评价文本中的词语转换为对应的词向量。在本实施例中,所述用户评价文本可包括用户对购买的商品或服务发布的评价文本,也可包括用户对使用的软件服务发布的评价文本,本说明书对此不作特殊限制。在本实施例中,所述用户评价文本通常包括一个或多个句子。例如,针对某件衣服,用户A发布评价文本“面料手感不好”。再例如,针对某即时通信软件,用户B发布评价文本“页面设置好,通信速度快,赞一个”等。在本实施例中,针对每条用户评价文本,可先对所述评价文本进行分词处理,以将所述评价文本划分为一个或多个词语。例如,可采用相关技术中提供的分词开源工具,诸如ICTCLAS、SCWS等进行分词处理,当然,也可采用自行开发的工具对所述评价文本进行分词处理,本说明书对此不作特殊限制。在本实施例中,可采用cw2vec算法将划分后的每个词语转换为对应的词向量。其中,cw2vec算法是一种基于汉字笔画信息的中文词向量算法,采用cw2vec算法可有效提高中文语言处理的准确度。当然,在其他例子中,也可采用word2vec等算法将评价文本中的词语转换为对应的向量。步骤104,根据所述词向量对若干评价文本所包括的词语进行聚类,以得到每个词语所属的词语类别。在本实施例中,可获取一段时间内的评价文本,然后基于获取的评价文本所包括的词语的词向量对这些词语进行聚类,以对词语进行类别的划分,将每个词语划分到一个词语类别中。举例来说,假设获取到100条评价文本,这100条评价文本共包括5000个词语,采用这5000个词语的词向量对这些词语进行聚类后可将这些词语划分为800个词语类别。那么,基于本步骤可确定每个词语所属的词语类别。在本实施例中,针对每个词语类别,还可确定该词语类别的中心词。例如,可分别计算该词语类别中各个词语与类中心的距离,然后将距离类中心最近的词语确定为该词语类别的中心词。当距离类中心最近的词语有多个时,可随机选择一个词语作为该词语类别的中心词。再例如,若所述类中心就是词语,那么也可以将所述类中心代表的词语确定为该词语类别的中心词。又例如,还可从所述词语类别中随机选取一个词语作为中心词等。在本实施例中,对所述词语进行聚类时所采用的聚类算法可包括:K-means(K-均值)算法、GMM(GaussianMixtureModel,高斯混合模型)算法等,本说明书对此不作特殊限制。步骤106,将所述评价文本中的词语替换为所述词语所属词语类别下的中心词,得到所述评价文本的替换文本。在本实施例中,针对所述评价文本中的每个词语,可采用所述词语所属词语类别下的中心词替换所述词语,以得到所述评价文本的替换文本。词语所属词语类别的中心词面料材质手感手感不好差表1假设,某评价文本为“面料手感不好”,对该评价文本进行分词后可得到3个词语,分别为“面料”、“手感”以及“不好”。表1示出了这3个词语所属词语类别的中心词,基于表1的示例,可将该评价文本替换为“材质手感差”,即该评价文本的替换文本是“材质手感差”。步骤108,采用文本分类模型对各评价文本的替换文本进行分类。在本实施例中,针对每个评价文本,可先确定所述评价文本的替换文本对应的词向量集合。仍以评价文本为“面料手感不好”为例,可获取其替换文本“材质手感差”中各个词语的词向量,然后得到该替换文本的词向量集合。在本实施例中,可将所述评价文本的替换文本的词向量集合输入文本分类模型,得到所述替换文本的文本分类结果。所述文本分类模型可以是LSTM(LongShort-TermMemory,长短期记忆网络)+Softmax模型。在其他例子中,也可采用其他文本分类模型,本说明书对此不作特殊限制。所述文本分类模型可用于预测输入的替换文本是否属于指定的文本类别。其中,所述指定文本类别可包括投诉类别、表扬类别等。需要说明的是,输入文本分类模型的替换文本,在有些情况下,实际上并没有进行词语的替换,因为评价文本中的词语本身就是中心词。在本实施例中,相较于对评价文本,替换文本采用中心词代替同类别的词语,可大大减少不同词语数量,提高文本分类结果的准确度。步骤110,对指定文本类别下的替换文本进行汇总,并提取汇总结果中满足预定条件的词语作为对应该文本类别的用户评价分析结果。在本实施例中,可将所述指定文本类别下的替换文本汇总到一起,得到汇总结果。所述汇总结果包括各个替换文本所包括的词语。然后可计算汇总结果中各个词语在预定维度下的衡量参数,并基于所述衡量参数进行词语提取,例如可按照衡量参数的大小对各个词语进行排序,并提取排列在前若干位的词语作为对应该文本类别的用户评价分析结果等。所述预定维度下的衡量参数可包括词频、TF-IDF(termfrequency–inversedocumentfrequency,词频-逆向文件频率)等。替换文本包括的词语替换文本1词语A、词语B、词语C、词语D、词语E替换文本2词语A、词语C、词语W替换文本3词语A、词语Y、词语Z表2以词频为例,假设所述文本类别下的替换文本有3个,各替换文本包括的词语可参考表2的示例。在对替换文本1-替换文本3进行汇总后,可得到表3所示的汇总结果词语的词频列表。词语词频词语A3词语C2词语B、词语D、词语E、词语W、词语Y、词语Z1表3在本实施例中,可提取词频排列在前N位的词语作为所述指定文本类别下用户评价的分析结果。其中,N的取值可预先设置,例如3、5等。请继续参考表3的示例,假设N的取值是2,则可提取词语A和词语C作为所述指定文本类别下用户评价的分析结果。本实施例从替换文本的汇总结果中提取评价分析结果,可实现对相似分析结果的去重,从而提高评价分析结果的准确性。在其他例子中,当所述指定文本类别具有正向或负向的倾向时,可提取汇总结果中满足预定条件的名词作为对应所述指定文本类别的用户评价分析结果,根据所述指定文本类别的倾向即可确定分析结果中各名称的倾向,进而知晓用户评价的结论。例如,投诉类别具有负向倾向,针对投诉类别下的替换文本可提取汇总结果中满足预定条件的名词作为所述用户评价分析结果,诸如色差、材质、物流等。基于投诉类别,可知晓用户投诉的原因在于产品色差、产品材质以及物流。再例如,表扬类别具有正向倾向,针对表扬类别下的替换文本可提取汇总结果中满足预定条件的名称作为所述用户评价分析结果,诸如音质、味道等。基于表扬类别,可知晓用户满意的原因在于音质和味道。本例从汇总结果的名词中提取评价分析结果,可有效减少计算量,提高用户评价的分析效率,同时不降低分析结果的准确度。在实际应用中,可以以评价对象为单位进行指定文本类别下的替换文本汇总,从而为评价对象总结出对应文本类别下用户评价的分析结果,以供评价对象参考。其中,所述评价对象通常是评价文本面向的对象,可包括用户购买的商品、服务,提供所述商品、服务的商铺,用户使用的软件,所述软件的开发商等。值得注意的是,用户评价文本中通常会包括一些没有实质意义的词语,例如“的”、“啊”等,在采用本说明书记载的技术方案进行用户评价的分析时,可过滤掉这些没有意义的词语。例如,可在前述步骤102对评价文本进行分词划分后进行词语过滤。再例如,还可在前述步骤110中对替换文本进行汇总时进行词语过滤,本说明书对此不作特殊限制。由以上描述可以看出,本说明书可先将用户评价文本中的词语替换为所述词语所属类别下的中心词,得到所述评价文本的替换文本,然后采用文本分类模型对各评价文本的替换文本进行分类,并对指定文本类别下的替换文本进行汇总,并提取汇总结果中满足预定条件的词语作为对应该文本类别的用户评价分析结果,从而实现对用户评价的分析,有助于协助评价对象发现产品、服务的优势与劣势。下面结合具体的应用场景来描述本说明书的实现过程。用户在电商平台上购物后,可对购买的物品或服务进行评价。电商平台可定期获取本周期内的用户评价,例如可在每个月1号获取上个月所有用户评价。在获取到用户评价后,可将各条评价中的词语转换为对应的词向量,并基于所述词向量对用户评价中包括的所有词语进行聚类,得到每个词语所属的词语类别。在聚类完毕后,可将获取到的用户评价中的词语替换为其所属类别下的中心词,得到各条用户评价的替换文本。接着,采用已训练的文本分类模型,可对各评价文本的替换文本进行分类,识别出投诉类文本。然后针对同一个商品,可汇总针对该商品的所有投诉文本,并提取汇总结果中词频或TF-IDF排列在前若干位的名词作为用户针对该商品投诉的原因,并可将所述原因发送给售卖该商品的商户。举例来说,假设针对电商平台上售卖的一条裙子,用户投诉文本包括“料子太差”、“材质不行”、“面料手感不好”等,通过本说明书记载的上述技术方案,可分析出用户投诉的原因在于“材质”,进而可将该原因反馈给商家。与前述用户评价的分析方法的实施例相对应,本说明书还提供了用户评价的分析装置的实施例。本说明书用户评价的分析装置的实施例可以应用在服务器上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图2所示,为本说明书用户评价的分析装置所在服务器的一种硬件结构图,除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的服务器通常根据该服务器的实际功能,还可以包括其他硬件,对此不再赘述。图3是本说明书一示例性实施例示出的一种用户评价的分析装置的框图。请参考图3,所述用户评价的分析装置200可以应用在前述图2所示的服务器中,包括有:向量转换单元201、词聚类单元202、文本替换单元203、文本分类单元204以及评价分析单元205。其中,向量转换单元201,将用户评价文本中的词语转换为对应的词向量;词聚类单元202,根据所述词向量对若干评价文本所包括的词语进行聚类,以得到每个词语所属的词语类别;文本替换单元203,将所述评价文本中的词语替换为所述词语所属词语类别下的中心词,得到所述评价文本的替换文本;文本分类单元204,采用文本分类模型对各评价文本的替换文本进行分类;评价分析单元205,对指定文本类别下的替换文本进行汇总,并提取汇总结果中满足预定条件的词语作为对应该文本类别的用户评价分析结果。可选的,所述向量转换单元201:对用户评价文本进行分词处理,以将所述评价文本划分为一个或多个词语;采用cw2vec算法将所述词语转换为对应的词向量。可选的,所述中心词的确定过程包括:将每个词语类别中距离类中心最近的词语作为对应词语类别下的中心词。可选的,所述评价分析单元205:提取汇总结果中满足预定条件的名词作为对应该文本类别的用户评价分析结果。可选的,所述评价分析单元205:计算汇总结果中各个词语在预定维度下的衡量参数;按照衡量参数从大到小的顺序对所述词语进行排序;提取排列在前N位的词语作为对应该文本类别的用户评价分析结果。可选的,所述预定维度下的衡量参数包括以下一种或多种:词频、TF-IDF。可选的,所述指定文本类别包括投诉类别。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。与前述用户评价的分析方法的实施例相对应,本说明书还提供一种用户评价的分析装置,该装置包括:处理器以及用于存储机器可执行指令的存储器。其中,处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中,所述设备还可能包括外部接口,以能够与其他设备或者部件进行通信。在本实施例中,通过读取并执行所述存储器存储的与用户评价的分析逻辑对应的机器可执行指令,所述处理器被促使:将用户评价文本中的词语转换为对应的词向量;根据所述词向量对若干评价文本所包括的词语进行聚类,以得到每个词语所属的词语类别;将所述评价文本中的词语替换为所述词语所属词语类别下的中心词,得到所述评价文本的替换文本;采用文本分类模型对各评价文本的替换文本进行分类;对指定文本类别下的替换文本进行汇总,并提取汇总结果中满足预定条件的词语作为对应该文本类别的用户评价分析结果。可选的,在将用户评价文本中的词语转换为对应的词向量时,所述处理器被促使:对用户评价文本进行分词处理,以将所述评价文本划分为一个或多个词语;采用cw2vec算法将所述词语转换为对应的词向量。可选的,在确定中心词时,所述处理器被促使:将每个词语类别中距离类中心最近的词语作为对应词语类别下的中心词。可选的,在提取汇总结果中满足预定条件的词语作为对应该文本类别的用户评价分析结果时,所述处理器被促使:提取汇总结果中满足预定条件的名词作为对应该文本类别的用户评价分析结果。可选的,在提取汇总结果中满足预定条件的词语作为对应该文本类别的用户评价分析结果时,所述处理器被促使:计算汇总结果中各个词语在预定维度下的衡量参数;按照衡量参数从大到小的顺序对所述词语进行排序;提取排列在前N位的词语作为对应该文本类别的用户评价分析结果。可选的,所述预定维度下的衡量参数包括以下一种或多种:词频、TF-IDF。可选的,所述指定文本类别包括投诉类别。与前述用户评价的分析方法的实施例相对应,本说明书还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现以下步骤:将用户评价文本中的词语转换为对应的词向量;根据所述词向量对若干评价文本所包括的词语进行聚类,以得到每个词语所属的词语类别;将所述评价文本中的词语替换为所述词语所属词语类别下的中心词,得到所述评价文本的替换文本;采用文本分类模型对各评价文本的替换文本进行分类;对指定文本类别下的替换文本进行汇总,并提取汇总结果中满足预定条件的词语作为对应该文本类别的用户评价分析结果。可选的,所述将用户评价文本中的词语转换为对应的词向量,包括:对用户评价文本进行分词处理,以将所述评价文本划分为一个或多个词语;采用cw2vec算法将所述词语转换为对应的词向量。可选的,所述中心词的确定过程包括:将每个词语类别中距离类中心最近的词语作为对应词语类别下的中心词。可选的,所述提取汇总结果中满足预定条件的词语作为对应该文本类别的用户评价分析结果,包括:提取汇总结果中满足预定条件的名词作为对应该文本类别的用户评价分析结果。可选的,所述提取汇总结果中满足预定条件的词语作为对应该文本类别的用户评价分析结果,包括:计算汇总结果中各个词语在预定维度下的衡量参数;按照衡量参数从大到小的顺序对所述词语进行排序;提取排列在前N位的词语作为对应该文本类别的用户评价分析结果。可选的,所述预定维度下的衡量参数包括以下一种或多种:词频、TF-IDF。可选的,所述指定文本类别包括投诉类别。上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1