游戏领域的情感分析方法、装置及其模型训练方法、装置与流程

文档序号:20684610发布日期:2020-05-08 18:43阅读:303来源:国知局
游戏领域的情感分析方法、装置及其模型训练方法、装置与流程

本申请涉及语言处理技术领域,尤其是涉及一种游戏领域的情感分析方法、装置及其模型训练方法、装置。



背景技术:

文本情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。通过对文本特别是文本中的特定对象进行情感分析,可以帮助人们更有效的整理出基于相关文本的情感倾向。

目前,现有的对文本中的特定对象进行情感分析的过程,是将待分析文本和其中的特定对象作为模型的输入,将特定对象附近的形容词作为特定对象情感判断的依据,以得到文本中关于特定对象的情感倾向。

但是,该方法会导致遗漏一些特定对象之外的新出现的词汇,特别是游戏领域,经常会出现一些新词。因此,目前的情感分析方法很容易由于分析新词不准确而影响情感分析结果的准确性。



技术实现要素:

本发明的目的在于提供一种游戏领域的情感分析方法、装置及其模型训练方法、装置,以解决情感分析结果的准确性较低的技术问题。

第一方面,本申请实施例提供了一种游戏领域的情感分析方法,包括:

根据预设的游戏领域的第一数量个类别,确定待分析的游戏领域的第一文本的分词中属于第一类别的第一对象分词;

将所述第一文本中的第一对象分词替换为所述第一类别的类别分词,得到第二文本;

应用预先训练的情感分析模型,根据所述第二文本进行情感预测,得到与所述第一类别对应的情感倾向。

在一个可能的实现中,所述第一数量个类别中的每个类别对应一个对象分词聚类集合;根据预设的游戏领域的第一数量个类别,确定待分析的游戏领域的第一文本的分词中属于第一类别的第一对象分词的步骤,包括:

对所述第一文本进行分词;

将所述第一文本中的分词在所述第一数量个类别对应的所有对象分词聚类集合中进行匹配;

如果第一文本中的第一对象分词在所述第一对象分词聚类集合中匹配成功,确定所述第一对象分词属于所述第一对象分词聚类集合对应的第一类别。

在一个可能的实现中,还包括:

如果所述第一文本中的分词在所述所有对象分词聚类集合中均未匹配成功;

则根据所述所有对象分词聚类集合,以及所述第一文本中的分词进行聚类;

如果确定所述第一文本中的第一对象分词聚类到所述第一对象分词聚类集合中,则确定所述第一对象分词属于所述第一对象分词聚类集合对应的第一类别。

在一个可能的实现中,在根据预设的游戏领域的第一数量个类别,确定待分析的游戏领域的第一文本的分词中属于第一类别的第一对象分词的步骤之前,还包括:

基于词频和词性,对游戏领域的第一原始语料进行预处理,得到对象分词集合;

对所述对象分词集合按照第一数量个类别进行聚类,确定与所述第一数量个类别中的每个类别对应的对象分词聚类集合。

在一个可能的实现中,所述第一数量个类别包括:玩法、活动、职业、重要角色、道具、玩家行为、版本和战队。

在一个可能的实现中,所述预先训练的情感分析模型包括预先训练的语言模型和预先训练的分类模型;应用预先训练的情感分析模型,根据所述第二文本进行情感预测,得到与所述第一类别对应的情感倾向的步骤,包括:

应用预先训练的语言模型,将所述第二文本转换为句向量;

应用预先训练的分类模型,根据所述句向量,确定所述第一类别对应的情感倾向;其中,所述情感倾向包括正向、其他和负面。

第二方面,提供了一种游戏领域的情感分析模型训练方法,包括:

确定训练文本样本集合,所述训练文本样本集合中的每个训练文本样本对应有情感倾向标签,每个所述训练文本样本包括类别分词;

根据所述训练文本样本集合,对所述情感分析模型进行训练。

在一个可能的实现中,确定训练文本样本集合的步骤,包括:

根据预设的游戏领域的第一数量个类别对应的对象分词,对游戏领域的第二原始语料进行过滤,确定初始文本样本集合,所述初始文本样本集合中的每个初始文本样本均包括所述对象分词;

将所述初始文本样本集合中的每个初始文本样本的对象分词替换为所述对象分词对应的类别分词,得到中间文本样本集合;

根据中间文本样本集合和每个所述中间文本样本的情感倾向标签,确定训练文本样本集合。

在一个可能的实现中,所述第一数量个类别中的每个类别对应一个对象分词聚类集合;根据预设的游戏领域的第一数量个类别对应的对象分词,对游戏领域的第二原始语料进行过滤,确定初始文本样本集合的步骤,包括:

对所述第二原始语料中的每个原始文本进行分词;

将所述第二原始语料中未存在包含在所有对象分词聚类集合中,且未存在聚类到所述所有对象分词聚类集合中的分词的原始文本删除,得到初始文本样本集合。

在一个可能的实现中,根据所述训练文本样本集合,对所述情感分析模型进行训练的步骤,包括:

依次从所述训练文本样本集合中选择当前训练文本样本,进行如下步骤,直至所述情感分析模型的分析结果达到预期,输出预先训练的情感分析模型;所述预先训练的情感分析模型包括预先训练的语言模型和预先训练的分类模型;

将所述当前训练文本样本和所述当前训练文本样本的当前类别分词输入所述预先训练的语言模型中,输出所述当前训练文本样本的第一句向量和所述当前类别分词的第二句向量;

将所述第一句向量和所述第二句向量输入分类模型中,得到初步情感倾向;

基于所述初步情感倾向和所述当前训练文本样本对应的当前情感倾向标签,以最小化所述初步情感倾向与所述当前情感倾向标签之间的差距为目标,对所述预先训练的语言模型和所述分类模型进行优化,将优化后的语言模型和分类模型,作为新的情感分析模型继续进行训练。

在一个可能的实现中,所述情感倾向标签包括正向、其他和负面。

第三方面,本申请实施例又提供了一种游戏领域的情感分析装置,包括:

确定模块,用于根据预设的游戏领域的第一数量个类别,确定待分析的游戏领域的第一文本的分词中属于第一类别的第一对象分词;

替换模块,用于将所述第一文本中的第一对象分词替换为所述第一类别的类别分词,得到第二文本;

预测模块,用于应用预先训练的情感分析模型,根据所述第二文本进行情感预测,得到与所述第一类别对应的情感倾向。

第四方面,本申请实施例又提供了一种游戏领域的情感分析模型训练装置,包括:

确定单元,用于确定训练文本样本集合,所述训练文本样本集合中的每个训练文本样本对应有情感倾向标签,每个所述训练文本样本包括类别分词;

训练单元,用于根据所述训练文本样本集合,对所述情感分析模型进行训练。

第五方面,本申请实施例又提供了一种计算机设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的第一方面或第二方面所述方法。

第六方面,本申请实施例又提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述的第一方面或第二方面所述方法。

本申请实施例带来了以下有益效果:

本申请实施例提供的一种游戏领域的情感分析方法、装置及其模型训练方法、装置,能够根据预设的游戏领域的第一数量个类别,确定待分析的游戏领域的第一文本的分词中属于第一类别的第一对象分词,然后,将该第一文本中的第一对象分词替换为所述第一类别的类别分词从而得到第二文本,最后,应用预先训练的情感分析模型,根据所述第二文本进行情感预测从而得到与所述第一类别对应的情感倾向,通过确定对象分词所属的类别分词,针对该对象分词所属的类别分词而进行情感分析,在面对未出现过的新的对象分词时也能够进行情感分析,以更好的利用已有数据提升通用性,提高对于对象分词在文本中的情感分析的准确性。

为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的游戏领域的情感分析方法的流程图;

图2为本申请实施例提供的游戏领域的情感分析模型训练方法的流程图;

图3为本申请实施例提供的游戏领域的情感分析模型训练方法的另一流程图;

图4为本申请实施例提供的游戏领域的情感分析装置的结构示意图;

图5为本申请实施例提供的游戏领域的情感分析模型训练装置的结构示意图;

图6为示出了本申请实施例所提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请实施例中所提到的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括其他没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

互联网高速发展带来的是日益丰富的网络文本评论数据,通过对这些网络文本评论数据的情感分类,可以帮助相关人士更好的整理出基于相关文本的情感倾向。情感分析是自然语言处理(naturallanguageprocess,nlp)的一个主要的分类分析任务。情感分析任务即对网络评论文本进行编码,然后将编码结果根据标注数据标准对评论文本分类处理。情感分析任务可以通过分类算法进行文本情感分类识别,还可以根据预训练的语言模型(bidirectionalencoderrepresentationfromtransformers,bert)对分类任务进行小幅度的微调进行分类识别。

在对评论数据的情感分析结果需要较高的准确率同时,还需要通过更加细粒度的情感分析方式,针对评论数据中的特定对象进行情感倾向的识别。现有的细粒度情感分析方式,只考虑特定对象附近的形容词作为特定对象情感判断的依据,考虑现有网络文本的特殊性,在网络文本中直接依据词性寻找特定形容词,容易遗漏大部分新出现的网络形容词汇,例如,“你真是个弟弟”,现有分词器并无法得到弟弟在当前语境下为形容词。

目前,利用神经网络方法的现有技术,大多建立在分词的基础上,考虑到网络文本的特殊性,非常容易出现一些新词,容易造成因为分词不准导致最后的准确性不高的问题。例如,“玩这个游戏,我感觉慌的一笔”,分词器在遇到新词“慌的一笔”时,并无法将之识别成一个完整词,从而导致对游戏这个对象的情感倾向性判断有误。

对评论文本的词向量和特定对象通过神经网络建模后进行细粒度情感分析,面对未出现在训练语料中的特定对象,则泛化效果表现较差。考虑网络通用文本的发散性,通过有限语料进行训练,很容易造成细粒度的情感分析准确率不高。

因此,利用目前的神经网络方法目前训练大多只是针对于通用的文本中的特定对象,模型在面对未出现在训练集中的特定对象时,由于不同的分析对象会造成网络文本的语言风格和结构不同,容易出现准确率不高,模型泛化能力不强的特性。

再者,目前的神经网络方法也无法解决形容词与特定对象的长距离依赖问题。通过规则的方式只考虑特定对象附近的形容词作为特定对象情感判断,只考虑特定对象附近的形容词,无法解决形容词与特定对象的长距离依赖问题,例如,“这个餐厅饭菜不错服务还有待提高”。针对对象为“服务”时,显示最近的形容词为“不错”,从而判定为正向,但是实际上针对对象为“服务”真正的情感倾向为负面。

因此,通过该方法只考虑了特定对象附近的形容词作为特定对象情感判断的依据,当该形容词为正向形容词时则表示对特定对象也是正向情感,若该形容词为负向,则代表对特定对象也是负向情感。这样会使情感分析预测结果的准确性较低。

本申请实施例提供了一种游戏领域的情感分析方法、装置及其模型训练方法、装置,通过该方法可以解决情感分析结果的准确性较低的技术问题。

下面结合附图对本发明实施例进行进一步地介绍。

图1为本申请实施例提供的一种游戏领域的情感分析方法的流程示意图。如图1所示,该方法包括:

s110,根据预设的游戏领域的第一数量个类别,确定待分析的游戏领域的第一文本的分词中属于第一类别的第一对象分词。

其中,文本可以分为对象分词和属性分词,例如,对象分词可以为“法师”,属性分词为“难玩”。

待分析的游戏领域的第一文本可以为收集到的与多个游戏相关的网络文本。例如,贴吧、微博、游戏官网论坛等与游戏相关的帖子和回复等评论文本。

对象分词可以为通过相关算法对该网络文本进行处理后得到的网络文本中常见的关注对象的分词。本申请实施例中,这些常见的对象分词可以分成第一数量个类别,以适应多个游戏具体细分的不同对象,增强本申请实施例提供的情感分析方法的通用性。

s120,将第一文本中的第一对象分词替换为第一类别的类别分词,得到第二文本。

类别分词是表示上述对象分词的类型的词,例如,可以为“玩法”、“活动”、“职业”、“重要角色”、“道具”、“玩家行为”、“版本”、“战队”。

再例如,类别分词“职业”中可以包括的对象分词可以有“法师”、“战士”、“道士”、“铁衣”、“血河”等隶属于职业的对象分词。

s130,应用预先训练的情感分析模型,根据第二文本进行情感预测,得到与第一类别对应的情感倾向。

本步骤中,将第二文本输入至预先训练好的情感分析模型中,能够输出第一文本对这个对象分词的类别的相关情感倾向。

由于同属于一个类别分词的对象分词所处的网络文本的语义风格和句式相似性较大,本步骤中,可以直接针对对象分词所属的类别分词进行针对性的情感分析,以使本申请实施例提供的情感分析方法具有更强的通用性。

现有的利用神经网络对文本进行细粒度情感分析的过程,是将文本和特定对象作为模型的输入,考虑特定对象附近的形容词作为特定对象情感判断的依据,根据下游网络进行相关权重处理之后得到关于特定对象的情感倾向。但是,该方法只建立在固有的对象分词的基础上,仅考虑了固有特定对象,在网络文本中直接依据特定对象寻找特定形容词,容易遗漏大部分新出现的网络词汇。然而由于网络文本的发散性,又非常容易出现一些固有特定对象之外的新词汇,面对未出现在固有特定对象中的对象新词,容易造成因为分析新词不准确而导致情感分析结果的准确性较低。

本申请实施例中,不同于以往只对特定对象本身进行分析,而是通过确定各个对象分词所属的类别分词,针对该对象分词所属的类别分词而进行相关的细粒度情感分析,因此,在面对未出现过的新的对象分词时也能够进行细粒度情感分析,以更好的利用已有数据提升通用性,提高关于对象分词的情感分析的准确性和鲁棒性。

下面对上述步骤进行详细介绍。

在一些实施例中,可以先通过匹配的过程判断待分析的网络文本中是否包含第一数量类别中的对象分词。作为一个示例,第一数量个类别中的每个类别对应一个对象分词聚类集合;上述步骤s110可以包括如下步骤:

步骤a,对第一文本进行分词。

步骤b,将第一文本中的分词在第一数量个类别对应的所有对象分词聚类集合中进行匹配。

步骤c,如果第一文本中的第一对象分词在第一对象分词聚类集合中匹配成功,确定第一对象分词属于第一对象分词聚类集合对应的第一类别。

对于上述步骤b,其中的匹配过程可以是对每个对象分词进行匹配,也可以是对全部的分词进行匹配。

本申请实施例中,首先对待分析网络文本进行筛选和提取特定对象,通过匹配的过程,检查该网络文本中是否包含对象分词聚类集合中的含对象分词。若包含特定对象,则确定该对象分词所属的对象分词聚类集合所对应的类别,并将该网络文本中的对象分词替换成其对应的类别分词后,将替换后的文本作为后续的情感分析模型的输入。

通过预先的匹配过程,能够判断出待分析的网络文本中是否包含第一数量类别中的对象分词,便于在包含的情况下能够更加有效的确定出该对象分词所属的类别。

在一些实施例中,对象分词并不需要被预设成某几个特定的对象,只需要满足在预设的类别中即可。作为一个示例,该方法还可以包括以下步骤:

步骤e,如果第一文本中的分词在所有对象分词聚类集合中均未匹配成功,则根据所有对象分词聚类集合,以及第一文本中的分词进行聚类。

步骤f,如果确定第一文本中的第一对象分词聚类到第一对象分词聚类集合中,则确定第一对象分词属于第一对象分词聚类集合对应的第一类别。

如果待分析的文本中不包含第一数量类别中的对象分词时,可以在待分析的文本中,通过聚类的过程确定出该文本中的分词所属的类别,以使对象分词不限于固有的对象分词聚类集合,能够使第一数量个类别中的对象分词更加的宽泛,以满足游戏领域的情感分析方法的通用性。

在一些实施例中,可以预先对收集到的对象分词进行分类从而得到每个类别对应的对象分词聚类集合。作为一个示例,上述步骤s110之前,该方法还可以包括以下步骤:

步骤g,基于词频和词性,对游戏领域的第一原始语料进行预处理,得到对象分词集合。

步骤h,对对象分词集合按照第一数量个类别进行聚类,确定与第一数量个类别中的每个类别对应的对象分词聚类集合。

在实际应用中,可以先对全网各个与游戏相关的渠道的数据进行收集,例如,游戏领域中常见的评论对象,以对其进行相关抽象聚类分析。

示例性的,利用bytepairencoder字节对编码算法,对收集到的相关数据进行分析,从而得到若干个高频的词汇,再利用词汇的词性,保留名词和一些新词,进行初步的清理。之后,再进行筛选,经过筛选之后的对象可以确定是游戏领域评论经常关心的特定对象集合。在得到特定对象集合之后,利用聚类算法,将游戏领域中常见特定对象的集合抽象成八个类别,即玩法、活动、职业、重要角色、道具、玩家行为、版本以及战队。每个类别下面都会细分的特定对象,例如职业的类别包含:法师、战士、道士、铁衣、血河等分词。

通过在对待分析的第一文本进行情感分析之前,先对预先收集到第一原始语料中的对象分词进行分类,从而得到第一数量个类别,以及每个类别对应的对象分词聚类集合,能够在情感分析过程中直接利用该对象分词聚类集合,快速的确定出待分析的第一文本中的分词所述的类别,以提高情感分析过程的效率。

在一些实施例中,可以确定游戏领域的类别分词的内容。基于此,第一数量个类别包括:玩法、活动、职业、重要角色、道具、玩家行为、版本和战队。

通过玩法、活动、职业、重要角色、道具、玩家行为、版本和战队等游戏领域中的类别,可以使情感分析过程更加具有针对性,以针对这些类别分析出更加准确的情感倾向。

在一些实施例中,可以分别利用语言模型和分类模型进行情感分析。作为一个示例,预先训练的情感分析模型包括预先训练的语言模型和预先训练的分类模型;上述步骤s130可以包括如下步骤:

步骤i,应用预先训练的语言模型,将第二文本转换为句向量。

步骤j,应用预先训练的分类模型,根据句向量,确定第一类别对应的情感倾向。

其中,情感倾向包括正向、其他和负面。

在实际应用中,将步骤s120中得到的第二文本作为预先训练的语言模型的输入,输出句向量,在将该句向量作为预先训练的分类模型的输入,进行细粒度情感倾向的分析预测,输出正向、其他或负面的情感倾向及其概率,取这三种情感倾向概率最大的情感作为第一文本的情感返回至用户端。

通过预先训练的语言模型以及预先训练的分类模型,能够更加系统化的进行细粒度情感倾向的分析预测的过程,以得到更加准确的情感倾向分析结果。

图2为本申请实施例提供的一种游戏领域的情感分析模型训练方法的流程示意图。如图2所示,该方法包括:

s210,确定训练文本样本集合。

其中,训练文本样本集合中的每个训练文本样本对应有情感倾向标签,每个训练文本样本包括类别分词。例如,可以从网络中收集包括类别分词的评论文本,可以通过人工对评论文本中的特定对象进行相关情感倾向的标注,如正面情感倾向、其他情感倾向、负面情感倾向等。

s220,根据训练文本样本集合,对情感分析模型进行训练。

情感分析模型可以为初始的情感分析模型。本申请实施例中,可以针对对象分词所属的类别训练初始情感分析模型,例如,利用收集得到的包括类别分词的语料进行训练。

由于同属于一个类别分词的对象分词所处的网络文本的语义风格和句式相似性较大,为了使情感分析模型更通用以及更好的利用已有数据,本申请实施例中的情感分析模型直接针对对象分词所属的类别进行更具针对性的情感分析。

对于现有技术而言,目前利用神经网络的训练方法仅通过有限的语料进行训练,只是针对于通用的文本中的特定对象,模型在面对未出现在训练集中的特定对象时,由于不同的分析对象会造成网络文本的语言风格和结构不同,容易出现准确率不高,模型泛化能力不强的问题,导致泛化效果表现较差。

通过在神经网络的底层结构上,不使用传统的依赖词向量拼接形成句向量的模式,而是利用预训练语言模型的泛化性,先利用游戏外的相关评论文本对情感分析模型进行预训练,再在情感分析模型底层对文本和特定对象所属的类别作为分析的基准单元,通过针对特定对象所属类别的情感分析模型的训练过程,考虑到了网络文本容易出现网络新词的特点,增强了情感分析模型的通用性和鲁棒性。

下面对上述步骤进行详细介绍。

在一些实施例中,可以将替换成对象分词对应的类别分词后的样本,作为训练文本样本集合。作为一个示例,上述步骤s210可以包括如下步骤:

步骤k,根据预设的游戏领域的第一数量个类别对应的对象分词,对游戏领域的第二原始语料进行过滤,确定初始文本样本集合;初始文本样本集合中的每个初始文本样本均包括对象分词。

步骤m,将初始文本样本集合中的每个初始文本样本的对象分词替换为对象分词对应的类别分词,得到中间文本样本集合。

步骤n,根据中间文本样本集合和每个中间文本样本的情感倾向标签,确定训练文本样本集合。

在实际应用中,可以收集游戏网络评论数据,对收集到的网络评论数据进行相关过滤,只保留其中包含特定对象的评论数据。由于即便是同一个特定对象在不同类型的游戏中,可能代表的具体类别也是不同的。所以,在标注情感倾向标签之前就先将网络评论数据中的特定对象用它对应的具体类别来替换。

示例性的,在标注过程中,可以只考虑这条网络文本和特定类别之间的情感倾向关系,其中,情感倾向可以分为正面、其他和负面。例如,最终使用的训练文本样本集合如下表所示:

本申请实施例中,将替换成对象分词对应的类别分词后的样本,作为训练文本样本集合,能够是模型在训练过程中更加针对对象分词对应的类别,而不是对象分词本身,以增强情感分析模型的泛化性和通用性。

在一些实施例中,可以只保留训练样本中包含特定对象的,或能够聚类到所有对象分词聚类集合中的评论数据。作为一个示例,第一数量个类别中的每个类别对应一个对象分词聚类集合;上述步骤k可以包括如下步骤:

步骤o,对第二原始语料中的每个原始文本进行分词;

步骤p,将第二原始语料中未存在包含在所有对象分词聚类集合中,且未存在聚类到所有对象分词聚类集合中的分词的原始文本删除,得到初始文本样本集合。

在实际应用中,对收集到的网络评论数据等文本进行相关过滤,将其中未存在包含在所有对象分词聚类集合中,且未存在聚类到所有对象分词聚类集合中的分词的原始文本进行删除,只保留其中包含对象分词聚类集合中的对象分词的文本,或能够聚类到所有对象分词聚类集合中的分词的原始文本。

通过过滤掉既不包含对象分词聚类集合中的对象分词,也无法聚类到所有对象分词聚类集合中的文本,能够保证得到的文本样本集合中的分词,能够被分类到对象分词聚类集合对应的类别分词中,避免后续分析过程中,由于无法确定类别而影响分析过程的效率。

在一些实施例中,如图3所示,可以通过训练语言模型和分类模型,得到最终的情感分析模型。作为一个示例,预先训练的情感分析模型包括预先训练的语言模型和预先训练的分类模型,上述步骤s220可以包括如下步骤:

步骤q,依次从训练文本样本集合中选择当前训练文本样本,进行如图3所示的如下步骤r、步骤s以及步骤t,直至情感分析模型的分析结果达到预期,输出预先训练的情感分析模型。

步骤r,将当前训练文本样本和当前训练文本样本的当前类别分词输入预先训练的语言模型中,输出当前训练文本样本的第一句向量和当前类别分词的第二句向量。

步骤s,将第一句向量和第二句向量输入分类模型中,得到初步情感倾向。

步骤t,基于初步情感倾向与当前训练样本对应的当前情感倾向标签,以最小化初步情感倾向与当前情感倾向标签之间的差距为目标,对预先训练的语言模型和分类模型进行优化,将优化后的语言模型和分类模型,作为新的情感分析模型继续进行训练。

需要说明的是,对于上述步骤s,其中的初步情感倾向为分类模型预测出的情感倾向。

对于上述步骤t,示例性的,可以先基于初步情感倾向与当前训练样本对应的当前情感倾向标签,判断分类模型的分析结果是否达到预期;如果未达到预期,基于初步情感倾向以及当前情感倾向标签,优化预先训练的语言模型和分类模型,将优化后的预先训练的语言模型和优化后的分类模型,作为新的情感分析模型继续进行训练;如果达到预期,则直接将预先训练的语言模型和分类模型,作为最终的预先训练的情感分析模型。

本申请实施例中,可以根据步骤s210中的带情感倾向标签的训练文本样本集合,进行细粒度情感分析模型的训练。其中,训练文本样本可以是包含对象分词的原始的网络文本,训练文本样本还可以包含对象分词对应的具体类别,以根据包括类别分词的训练文本样本进行更具有类别针对性的模型训练。利用这些训练文本样本,通过对语言模型和分类模型进行优化,能够更加系统化的执行训练过程,以得到更加精确的模型参数,使最终得到的情感分析模型中参数的精确度更高。

需要说明的是,预先训练的语言模型可以是现有的预先训练好的语言模型,本申请实施例中,可以只对该模型进行微调。下面以预先训练的语言模型为预训练bert语言模型为例进行说明。

在实际应用中,bert语言模型有十二层,嵌入向量维度为768维,其神经网络dropout参数为0.1。训练时bert语言模型的输入以中文字符为单位,以遮蔽语言模型(maskedlanguagemodel)作为训练目标,得到相关的语言模型的参数。在使用时,将预先训练的bert语言模型的最后一层的输出向量作为输入字符所表示的句向量。

接下来,将网络文本在经过预先训练的语言模型得到的最后一层输出作为网络文本的第一句向量。例如,当输入文本为“这个时装好玩”时,在经过这个预先训练的语言模型之后,将该模型的最后一层纬度为(128,768)的向量作为输入文本为“这个时装好玩”的第一句向量。

再者,将特定类别在经过预训练的语言模型得到的最后一层输出作为特定类别的第二句向量。预先训练的语言模型可以实现传统词向量方式没法解决的一词多义问题,且由于预先训练的语言模型的语料远大于细粒度情感分析的训练语料,可以给后续的分类模型带来更好的初始化,从而可以更好、更完整的表示文本的句义。

然后,利用上述过程中得到的第一句向量和第二句向量,通过预先训练的分类模型,基于两个句向量之间的相互权重影响,根据情感倾向标签对预先训练的语言模型进行微调,并对预先训练的分类模型进行优化训练,其中,训练损失使用交叉熵。训练直至损失收敛,则将训练好的语言模型和分类模型作为最终的细粒度情感分析模型。

本申请实施例中,在模型底层采用以字为对象对句子和特定对象作为分析的基准单元,不同于现有的以词为单位的分析方法,以字为单位可以更好的避免由于分词导致的错误累计的问题。

再者,通过对预先训练的语言模型进行训练,能够为后续的分类模型提供更好的初始化过程,从而可以更好、更完整的表示文本的句义,通过对预先训练的分类模型进行训练,能够使最终得到的情感分析模型更加的符合文本准确的情感倾向。

在一些实施例中,可以将情感倾向分为三个方面。基于此,情感倾向标签可以包括正向、其他和负面。以使文本的情感倾向的分析结果更加明确,便于快速的分辨出真实的情感倾向。

图4提供了一种游戏领域的情感分析装置的结构示意图。如图4所示,游戏领域的情感分析装置400包括:

第一确定模块401,用于根据预设的游戏领域的第一数量个类别,确定待分析的游戏领域的第一文本的分词中属于第一类别的第一对象分词;

替换模块402,用于将第一文本中的第一对象分词替换为第一类别的类别分词,得到第二文本;

预测模块403,用于应用预先训练的情感分析模型,根据第二文本进行情感预测,得到与第一类别对应的情感倾向。

在一些实施例中,第一数量个类别中的每个类别对应一个对象分词聚类集合;第一确定模块401具体用于:

对第一文本进行分词;

将第一文本中的分词在第一数量个类别对应的所有对象分词聚类集合中进行匹配;

如果第一文本中的第一对象分词在第一对象分词聚类集合中匹配成功,确定第一对象分词属于第一对象分词聚类集合对应的第一类别。

在一些实施例中,该装置还包括:

聚类模块,用于如果第一文本中的分词在所有对象分词聚类集合中均未匹配成功,则根据所有对象分词聚类集合,以及第一文本中的分词进行聚类;

第二确定模块,用于如果确定第一文本中的第一对象分词聚类到第一对象分词聚类集合中,则确定第一对象分词属于第一对象分词聚类集合对应的第一类别。

在一些实施例中,该装置还包括:

预处理模块,用于基于词频和词性,对游戏领域的第一原始语料进行预处理,得到对象分词集合;

第三确定模块,用于对对象分词集合按照第一数量个类别进行聚类,确定与第一数量个类别中的每个类别对应的对象分词聚类集合。

在一些实施例中,第一数量个类别包括:玩法、活动、职业、重要角色、道具、玩家行为、版本和战队。

在一些实施例中,预先训练的情感分析模型包括预先训练的语言模型和预先训练的分类模型;预测模块403具体用于:

应用预先训练的语言模型,将第二文本转换为句向量;

应用预先训练的分类模型,根据句向量,确定第一类别对应的情感倾向;其中,情感倾向包括正向、其他和负面。

本申请实施例提供的游戏领域的情感分析装置,与上述实施例提供的游戏领域的情感分析方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。

图5提供了一种游戏领域的情感分析模型训练装置的结构示意图。如图5所示,游戏领域的情感分析模型训练装置500包括:

确定单元501,用于确定训练文本样本集合,训练文本样本集合中的每个训练文本样本对应有情感倾向标签,每个训练文本样本包括类别分词;

训练单元502,用于根据训练文本样本集合,对情感分析模型进行训练。

在一些实施例中,确定单元501具体用于:

根据预设的游戏领域的第一数量个类别对应的对象分词,对游戏领域的第二原始语料进行过滤,确定初始文本样本集合,初始文本样本集合中的每个初始文本样本均包括对象分词;

将初始文本样本集合中的每个初始文本样本的对象分词替换为对象分词对应的类别分词,得到中间文本样本集合;

根据中间文本样本集合和每个中间文本样本的情感倾向标签,确定训练文本样本集合。

在一些实施例中,第一数量个类别中的每个类别对应一个对象分词聚类集合;确定单元501还用于:

对第二原始语料中的每个原始文本进行分词;

将第二原始语料中未存在包含在所有对象分词聚类集合中,且未存在聚类到所有对象分词聚类集合中的分词的原始文本删除,得到初始文本样本集合。

在一些实施例中,训练单元502具体用于:

依次从训练文本样本集合中选择当前训练文本样本,进行如下步骤,直至情感分析模型的分析结果达到预期,输出预先训练的情感分析模型;预先训练的情感分析模型包括预先训练的语言模型和预先训练的分类模型;

将当前训练文本样本和当前训练文本样本的当前类别分词输入预先训练的语言模型中,输出当前训练文本样本的第一句向量和当前类别分词的第二句向量;

将第一句向量和第二句向量输入分类模型中,得到初步情感倾向;

基于初步情感倾向和当前训练文本样本对应的当前情感倾向标签,以最小化初步情感倾向与当前情感倾向标签之间的差距为目标,对预先训练的语言模型和分类模型进行优化,将优化后的语言模型和分类模型,作为新的情感分析模型继续进行训练。

在一些实施例中,情感倾向标签包括正向、其他和负面。

本申请实施例提供的游戏领域的情感分析模型训练装置,与上述实施例提供的游戏领域的情感分析模型训练方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。

如图6所示,本申请实施例提供的一种计算机设备600,包括:处理器601、存储器602和总线,所述存储器602存储有所述处理器601可执行的机器可读指令,当计算机设备运行时,所述处理器601与所述存储器602之间通过总线通信,所述处理器601执行所述机器可读指令,以执行如上述游戏领域的情感分析方法或游戏领域的情感分析模型训练方法的步骤。

具体地,上述存储器602和处理器601能够为通用的存储器和处理器,这里不做具体限定,当处理器601运行存储器602存储的计算机程序时,能够执行上述游戏领域的情感分析方法或游戏领域的情感分析模型训练方法。

对应于上述游戏领域的情感分析方法或游戏领域的情感分析模型训练方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有机器可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行上述游戏领域的情感分析方法或游戏领域的情感分析模型训练方法的步骤。

本申请实施例所提供的游戏领域的情感分析装置或游戏领域的情感分析模型训练装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述移动控制方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1