游戏中异常文本识别方法、装置、设备以及存储介质与流程

文档序号：29122306发布日期：2022-03-04 22:36阅读：178来源：国知局

1.本发明涉及计算机技术领域，尤其涉及一种游戏中异常文本识别方法、装置、设备以及存储介质。

背景技术：

2.目前，当前mmorpg(massive multiplayer online role-playing game，大型角色扮演类网游)中，玩家对游戏的舆情信息，对游戏的运营与研发起到了相当重要的作用。
3.当前网络游戏中主要通过人工进行舆情信息收集，如运营人员在社交媒体中观察、收集玩家对游戏的评论，客服人员对玩家的反馈与问题进行收集等。这种方式收集到的信息虽然具针对度强、准确度高的特征，但是收集效率过于低下，且对人力的支出较大，不利于大规模的信息收集与分析。

技术实现要素：

4.本发明实施例提供了一种游戏中异常文本识别方法、装置、设备以及存储介质，能够有效地改善上述问题。
5.第一方面，本发明实施例提供了一种游戏中异常文本识别方法，所述方法包括：
6.获取玩家在游戏聊天频道中输出的聊天消息文本；
7.提取所述聊天消息文本中的目标关键词；
8.调用预先构建的游戏舆情文本画像，对所述目标关键词进行异常识别，其中，所述游戏舆情文本画像的构建过程包括：获取历史时间段内玩家在游戏聊天频道中的聊天消息文本集，提取所述聊天消息文本集中的游戏舆情关键词，得到游戏舆情关键词结构数据，基于所述关键词结构数据构建所述游戏舆情文本画像；
9.根据所述目标关键词的异常识别结果以及所述聊天消息文本对应的游戏环境，确定所述聊天消息文本是否存在异常。
10.进一步地，所述获取玩家在游戏聊天频道中输出的聊天消息文本，包括：
11.从游戏聊天频道获取玩家的原始聊天消息；
12.对所述原始聊天消息中涉及的玩家隐私信息进行数据脱敏处理；
13.基于经过所述数据脱敏处理后得到的聊天消息，以玩家为单位构建结构化聊天数据，所述结构化聊天数据包括：该玩家在游戏聊天频道输出的聊天消息文本。
14.进一步地，所述提取所述聊天消息文本中的目标关键词，包括：
15.基于预设词典，对所述聊天消息文本进行分词，其中，所述预设词典包括游戏环境中使用频次超过预设频次的多个词语；
16.从所述聊天消息文本的分词结果中确定所述目标关键词。
17.进一步地，所述得到游戏舆情关键词结构数据，基于所述关键词结构数据构建所述游戏舆情文本画像，包括：
18.以玩家为单位，对所提取的游戏舆情关键词进行划分，得到每个玩家对应的游戏
舆情关键词结构数据；
19.针对所述每个玩家，根据游戏舆情关键词结构数据，构建玩家文本画像。
20.进一步地，所述根据游戏舆情关键词结构数据，构建玩家文本画像，包括：
21.确定每个玩家对应的关键词结构数据中每个游戏舆情关键词的出现频次；
22.将所述关键词结构数据中的每个游戏舆情关键词与各自的所述出现频次对应存储，构成所述玩家文本画像。
23.进一步地，所述得到游戏舆情关键词结构数据，基于所述关键词结构数据构建所述游戏舆情文本画像，包括：
24.以服务器为单位，对所提取的游戏舆情关键词进行划分，得到每个服务器对应的游戏舆情关键词结构数据；
25.针对所述每个服务器，根据游戏舆情关键词结构数据，构建服务器文本画像，所述服务器文本画像用于对该服务器中所有玩家进行舆情信息分析。
26.进一步地，所述根据游戏舆情关键词结构数据，构建服务器文本画像，包括：
27.确定每个服务器对应的关键词结构数据中每个游戏舆情关键词的出现频次；
28.将所述关键词结构数据中的每个游戏舆情关键词与各自的所述出现频次对应存储，构成所述服务器文本画像。
29.进一步地，所述游戏舆情文本画像包括多个游戏舆情关键词以及各自对应的出现频次，所述调用预先构建的游戏舆情文本画像，对所述目标关键词进行异常识别，包括：
30.若所述游戏舆情文本画像中存在所述目标关键词，则基于所述目标关键词在所述游戏舆情文本画像中对应的出现频次以及所述游戏舆情文本画像中每个游戏舆情关键词的出现频次，对所述目标关键词进行异常识别；
31.若所述游戏舆情文本画像中不存在所述目标关键词，则判定所述目标关键词不存在异常。
32.进一步地，所述基于所述目标关键词在所述游戏舆情文本画像中对应的出现频次以及所述游戏舆情文本画像中每个游戏舆情关键词的出现频次，对所述目标关键词进行异常识别，包括：
33.基于所述游戏舆情文本画像中每个游戏舆情关键词的出现频次，得到所述游戏舆情文本画像中关键词的平均频次；
34.若所述目标关键词在所述游戏舆情文本画像中对应的出现频次大于或等于所述平均频次，则判定所述目标关键词不存在异常；
35.若所述目标关键词在所述游戏舆情文本画像中对应的出现频次小于所述平均频次，则确定所述目标关键词的异常分值。
36.进一步地，所述确定所述目标关键词的异常分值，包括：
37.基于所述目标关键词在所述游戏舆情文本画像中对应的出现频次，以及所述游戏舆情文本画像包含的游戏舆情关键词数量，得到所述目标关键词的异常分值。
38.进一步地，所述根据所述目标关键词的异常识别结果以及所述聊天消息文本对应的游戏环境，确定所述聊天消息文本是否存在异常，包括：
39.基于所述聊天消息文本对应的游戏环境，确定异常评判阈值；
40.基于所述异常识别结果中的异常分值以及所述异常评判阈值，确定所述聊天消息
文本是否存在异常。
41.进一步地，所述基于所述聊天消息文本对应的游戏环境，确定异常评判阈值，包括：
42.基于聊天消息文本对应的游戏环境的版本更新时间和/或所述游戏环境所在服务器的开设时长，确定异常评判阈值。
43.进一步地，基于所述异常识别结果中的异常分值以及所述异常评判阈值，确定所述聊天消息文本是否存在异常，包括：
44.对预设时间窗口内得到的异常识别结果中的异常分值进行归一化处理；
45.对归一化处理后的异常分值从低到高进行排序，确定所述目标关键词的异常分值对应的百分位数；
46.若所述百分位数超过所述异常评判阈值，则判定所述聊天消息文本存在异常。
47.第二方面，本发明实施例提供了一种游戏中异常文本识别装置，所述装置包括：
48.消息获取模块，用于获取玩家在游戏聊天频道中输出的聊天消息文本；
49.关键词提取模块，用于提取所述聊天消息文本中的目标关键词；
50.识别模块，用于调用预先构建的游戏舆情文本画像，对所述目标关键词进行异常识别，其中，所述游戏舆情文本画像的构建过程包括：获取历史时间段内玩家在游戏聊天频道中的聊天消息文本集，提取所述聊天消息文本集中的游戏舆情关键词，得到游戏舆情关键词结构数据，基于所述关键词结构数据构建所述游戏舆情文本画像；
51.确定模块，用于根据所述目标关键词的异常识别结果以及所述聊天消息文本对应的游戏环境，确定所述聊天消息文本是否存在异常。
52.第三方面，本发明实施例提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述第一方面提供的游戏中异常文本识别方法的步骤。
53.第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述第一方面提供的游戏中异常文本识别方法的步骤。
54.本发明实施例提供的游戏中异常文本识别方法，通过预先获取历史时间段内玩家在游戏聊天频道中的聊天消息文本集，提取聊天消息文本集中的游戏舆情关键词，得到游戏舆情关键词结构数据，基于关键词结构数据构建游戏舆情文本画像，从而调用游戏舆情文本画像对新进聊天消息文本中的目标关键词进行异常识别，进而根据异常识别结果以及聊天消息文本对应的游戏环境，确定聊天消息文本是否存在异常。该技术方案通过提取游戏内社交环境当中，由玩家所产出的聊天消息构建游戏舆情文本画像，结合游戏内舆情所处的当前游戏环境，对游戏内舆情进行异常分析，适用于复杂游戏环境下，游戏中舆论的准确分析，并减少了人工对游戏舆论环境的监控，有利于提高对游戏舆情信息的分析效率。
55.上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。
附图说明
56.通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通
技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：
57.图1示出了本说明书实施例提供的游戏中异常文本识别方法的流程图；
58.图2示出了本说明书实施例中文本画像构建过程的流程图；
59.图3示出了本说明书实施例提供的游戏中异常文本识别装置的模块框图；
60.图4示出了本说明书实施例中一种示例性电子设备的结构示意图。
具体实施方式
61.下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。
62.第一方面，本说明书实施例提供了一种游戏中异常文本识别方法，如图1所示，该方法至少可以包括以下步骤s101至步骤s104。
63.步骤s101，获取玩家在游戏聊天频道中输出的聊天消息文本。
64.为了使得网络游戏具有社群特性，游戏内通常设置有聊天系统，玩家可以通过聊天系统中的各类聊天频道与其他玩家进行通信。例如，玩家可以在世界聊天频道发言，同服务器的其他玩家都可以看到发言消息。又例如，玩家可以在组队成功后，在队伍聊天频道中与队伍中的其他成员聊天。
65.基于此，可以将玩家在游戏中能够接触到的文本内容输出频道分为公共频道与隐私频道两种类型。其中，公共频道指在游戏环境中，任何玩家都可以获取其中消息的频道，即所有内容为对所有玩家公开。隐私频道指在游戏环境中，并不是任何玩家都可以获取其中消息的频道，即并非所有内容均对所有玩家公开。例如，公共频道可以包括但不限于世界频道、阵营频道、地区频道和当前频道；隐私频道可以包括但不限于军团频道、结义频道、队伍频道和密语频道。
66.在一种可选的实施方式中，可以将游戏各聊天频道中所有玩家输出的原始聊天消息，按预设分类规则进行分类获取，得到原始聊天消息集合d
raw
。例如，预设分类规则可以如表1所示。
67.表1
[0068][0069]
例如，按照上述示例性的分类规则，原始聊天消息集合d
raw
的结构可以表示为：d
raw
＝{d1,d2,
…
,d8}。其中，子集di为编号为i频道的原始聊天消息，具体结构可以表示为：
[0070]di
＝{chatdata1,chatdata2,
…
,chatdataj}，其中，j＝1，2，3，
…
[0071]
其中，chatdataj为本频道中第j条聊天消息，聊天消息可以包括：发言时间戳，发言角色昵称以及消息文本即发言内容。例如，chatdataj的结构可以表示为：
[0072]
chatdataj＝《timestamp,name,content》
[0073]
其中，timestamp表示发言时间戳；name表示发言角色昵称；content表示消息文本。
[0074]
在获取到原始聊天消息后，为了方便进一步聊天消息文本进行分析，需要先对原始聊天消息进行预处理，具体预处理过程可以根据实际需要设置。下面主要列举了三种预处理过程进行说明，在具体实施过程中，还可以根据需要设置其他预处理过程。
[0075]
第一种，转码处理。在游戏内消息均为特殊编码存储的情况下，若获取到的原始聊天消息为特殊编码，则需要对获取到的原始聊天消息进行转码处理，将原始聊天消息转换成明文自然语言。
[0076]
第二种，数据脱敏处理。考虑到消息明文内容中包含大量玩家个人信息，为了保护玩家隐私，需要对原始聊天消息中涉及的玩家隐私信息进行数据脱敏处理。例如，玩家隐私信息可以包括原始聊天消息中包含的玩家角色昵称。或者，除了玩家角色昵称以外，玩家隐私信息还可以包括玩家角色昵称对应的账号关联信息等。账号关联信息可以包括但不限于：玩家在游戏中关联的角色身份信息即角色id、角色游戏时长以及账号存在时长，具体可以根据实际应用场景确定。
[0077]
具体实施时，可以根据实际需要采用适用的数据脱敏算法。例如，在一种应用场景中，可以采用k-anonymity算法对明文原始聊天消息中涉及的玩家隐私信息进行数据脱敏处理。表2为通过k-anonymity算法对一组示例性数据进行脱敏处理前后的对照表。如表2所示，通过数据脱敏处理能够对玩家隐私信息进行保护，避免数据被非法分子利用或泄露，对玩家的隐私造成侵犯。
[0078]
表2
[0079]
数据脱敏处理前脱敏处理后角色id253162531*角色昵称张三张*角色游戏时长(分钟)343145343***账号存在时长(天)92492*
[0080]
第三种，结构化数据构建。由于原始聊天消息集合中，同一服务器不同聊天频道中所有玩家的聊天消息均收集在同一子集中，不方便以玩家为单位进行聊天消息文本分析。因此，在对聊天消息文本进行分析之前，可以基于经过数据脱敏处理后得到的聊天消息，以玩家为单位构建结构化数据。这样可以将同一玩家在各聊天频道输出的聊天消息集中在一起，方便调用。
[0081]
具体来讲，玩家的结构化数据可以包括：该玩家在游戏聊天频道输出的聊天消息文本，且该聊天消息文本为经过数据脱敏处理后的聊天消息文本。另外，为了使得结构化数据更能够反应玩家在游戏中的相关情况，结构化数据中除了聊天消息文本以外，还可以包括：经过数据脱敏处理后的玩家隐私信息，例如，可以包括：经过数据脱敏处理后的角色id、角色昵称、服务器id、角色游戏时长以及账号存在时长等。可以理解的是，角色昵称可以从玩家的聊天消息中获取，而角色昵称与角色id是关联的，且以此为索引，可以在游戏数据库
中获取到其他的账号相关信息。
[0082]
例如，可以记编号为k的玩家的结构化数据为sk，具体结构如下：
[0083]
sk＝{
[0084]
playerid,
[0085]
playername,
[0086]
zoneid,
[0087]
ingametime,
[0088]
timeaccexisted,
[0089]
chatdata
[0090]
}
[0091]
其中，各成员变量及其含义如表3所示。
[0092]
表3
[0093]
成员变量含义playerid角色idplayername角色昵称zoneid服务器idingametime角色游玩时长timeaccexisted账号存在时长chatdata聊天消息
[0094]
基于此，就可以很方便地调用玩家的结构化数据中每条聊天消息文本执行以下步骤s102，有利于提高对同一玩家的消息处理效率。
[0095]
步骤s102，提取聊天消息文本中的目标关键词。
[0096]
通常来讲，聊天消息文本中存在大量无意义词语，称为扰动信息，为了避免扰动信息影响文本分析的准确性，可以在进行关键词提取之前，先对这些扰动信息进行处理。可以理解的是，聊天消息文本中可能包含多种扰动信息，下面主要列举两种处理过程进行说明。
[0097]
第一种，对停止词进行移除。停止词是指自然语言中使用频率较高的冠词、副词、介词或连词等。这些词语在自然语言分析过程中，会对分析过程产生干扰，导致结果不够令人满意。
[0098]
第二种，将游戏中代表表情的转义字符替换成语言文本。这些代表表情的转义字符从图案上可以被读出所需要的表达的意图，但无法直接应用于自然语言处理。因此，需要按照预设规则，将聊天消息文本中包含的所有表情转义字符转化为文本信息。例如，可以将表达“愤怒”的表情转化为语言文本“@愤怒”。
[0099]
完成对聊天消息文本中扰动信息的处理后，就可以进一步对聊天消息文本进行分词处理，然后再从分词结果中提取关键词，作为目标关键词。目标关键词即为需要进行异常识别的关键词。
[0100]
具体来讲，可以采用的分词算法有多种，在一种可选的实施方式中，可以采用基于词典的分词算法，先把句子按照预设字典切分成词，再寻找词的最佳组合方式。为此，需要先构建预设词典。具体实施时，可以基于实际游戏场景中使用到的高频词语即使用频次超过预设频次的词语来构建预设词典。例如，预设词典中的词语类型可以包括：游戏中的地点
名称、装备名称、道具名称以及技能名称等。这样构建的预设词典更贴合消息文本对应的游戏场景，有利于提高分词结果的准确性。
[0101]
例如，对于mmorpg游戏场景来讲，存在大量游戏中使用的特定词语，可以先初始化词典，然后将大量特定场景下所可能使用到的高频词语添加到词典中，经过人工定性筛选，得到预设词典。例如，添加到词典中的词语可以在11000个左右，主要类型以及数量可以如表4所示。
[0102]
表4
[0103][0104][0105]
在此基础上，就可以基于预设词典，对聊天消息文本进行分词。在一种可选的实施方式中，可以基于预设词典构建trie树。trie树是一种常用来对大量文本词语进行统计、存储或排序的存储方式，可减少大量的检索时间。然后基于trie树，生成聊天消息文本对应的有向无环图。通俗来讲，就是根据给定的词典进行查词典操作，生成几种可能的句子切分，将聊天消息文本中所有可能构成语句的词语构建成有向无环图。进而，根据有向无环图对文本内容进行语句分词。具体来讲，可以通过扫描不同词语的频率与语句当中词语的成句情况，依照动态规划规则查找出有向无环图中的最大概率路径，以此对聊天消息文本进行词语划分。
[0106]
进一步，就可以从聊天消息文本的分词结果中提取关键词，作为目标关键词。例如，可以采用tf-idf(term frequency-inverse document frequency，词频-逆文档)算法从聊天消息文本包含的词语中提取关键词。可以理解的是，词语在文本内容中的重要性与其出现的次数成正比，且随着其在语料库中出现的频率成反比。因此，tf-idf算法可以很好地反映某词汇在文本中的重要性。
[0107]
提取完目标关键词后，就可以继续执行以下步骤s103，对目标关键词进行异常分析。
[0108]
步骤s103，调用预先构建的游戏舆情文本画像，对目标关键词进行异常识别。
[0109]
其中，游戏舆情文本画像是基于历史时间段内玩家在游戏聊天频道中的聊天消息文本集预先构建的。下面就先对游戏舆情文本画像的构建过程进行说明，如图2所示，可以包括步骤s201至步骤s203。
[0110]
步骤s201，获取历史时间段内玩家在游戏聊天频道中的聊天消息文本集。
[0111]
聊天消息文本集中包括的聊天消息文本为在步骤s101获取的聊天消息文本之前玩家发布于游戏聊天频道中的消息文本。历史时间段的时间长度可以根据实际需要设置，
例如，可以是7天、一个月或一个季度等。
[0112]
需要说明的是，聊天消息文本集中聊天消息文本的获取过程与上述步骤s101中聊天消息文本的获取过程类似，此处不再赘述。
[0113]
步骤s202，提取聊天消息文本集中的游戏舆情关键词，得到游戏舆情关键词结构数据。
[0114]
需要说明的是，聊天消息文本集中的游戏舆情关键词提取过程与上述步骤s102的关键词提取过程类似，此处不再赘述。
[0115]
游戏舆情关键词结构数据通过将所提取的游戏舆情关键词按照特定对象进行划分得到。具体来讲，特定对象可以是玩家和/或服务器。例如，特定对象为玩家时，则以玩家为单位，对所提取的游戏舆情关键词进行划分，得到每个玩家对应的游戏舆情关键词结构数据；特定对象为服务器时，则以服务器为单位，对所提取的游戏舆情关键词进行划分，得到每个服务器对应的游戏舆情关键词结构数据。
[0116]
步骤s203，基于关键词结构数据构建游戏舆情文本画像。
[0117]
相应地，游戏舆情文本画像可以包括玩家文本画像和/或服务器文本画像。因此，基于关键词结构数据构建游戏舆情文本画像的过程可以包括：针对每个玩家，根据相应的游戏舆情关键词结构数据，构建玩家文本画像；和/或，针对每个服务器，根据游戏舆情关键词结构数据，构建服务器文本画像。
[0118]
下面以玩家文本画像的具体构建过程为例进行说明。作为一种实施方式，可以先确定每个玩家对应的关键词结构数据中每个游戏舆情关键词的出现频次；然后将每个游戏舆情关键词与各自的出现频次对应存储，构成玩家文本画像。例如，构建方式如下：
[0119]
编号为k的玩家，其玩家文本画像mk可以表示为：
[0120]
mk＝{《f1,n1》,《f2,n2》,《f3,n3》,
…
,《fg,ng》}
[0121]
其中，fg表示第g个游戏舆情关键词，ng表示第g个游戏舆情关键词在相应关键词结构数据中出现的总数量即出现频次，fg与ng两个元素共同组成画像中的一个特征元组。例如，该名玩家发言中，“黄金甲”一词出现了17次，那么该特征元组即为《黄金甲，17》。
[0122]
可以理解的是，由于不同玩家具有个性化，会导致整个玩家文本画像的差异很大，因此需要针对每个玩家构建各自的文本画像，能够表征玩家长时间以来的发言、聊天倾向，从而用来识别玩家的聊天文本是否存在异常。
[0123]
类似地，服务器文本画像的构建过程可以包括：确定每个服务器对应的关键词结构数据中每个游戏舆情关键词的出现频次；将每个游戏舆情关键词与各自的出现频次对应存储，构成服务器文本画像。
[0124]
需要说明的是，服务器文本画像构建与玩家文本画像构建类似，不同之处在于，用于构建玩家文本画像的语料库为该玩家在所有聊天频道中的聊天消息文本，而用于构建服务器文本画像的语料库为该服务器中所有玩家在所有聊天频道的聊天消息文本，此处就不再对服务器文本画像构建过程进行详述。
[0125]
服务器文本画像可以用于对该服务器中所有玩家进行舆情信息分析。例如，舆情信息分析可以是关键词异常分析，或者是，对指定游戏对象(如游戏中的物品、技能或玩法等)的讨论热度分析等。
[0126]
为同一游戏提供服务不同的服务器由于开放时间的长短差异，导致了环境上的差
异。分别构建各个服务器文本画像，能够用来分析短时间窗口内，服务器的整体游戏环境，如大型版本更新后，游戏中的物品、技能或玩法等对应的关键词的出现频率以及时间等。例如，可以从服务器文本画像中获取某新上线技能对应关键词的出现频次，通过该出现频次衡量该服务器中玩家对该技能的讨论热度是否达到预期目标。
[0127]
在完成游戏舆情文本画像构建的基础上，对于新进的聊天消息文本，即步骤s101中获取到的聊天消息文本，就可以在经过步骤s102的目标关键词提取后，调用预先构建的游戏舆情文本画像，对新进聊天消息文本中的目标关键词进行异常识别。
[0128]
具体来讲，由于游戏舆情文本画像包括玩家文本画像和/或服务器文本画像，具体实施时，可以调用玩家文本画像对相应玩家聊天消息文本的目标关键词进行异常识别，从而以玩家为单位，分析该玩家的聊天消息文本是否存在异常。例如，新进聊天消息为玩家a发布的聊天消息文本，则可以调用基于玩家a的文本画像确定该聊天信息中的目标关键词是否存在异常。或者，也可以调用服务器文本画像对整个服务器玩家新进聊天消息文本的目标关键词进行异常识别，从而以服务器为单位，分析该服务器内的聊天消息文本是否存在异常。具体根据实际应用场景的需要确定需要调用的文本画像。
[0129]
调用玩家文本画像进行关键词异常识别的过程，与调用服务器文本画像进行关键词异常识别的过程类似，只是针对的识别对象不同，前者针对单个玩家的新进聊天消息文本，后者针对的是整个服务器的新进聊天消息文本。下面主要以调用玩家文本画像进行关键词异常识别的过程为例进行说明。
[0130]
对目标关键词的异常识别过程可以包括：若相应玩家文本画像中不存在目标关键词，则表示目标关键词在该玩家的历史聊天消息文本中未出现过，可以判定目标关键词不存在异常；若相应玩家文本画像中存在目标关键词，则基于目标关键词在玩家文本画像中对应的出现频次以及玩家文本画像中每个游戏舆情关键词的出现频次，对目标关键词进行异常识别。
[0131]
在一种可选的实施方式中，可以基于玩家文本画像中每个游戏舆情关键词的出现频次，得到该玩家文本画像中游戏舆情关键词的平均频次；若该目标关键词在玩家文本画像中对应的出现频次大于或等于上述平均频次，则判定该目标关键词不存在异常；若该目标关键词在玩家文本画像中对应的出现频次小于上述平均频次，则确定该目标关键词的异常分值。
[0132]
需要说明的是，作为判断基准的平均频次可以是所有游戏舆情关键词出现频次的算术平均值、几何平均值或均方根平均值等。当然，除了采用平均频次以外，在本说明书其他实施例中，也可以采用玩家文本画像中所有游戏舆情关键词频次的中位数作为判断基准，本实施例对此不做限定，具体可以根据实际需要确定。
[0133]
例如，仍以玩家a为例，假设玩家a对应的目标关键词在玩家a的文本画像中出现的频次为n，玩家a的文本画像包含的游戏舆情关键词总数为n，且所有游戏舆情关键词的平均频次为e。以平均频次为算术平均值为例，平均频次e可以根据以下公式：
[0134][0135]
其中，nh为玩家a的文本画像中第h个游戏舆情关键词的频次。如果n≥e，则表明该
目标关键词是玩家在历史聊天中经常用到的，由此可以判定为正常。如果n＜e，则表明该目标关键词是玩家在历史聊天中不常用的，存在异常风险，则进一步确定该目标关键词的异常分值。
[0136]
进一步地，对于不存在异常的目标关键词，可以将该目标关键词添加到玩家文本画像中，以更新该玩家文本画像。同理，也可以将不存在异常的目标关键词添加到该玩家所在服务器的服务器文本画像中，以同步更新服务器文本画像。
[0137]
异常分值用于衡量目标关键词的风险程度，分值越高，风险程度越大，反之，风险程度越低。目标关键词的异常分值与目标关键词在相应玩家文本画像中出现的频次呈负相关。也就是说，目标关键词在玩家文本画像中出现的频次越高，异常分值越低。
[0138]
在一种可选的实施方式中，确定目标关键词的异常分值的过程可以包括：基于目标关键词在玩家文本画像中对应的出现频次，以及玩家文本画像包含的游戏舆情关键词数量，得到该目标关键词的异常分值。
[0139]
例如，可以根据以下公式计算异常分值s。
[0140][0141]
当然，异常分值的计算方式不限于以上公式，还可以采用其他适用的方式计算。例如，还可以通过公式：或者是，计算异常分值，其中，α，β均为权重系数，可以根据实际应用场景设置。
[0142]
需要说明的是，调用服务器文本画像对整个服务器玩家新进聊天消息文本的目标关键词进行异常识别的过程可以参照上述调用玩家文本画像进行关键词异常识别的过程，此处就不再赘述。
[0143]
得到目标关键词的异常识别结果即上述异常分值后，就可以执行以下步骤s104，进一步确定聊天消息文本是否存在异常。
[0144]
步骤s104，根据目标关键词的异常识别结果以及聊天消息文本对应的游戏环境，确定聊天消息文本是否存在异常。
[0145]
在一种可选的实施方式中，上述步骤s104可以包括：基于聊天消息文本对应的游戏环境，确定异常评判阈值；基于异常识别结果中的异常分值以及异常评判阈值，确定聊天消息文本是否存在异常。
[0146]
具体来讲，考虑到游戏环境较为复杂，尤其是mmorpg游戏，可以根据游戏环境灵活设置异常评判阈值。例如，可以基于聊天消息文本对应的游戏环境的版本更新时间和/或游戏环境所在服务器的开设时长，确定异常评判阈值。考虑到不同玩家文本画像以及不同服务器文本画像差异较大，在一种可选的实施方式中，可以将预设时间窗口内得到的异常识别结果中的异常分值进行归一化处理，将异常评判阈值设置为归一化后异常分值区间内的相对比例阈值。当然，在本说明书其他实施例中，异常评判阈值也可以直接设置分值阈值，此处不做限定。
[0147]
具体来讲，可以判断游戏环境所在服务器的开设时长是否超过第一时间阈值，若超过第一时间阈值，则说明该服务器为开放较长时间的服务器(老服)，此时将第一预设值作为异常评判阈值。普通服务器中主要是对容易出现bug的地方进行定位。老服具有开放时
间较长、用户较为稳定、游戏环境不易变更等特点。因此对文本预警的异常评判阈值应设置中等程度，例如，第二预设值可以设置为40％。以防出现难以在测试中发现的特殊问题，维护服务器环境的稳定性。
[0148]
若服务器开设时长未超过第一时间阈值，则说明该服务器为新开服务器(新服)，此时将第二预设值作为异常评判阈值。其中，第一预设值小于第二预设值。新开服务器具有开放时间短、玩家涌入快、数据密度大等特点。因此文本画像数据所需的统计时间窗口较短，对文本预警的异常评判阈值应设置较高程度，以减少对检测情况的误判。例如，第二预设值可以设置为70％。同时，可以收集服务器首次开放一段时间窗口内的数据，作为下次新服的首个画像所需基本数据。并且在每次开放第i个服务器时，使用第i
–
1个服务器的数据作为原始文本画像。
[0149]
再者，也可以检测游戏环境的版本更新时间与当前时间之间的时间间隔是否小于第二时间阈值，若小于第一时间阈值，说明游戏近期存在版本更新，此时可以将第三预设值作为异常评判阈值，若不小于第一时间阈值，说明游戏近期不存在版本更新，则可以按照服务器的开设时长来设定异常评判阈值。其中，第三预设值小于第一预设值。可以理解的是，通常情况下大版本更新后，玩家会对更新内容进行讨论。因此对文本预警的异常评判阈值应设置较低程度，输出较多种类的异常关键词。通过结合消息获取过程划分的不同频道类型，研发人员可以通过定性加定量的评判标准，进行新版本内容的反馈与预研。例如，第三预设值可以设置为30％。
[0150]
进一步地，在游戏近期存在版本更新的情况下，可以进一步结合服务器的具体情况，在该第三预设值进行一定合理区间的浮动调整。例如，可以基于服务器的开设时长对第三预设值进行调整，如老服可以适当将第三预设值设置调整到45％～50％区间；新服可以适当将第三预设值调整到55％～60％区间。
[0151]
相应地，上述基于异常识别结果中的异常分值以及异常评判阈值，确定聊天消息文本是否存在异常的过程可以包括：对预设时间窗口内得到的异常识别结果中的异常分值进行归一化处理；对归一化处理后的异常分值从低到高进行排序，确定目标关键词的异常分值对应的百分位数；若百分位数超过上述异常评判阈值，则判定聊天消息文本存在异常。其中，预设时间窗口的时间长度可以根据实际需要设置，例如，可以为一天。
[0152]
对异常分值进行归一化处理能够更方便地统计整个样本空间内异常目标关键词的分数，并统一标准，得到分布在(0，1)内的异常分值。相应地，归一化处理后得到的异常分值从低至高x百分比处的分值，即为异常分值阈值。其中，x即为上述的异常评判阈值。由此，也可以先根据异常评判阈值，在归一化处理后的异常分值区间内确定异常分值阈值，若目标关键词的归一化后的异常分值超过该异常分值阈值，则判定聊天消息文本存在异常。
[0153]
进一步地，对于被判定存在异常的聊天消息文本，具体处理方式可以根据实际需要设置。例如，可以针对存在异常的目标关键词进行预警，以便后台相关人员进一步核验以及处理。此时，预警信息的具体内容也根据实际需要设置，例如，可以包括但不限于玩家的角色id、服务器id、异常的目标关键词以及异常分值等。进一步地，还可以包括异常目标关键词所在的聊天消息文本。
[0154]
综上所述，本说明书实施例提供的游戏中异常文本识别方法，通过提取游戏内社交环境当中，由玩家所产出的聊天消息构建游戏舆情文本画像，结合游戏内舆情所处的当
前游戏环境，对新进聊天消息文本进行异常识别，即对游戏内舆情进行异常分析，能够适用于复杂游戏环境下游戏中舆论的准确分析，并减少了人工对游戏舆论环境的监控，有利于提高对游戏舆情信息的分析效率。同时，也提升了对于游戏环境监测的时效性。并且，通过对消息文本的关键词提取，更有利于对游戏内异常言论的定位。
[0155]
第二方面，基于同一发明构思，本说明书实施例还提供了一种游戏中异常文本识别装置，如图3所示，该异常文本识别装置30可以包括：
[0156]
画像构建模块301，用于获取历史时间段内玩家在游戏聊天频道中的聊天消息文本集，提取所述聊天消息文本集中的游戏舆情关键词，得到游戏舆情关键词结构数据，基于所述关键词结构数据构建游戏舆情文本画像；
[0157]
消息获取模块302，用于获取玩家在游戏聊天频道中输出的聊天消息文本；
[0158]
关键词提取模块303，用于提取所述聊天消息文本中的目标关键词；
[0159]
识别模块304，用于调用预先构建的游戏舆情文本画像，对所述目标关键词进行异常识别；
[0160]
确定模块305，用于根据所述目标关键词的异常识别结果以及所述聊天消息文本对应的游戏环境，确定所述聊天消息文本是否存在异常。
[0161]
在一种可选的实施方式中，上述消息获取模块302包括：
[0162]
获取子模块，用于从游戏聊天频道获取玩家的原始聊天消息；
[0163]
脱敏子模块，用于对所述原始聊天消息中涉及的玩家隐私信息进行数据脱敏处理；
[0164]
构建子模块，用于基于经过所述数据脱敏处理后得到的聊天消息，以玩家为单位构建结构化聊天数据，所述结构化聊天数据包括：该玩家在游戏聊天频道输出的聊天消息文本。
[0165]
在一种可选的实施方式中，上述关键词提取模块303包括：
[0166]
分词子模块，用于基于预设词典，对所述聊天消息文本进行分词，其中，所述预设词典包括游戏环境中使用频次超过预设频次的多个词语；
[0167]
确定子模块，用于从所述聊天消息文本的分词结果中确定所述目标关键词。
[0168]
在一种可选的实施方式中，画像构建模块301用于：
[0169]
以玩家为单位，对所提取的游戏舆情关键词进行划分，得到每个玩家对应的游戏舆情关键词结构数据；
[0170]
针对所述每个玩家，根据游戏舆情关键词结构数据，构建玩家文本画像。
[0171]
在一种可选的实施方式中，画像构建模块301用于：
[0172]
确定每个玩家对应的关键词结构数据中每个游戏舆情关键词的出现频次；
[0173]
将所述每个游戏舆情关键词与各自的所述出现频次对应存储，构成所述玩家文本画像。
[0174]
在一种可选的实施方式中，画像构建模块301用于：
[0175]
以服务器为单位，对所提取的游戏舆情关键词进行划分，得到每个服务器对应的游戏舆情关键词结构数据；
[0176]
针对所述每个服务器，根据游戏舆情关键词结构数据，构建服务器文本画像，所述服务器文本画像用于对该服务器中所有玩家进行舆情信息分析。
[0177]
在一种可选的实施方式中，画像构建模块301用于：
[0178]
确定每个服务器对应的关键词结构数据中每个游戏舆情关键词的出现频次；
[0179]
将所述每个游戏舆情关键词与各自的所述出现频次对应存储，构成所述服务器文本画像。
[0180]
在一种可选的实施方式中，所述游戏舆情文本画像包括多个游戏舆情关键词以及各自对应的出现频次，上述识别模块304用于：
[0181]
若所述游戏舆情文本画像中存在所述目标关键词，则基于所述目标关键词在所述游戏舆情文本画像中对应的出现频次以及所述游戏舆情文本画像中每个游戏舆情关键词的出现频次，对所述目标关键词进行异常识别；
[0182]
若所述游戏舆情文本画像中不存在所述目标关键词，则判定所述目标关键词不存在异常。
[0183]
在一种可选的实施方式中，上述识别模块304用于：
[0184]
基于所述游戏舆情文本画像中每个游戏舆情关键词的出现频次，得到所述游戏舆情文本画像中游戏舆情关键词的平均频次；
[0185]
若所述目标关键词在所述游戏舆情文本画像中对应的出现频次大于或等于所述平均频次，则判定所述目标关键词不存在异常；
[0186]
若所述目标关键词在所述游戏舆情文本画像中对应的出现频次小于所述平均频次，则确定所述目标关键词的异常分值。
[0187]
在一种可选的实施方式中，上述识别模块304用于：
[0188]
基于所述目标关键词在所述游戏舆情文本画像中对应的出现频次，以及所述游戏舆情文本画像包含的游戏舆情关键词数量，得到所述目标关键词的异常分值。
[0189]
在一种可选的实施方式中，上述确定模块305用于：
[0190]
基于所述聊天消息文本对应的游戏环境，确定异常评判阈值；
[0191]
基于所述异常识别结果中的异常分值以及所述异常评判阈值，确定所述聊天消息文本是否存在异常。
[0192]
在一种可选的实施方式中，上述确定模块305用于：
[0193]
基于聊天消息文本对应的游戏环境的版本更新时间和/或所述游戏环境所在服务器的开设时长，确定异常评判阈值。
[0194]
在一种可选的实施方式中，上述确定模块305用于：
[0195]
对预设时间窗口内得到的异常识别结果中的异常分值进行归一化处理；
[0196]
对归一化处理后的异常分值从低到高进行排序，确定所述目标关键词的异常分值对应的百分位数；
[0197]
若所述百分位数超过所述异常评判阈值，则判定所述聊天消息文本存在异常。
[0198]
关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。
[0199]
第三方面，本说明书实施例还提供了一种电子设备，包括处理器和存储器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时使所述电子设备执行上述第一方面提供的游戏中异常文本识别方法的步骤。
[0200]
图4是本说明书实施例中电子设备为服务器时的结构示意图。该服务器1900可因
配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，cpu)1922(例如，一个或一个以上处理器)和存储器1932，一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中，存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1922可以设置为与存储介质1930通信，在服务器1900上执行存储介质1930中的一系列指令操作。
[0201]
服务器1900还可以包括一个或一个以上电源1926，一个或一个以上有线或无线网络接口1950，一个或一个以上输入输出接口1958，一个或一个以上键盘1956，和/或，一个或一个以上操作系统1941，例如windows servertm，mac os xtm，unixtm,linuxtm，freebsdtm等等。
[0202]
在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1932，上述指令可由电子设备的处理器执行以完成上述第一方面提供的游戏中异常文本识别方法，具体包括：获取玩家在游戏聊天频道中输出的聊天消息文本；提取聊天消息文本中的目标关键词；调用预先构建的游戏舆情文本画像，对目标关键词进行异常识别，其中，游戏舆情文本画像的构建过程包括：获取历史时间段内玩家在游戏聊天频道中的聊天消息文本集，提取聊天消息文本集中的游戏舆情关键词，得到游戏舆情关键词结构数据，基于关键词结构数据构建游戏舆情文本画像；根据目标关键词的异常识别结果以及聊天消息文本对应的游戏环境，确定聊天消息文本是否存在异常。例如，所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
[0203]
本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本技术旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。
[0204]
应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制，以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：唐昊阳;郭松林;喻思瑞
技术所有人：成都完美时空网络技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。