一种游戏智能评级方法与系统与流程

文档序号:15146095发布日期:2018-08-10 20:28阅读:256来源:国知局

本发明涉及游戏评级领域,特别是涉及一种游戏智能评级方法及系统。



背景技术:

游戏产业是技术与内容高度融合的领域。随着经济发展,vr/ar等新技术及硬件的迭代更新与全球范围内恩格尔系数的降低,赋予游戏产业新的巨大的发展潜力与商机。在游戏产业链中,游戏平台运营商是连接游戏开发商与用户的重要一环。游戏平台运营商根据游戏评级的高低,制定运营策略,分配资源,以期投入成本与分成回报成正比,最大化利润。

然而,现有的游戏评级方法,通常是游戏平台运营商的评测人员基于自身的认知与经验,对游戏的主观判断,因此,游戏评级结果会受到游戏评测小组的主观意识、认知水平、经验多寡与人员流动等人为因素的干扰,导致评级准确率浮动较大,最终对游戏平台运营商产生不利影响。



技术实现要素:

基于此,本发明的目的在于,提供一种游戏智能评级方法及系统,其具有评级准确,且不受人为主观因素影响的优点。

一种游戏智能评级方法,其特征在于,包括以下步骤:

采集已上线游戏在上线前的数值数据和文本数据,其中,所述数值数据为游戏自身参数,所述文本数据包括短文本数据和长文本数据;

提取已上线游戏在上线前的数值特征和文本特征并进行特征处理,其中,所述文本特征包括短文本特征和长文本特征;

根据特征处理后已上线游戏在上线前的数值特征、文本特征和已上线游戏的级别标签,建立并训练最优随机森林算法模型,其中,所述游戏级别标签为:根据已上线游戏上线后一段时间内的受欢迎程度和盈利能力设立的游戏级别;

采集未上线游戏的数值数据和文本数据;

提取未上线游戏的数值特征和文本特征并进行特征处理;

根据所述的最优随机森林算法模型,输入特征处理后未上线游戏的数值特征和文本特征,预测未上线游戏的游戏级别。

一种游戏智能评级系统,其特征在于,包括:

已上线游戏定级模块,所述已上线游戏定级模块基于游戏级别的定义,完成已上线游戏的游戏级别标签;

数据采集及特征提取模块,所述数据采集及特征提取模块采集已上线游戏在上线前的数值数据、文本数据和未上线游戏的数值数据、文本数据,提取相应的数值特征、文本特征并进行特征处理;

随机森林训练模块,所述随机森林训练模块基于已上线游戏在上线前的数值特征、文本特征和游戏级别标签,建立并训练最优随机森林算法模型;

未上线游戏评级模块,所述未上线游戏评级模块基于最优随机森林算法模型和未上线游戏的数值特征和文本特征,对未上线游戏进行预测评级。

本发明所述的一种游戏智能评级方法及系统,利用已上线游戏在上线前的数值数据、文本数据和游戏级别标签,建立并训练随机森林算法模型;基于最优模型和未上线游戏的数值数据、文本数据,实现对未上线游戏级别的预测。该方法与系统是基于机器学习的游戏评级机制,使游戏评级不受评测小组的主观意识、认知水平、经验多寡与人员流动等人为干扰因素影响,为游戏平台运营商制定合理运营策略提供决策支持。

进一步地,所述特征处理的具体方式包括:对枚举的数值特征或者文本特征进行独热编码;对连续的数值特征或者文本特征进行离散化表示。

进一步地,所述提取已上线游戏在上线前的数值特征和文本特征的步骤中,包括提取已上线游戏在上线前的短文本特征,具体包括以下步骤:

对每种短文本数据,将每个已上线游戏在上线前的短文本数据转换成用tf-idf权重向量空间来表示的形式,并记录该短文本数据对应的文本语料库;

通过lda聚类对每个转换成tf-idf权重向量空间形式的已上线游戏进行分类,将所有已上线游戏划分为n类具有相同隐含主题的游戏,将每个已上线游戏所属隐含主题作为该游戏的短文本特征,并记录该短文本数据对应的n个聚簇中心,其中,n为一常数。

进一步地,所述提取已上线游戏在上线前的数值特征和文本特征的步骤中,包括提取已上线游戏在上线前的长文本特征,所述长文本特征包括不带情感因素的长文本特征和带有情感因素的长文本特征,对于不带情感因素的长文本特征,所述提取已上线游戏在上线前的长文本特征具体包括以下步骤:

对每种不带情感因素的长文本数据,利用分词工具将每个已上线游戏在上线前的不带情感因素的长文本数据切为多个短文本数据;

对得到的多个短文本数据进行相邻两两组合,并转换成tf-idf权重向量空间的形式同时记录该不带情感因素长文本数据对应的文本语料库;

通过lda聚类对每个转换成tf-idf权重向量空间形式的已上线游戏进行分类,将所有已上线游戏划分为n类具有相同隐含主题的游戏,将每个已上线游戏所属隐含主题作为该游戏不带情感因素的长文本特征,并记录该不带情感因素长文本数据对应的n个聚簇中心,其中,n为一常数。

进一步地,对于所述带有情感因素的长文本特征,所述提取已上线游戏在上线前的长文本特征具体包括以下步骤:

建立正向词库、负向词库、程度词库及否定词库,指定上述词库中每个词的情感分数;

将正向词库、负向词库、程度词库及否定词库配置进语料库;

对每种带有情感因素的长文本数据,利用分词工具把每个已上线游戏在上线前的带有情感因素的长文本数据切为多个短文本数据;

遍历短文本数据,检查是否存在正向词或负向词,如果不存在,情感分数为零,如果存在,检查前一个词是否为程度词或否定词,如果是,继续检查前一个词是否为程度词或否定词,直到该词不是程度词或否定词,同时检查后一个词是否为程度词或否定词,如果是,继续检查后一个词是否为程度词或否定词,直到该词不是程度词或否定词,其中,情感得分等于存在的每个正向词或负向词的情感分数乘以对应的所有前缀和后缀程度词或否定词的情感分数的总和,将每个已上线游戏的情感得分作为该游戏带有情感因素的长文本特征。

进一步地,所述提取未上线游戏的数值特征和文本特征的步骤中,包括提取未上线游戏的短文本特征,具体包括以下步骤:

对每种短文本数据,根据所述提取已上线游戏在上线前的短文本特征的具体步骤中,所述的记录的对应短文本数据的文本语料库,将每个未上线游戏的短文本数据转换成用tf-idf权重向量空间来表示的形式;

根据所述提取已上线游戏在上线前的短文本特征的具体步骤中,所述的记录的对应短文本数据的n个聚簇中心,对每个转换成tf-idf权重向量空间形式的未上线游戏进行分类,将所有未上线游戏划分为n类具有相同隐含主题的游戏,将每个未上线游戏所属隐含主题作为该游戏的短文本特征。

进一步地,所述提取未上线游戏的数值特征和文本特征的步骤中,包括提取未上线游戏的长文本特征,所述长文本特征包括不带情感因素的长文本特征和带有情感因素的长文本特征,对于不带情感因素的长文本特征,所述提取未上线游戏的长文本特征具体包括以下步骤:

对每种不带情感因素的长文本数据,利用分词工具将每个未上线游戏的不带情感因素的长文本数据切为多个短文本数据;

对得到的多个短文本数据进行相邻两两组合,根据所述提取已上线游戏在上线前的不带情感因素的长文本特征的具体步骤中,所述的记录的对应不带情感因素长文本数据的文本语料库,转换成tf-idf权重向量空间表示;

根据所述提取已上线游戏在上线前的不带情感因素的长文本特征的具体步骤中,所述的记录的对应不带情感因素长文本数据的n个聚簇中心,对每个转换成tf-idf权重向量空间形式的未上线游戏进行分类,将所有未上线游戏划分为n类具有相同隐含主题的游戏,将每个未上线游戏所属隐含主题作为该游戏不带情感因素的长文本特征。

一种计算机可读介质,其存储有计算机程序,该计算机程序被处理器执行时实现以上任意一项游戏智能评级方法的步骤。

一种计算机设备,包括存储器、处理器以及储存在所述储存器并可被所述处理器执行的计算机程序,所述处理器执行所属计算机程序时实现以上任意一项所述的游戏智能评级方法的步骤。

为了更好地理解和实施,下面结合附图详细说明本发明。

附图说明

图1为本发明实施例中游戏智能评级方法的流程图;

图2为本发明实施例中提取已上线游戏在上线前的短文本特征的流程图;

图3为本发明实施例中提取已上线游戏在上线前的不带情感因素的长文本特征的流程图;

图4为本发明实施例中提取已上线游戏在上线前的带有情感因素的长文本特征的流程图;

图5为本发明实施例中提取未上线游戏的短文本特征的流程图;

图6为本发明实施例中提取未上线游戏的不带情感因素的长文本特征的流程图;

图7为本发明实施例中游戏智能评级系统的原理示意图。

具体实施方式

如附图1所示,在本发明的一个实施例中,本发明的一种游戏智能评级方法,包括以下步骤:

s11采集已上线游戏在上线前的数值数据和文本数据,其中,所述数值数据为游戏自身参数,所述文本数据包括短文本数据和长文本数据;

在本实施例中,数值数据包括是否单机游戏、游戏可选语言、游戏可选语言数量、游戏混服情况、是否有新手引导、游戏流畅度、游戏载入时间、游戏画面精致程度、游戏场景种类等。

短文本数据包括游戏特色、游戏玩法、游戏类型、游戏题材。游戏特色可包括3d、动漫、二次元、对战、小清新等;游戏玩法可包括fps、tps、mmo、mmoarpg、moba等;游戏类型可包括策略、动作、飞行、格斗、角色等;游戏题材可包括东方玄幻、古代战争、国产动漫、韩式幻想、欧美魔幻等。

长文本数据包括游戏描述和游戏爱好者评论。

s12提取已上线游戏在上线前的数值特征和文本特征并进行特征处理,其中,所述文本特征包括短文本特征和长文本特征。

在本实施例中,所述特征处理的具体方式包括:对枚举的数值特征或者文本特征进行独热编码;对连续的数值特征或者文本特征进行离散化表示;

如附图2所示,提取已上线游戏在上线前的短文本特征,具体包括以下步骤:

s21对每种短文本数据,将每个已上线游戏在上线前的短文本数据转换成用tf-idf权重向量空间来表示的形式,并记录该短文本数据对应的文本语料库;

其中,所述文本数据转换为tf-idf权重向量空间表示的方法具体为,将所有样本的不同文本数据整合成词汇v,每个样本文本数据对应一个v维向量,向量中的元素取对应分词的tf-idf值;归一化向量即为该样本文本数据对应的tf-idf权重向量空间表示。

其中,分词tf-idf值的计算方法具体为tf*idf。tf为该分词在该样本文本数据中出现的次数;idf表示该分词在所有样本文本数据中出现频率的对数,即:

n为样本数量,df为包含该分词的样本数量。

其中,归一化向量的具体计算方法为:

s22通过lda聚类对每个转换成tf-idf权重向量空间形式的已上线游戏进行分类,将所有已上线游戏划分为n类具有相同隐含主题的游戏,将每个已上线游戏所属隐含主题作为该游戏的短文本特征,并记录该短文本数据对应的n个聚簇中心,其中,n为一常数。

在本实施例中,n可取3。

所述长文本特征包括不带情感因素的长文本特征和带有情感因素的长文本特征,对于不带情感因素的长文本特征,如附图3所示,所述提取已上线游戏在上线前的长文本特征具体包括以下步骤:

s31对每种不带情感因素的长文本数据,利用分词工具将每个已上线游戏在上线前的不带情感因素的长文本数据切为多个短文本数据;

s32对得到的多个短文本数据进行相邻两两组合,转换成tf-idf权重向量空间表示,并记录该不带情感因素长文本数据对应的文本语料库;

s33通过lda聚类对每个转换成tf-idf权重向量空间形式的已上线游戏进行分类,将所有已上线游戏划分为n类具有相同隐含主题的游戏,将每个已上线游戏所属隐含主题作为该游戏不带情感因素的长文本特征,并记录该不带情感因素长文本数据对应的n个聚簇中心,其中,n为一常数。

在本实施例中,n可取3。

如附图4所示,对于带有情感因素的长文本特征,所述提取已上线游戏在上线前的长文本特征具体包括以下步骤:

s41建立正向词库、负向词库、程度词库及否定词库,指定上述词库中每个词的情感分数;

s42将正向词库、负向词库、程度词库及否定词库配置进语料库;

s43对每种带有情感因素的长文本数据,利用分词工具把每个已上线游戏在上线前的带有情感因素的长文本数据切为多个短文本数据;

具体地,在本实施例中,分词工具可选择jieba分词软件。

s44遍历短文本数据,检查是否存在正向词或负向词,如果不存在,情感分数为零,如果存在,检查前一个词是否为程度词或否定词,如果是,继续检查前一个词是否为程度词或否定词,直到该词不是程度词或否定词,同时检查后一个词是否为程度词或否定词,如果是,继续检查后一个词是否为程度词或否定词,直到该词不是程度词或否定词,其中,情感得分等于存在的每个正向词或负向词的情感分数乘以对应所有前缀和后缀程度词或否定词的情感分数的总和,将每个已上线游戏的情感得分作为该游戏带有情感因素的长文本特征。

s13根据特征处理后已上线游戏在上线前的数值特征、文本特征和已上线游戏的级别标签,建立并训练最优随机森林算法模型,其中,所述游戏级别标签为:根据已上线游戏上线后一段时间内的受欢迎程度和盈利能力设立的游戏级别;

具体地,建立并训练最优随机森林算法模型的方式为:基于已上线游戏在上线前的数值数据、文本特征和游戏级别标签,建立随机森林算法模型;然后设定考核指标,通过k折交叉验证法训练得到最优游戏智能评级模型。

具体地,其中,随机森林算法模型为,对样本xi∈rn,i=1,…,l和对应标签y∈rl,建立多个决策树。每个决策树初始放回个样本。基于贪心算法,递归地划分最优空间,每次划分空间取个特征,直到不可划分或触发终止条件。基于惩罚规则对每个决策树进行剪枝,对多个决策树的结果取平均值作为最终标签。

其中,划分最优空间的方法具体为,假设在节点m的数据为q,划分行为θ=(j,tm)对应根据特征j按照阈值tm划分,那么数据q被划分为qleft(θ)和qright(θ),分别计算qleft(θ)和qright(θ)的交叉熵h(qleft(θ))和h(qright(θ)),则最优划分行为θ*为:

θ*=argminθ(nlefth(qleft(θ))+nrighth(qright(θ)))

其中,交叉熵的计算方法具体为,假设标签yi可取0,1,…,k-1,在有nm个样本的节点m的数据为q,yi属于k标签的概率为:

pmk=1/nm∑i(yi=k),

那么数据q的交叉熵为:

h(q)=-∑kpmklog(pmk)

在本实施例中,考核指标可包括对数损失、精确率、召回率和f1-score等。k可取10。

s14采集未上线游戏的数值数据和文本数据;

s15提取未上线游戏的数值特征和文本特征并进行特征处理;

如附图5所示,提取未上线游戏的短文本特征,具体包括以下步骤:

s51对每种短文本数据,根据步骤s21所述的记录的对应短文本数据的文本语料库,将每个未上线游戏的短文本数据转换成用tf-idf权重向量空间来表示的形式;

s52根据步骤s22所述的记录的对应短文本数据的n个聚簇中心,对每个转换成tf-idf权重向量空间形式的未上线游戏进行分类,将所有未上线游戏划分为n类具有相同隐含主题的游戏,将每个未上线游戏所属隐含主题作为该游戏的短文本特征。

如附图6所示,所述提取未上线游戏的不带情感因素的长文本特征具体包括以下步骤:

s61对每种不带情感因素的长文本数据,利用分词工具将每个未上线游戏的不带情感因素的长文本数据切为多个短文本数据;

s62对得到的多个短文本数据进行相邻两两组合,根据步骤s32所述的记录的对应不带情感因素长文本数据的文本语料库,转换成tf-idf权重向量空间表示;

s63根据步骤s33所述的记录的对应不带情感因素长文本数据的n个聚簇中心,对每个转换成tf-idf权重向量空间形式的未上线游戏进行分类,将所有未上线游戏划分为n类具有相同隐含主题的游戏,将每个未上线游戏所属隐含主题作为该游戏的不带情感因素的长文本特征。

s16根据所述的最优随机森林算法模型,输入特征处理后未上线游戏的数值特征和文本特征,预测未上线游戏的游戏级别。

以未上线游戏的数值特征和文本特征为作为输入变量输入最优随机森林算法模型,最优随机森林模型通过对输入变量的计算,输出未上线游戏的游戏级别标签,从而完成对未上线游戏的评级。

如附图7所示,在本发明的另一个实施例中,本发明还包括一种游戏智能评级系统,包括:

已上线游戏定级模块10,所述已上线游戏定级模块基于游戏级别的定义,完成已上线游戏的游戏级别标签;

数据采集及特征提取模块20,所述数据采集及特征提取模块采集已上线游戏在上线前的数值数据、文本数据和未上线游戏的数值数据、文本数据,提取相应的数值特征、文本特征并进行特征处理。

随机森林训练模块30,所述随机森林训练模块基于已上线游戏在上线前的数值特征、文本特征和游戏级别标签,建立并训练最优随机森林算法模型

未上线游戏评级模块40,所述未上线游戏评级模块基于最优随机森林算法模型和未上线游戏的数值特征和文本特征,对未上线游戏进行预测评级。

在本发明的另一个实施例中,还包括一种计算机可读介质,其存储有计算机程序,该计算机程序被处理器执行时实现以上任意一个实施例中的游戏智能评级方法及系统的步骤。

在本发明的另一个实施例中,还包括一种计算机设备,包括存储器、处理器以及储存在所述储存器并可被所述处理器执行的计算机程序,所述处理器执行所属计算机程序时实现以上任意一个实施例中所述的游戏智能评级方法及系统的步骤。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1