基于社区评论情感倾向性分析的手游排行榜构建方法

文档序号:10656635阅读:251来源:国知局
基于社区评论情感倾向性分析的手游排行榜构建方法
【专利摘要】本发明公开了一种基于社区评论情感倾向性分析的手游排行榜构建方法,包括步骤:1)对用户输入的评价文本进行预处理;2)对预处理后的手游评论进行分词和词性标注;3)选取高频的情感词作为情感特征,生成机器学习所需的全部特征向量;4)将特征向量和评价极性标签输入到SVM分类器中进行模型训练;5)用户任意输入一段评价文本,通过分词、词性标注和特征化操作之后,SVM分类器的训练模型能够自动对该评价文本进行评价极性预估;6)生成每款手游对应的评价情况,并根据好评和差评的数量,构建对应的手游好评排行榜。通过情感倾向性分析研究评论极性的方法可以延伸到各领域,具有广泛的应用前景。
【专利说明】
基于社区评论情感倾向性分析的手游排行榜构建方法
技术领域
[0001] 本发明设及情感分析的技术领域,尤其是指一种基于社区评论情感倾向性分析的 手游排行榜构建方法。
【背景技术】
[0002] 伴随着智能手机的不断普及,移动互联网的不断完善,移动游戏的发展也欣欣向 荣。手游已经成为时下手机用户的一大兴趣支柱,给各大游戏开发者和中间商带来巨大的 利益和广阔的发展空间。而面对急速增长的手游用户群体,如何推荐符合玩家兴趣偏好的 游戏给他们,尽可能地吸引更多的用户,并发展他们留存下来,成为当下手游应用中研究和 讨论的重要问题。
[0003] 显而易见,不论是在手机游戏论坛社区或者各大应用商店中,每个游戏都拥有不 同数量的用户评论,运些评论往往最能够直接的反映出了玩家对于该游戏的满意程度。通 过评论信息,人们可W表达各种情感色彩,如批评、表扬或者喜怒哀乐等。由于越来越多的 人愿意发表评论和感受,运类信息迅速增多,仅靠人工手动识别评论极性的方法很难适用 于收集和处理海量的评论,因此迫切需要智能计算机来帮助快速自动整理和分析运些相关 手游评价信息。而针对手游评论进行情感倾向性分析和文本挖掘,则能够直接统计出每个 游戏的好评和差评的数量、程度,进而可W计算出游戏的热口好评度排行,为后期手机游戏 应用市场中的广告推荐打下坚实基础。同时,对手游评论进行情感分析,也有利于对评论进 行整理和分类,潜在的用户玩家就可W通过浏览运些带有他人主观色彩的评论来了解其他 兴趣类似的玩家对于该游戏的看法,帮助潜在用户在最短的时间内了解到其余玩家对于该 游戏的不同态度,从而减少他们在选择新游戏时所花费的时间和精力,并且避免仅看到最 新评论的不利情况。
[0004] 目前,部分手游论坛或者应用商店中的评价也存在直接让用户给予好评或差评的 选项,但玩家最关屯、的往往是发表个人的意见和情感,而没有正确选择对应的情感分类。因 此,虽然运些评论有被标注情感极性的分类情况,但运些标签却不能正确反映该评论的真 实情感倾向性,从而对其他玩家造成误导,也对构建手游好评排行造成一定程度上的困难。
[0005] 当前对于中文情感倾向性分析领域的研究较多集中在微博、商品评论、新闻评论 和舆论监控上,而专口使用手游评论进行情感分析判断的研究却很少。因此,本发明着重针 对手游评论数据进行分析,从而得出手游领域对应的热口好评排行榜,提供给用户或手游 开发商使用。

【发明内容】

[0006] 本发明的目的在于克服现有技术的不足,提供一种基于社区评论情感倾向性分析 的手游排行榜构建方法,将手游社区评论划分为好评和差评两种情感。通过情感倾向性的 划分,为后期展示手游好评排行榜和提供精确的受欢迎手游推荐给用户打下坚实的基础。 通过情感倾向性分析研究评论极性的方法可W延伸到各领域,具有广泛的应用前景。
[0007] 为实现上述目的,本发明所提供的技术方案为:基于社区评论情感倾向性分析的 手游排行榜构建方法,包括W下步骤:
[0008] 1)对用户输入的评价文本进行预处理;
[0009] 2)对预处理后的手游评论进行分词和词性标注;
[0010] 3)选取高频的情感词作为情感特征,生成机器学习所需的全部特征向量;
[001U 4)将特征向量和评价极性标签输入到SVM分类器中进行模型训练;
[0012] 5)用户任意输入一段评价文本,通过分词、词性标注和特征化操作之后,SVM分类 器的训练模型能够自动对该评价文本进行评价极性预估;
[0013] 6)生成每款手游对应的评价情况,并根据好评和差评的数量,构建对应的手游好 评排行榜。
[0014] 在步骤1)中,对用户输入的评价文本进行预处理,包括去除其中的重复评论和短 时间内出现的大量虚假评论。
[0015] 所述去除重复评论的预处理,具体步骤W下包括:
[0016] 1.1)首先遍历该手游的全部游戏评论,对所有评论建立2-gram语言模型,然后计 算任意两条评论A、B的相似值J(A,B),相似度计算公式采用Jaccard相似度公式:
9
[0017] 1.2)若任意两条评价A、B之间的相似度超过预先设定的相似度阔值时,则判定评 论A、B互为重复评价,删除运样的重复评价对。
[0018] 所述去除短时间内出现的大量虚假评论的预处理,具体步骤W下包括:
[0019] 1.1)针对每一款手游,统计其评论每一天的评论数量分布情况,并求出其平均日 评论数;
[0020] 1.2)若某一天的评论总数大于预先设定阔值倍数的平均日评论数,则判定其为虚 假评论日,删除该日的全部评论。
[0021] 在步骤2)中,词性标注包括的词性有:形容词、名词、动词、连词、副词、感叹词、前 缀词、成语、数字、介词、量词、代词和标点符号。
[0022] 在步骤3)中,选取高频的情感词作为情感特征,生成机器学习所需的全部特征向 量,包括:
[0023] 读取全部手游评论,统计其中所有出现的情感词词频,选取高频的情感词作为情 感特征;
[0024] 读取全部手游评论,将每条手游评论中高频情感词的出现情况作为特征,生成机 器学习所需的全部特征向量。
[0025] 生成机器学习所需的特征向量的方法,包括:
[0026] 3.1)获取每个情感词在对应情感词典中的情感极性和情感程度,若为褒义词,贝U 情感极性为+1,若为贬义词,则情感极性为-1;
[0027] 3.2)针对每一个高频情感词特征,若该评论中出现该情感词,则此特征的值为对 应情感极性X情感程度;
[00%] 3.3)若该评论中没有出现该情感词,则此特征的值为0。
[0029]在步骤5)中,采用十折交叉验证法,将高频情感词作为特征投入SVM分类器中进行 训练,得到对应的评论情感极性分类模型,其中,80%的评论用作模型训练,20%的评论用 于测试分类模型效果。
[0030]在步骤6)中,生成每款手游对应的评价情况,并根据好评和差评的数量,构建对应 的手游好评排行榜,具体包括W下步骤:
[0031 ] 6.1)根据每款手游的不同评论,生成每条评论对应的评价极性;
[0032] 6.2)根据每款手游的好评和差评数量,统计出每款手游的好评度;
[0033] 6.3)根据每款手游的好评度,生成手游好评排行榜。
[0034] 本发明与现有技术相比,具有如下优点与有益效果:
[0035] 本发明方法基于获取到的社区评论对评价文本进行情感倾向性分析,得到对应的 评价极性;再基于每条评价的极性结果,构建出手游好评排行榜,可W直观的给用户提供手 机游戏推荐,W及减少用户在选择手游时所花费的时间。同时,本发明方法还加快判别评价 极性的速度和减少判别过程中由人为主观因素导致的不确定性。通过情感倾向性分析研究 评论极性的方法可W延伸到各领域,具有广泛的应用前景。
【附图说明】
[0036] 图1为本发明的手游排行榜构建方法流程图。
[0037] 图2为本发明的去除重复评论方法流程图。
[0038] 图3为本发明的去除虚假评论方法流程图。
【具体实施方式】
[0039] 下面结合具体实施例对本发明作进一步说明。
[0040] 如图1至图3所示,本实施例所述的基于社区评论情感倾向性分析的手游排行榜构 建方法,包括W下步骤:
[0041] 1)对用户输入的评价文本进行预处理,包括去除其中的重复评论和短时间内出现 的大量虚假评论。
[0042] 去除重复评论:
[0043] 1.1)首先遍历该手游的全部游戏评论,对所有评论建立2-gram语言模型,然后计 算任意两条评论A、B的相似值J(A,B),相似度计算公式采用Jaccard相似度公式:
[0044] 1.2)若任意两条评价A、B之间的相似度超过预先设定的相似度阔值时,则判定评 论A、B互为重复评价,删除运样的重复评价对。
[0045] 去除短时间内出现的大量虚假评论:
[0046] 1.1)针对每一款手游,统计其评论每一天的评论数量分布情况,并求出其平均日 评论数;
[0047] 1.2)若某一天的评论总数大于预先设定阔值倍数的平均日评论数,则判定其为虚 假评论日,删除该日的全部评论。
[0048] 2)对预处理后的手游评论进行分词和词性标注,其中词性标注包括的词性有:形 容词、名词、动词、连词、副词、感叹词、前缀词、成语、数字、介词、量词、代词和标点符号。
[0049] 3)选取高频的情感词作为情感特征,生成机器学习所需的全部特征向量,包括:
[0050] 读取全部手游评论,加载情感词典,统计其中所有出现在情感词典中的情感词词 频,选取高于预先设定阔值词频的高频的情感词作为机器学习所需的情感特征;
[0051] 读取全部手游评论,将每条手游评论中高频情感词的出现情况作为特征,生成构 建SVM训练模型所需的全部特征向量,如下:
[0052] 3.1)获取每个情感词在对应情感词典中的情感极性和情感程度,若为褒义词,贝U 情感极性为+1,若为贬义词,则情感极性为-1;
[0053] 3.2)针对每一个高频情感词特征,若该评论中出现该情感词,贝U
[0054] 该高频情感词特征的值=高频情感词对应的情感极性X情感强度;
[0055] 3.3)若该评论中没有出现该情感词,则此特征的值为0。
[0056] 4)将特征向量和评价极性标签输入到SVM分类器中进行模型训练;
[0057] 5)用户任意输入一段评价文本,通过分词、词性标注和特征化操作之后,SVM分类 器的训练模型能够自动对该评价文本进行评价极性预估;
[005引采用十折交叉验证法,将高频情感词作为特征投入SVM分类器中进行训练,得到对 应的评论情感极性分类模型,其中,80%的评论用作模型训练,20%的评论用于测试分类模 型效果。
[0059] 6)生成每款手游对应的评价情况,并根据好评和差评的数量,构建对应的手游好 评排行榜,具体包括W下步骤:
[0060] 6.1)根据每款手游的不同评论,生成每条评论对应的评价极性(好评或差评);
[0061] 6.2)根据每款手游的好评和差评数量,统计出每款手游的好评度
[0062] i
[0063] 6.3)根据每款手游的好评度,生成手游好评排行榜。
[0064] 综上所述,本发明方法能够实现对社区评论的情感倾向性极性的自动分析,再综 合分析结果,最终得出手游好评排行榜,直观的给玩家提供游戏的好评度信息,更有针对性 的向玩家推荐合适的游戏。另外,本发明还能够应用在热口手游自动广告推荐系统中,再结 合用户个性化推荐等技术,可W更精准的给用户推荐好评度高且适合该用户的手机游戏, 值得推广。
[0065] W上所述实施例只为本发明之较佳实施例,并非W此限制本发明的实施范围,故 凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。
【主权项】
1. 基于社区评论情感倾向性分析的手游排行榜构建方法,其特征在于,包括以下步骤: 1) 对用户输入的评价文本进行预处理; 2) 对预处理后的手游评论进行分词和词性标注; 3) 选取高频的情感词作为情感特征,生成机器学习所需的全部特征向量; 4) 将特征向量和评价极性标签输入到SVM分类器中进行模型训练; 5) 用户任意输入一段评价文本,通过分词、词性标注和特征化操作之后,SVM分类器的 训练模型能够自动对该评价文本进行评价极性预估; 6) 生成每款手游对应的评价情况,并根据好评和差评的数量,构建对应的手游好评排 行榜。2. 根据权利要求1所述的基于社区评论情感倾向性分析的手游排行榜构建方法,其特 征在于:在步骤1)中,对用户输入的评价文本进行预处理,包括去除其中的重复评论和短时 间内出现的大量虚假评论。3. 根据权利要求2所述的基于社区评论情感倾向性分析的手游排行榜构建方法,其特 征在于,所述去除重复评论的预处理,具体步骤以下包括: 1.1) 首先遍历该手游的全部游戏评论,对所有评论建立2-gram语言模型,然后计算任 意两条评论A、B的相似值J ( A,B ),相似度计算公式采用J a c c a r d相似度公式:1.2) 若任意两条评价A、B之间的相似度超过预先设定的相似度阈值时,则判定评论A、B 互为重复评价,删除这样的重复评价对。4. 根据权利要求2所述的基于社区评论情感倾向性分析的手游排行榜构建方法,其特 征在于,所述去除短时间内出现的大量虚假评论的预处理,具体步骤以下包括: 1.1) 针对每一款手游,统计其评论每一天的评论数量分布情况,并求出其平均日评论 数; 1.2) 若某一天的评论总数大于预先设定阈值倍数的平均日评论数,则判定其为虚假评 论日,删除该日的全部评论。5. 根据权利要求1所述的基于社区评论情感倾向性分析的手游排行榜构建方法,其特 征在于,在步骤2)中,词性标注包括的词性有:形容词、名词、动词、连词、副词、感叹词、前缀 词、成语、数字、介词、量词、代词和标点符号。6. 根据权利要求1所述的基于社区评论情感倾向性分析的手游排行榜构建方法,其特 征在于,在步骤3)中,选取高频的情感词作为情感特征,生成机器学习所需的全部特征向 量,包括: 读取全部手游评论,统计其中所有出现的情感词词频,选取高频的情感词作为情感特 征; 读取全部手游评论,将每条手游评论中高频情感词的出现情况作为特征,生成机器学 习所需的全部特征向量。7. 根据权利要求6所述的基于社区评论情感倾向性分析的手游排行榜构建方法,其特 征在于,生成机器学习所需的特征向量的方法,包括: 3.1) 获取每个情感词在对应情感词典中的情感极性和情感程度,若为褒义词,则情感 极性为+1,若为贬义词,则情感极性为-1; 3.2) 针对每一个高频情感词特征,若该评论中出现该情感词,则此特征的值为对应情 感极性X情感程度; 3.3) 若该评论中没有出现该情感词,则此特征的值为O。8. 根据权利要求1所述的基于社区评论情感倾向性分析的手游排行榜构建方法,其特 征在于:在步骤5)中,采用十折交叉验证法,将高频情感词作为特征投入SVM分类器中进行 训练,得到对应的评论情感极性分类模型,其中,80%的评论用作模型训练,20%的评论用 于测试分类模型效果。9. 根据权利要求1所述的基于社区评论情感倾向性分析的手游排行榜构建方法,其特 征在于,在步骤6)中,生成每款手游对应的评价情况,并根据好评和差评的数量,构建对应 的手游好评排行榜,具体包括以下步骤: 6.1) 根据每款手游的不同评论,生成每条评论对应的评价极性; 6.2) 根据每款手游的好评和差评数量,统计出每款手游的好评度; 6.3) 根据每款手游的好评度,生成手游好评排行榜。
【文档编号】G06Q30/06GK106022878SQ201610333699
【公开日】2016年10月12日
【申请日】2016年5月19日
【发明人】董守斌, 薛梦婷, 张晶, 胡金龙, 董守玲
【申请人】华南理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1