一种中文虚假顾客评论识别方法_2

文档序号：8543668阅读：来源：国知局

S5优势不是很明显。电池够用，发明人百分之S十的电用了一下午，估计二天一充吧。发热不严重，该点比S5强。通话声音好，比较大。安装程序不多，够用，一般占1G内存左右，S5 可是要占1.3G。缺点；程序不够流畅，音质较差。照相不行，清晰度不够。外表没有高端机那么漂亮，但是漂亮不能当饭吃，S5漂亮、配置高，但质量极差，看你的选择了。总结：值得购买，支持国货，抵制洋货。
[0037] 7)小杨网购65,手机收到了，好评！
[0038] 8)超级买卖114,宝贝收到了，手机的灵敏度蛮高的，色彩非常好，外观精致大气，机身做工细腻，触频的反应也很快。上网下载的速度也很快，像素很高，操作灵敏，系统很流畅，是一款性价比超高的智能机
[0039] 9)aavkbai.宝贝收到了，手机的灵敏度蛮高的，色彩非常好，外观精致大气，机身做工细腻，触频的反应也很快。上网下载的速度也很快，像素很高，操作灵敏，系统很流畅，是一款性价比超高的智能机
[0040] 10)3466434958,老实说吧，在买着手机之前发明人就去太平洋电脑网看点评，各种差评；1.预置软件多，占用内存大（其实有挺多软件可W手动删除的，内存使用都在1G 左右，其实都够用的了，流畅，那种游戏发烧友也不看看什么价钱的货）2.扬声器垃圾，音质差（个人感觉还好，只要不出现沙沙的声人声变形就0K了，音量比之前的小米大，挺好的）3.屏幕易碎（该个还有待W后确认）4.机子发热厉害（看你玩什么了，发明人用过几部手机吧都是不同牌子的，觉得发热也不厉害，相对来说算好的了）5.实际像素没参数里的该么好（个人反复拍，该个确实是有点差，前镜头还好，后镜头画质真的一般般）总的来说还是值得买的，性价比高。。。上述是本人个人看法。还有发明人个人挺喜欢小米的系统的，所W没买华为荣耀3,挣扎纠结很久了，总之没让发明人失望吧！说该么多好像很假，哈哈
[0041] 词频特征提取；由于样本较小，为免结果矩阵太过稀疏，只计算名词、形容词、动词、副词分布为示例，输出结果如下：
[0042]
【主权项】
1. 一种中文虚假顾客评论识别方法，包括如下步骤： a) 评论数据逐条读入； b) 将评论进行分词，得到语句的词性序列、语法成分与结构特征； c) 至少分为以下二部分对一条评论同时进行特征提取：词数分布离群度特征提取、情感分布离群度特征提取；根据提取的结果，将离群度值超过设定阈值的评论标记为虚假评论。
2. 如权利要求1所述的中文虚假顾客评论识别方法，其特征是：所述词数分布离群度特征提取包括如下步骤：对各词性词数进行统计；建立商品的词数向量库，统计词数的总体分布；将评论的词数特征向量与该商品的词数总体分布比较，计算出该评论的词数分布离群度。
3. 如权利要求2所述的中文虚假顾客评论识别方法，其特征是：词数分布离群度的计算是用各维比例与总比例相减，然后取绝对值求和。
4. 如权利要求1或2所述的中文虚假顾客评论识别方法，其特征是：情感分布离群度特征提取包括如下步骤：依据语法分析对原句进行搭配提取，搭配包括主题词、情感词和程度词；将无情感搭配的评论视为无效评论，进行记录；基于词语的相似度，对主题词进行匹配，确定搭配所描述的商品属性，如果无法匹配，则视为不相关评论进行记录；依据情感词和程度词词库，对搭配进行情感分析，得出评论的情感向量；建立商品的情感向量库，统计情感值的总体分布；将评论的情感特征向量与该商品的情感总体分布比较，计算出该评论的情感分布离群度。
5. 如权利要求1所述的中文虚假顾客评论识别方法，其特征是：情感离群度的计算是用不为零的属性情感值与总属性相减，取绝对值求和，再除以不为零的属性个数；其中，总情感值：即情感值求和，将每条评论的六维情感值相加，得到情感总值；情感值不为零的评论数：将每一维情感值不为零的评论的条数做统计；平均情感值：每一维总和除以该维不为零的评论数；情感离群度计算：每条评论不为零的维度与该维度的平均值的差求绝对值，然后各维度取平均。
6. 如权利要求1所述的中文虚假顾客评论识别方法，其特征是：还包括如下第三部分对一条评论同时进行特征提取：模板评论与重复评论特征提取。
7. 如权利要求6所述的中文虚假顾客评论识别方法，其特征是：模板评论与重复评论特征提取包括如下步骤：对原句结构特征序列进行编码；建立商品的评论结构编码库；查找编码库是否有相同的编码，如果有，将评论模板特征置1，并将编码相同的评论的用户名记录，视为疑似团伙评论；再从编码相同的评论中，查找是否为同一用户的重复评论，将用户重复评论数设为重复评论特征。
8. 如权利要求6或7所述的中文虚假顾客评论识别方法，其特征是：还包括如下步骤： d) 用虚假评论的词数分布离群度、情感分布离群度、模板特征与重复评论特征训练分类器； e) 用分类器对新的评论进行虚假评论识别，输出识别结果，并更新各库； f) 结合大量商品的识别结果，判断是否存在刷评论的团伙或者不良用户。
9. 如权利要求8所述的中文虚假顾客评论识别方法，其特征是：分类器为逻辑回归分类。
10. 如权利要求7所述的中文虚假顾客评论识别方法，其特征是：将某一商品评论所有编码序列存储在数据库，检索有没有该编码序列相同的评论，如果有，这一维特征值就为1，没有就为0 ;或者不将编码序列存储，而只是存储其长度、奇数位和、偶数位和三个数值，再将这三个数值串联转化为字符串，通过比较该字符串判断编码是否相同。
【专利摘要】本发明涉及一种中文虚假顾客评论识别方法，包括如下步骤：a)评论数据逐条读入；b)将评论进行分词，得到语句的词性序列、语法成分与结构特征；c)至少分为以下二部分对一条评论同时进行特征提取：词数分布离群度特征提取、情感分布离群度特征提取；根据提取的结果，将离群度值超过设定阈值的评论标记为虚假评论。本发明具有以下优势：添加了顾客评论内容的情感分析，很好地识别了无效评论和不相关评论，并计算了评论的情感离群度，提高了中文虚假评论的识别率。
【IPC分类】G06F17-30, G06F17-27
【公开号】CN104866468
【申请号】CN201510164626
【发明人】李秀, 闫欣伟, 杜佳, 陈胜
【申请人】清华大学深圳研究生院, 深圳市标准技术研究院
【公开日】2015年8月26日
【申请日】2015年4月8日

完整全部详细技术资料下载

当前第2页1 2