一种中文虚假顾客评论识别方法_2

文档序号:8543668阅读:来源:国知局
S5优势不是很明显。电池够用,发明人百分之S十的电用了一下午,估计二天一充吧。发热 不严重,该点比S5强。通话声音好,比较大。安装程序不多,够用,一般占1G内存左右,S5 可是要占1.3G。缺点;程序不够流畅,音质较差。照相不行,清晰度不够。外表没有高端机 那么漂亮,但是漂亮不能当饭吃,S5漂亮、配置高,但质量极差,看你的选择了。总结:值得 购买,支持国货,抵制洋货。
[0037] 7)小杨网购65,手机收到了,好评!
[0038] 8)超级买卖114,宝贝收到了,手机的灵敏度蛮高的,色彩非常好,外观精致大气, 机身做工细腻,触频的反应也很快。上网下载的速度也很快,像素很高,操作灵敏,系统很流 畅,是一款性价比超高的智能机
[0039] 9)aavkbai.宝贝收到了,手机的灵敏度蛮高的,色彩非常好,外观精致大气,机身 做工细腻,触频的反应也很快。上网下载的速度也很快,像素很高,操作灵敏,系统很流畅, 是一款性价比超高的智能机
[0040] 10)3466434958,老实说吧,在买着手机之前发明人就去太平洋电脑网看点评,各 种差评;1.预置软件多,占用内存大(其实有挺多软件可W手动删除的,内存使用都在1G 左右,其实都够用的了,流畅,那种游戏发烧友也不看看什么价钱的货)2.扬声器垃圾,音 质差(个人感觉还好,只要不出现沙沙的声人声变形就0K了,音量比之前的小米大,挺好 的)3.屏幕易碎(该个还有待W后确认)4.机子发热厉害(看你玩什么了,发明人用过几 部手机吧都是不同牌子的,觉得发热也不厉害,相对来说算好的了)5.实际像素没参数里 的该么好(个人反复拍,该个确实是有点差,前镜头还好,后镜头画质真的一般般)总的来 说还是值得买的,性价比高。。。上述是本人个人看法。还有发明人个人挺喜欢小米的系统 的,所W没买华为荣耀3,挣扎纠结很久了,总之没让发明人失望吧!说该么多好像很假,哈 哈
[0041] 词频特征提取;由于样本较小,为免结果矩阵太过稀疏,只计算名词、形容词、动 词、副词分布为示例,输出结果如下:
[0042]
【主权项】
1. 一种中文虚假顾客评论识别方法,包括如下步骤: a) 评论数据逐条读入; b) 将评论进行分词,得到语句的词性序列、语法成分与结构特征; c) 至少分为以下二部分对一条评论同时进行特征提取:词数分布离群度特征提取、情 感分布离群度特征提取; 根据提取的结果,将离群度值超过设定阈值的评论标记为虚假评论。
2. 如权利要求1所述的中文虚假顾客评论识别方法,其特征是:所述词数分布离群度 特征提取包括如下步骤: 对各词性词数进行统计; 建立商品的词数向量库,统计词数的总体分布; 将评论的词数特征向量与该商品的词数总体分布比较,计算出该评论的词数分布离群 度。
3. 如权利要求2所述的中文虚假顾客评论识别方法,其特征是:词数分布离群度的计 算是用各维比例与总比例相减,然后取绝对值求和。
4. 如权利要求1或2所述的中文虚假顾客评论识别方法,其特征是:情感分布离群度 特征提取包括如下步骤: 依据语法分析对原句进行搭配提取,搭配包括主题词、情感词和程度词; 将无情感搭配的评论视为无效评论,进行记录; 基于词语的相似度,对主题词进行匹配,确定搭配所描述的商品属性,如果无法匹配, 则视为不相关评论进行记录; 依据情感词和程度词词库,对搭配进行情感分析,得出评论的情感向量; 建立商品的情感向量库,统计情感值的总体分布; 将评论的情感特征向量与该商品的情感总体分布比较,计算出该评论的情感分布离群 度。
5. 如权利要求1所述的中文虚假顾客评论识别方法,其特征是:情感离群度的计算是 用不为零的属性情感值与总属性相减,取绝对值求和,再除以不为零的属性个数;其中, 总情感值:即情感值求和,将每条评论的六维情感值相加,得到情感总值; 情感值不为零的评论数:将每一维情感值不为零的评论的条数做统计; 平均情感值:每一维总和除以该维不为零的评论数; 情感离群度计算:每条评论不为零的维度与该维度的平均值的差求绝对值,然后各维 度取平均。
6. 如权利要求1所述的中文虚假顾客评论识别方法,其特征是:还包括如下第三部分 对一条评论同时进行特征提取:模板评论与重复评论特征提取。
7. 如权利要求6所述的中文虚假顾客评论识别方法,其特征是:模板评论与重复评论 特征提取包括如下步骤: 对原句结构特征序列进行编码; 建立商品的评论结构编码库; 查找编码库是否有相同的编码,如果有,将评论模板特征置1,并将编码相同的评论的 用户名记录,视为疑似团伙评论; 再从编码相同的评论中,查找是否为同一用户的重复评论,将用户重复评论数设为重 复评论特征。
8. 如权利要求6或7所述的中文虚假顾客评论识别方法,其特征是:还包括如下步骤: d) 用虚假评论的词数分布离群度、情感分布离群度、模板特征与重复评论特征训练分 类器; e) 用分类器对新的评论进行虚假评论识别,输出识别结果,并更新各库; f) 结合大量商品的识别结果,判断是否存在刷评论的团伙或者不良用户。
9. 如权利要求8所述的中文虚假顾客评论识别方法,其特征是:分类器为逻辑回归分 类。
10. 如权利要求7所述的中文虚假顾客评论识别方法,其特征是:将某一商品评论所有 编码序列存储在数据库,检索有没有该编码序列相同的评论,如果有,这一维特征值就为1, 没有就为0 ;或者不将编码序列存储,而只是存储其长度、奇数位和、偶数位和三个数值,再 将这三个数值串联转化为字符串,通过比较该字符串判断编码是否相同。
【专利摘要】本发明涉及一种中文虚假顾客评论识别方法,包括如下步骤:a)评论数据逐条读入;b)将评论进行分词,得到语句的词性序列、语法成分与结构特征;c)至少分为以下二部分对一条评论同时进行特征提取:词数分布离群度特征提取、情感分布离群度特征提取;根据提取的结果,将离群度值超过设定阈值的评论标记为虚假评论。本发明具有以下优势:添加了顾客评论内容的情感分析,很好地识别了无效评论和不相关评论,并计算了评论的情感离群度,提高了中文虚假评论的识别率。
【IPC分类】G06F17-30, G06F17-27
【公开号】CN104866468
【申请号】CN201510164626
【发明人】李秀, 闫欣伟, 杜佳, 陈 胜
【申请人】清华大学深圳研究生院, 深圳市标准技术研究院
【公开日】2015年8月26日
【申请日】2015年4月8日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1