一种中文虚假顾客评论识别方法

文档序号:8543668阅读:805来源:国知局
一种中文虚假顾客评论识别方法
【技术领域】
[0001] 本发明设及一种中文虚假顾客评论识别方法,能够较快较准确地识别出国内电商 网站的虚假顾客评论。 技术背景
[0002] 随着电子商务的迅速发展,对于虚假顾客评论的自动识别显得越来越重要。顾客 评论是解决网络交易中交易双方相互信任、W及弥补商品缺乏实体体验问题的关键一环, 可W说在网上交易中诚信的价值更加凸显。但如果评论本身是虚假的,那么交易的根基就 会受到影响;如果任由该种虚假评论泛滥,那么它所损害的就不仅是交易双方,而是整个电 子商务产业。
[0003] 但现在尚无应用于电商平台的中文虚假顾客评论自动识别系统。现有的技术在提 取虚假评论特征时,仅通过词频特征和一些外部特征(如用户评论时间间隔、用户打分)刻 画虚假评论,并未考虑评论内容本身的情感特征;而且只能识别完全相同的重复评论,不能 识别模板评论;对团伙评论识别也无能为力。
[0004] 比如邓莎莎等人2014年在《系统管理学报》提出的基于欺骗语言线索的虚假评 论识别方法,其虚假评论特征选取为;名词动词和功能词的词频分布、表示时空词语所占比 例、实体名称词频、感觉性动词词频、人称代词词频。利用该些特征训练分类器,可W-定程 度上识别虚假评论。但该种通过词频特征和其他外部特征的虚假评论识别算法,识别率较 低。

【发明内容】

[0005] 本发明的目的在于提供一种中文虚假顾客评论识别方法,克服现有技术识别率低 的问题,W便能够较快较准确地识别出国内电商网站的虚假顾客评论。
[0006] 为此,本发明提出一种中文虚假顾客评论识别方法,包括如下步骤;a)评论数据 逐条读入;b)将评论进行分词,得到语句的词性序列、语法成分与结构特征;C)至少分为W 下二部分对一条评论同时进行特征提取;词数分布离群度特征提取、情感分布离群度特征 提取;根据提取的结果,将离群度值超过设定阔值的评论标记为虚假评论。
[0007] 本发明具有W下优势:添加了顾客评论内容的情感分析,很好地识别了无效评论 和不相关评论,并计算了评论的情感离群度,提高了中文虚假评论的识别率。
[000引在优选实施例中,本发明还对评论句子的结构信息编码,识别了模板评论与重复 评论,为识别不良用户和团伙提供了基础;通过构建新的特征体系与识别方法,进一步提高 了中文虚假评论的识别率。
【附图说明】
[0009] 图1是本发明实施例的流程图。
【具体实施方式】
[0010] 本发明实施例的提出一部分是基于发明人的如下发现,即发现现有技术识别率低 的原因在于如下方面:
[0011] 首先,它不考虑评论的内容,即不能正面判断评论的真与假,仅通过词频特征来区 分,在中文语言丰富多样的情况下,难W保证识别率,说服力也较低。
[0012] 其次,词频特征和外部特征难W识别非针对商品本身的评论和非评论语句。
[0013] 再次,现有技术只能识别完全一样的重复评论,不能识别使用模板的评论。
[0014] 最后,利用用户评论时间间隔等特征不能识别互换语句、使用模板团伙评论。
[0015] 本发明实施例的算法程序流程图如图1所示。其步骤如下所述:
[0016]a).评论数据逐条读入;
[0017]b).利用开源中文分词工具(如化danNL巧将评论进行分词,得到语句的词性序 列、语法成分与结构特征;
[0018] C).该里分为W下S部分对一条评论同时进行特征提取;
[0019] 1.词数分布离群度特征提取:
[0020] ①对各词性词数进行统计,在现有方法上对统计对象进行丰富,包括能愿动词, 专有名,形谓词,叹词,名词,趋向动词,人称代词,人名,把动词,量词,疑问代词, 限定词,运算符,副词,时态词,网址,指示代词,省略词,表情符,方位词,语气词, 机构名,时间短语,拟声词,动词,被动词,形容词,序数词,并列连词,品牌名,介 词,型号名,标点,数词,地名,结构助词,事件名,从属连词,惯用词等,产生词数向 量;
[0021] ②建立商品的词数向量库,统计词数的总体分布。
[0022] ⑨将评论的词数特征向量与该商品的词数总体分布比较,计算出该评论的词数分 布罔群度;
[0023] 2.情感分布离群度特征提取:
[0024] ①依据语法分析对原句进行搭配提取,搭配应包括主题词(名称或行为),情感词 (表达褒贬态度)和程度词(表达情感强烈程度),每句评论一般有多组情感搭配;
[0025] ②将无情感搭配的评论视为无效评论,进行记录;
[0026] ⑨基于词语的相似度,对主题词进行匹配,确定搭配所描述的商品属性(如价格、 质量、外观、服务等等),如果无法匹配,则视为不相关评论进行记录。
[0027] ④依据情感词和程度词词库,对搭配进行情感分析,得出评论的情感向量。
[002引⑥建立商品的情感向量库,统计情感值的总体分布。
[0029] ⑧将评论的情感特征向量与该商品的情感总体分布比较,计算出该评论的情感分 布罔群度;
[0030] 词频离群度与情感离群度特征提取的例子;W下面10句评论说明如何对评论进 行词频离群度与情感离群度特征提取,输入的10句评论为:
[0031] 1)忧5700084_2011,用了差不多两周了,屏幕挺大,摄像头像素高,挺清晰的,拍照 效果好。电池3100很耐用
[0032] 2)shuangzaozeng.手机感觉不错,很实用,挺满意
[0033] 3)s」ane21,用了近半个月,手机运行速还不错,很流畅。手机音质也很好,外放 挺大。前置摄像头不错,后置摄像头似乎没1300百万那么理想。安装了很多软件兼容性不 错,手机拿到没有太多垃圾软,经过官网升级达到最新。总体很满意,899性价比很高!服务 很温和,比较满意!
[0034] 4)qq535076804,手机很大气哦,很薄很轻,手机的灵敏度蛮高的,色彩非常好,外 观精致高端大气,机身做工精致,触频的反应也很快。上网下载的速度也很快,像素很高,操 作灵敏,系统很流畅,是一款性价比超高的智能机!!
[0035] 5)xinningllz.红米NOTE外观难看,质量也不好,差评!
[0036] 6)znh2146566,用了一天,感觉摸透了手机,说说优缺点。优点:手感不错,屏幕在 应用较亮的主题情况下显示不错,和高清屏差距不是太大,肉眼难W分辨,发明人用的=星
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1