一种中文评论分析方法及其系统的制作方法

文档序号:6634818阅读:178来源:国知局
一种中文评论分析方法及其系统的制作方法
【专利摘要】本发明适用于收集中文“伪评论”语料,公开了一种中文评论分析方法,对用户的中文评论进行分析以确定其是否可作为语料,用户向网站提交评论,网站前台向控制中心发送分析请求,控制中心将其传递至分析部件,分析部件对其进行分主题分析,分词服务器进行分词和词性标注,分析部件依次进行句法分析和情感分析,数据中心将分析结论保存至用户评论表中。本发明提供的一种中文评论分析方法,控制中心能够直接通过主题分析来排除不合格语料,而且分析部件依次对用户评论进行句法分析和情感倾向分析,有效地得出中文评论的情感倾向结论,提高分析系统的准确度,此时管理员可以只浏览倾向性为正的评论,以确定它是否符合要求。
【专利说明】一种中文评论分析方法及其系统 【【技术领域】】
[0001 ] 本发明涉及一种中文评论分析方法,特别涉及一种中文宣传性"伪评论"搜集时的 分析方法及其系统。 【【背景技术】】
[0002] 我国"十二五"信息化规划明确提出了 "提高网络舆情监测能力"、"网络有害信息 监测和管控能力"的互联网信息化发展目标,并规划建立针对互联网信息的"检测评估和监 测预警等技术支撑体系"。可见网络舆情、互联网信息监控已经成为国家信息化战略层面的 重要任务。而其中一个关键基础技术是情感分析(SentimentAnalysis),即本发明的关键 技术之一。
[0003] 情感分析,又称观点挖掘(OpinionMining),是指通过挖掘文本中的观点、看法、 情绪、好恶等主观信息,对文本的情感倾向做出类别判断。情感有着宽泛的内涵,可以是人 们对于产品、社会的判断,也可是一种审美态度。文本的情感倾向是指文本所反映的倾向性 以及其情感倾向强度,视不同的用途有不同的分类标准。
[0004] 除了在互联网舆情监控领域的应用,情感分析也被广泛应用于生活信息服务、医 疗服务等关系民生的众多行业。用户上网查询相关产品的评论,并通过对比来做出最终的 购买决策;卫生保健系统来评估病人的态度,以提供更好的处方。本项目关注的是文本情感 分析在电子商务中的应用。
[0005] 互联网上垃圾评论无处不在,如社区中的垃圾评论、博客中的垃圾评论、电子商务 网站中有关广品的垃圾评论等,不同的垃圾评论各有特点。电子商务网站中,有些特殊的 评论:有的评论把好的产品/服务说成是不好的,有的把不好的产品/服务说成是好的,这 两类评论合称为"伪评论",伪评论是垃圾评论的一种。在现实中,这两类评论都是非常有害 的,前者损害商家的利益,后者损害消费者的利益。但是,伪评论与真实评论混在一起,用人 工的方法很难区分开来。
[0006] 伪评论的识别需要借助于文本情感分析技术,该技术本质上是自动文本分类的一 种,在文本分类中常用的训练数据集(又称语料)获取方法是人工标注。但是,"伪评论"是 人工不可识别的,也就是说,无法采用专家标注的方法对其进行标注。
[0007] 我们对现有的观点挖掘语料进行了调查,TREC【TREC(TextRetrieval Conference),文本检索会议】设置的BlogTrack、NTCIR的评测MOAT、中文倾向性分析评测 COAE系列提供了一定规模的中文观点挖掘语料。除此之外,不少研宄单位和个人也提供了 一定规模的观点挖掘语料。但是,迄今为止,我们未发现专门用于中文伪评论检测的语料。
[0008] Ott等人针对伪评论难于获得的问题,借助AmazonMechanicalTurk平台,分配 了 400个HIT(Human-IntelligenceTasks)任务,收集了 400篇欺骗性垃圾评论(宣传性 的"伪评论"),实验结论表明crowdsourcing是有效的。不幸的是,国内没有这样的平台; 我们国内的用户又不可能到AmazonMechanicalTurk平台上找活做。
[0009] 目前既没有垃圾产品评论分析用的中文语料,也没有相关的中文评论语料收集网 站。为了取得"伪评论"语料,我们需要自己开发一个类似于AmazonMechanicalTurk的 平台。已有的研宄及实践为本项目研发提供了许多可供借鉴的思路与技术准备,但还需做 进一步整合与改进。 【
【发明内容】

[0010] 本发明的目的在于克服上述现有技术的不足,提供一种中文评论分析方法及其系 统,其旨在解决现有技术中无法对伪评论进行自动区分、对网站的评论进行情感倾向分析 不准确的技术问题。
[0011] 为实现上述目的,本发明提出了一种中文评论分析方法,对用户提交的中文评论 进行分析,其具体步骤如下:
[0012] A)用户向网站提交评论,网站前台对用户的评论进行整理后,将整理的用户评论 传递至数据中心,并向控制中心发送分析请求;
[0013] B)数据中心收到用户评论后,将其记录在用户评论表中,并为每一条用户评论添 加是否已经分析过的分析标注;
[0014] C)控制中心收到请求后,主动与数据中心连接,数据中心将所有分析标注为未分 析的用户评论传递至控制中心;
[0015] D)控制中心收到用户评论后,将其传递至分析部件;
[0016] E)分析部件收到用户评论后,对其进行分主题分析,如果用户评论的主题与其评 论的产品相关,则将用户评论传递至分词服务器,并转至步骤F);如果用户评论的主题与 其评论的产品无关,则直接生成"主题无关"的分析结论,并转至步骤H);
[0017]F)分词服务器收到用户评论后,对用户评论进行分词和词性标注,并将带有词性 标注的用户评论返回到分析部件;
[0018] G)分析部件收到带有词性标注的用户评论后,依次进行句法分析和情感分析,得 出该用户评论的情感倾向的分析结论,并将该分析结论传递到本地存储中进行存储;
[0019] H)分析部件将得出的分析结论反馈至控制中心,控制中心在收到分析结论后,将 其传递到数据中心进行存储;
[0020] I)数据中心收到分析结论后,将分析结论保存至用户评论表中,并将其相对应的 用户评论的分析标注更改为已标注;
[0021] J)当管理员需要审核分析结论时,管理员通过监管平台对数据中心的分析结论进 行操作;
[0022] K)网站主动与数据中心处读取分析结论,并当用户请求了解评论结论时,网站将 该分析结论展示给用户。
[0023] 作为优选,步骤G)包括以下具体步骤:
[0024] Gl)分析部件收到分词服务器传来的用户评论后,采用基于正则表达式的匹配方 法对其进行句法分析,根据用户评论中的短语构成,将其组合成不同短句,得出句法分析结 论;
[0025]G2)根据情感分析资源,对组合后的短句中的形容词、动词、名词和情感符号进行 情感极性判断,并得出用户评论的初步倾向结论;
[0026] G3)根据情感分析资源,对带有词性标注的短句中的副词进行情感标注,并根据初 步倾向结论,得出情感倾向结论;
[0027] G4)用句法关系找到情感短语所评价的情感对象,形成若干个〈情感对象,情感短 语〉二元对。对不同的情感对象赋予不同的权值,采用加权方法,得出整个用户评论的情感 结论,当情感结论为正倾向性时,分析部件生成"基本符合要求,等待审核"的分析结论;当 情感结论为负倾向性是,分析部件生成"不合格评论,需要正面评论"的分析结论;
[0028] G5)将句法分析结论和倾向性分析结果单独存储至本地存储中。
[0029] 作为优选,步骤K)包括以下具体步骤:
[0030]Kl)为当管理员需要查看分析结论时,监管平台将审核请求传递至数据中心;
[0031] K2)数据中心收到审核请求后,将分析标注为已标注的用户评论所对应的分析结 论传递至监管平台;
[0032] K3)监管平台收到分析结论后,将分析结论展示给管理员,管理员对其查看或者修 改;
[0033] K4)在管理员完成操作后,监管平台生成相对应的审核结论,并将审核结论回复至 数据中心;
[0034] K5)数据中心收到审核结论后,将审核结论添加至用户评论表中的分析结论中形 成新的分析结论。
[0035] 作为优选,所述的分词服务器以中科院计算所的NLPIR/ICTCLAS2014DLL模块为 核心。
[0036] 作为优选,在步骤A)中,整理后的用户评论还包括评价用户的ID和评价的产品类 型,在步骤E)中,主题分析根据产品类型的特征数据库来判断用户评论是否包含相对应的 产品类型名称或者产品品牌名称。
[0037] 作为优选,所述的网站前台、控制中心、分析部件和分词服务器均采用基于Socket 的数据传输方式,网站前台作为Socket客户端发送请求消息给控制中心,控制中心作为 Socket服务端进行监听,分析部件作为Socket客户端发送消息给分词服务器,分词服务器 作为Socket服务器端进行监听。
[0038] 作为优选,所述的数据中心采用数据库技术对网站前台、控制中心和监管平台传 递的不同数据进行管理。
[0039] 为了更好地实现本发明的技术目的,本发明还提出了一种中文评论分析系统,采 用上述的一种中文评论分析方法,包括与用户交互的网站前台、存储用户评论的数据中心、 与网站前台及数据中心相连的控制中心、对用户评论进行分词和标注的分词服务器、对分 词后的用户评论进行分析的分析部件、与管理员交互的监管平台和存储分析结论的本地存 储;
[0040] 所述的网站前台传递分析请求至控制中心,所述的控制中心将用户评论传递至分 析部件,所述的分析部件将用户评论传递至分词服务器,所述的分词服务器将带有词性标 注的用户评论回馈至分析部件,所述的分析部件回馈分析结论至控制中心,所述的数据中 心分别接收网站前台传递的用户评论数据、控制中心传递的分析结论和监管平台的审核结 论。
[0041] 本发明的有益效果:与现有技术相比,本发明提供的一种中文评论分析方法,结构 合理,采用控制中心和数据中心来协调、连接各部件的工作。当用户从前台提交一个评论 时,控制中心能够直接通过主题分析来排除不相关评论,使得只有主题相关的用户评论才 能进行下一步的分析,而且分析部件依次对用户评论进行句法分析和情感倾向分析,有效 地得出中文评论的情感倾向结论,提高分析系统的准确度,此时管理员可以只浏览倾向性 为正的评论,以确定它是否符合要求,从而减轻管理员处理伪评论的工作量,提高伪评论收 集的效率,而用户也可以得知自己所提交的评论是否符合要求。
[0042] 本发明的特征及优点将通过实施例结合附图进行详细说明。 【【专利附图】

【附图说明】】
[0043] 图1是本发明实施例的流程示意图;
[0044] 图2是本发明实施例的分析部件的部分流程示意图。 【【具体实施方式】】
[0045] 为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图中及实施例,对 本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发 明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以 避免不必要地混淆本发明的概念。
[0046] 参阅图1和图2,本发明实施例提供一种中文评论分析方法,以用户的中文评论作 为语料进行分析,其具体步骤如下:
[0047] A)用户向网站提交评论,网站前台1对用户的评论进行整理后,向控制中心2发送 分析请求,并将整理的用户评论传递至数据中心3。
[0048] 其中,网站前台1和控制中心2采用基于Socket的数据传输方式,Socket通常也 称作"套接字",应用程序通常通过"套接字"向网络发出请求或者应答网络请求。根据连接 启动的方式以及本地套接字要连接的目标,套接字之间的连接过程可以分为三个步骤:月艮 务器监听,客户端请求,连接确认。
[0049] 服务器监听:服务器端套接字并不定位具体的客户端套接字,而是处于等待连接 的状态,实时监控网络状态。
[0050] 客户端请求:由客户端的套接字提出连接请求,要连接的目标是服务器端的套接 字。为此,客户端的套接字必须首先描述它要连接的服务器的套接字,指出服务器端套接字 的地址和端口号,然后就向服务器端套接字提出连接请求。
[0051] 连接确认:当服务器端套接字监听到或者说接收到客户端套接字的连接请求,它 就响应客户端套接字的请求,建立一个新的线程,把服务器端套接字的描述发给客户端,一 旦客户端确认了此描述,连接就建立好了。而服务器端套接字继续处于监听状态,继续接收 其他客户端套接字的连接请求。
[0052] 在此种结构中,网站前台1作为Socket客户端发送请求消息给控制中心2,控制中 心2作为Socket服务端进行监听。也就是说用户通过网络查看相关资料介绍、撰写并提交 评论给网站前台1后,网站通过网络套接字,向控制中心2发送分析请求,由控制中心2触 发系统开始工作。
[0053] B)数据中心3收到用户评论后,将其记录在用户评论表中,并为每一条用户评论 添加是否已经分析过的分析标注。
[0054] C)控制中心2收到请求后,主动与数据中心3连接,数据中心3将所有分析标注为 未分析的用户评论传递至控制中心2。
[0055] D)控制中心2收到用户评论后,将其传递至分析部件4。
[0056]E)分析部件4收到用户评论后,对其进行分主题分析,如果用户评论的主题与其 评论的产品相关,则将分词后的用户评论传递至分词服务器5,并转至步骤F);如果用户评 论的主题与其评论的产品无关,则直接生成"主题无关"的分析结论,并转至步骤H)。
[0057] 其中,分析部件4和分词服务器5也采用基于Socket的数据传输方式,分析部件 4作为Socket客户端发送消息给分词服务器5,分词服务器5作为Socket服务器端进行监 听。也就是说,分析部件4在工作过程中,对通过主题分析的用户评论进行进一步处理时, 需要与分词服务器5进行通信,分词服务器5作为Socket服务器端,通过设置的端口号进 行监听,如果收到分析部件4这个端口的连接请求则建立连接,获取数据并将处理结论返 回给分析部件4。
[0058]F)分词服务器5收到用户评论后,对用户评论进行分词和词性标注,并将带有词 性标注的用户评论回复至分析部件4。
[0059] 其中,分词服务器5是封装中科院计算所的NLPIR/ICTCLAS2014DLL模块得到的, 采用端口监听的方式工作。分词服务器5采用Socket形式提供服务,由分析部件4把需要 标注的参数形式、评论文本及应用相关的用户词典组织好,发给分词服务器5,处理完成之 后把带词性标注的文本返回给分析部件4。
[0060] G)分析部件4收到带有词性标注的用户评论后,依次进行句法分析和情感分析, 得出该用户评论的情感倾向的分析结论,并将该分析结论传递到本地存储6中进行存储。
[0061] 由于NLPIR/ICTCLAS2014分词系统名词识别及词性标注较准确,但是有关动词的 知识提供得并不多,所以,对于NLPIR/ICTCLAS2014分词系统标注过词性的用户评论,分析 部件4还需要进一步处理,补充动词的相关知识,以提高动词短语结构分析的准确率。
[0062]H)分析部件4将得出的分析结论反馈至控制中心2,控制中心2在收到分析结论 后,将其又传递至数据中心3进行存储。
[0063] I)数据中心3收到分析结论后,将分析结论保存至用户评论表中,并将其相对应 的用户评论的分析标注更改为已标注。
[0064] J)当管理员需要审核分析结论时,管理员通过监管平台7对数据中心3的分析结 论进行操作。
[0065] K)网站主动与数据中心3处读取分析结论,并当用户请求了解评论结论时,网站 将该分析结论展示给用户。
[0066] 在本发明的实施例中,采用控制中心2为核心。控制中心2监听来至前台网站的 分析请求,调用各个模块工作,处理网站传送过来的请求。其中,控制中心2被设计为易扩 展的,可通过简单地添加功能函数、调用命令,不需更改其他部分,便能够实现程序的扩展, 使得整个分析系统的动态扩展能够轻易地实现。
[0067] 具体地,步骤G)包括以下具体步骤:
[0068] Gl)分析部件4收到分词服务器5传来的用户评论后,采用基于正则表达式的匹配 方法对其进行句法分析,根据用户评论中的短语构成,将其组合成不同短句,得出句法分析 结论。
[0069] 正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。表 1是部分本发明实施例所使用的正则表达式示例。
[0070]
【权利要求】
1. 一种中文评论分析方法,其特征在于:对用户提交的中文评论进行分析,其具体步 骤如下: A) 用户向网站提交评论,网站前台(1)对用户的评论进行整理后,将整理的用户评论 传递至数据中心(3),并向控制中心(2)发送分析请求; B) 数据中心(3)收到用户评论后,将其记录在用户评论表中,并为每一条用户评论添 加是否已经分析过的分析标注; C) 控制中心(2)收到请求后,主动与数据中心(3)连接,数据中心(3)将所有分析标注 为未分析的用户评论传递至控制中心(2); D) 控制中心⑵收到用户评论后,将其传递至分析部件⑷; E) 分析部件(4)收到用户评论后,对其进行分主题分析,如果用户评论的主题与其评 论的产品相关,则将用户评论传递至分词服务器(5),并转至步骤F);如果用户评论的主题 与其评论的产品无关,则直接生成"主题无关"的分析结论,并转至步骤H); F) 分词服务器(5)收到用户评论后,对用户评论进行分词和词性标注,并将带有词性 标注的用户评论返回到分析部件(4); G) 分析部件(4)收到带有词性标注的用户评论后,依次进行句法分析和情感分析,得 出该用户评论的情感倾向的分析结论,并将该分析结论传递到本地存储(6)中进行存储; H) 分析部件(4)将得出的分析结论反馈至控制中心(2),控制中心(2)在收到分析结 论后,将其传递到数据中心(3)进行存储; I) 数据中心(3)收到分析结论后,将分析结论保存至用户评论表中,并将其相对应的 用户评论的分析标注更改为已标注; J) 当管理员需要审核分析结论时,管理员通过监管平台(7)对数据中心(3)的分析结 论进行操作; K) 网站从数据中心(3)处读取分析结论,并当用户请求了解评论结论时,网站将该分 析结论展示给用户。
2. 如权利要求1所述的一种中文评论分析方法,其特征在于:步骤G)包括以下具体步 骤: G1)分析部件(4)收到分词服务器(5)传来的用户评论后,采用基于正则表达式的匹配 方法对其进行句法分析,根据用户评论中的短语构成,将其组合成不同短句,得出句法分析 结论; G2)根据情感分析资源,对组合后的短句中的形容词、动词、名词和情感符号进行情感 极性判断,并得出词汇一级的情感值; G3)根据情感分析资源,对带有词性标注的短句中的副词进行情感标注,并根据词汇级 的情感值,得出修正后的情感倾向值; G4)用句法关系找到情感短语所评价的情感对象,形成若干个〈情感对象,情感短语〉 二元对。对不同的情感对象赋予不同的权值,采用加权方法,得出整个用户评论的情感结 论,当情感结论为正倾向性时,分析部件(4)生成"基本符合要求,等待审核"的分析结论; 当情感结论为负倾向性是,分析部件(4)生成"不合格评论,需要正面评论"的分析结论; G5)将句法分析结论和倾向性分析结论单独存储至本地存储(6)中。
3. 如权利要求1所述的一种中文评论分析方法,其特征在于:步骤K)包括以下具体步 骤: K1)为当管理员需要查看分析结论时,监管平台(7)将审核请求传递至数据中心(3); K2)数据中心(3)收到审核请求后,将分析标注为已标注的用户评论所对应的分析结 论传递至监管平台(7); K3)监管平台(7)收到分析结论后,将分析结论展示给管理员,管理员对其查看或者修 改; K4)在管理员完成操作后,监管平台(7)生成相对应的审核结论,并将审核结论回复至 数据中心(3); K5)数据中心(3)收到审核结论后,将审核结论添加至用户评论表中的分析结论中形 成新的分析结论。
4. 如权利要求1所述的一种中文评论分析方法,其特征在于:所述的分词服务器(5) 以中科院计算所的NLPIR/ICTCLAS2014DLL模块为核心。
5. 如权利要求1所述的一种中文评论分析方法,其特征在于:在步骤A)中,整理后的 用户评论还包括评价用户的ID和评价的产品类型,在步骤E)中,主题分析根据产品类型的 特征数据库来判断用户评论是否包含相对应的产品类型名称或者产品品牌名称。
6. 如权利要求1所述的一种中文评论分析方法,其特征在于:所述的网站前台(1)、控 制中心(2)、分析部件(4)和分词服务器(5)均采用基于Socket的数据传输方式,网站前台 (1)作为Socket客户端发送请求消息给控制中心(2),控制中心(2)作为Socket服务端进 行监听,分析部件(4)作为Socket客户端发送消息给分词服务器(5),分词服务器(5)作为 Socket服务器端进行监听。
7. 如权利要求1所述的一种中文评论分析方法,其特征在于:所述的数据中心(3)采 用数据库技术对网站前台(1)、控制中心(2)和监管平台(7)传递的不同数据进行管理。
8. -种中文评论分析系统,其特征在于:采用如权利要求1至7中任一项所述的一种 中文评论分析方法,包括与用户交互的网站前台(1)、存储用户评论的数据中心(3)、与网 站前台(1)及数据中心(3)相连的控制中心(2)、对用户评论进行分词和标注的分词服务 器(5)、对分词后的用户评论进行分析的分析部件(4)、与管理员交互的监管平台(7)和存 储分析结果的本地存储(6); 所述的网站前台(1)传递分析请求至控制中心(2),所述的控制中心(2)将用户评论传 递至分析部件(4),所述的分析部件(4)将用户评论传递至分词服务器(5),所述的分词服 务器(5)将带有词性标注的用户评论回馈至分析部件(4),所述的分析部件(4)回馈分析结 论至控制中心(2),所述的数据中心(3)分别接收网站前台(1)传递的用户评论数据、控制 中心(2)传递的分析结论和监管平台(7)的审核结论。
【文档编号】G06F17/30GK104484336SQ201410663427
【公开日】2015年4月1日 申请日期:2014年11月19日 优先权日:2014年11月19日
【发明者】郝秀兰, 蒋云良, 许方曲 申请人:湖州师范学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1