一种情感特征词提取系统的制作方法

文档序号：6575227阅读：280来源：国知局

专利名称：一种情感特征词提取系统的制作方法
专利说明一种情感特征词提取系统技术主题本发明涉及一种特征提取系统，特别是关于一种情感特征词提取系统。

背景技术：
随着网络的普及，网络上的数据以指数级的速度增长。特别是Web2.0的兴起和发展，网络上用户生成内容越来越多，比如博客、评论、论坛帖子等，它们在网络中占据越来越重要的地位。用户生成的内容中除了包含很多事实性的内容之外，也包含大量与情感因素相关的内容，并且后者的影响也越来越大。比如用户在购买商品时会很自然的去网上搜索其要购买商品的相关信息，其他用户对于该商品的评论信息很可能直接影响到用户的购买。因此厂家也越来越关注于消费者对其商品的反馈，利用这些反馈信息可以用来理解用户需求和满意度，从而改善产品质量以及提高服务质量。此外，政府机关、政治团体也越来越关注网络平台的作用，例如政府会关注其政策法规在网络中的反响，关注网上的舆情信息，特别是热点事件的舆情信息。
传统的网络信息处理主要是基于事实性的文本进行处理，比如基于关键字的检索，文本的分类、聚类等，很少关注其中包含的情感信息。与传统文本处理方式不同的是，情感分析主要用来分析和挖掘用户的情感倾向，来弥补传统搜索引擎等工具的不足。在情感分析工作中，情感的特征选取不仅是进行情感分类的主要基础，还是影响情感分析结果的重要因素。与传统的分类方法不同的是，情感分析很难采用传统的基于词频等简单的统计信息来提取特征，因为情感分类所需的特征最好应该是能够直接代表情感特征词的词；而且不同主题有不同的情感特征词，比如“布什是中国人民的老朋友”和“老布什越老越糊涂”。“老”这个词在这三个地方中有三种不同的情感特征词。由于情感特征词分析的特殊性，传统文本分析方法不能满足其要求。
在情感分析中，特征选取的方法是其中的最重要的一个部分，其效果直接决定了情感分析的效果。目前的研究发现，利用机器学习的方法比直接进行人工选取的方法还要有效。现在情感的特征提取方式主要有手动选取情感特征词，基于搜索引擎来计算少量的其它特征词和选定特征词的逐点互信息量值(Pointwise Mutual Information，PMI)来确定；在大规模语料中，找出同义共现的模式去匹配；使用更多的种子词，使用对数似然率(log likelihood ratio，LLR)；基于字典的方法，从一些核心词典出发，利用WordNet(英文)，HowNet(中文)提供的关系去扩展。但是这些方法对评论的召回率都存在着偏低的现象，即很多评论没有对应的情感特征词去分析其情感倾向。

发明内容
针对上述问题，本发明的目的是提供一种能有效改进评论语句少、评论对象相对分散内容的情感分析效果，并且能在细化的主题中进行细致情感分析的情感特征词提取系统。
为实现上述目的，本发明采取以下技术方案一种情感特征词提取系统，其特征在于它包括特征选取模块、特征验证模块、关系提取模块、广义情感特征词表和狭义情感特征词表；所述特征选取模块利用文章集合中的文章内容和评论集合中的评论内容，分别提取评论内容全体的候选情感特征词和分类的候选情感特征词；所述关系提取模块根据所述文章内容，通过模板构建一个词与词的语义关系图；通过所述全体的候选情感特征词和语义关系图建立广义情感特征词表；通过所述分类的候选情感特征词和语义关系图建立狭义情感特征词表。
所述特征选取模块中候选情感特征词的提取方法为利用评论集合与文章集合的词频信息差异，用打分法选取候选情感特征词，计算方程为 Score1(Term)＝(R_DF(Term)/(N_DF(Term)+1) (1) Score2(Term)＝(R_TF(Term)/(N_TF(Term)+1) (2) 其中Score1表示通过方程(1)计算得到的分值，Score2表示通过方程(2)计算得到的分值；Term表示词；R_DF(Term)表示词出现在所述评论集合的不同评论内容中的次数；N_DF(Term)表示词出现在所述文章集合的不同文章内容中的次数；R_TF(Term)表示词在所述评论集合中出现的总次数；N_TF(Term)表示词在所述文章集合中出现的总次数；之后按分值对词进行排序，选取一定数目得分较高的词作为候选情感特征词；排序规则是先按Score1进行比较，如果Score1一样，再按Score2进行比较。
建立所述广义情感特征词表时，在所述特征验证模块中，在全体的候选情感特征词中选取部分进行正负向标注，形成基础情感特征词表，所述基础情感特征词表根据其中的词性，分为正向表和负向表两部分；在所述语义关系图中找出基础情感特征词表中已标注的情感特征词的所有的同位词，将这些同位词扩充入所述基础情感特征词表中的正向表和负向表中；最后结合所述语义关系图，使用半监督学习的方法对扩充的同位词进行倾向标注和过滤，得到所述广义情感特征词表。
建立所述狭义情感特征词表时，在所述特征验证模块中，针对所有的分类的候选情感特征词，结合所述扩充后的正向表和负向表，对各类候选情感特征词进行半监督学习的正负向判定。
所述半监督学习方法为在语义关系图中寻找某个词的同位词，如果某个词的同位词落在正向表中的数目大于落在负向表中的数目，并且落在正向表中的同位词数目超过预先设定的最小阈值，那么该词的词性就标识为正向；如果某个词的同位词落在负向表中的数目大于落在正向表中的数目，并且落在负向表中的同位词数目超过预先设定的最小阈值，那么该词就标识为负向；如果某个词的同位词落在正向表和落在负向表中的数目均达不到预先设定的最小阈值，则过滤掉该词。
本发明由于采取以上技术方案，其具有以下优点1、本发明的系统由于使用评论对象和评论之间差异获取情感特征词的方法，对于评论语句少、评论对象相对分散的新闻、论坛和博客等评论，进行情感分析的效果有较大的改进。2、本发明获取情感特征词的方法既适用于较大主题的通用情感分析，也能在细化的主题中进行更加深入的情感分析，在通用的情感分析中，评论的情感分析召回率提高了34.8％～40.9％；在特定类别的情感分析中，召回率提高了91％～105％。本发明的情感特征词提取系统可广泛应用于对新闻、论坛和博客等评论进行情感分析。

图1是本发明产生广义情感特征词表的流程示意图图2是本发明产生狭义情感特征词表的流程示意图图3是本发明系统应用于新闻评论情感分析的流程示意图
具体实施例方式 下面结合附图和实施例对本发明进行详细的描述。
如图1所示，本发明基于多层次的情感特征词提取系统，通过评论与评论所针对的文章之间的用词差异性进行建模，按词与词的层次关系找出评论内容中常用的情感特征词，以及特定领域的情感特征词。本发明的系统包括特征选取模块1、特征验证模块2、关系提取模块3、广义情感特征词表4和狭义情感特征词表5。一方面，在特征选取模块1中分别计算评论集合R中的评论内容及其针对的文章集合N中的文章内容的统计信息，再利用评论内容的词的特征信息与评论内容所针对的文章内容的特征信息的差异信息，来得出评论内容的候选情感特征词。在特征验证模块2中，根据评论集合R所针对的文章集合N的文章内容中的词与词的同位关系和词性信息，先采用人工方法或人机混合方法对候选情感特征词进行初步正负向判定和有效性过滤，得出部分候选情感特征词的正负向词性，建立有标号的情感特征词组成的基础情感特征词库。在关系提取模块3中根据评论集合R所针对的文章集合N中的文章内容构建一个词与词的语义关系图，包括“上位，同位，下位”三种关系。基础情感特征词库结合语义关系图，对候选情感特征词通过半监督学习方法进行情感倾向标注和扩充，得出由标注后的情感特征词组成的广义情感特征词表4，用于对一般的评论内容进行通用情感分析。
如图2所示，本发明的系统为了改善对具体针对某个类别主题评论的情感分析效果，特别是针对热点主题的评论内容的情感分析，本发明提出一种狭义情感特征词表5的提取方法在评论集合R所针对的文章集合N中根据文章内容进行聚类，按聚类的数目的多少确定出热点主题作为我们关注的具体类别，如类别1、类别2，……，类别n。在特征选取模块1中通过分别对类别1、类别2，……，类别n的主题和对应的评论内容进行对比，获得分别属于类别1、类别2，……，类别n的候选情感特征词。然后在特征验证模块2中对该类别下的候选情感特征进行情感倾向标注，最终得到属于各类的狭义情感特征词表5。综上所述，本发明基于多层次的情感特征词提取系统不仅可以构建出通用的情感分析所用的情感特征词，也可以从细化的特定领域中找出与领域相关的情感特征词。比如既可以与产品相关的情感候选通用特征，也可以找到某一类产品，甚至某一种具体产品，具体产品的具体型号的相关情感特征词。
本发明的基于多层次的情感特征词提取系统建立步骤为 1、提取候选情感特征词 1)在特征选取模块1中文章集合N中的文章内容和评论集合R中的评论内容的词频信息，词频信息包括词的TF值，即词出现的总的次数；DF值，即包含该词的文章数。
2)利用评论集合R与文章集合N的词频信息差异，用打分法选取候选情感特征词，计算方程为 Score1(Term)＝(R_DF(Term)/(N_DF(Term)+1)(1) Score2(Term)＝(R_TF(Term)/(N_TF(Term)+1)(2) 其中Score1表示通过方程(1)计算得到的分值，Score2表示通过方程(2)计算得到的分值；Term表示词；R_DF(Term)表示词出现在评论集合R的不同评论内容中的次数；N_DF(Term)表示词出现在评论集合所针对的文章集合N的不同文章内容中的次数；R_TF(Term)表示词在评论集合R中出现的总次数；N_TF(Term)表示词在文章集合N中出现的总次数。
3)利用方程(1)和方程(2)对评论集合R中出现的词进行打分，然后按分值对词进行排序，选取一定数目得分较高的词作为候选情感特征词。排序规则是先按Score1进行比较，如果Score1一样，再按Score2进行比较。
4)对评论所针对的文章集合N进行逐层细分，得到在每一层的候选情感特征词。对评论所针对的文章集合N采用的细分方法是，对文章集合N中的文章内容进行聚类，把那些包含文章内容数目较多的集合对应的内容主题当作热点主题，每一个热点主题作为一个层次。在热点主题对应的文章内容中，又可以进一步聚类成多个子热点主题，因此就可以得到一个根据热点主题和子热点主题之间的包含关系构建的层次化树形结构，之后在每一个层次上利用方程(1)和方程(2)得到该层次对应的候选情感特征词。这样不仅可以构建出分类粒度较大的广义情感分析所用的候选情感特征词，及根据它们建立的广义情感特征词表4；也可以得到分类粒度较小的狭义情感分析所用的候选情感特征词，及根据它们建立的类别相关的狭义情感特征词表5。
2、建立广义情感特征词表4和狭义情感特征词表5 在关系提取模块3中，根据评论所针对的文章集合N中的词与词的同位关系和词性信息，对步骤1中的候选情感特征词进行正负向判定和过滤，进而生成广义情感特征词表4和狭义情感特征词表5。这里同位关系是指词与词之间的在语句中的地位相同，比如汽车，丰田，宝马这三个词，丰田和保密是同位关系；情续，高兴，悲伤这三个词，高兴和悲伤时同位关系。词性信息是指根据词的词性进行过滤，只保留名词，动词，形容词和副词这些词性的词，其他如叹词，拟声词等词性的词都会被过滤掉。
i)在关系提取模块3中基于评论所针对的文章集合N，通过模板构建一个词与词的语义关系图，语义关系指词与词之间存在着同位的关系。
ii)在构建评论集合R的广义情感特征词表4时，在特征验证模块2中，首先选取部分候选情感特征词进行正负向标注，形成基础情感特征词表，基础情感特征词表根据其中的词性，分为正向表和负向表两部分。之后在语义关系图中找出基础情感特征词表已标注的情感特征词的所有同位词，将这些同位词扩充入的正向表和负向表中。最后利用语义关系图验证正向表和负向表中未标注词的词性，在语义关系图中寻找正向表和负向表中未标注词的同位词，如果某个未标注词的同位词落在正向表中的数目大于落在负向表中的数目，并且落在正向表中的同位词数目超过预先设定的最小阈值，那么该未标注词的词性就标识为正向，加到广义情感特征词表4中去；如果某个未标注词的同位词落在负向表中的数目大于落在正向表中的数目，并且落在负向表中的同位词数目超过预先设定的最小阈值，那么该未标注词就标识为负向，加到广义情感特征词表4中去；如果某个未标注词的同位词落在正向表和落在负向表中的数目均达不到预先设定的最小阈值，则过滤掉该未标注词。
iii)在构建狭义情感特征词表5时，利用在步骤4)中得到的依层次划分的候选情感特征词以及热点主题内实体之间的相互关系，来确定候选情感特征词中词的正负倾向和是否需要过滤。在特征验证模块2中，针对每个类别的候选情感特征词，根据基础情感特征词表中的已标注的情感特征词，对各类候选情感特征词进行半监督学习的正负向判定。首先在语义关系图中寻找已标注的情感特征词的所有同位词，加上基础情感特征词表中的已标注情感特征词，根据其中词性分为正向表和负向表两部分。其次分别对各类别的候选情感特征词进行判断，在语义关系图中寻找某类候选情感特征词的词的同位词，如果某个候选情感特征词的同位词落在正向表中的数目大于落在负向表中的数目，并且落在正向表中的同位词数目超过预先设定的最小阈值，那么该候选情感特征词的词性就标识为正向，加到狭义情感特征词表5中去；如果某个候选情感特征词的同位词落在负向表中的数目大于落在正向表中的数目，并且落在负向表中的同位词数目超过预先设定的最小阈值，那么该候选情感特征词就标识为负向，加到狭义情感特征词表5中去；如果该候选情感特征词的同位词落在正向表和落在负向表中的数目均达不到预先设定的最小阈值，则过滤掉该候选情感特征词。与步骤ii)的不同之处在于，对狭义情感特征词表5不再进行扩充，而且这些情感特征词需要与实体存在修饰的关系。
如图3所示，通过对某则新闻的评论进行情感分析为实施例，说明本发明系统的工作过程，其中新闻集合N中的新闻内容，对新闻主题的新闻评论对应评论集合R中的评论内容。
I)将新闻集合N及其对应的评论集合R输入特征选取模块1，利用方程(1)和方程(2)对比新闻集合N和评论集合R的词频信息，得到评论内容的候选情感特征词。
II)在特征验证模块2中对候选情感特征词进行初步的筛选和倾向标注，得到基础情感特征词表。
III)在关系提取模块3中通过模板根据新闻集合N构建一个词与词的语义关系图。
VI)对情感特征词结合语义关系图进行情感特征词的扩充和验证，得到广义情感特征词表4和狭义情感特征词表5。
V)通用的情感分析中利用广义情感特征词表4进行分析，在特定类别的情感分析中，利用狭义情感特征词表5进行分析。
综上所述，在经过以上步骤之后，可以得到了广义情感特征词表4和狭义情感特征词表5。在对新闻评论进行情感分析时，首先判断新闻评论是否属于某个具体类别下，如果能找出新闻评论的类别，则利用该类别的狭义情感特征词表5结合一些经过否定、转折等句法分析得到的评论特征，对新闻评论进行情感倾向性判定。而如果没有找到具体类别，就利用广义情感特征词表4对新闻评论进行判定。进行情感倾向性判定的方法在广义情感特征词表4或狭义情感特征词表5中定位情感特征词，如果情感特征词前有否定前缀，则将其情感倾向取反；如果情感特征词处于转折语句中，在转折前的分句中有情感特征词，则舍弃转折后的分句；否则看转折后的分句有无情感特征词，有的话将其情感倾向取反；最后统计所有的情感特征词的情感倾向，如果为正，则认为整个评论的情感倾向为正。
本发明的系统既适用于较大主题的通用情感分析，也能在细化的主题中进行更加深入的情感分析。在通用的情感分析中，评论的情感分析召回率提高了34.8％-40.9％；在特定类别的情感分析中，召回率提高了91％~105％。
权利要求
1、一种情感特征词提取系统，其特征在于它包括特征选取模块、特征验证模块、关系提取模块、广义情感特征词表和狭义情感特征词表；所述特征选取模块利用文章集合中的文章内容和评论集合中的评论内容，分别提取评论内容全体的候选情感特征词和分类的候选情感特征词；所述关系提取模块根据所述文章内容，通过模板构建一个词与词的语义关系图；通过所述全体的候选情感特征词和语义关系图建立广义情感特征词表；通过所述分类的候选情感特征词和语义关系图建立狭义情感特征词表。
2、如权利要求1所述的一种情感特征词提取系统，其特征在于所述特征选取模块中候选情感特征词的提取方法为利用评论集合与文章集合的词频信息差异，用打分法选取候选情感特征词，计算方程为
Score1(Term)＝(R_DF(Term)/(N_DF(Term)+1)(1)
Score2(Term)＝(R_TF(Term)/(N_TF(Term)+1)(2)
其中Score1表示通过方程(1)计算得到的分值，Score2表示通过方程(2)计算得到的分值；Term表示词；R_DF(Term)表示词出现在所述评论集合的不同评论内容中的次数；N_DF(Term)表示词出现在所述文章集合的不同文章内容中的次数；R_TF(Term)表示词在所述评论集合中出现的总次数；N_TF(Term)表示词在所述文章集合中出现的总次数；之后按分值对词进行排序，选取一定数目得分较高的词作为候选情感特征词；排序规则是先按Score1进行比较，如果Score1一样，再按Score2进行比较。
3、如权利要求1所述的一种情感特征词提取系统，其特征在于建立所述广义情感特征词表时，在所述特征验证模块中，在全体的候选情感特征词中选取部分进行正负向标注，形成基础情感特征词表，所述基础情感特征词表根据其中的词性，分为正向表和负向表两部分；在所述语义关系图中找出基础情感特征词表中已标注的情感特征词的所有的同位词，将这些同位词扩充入所述基础情感特征词表中的正向表和负向表中；最后结合所述语义关系图，使用半监督学习的方法对扩充的同位词进行倾向标注和过滤，得到所述广义情感特征词表。
4、如权利要求2所述的一种情感特征词提取系统，其特征在于建立所述广义情感特征词表时，在所述特征验证模块中，在所述全体的候选情感特征词中选取部分进行正负向标注，形成基础情感特征词表，所述基础情感特征词表根据其中的词性，分为正向表和负向表两部分；在所述语义关系图中找出基础情感特征词表中已标注的情感特征词的所有的同位词，将这些同位词扩充入所述基础情感特征词表中的正向表和负向表中；最后结合所述语义关系图，使用半监督学习的方法对扩充后的正向表和负向表进行倾向标注和过滤，形成所述广义情感特征词表。
5、如权利要求1或2或3或4所述的一种情感特征词提取系统，其特征在于建立所述狭义情感特征词表时，在所述特征验证模块中，针对所有的分类的候选情感特征词，结合所述扩充后的正向表和负向表，对各类候选情感特征词进行半监督学习的正负向判定。
6、如权利要求1或2或3或4所述的一种情感特征词提取系统，其特征在于所述半监督学习方法为在语义关系图中寻找某个词的同位词，如果某个词的同位词落在正向表中的数目大于落在负向表中的数目，并且落在正向表中的同位词数目超过预先设定的最小阈值，那么该词的词性就标识为正向；如果某个词的同位词落在负向表中的数目大于落在正向表中的数目，并且落在负向表中的同位词数目超过预先设定的最小阈值，那么该词就标识为负向；如果某个词的同位词落在正向表和落在负向表中的数目均达不到预先设定的最小阈值，则过滤掉该词。
7、如权利要求5所述的一种情感特征词提取系统，其特征在于所述半监督学习方法为在语义关系图中寻找某个词的同位词，如果某个词的同位词落在正向表中的数目大于落在负向表中的数目，并且落在正向表中的同位词数目超过预先设定的最小阈值，那么该词的词性就标识为正向；如果某个词的同位词落在负向表中的数目大于落在正向表中的数目，并且落在负向表中的同位词数目超过预先设定的最小阈值，那么该词就标识为负向；如果某个词的同位词落在正向表和落在负向表中的数目均达不到预先设定的最小阈值，则过滤掉该词。
全文摘要
本发明涉及一种情感特征词提取系统，其特征在于它包括特征选取模块、特征验证模块、关系提取模块、广义情感特征词表和狭义情感特征词表；特征选取模块利用评论所针对的文章集合中的文章内容和评论集合中的评论内容，分别提取评论内容全体的候选情感特征词和分类的候选情感特征词；关系提取模块根据文章内容，通过模板构建一个词与词的语义关系图；通过全体的候选情感特征词和语义关系图建立广义情感特征词表；通过分类的候选情感特征词和语义关系图建立狭义情感特征词表。本发明获取情感特征词的方法既适用于较大主题的通用情感分析，也能在细化的主题中进行更加深入的情感分析。本发明的情感特征词提取系统可广泛应用于对新闻、论坛和博客等评论进行情感分析。
文档编号G06F17/30GK101609459SQ20091008971
公开日2009年12月23日申请日期2009年7月21日优先权日2009年7月21日
发明者陶富民, 军高, 王腾蛟, 杨冬青申请人:北京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陶富民;高军;王腾蛟;杨冬青
技术所有人：北京大学
我是此专利的发明人

上一篇：一种支持异构地学数据资源的检索方法及检索系统的制作方法
上一篇：基于dsp的地形匹配计算机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。