一种文本情感倾向分析系统的制作方法

文档序号:6620846阅读:664来源:国知局
一种文本情感倾向分析系统的制作方法
【专利摘要】本发明提出了一种文本情感倾向分析系统,自动分析文本的情感倾向性,效率高,针对性强,人工成本低,其包括:样本训练模块、实体提取模块、特征提取模块、情感倾向识别模块,样本训练模块连接实体提取模块,样本训练模块和实体提取模块分别连接特征提取模块,特征提取模块连接情感倾向识别模块;其中,样本训练模块,用于建立一个实体词典和一个或多个情感倾向词典,每一个情感倾向词典用于收纳同一类别的语料,词典构成判别模板;实体提取模块,参照实体词典,过滤不含实体的内容,提取实体文本,作为需要判别情感倾向的对象。特征提取模块,对照判别模板,根据情感倾向词典对实体文本进行筛选,从而提取实体文本中的特征项。
【专利说明】一种文本情感倾向分析系统

【技术领域】
[0001]本发明涉及信息检索【技术领域】,尤其涉及一种文本情感倾向分析系统。

【背景技术】
[0002]论坛、博客等网络交流平台的快速发展使得网上存在大量带有情感倾向性的文本。如何对大规模富含情感信息的文本快速进行倾向性分析,成为越来越引起广泛关注的研究问题。文本情感倾向性分析研究就是在这样的背景下开展起来的,它就是对整篇文本所体现出的情感进行判断,也就是对文本中的主观信息进行判断。
[0003]随着信息量的急速增加、新领域的不断涌现,人们需要在越来越多的新领域里进行倾向性分析,而在新领域里重新进行人工标注是个费时费力的事情。因此要尽量基于已经标注好的数据对新领域进行分析,这使得跨领域的倾向性分析具有重大意义。
[0004]商业竞争中,每个企业都需要知道他们自己产品的声誉或者竞争对手产品、品牌的声誉,这对他们自己的产品发展、市场和客户关系经营是非常有价值的。传统方式中,公司会为了了解这些信息作客户调查,这需要花费很多人力对用户满意度进行调查并对问卷进行分析。如果想要获得足够的调查信息的话,无论多么精心设计的对质量评估的调查都会导致高昂的费用。另外,尽管花费了大量的金钱和努力,这种调查的有效性通常是很有限的,既因为调查样本大小的限制,还因为制造有效的调查问卷表的困难,而且该种调查方式受限于人力资源等,尤其不适合中小企业。


【发明内容】

[0005]基于【背景技术】存在的问题,本发明提出了一种文本情感倾向分析系统,自动分析文本的情感倾向性,效率高,针对性强,人工成本低。
[0006]本发明提出的一种文本情感倾向分析系统,包括:样本训练模块、实体提取模块、特征提取模块、情感倾向识别模块;样本训练模块连接实体提取模块,样本训练模块和实体提取模块分别连接特征提取模块,特征提取模块连接情感倾向识别模块;其中,
[0007]样本训练模块,用于建立一个实体词典和一个或多个情感倾向词典,每一个情感倾向词典用于收纳同一类别的语料,词典构成判别模板;
[0008]实体提取模块,参照实体词典,过滤不含实体的内容,提取实体文本,作为需要判别情感倾向的对象;
[0009]特征提取模块,对照判别模板,根据情感倾向词典对实体文本进行筛选,从而提取实体文本中的特征项;
[0010]情感倾向识别模块,利用最大熵方法计算出特征项的权值,根据权值大小判别文本的情感倾向性。
[0011 ] 优选地,样本训练模块中,每一个词典均可自动设置或手动设置。
[0012]优选地,情感倾向词典包括极性词典。
[0013]优选地,情感倾向词典包括程度词典。
[0014]优选地,情感倾向词典包括否定词典。
[0015]优选地,特征项包括:极性词和极性词的极性。
[0016]优选地,特征项包括:程度词、程度词的强度、程度词的位置。
[0017]优选地,特征项包括:否定词、否定词的位置。
[0018]优选地,特征项包括:否定词与极性词的位置关系。
[0019]优选地,特征项包括:否定词与程度词的位置关系。
[0020]本发明中可针对不同领域、不同文本建立不同的词典,从而根据词典构成的判别模板来提取特征项,可提高情感倾向性分析的针对性,也扩大了本发明的适用范围;本发明中通过最大熵方法计算特征项权重来分析情感倾向性,精确率更高;而且,本发明自动对输入的文本进行情感倾向性分析,效率高,人工成本低,适用于信息量庞大的商业情报分析系统,尤其解决了中小企业商业情报分析环节薄弱的问题。

【专利附图】

【附图说明】
[0021]图1为本发明提出的一种文本情感倾向分析系统的结构图;
[0022]图2为图1所示文本情感倾向分析系统的工作流程图。

【具体实施方式】
[0023]参照图1,本发明提出的一种文本情感倾向分析系统,包括:样本训练模块、实体提取模块、特征提取模块、情感倾向识别模块。样本训练模块连接实体提取模块,样本训练模块和实体提取模块分别连接特征提取模块,特征提取模块连接情感倾向识别模块。
[0024]样本训练模块,用于建立一个实体词典和一个或多个情感倾向词典,每一个情感倾向词典用于收纳同一类别的语料,词典构成判别模板。各类词典的建立可根据待分析文本所属领域来设置,提高情感倾向性分析的针对性。例如本实施方式中,情感倾向词典包括极性词典、程度词典、否定词典等情感倾向相关词典。
[0025]实体提取模块,参照实体词典,过滤不含实体的内容,提取实体文本,作为需要判别情感倾向的对象,缩小需要进行情感倾向的文本范围,提高系统工作效率,降低分析成本。
[0026]特征提取模块,对照判别模板,根据情感倾向词典对实体文本进行筛选,从而提取实体文本中的特征项,即进一步明确判别情感倾向的对象。本实施方式中,提取的特征项包括:极性词、极性词的极性;否定词、否定词的位置、否定词相对于极性词的位置;程度词、程度词的强度、程度词的位置;否定词与程度词的位置关系。
[0027]情感倾向识别模块,利用最大熵方法计算出特征项的权值,根据权值大小判别文本的情感倾向性。通过最大熵方法计算特征项权重来分析情感倾向性,精确率更高,效率更快。
[0028]参照图2,以上实施方式中的系统工作时,首先,向系统输入待分析文本;然后,根据待分析文本的内容,在样本训练模块建立一个实体词典以及作为情感倾向词典的极性词典、程度词典、否定词典等;再后,由实体提取模块对照实体词典提取待分析文本中的实体文本,筛除不含实体的内容;又后,由特征提取模块根据情感倾向词典提取实体文本中的特征项,特征项包括极性词、极性词的极性、否定词、否定词的位置、否定词相对于极性词的位置、程度词、程度词的强度、程度词的位置、否定词与程度词的位置关系;最后,由情感倾向识别模块利用最大熵方法计算特征项的权值,并根据权值大小判断情感倾向性。
[0029]以上实施方式中,样本训练模块中的词典均可自动设置也可手动设置,以便,针对不同领域、不同文本建立不同的词典,从而根据词典构成的判别模板来提取特征项,可提高情感倾向性分析的针对性,也扩大了该系统的适用范围。本系统自动对输入的文本进行情感倾向性分析,效率高,人工成本低,适用于信息量庞大的商业情报分析系统,尤其解决了中小企业受限于资源,导致商业情报分析环节薄弱的问题。
[0030]以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
【权利要求】
1.一种文本情感倾向分析系统,其特征在于,包括:样本训练模块、实体提取模块、特征提取模块、情感倾向识别模块;样本训练模块连接实体提取模块,样本训练模块和实体提取模块分别连接特征提取模块,特征提取模块连接情感倾向识别模块;其中, 样本训练模块,用于建立一个实体词典和一个或多个情感倾向词典,每一个情感倾向词典用于收纳同一类别的语料,词典构成判别模板; 实体提取模块,参照实体词典,过滤不含实体的内容,提取实体文本,作为需要判别情感倾向的对象; 特征提取模块,对照判别模板,根据情感倾向词典对实体文本进行筛选,从而提取实体文本中的特征项; 情感倾向识别模块,利用最大熵方法计算出特征项的权值,根据权值大小判别文本的情感倾向性。
2.如权利要求1所述的文本情感倾向分析系统,其特征在于,样本训练模块中,每一个词典均可自动设置或手动设置。
3.如权利要求1或2所述的文本情感倾向分析系统,其特征在于,情感倾向词典包括极性词典。
4.如权利要求1或2所述的文本情感倾向分析系统,其特征在于,情感倾向词典包括程度词典。
5.如权利要求1或2所述的文本情感倾向分析系统,其特征在于,情感倾向词典包括否定词典。
6.如权利要求3所述的文本情感倾向分析系统,其特征在于,特征项包括:极性词和极性词的极性。
7.如权利要求4所述的文本情感倾向分析系统,其特征在于,特征项包括:程度词、程度词的强度、程度词的位置。
8.如权利要求5所述的文本情感倾向分析系统,其特征在于,特征项包括:否定词、否定词的位置。
9.如权利要求6或8所述的文本情感倾向分析系统,其特征在于,特征项包括:否定词与极性词的位置关系。
10.如权利要求7或8所述的文本情感倾向分析系统,其特征在于,特征项包括:否定词与程度词的位置关系。
【文档编号】G06F17/27GK104182387SQ201410347686
【公开日】2014年12月3日 申请日期:2014年7月21日 优先权日:2014年7月21日
【发明者】贾岩 申请人:安徽华贞信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1