文本情感分析方法及系统的制作方法

文档序号:8402776阅读:353来源:国知局
文本情感分析方法及系统的制作方法
【技术领域】
[0001] 本发明涉及自然语言处理领域,特别涉及一种文本情感分析方法及系统。
【背景技术】
[0002] 情感分析,也称为观点挖掘、观点分析、主客观分析等,其目的是从文本中挖掘用 户表达的观点以及情感极性。近年来,网络上带有主观倾向性的文本与日俱增,这些带有情 感倾向性的文本在新闻、电子商务、政务等方面具有巨大的挖掘潜力。对于传统企业,通过 使用情感分析工具可快速地了解到用户对自己产品的评价,并发现问题所在;对于金融行 业,可快速地了解市场对某些行业或企业的看法和评价。总之,情感分析在社会公共安全、 商务智能、社会舆情等领域具有十分重要的应用价值。
[0003] 然而,现有技术的情感分析方法对一篇文章只能作出一个情感判断,当一篇文章 含有多个实体对象时,现有技术无法对该篇文章中的多个实体对象分别作出情感判断,特 别是当一篇文章针对不同的实体对象持有不同的情感倾向时,现有技术情感分析方法的准 确度很低。

【发明内容】

[0004] 为客服上述现有技术存在的不足,本发明的目的在于提供一种文本情感分析方法 及系统,能够对一个文本中包含的多个实体对象分别作出情感判断。
[0005] 为达上述目的,本发明提供一种文本情感分析方法,该方法包括:
[0006] 根据标点符号对所述文本进行分割,得到至少一个短文本块;
[0007] 对含有相同的关注实体的所述短文本块进行合并,得到长文本块;
[0008] 对所述长文本块进行情感分析,得到该长文本块的情感分值;
[0009] 综合含有相同关注实体的所述长文本块的情感分值,得到该关注实体的情感分 值。
[0010] 本发明还提供一种文本情感分析系统,该系统包括文本分割单元、文本合并单元、 情感分析单元、综合计算单元,其中:
[0011] 文本分割单元,用于根据标点符号对所述文本进行分割,以得到至少一个短文本 块;
[0012] 文本合并单元,用于对含有相同的关注实体的所述短文本块进行合并,以得到长 文本块;
[0013] 情感分析单元,用于对所述长文本块进行情感分析,以得到所述长文本块的情感 分值;
[0014] 综合计算单元,用于综合含有相同关注实体的所述长文本块的情感分值,以得到 该关注实体的情感分值。
[0015] 从上述技术方案可以看出,在本发明的实施方式中,通过将原始文本分割为多个 短文本块,再将短文本块合并为长文本块,并对各个长文本块分别进行情感分析,最后通过 综合含有相同关注实体的长文本块的情感分值来判断该关注实体的情感分值,从而能够对 一个文本中包含的多个实体分别作出情感判断,解决了现有技术对一个文本只能作出一个 情感判断,而无法对文本中多个实体分别作出情感判断的问题,实现了高精度的自动情感 分析。
【附图说明】
[0016] 图1为本发明实施例文本情感分析方法的方法流程图;
[0017] 图2为本发明实施方式的文本合并流程图;
[0018] 图3为本发明另一实施方式的文本合并流程图;
[0019] 图4为本发明实施方式的情感分析流程图;
[0020] 图5为本发明另一实施方式的情感分析流程图;
[0021] 图6为本发明文本情感分析系统的系统结构图。
【具体实施方式】
[0022] 为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步 的详细描述。本领域技术人员可由说明书所揭示的内容轻易地了解本发明的其它优点与功 效。本发明亦可通过其它不同的具体实施例加以施行或应用,本说明书中的各项细节亦可 基于不同观点与应用,在不背离本发明的精神下进行各种修饰与变更。
[0023] 图1为本发明实施例文本情感分析方法的方法流程图。参见图1,本发明提供的文 本情感分析方法,具体可以包括如下步骤:
[0024] 步骤101 :根据标点符号对所述文本进行分割,得到至少一个短文本块;
[0025] 步骤103 :对含有相同的关注实体的所述短文本块进行合并,得到长文本块;
[0026] 步骤105 :对所述长文本块进行情感分析,得到所述长文本块的情感分值;
[0027] 步骤107 :综合含有相同关注实体的所述长文本块的情感分值,得到该关注实体 的情感分值。
[0028] 在一个实施方式中,对含有相同的关注实体的短文本块进行合并包括:当位置相 邻的两个短文本块中至少一个不含有任何关注实体,并且,其中位置在前的短文本块以逗 号结束或位置在后的短文本块中无中文字符时,将所述相邻的两个短文本块合并。
[0029] 在一个实施方式中,对含有相同的关注实体的短文本块进行合并包括:当位置相 邻的两个短文本块均含有且仅含有一个共同的关注实体时,将所述相邻的两个短文本块合 并;或者当位置不相邻的两个短文本块均含有且仅含有一个共同的关注实体,且所述不相 邻的两个短文本块之间的短文本块均不含有任何关注实体时,将所述不相邻的两个短文本 块及其之间的短文本块全部合并。
[0030] 在一个实施方式中,综合含有相同关注实体的长文本块的情感分值包括:计算含 有相同关注实体的所有长文本块的平均情感分值,得到该关注实体的情感分值。
[0031] 在一个实施方式中,综合含有相同关注实体的长文本块的情感分值还包括:计算 含有相同关注实体的所有长文本块的平均字符串长度,得到该关注实体的重要度分值。
[0032] 下面结合具体实例,对本发明实施例文本情感分析方法的算法进行更详细地说 明。
[0033] 在对文本进行情感分析时,其中一个难点就是对文本中的多个实体对象的情感判 断问题。例如,假设原始文本为:
[0034] "乐视斗小米:乐视网胜诉,小米盒子被判侵权,需承担盗播连带责任。对于这一判 决结果,小米科技公关总监刘飞表示,小米公司持保留态度。乐视网表示,乐视将一如既然 尊重和保护知识产权。"
[0035] 很显然,上述文本对"乐视"的评价为正面,对"小米"的评价为负面。然而现有技 术的文本情感分析方法对上述文本只能给出一个情感分值,而不能针对"乐视"和"小米"分 别作出情感判断,因此情感分析的准确度很低。
[0036] 为了提高情感分析的准确性,本发明实施例首先对文本中的关注实体(如上例中 "乐视"和"小米")进行提取。在提取关注实体前,可以先建立实体词表,将关注实体的名 称导入该实体词表中,实体词表如表1所不。
【主权项】
1. 一种文本情感分析方法,其特征在于,该方法包括: 根据标点符号对所述文本进行分割,得到至少一个短文本块; 对含有相同的关注实体的所述短文本块进行合并,得到长文本块; 对所述长文本块进行情感分析,得到所述长文本块的情感分值; 综合含有相同关注实体的所述长文本块的情感分值,得到该关注实体的情感分值。
2. 根据权利要求1所述的文本情感分析方法,其特征在于,所述对含有相同的关注实 体的所述短文本块进行合并包括: 当位置相邻的两个短文本块中至少一个不含有任何关注实体,并且,其中位置在前的 短文本块以逗号结束或位置在后的短文本块中无中文字符时,将所述相邻的两个短文本块 合并。
3. 根据权利要求1或2所述的文本情感分析方法,其特征在于,所述对含有相同的关注 实体的所述短文本块进行合并包括: 当位置相邻的两个短文本块均含有且仅含有一个共同的关注实体时,将所述相邻的两 个短文本块合并;或者 当位置不相邻的两个短文本块均含有且仅含有一个共同的关注实体,且所述不相邻的 两个短文本块之间的短文本块均不含有任何关注实体时,将所述不相邻的两个短文本块及 其之间的短文本块全部合并。
4. 根据权利要求1所述的文本情感分析方法,其特征在于,所述综合含有相同关注实 体的所述长文本块的情感分值包括: 计算含有相同关注实体的所有长文本块的平均情感分值,得到该关注实体的情感分 值。
5. 根据权利要求1所述的文本情感分析方法,其特征在于,所述综合含有相同关注实 体的所述长文本块的情感分值包括: 计算含有相同关注实体的所有长文本块的平均字符串长度,得到该关注实体的重要度 分值。
6. -种文本情感分析系统,其特征在于,该系统包括文本分割单元、文本合并单元、情 感分析单元、综合计算单元,其中: 文本分割单元,用于根据标点符号对所述文本进行分割,以得到至少一个短文本块; 文本合并单元,用于对含有相同的关注实体的所述短文本块进行合并,以得到长文本 块; 情感分析单元,用于对所述长文本块进行情感分析,以得到所述长文本块的情感分 值; 综合计算单元,用于综合含有相同关注实体的所述长文本块的情感分值,以得到该关 注实体的情感分值。
7. 根据权利要求6所述的文本情感分析系统,其特征在于,所述文本合并单元包括: 第一合并单元,用于当位置相邻的两个短文本块中至少一个不含有任何关注实体,并 且,其中位置在前的短文本块以逗号结束或位置在后的短文本块中无中文字符时,将所述 相邻的两个短文本块合并。
8. 根据权利要求6或7所述的文本情感分析系统,其特征在于,所述文本合并单元包 括: 第二合并单元,用于当位置相邻的两个短文本块均含有且仅含有一个共同的关注实体 时,将所述相邻的两个短文本块合并;或者 当位置不相邻的两个短文本块均含有且仅含有一个共同的关注实体,且所述不相邻的 两个短文本块之间的短文本块均不含有任何关注实体时,将所述不相邻的两个短文本块及 其之间的短文本块全部合并。
9. 根据权利要求6所述的文本情感分析系统,其特征在于,所述综合计算单元包括: 情感计算单元,用于计算含有相同关注实体的所有长文本块的平均情感分值,得到该 关注实体的情感分值。
10. 根据权利要求6所述的文本情感分析系统,其特征在于,所述综合计算单元包括: 重要度计算单元,用于计算含有相同关注实体的所有长文本块的平均字符串长度,得 到该关注实体的重要度分值。
【专利摘要】本发明提供了一种文本情感分析方法及系统。该方法包括:根据标点符号对文本进行分割,得到至少一个短文本块;对含有相同的关注实体的短文本块进行合并,得到长文本块;对长文本块进行情感分析,得到长文本块的情感分值;综合含有相同关注实体的长文本块的情感分值,得到该关注实体的情感分值。本发明能够对文本中的多个实体对象分别作出情感判断,提高了情感分析的准确度,实现了高精度的自动情感分析。
【IPC分类】G06F17-27
【公开号】CN104731773
【申请号】CN201510185153
【发明人】张翔
【申请人】深圳证券信息有限公司
【公开日】2015年6月24日
【申请日】2015年4月17日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1