训练情感分类模型和文本情感极性分析的方法及系统的制作方法_3

文档序号:9751333阅读:来源:国知局
中任一实施例得到的训练后的情感分类模 型,结合句向量特征,分析目标文本的情感极性。例如,该情感极性可以包括:积极和消极, 主观和客观。
[0088]综上所述,在本实施例中,通过实施例一至三中任一实施例的方法,从目标文本中 提取句向量特征,再采用实施例一至三中任一实施例中获得的情感分类模型,分析目标文 本的情感极性。本实施例的文本情感极性分析的方法,可避免维度灾难的问题,挖掘词与词 之间的关联属性,提高向量语义上的准确度。
[0089] 以下为本发明实施例提供的训练情感分类模型的系统的实施例,该实施例与上述 训练情感分类模型的方法的实施例属于同一构思,训练情感分类模型的系统的实施例中未 详尽描述的细节内容,可参考上述训练情感分类模型的方法的实施例。
[0090] 实施例五
[0091 ]参见图5,本实施例的训练情感分类模型的系统500与实施例一的方法相对应,该 系统500包括,数据采集单元510、原始数据预处理单元520、词向量提取单元530、句向量特 征生成单元540和情感分类模型训练单元550。其中:
[0092]数据采集单元510,用于从语料库中采集数据,获得原始数据;
[0093]原始数据预处理单元520,用于对上述原始数据进行预处理,获得预处理数据; [0094]词向量提取单元530,用于通过神经网络模型,从上述预处理数据中提取词向量; [0095]句向量特征生成单元540,用于将上述词向量,按预设融合规则进行融合,生成句 向量特征;以及
[0096]情感分类模型训练单元550,用于根据上述句向量特征和训练情感分类模型的方 法得到的训练后的情感分类模型,得到训练后的情感分类模型。
[0097]综上所述,根据本实施例技术方案获得的情感分类模型,可避免维度灾难的问题, 挖掘词与词之间的关联属性,提高向量语义上的准确度。
[0098]实施例六
[0099]在本发明实施例五的基础上,本实施例进一步提供了原始数据预处理单元520的 优选实施方式。
[0100] 如图6所示,原始数据预处理单元520可以包含:
[0101]清洗子单元521,用于清洗上述原始数据,获得清洗后数据。
[0102] 分词和去停用词子单元522,用于对上述清洗后数据做分词和去停用词处理,获得 预处理数据。
[0103] 综上所述,根据本实施例的技术方案,通过清洗子单元521,可将原始数据中的非 文字类数据清洗掉,获得清洗后数据。通过分词和去停用词子单元522,可对清洗后数据做 分词和去停用词处理,获得预处理数据。
[0104] 实施例七
[0105] 在本发明实施例六的基础上,本发明实施例进一步提供了清洗子单元521的优选 实施方式。
[0106] 如图7所示,清洗子单元521可以包括:
[0107]删除孙单元5211,用于删除所述原始数据中的HTML标签和URL。
[0108] 转换孙单元5212,用于当所述语料库中的文字为中文时,将所述原始数据中的繁 体字转换成简体字。
[0109] 综上所述,根据本实施例的技术方案,通过删除孙单元5211,可删除原始数据中的 HTML标签和URL等。通过转换孙单元5212,可将原始数据中的中文繁体字转换成简体字。 [0110]以下为本发明实施例提供的文本情感极性分析的系统的实施例,该实施例与上述 文本情感极性分析的方法属于同一构思,文本情感极性分析的系统的实施例中未详尽描述 的细节内容,可参考上述文本情感极性分析的方法的实施例。
[0111]实施例八
[0112] 参见图8,本实施例的文本情感极性分析的系统800与实施例四的方法相对应,系 统包括句向量特征提取单元810和情感极性分析单元820。其中:
[0113] 句向量特征提取单元810,用于通过本发明实施例五至七中任一实施提供的系统, 从目标文本中提取句向量特征;以及
[0114] 情感极性分析单元820,用于根据上述句向量特征和本发明实施例五至七中任一 实施提供的系统得到的训练后的情感分类模型,分析目标文本的情感极性。
[0115] 综上所述,根据本实施例技术方案的文本情感极性分析的系统,可避免维度灾难 的问题,挖掘词与词之间的关联属性,提高向量语义上的准确度。
[0116] 以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员 而言,本发明在【具体实施方式】上可以有各种改动和变化。凡在本发明的精神和原理之内所 作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种训练情感分类模型的方法,包括: 从语料库中采集数据,获得原始数据; 对所述原始数据进行预处理,获得预处理数据; 通过神经网络模型,从所述预处理数据中提取词向量; 将所述词向量,按预设融合规则进行融合,生成句向量特征; 根据所述句向量特征,训练情感分类模型,得到训练后的情感分类模型。2. 如权利要求1所述的方法,其中,所述通过神经网络模型,从所述预处理数据中提取 词向量,包括: 将所述预处理数据中的词转换成0-1的向量并按位相加后,作为神经网络模型的输入 层; 以霍夫曼编码树作为所述神经网络模型的输出层; 使所述神经网络模型无监督学习得到所述词对应的词向量。3. 如权利要求1所述方法,其中,所述按预设融合规则进行融合,包括: 按预设规则进行叠加。4. 如权利要求1所述的方法,其中,所述根据所述句向量特征,训练情感分类模型,包 括: 用所述句向量特征,通过学习模型进行有监督训练,获得情感分类模型。5. 如权利要求1~4任一项所述的方法,其中,所述从语料库中采集数据,包括: 通过爬虫工具爬取所述语料库中的内容来采集数据。6. 如权利要求1~4任一项所述的方法,其中,所述对所述原始数据进行预处理,获得预 处理数据,包括: 清洗所述原始数据,获得清洗后数据; 对所述清洗后数据做分词和去停用词处理,获得预处理数据。7. 如权利要求6所述方法,其中,所述清洗所述原始数据,包括: 删除所述原始数据中的HTML标签和URL; 当所述语料库中的内容为中文时,将所述原始数据中的繁体字转换成简体字。8. -种文本情感极性分析的方法,包括: 从目标文本中提取句向量特征; 根据所述句向量特征和权利要求1~7中任一项所述的训练情感分类模型的方法得到 的训练后的情感分类模型,分析所述目标文本的情感极性。9. 一种训练情感分类模型的系统,其特征在于,包括: 数据采集单元,用于从语料库中采集数据,获得原始数据; 原始数据预处理单元,用于对所述原始数据进行预处理,获得预处理数据; 词向量提取单元,用于通过神经网络模型,从所述预处理数据中提取词向量; 句向量特征生成单元,用于将所述词向量,按预设融合规则进行融合,生成句向量特 征;以及 情感分类模型训练单元,用于根据所述句向量特征,训练情感分类模型,得到训练后的 情感分类模型。10. 如权利要求9所述的系统,其中,所述原始数据预处理单元包括: 清洗子单元,用于清洗所述原始数据,获得清洗后数据;以及 分词和去停用词子单元,用于对所述清洗后数据做分词和去停用词处理,获得预处理 数据。11. 如权利要求10所述的系统,其中,所述清洗子单元包括: 删除孙单元,用于删除所述原始数据中的HTML标签和URL;以及 转换孙单元,用于当所述语料库中的文字为中文时,将所述原始数据中的繁体字转换 成简体字。12. -种文本情感极性分析的系统,包括: 句向量特征提取单元,用于从目标文本中提取句向量特征;以及 情感极性分析单元,用于根据所述句向量特征和权利要求9~11中任一项所述的训练 情感分类模型的系统得到的训练后的情感分类模型,分析所述目标文本的情感极性。
【专利摘要】训练情感分类模型和文本情感极性分析的方法及系统。训练情感分类模型的方法包括:从语料库中采集数据,获得原始数据;对所述原始数据进行预处理,获得预处理数据;通过神经网络模型,从所述预处理数据中提取词向量;将所述词向量,按预设融合规则进行融合,生成句向量特征;根据所述句向量特征,训练情感分类模型,得到训练后的情感分类模型。本方法采用神经网络模型,用低维空间向量表示词,将低维空间词向量按预设规则融合成句向量特征,并通过一些学习模型来训练得到情感分类模型,可有效降低词向量维度,避免维度灾难问题,挖掘词与词之间的关联属性,提高向量语义上的准确度。
【IPC分类】G06F17/27, G06K9/62, G06N3/08
【公开号】CN105512687
【申请号】CN201510931457
【发明人】张建华, 刘鹏
【申请人】北京锐安科技有限公司
【公开日】2016年4月20日
【申请日】2015年12月15日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1