训练情感分类模型和文本情感极性分析的方法及系统的制作方法_3

文档序号：9751333阅读：来源：国知局

中任一实施例得到的训练后的情感分类模型，结合句向量特征，分析目标文本的情感极性。例如，该情感极性可以包括:积极和消极，主观和客观。
[0088]综上所述，在本实施例中，通过实施例一至三中任一实施例的方法，从目标文本中提取句向量特征，再采用实施例一至三中任一实施例中获得的情感分类模型，分析目标文本的情感极性。本实施例的文本情感极性分析的方法，可避免维度灾难的问题，挖掘词与词之间的关联属性，提高向量语义上的准确度。
[0089] 以下为本发明实施例提供的训练情感分类模型的系统的实施例，该实施例与上述训练情感分类模型的方法的实施例属于同一构思，训练情感分类模型的系统的实施例中未详尽描述的细节内容，可参考上述训练情感分类模型的方法的实施例。
[0090] 实施例五
[0091 ]参见图5，本实施例的训练情感分类模型的系统500与实施例一的方法相对应，该系统500包括，数据采集单元510、原始数据预处理单元520、词向量提取单元530、句向量特征生成单元540和情感分类模型训练单元550。其中：
[0092]数据采集单元510，用于从语料库中采集数据，获得原始数据；
[0093]原始数据预处理单元520，用于对上述原始数据进行预处理，获得预处理数据； [0094]词向量提取单元530,用于通过神经网络模型，从上述预处理数据中提取词向量； [0095]句向量特征生成单元540，用于将上述词向量，按预设融合规则进行融合，生成句向量特征；以及
[0096]情感分类模型训练单元550,用于根据上述句向量特征和训练情感分类模型的方法得到的训练后的情感分类模型，得到训练后的情感分类模型。
[0097]综上所述，根据本实施例技术方案获得的情感分类模型，可避免维度灾难的问题，挖掘词与词之间的关联属性，提高向量语义上的准确度。
[0098]实施例六
[0099]在本发明实施例五的基础上，本实施例进一步提供了原始数据预处理单元520的优选实施方式。
[0100] 如图6所示，原始数据预处理单元520可以包含：
[0101]清洗子单元521，用于清洗上述原始数据，获得清洗后数据。
[0102] 分词和去停用词子单元522,用于对上述清洗后数据做分词和去停用词处理，获得预处理数据。
[0103] 综上所述，根据本实施例的技术方案，通过清洗子单元521，可将原始数据中的非文字类数据清洗掉，获得清洗后数据。通过分词和去停用词子单元522,可对清洗后数据做分词和去停用词处理，获得预处理数据。
[0104] 实施例七
[0105] 在本发明实施例六的基础上，本发明实施例进一步提供了清洗子单元521的优选实施方式。
[0106] 如图7所示，清洗子单元521可以包括：
[0107]删除孙单元5211，用于删除所述原始数据中的HTML标签和URL。
[0108] 转换孙单元5212,用于当所述语料库中的文字为中文时，将所述原始数据中的繁体字转换成简体字。
[0109] 综上所述，根据本实施例的技术方案，通过删除孙单元5211，可删除原始数据中的 HTML标签和URL等。通过转换孙单元5212，可将原始数据中的中文繁体字转换成简体字。 [0110]以下为本发明实施例提供的文本情感极性分析的系统的实施例，该实施例与上述文本情感极性分析的方法属于同一构思，文本情感极性分析的系统的实施例中未详尽描述的细节内容，可参考上述文本情感极性分析的方法的实施例。
[0111]实施例八
[0112] 参见图8,本实施例的文本情感极性分析的系统800与实施例四的方法相对应，系统包括句向量特征提取单元810和情感极性分析单元820。其中：
[0113] 句向量特征提取单元810,用于通过本发明实施例五至七中任一实施提供的系统，从目标文本中提取句向量特征；以及
[0114] 情感极性分析单元820,用于根据上述句向量特征和本发明实施例五至七中任一实施提供的系统得到的训练后的情感分类模型，分析目标文本的情感极性。
[0115] 综上所述，根据本实施例技术方案的文本情感极性分析的系统，可避免维度灾难的问题，挖掘词与词之间的关联属性，提高向量语义上的准确度。
[0116] 以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明在【具体实施方式】上可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
【主权项】
1. 一种训练情感分类模型的方法，包括：从语料库中采集数据，获得原始数据；对所述原始数据进行预处理，获得预处理数据；通过神经网络模型，从所述预处理数据中提取词向量；将所述词向量，按预设融合规则进行融合，生成句向量特征；根据所述句向量特征，训练情感分类模型，得到训练后的情感分类模型。2. 如权利要求1所述的方法，其中，所述通过神经网络模型，从所述预处理数据中提取词向量，包括：将所述预处理数据中的词转换成0-1的向量并按位相加后，作为神经网络模型的输入层；以霍夫曼编码树作为所述神经网络模型的输出层；使所述神经网络模型无监督学习得到所述词对应的词向量。3. 如权利要求1所述方法，其中，所述按预设融合规则进行融合，包括：按预设规则进行叠加。4. 如权利要求1所述的方法，其中，所述根据所述句向量特征，训练情感分类模型，包括：用所述句向量特征，通过学习模型进行有监督训练，获得情感分类模型。5. 如权利要求1~4任一项所述的方法，其中，所述从语料库中采集数据，包括：通过爬虫工具爬取所述语料库中的内容来采集数据。6. 如权利要求1~4任一项所述的方法，其中，所述对所述原始数据进行预处理，获得预处理数据，包括：清洗所述原始数据，获得清洗后数据；对所述清洗后数据做分词和去停用词处理，获得预处理数据。7. 如权利要求6所述方法，其中，所述清洗所述原始数据，包括：删除所述原始数据中的HTML标签和URL; 当所述语料库中的内容为中文时，将所述原始数据中的繁体字转换成简体字。8. -种文本情感极性分析的方法，包括：从目标文本中提取句向量特征；根据所述句向量特征和权利要求1~7中任一项所述的训练情感分类模型的方法得到的训练后的情感分类模型，分析所述目标文本的情感极性。9. 一种训练情感分类模型的系统，其特征在于，包括：数据采集单元，用于从语料库中采集数据，获得原始数据；原始数据预处理单元，用于对所述原始数据进行预处理，获得预处理数据；词向量提取单元，用于通过神经网络模型，从所述预处理数据中提取词向量；句向量特征生成单元，用于将所述词向量，按预设融合规则进行融合，生成句向量特征；以及情感分类模型训练单元，用于根据所述句向量特征，训练情感分类模型，得到训练后的情感分类模型。10. 如权利要求9所述的系统，其中，所述原始数据预处理单元包括：清洗子单元，用于清洗所述原始数据，获得清洗后数据；以及分词和去停用词子单元，用于对所述清洗后数据做分词和去停用词处理，获得预处理数据。11. 如权利要求10所述的系统，其中，所述清洗子单元包括：删除孙单元，用于删除所述原始数据中的HTML标签和URL;以及转换孙单元，用于当所述语料库中的文字为中文时，将所述原始数据中的繁体字转换成简体字。12. -种文本情感极性分析的系统，包括：句向量特征提取单元，用于从目标文本中提取句向量特征；以及情感极性分析单元，用于根据所述句向量特征和权利要求9~11中任一项所述的训练情感分类模型的系统得到的训练后的情感分类模型，分析所述目标文本的情感极性。
【专利摘要】训练情感分类模型和文本情感极性分析的方法及系统。训练情感分类模型的方法包括：从语料库中采集数据，获得原始数据；对所述原始数据进行预处理，获得预处理数据；通过神经网络模型，从所述预处理数据中提取词向量；将所述词向量，按预设融合规则进行融合，生成句向量特征；根据所述句向量特征，训练情感分类模型，得到训练后的情感分类模型。本方法采用神经网络模型，用低维空间向量表示词，将低维空间词向量按预设规则融合成句向量特征，并通过一些学习模型来训练得到情感分类模型，可有效降低词向量维度，避免维度灾难问题，挖掘词与词之间的关联属性，提高向量语义上的准确度。
【IPC分类】G06F17/27, G06K9/62, G06N3/08
【公开号】CN105512687
【申请号】CN201510931457
【发明人】张建华, 刘鹏
【申请人】北京锐安科技有限公司
【公开日】2016年4月20日
【申请日】2015年12月15日

完整全部详细技术资料下载

当前第3页1 2 3