文本倾向性的确定方法和装置的制造方法_2

文档序号:8258490阅读:来源:国知局
为 负面、且包含有至少一个行业特征词的句子的数量之和的比值大于第二设定阈值(例如 70% ),则确定所述待分析的文本的倾向性为正面;
[0038] 如果倾向性为正面、且包含有至少一个行业特征词的句子的数量与倾向性为负 面、且包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的 比值大于第一设定阈值,且倾向性为正面、且包含有至少一个行业特征词的句子的数量,与 倾向性为正面、且包含有至少一个行业特征词的句子的数量以及倾向性为负面、且包含有 至少一个行业特征词的句子的数量之和的比值小于或者等于第二设定阈值,则确定所述待 分析的文本的倾向性为负面。
[0039] 本实施例的技术方案,由于对待分析的文本所评价的对象进行描述和/或情感评 价的文本包含有至少一个行业特征词,而对评价对象无关的对象进行描述和/或情感评价 的文本与行业特征词无关,因此,通过行业特征词词典中的行业特征词,可以从待分析的文 本中筛选得到包含有至少一个行业特征词的句子,从而实现对评价对象进行描述和/或情 感评价的文本与对评价对象无关的其他对象进行描述和/或情感评价的文本的分离,通过 对与评价对象有关的句子进行倾向性确定,并进一步进行文本倾向性确定,由于去除了对 评价对象无关的对象进行描述和/或情感评价的文本的干扰,因此提高了对待分析的文本 所评价的对象的倾向性分析的准确性。
[0040] 本发明实施例采用汽车领域新闻、论坛的28万个已标注倾向性的、且包含有至少 一个行业特征词的句子作为样本语句,训练得到文本分类模型,将从设定网站采集的汽车 领域新闻、论坛、博客、微博等1000篇文章作为待分析的文本,对利用行业特征词进行所述 分离操作后筛选得到与评价对象有关的句子,以及不进行分离对待分析的文本的原始句子 分别进行文本倾向性确定操作得到的对比结果,如表1所示。可见基于特定领域的特征,对 文本进行倾向性分析能大幅提高准确率和召回率。
[0041] 表 1
[0042]
【主权项】
1. 一种文本倾向性的确定方法,其特征在于,包括: 基于预先建立的行业特征词词典,W句子为单位,查找得到待分析的文本中包含有至 少一个行业特征词的句子; 根据预先训练得到的文本分类模型,确定所述包含有至少一个行业特征词的句子对应 的倾向性,所述文本分类模型是通过对已标注倾向性、且包含至少一个行业特征词的样本 语句进行学习训练得到的; 基于预设文本倾向性确定策略,根据所述包含有至少一个行业特征词的句子对应的倾 向性,确定所述待分析的文本的倾向性。
2. 根据权利要求1所述的方法,其特征在于,确定所述包含有至少一个行业特征词的 句子对应的倾向性,包括: 确定所述包含有至少一个行业特征词的句子为正面、中性或负面; 基于预设文本倾向性确定策略,根据所述包含有至少一个行业特征词的句子对应的倾 向性,确定所述待分析的文本的倾向性,包括: 如果倾向性为正面、且包含有至少一个行业特征词的句子的数量W及倾向性为负面、 且包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的比值 小于或等于第一设定阔值,则确定所述待分析的文本的倾向性为中性; 如果倾向性为正面、且包含有至少一个行业特征词的句子的数量W及倾向性为负面、 且包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的比值 大于第一设定阔值,且倾向性为正面、且包含有至少一个行业特征词的句子的数量,与倾向 性为正面、且包含有至少一个行业特征词的句子的数量W及倾向性为负面、且包含有至少 一个行业特征词的句子的数量之和的比值大于第二设定阔值,则确定所述待分析的文本的 倾向性为正面; 如果倾向性为正面、且包含有至少一个行业特征词的句子的数量与倾向性为负面、且 包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的比值大 于第一设定阔值,且倾向性为正面、且包含有至少一个行业特征词的句子的数量,与倾向性 为正面、且包含有至少一个行业特征词的句子的数量W及倾向性为负面、且包含有至少一 个行业特征词的句子的数量之和的比值小于或者等于第二设定阔值,则确定所述待分析的 文本的倾向性为负面。
3. 根据权利要求1所述的方法,其特征在于,基于预先建立的行业特征词词典,W句子 为单位,查找得到待分析的文本中包含有至少一个行业特征词的句子,包括: 对待分析的文本进行句子切分处理W及分词处理; 对于各分句,在预先建立的行业特征词词典中匹配该分句包含的分词,查找得到待分 析的文本中包含有至少一个行业特征词的句子。
4. 根据权利要求3所述的方法,其特征在于,在对待分析的文本进行句子切分处理W 及分词处理之后,所述方法还包括: 利用停用词表,对各分词进行过滤。
5. 根据权利要求1所述的方法,其特征在于,行业特征词词典的建立,包括: 接收人工配置的行业特征词词典中的行业特征词; 或者包括: 获取行业文本组; 基于预设行业种子字确定策略,从所述行业文本组包含的文本中确定该文本对应的行 业种子字; 基于预设行业特征词提取策略,利用所述行业种子字,在对应的文本中提取该文本包 含的行业特征词,并添加在行业特征词词典中。
6. 根据权利要求1-5任一所述的方法,其特征在于,在基于预设文本倾向性确定策略, 根据所述包含有至少一个行业特征词的句子对应的倾向性,确定所述待分析的文本的倾向 性之后,所述方法还包括: 利用情感词典,从所述包含有至少一个行业特征词的句子中提取情感词; 根据预先训练得到的条件随机场CRF模型,从所述包含有至少一个行业特征词的句子 中提取情感词,所述CRF模型是通过对已标注情感词和情感词位置的包含有至少一个行业 特征词的样本语句进行学习训练获得的; 将利用情感词典提取到的情感词与利用CRF模型提取到的情感词进行合并,得到所述 待分析的文本的情感词集合。
7. -种文本倾向性的确定装置,其特征在于,包括: 特征语句查询模块,用于基于预先建立的行业特征词词典,W句子为单位,查找得到待 分析的文本中包含有至少一个行业特征词的句子; 特征语句倾向性确定模块,用于根据预先训练得到的文本分类模型,确定所述包含有 至少一个行业特征词的句子对应的倾向性,所述文本分类模型是通过对已标注倾向性、且 包含至少一个行业特征词的样本语句进行学习训练得到的. 文本倾向性确定模块,用于基于预设文本倾向性确定策略,根据所述包含有至少一个 行业特征词的句子对应的倾向性,确定所述待分析的文本的倾向性。
8. 根据权利要求7所述的装置,其特征在于,特征语句倾向性确定模块,具体用于根据 预先训练得到的文本分类模型,确定所述包含有至少一个行业特征词的句子为正面、中性 或负面; 文本倾向性确定模块,具体用于: 如果倾向性为正面、且包含有至少一个行业特征词的句子的数量W及倾向性为负面、 且包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的比值 小于或等于第一设定阔值,则确定所述待分析的文本的倾向性为中性; 如果倾向性为正面、且包含有至少一个行业特征词的句子的数量W及倾向性为负面、 且包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的比值 大于第一设定阔值,且倾向性为正面、且包含有至少一个行业特征词的句子的数量,与倾向 性为正面、且包含有至少一个行业特征词的句子的数量W及倾向性为负面、且包含有至少 一个行业特征词的句子的数量之和的比值大于第二设定阔值,则确定所述待分析的文本的 倾向性为正面; 如果倾向性为正面、且包含有至少一个行业特征词的句子的数量与倾向性为负面、且 包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的比值大 于第一设定阔值,且倾向性为正面、且包含有至少一个行业特征词的句子的数量,与倾向性 为正面、且包含有至少一个行业特征词的句子的数量W及倾向性为负面、且包含有至少一 个行业特征词的句子的数量之和的比值小于或者等于第二设定阔值,则确定所述待分析的 文本的倾向性为负面。
9. 根据权利要求7所述的装置,其特征在于,特征语句查询模块包括: 预处理子模块,用于对待分析的文本进行句子切分处理W及分词处理. 特征语句查询子模块,用于对于各分句,在预先建立的行业特征词词典中匹配该分句 包含的分词,查找得到待分析的文本中包含有至少一个行业特征词的句子。
10. 根据权利要求9所述的装置,其特征在于,所述特征语句查询模块还包括: 分词过滤子模块,用于在对待分析的文本进行句子切分处理W及分词处理之后,利用 停用词表,对各分词进行过滤。
【专利摘要】本发明实施例提供一种文本倾向性的确定方法和装置。该方法包括:基于预先建立的行业特征词词典,以句子为单位,查找得到待分析的文本中包含有至少一个行业特征词的句子;根据预先训练得到的文本分类模型,确定所述包含有至少一个行业特征词的句子对应的倾向性;基于预设文本倾向性确定策略,根据所述包含有至少一个行业特征词的句子对应的倾向性,确定所述待分析的文本的倾向性。通过行业特征词词典中的行业特征词,可以筛选得到对评价对象进行描述和/或情感评价的文本,由于去除了对评价对象无关的对象进行描述和/或情感评价的文本的干扰,因此提高了对待分析的文本所评价的对象的倾向性分析的准确性。
【IPC分类】G06F17-27
【公开号】CN104572616
【申请号】CN201410809796
【发明人】鲁平
【申请人】北京锐安科技有限公司
【公开日】2015年4月29日
【申请日】2014年12月23日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1