文本倾向性的确定方法和装置的制造方法

文档序号:8258490阅读:343来源:国知局
文本倾向性的确定方法和装置的制造方法
【技术领域】
[0001] 本发明实施例涉及数据分析技术领域,尤其涉及一种文本倾向性的确定方法和装 置。
【背景技术】
[0002] 对于文本的倾向性分析,目前主要有两种方法,一种基于语义分析文本的倾向性, 另一种基于机器学习模型分析文本倾向性。
[0003] 其中,基于语义的文本倾向性分析方法,一般是基于预先建立一个倾向性语义模 式库或情感词典,对待分析文本中的形容词或能够体现主观色彩的短语进行抽取,即抽取 情感词,然后对抽取的情感词逐一进行倾向性判断并赋予一个倾向值,最后将上述所有倾 向值累加起来得到待分析的文本的倾向性。
[0004] 上述基于语义的文本倾向性分析方法存在以下缺陷:情感词的提取受限于情感词 典的准确度和完整度。
[0005] 基于机器学习模型分析文本倾向性的方法,一般是先通过人工标注一些文本的倾 向性,并将这些文档作为训练样本,再通过机器学习的方法构造一个文本分类模型,最后使 用构造好的文本分类模型对待分析的文本进行分类,即识别出待分析的文本的倾向性,常 用SVM(Support Vector Machine,支持向量机)构造文本分类模型。
[0006] 上述基于机器学习模型分析文本倾向性的方法在用于分析特定领域的文本的倾 向性时,由于不同领域的文本具有不同的特点,相应的倾向性的体现方式不同,因此会导致 对不同领域的文本的倾向性的确定结果不准确。

【发明内容】

[0007] 本发明实施例提供一种文本倾向性的确定方法和装置,以提高确定的特定领域的 文本的倾向性的准确性。
[0008] 第一方面,本发明实施例提供了一种文本倾向性的确定方法,包括:
[0009] 基于预先建立的行业特征词词典,以句子为单位,查找得到待分析的文本中包含 有至少一个行业特征词的句子;
[0010] 根据预先训练得到的文本分类模型,确定所述包含有至少一个行业特征词的句子 对应的倾向性,所述文本分类模型是通过对已标注倾向性、且包含至少一个行业特征词的 样本语句进行学习训练得到的;
[0011] 基于预设文本倾向性确定策略,根据所述包含有至少一个行业特征词的句子对应 的倾向性,确定所述待分析的文本的倾向性。
[0012] 第二方面,本发明实施例提供了一种文本倾向性的确定装置,包括:
[0013] 特征语句查询模块,用于基于预先建立的行业特征词词典,以句子为单位,查找得 到待分析的文本中包含有至少一个行业特征词的句子;
[0014] 特征语句倾向性确定模块,用于根据预先训练得到的文本分类模型,确定所述包 含有至少一个行业特征词的句子对应的倾向性,所述文本分类模型是通过对已标注倾向 性、且包含至少一个行业特征词的样本语句进行学习训练得到的;
[0015] 文本倾向性确定模块,用于基于预设文本倾向性确定策略,根据所述包含有至少 一个行业特征词的句子对应的倾向性,确定所述待分析的文本的倾向性。
[0016] 本发明实施例提供的文本倾向性的确定方法和装置,由于对待分析的文本所评价 的对象进行描述和/或情感评价的文本包含有至少一个行业特征词,而对评价对象无关的 对象进行描述和/或情感评价的文本与行业特征词无关,因此,通过行业特征词词典中的 行业特征词,可以从待分析的文本中筛选得到包含有至少一个行业特征词的句子,从而实 现对评价对象进行描述和/或情感评价的文本与对评价对象无关的其他对象进行描述和/ 或情感评价的文本的分离,通过对与评价对象有关的句子进行倾向性确定,并进一步进行 文本倾向性确定,由于去除了对评价对象无关的对象进行描述和/或情感评价的文本的干 扰,因此提高了对待分析的文本所评价的对象的倾向性分析的准确性。
【附图说明】
[0017] 为了更清楚地说明本发明,下面将对本发明中所需要使用的附图做一简单地介 绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来 讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0018] 图1为本发明实施例一提供的一种文本倾向性的确定方法的流程图;
[0019] 图2为本发明实施例三提供的一种文本倾向性的确定方法的流程图;
[0020] 图3a为本发明实施例三提供的另一种文本倾向性的确定方法的流程图;
[0021] 图3b为本发明实施例三提供的另一种文本倾向性的确定方法中利用训练得到的 文本分类模型以及CRF模型对经预处理后的待分析的文本进行倾向性确定,得到待分析的 文本的倾向性以及得到待分析的文本的情感词集合的流程图;
[0022] 图4为本发明实施例四提供的一种文本倾向性的确定装置的结构示意图。
【具体实施方式】
[0023] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例 中的技术方案作进一步详细描述,显然,所描述的实施例是本发明一部分实施例,而不是全 部的实施例。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的 限定,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得 的所有其他实施例,都属于本发明保护的范围。另外还需要说明的是,为了便于描述,附图 中仅示出了与本发明相关的部分而非全部内容。
[0024] 实施例一
[0025] 请参阅图1,为本发明实施例一提供的一种文本倾向性的确定方法的流程图。本发 明实施例的方法可以由配置以硬件和/或软件实现的文本倾向性的确定装置来执行,该实 现装置典型的是配置于能够提供倾向性确定服务的服务器中。
[0026] 该方法包括:步骤110?步骤130。
[0027] 步骤110、基于预先建立的行业特征词词典,以句子为单位,查找得到待分析的文 本中包含有至少一个行业特征词的句子。
[0028] 行业可以是现有的各种行业,例如,汽车、体育、财经和娱乐等。由于在不同的时间 段内,行业发展趋势的不同,导致反映行业发展趋势的行业特征词随时间动态变化,行业特 征词有利于动态确定行业热点。设定时间段内,获取到的某个行业领域的行业特征词的集 合,即为该行业的行业特征词词典。
[0029] 本步骤具体是利用行业特征词词典中的行业特征词,从待分析的文本中筛选得到 包含有至少一个行业特征词的句子,从而实现包含有至少一个行业特征词的句子与不包含 行业特征词的句子的分离。其中,待分析的文本为某一行业领域的行业文本。
[0030] 某一行业领域的行业文本中的信息体现在两个方面:一方面是对行业文本所评价 的对象进行描述和/或情感评价的文本,另一方面是对行业文本所评价的对象关联的其他 对象进行描述和/或情感评价的文本,与评价对象关联的其他对象即为与评价对象无关的 对象。在对待分析的行业文本进行情感分析,也即倾向性确定时,由于对行业文本所评价的 对象进行描述和/或情感评价的文本与对行业文本所评价的对象关联的其他对象进行描 述和/或情感评价的文本夹杂在一起,而影响了对待分析的文本所评价的对象的倾向性分 析的准确性,因此将上述两种文本进行分离,能够识别得到与评价对象有关的句子,对于与 评价对象有关的句子继续进行下述倾向性确定操作,而对于与评价对象无关的句子则不参 与倾向性的确定。
[0031] 其中,对行业文本所评价的对象进行描述和/或情感评价的文本的特征在于,包 含有至少一个行业特征词,对行业文本所评价的对象关联的其他对象进行描述和/或情感 评价的文本的特征在于,与行业特征词无关,因此,利用行业特征词词典中的行业特征词, 可以从待分析的文本中筛选得到包含有至少一个行业特征词的句子,从而实现包含有至少 一个行业特征词的句子与不包含行业特征词的句子的分离,也即实现对行业文本所评价的 对象进行描述和/或情感评价的文本与对行业文本所评价的对象关联的其他对象进行描 述和/或情感评价的文本的分离。
[0032] 步骤120、根据预先训练得到的文本分类模型,确定所述包含有至少一个行业特征 词的句子对应的倾向性,所述文本分类模型是通过对已标注倾向性、且包含至少一个行业 特征词的样本语句进行学习训练得到的。
[0033] 步骤130、基于预设文本倾向性确定策略,根据所述包含有至少一个行业特征词的 句子对应的倾向性,确定所述待分析的文本的倾向性。
[0034] 确定所述包含有至少一个行业特征词的句子对应的倾向性,可以包括:确定所述 包含有至少一个行业特征词的句子为正面、中性或负面;具体可以采用n-gram算法,得到 包含有至少一个行业特征词的句子为正面、中性或负面。
[0035] 相应地,基于预设文本倾向性确定策略,根据所述包含有至少一个行业特征词的 句子对应的倾向性,确定所述待分析的文本的倾向性,可以包括:
[0036] 如果倾向性为正面、且包含有至少一个行业特征词的句子的数量以及倾向性为负 面、且包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的 比值小于或等于第一设定阈值(例如10% ),则确定所述待分析的文本的倾向性为中性;
[0037] 如果倾向性为正面、且包含有至少一个行业特征词的句子的数量以及倾向性为负 面、且包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的 比值大于第一设定阈值(例如10% ),且倾向性为正面、且包含有至少一个行业特征词的 句子的数量,与倾向性为正面、且包含有至少一个行业特征词的句子的数量以及倾向性
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1