一种基于结构句法的情绪原因事件识别方法及系统的制作方法

文档序号:9432628阅读:284来源:国知局
一种基于结构句法的情绪原因事件识别方法及系统的制作方法
【技术领域】
[0001] 本发明设及信息抽取技术领域,更具体地说,设及一种基于结构句法的情绪原因 事件识别方法及系统。
【背景技术】
[0002] 随着互联网的高速发展,网络信息数据不断增加,大量信息W电子文本的形式呈 现在人们面前。而如何从运些大量的信息中迅速、准确地提取出人们所需求的重要信息就 越发重要。
[0003] 信息抽取是从文本信息中自动获取所需信息的一种主要手段。信息抽取是将无结 构的文本信息,按照人们的需求识别和抽取出来,转化为结构化或半结构化的信息,并采用 数据库的形式存储,W便人们查询和进一步的分析、利用。其中,由文本信息中获取其情绪 原因事件是信息抽取中的一个重要方面,情绪原因事件是指文本信息(可W是某段语句) 中情绪的触发事件。例如,对于文本信息:1amh曰ppybee曰useIh曰vep曰ssedthetest。 该句中情绪对应的情绪词为happy,与之对应的情绪原因事件为Ihavepassedthetest。
[0004] 目前,情绪原因事件识别方法大多是基于机器学习的方法,即使用统计的方法进 行研究。主要还是基于全监督的学习方法,运种方法把情绪原因事件识别看成分类问题,选 择合适的特征并使用合适的分类器来完成。但是,运种方法获取待测文本的情绪原因事件 的准确率较低。
[0005] 综上所述,现有技术中的情绪原因事件识别方法存在获取待测文本的情绪原因事 件的准确率较低的问题。

【发明内容】

[0006] 本发明的目的是提供一种基于结构句法的情绪原因事件识别方法及系统,W解决 现有技术中存在的获取待测文本的情绪原因事件的准确率较低的问题。
[0007] 为了实现上述目的,本发明提供如下技术方案:
[0008] 一种基于结构句法的情绪原因事件识别方法,包括:
[0009] 获取预设量的训练文本,所述训练文本为已提供其情绪原因事件的文本;
[0010] 将所述训练文本进行分词处理,得到分别与每个所述训练文本对应的训练词组;
[0011] 确定所述训练词组中每个词语的结构句法特征;
[0012] 利用所述训练词组及每个所述训练词组包括的每个词语的结构句法特征训练CRF 模型;
[0013] 利用所述CRF模型确定待测词组对应的待测文本的情绪原因事件。
[0014] 优选的,所述利用所述训练词组及每个所述训练词组包括的每个词语的结构句法 特征训练CRF模型,包括:
[0015] 确定每个所述训练词组中与该训练词组的情绪原因事件对应的训练情绪词;其 中,所述训练词组的情绪原因事件为与所述训练词组对应的训练文本的情绪原因事件;
[0016] 确定每个所述训练词组中每个词语的词特征、词性特征及词距离;其中,每个所述 训练词组中每个词语的词距离为该训练词组中每个词语与该训练词组中的训练情绪词之 间的距离;
[0017] 利用每个所述训练词组及该训练词组中每个词语的词特征、词性特征、词距离及 结构句法特征训练CRF模型。
[0018] 优选的,确定每个所述训练词组中每个词语的词特征、词性特征及结构句法特征, 包括:
[0019] 利用Stan化rd工具确定所述训练词组中每个词语的词特征、词性特征及结构句 法特征。
[0020] 优选的,所述确定每个所述训练词组中每个词语的词特征、词性特征及词距离,包 括:
[0021] 确定每个所述训练词组中每个词语的词特征、词性特征及词距离;其中,每个所述 训练词组中位于该训练词组中的训练情绪词左边的词语的词距离为负数,位于该训练词组 中的训练情绪词右边的词语的词距离为正数。
[0022] 优选的,所述利用所述CRF模型确定待测词组对应的待测文本的情绪原因事件, 包括:
[0023] 获取待测文本,所述待测文本为未提供其情绪原因事件的文本;
[0024] 将所述待测文本进行分词处理,得到待测词组;
[00巧]确定所述待测词组中包括的待测情绪词;
[00%] 确定所述待测词组中每个词语的词特征、词性特征、词距离及结构句法特征;其 中,所述待测词组中每个词语的词距离为该待测词组中每个词语与待测情绪词之间的距 离;
[0027] 利用所述待测词组中每个词语的词特征、词性特征、词距离及结构句法特征,通过 所述CRF模型,得到所述待测文本的情绪原因事件。
[0028] 一种基于结构句法的情绪原因事件识别系统,包括:
[0029] 获取模块,用于获取预设量的训练文本,所述训练文本为已提供其情绪原因事件 的文本;
[0030] 分词模块,用于将所述训练文本进行分词处理,得到分别与每个所述训练文本对 应的训练词组;
[0031] 第一确定模块,用于确定所述训练词组中每个词语的结构句法特征;
[0032] 训练模块,用于利用所述训练词组及每个所述训练词组包括的每个词语的结构句 法特征训练CRF模型;
[0033] 第二确定模块,用于利用所述CRF模型确定待测词组对应的待测文本的情绪原因 事件。
[0034] 本发明提供的一种基于结构句法的情绪原因事件识别方法及系统,包括:获取预 设量的训练文本,所述训练文本为已提供其情绪原因事件的文本;将所述训练文本进行分 词处理,得到分别与每个所述训练文本对应的训练词组;确定所述训练词组中每个词语的 结构句法特征;利用所述训练词组及每个所述训练词组包括的每个词语的结构句法特征训 练CRF模型;利用所述CRF模型确定待测词组对应的待测文本的情绪原因事件。与现有技 术相比,本申请中利用训练文本进行分词后的词组及词组中每个词语的结构句法特征构建CRFkonditionalrandomfieldalgorithm,条件随机场算法)模型,即建立一个统一的概 率模型,进一步利用上述CRF模型确定待测文本的情绪原因事件,实验证明,本发明实施例 提供的一种基于结构句法的情绪原因事件识别方法及系统获取待测文本的情绪原因事件 的准确率较高,即对于情绪原因事件的识别性能较好。
【附图说明】
[0035] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W根据 提供的附图获得其他的附图。
[0036]图1为本发明实施例提供的一种基于结构句法的情绪原因事件识别方法的流程 图;
[0037]图2为本发明实施例提供的一种基于结构句法的情绪原因事件识别方法中结构 句法特征中各节点的示意图;
[0038]图3为本发明实施例提供的一种基于结构句法的情绪原因事件识别方法中步骤 S16的流程图;
[0039]图4为本发明实施例提供的一种基于结构句法的情绪原因事件识别系统的结构 不意图。
【具体实施方式】
[0040] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0041] 请参阅图1,其示出了本发明实施例提供的一种基于结构句法的情绪原因事件识 别方法的流程图,可W包括W下步骤:
[0042] S11:获取预设量的训练文本,训练文本为已提供其情绪原因事件的文本。
[0043] 其中,预设量可根据实际需要进行确定。 W44] S12:将训练文本进行分词处理,得到分别与每个训练文本对应的训练词组。
[0045] 其中,分词处理即为将一段文本分割成词语的组合,如将语句"我很高兴",分割成 "我""很""高兴"。另外,本发明实施例中训练文本及下文中的待测文本可W是英文文本, 也可W是中文文本。
[0046] S13:确定训练词组中每个词语的结构句法特征。
[0047]S14 :利用训练词组及每个训练词组包括的每个词语的结构句法特征训练CRF模 型。 W48] S15 :利用CRF模型确定待测词组对应的待测文本的情绪原因事件。
[0049] 本申请中利用训练文本进行分词后的词组及词组中每个词语的结构句法特征构 建CRF(conditionalrandomfieldalgorithm,条件随机场算法)模型,即建立一个统一的 概率模型,进一步利用上述CRF模型确定待测文本的情绪原因事件,实验证明,本发明实施 例提供的一种基于结构句法的情绪原因事件识别方法获取待测文本的情绪原因事件的准 确率较高,即对于情绪原因事件的识别性能较好。
[0050] 其中,利用训练词组及每个训练词组包括的每个词语的结构句法特征训练CRF模 型,可W是,将训练词组及每个训练词组包括的每个词语的结构句法特征处理成CRF++所 需的格式,然后将其训练成CRF模型。
[0051] 另外,针对序列标注模型的求解,表现较好的是条件随机场方法,即与CRF模型对 应的方法。CRF模型,即条件随机场模型是Lafferty等在最大赌模型和隐马尔可夫模型的 基础上提出的一种无向图学习模型,是一种用于标注和切分有序数据的条件概率模型。CRF 模型对应的方法是对序列的整体优化。具体求解公式如下:
[0052]
阳05引其中,Y={yj表示对应的输出标记序列;ytG化I,E,0}分
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1