一种基于结构句法的情绪原因事件识别方法及系统的制作方法_2

文档序号:9432628阅读:来源:国知局
别代表对应的词语 是否是情绪原因对应的第一个词、情绪原因的中间词、情绪原因的最后一个词、非情绪原因 中的词;W表示待测词序列,Z(W)是归一化因子,fk为特征函数,t为相应特征的下标。
[0054] 需要说明的是,本发明实施例提供的一种基于结构句法的情绪原因事件识别方法 中,利用训练词组及每个训练词组包括的每个词语的结构句法特征训练CRF模型,可W包 括W下步骤:
[0055] 确定每个训练词组中与该训练词组的情绪原因事件对应的训练情绪词;其中,训 练词组的情绪原因事件为与训练词组对应的训练文本的情绪原因事件;
[0056] 确定每个训练词组中每个词语的词特征、词性特征及词距离;其中,每个训练词 组中每个词语的词距离为该训练词组中每个词语与该训练词组中的训练情绪词之间的距 离;
[0057] 利用每个训练词组及该训练词组中每个词语的词特征、词性特征、词距离及结构 句法特征训练CRF模型。
[0058] 可W利用Stan化rd工具确定训练词组中每个词语的词特征、词性特征及结构句 法特征。词特征可W是词语本身。
[0059] 而确定每个训练词组中每个词语的词特征、词性特征及词距离时,可W包括:确定 每个训练词组中每个词语的词特征、词性特征及词距离;其中,每个训练词组中位于该训练 词组中的训练情绪词左边的词语的词距离为负数,位于该训练词组中的训练情绪词右边的 词语的词距离为正数。而词距离的绝对值则可W是一个词语在该训练词组中与训练情绪词 之间的字数差。举例说明,训练词组为"Marie" "was" "agitated" "Agitated"为训 练情绪词,则每个词语的词特性、词性特征、词距离及结构句法特征如下表所示。
[0060] 每个词语的词特性、词性特征、词距离及结构句法特征的统计表
[0061]
[0062] 其中,结构句法特征中的父节点、到根节点路径、路径长度、左兄弟节点及右兄弟 节点均是由Stan化rd工具获得的,如下:
[0063]
柳64] 图2为结构句法特征中各节点的示意图,其中was的词性特征是VBD,(VBDwas) 组成一个叶子节点;该叶子节点的父节点为VP,到根节点的路径为VBD〉VP〉S〉R00T,路径长 度为4,没有左兄弟节点,右兄弟节点为VP。
[0065] 另外,可W将每个词语的词特征、词性特征、词距离及结构句法特征转换成特征向 量,则每个词语均可W具有与之对应的一个特征向量,利用特征向量构建CRF模型。
[0066] 由此,获取的CRF模型,能够综合考虑到文本中情绪词的上下文特征,据其建立的 CRF模型能够更加准确的识别待测文本的情绪原因事件。
[0067] 需要说明的是,本发明实施例提供的一种基于结构句法的情绪原因事件识别方法 中,利用CRF模型确定待测词组对应的待测文本的情绪原因事件,即步骤S16,可W包括W 下步骤:
[0068] S31 :获取待测文本,待测文本为未提供其情绪原因事件的文本。 W例 S32 :将待测文本进行分词处理,得到待测词组。
[0070] 对于进行分词处理的具体说明请参考上文中的相关内容,在此不再寶述。 阳〇7US33 :确定待测词组中包括的待测情绪词。
[0072]S34 :确定待测词组中每个词语的词特征、词性特征、词距离及结构句法特征;其 中,待测词组中每个词语的词距离为该待测词组中每个词语与待测情绪词之间的距离。
[0073]对于每个词语的词特征、词性特征、词距离及结构句法特征的具体说明请参考上 文中的相关内容,在此不再寶述。
[0074] S35 :利用待测词组中每个词语的词特征、词性特征、词距离及结构句法特征,通过 CRF模型,得到待测文本的情绪原因事件。
[00巧]其中,可W将每个词语的词特征、词性特征、词距离及结构句法特征转换成特征向 量,然后将特征向量作为CRF模型的输入,W得到与之对应的输出,即待测文本的情绪原因 事件。实验证明,由此,获取的待测文本的情绪原因事件的准确率较高。
[0076]与上述方法实施例相对应,本发明实施例还提供了一种基于结构句法的情绪原因 事件识别系统,其结构示意图如图4所示,可W包括:
[0077]获取模块41,用于获取预设量的训练文本,训练文本为已提供其情绪原因事件的 文本;
[0078]分词模块42,用于将训练文本进行分词处理,得到分别与每个训练文本对应的训 练词组;
[0079]第一确定模块43,用于确定训练词组中每个词语的结构句法特征;
[0080]训练模块44,用于利用训练词组及每个训练词组包括的每个词语的结构句法特征 训练CRF模型;
[0081]第二确定模块45,用于利用CRF模型确定待测词组对应的待测文本的情绪原因事 件。
[0082]通过上述系统,利用训练文本进行分词后的词组及词组中每个词语的结构句法特 征构建CRF模型,即建立一个统一的概率模型,进一步利用上述CRF模型确定待测文本的情 绪原因事件,实验证明,本发明实施例提供的一种基于结构句法的情绪原因事件识别系统 获取待测文本的情绪原因事件的准确率较高,即对于情绪原因事件的识别性能较好。
[0083]对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对运 些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可 W在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限 制于本文所示的运些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的 范围。
【主权项】
1. 一种基于结构句法的情绪原因事件识别方法,其特征在于,包括: 获取预设量的训练文本,所述训练文本为已提供其情绪原因事件的文本; 将所述训练文本进行分词处理,得到分别与每个所述训练文本对应的训练词组; 确定所述训练词组中每个词语的结构句法特征; 利用所述训练词组及每个所述训练词组包括的每个词语的结构句法特征训练CRF模 型; 利用所述CRF模型确定待测词组对应的待测文本的情绪原因事件。2. 根据权利要求1所述的方法,其特征在于,所述利用所述训练词组及每个所述训练 词组包括的每个词语的结构句法特征训练CRF模型,包括: 确定每个所述训练词组中与该训练词组的情绪原因事件对应的训练情绪词;其中,所 述训练词组的情绪原因事件为与所述训练词组对应的训练文本的情绪原因事件; 确定每个所述训练词组中每个词语的词特征、词性特征及词距离;其中,每个所述训练 词组中每个词语的词距离为该训练词组中每个词语与该训练词组中的训练情绪词之间的 距离; 利用每个所述训练词组及该训练词组中每个词语的词特征、词性特征、词距离及结构 句法特征训练CRF模型。3. 根据权利要求2所述的方法,其特征在于,确定每个所述训练词组中每个词语的词 特征、词性特征及结构句法特征,包括: 利用Stanford工具确定所述训练词组中每个词语的词特征、词性特征及结构句法特 征。4. 根据权利要求2所述的方法,其特征在于,所述确定每个所述训练词组中每个词语 的词特征、词性特征及词距离,包括: 确定每个所述训练词组中每个词语的词特征、词性特征及词距离;其中,每个所述训练 词组中位于该训练词组中的训练情绪词左边的词语的词距离为负数,位于该训练词组中的 训练情绪词右边的词语的词距离为正数。5. 根据权利要求1至4任一项所述的方法,其特征在于,所述利用所述CRF模型确定待 测词组对应的待测文本的情绪原因事件,包括: 获取待测文本,所述待测文本为未提供其情绪原因事件的文本; 将所述待测文本进行分词处理,得到待测词组; 确定所述待测词组中包括的待测情绪词; 确定所述待测词组中每个词语的词特征、词性特征、词距离及结构句法特征;其中,所 述待测词组中每个词语的词距离为该待测词组中每个词语与待测情绪词之间的距离; 利用所述待测词组中每个词语的词特征、词性特征、词距离及结构句法特征,通过所述CRF模型,得到所述待测文本的情绪原因事件。6. -种基于结构句法的情绪原因事件识别系统,其特征在于,包括: 获取模块,用于获取预设量的训练文本,所述训练文本为已提供其情绪原因事件的文 本; 分词模块,用于将所述训练文本进行分词处理,得到分别与每个所述训练文本对应的 训练词组; 第一确定模块,用于确定所述训练词组中每个词语的结构句法特征; 训练模块,用于利用所述训练词组及每个所述训练词组包括的每个词语的结构句法特 征训练CRF模型; 第二确定模块,用于利用所述CRF模型确定待测词组对应的待测文本的情绪原因事 件。
【专利摘要】本发明公开了一种基于结构句法的情绪原因事件识别方法及系统,包括:获取预设量的训练文本,所述训练文本为已提供其情绪原因事件的文本;将所述训练文本进行分词处理,得到分别与每个所述训练文本对应的训练词组;确定所述训练词组中每个词语的结构句法特征;利用所述训练词组及每个所述训练词组包括的每个词语的结构句法特征训练CRF模型;利用所述CRF模型确定待测词组对应的待测文本的情绪原因事件。本发明实施例提供的一种基于结构句法的情绪原因事件识别方法及系统获取待测文本的情绪原因事件的准确率较高,即对于情绪原因事件的识别性能较好。
【IPC分类】G06K9/62, G06F17/30, G06F17/27
【公开号】CN105183807
【申请号】CN201510530866
【发明人】李寿山, 徐健, 周国栋
【申请人】苏州大学张家港工业技术研究院
【公开日】2015年12月23日
【申请日】2015年8月26日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1