基于神经网络的中文比较句识别方法及装置制造方法

文档序号:6549582阅读:314来源:国知局
基于神经网络的中文比较句识别方法及装置制造方法
【专利摘要】本发明涉及一种基于神经网络的中文比较句识别方法及装置,包括以下步骤:首先对语料及其分词结果进行规范化处理,然后通过基于比较特征词词典与句法结构模板、依存关系相结合的方法进行粗粒度提取;最后设计一种类别序列规则(CSR)提取算法,并利用CRF挖掘实体对象信息即语义角色信息,辅以比较特征词与统计词特征,利用这四种特征构造BP神经网络,找到使性能达到最优的特征形式完成细粒度提取。对比现有技术,本发明能够有效利用不同层级语义信息进行识别,使用户能够更快速而且准确地找到语料中置信度较高的中文比较句,提高中文比较句的识别率。
【专利说明】基于神经网络的中文比较句识别方法及装置
【技术领域】
[0001]本发明涉及一种中文比较句识别方法,特别涉及一种基于神经网络的中文比较句识别方法,属于自然语言处理应用【技术领域】。
【背景技术】
[0002]每天人们都被形形色色的选择所包围。为了做出更好的抉择,我们往往会选择拿我们感兴趣的物品作比较。同时,伴随着移动互联网的蓬勃发展,互联网逐渐变得更加人性化。在“以用户为中心,用户参与”的开放式架构理念的指导下,互联网用户由被动地浏览互联网信息逐步向主动创造互联网信息迈进。互联网用户既是网站内容的浏览者,也成为了网站内容的制造者。因此,互联网上产生了大量的用户制造的评论信息,这些评论信息表达了人们对于诸如产品、事件、人物、机构等主题的看法和情感倾向,如满意、抱怨、支持、反对和赞扬、批评等。从这些信息中快速、准确地获取其所包含的情感或者评价信息,可以有效地支持多种实际应用,如:智能导购、有害信息过滤、民意调查等。
[0003]然而,对互联网上的观点进行监控却并非易事。网络上的观点信息有多种来源,如:网站的帖子、论坛、博客、讨论组等,每一种来源背后都存在大量的信息,并且在很多情况下,观点还隐藏在长长的的文本中。因此,使用人工的方法去寻找相关的文本来源,抽取相关的句子并对其归纳概括,最终以适当的方式组织起来变得非常困难。如今,互联网的飞速发展使得人们尤为迫切地需要一种自动的挖掘比较观点、概括比较观点的技术,比较观点挖掘应势而生。
[0004]在如今这个大数据时代,我们会从中得到海量的信息,这比传统的问卷调查式方法要好很多。然而与此同时我们却又为之困扰,同时处理这么大量的信息会是一件费时费力的事情。因此,我们需要一种比较观点挖掘系统来帮助我们自动从海量数据中得到两者(或更多事物)间的比较信息,这是一项有实用意义和学术意义的研究课题。正因如此,设计一种能够稳定高效识别中文比较句的方法显得十分的重要。
[0005]比较句与比较关系识别的研究尚不系统和成熟,目前还处于起步阶段。而中文的句式更加灵活多样,因而中文比较句的研究相对更加困难。目前识别的思路大多是模板匹配或者将该问题归类为机器学习问题,利用特征提取并构造分类器将句子划分为比较句与非比较句两类。同比较句与比较关系识别相关的处理技术有文本分类、实体抽取、情感分析
坐寸ο
[0006]在以往的研究工作中,前人总结了许多有效的词语级特征,或词语搭配特征,但大多数的研究中只考虑这些特征在句子中出现与否或出现次数的多少,很少关注它们出现的位置以及在句子中的作用从而导致错判。本方法在句法、语义层面进一步挖掘有效信息,在很大程度上提高了中文比较句判定的准确率。

【发明内容】

[0007]本发明的目的是为解决以往在中文比较句识别中不能有效利用句法和语义信息的问题,尽可能发挥不同层级的语义信息特征,提出一种基于神经网络的中文比较句识别方法。
[0008]为实现上述目的,本发明所采用的技术方案如下:
[0009]本发明技术方案的思想是首先对语料及其分词结果进行规范化处理,然后通过基于比较特征词词典与句法结构模板、依存关系相结合的方法进行粗粒度提取;最后设计一种类别序列规则(CSR)提取算法,并利用CRF挖掘实体对象信息即语义角色信息,辅以比较特征词与统计词特征,利用这四种特征构造BP神经网络,找到使性能达到最优的特征形式完成细粒度提取。
[0010]本发明的具体实施步骤如下:
[0011]一种基于神经网络的中文比较句识别方法,该方法包括以下步骤:
[0012]步骤一、语料预处理:对语料集S的每一个句子进行分词、句法结构分析、依存关系分析和词性标注、语义角色标注;
[0013]步骤二、句法结构模板抽取:将S中每一个句子的句法结构分析树与句法结构模板进行匹配,如果匹配成功,则判断其属于显性比较句。本步骤中提取得到的显性比较句的结果记为集合A ;
[0014]步骤三、依存关系相似度计算:将步骤二中抽取之后的剩余语料集S-A中的每一个句子进行依存关系统计计算,得到相似度S,并将S与预设的阈值V进行比较,如果S〉=V,则判断其属于隐性比较句;否则,判断其属于非比较句。本步骤中提取得到的隐性比较句的结果记为集合B,非比较句的结果记为集合D ;
[0015]步骤四、BP神经网络分类:将集合A和集合B作为粗粒度提取结果置于经过训练的BP神经网络中进行细粒度提取,得到比较句集合C和非比较句集合E,BP神经网络的训练特征为:类别序列规则(Class Sequential Rules, CSR)、语义角色标注(Semantic RoleLabeling, SRL)、比较特征词(Keyword)以及统计词特征(Statistical Word Feature, SWF)这四种;
[0016]步骤五、识别完成:输出识别结果比较句集合C和非比较句集合D+E。
[0017]所述句法结构模板如下:
[0018]1) SSl =...VP...+ (Keywords/Key Phrases) +...VA...[0019]此模式(SSl)含义为:句子中出现了比较特征词(Keywords/Key Phrases),且此特征词父节点的祖先节点存在动词短语(VP),其父节点的子节点(即其兄弟节点)中存在表语形容词(VA);
[0020]2) SS2 =...VP...+ (Keywords/Key Phrases) +...ADJP...[0021]此模式(SS2)含义为:句子中出现了比较特征词(Keywords/Key Phrases),且此特征词父节点的祖先节点存在动词短语(VP),其父节点的子节点(即其兄弟节点)中存在形容词短语(ADJP);
[0022]3) SS3 =...VP...+ (Keywords/Key Phrases) +...ADVP...[0023]此模式(SS3)含义为:句子中出现了比较特征词(Keywords/Key Phrases),且此特征词父节点的祖先节点存在动词短语(VP),其父节点的子节点(即其兄弟节点)中存在副词短语(ADVP);
[0024]4) SS4 =...NP...+ (Keywords/Key Phrases) +...NP...[0025]此模式(SS4)含义为:句子中出现了比较特征词(Keywords/Key Phrases),且此特征词父节点的祖先节点存在名词短语(NP),其父节点的子节点(即其兄弟节点)中存在名词短语(NP)。
[0026]5) SS5 =...NP...+ (Keywords/Key Phrases) +...ADJP...[0027]此模式(SS5)含义为:句子中出现了比较特征词(Keywords/Key Phrases),且此特征词父节点的祖先节点存在名词短语(NP),其父节点的子节点(即其兄弟节点)中存在形容词短语(ADJP)。
[0028]一种基于神经网络的中文比较句识别装置如图2,包括:预处理模块、模板匹配模块、相似度过滤模块、粗粒度提取结果生成模块、特征提取模块、特征向量生成模块、BP神经网络分类模块和细粒度提取结果生成模块。
[0029]所述预处理模块,用于读入语料集合,并对集合中的每一个句子进行分词、句法结构分析、依存关系分析和词性标注、语义角色标注;
[0030]所述模板匹配模块,用于将由句法结构处理模块得到的对应于每一个句子的句法结构与句法结构模板进行匹配,并将所有匹配成功的句子作为显性比较句输出;
[0031]所述相似度过滤模块,用于对由模板匹配模块匹配不成功的剩余句子集合中的每一个句子计算依存关系相似度,并将所有高于相似度阈值的句子作为隐性比较句输出,其它低于相似度阈值的句子作为非比较句输出;
[0032]粗粒度提取结果生成模块将由模板匹配模块输出的显性比较句和相似度过率模块输出的隐性比较句集合合并,生成粗粒度提取结果即准比较句集合,并将由相似度过滤模块判定为非比较句的句子置入非比较句集合;
[0033]所述特征提取模块用于对粗粒度提取结果集合中的每一个句子提取类别序列规贝U、语义角色标注、比较特征词、统计特征词四类特征;
[0034]所述类别序列规则特征的提取是将所述句子转化为包含非关键词的词性标识项和包含关键词及其词性标识的组合项的序列,并且按照对应词在句子中的顺序排列;
[0035]所述语义角色标注特征的提取是将所述句子转化为包含非比较词的语义角色标识项和比较词的序列,并且按照对应词在句子中的顺序排列;
[0036]所述比较特征词特征的提取是将所述句子看做词的集合,提取出句子中出现在比较特征词表中的词作为比较特征词;
[0037]所述统计特征词特征的提取是将所述句子看做词的集合,提取出句子中出现在统计特征词表中的词作为统计特征词;
[0038]所述特征向量生成模块用于对与粗粒度提取结果集合中的每一个句子对应的特征向量根据由特征提取模块提取得到的四类特征分别与四类特征集合比对进行赋值;
[0039]所述BP神经网络分类模块用于使用经训练的BP神经网络对与粗粒度提取结果集合中的每一个句子对应的特征向量进行识别,输出识别结果,如果是比较句,输出C,否则输出NC ;
[0040]所述细粒度提取结果生成模块用于将通过BP神经网络识别后,将所有标记为C的比较句置入比较句集合,标记为NC的句子置入非比较句集合,并输出比较句集合和非比较句集合。
[0041]有益效果[0042]本发明对比现有技术,通过采用规则与统计相结合的策略,利用句法结构与依存关系进行粗粒度提取、BP神经网络进行细粒度提取,用模板的方式弥补基于概率统计的机器学习方法导致的错判,相互补充,能够有效利用不同层级语义信息进行识别,使用户能够更快速而且准确地找到语料中置信度较高的中文比较句,提高中文比较句的识别率。
【专利附图】

【附图说明】
[0043]图1为本发明方法的流程图。
[0044]图2为本发明方法的比较句识别装置图。
【具体实施方式】
[0045]在介绍实施例以前,先做如下定义:
[0046]将含有比较特征词,明确表达两者(或多者)之间对比的句子,称为显性比较句;将不含有比较特征词,但整体意图是为了比较两者(或多者)之间的特征的句子,称为隐性比较句。
[0047]下面结合实施例对本发明做进一步说明。
[0048]本实施例首先介绍句法结构模板的生成方法,语义角色标注集的获取,BP神经网络的构建方法,最后介绍中文比较句的识别方法。
[0049]本实施例选取第五届中文倾向性分析评测(The Fifth Chinese Opinion AnalysisEvaluation,简称C0AE2013)提供的数据集与从互联网上采集的关于汽车领域和电子产品领域的用户评论信息一起作为实验语料集,用于句法结构模板的生成、语义角色标注集的获取以及BP神经网络权值的学习。该语料集含有类别标注(C(是比较句)/NC(不是比较句))以及语义角色标注。
[0050]句法结构模板的生成方法,实现步骤如下:
[0051]1、获取三元组,即对语料集的每一个句子执行下述过程:
[0052]采用通用的句法结构分析工具(本文使用的是Stanford Parser工具)进行句法结构分析,得到句法结构分析树;
[0053]在句法结构分析树中找到该句的比较特征词(Keyword),记该词所在位置为当前节点,并确定其在句法结构树中的特征,即其父节点;
[0054]按先序遍历寻找特征的祖先节点和兄弟节点,若有的话分别将任一祖先节点、任一兄弟节点分别与比较特征词的特征组成一个三元组;
[0055]举例:以句子“诺基亚NS的屏幕不如iPhone的好。”为例:
[0056]
【权利要求】
1.一种基于神经网络的中文比较句识别方法,其特征在于规则与统计相结合,充分考虑了语义句法信息,包括以下步骤: 步骤1:对语料进行预处理,包括如下过程:对语料集S的每一个句子进行分词、句法结构分析、依存关系分析和词性标注、语义角色标注; 步骤2:进行句法结构模板抽取,过程如下:将S中每一个句子的句法结构分析树与句法结构模板进行匹配,如果匹配成功,则判断其属于显性比较句,本步骤中提取得到的显性比较句的结果记为集合A ; 步骤3:进行依存关系相似度计算,过程如下:将步骤二中抽取之后的剩余语料集S-A中的每一个句子进行依存关系相似度计算,得到相似度S,并将s与预设的阈值V进行比较,如果s> = V,则判断其属于隐性比较句;否则,判断其属于非比较句;本步骤中提取得到的隐性比较句的结果记为集合B,非比较句的结果记为集合D ; 步骤4:利用经训练的BP神经网络进行分类,过程如下:将集合A和集合B作为粗粒度提取结果置于经过训练的BP神经网络中进行细粒度提取,得到比较句集合C和非比较句集合E, BP神经网络的训练特征为:类别序列规则(Class Sequential Rules, CSR)、语义角色标注(Semantic Role Labeling, SRL)、比较特征词(Keyword)以及统计词特征(Statistical Word Feature, SffF)这四种; 步骤4:识别完成:输出识别结果比较句集合C和非比较句集合D+E。
2.根据权利要求1所述的一种基于神经网络的中文比较句识别方法,其特征在于规则与统计相结合,充分考虑了语义句法信息,所述句法结构模板如下:
1)SSl =...VP...+ (Keywords/Key Phrases) +...VA...此模式(SSl)含义为:句子中出现了比较特征词(Keywords/Key Phrases),且此特征词父节点的祖先节点存在动词短语(VP),其父节点的子节点(即其兄弟节点)中存在表语形容词(VA);
2)SS2 =...VP...+ (Keywords/Key Phrases) +...ADJP...此模式(SS2)含义为:句子中出现了比较特征词(Keywords/Key Phrases),且此特征词父节点的祖先节点存在动词短语(VP),其父节点的子节点(即其兄弟节点)中存在形容词短语(ADJP);
3)SS3 =...VP...+ (Keywords/Key Phrases) +...ADVP...此模式(SS3)含义为:句子中出现了比较特征词(Keywords/Key Phrases),且此特征词父节点的祖先节点存在动词短语(VP),其父节点的子节点(即其兄弟节点)中存在副词短语(ADVP);
4)SS4 =...NP...+ (Keywords/Key Phrases) +...NP...此模式(SS4)含义为:句子中出现了比较特征词(Keywords/Key Phrases),且此特征词父节点的祖先节点存在名词短语(NP),其父节点的子节点(即其兄弟节点)中存在名词短语(NP)。
5)SS5 =...NP...+ (Keywords/Key Phrases) +...ADJP...此模式(SS5)含义为:句子中出现了比较特征词(Keywords/Key Phrases),且此特征词父节点的祖先节点存在名词短语(NP),其父节点的子节点(即其兄弟节点)中存在形容词短语(ADJP)。
3.根据权利要求1所述的一种基于神经网络的中文比较句识别方法,其特征在于规则与统计相结合,充分考虑了语义句法信息,所述将句子的句法结构分析树与句法结构模板进行匹配,匹配过程如下: Stepl:在句法结构分析树中寻找表1中列出的比较特征词(Keyword),如果找到,记该词所在位置为当前节点C,否则,转至St印6 ; Step2:确定C在句法结构树中的特征F,并记F的所有祖先节点为集合A ; Step3:对F的所有兄弟节点N依次执行以下步骤: 如果A中存在VP,并且N为VA或者ADJP或者ADVP,则转至St印5 ; 如果A中存在NP,并且N为NP或者ADJP则转至St印5 ; Step4:如果句法结构分析树中还有未遍历节点,返回Stepl,否则转至Step6 ; Step5:返回匹配成功; Step6:返回匹配不成功。
4.根据权利要求1所述的一种基于神经网络的中文比较句识别方法,其特征在于规则与统计相结合,充分考虑了语义句法信息,所述BP神经网络,采用三层(输入层、隐含层和输出层)神经网络结构,输入层神经元个数N与特征向量的元素个数相同,特征向量的元素个数为类别序列规则、语义角色标注、比较特征词以及统计词特征四个集合的元素个数的和;隐含层神经元个数为2N+1 ;输 出层神经元个数为2,分别对应比较句类别C和非比较句类别NC。
5.一种基于神经网络的中文比较句识别装置,包括:预处理模块、模板匹配模块、相似度过滤模块、粗粒度提取结果生成模块、特征提取模块、特征向量生成模块、BP神经网络分类模块和细粒度提取结果生成模块; 所述预处理模块,用于读入语料集合,并对集合中的每一个句子进行分词、句法结构分析、依存关系分析和词性标注、语义角色标注; 所述模板匹配模块,用于将由句法结构处理模块得到的对应于每一个句子的句法结构与句法结构模板进行匹配,并将所有匹配成功的句子作为显性比较句输出; 所述相似度过滤模块,用于对由模板匹配模块匹配不成功的剩余句子集合中的每一个句子计算依存关系相似度,并将所有高于相似度阈值的句子作为隐性比较句输出,其它低于相似度阈值的句子作为非比较句输出; 所述粗粒度提取结果生成模块将由模板匹配模块输出的显性比较句和相似度过率模块输出的隐性比较句集合合并,生成粗粒度提取结果即准比较句集合,并将由相似度过滤模块判定为非比较句的句子置入非比较句集合; 所述特征提取模块用于对粗粒度提取结果集合中的每一个句子提取类别序列规则、语义角色标注、比较特征词、统计特征词四类特征,提取过程如下: 类别序列规则特征的提取是将所述句子转化为包含非关键词的词性标识项和包含关键词及其词性标识的组合项的序列,并且按照对应词在句子中的顺序排列; 语义角色标注特征的提取是将所述句子转化为包含非比较词的语义角色标识项和比较词的序列,并且按照对应词在句子中的顺序排列; 比较特征词特征的提取是将所述句子看做词的集合,提取出句子中出现在比较特征词表中的词作为比较特征词;统计特征词特征的提取是将所述句子看做词的集合,提取出句子中出现在统计特征词表中的词作为统计特征词; 所述特征向量生成模块用于对与粗粒度提取结果集合中的每一个句子对应的特征向量根据由特征提取模块提取得到的四类特征分别与四类特征集合比对进行赋值; 所述BP神经网络分类模块用于使用经训练的BP神经网络对与粗粒度提取结果集合中的每一个句子对应的特征向量进行识别,输出识别结果,如果是比较句,输出C,否则输出NC ; 所述细粒度提取结果生成模块用于将通过BP神经网络识别后,将所有标记为C的比较句置入比较句集合,标记为NC的句子置入非比较句集合,并输出比较句集合和非比较句集合。
【文档编号】G06F17/27GK104021115SQ201410264137
【公开日】2014年9月3日 申请日期:2014年6月13日 优先权日:2014年6月13日
【发明者】冯冲, 廖纯, 张辰, 杨森 申请人:北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1