一种分类模型建模方法、中文跨文本指代消解方法和系统的制作方法

文档序号:6591551阅读:256来源:国知局
专利名称:一种分类模型建模方法、中文跨文本指代消解方法和系统的制作方法
技术领域
本申请属于文本处理技术领域,尤其涉及一种分类模型建模方法、中文跨文本指代消解方法和系统。
背景技术
跨文本指代消解可以将分布在不同文本但指向同一实体的名称合并起来,形成一条跨文本指代链。但由于不同实体具有相同名称,并且同一实体具有不同名称,所以跨文本指代消解需要解决重名消歧和多名聚合的问题。其中,重名消歧是指将相同名称的不同实体区分开来,如名称“布什”既可表示美国第43任总统乔治.W.布什,也可表示美国第41任总统乔治.H.W.布什,在对不同文本进行跨文本指代消解时,则需要将两个指代不同总统的名称“布什”分开。多名聚合是指将指向同一实体的不同名称合并起来,如“北韩”与“朝鲜”都表示同一个实体“朝鲜人民民主主义共和国”,在对不同文本进行跨文本指代消解时,则需要将“北韩”与“朝鲜”合并。传统的跨文本指代消解主要面向信息检索,如在搜索引擎中搜索某一人名、机构名或地名时,将检索到的Web网页中具有相同名称的不同实体区分开来,这种面向信息检索的跨文本指代消解解决跨文本指代消解中的重名消歧问题。然而随着信息抽取技术的日渐成熟,面向信息抽取的跨文本指代消解得到了广泛的重视。与面向信息检索的跨文本指代消解不同的是,面向信息抽取的跨文本指代消解需要着重于多名聚合问题,即将同一实体的不同名称合并起来,以将不同文本中的同一实体的信息融合起来。目前面向信息检索的跨文本指代消解通常采用基于聚类的无监督方法,该基于聚类的无监督方法通过计算实体名称间相似度,然后利用分层聚类等方法来区分不同的实体。由于该方法仅通过计算实体名称间相似度进行跨文本指代消解,而影响跨文本指代消解的多名聚合问题的因素很多,所以导致得出的跨文本指代链的精准度不高。

发明内容
有鉴于此,本申请的目的在于提供一种分类模型建模方法,在执行分类模型建模过程中,获取每个实体表述对的特征项中基于外部资源的语义特征,该基于外部资源的语义特征可以充分利用各种外部资源,并挖掘实体表述对所具有的实际含义,从而提高分类模型的准确度。本申请还提供一种中文跨文本指代消解方法,以解决现有技术中仅通过计算实体名称间相似度进行跨文本指代消解导致跨文本指代链的精准度不高的问题。本申请还提供了一种分类模型建模装置和中文跨文本指代消解装置,用以保证上述方法在实际中的实现及应用。基于本申请的一方面,本申请提供一种分类模型建模方法,包括:获取已标注出中文跨文本指代链的训练文本集;从所述训练文本集中选取实体表述对;
获取每个所述实体表述对的特征项,其中所述特征项包括基于外部资源的语义特征;将包括在所述中文跨文本指代链中的所述实体表述对确定为正训练实例,将未包括在所述中文跨文本指代链中的所述实体表述对确定为负训练实例,将每个所述正训练实例的特征项和每个所述负训练实例的特征项分别加载到支持向量机的建模工具中,得到分类模型。优选地,所述基于外部资源的语义特征包括搜索引擎特征、维基百科特征和词林编码特征中的至少一种特征;获取每个所述实体表述对的特征项包括获取每个所述实体表述对的搜索引擎特征、维基百科特征和词林编码特征中的至少一种特征。

优选地,获取所述实体表述对的搜索引擎特征包括:获取实体表述对中每一个实
体表述与所述实体表述的文本内共现实体表述的共现权值= & +h,其中Nik为
实体表述ei与共现实体表述ceik在网络上共同出现的文档数量,Ni为实体表述ei在网络上出现的文档数量,Nk为共现实体表述ceik在网络上出现的文档数量;计算所述实体表述对中两个所述实体表述的语义相似度
—W丨>:得出实体表述对的搜索弓丨擎特征,其中_为实体表述e,对
应的权值向量的模,Wik为实体表述ceik 相对于ei的共现权值I# I为实体表述&对应的权
值向量的模,Wjk为实体表述cejk相对于e」的共现权值。优选地,获取所述实体表述对的维基百科特征包括:将实体表述对中每一个实体表述分别作为维基百科中的锚点文本;获取每个所述锚点文本链接到维基百科页面Pik的频度Cik ;
C βζ计算所述实体表述对中两个实体表述的相似度Σ得出实
Pit=Pfi L i L-J
体表述对的维基百科特征,其中Pl为实体表述ei对应的频度向量的模,Cik为实体表述ei
链到维基页面Pik的频度PI为实体表述a对应的频度向量的模,cJk为实体表述a链到维基页面Pu的频度。优选地,获取所述实体表述对的词林编码特征包括:获取所述实体表述对中两个实体表述在同义词词林中的编码,并将两个编码的比较结果作为所述实体表述对的词林编码特征。优选地,所述特征项还包括:词形特征、语音特征和文本内特征中的至少一种特征;获取每个所述实体表述对的特征项还包括获取每个所述实体表述对的词形特征、语音特征和文本内特征中的至少一种特征。优选地,获取所述实体表述对的词形特征包括:
将所述实体表述对中的两个实体表述划分为由一元字符所组成的集合Sil和Sjl,
计算集合Sil和Sjl之间的一元相似度系数
权利要求
1.一种分类模型建模方法,其特征在于,包括: 获取已标注出中文跨文本指代链的训练文本集; 从所述训练文本集中选取实体表述对;获取每个所述实体表述对的特征项,其中所述特征项包括基于外部资源的语义特征;将包括在所述中文跨文本指代链中的所述实体表述对确定为正训练实例,将未包括在所述中文跨文本指代链中的所述实体表述对确定为负训练实例,将每个所述正训练实例的特征项和每个所述负训练实例的特征项分别加载到支持向量机的建模工具中,得到分类模型。
2.根据权利要求1所述的方法,其特征在于,所述基于外部资源的语义特征包括搜索引擎特征、维基百科特征和词林编码特征中的至少一种特征; 获取每个所述实体表述对的特征项包括获取每个所述实体表述对的搜索引擎特征、维基百科特征和词林编码特征中的至少一种特征。
3.根据权利要求2所述的方法,其特征在于,获取所述实体表述对的搜索引擎特征包括:获取实体表述对中每一个实体表述与所述实体表述的文本内共现实体表述的共现权值夂= N+h,其中Nik为实体表述e,与共现实体表述ceik在网络±共同出现的文档数量,Ni为实体表述ei在网络上出现的文档数量,Nk为共现实体表述ceik在网络上出现的文档数量; 计算所述实体表述对中两个所述实体表述的语义相似度—(e',|得出实体表述对的搜索引擎特征,其中#力实体表述A对`应的权值向量的模,Wik为实体表述ceik相对于ei的共现权值,|r.|为实体表述e」对应的权值向量的模,Wjk为实体表述cejk相对于e」的共现权值。
4.根据权利要求2所述的方法,其特征在于,获取所述实体表述对的维基百科特征包括: 将实体表述对中每一个实体表述分别作为维基百科中的锚点文本; 获取每个所述锚点文本链接到维基百科页面Pik的频度Cik ; 计算所述实体表述对中两个实体表述的相似度=得出实体表述 pik=pjk k^i l./对的维基百科特征,其中f I为实体表述ei对应的频度向量的模,Cik为实体表述ei链到维基页面Pik的频度,|c;|为实体表述4对应的频度向量的模,Cjk为实体表述4链到维基页面的频度。
5.根据权利要求2所述的方法,其特征在于,获取所述实体表述对的词林编码特征包括:获取所述实体表述对中两个实体表述在同义词词林中的编码,并将两个编码的比较结果作为所述实体表述对的词林编码特征。
6.根据权利要求1至5任意一项所述的方法,其特征在于,所述特征项还包括:词形特征、语音特征和文本内特征中的至少一种特征; 获取每个所述实体表述对的特征项还包括获取每个所述实体表述对的词形特征、语音特征和文本内特征中的至少一种特征。
7.根据权利要求6所述的方法,其特征在于,获取所述实体表述对的词形特征包括:将所述实体表述对中的两个实体表述划分为由一元字符所组成的集合Sil和Sf计算集合Sil和Sjl之间的一元相似度系数
8.根据权利要求7所述的方法,其特征在于,获取所述实体表述对的语音特征包括: 将所述实体表述对中的两个实体表述的拼音划分为由三元字母所组成的集合Si3和Sj3,计算集合Si3和Sj3之间的三元相似度系数
9.根据权利要求8所述的方法,其特征在于,获取所述实体表述对的文本内特征包括: 获取并判断所述实体表述对中每个实体表述的实体类型; 获取所述实体表述对中每个实体表述在文本内的共现实体表述,并获取两个实体表述相同的共现实体表述的数量,判断所述数量是否大于预设阈值; 判断所述实体表述对中两个实体表述是否出现在同一文本中且两个实体表述为文本内指代关系。
10.一种中文跨文本指代消解方法,其特征在于,包括: 加载使用权利要求1至9任意一项所述的分类模型建模方法得到的分类模型; 输入待识别文本集,并从所述待识别文本集中选取出实体表述对; 获取所述实体表述对的特征项; 加载所述特征项到所述分类模型中,得出具有共指关系的所述实体表述对; 将具有共指关系的所述实体表述对进行链接,得到跨文本指代链。
11.一种分类模型建模系统,其特征在于,包括: 第一获取模块,用于获取已标注出中文跨文本指代链的训练文本集; 选取模块,用于从所述训练文本集中选取实体表述对; 第二获取模块,用于获取每个所述实体表述对的特征项,其中所述特征项包括基于外部资源的语义特征; 加载模块,用于将包括在所述中文跨文本指代链中的所述实体表述对确定为正训练实例,将未包括在所述中文跨文本指代链中的所述实体表述对确定为负训练实例,将每个所述正训练实例的特征项和每个所述负训练实例的特征项分别加载到支持向量机的建模工具中,得到分类模型。
12.根据权利要求11所述的系统,其特征在于,所述基于外部资源的语义特征包括搜索引擎特征、维基百科特征和词林编码特征中的至少一种特征; 所述第二获取模块具体用于获取每个所述实体表述对的搜索引擎特征、维基百科特征和词林编码特征中的至少一种特征。
13.根据权利要求12所述的系统,其特征在于,所述第二获取模块包括: 第一获取单元,用于获取实体表述对中每一个实体表述与所述实体表述的文本内共现 实体表述的共现权值
14.根据权利要求12所述的系统,其特征在于,所述第二获取模块包括: 第二获取单元,用于将实体表述对中每一个实体表述分别作为维基百科中的锚点文本; 第三获取单元,用于获取每个所述锚点文本链接到维基百科页面Pik的频度Cik ; 第二计算单元,用于计算所述实体表述对中两个实体表述的相似度
15.根据权利要求12所述的系统,其特征在于,所述第二获取模块具体用于获取所述实体表述对中两个实体表述在同义词词林中的编码,并将两个编码的比较结果作为所述实体表述对的词林编码特征。
16.根据权利要求11至15任意一项所述的系统,其特征在于,所述特征项还包括:词形特征、语音特征和文本内特征中的至少一种特征; 所述第二获取模块进一步用于每个所述实体表述对的特征项还包括获取每个所述实体表述对的词形特征、语音特征和文本内特征中的至少一种特征。
17.根据权利要求16所述的系统,其特征在于,所述第二获取模块包括:第三计算单元,用于将所述实体表述对中的两个实体表述划分为由一元字符所组成 的集合Sil和Sy计算集合Sil和Sjl之间的一元相似度系数
18.根据权利要求17所述的系统,其特征在于,所述第二获取模块包括: 第五计算单元,用于将所述实体表述对中的两个实体表述的拼音划分为由三元字母所 组成的集合Si3和Sj3,计算集合Si3和Sj3之间的三元相似度系数
19.根据权利要求18所述的系统,其特征在于,所述第二获取模块包括: 第五判断单元,用于获取并判断所述实体表述对中每个实体表述的实体类型; 第六判断单元,用于获取所述实体表述对中每个实体表述在文本内的共现实体表述,并获取两个实体表述相同的共现实体表述的数量,判断所述数量是否大于预设阈值; 第七判断单元,用于判断所述实体表述对中两个实体表述是否出现在同一文本中且两个实体表述为文本内指代关系。
20.一种中文跨文本指代消解系统,其特征在于,包括: 加载模块,用于加载使用权利要求11至19任意一项所述的分类模型建模系统得到的分类模型; 选取模块,用于输入待识别文本集,并从所述待识别文本集中选取出实体表述对; 获取模块,用于获取所述实体表述对的特征项; 第一获得模块,用于加载所述特征项到所述分类模型中,得出具有共指关系的所述实体表述对; 第二获得模块,用 于将具有共指关系的所述实体表述对进行链接,得到跨文本指代链。
全文摘要
本申请提供一种分类模型建模方法、中文跨文本指代消解方法和系统。其中一种分类模型建模方法,包括获取训练文本集;从训练文本集中选取实体表述对;获取每个实体表述对的特征项;选取正训练实例和负训练实例,将每个正训练实例和每个负训练实例的特征项分别加载到支持向量机的建模工具中,得到分类模型。对于待识别文本集中的实体表述对,在提取特征项后,可以使用分类模型判断是否具有指代关系,然后合并具有指代关系的实体表述对,构成跨文本指代链,从而达到跨文本指代消解的目的。由于上述方案获取的语义特征可以充分利用各种外部语义资源,挖掘实体表述对所具有的实际含义,从而提高分类模型及跨文本指代消解系统的准确度。
文档编号G06F17/30GK103150405SQ20131010850
公开日2013年6月12日 申请日期2013年3月29日 优先权日2013年3月29日
发明者钱龙华, 赵知纬, 周国栋 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1