一种双语篇章标注方法

文档序号:10655075阅读:346来源:国知局
一种双语篇章标注方法
【专利摘要】本发明公开了一种双语篇章标注方法,该方法包括:步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词对齐与自动篇章分析,得到词对齐信息和两端的篇章分析树;步骤2,根据所述步骤1得到的词对齐信息和两端的篇章分析树得到两端句子中基本篇章单元的对应关系;步骤3,根据所述步骤2得到的两端句子中的基本篇章单元及其对应关系,构建双语篇章结构。本发明能够对双语平行句子进行较高一致性的篇章分析。在中英语言对上,经过标注实验的验证:相对于已有的单语篇章分析方法,本发明方法能分析得到一致性程度更高的篇章分析结果,从篇章的切分信息,到篇章的结构信息都有较高的一致性提升。
【专利说明】
-种双语篇章标注方法
技术领域
[0001] 本发明设及自然语言处理技术领域,是一种新颖的面向双语场景的篇章标注方 法。
【背景技术】
[0002] 在自然语言处理任务中,其基本单位从小到大可W分为词、短语、句子最后形成篇 章。而篇章分析的目的就是要从整体上对句子进行语义级别的分析W及理解。
[0003] 与句法分析类似,篇章分析是许多自然语言处理任务的中间环节,它被使用在各 种任务中,例如:自动文摘,问答系统,机器翻译,机器理解,文本生成等。篇章技术之所W受 到关注的主要原因在于W下几点:(1)与句法分析W词为最基本的分析单位不同,篇章分析 中W基本篇章单元为基本单元,基本篇章单元切分块通常与人类的语言理解一致;(2)基本 篇章单元之间的关系包含了相应的基本篇章单元在整个篇章中的语义功能信息;(3)篇章 的结构也表示了整个段落或者句子的组织方式。因此,随着对语义级别信息的需求日益增 大,一些研究者们提出了许多篇章标注的方法与相应的语料,其中比较重要的是修辞结构 理论篇章标注方法。
[0004] 修辞结构理论是由文献 "Matth i e SSen,Chr i S t ian M . I . M . and Sandra A.Thompson(1987). The Structure of Discourse and"Subordination". Clause Combining in Discourse and Grammar,ed.by J.Haiman and S.A.Thompson.Amsterdam, John Benjamins."等提出的有关篇章分析和生成的理论,主要针对的是篇章连贯性问题。 在具体的操作中,修辞结构风格的篇章分析首先将整个文本(句子)完整切分成不重合的基 本篇章单元,然后通过判断相邻两个基本篇章单元语义关系是否连接紧密,进而依次将运 些基本篇章单元结合到一起成为新的语义块,并判断连接两个语义块的修辞结构关系,不 断迭代上述两个过程,最后直至整个句子只剩下一个语义块,并最终得到篇章结构树,至此 篇章分析过程结束。一个基于修辞结构理论的篇章分析过程如下所示:
[0005] 测试句子为:"报道称,科学家完成了运些染色体的定序,运些染色体与初期失智 症有关。"。
[0006] 针对该句子的汉语篇章分析过程分成S个步骤,如下所示(其中抓U指的是基本篇 章单元):
[0007] 第1步:邸化={"61:报道称,"
[000引"e2:科学家完成了对运些染色体的定序,"
[0009] "e3:运些染色体与初期失智症有关。"}
[0010] 在第一步中,我们得到了 3个最基本的邸U。接下来我们将对其进行操作。
[00川第2步:邸Us = {''el:报道称,"
[0012] "e23:科学家完成了对运些染色体的定序,<e(2,3):详述[N][S]>运些染色体与初 期失智症有关。"}
[0013] 在第2步中,根据篇章分析,e2和e3合并到了一起,成为了一个新的抓U块e23,在两 个块之间我们标注为<e(2,3)〉,同时将其连接到一起的关系为:详述,运两个块之间的重要 性相应为[N][引,其中左边的N表示的是在两个edu组成的新的文本块中,左边的文本块处 于nucleus的地位(核屯、),右边的S表示satellite表示卫星。如此,我们可W得到第3步的操 作,运样所有基本的邸U都组合成了 一整块,分析过程结束。
[0014] 第3步:EDUs=r'el23:报道称,<e(l,23):详述[N][S]>科学家完成了对运些染色 体的定序,<6(2,3):详述[?[5]〉运些染色体与初期失智症有关。"}
[0015] 其最后生成的修辞结构理论风格的篇章分析树如图1所示。
[0016] 如上面的例子所示:句子首先被切分成标记为el,e2和e3的结构段,同样也被称为 篇章基本单元;然后通过分析e 1,e2和e3之间的关系,根据e 1,e2和e3之间的语义紧密程度 来确定e 1,日2和日3之间的结合顺序;在确定了 e 1,日2和日3的相对结构之后,再判断运些结构 段之间的修辞结构关系。如图1所示,修辞关系为详述,NS分别表示两端的基本篇章单元是 核屯、与卫星。
[0017] 宾州篇章树库风格篇章分析(简称宾州分析)则与修辞结构理论分析有很大的区 另IJ,宾州分析认为在一个文本中,真正需要关注的部分并不一定是全句,在整个文本中,存 在着一对论元,在运两个论元之间存在着确定的篇章关系。特别地,与修辞结构理论不同的 是,除了在篇章关系类别上有所不同之外,宾州篇章树库并不要求对全句进行分析,可W仅 对句子的一部分进行讨论。
[0018] 在上述两种篇章分析风格中,修辞结构理论风格对整个文本都进行了处理,并且 生成的篇章结构树表达了整个篇章语义的表达方式W及篇章的生成过程,其在许多任务中 都得到了应用,并且根据任务而产生的变体更是五花八口。而宾州篇章树库在自然语言处 理领域中有评测任务支持(Co化L shared化Sk),因此其关注度一直很高。
[0019] 然而,W上描述的篇章分析方法中,无论是修辞结构理论篇章分析还是宾州树库 篇章分析,都只针对一种语言,其认同度评价(agreement)亦是收集单语使用者的数据,进 而在一些双语的应用中,开发者基于现有的篇章分析方法倾向于只分析源端或者目标端的 篇章结构和关系,但是从直觉上来说,如果能够同时利用两端的篇章信息肯定更能提高效 能。但是,在实际应用中我们发现,语言之间的差异会导致篇章分析结果的巨大差异,源端 与目标端之间分析的不一致性成为了一个不容忽视的问题。例如在机器翻译任务中,法英 翻译时,我们发现其篇章一致性较高,因为法语与英语的语言风格相似;相对的,日英或者 汉英翻译时,其篇章一致性则较低,因为亚洲语言普遍与英语风格迴异。
[0020] 比如,从篇章分析的结果来说,对一个文本(句子)进行分析的最终结果是一个篇 章结构,其包括了基本篇章单元的切分信息,单元之间的结构信息,W及篇章关系信息。但 是在双语情况下,比如:
[0021] S:[科学家对攸关初期失智症的染色体完成定序]el
[0022] T:[scientist complete sequencing of the chromosome]e I[linked to early dementia]e2
[0023] 在源端(S)的中文句子中整个句子就是一个基本篇章单元,将其标记为el,相应的 目标端(T)的英语句子却被切分成el和e2,从运个例子中可W看到,虽然在语义上中文与英 语保持一致,但得到的篇章分析结果却是截然不同的,运就导致了在实际应用中即使想要 加入篇章信息,但由于其源端篇章信息与目标端篇章信息不一致或者不完整,也就导致了 基于篇章分析的双语自然语言处理任务实际上只能使用源端或者目标端的篇章信息。换言 之,如果我们能得到一个篇章信息在两端都一致性较高的篇章分析结果,双语自然语言处 理任务就可W兼顾两端语言的篇章分析信息,运必然将会得到进一步的提高。
[0024] 近几年来,有一些学者对如何利用双语的篇章知识进行了许多的研究。有学者提 出一个在双语的情况下,将篇章信息进行转换的模型"Daniel Mar州,Lynn化;rlson,Maki Watanbe,2000.The Automatic Translation of Discourse Structures. In Proc.Of ACL 2000",该工作选择的语言对是日英语言对,日语和英语的差别非常明显,叙述方式也非常 不一致,该工作提出首先对一种语言进行篇章分析,进而将分析结果进行转换,尽量减少源 端篇章分析结果与目标端之间的差别。还有学者研究不同语言中如何进行对齐的工作"冯 文贺,2013.汉英篇章结构平行语料库的对齐标注研究,中文信息学报2013, Vol. 27Issue (6):158-165",该文章考察了中英语言对篇章标注的差异,并且分析了篇章切分,篇章关系 对齐,W及篇章层次结构的对齐方式,发现对于双语情况下,将两个语言的句子中篇章级别 的信息进行合理地对齐非常的有必要。因此,探讨如何在双语环境下,克服语言差异而得到 一致性较高的篇章分析结果是一个很有意义且富有挑战的任务。

【发明内容】

[0025] 针对如何在双语环境下,使两端篇章结构与信息对齐的问题,本发明提出一种从 篇章切分到篇章结构进行对齐的双语篇章标注方法,该方法使得从最基本的切分开始,源 端篇章信息就可W与目标端篇章信息进行较好的对齐,运样源端得到的篇章结构与篇章关 系信息就可W很好的利用到任务中,从而进一步提高使用篇章信息任务的最佳性能。
[0026] 为了实现所述目的,本发明提供一种双语篇章标注方法,该方法包括W下步骤:
[0027] 步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词 对齐与自动篇章分析,得到词对齐信息和两端的篇章分析树;
[0028] 步骤2,根据所述步骤1得到的词对齐信息和两端的篇章分析树得到两端句子中基 本篇章单元的对应关系;
[0029] 步骤3,根据所述步骤2得到的两端句子中的基本篇章单元及其对应关系,构建双 语篇章结构。
[0030] 可选地,所述篇章分析树至少包括篇章切分、篇章结构和篇章关系信息。
[0031] 可选地,所述步骤2进一步包括W下步骤:
[0032] 步骤21,通过词对齐信息建立两端篇章分析树的词级别对应关系;
[0033] 步骤22,根据两端篇章分析树,建立两端基本篇章单元到词的映射包含关系;
[0034] 步骤23,根据步骤21和步骤22中得到的词级别对应关系和基本篇章单元到词的映 射包含关系,抽取两端基本篇章单元级别的映射关系。
[0035] 可选地,所述步骤23抽取的基本篇章单元级别的映射关系包括:一端与另一端基 本篇章单元一一对应的关系和一端与另一端基本篇章单元一对多的对应关系。
[0036] 可选地,所述步骤3进一步包括W下步骤:
[0037] 步骤31,根据所述步骤2得到的两端句子中的基本篇章单元构建双语基本篇章单 元集合,该集合中包括了两端所有的双语基本篇章单元;
[0038] 步骤32,根据双语篇章分析树的结构关系,递归寻找叶子级别的基本篇章单元,W 及与叶子相关联的基本篇章单元,将寻找到的基本篇章单元对从所述双语基本篇章单元集 合中删除;
[0039] 步骤33,将所述步骤32寻找到的基本篇章单元对根据原本的文本顺序组合成一个 完整的块单元,并将其重新加入所述双语基本篇章单元集合;
[0040] 步骤34,重复步骤32W及步骤33,直到所述双语基本篇章单元集合中只剩下一个 块单元。
[0041] 可选地,所述步骤31-步骤34中,整个过程所产生的块单元、篇章单元的合并W及 层次化分析结果均作为双语篇章结构最后的输出。
[0042] 可选地,所述双语篇章结构包括树形结构和/或链式结构。
[0043] 可选地,在所述树形结构中,根据双语基本篇章单元之间的关系W及核屯、和卫星 的关系构建树形关系。
[0044] 可选地,在所述链式结构中,根据双语基本篇章单元之间的关系,按照句子顺序来 进行链式构建,所有基本篇章单元之间的关系都被简化为顺序关系,嵌套结构的部分从主 结构部分中抽取出来,使用嵌套关系链接到主结构后面。
[0045] 本发明的有益效果在于:由于篇章结构是基于句法结构之上的对句法树更深层面 的理解,在高效利用双语两端篇章信息的基础上,首先肯定会优于只使用一端篇章信息的 应用,其次双语篇章信息更能帮助我们理解语言之间的差异与一致之处。本发明能够利用 两端语言的篇章信息,包括篇章切分信息,篇章结构信息,篇章关系信息,来改进双语情况 下篇章分析的最终结果。从效果上说,本发明使得在目标端篇章分析的同时也能利用源端 篇章分析的结果,而且在一些任务中,例如机器翻译,其最终的目标端是不可知的,得到一 个能够尊重目标端风格的源端篇章分析信息的支持非常重要。利用本发明的标注方法,在 中英语言对双语平行语料上进行实验,实验证明,本发明的标注结果统计显著地在切分一 致性和结构一致性上超过了单语风格的篇章标注结果。特别是在切分一致性上,不仅能够 提升不同语言之间基本篇章单元的切分结果,同时也能提升同一种语言不同句子表达形式 的结果,运充分证明了本发明双语篇章标注方法的有效性和合理性。
【附图说明】
[0046] 图1是一个中文单语篇章分析结果的实例示意图;
[0047] 图2是一个中文句子篇章分析结果与相同意思的英文句子的篇章分析结果实例示 意图;
[0048] 图3是根据本发明一实施例的双语篇章标注方法流程图;
[0049] 图4是中文句子和其英文句子的词对齐W及篇章单元切分结果;
[0050] 图5是不同情况下的双语篇章单元切分规则的示例;
[0051 ]图6A是层次篇章结构的展示示意图;
[0052] 图6B是链式篇章结构的展示示意图。
【具体实施方式】
[0053] 为使本发明的目的、技术方案和优点更加清楚明白,W下结合具体实施例,并参照 附图,对本发明进一步详细说明。
[0054] 本发明的基本思想是恰当地使用双语两端的篇章信息,提出一种针对双语的篇章 标注方法W提高双语篇章分析结果的一致性。例如,图2给出了相同意思的汉语句子与英语 句子同时利用修辞结构理论分析得到的两个篇章分析结果。运两个句子从切分开始就遵循 不同的规则,在英语中对基本篇章单元的定义是语法上合法的一个子句(clause),类似地 汉语中对基本篇章单元的定义也类似。但是,由于两种语言的差异,主要是在用语习惯和语 法规则上的差异,最终导致两个句子的篇章分析结果中,中文与英文的分析结果存在一定 的差异。运就导致在实际应用中,即便对源端的篇章进行了分析,通常运些信息也很难对目 标端的应用有所帮助。若我们能够恰当地对两端篇章信息进行修改,使其一致性保持在较 高水平,运样在切分结构上目标端和源端都可W双向互用,必然能够对应用起到帮助。一种 提高一致性的方式是,只保留一端的篇章信息,比如源端或者目标端,W机器翻译应用为 例,由于事先不知道目标端的最终结果,许多方法都对源端进行分析,通过得到的结果来帮 助翻译的解码过程得到更好的输出,但是由于源端篇章信息与目标端信息的不一致,运种 方法通常只能选择一致性较高的部分或者交集的部分,运极大制约了篇章信息在应用上的 潜力。另一种类型的应用,譬如双语摘要抽取,则要求同时得到中文和英文的摘要。运种情 况下无所谓源端或者目标端,更多的是要求两端语言在进行分析时尽量保持一致。同样的 理由,传统的篇章分析并不能保证得到一致性较高的结果。因此,我们不能直接利用单端, 无论是源语言端还是目标语言端进行篇章分析,并W此作为基础,而是应该寻找一种恰当 的更有效的方式来利用双语两端的篇章知识。
[0055] 本发明提出了一种双语篇章标注方法,下面W汉-英语言对平行句子对为例对于 本发明的原理与实现方法进行详细阐述,但本领域技术人员可W理解的是,本发明方法对 于其他语言对的篇章标注同样有效。
[0056] 图3是根据本发明一实施例的双语篇章标注方法流程图,如图3所示,所述双语篇 章标注方法包括W下步骤:
[0057] 步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词 对齐与自动篇章分析,得到词对齐信息和两端的篇章分析树;
[0058] 其中,对所述双语句子对中的源语言端和目标语言端句子进行自动分词 (Tokenize ,Segmen化tion),可W得到源语言端和目标语言端的分词结果。运里需要注意的 是,源语言或者目标语言中不管是否包含汉语都需要对句子进行符号化的操作 (Tokenize),而如果某一端包含了汉语则需要对其(汉语端)进行分词。对汉语进行分词的 方法有很多种,在本实施例中,W开源分词工具ICTCLAS对汉语进行分词。ICTCLAS中文分词 工具是一个常用的开源中文分词工具,ICT化AS中文分词工具可W在W下网址免费下载:http://ictclas.org/ictclas_download.asp。
[0059] 得到所述源语言端和目标语言端的分词结果之后,需要对双语句子对自动进行词 对齐。自动进行词对齐的方法有多种,在本实施例中,使用GIZA++工具对汉-英句子对进行 词对齐,得到汉-英自动词对齐结果。GIZA++是一个常用的开源词对齐工具。GIZA++可W在 W下网址免费下载http: /Vf joch. com/GIZA++. html。在使用GIZA++时要选择某个启发式策 略来得到对称的词对齐结果,本实施例选择了grow-diag-f inal策略,因为该启发式策略被 许多研究工作证明在中英翻译中是最有效的启发式规则。
[0060] 得到所述源语言端和目标语言端的分词结果之后,还需要对双语句子进行篇章分 析,在经过篇章分析可W得到两端句子的篇章分析结果,即篇章分析树,主要包括篇章切 分、篇章结构和篇章关系信息。自动篇章分析的方法有多种,在本实施例中,使用由多伦多 大学冯薇开发的自动篇章分析工具Discourse Parser,该自动篇章分析工具得到的结果是 目前篇章自动分析领域中最好的,针对不同的语言,只需提供相应的训练语料即可对该语 言的全文进行篇章切分、篇章结构生成、篇章关系分类等任务。该工具可W在W下网址免费 下载:http: //www. CS. toronto. edu/~we if eng/sof tware. html。
[0061] 步骤2,根据所述步骤I得到的词对齐信息和两端的篇章分析树得到两端句子中基 本篇章单元的对应关系;
[0062] 如图4所示,该步骤中,首先将步骤1中得到的词对齐信息和双语两端的篇章分析 结果融合到一起,通过词对齐信息得到一个模糊的粗略的基本篇章单元对应关系。块级别 对齐时W词对齐关系为准,而各个篇章分析的边界信息则W各个篇章分析的边界为准,因 为在实验中我们发现词对齐信息的准确性并没有达到能够进行篇章切分的程度,词对齐信 息对篇章单元的边界常常是不敏感的。因此在该步骤中,需要下面几个步骤的操作:
[0063] 步骤21,通过词对齐信息建立两端篇章分析树的词级别对应关系;
[0064] 步骤22,根据两端篇章分析树,建立两端基本篇章单元到词的映射包含关系;
[0065] 步骤23,根据步骤21和步骤22中得到的词级别对应关系和基本篇章单元到词的映 射包含关系,抽取两端基本篇章单元级别的映射关系。
[0066] 针对步骤23,在具体抽取两端基本篇章单元级别的映射关系时,考虑到其情况的 复杂性,为运个步骤设计了几条规则,其具体实施方法如下:
[0067] 针对双语基本篇章单元映射关系的问题,其出现的情况大概有如下巧中形式:1、一 端与另一端的基本篇章单元是一一对应的关系,体现在词对齐信息上是一端的一个基本篇 章单元的词映射索引能够完全或者大部分映射到另一端的某一个篇章单元;2、一端与另一 端的基本篇章单元是一对多的对应关系,体现在词对齐信息上是一端的一个基本篇章单元 的词映射索引能够完全或者大部分映射到另一端的某几个篇章单元上;最后一种最复杂, 一端与另一端的基本篇章单元是多对多的对应关系,体现在词对齐信息上是一端的一个基 本篇章单元映射到另一端的某几个基本篇章单元上,但是运些基本篇章单元却并不完全对 应原端的基本篇章单元,而是同时也包含了其他几个基本篇章单元的词索引信息,导致出 现了多对多的情况,运种情况在步骤23中不予抽取,即步骤23仅仅抽取前巧巾情况。
[0068] 针对步骤23抽取不同对齐的情况,本发明提出了针对性的抽取和分析的规则,具 体为:
[0069] (1)抽取规则时,如果源端中文句子篇章单元与目标端英语句子篇章单元中词索 引相互完全对齐,语义一致,两端的篇章切分一致(边界一致),即上面所述的两端篇章基本 单元一一对应的情况,那么将运两段基本篇章单元标记为篇章对齐的基本篇章单元。
[0070] (2)抽取规则时,如果源端中文句子篇章单元在语义上被切分成两个目标端英文 句子篇章单元,那么应该先将源端单元(较大)切分成两个与目标端篇章单元语义对应的两 个单元,并且进行相互对齐,进而抽取得到相应的对齐的篇章单元。
[0071] (3)如果词对齐非常混乱,不能得到清晰的篇章单元边界,那么就应该整体进行抽 取,其理由在于,单元语义现在更多的表现在词和词之间而不是块和块之间,不需要进行块 级别的单元抽取。
[0072] (I)在抽取单元与词的对齐规则时,如图5中所示情况I,从源端中文句子Sel映射 到目标端英语句子Se2的词索引为:561 = {0,1,2,3,5,6},相应的目标端第1个基本篇章单 元Tel ,Tel = {0,1,2,3,4,5,6},所W给出标记为M化,运个标记表示的是抽取两端文本作 为对齐的块。从而抽取总体的基本篇章单元对为Sel = Tel;发现属于上述第一种情况,即两 端基本篇章单元一一对应的情况,那么将运两端基本篇章单元标记为篇章对齐的基本篇章 单元;
[0073] (2)抽取规则时,如图5中所示情况2,Se2对应Tel,Te2,则需要对Se2进行再切分得 至化el. 1和Sel. 2: Sel-〉Sel. 1,Sel. 2。将新切分得到的Sel. 1,Sel. 2标记为语义对齐的基本 篇章单元,发现属于第二种情况,即两端基本单元的某一端的基本篇章单元包含了另一端 的数个基本篇章单元。
[0074] 步骤3,根据所述步骤2得到的两端句子中的基本篇章单元及其对应关系,构建双 语篇章结构。
[0075] 由于存在嵌入结构,传统的二叉树形结构不适用于双语篇章结构的构建,本发明 在构建双语篇章结构时主要采用层次生成树W及链式结构。
[0076] 在构建层次生成树时,主要考虑结构的一致性与语义一致性,两端句子同时生成 双语篇章树时,按照终结符扩展的顺序来生成。如图6中展示的一个双语篇章生成树的过 程。
[0077] 在图6中,两端一共抽取得到了 3个双语基本篇章单元对。根据单语端得到的篇章 分析结果,按照下列步骤依次组合运些基本双语篇章单元:
[0078] 步骤31,根据所述步骤2得到的两端句子中的基本篇章单元构建双语基本篇章单 元集合,该集合中包括了两端所有的双语基本篇章单元;
[0079] 步骤32,根据双语篇章分析树的结构关系,递归寻找叶子级别的基本篇章单元,W 及与叶子相关联的基本篇章单元,将寻找到的基本篇章单元对从所述双语基本篇章单元集 合中删除;
[0080] 步骤33,将所述步骤32寻找到的基本篇章单元对根据原本的文本顺序组合成一个 完整的块单元,并将其重新加入所述双语基本篇章单元集合;其操作目的是将小块的篇章 单元逐步拼接成大块的篇章单元,W体现篇章对文本的层次化分析结果;
[0081] 步骤34,重复步骤32W及步骤33,直到所述双语基本篇章单元集合中只剩下一个 块单元,该过程结束,整个过程中所产生的块单元、篇章单元的合并W及层次化分析结果作 为双语篇章结构最后的输出。
[0082] 该步骤中,根据实际的需要主要生成下面两种比较常见的篇章结构:
[0083] 1)树形结构(也叫作层次结构),根据双语基本篇章单元之间的关系,W及核屯、和 卫星的关系构建树形关系;
[0084] 2)链式结构,根据双语基本篇章单元之间的关系,严格按照句子顺序来进行链式 构建,所有基本篇章单元之间的关系都被简化为顺序关系,嵌套结构的部分从主结构部分 中抽取出来,使用嵌套关系链接到主结构后面,由此构成链式结构。
[0085] 图6A展示的是树形结构形式的输出结果,图6B展示了链式结构形式的输出结果。
[0086] 在实验中我们从国际机器翻译评测(NIST MT Evaluation)中英语言对机器翻译 测试集发布的中-英测试数据中抽取NIST MT 2003,NIST MT 2004,NIST MT 2005中英对齐 句对作为测试标注语料,训练语言的中文部分包括3789句,英文部分包括15156句。其中一 句中文句子与四句英文句子为一组,运五个句子所表达的意思是相同的。
[0087] 为了进行对比试验,首先分别使用中英语端的针对单语的篇章分析工具进行分 析,其中根据文献【Vanessa Wei Feng and Graeme Hirst,2014.A Linear-Time Bottom- Up Discourse Parser with Constraints and Post-Editing. In Proceedings of the 52th Annual Meeting of the Association for Computational Linguistics(ACL- 2014) ,pages 511-521 ,Baltimore,USA】所述,运是目前最好的篇章分析工具。在进行完自 动分析之后,对其结果进行了人工校正。
[0088] 在测量其一致性时,主要采用的是人工校对方式,通过映射一端语言篇章分析结 果到另一端来判断其是否正确。在实验中,采用的是将中文映射到英文端的方法。
[0089] 同时,在另外一组实验中,我们测试了在同种语种下,表达相同意思的不同句子的 一致性。同样的,作为对比,使用本发明方法将其重新标注一遍,测试其同种语种情况下,是 否亦有所提高。
[0090] 实验结果
[0091] 表1给出了在NIST2003上进行的随机抽样的调查的表现,表2则给出了相应的使用 单语篇章标注方法得到的结果。首先从表中可W看到,基于双语篇章的标注方法在基本篇 章单元切分上要明显优于单语篇章标注结果,随着基本篇章单元的切分一致性的提高,篇 章结构的一致性也随之提高了。运充分说明了本发明双语方法在双语环境下的有效性,可 W较高的改善双语环境下两种语言因差异导致源端篇章分析结果与目标篇章分析结果不 一致的情况。
[0092] 表1:采用双语篇章标注方法进行的标注结果,从标注完成的NIST2003数据集上抽 取得到,在一个句子组中,一句中文四句英文的意思相同,其中TEST表示的是中文句子, REF0-3表示的是相应的四个英文句子
[0093]
[0094] 表2:采用单语的篇章分析得到的篇章分析结果,随机抽取的句子与其对应的最相 似的英语句子
[0095] -
[0096]
[0097] 同时,我们也设计了另外一种实验,那就是同种语言两个相同意思句子的篇章分 析结果的一致性分析。我们发现即使实在同种语言中,相同意思的句子表达依然是存在一 定的不一致性的,当然相应的运种不一致性相比不同语言的情况要好的多,W英语为例,表 3中给出了相应的英语相同意思句对的一致性调查结果。同理,表4给出来经过本发明方法 处理之后,切分的一致性和结构的一致性都有所提高。
[0098] 表3:意思相同的4个英语句子中,随机抽取检查其在单语篇章分析结果中的切分、 结构、W及关系的一致性。
[0099]
[0100] 表4:在采用本发明标注方法进行了标注之后,其相应的切分和结构一致性都有所 提局。
[0101]
[0102] 分析其原理,本发明提出的
双语篇章分析方法主要是关注于句子的语义构成,即 篇章生成过程。对于不同语言来说,即使是句法上有很大的差异,但是语义块的差异并不是 很大,篇章语义单元中所包含了意图,动机,意义,事件描述等信息运些语义块具体的模式 千差万别,但是,从语言角度来说,它们具有一定的特点:
[0103] 1)整体性,为了表达特定的语义,运些语义块通常会整体出现,在句子中呈现为连 续的词序列。
[0104] 2)连贯性,连贯性在双语体系下表现为,在特定语言中,有特定语义功能的基本篇 章单元总是与其语义关联对象保持一定的联系,运种联系在句子中呈现为结构词,例如汉 语中的'的'字结构,英语中的定语从句等等。连贯性主要指的是通过良好的组织使得句子 更好的被人理解。在不同的语言中,运种连贯性的具体体现就是在句子中不同的基本篇章 单元被特定的结构组织到一起。
[0105] 3)衔接性,从句子组织逻辑性来说,一般的语言中都会伴随一定的逻辑衔接词,运 些词主要起到过渡的作用,也提示了上下文的关系。例如,中文中的"如果","但是"等等。通 常在不同的语言中,运种衔接性特征也具有较高的一致性。
[0106] 根据W上的分析,本发明采用基本篇章单元作为不同语言之间一致性的标准是合 理的,是有效的。通过本发明方法,在实验中看到的确显著地提高了双语中篇章分析标注的 一致性,甚至同样语种不同的句子的篇章分析标注的一致性也有所提高。
[0107] W上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详 细说明,所应理解的是,W上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡 在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保 护范围之内。
【主权项】
1. 一种双语篇章标注方法,其特征在于,所述方法包括以下步骤: 步骤1,对双语句子对中的源语言端和目标语言端句子分别进行自动分词、自动词对齐 与自动篇章分析,得到词对齐信息和两端的篇章分析树; 步骤2,根据所述步骤1得到的词对齐信息和两端的篇章分析树得到两端句子中基本篇 章单兀的对应关系; 步骤3,根据所述步骤2得到的两端句子中的基本篇章单元及其对应关系,构建双语篇 章结构。2. 根据权利要求1所述的方法,其特征在于,所述篇章分析树至少包括篇章切分、篇章 结构和篇章关系信息。3. 根据权利要求1所述的方法,其特征在于,所述步骤2进一步包括以下步骤: 步骤21,通过词对齐信息建立两端篇章分析树的词级别对应关系; 步骤22,根据两端篇章分析树,建立两端基本篇章单元到词的映射包含关系; 步骤23,根据步骤21和步骤22中得到的词级别对应关系和基本篇章单元到词的映射包 含关系,抽取两端基本篇章单元级别的映射关系。4. 根据权利要求3所述的方法,其特征在于,所述步骤23抽取的基本篇章单元级别的映 射关系包括:一端与另一端基本篇章单元一一对应的关系和一端与另一端基本篇章单元一 对多的对应关系。5. 根据权利要求1所述的方法,其特征在于,所述步骤3进一步包括以下步骤: 步骤31,根据所述步骤2得到的两端句子中的基本篇章单元构建双语基本篇章单元集 合,该集合中包括了两端所有的双语基本篇章单元; 步骤32,根据双语篇章分析树的结构关系,递归寻找叶子级别的基本篇章单元,以及与 叶子相关联的基本篇章单元,将寻找到的基本篇章单元对从所述双语基本篇章单元集合中 删除; 步骤33,将所述步骤32寻找到的基本篇章单元对根据原本的文本顺序组合成一个完整 的块单元,并将其重新加入所述双语基本篇章单元集合; 步骤34,重复步骤32以及步骤33,直到所述双语基本篇章单元集合中只剩下一个块单 J L· 〇6. 根据权利要求5所述的方法,其特征在于,所述步骤31-步骤34中,整个过程所产生的 块单元、篇章单元的合并以及层次化分析结果均作为双语篇章结构最后的输出。7. 根据权利要求1所述的方法,其特征在于,所述双语篇章结构包括树形结构和/或链 式结构。8. 根据权利要求7所述的方法,其特征在于,在所述树形结构中,根据双语基本篇章单 元之间的关系以及核心和卫星的关系构建树形关系。9. 根据权利要求7所述的方法,其特征在于,在所述链式结构中,根据双语基本篇章单 元之间的关系,按照句子顺序来进行链式构建,所有基本篇章单元之间的关系都被简化为 顺序关系,嵌套结构的部分从主结构部分中抽取出来,使用嵌套关系链接到主结构后面。
【文档编号】G06F17/27GK106021224SQ201610317745
【公开日】2016年10月12日
【申请日】2016年5月13日
【发明人】张家俊, 刘洋, 宗成庆
【申请人】中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1