通用的汉语两级混合模板口语对话语言生成方法

文档序号:2836803阅读:335来源:国知局
专利名称:通用的汉语两级混合模板口语对话语言生成方法
技术领域
本发明涉及人工智能的自然语言生成技术,特别是涉及到根据言语的内部表达式生成具有口语特性的汉语语言。
背景技术
口语语言生成方法是指这样的计算机软件系统它是面向任务的对话系统的一个组成部分,它可以根据言语的内部表达式生成适合口语对话的自然语言。
概括起来,现有的自然语言生成方法可以归为四类一、封装文本的方法一个封装文本是一个预先定义好的串,它是在系统设计的时候就写好了的。系统储存了一个串集合,以及每个串的触发条件。在受到触发时会显示其中的一个。这样的串是静态的,不加以改变地呈现给用户。
二、基于模板的方法一个模板是一个预先定义好的框架,在运行时由用户或者应用程序用信息来填充。模板由两个主要部分组成模板槽和模板规则。模板槽是用户可以赋值的参数或者变量。模板规则表达了如何实现一个表层要素。
三、基于短语的方法一个短语是一个在自然语言中构造子句或者句子的词或者词组。基于短语的方法定义了一个一般化的模板集合,这些模板表达自然语言中的各种短语,如名词短语(NP)动词短语(VP)等。这些一般化的模板(短语)通过一个产生规则集相互关联起来。一个产生规则就是一个约束,规定了如何用一个词或者短语替代另一个短语。该方法是基于短语结构文法的。短语结构文法描述了词组合成短语和短语组合成句子的方法。
四、基于特征的方法特征表达的是自然语言的特性。每个特征都有有限的可能值。如,数量特征可以是单数或者复数。一个特征的值描述了一个词的形式,子句或者句子结构。如,一个句子的主语是单数名词,则主语本身不会有屈折变化,而动词却要变化。在基于特征的语言实现系统中,文法的每一个特性都由一个特征来表达。如,时态,数,和人称。生成就是逐个搜集对于每一个输入部分都是适合的特征集。
从句子生成的角度看,可以把以上四类方法分为两类基于模板的方法(包括封装文本的方法和基于模板的方法)和基于生成的方法(包括基于短语的方法和基于特征的方法)。因为前者是基于对预制模板的填充,而后者是基于语言学规则的生成。
从生成所使用的方法上讲,它们的差别在于非语言学生成(前者)和语言学生成(后者)。非语言学的方法只涉及句子的表层,而语言学的方法是利用句子的语言学性质。语言学的方法利用句子的句法特性等,如时态,数,主谓语一致性等特性,生成的句子虽然比较灵活,但因为汉语不是屈折语言,缺少形式变化和句法的表层约束,所以语言学的方法显然不适合汉语的生成任务。而非语言学方法生成的句子缺少灵活性,很难适合口语的特性,模板的维护任务重。

发明内容
本发明的目的是提供一种通用的汉语两级混合模板口语对话语言生成方法,其采用言语行为表达式,有很强的表达能力,更加符合对话语境,实现了算法与任务无关,容易移植。
为达到上述目的,本发明的技术解决方案是提供一种通用的汉语两级混合模板口语对话语言生成方法,其汉语的句子被分解为两个层面句子和短语;每个层面分别使用不同的模板来生成,即,根据短语模板生成短语,再把短语模板根据句子模板的要求组合成句子,从而生成句子。
所述的口语对话语言生成方法,其包括以下步骤一、设计短语模板,用来生成结构不变的短语;二、设计表达基本语序的句子模板;三、以短语为组件,填充句子模板,生成句子;四、设计句子模板变换规则,用来生成不同的句型。
所述的口语对话语言生成方法,其所述的模板,全部来源于真实语料库,模板由若干个语义槽组成,每个槽都是使用( )括起来的一个语义角色;它由模板名字和几个槽组成,每个槽又由槽的语义角色名称和实现该语义角色的短语模板名字组成;主动词除外,它是由动词的符号和动词组成;模板与语义密切相关,符合汉语的特点。
所述的口语对话语言生成方法,其所述的模板,包括静态模板和封装文本两类。
所述的口语对话语言生成方法,其所述的静态模板,没有必要使用句子模板加短语模板的方式生成的句子,其主体不参加逻辑推理,句子涉及到的内容简单,使用频率很低。
所述的口语对话语言生成方法,其所述的封装文本,是指对话中有些句子不可以分解,句子的意义不是其组成部分的意义和结构的函数;这部分句子一般是交际功能语言,如问候,寒暄,它们不符合弗雷格(Frege)组合原则,不涉及到实体与谓词,即直接使用封装文本定义,需要时直接输出。
所述的口语对话语言生成方法,其所述的短语模板,是基本模板,是固定不变的,具有一定的语义含义,每个短语单独设立模板,设立的方法是实体作为槽,其余字词均是镶嵌入模板的词。
所述的口语对话语言生成方法,其所述的句子模板,是把基本句子以实体为中心划分成短语,每个短语使用一个名称定义,句子的主动词除外;其每个槽同时标示出了语义角色。
所述的口语对话语言生成方法,其算法的输入数据结构是CSL言语行为表达式。
所述的口语对话语言生成方法,其算法的步骤如下第一步、模板选择根据句子谓词的名称访问模板映射表,并判断访问的模板的类型,如果需要访问的模板是封装文本,则调用该模板,得到返回数据,输出,返回,算法停止;否则取得模板;第二步、确定需要生成的句子成分在得到了句子模板以后,就得到了句子中代表一定语义含义的需要被填充的槽;第三步、指派每个槽的填充值在确定了需要生成的句子成分以后,就是在知道了哪些槽需要填充以后,因为谓词表达式中的语义项与模板中的语义项是对应的,只需要一一对应上填入就可以了;第四步、句子成分的预生成这个阶段的任务可以分为两类,一类是使用另外的生成过程,生成短语以代替本句模板中的语义槽,第二类是依据本句模板的槽填充;首先,在第一类中涉及到的成分有摹状词、合称和代词;摹状词的生成同样是需要调用模板,根据摹状词的形式表达式的谓词符号访问模板映射表,得到模板,然后依据摹状词的模板变换规则,生成摹状词;合称短语的生成是使用专用的模板,将每个词串联输出;代词的生成就是依据代词的使用条件,在满足条件的情况下,使用代词“它”替代主体词;第五步、短语生成第四步中第二类句子成分就是本句的模板中的语义槽,将每个指派的信息,填充相应的语义短语模板,将填充的结果返回给本句模板;第六步、各类句型的生成根据句型映射表,依据言语行为表达式的C_S_L三者的关系选择所要生成的句子的类型,包括a、疑问句的生成(1)选择问选择疑问项对应的槽依次使用每个选择项内容重复生成,生成的结果之间以“还是”串接,得到最后输出结果;(2)是非问若疑问点在谓词上,则在句末串接“吗?”;若疑问点不在谓词上,则在疑问项前加“是”,在句末串接“吗?”,得到最后输出结果;(3)特指问根据谓词公式中疑问点的位置,访问谓词的定义,得到该变元位置的集合定义中的疑问词;根据谓词的名称访问基本句模板映射表,得到对应的基本模板;模板的其他部分按照基本句子的生成过程生成,疑问点对应的槽依使用a)中得到的疑问词填充,最后输出结果;b、否定句的生成对于否定项对应的短语中的第一个词是体词的,生成的否定句是在该短语前加“不是”,否则加“不”;对于否定点在谓词的,在生成的基本句子中的主动词前直接加否定词“不”;C、省略句的生成原谓词有对应的模板可以用于生成,现在部分成分省略以后的命题,仍然采用原模板生成,生成的方式与没有省略时是一样的,只是省略项对应的槽不予填充,最后输出结果的时候,将省略项对应的槽的前后项短接。
所述的口语对话语言生成方法,其所述的第一步中,所述访问模板映射表的入口就是关系谓词符号。
所述的口语对话语言生成方法,其所述的第二步中,有的时候,不是所有这些句子成分都需要生成,如在需要使用简答语的时候,就不用生成所有的句子中的成分,只生成与句子的疑问项对应的项和主动词;也不是所有的句子成分都要按照成分对应的模板逐个生成,如在需要使用代词的时候,被代词替代的成分就不需要生成了,只是使用一个代词来替代一个句子中的名词项;所以在生成句子前,需要做出判断。
所述的口语对话语言生成方法,其所述的第三步中,其中省略项也是占位的。
所述的口语对话语言生成方法,其所述的第六步中,句子模板的其他部分按照基本句子的生成过程生成。
所述的口语对话语言生成方法,其算法的输入采用言语行为表达式,它有很强的表达能力,可以提供丰富的生成句子类型所需要的信息。
所述的口语对话语言生成方法,其算法中提取语境信息辅助生成,使得生成的句子更加符合对话语境。
所述的口语对话语言生成方法,其算法采取了下列方法只有语言中的普遍规律写入算法,习惯性知识性的内容和任务内容要全部写入配置文件。
所述的口语对话语言生成方法,其算法与任务无关,所以容易移植。
所述的口语对话语言生成方法,其算法是可扩充的。
所述的口语对话语言生成方法,其所述的扩充,是算法生成的句子类型是可以扩充的;算法生成的短语类型是可以扩充的;算法生成的句子成分是可以扩充的。
本发明的口语对话语言生成方法,采用言语行为表达式,有很强的表达能力,可以提供丰富的生成句子类型所需要的信息。提取语境信息辅助生成,使得生成的句子更加符合对话语境。实现了算法与任务无关,所以容易移植。
具体实施例方式
弗雷格(Frege)组合原则认为“句子的整体意义是它的部分意义和它们的组合方式的函数。
汉语句子成分的排列顺序灵活多变,尤其是在口语中。但是这些语序变化并不是无根据的随意的,而是有一定的语用目的的。
有一类语序是最基本的,它们可以被认为是语境中性的,被称为典型语序。它们呈现出一种最常见的、最基本的结构模式,这种结构不带有任何其他的表示某种特殊的语用意义的形式标记,无特定的语用含义。其他的语序都是在典型语序的基础上变换而来,是为了某特定的语用目的。
汉语的句型之间有简单的变换关系,他们都可以从基本陈述句变换而来。
基本陈述句→否定句在否定项前加否定词。
基本陈述句→选择疑问句选择疑问项重复,句尾加“?”。
基本陈述句→是非疑问句疑问点的反义重复,或者加“是”,句尾加“么?”。
基本陈述句→特指疑问句疑问项被疑问代词替换,句尾加“?”。
基本陈述句→省略句省略项前后成分短接,其余不变。”汉语的短语(词组)具有特殊的语法地位汉语短语的构造原则与句子的构造原则基本上是一致的。根据“词组本位”的汉语语法体系,汉语的句子不是由词直接组成,而是由词先组成词组,再由词组实现为句子。汉语的短语有着严格固定的结构,结构变化短语的语义也跟着变化。
根据汉语语序、句型和短语的特点,设计了如下的生成方法设计短语模板,用来生成结构不变的短语。
设计表达基本语序的句子模板。
以短语为组件,填充句子模板,生成句子。
设计句子模板变换规则,用来生成不同的句型。
这就是混合模板方法。从对汉语语言学的研究结果综合来看,混合模板的方法不只是一种句子的生成方法,更是一种看待汉语句子的观点,是一种汉语句子的解析方法。
模板全部来源于真实语料库,目前是人工抽取模板,步骤如下根据动词的语义将句子聚类,每一个类代表一个语义,则有一个谓词与之对应。该谓词来源于任务模型的范畴化过程。
挑选同类句子中涉及到实体最多的,并且不带有特殊语用目的,肯定陈述句,作为基本句子。若没有满足这些条件的,可以根据句型变换规则做变换。
把该基本句子以实体为中心划分成短语,每个短语使用一个名称定义。句子的主动词除外。此时得到的就是句子模板。
每个短语单独设立模板,设立的方法是实体作为槽,其余字词均是镶嵌入模板的词。这就是短语模板。
模板由若干个语义槽组成,每个槽都是使用( )括起来的一个语义角色。它由模板名字和几个槽组成。每个槽又由槽的语义角色名称和实现该语义角色的短语模板名字组成,主动词除外,它是由动词的符号Verb和动词组成。
该句子模板与传统模板的最大不同是,每个槽同时标示出了语义角色。
短语模板是为了实现短语的模板,它具有一定的语义含义。短语模板是基本模板,是固定不变的。
为了系统实现上的考虑,本方法还定义如下两类模板1、静态模板句子涉及到的内容简单,使用频率很低,其中的主体不参加逻辑推理等,这样的句子没有必要使用句子模板加短语模板的方式生成。为此设计了静态模板。
2、封装文本对话中有些句子不可以分解,句子的意义不是其组成部分的意义和结构的函数。这部分句子一般是交际功能语言,如问候,寒暄等。它们不符合弗雷格(Frege)组合原则。它们不涉及到实体与谓词,本方法直接使用封装文本定义,需要时直接输出。
算法描述算法的输入数据结构是CSL言语行为表达式。算法实现步骤如下步骤1模板选择算法的第一步是取得生成句子用的模板。首先根据谓词的名称访问模板映射表,并判断访问的模板的类型,如果需要访问的模板是封装文本,则调用该模板,得到返回数据,输出,返回,算法停止。否则取得模板。访问模板映射表的入口就是关系谓词符号。模板映射表就是数据表之一,是预先建立的。它的结构很简单,由谓词名字和模板名字组成。
步骤2确定需要生成的句子成分在得到了句子模板以后,就得到了句子中代表一定语义含义的需要被填充的槽。但是有的时候,不是所有这些句子成分都需要生成,如在需要使用简答语的时候,就不用生成所有的句子中的成分,只生成与句子的疑问项对应的项和主动词,其余项不用生成。也不是所有的句子成分都要按照成分对应的模板逐个生成,如在需要使用代词的时候,被代词替代的成分就不需要生成了,这时只是使用一个代词来替代一个句子中的名词项。所以在生成句子前,需要做出判断。
简答语的生成用于回答疑问句的句子,相对于疑问句来说就被称为答句。由于在问句中已经提到了信息所涉及到的大部分主体,问句和答句使用的语境是相同的,所以答句中一般就不必把所有成分都给出,只列出其中部分主要的信息项即可,这被称为简答句。所以答句有时候可以非常简单,简单到只包含疑问项所对应的项,这样的形式被称为最简形式,但是为了符合礼貌原则一般在答句中还要再多列出几个句子成分。对于自然语言对话系统,本方法不使用最简形式的简答语,而是要列出一部分其他的句子成分。这样做的目的是克服下列二种不足第一,简答语中只包含疑问的信息项,句子给听者的语感不够礼貌;第二,最简形式的句子在做语音生成以后,由于词汇少,生成的语音短,容易造成听者的漏听,在没有听清楚的时候话音就已经结束了,造成听者要求重复,增加了对话轮数。
简答语使用条件如果上句的言语行为表达式是Direct_Question,而本句是Represent类,即上句的言语行为是提问,本句的言语行为是阐述;疑问句的谓词表达式与单句的谓词表达式相同。具体的是对于选择问和是非问,如果答句的表达式是问句的表达式之一,则可以使用简答语;对于是特指问,如果答句和问句的语义表达式除了在疑问点上一个是问号一个是语义表达式之外,其余相同,则要使用简答语。
简答语的生成过程疑问句分为三类,简答语也相应的分为三类。
一类选择问,是问句提供两个或者两个以上的选择项,由答句做出选择。所以简答语就可以是只包含选择项。
一类是非问,可以看作是特殊的选择问,选择项是两个互为否定的命题,答句选择其中之一。简答语可以是肯定或者否定,肯定的简答语是“是的”,否定的简答语是“不”。
一类特指问,没有提供选择项,信息内容是要由答句提供的,而疑问句中使用的疑问词是由系统通过一个映射表提供的。访问的过程是,根据疑问点所在的位置,得到疑问项所在位置的变量名称,根据变量名称去访问疑问词映射表。
代词的使用所谓代词是代替名词以及起名词作用的短语、分句和分句的词。在生成系统中代词的使用是为了增加句子的自然性,使得句子更接近自然语言,使得听者感觉适应。同时也是为了使得生成的语言更简洁,突出新信息。
使用代词的条件前一句话(对方、自己的)中若只有一个主体,而与本句谈论的主体相同可以使用代词。
当满足代词使用条件后,以“它”代入本句的模板中的主体槽。
步骤3指派每个槽的填充值在确定了需要生成的句子成分以后,就是在知道了哪些槽需要填充以后,就要为这些槽指派填充信息了。这个过程很简单,因为定义的关系谓词表达式中的语义项与模板中的语义项是对应的,只需要一一对应上就可以了,但是注意省略项也是占位的。
步骤4句子成分的预生成接下来就是生成句子的成分了。在这个阶段的任务可以分为两类,一类是使用另外的生成过程,生成短语以代替本句模板中的语义槽,第二类是依据本句模板的槽填充。
首先,第一类使用另外的生成过程,生成短语以代替本句模板中的语义槽。在这类中涉及到的成分有摹状词、合称和代词。摹状词的生成同样是需要调用模板,根据摹状词的形式表达式的谓词符号访问模板映射表,得到模板,然后依据摹状词的模板变换规则,生成摹状词。这个过程其实同句子的生成过程是相仿的,相当于本算法的递归调用。合称短语的生成是使用专用的模板P_QuantifierNoun,将每个词串联输出。代词的生成就是依据代词的使用条件,在满足条件的情况下,使用代词“它”替代主体词。
步骤5短语生成第二类句子成分就是本句的模板中的语义槽,这部分就相对比较简单,将每个指派的信息,填充相应的语义短语模板,将填充的结果返回给本句模板即可。
步骤6各类句型的生成根据言语行为表达式的C_S_L三者的关系选择所要生成的句子的类型,这个关系和句子的类型的对应是根据一个句型映射表。
需要说明的是该句型映射表体现的是一个言语行为使用何种句型去表达,在同类的言语行为中的不同子类具有不同的语用力量,有时需要变换语序,有时又需要选择不同的句型表达。它的结构是一个简单的二维对应表。
疑问句的生成疑问句分为三类选择问、是非问和特指问。
1、选择问选择问句子的生成过程是根据语义表达公式的谓词名称访问模板映射表,得到基本句子模板。
确定选择疑问项在模板中的名称,以及公式中给出的选择项的内容。
模板的其他部分按照基本句子的生成过程生成,选择疑问项对应的槽依次使用每个选择项内容重复生成,生成的结果之间以“还是”串接。得到最后输出结果。
2、是非问是非问句的疑问点的判断是比较复杂的问题,同样的文字排列组成的句子,疑问点不同,意义是不同的,为了不使句子产生歧义,本方法在疑问点上附加标记,具体是非问句子的生成过程如下按照对应的基本句子的生成方式生成若疑问点在谓词上,则在句末串接“吗?”。
若疑问点不在谓词上,则在疑问项前加“是”,在句末串接“吗?”。
需要说明的是,在自然语言口语中,确定“T21次8点从北京出发么?”这样的句子的疑问点是使用重音的,重音落在哪里就是对哪里的疑问,如把重音落在“8点”上就是对“8点”的置疑。为了强调疑问点时,才使用加入词“是”在疑问点的方法,即,上句成为“T21次是8点从北京出发么?”,此时口语中重读“是8点”。本方法采用的是强调式的疑问,目的主要在于增加系统话语的清晰程度,减少歧义。同时也降低了对语音合成模块的要求。
3、特指问对于特指问的生成来说,其生成模板仍然根据对应的基本句子模板,但是生成中的关键是如何得到疑问词。为此,本方法构建一个疑问词映射表,这个表是在应用任务范畴化的时候建立的,其中定义了每个本体集合应该使用哪个疑问词来进行疑问,它的结构是一个简单的二维对应表。
其特指问句子的生成过程是根据谓词公式中疑问点的位置,访问谓词的定义,得到该变元位置的集合定义中的疑问词。
根据谓词的名称访问基本句模板映射表,得到对应的基本模板。
模板的其他部分按照基本句子的生成过程生成,疑问点对应的槽使用第六步各类句型的生成中分步a疑问句的生成得到的疑问词填充,最后输出结果。
4、否定句的生成否定句表达式中直接表达出了否定的位置。一般来讲,否定句是有标记的,它的焦点位置应该在否定部分,为了突出否定部分,对于否定项对应的短语中的第一个词是词的,本方法生成的否定句是在该短语前加“不是”,否则加“不”;对于否定点在谓词的,本方法采用在生成的基本句子中的主动词前直接加否定词“不”的方式。
下面本方法说明否定点不在谓词的否定句的生成过程根据谓词的名称访问基本句子模板映射表,得到对应的模板。
类似于基本句子的生成过程填充每一个槽,包括否定词所在的槽。
串接输出。如果否定项对应的短语模板的第一项是槽,则在该短语前插入“不是”否则插入“不”,其余各项不变,顺序串接输出。
5、省略句的生成省略句是指运用变元省略规则得到的句子。原谓词是有对应的模板可以用于生成。现在部分成分省略以后的命题,本方法仍然采用原模板生成,生成的方式与原没有省略是一样的,只是省略项对应的槽不予填充,最后输出结果的时候,将省略项对应的槽的前后项短接就可以了。
算法特性算法的输入采用言语行为表达式,它有很强的表达能力,可以提供丰富的生成句子类型所需要的信息。
提取语境信息辅助生成,使得生成的句子更加符合对话语境。
算法是可扩充的。
算法生成的句子类型是可以扩充的。
算法生成的短语类型是可以扩充的。
算法生成的句子成分是可以扩充的。
模板与语义密切相关,符合汉语的特点本算法采取了下列方法只有语言中的普遍规律写入算法,习惯性知识性的内容要写入配置文件,任务内容要全部写入配置文件。
因为本发明实现了算法与任务无关,所以容易移植。
权利要求
1.一种通用的汉语两级混合模板口语对话语言生成方法,其特征在于,汉语的句子被分解为两个层面句子和短语;每个层面分别使用不同的模板来生成,即,根据短语模板生成短语,再把短语模板根据句子模板的要求组合成句子,从而生成句子。
2.如权利要求1所述的口语对话语言生成方法,其特征在于,算法的输入数据结构是CSL言语行为表达式,并包括以下部分一、设计短语模板,用来生成结构不变的短语;二、设计表达基本语序的句子模板;三、以短语为组件,填充句子模板,生成句子;四、设计句子模板变换规则,用来生成不同的句型。
3.如权利要求2所述的口语对话语言生成方法,其特征在于,所述的模板,全部来源于真实语料库,模板由若干个语义槽组成,每个槽都是使用()括起来的一个语义角色;它由模板名字和几个槽组成,每个槽又由槽的语义角色名称和实现该语义角色的短语模板名字组成;主动词除外,它是由动词的符号和动词组成;模板与语义密切相关,符合汉语的特点。
4.如权利要求3所述的口语对话语言生成方法,其特征在于,所述的模板,包括静态模板和封装文本两类。
5.如权利要求4所述的口语对话语言生成方法,其特征在于,所述的静态模板,没有必要使用句子模板加短语模板的方式生成的句子,其主体不参加逻辑推理,句子涉及到的内容简单,使用频率很低。
6.如权利要求4所述的口语对话语言生成方法,其特征在于,所述的封装文本,是指对话中有些句子不可以分解,句子的意义不是其组成部分的意义和结构的函数;这部分句子一般是交际功能语言,如问候,寒暄,它们不符合弗雷格(Frege)组合原则,不涉及到实体与谓词,即直接使用封装文本定义,需要时直接输出。
7.如权利要求2或3所述的口语对话语言生成方法,其特征在于,所述的短语模板,是基本模板,是固定不变的,具有一定的语义含义,每个短语单独设立模板,设立的方法是实体作为槽,其余字词均是镶嵌入模板的词。
8.如权利要求2或3所述的口语对话语言生成方法,其特征在于,所述的句子模板,是把基本句子以实体为中心划分成短语,每个短语使用一个名称定义,句子的主动词除外;其每个槽同时标示出了语义角色。
9.如权利要求2所述的口语对话语言生成方法,其特征在于,算法的步骤如下第一步、模板选择根据句子谓词的名称访问模板映射表,并判断访问的模板的类型,如果需要访问的模板是封装文本,则调用该模板,得到返回数据,输出,返回,算法停止;否则取得模板;第二步、确定需要生成的句子成分在得到了句子模板以后,就得到了句子中代表一定语义含义的需要被填充的槽;第三步、指派每个槽的填充值在确定了需要生成的句子成分以后,就是在知道了哪些槽需要填充以后,因为谓词表达式中的语义项与模板中的语义项是对应的,只需要一一对应上填入就可以了;第四步、句子成分的预生成这个阶段的任务可以分为两类,一类是使用另外的生成过程,生成短语以代替本句模板中的语义槽,第二类是依据本句模板的槽填充;首先,在第一类中涉及到的成分有摹状词、合称和代词;摹状词的生成同样是需要调用模板,根据摹状词的形式表达式的谓词符号访问模板映射表,得到模板,然后依据摹状词的模板变换规则,生成摹状词;合称短语的生成是使用专用的模板,将每个词串联输出;代词的生成就是依据代词的使用条件,在满足条件的情况下,使用代词“它”替代主体词;第五步、短语生成第四步中第二类句子成分就是本句的模板中的语义槽,将每个指派的信息,填充相应的语义短语模板,将填充的结果返回给本句模板;第六步、各类句型的生成 根据句型映射表,依据言语行为表达式的C_S_L三者的关系选择所要生成的句子的类型,包括a、疑问句的生成(1)选择问选择疑问项对应的槽依次使用每个选择项内容重复生成,生成的结果之间以“还是”串接,得到最后输出结果;(2)是非问若疑问点在谓词上,则在句末串接“吗?”;若疑问点不在谓词上,则在疑问项前加“是”,在句末串接“吗?”,得到最后输出结果;(3)特指问根据谓词公式中疑问点的位置,访问谓词的定义,得到该变元位置的集合定义中的疑问词;根据谓词的名称访问基本句模板映射表,得到对应的基本模板;模板的其他部分按照基本句子的生成过程生成,疑问点对应的槽依使用a)中得到的疑问词填充,最后输出结果;b、否定句的生成对于否定项对应的短语中的第一个词是体词的,生成的否定句是在该短语前加“不是”,否则加“不”;对于否定点在谓词的,在生成的基本句子中的主动词前直接加否定词“不”;C、省略句的生成原谓词有对应的模板可以用于生成,现在部分成分省略以后的命题,仍然采用原模板生成,生成的方式与没有省略时是一样的,只是省略项对应的槽不予填充,最后输出结果的时候,将省略项对应的槽的前后项短接。
10.如权利要求2所述的口语对话语言生成方法,其特征在于,所述的第一步中,所述访问模板映射表的入口就是关系谓词符号。
11.如权利要求2所述的口语对话语言生成方法,其特征在于,所述的第二步中,有的时候,不是所有这些句子成分都需要生成,如在需要使用简答语的时候,就不用生成所有的句子中的成分,只生成与句子的疑问项对应的项和主动词;也不是所有的句子成分都要按照成分对应的模板逐个生成,如在需要使用代词的时候,被代词替代的成分就不需要生成了,只是使用一个代词来替代一个句子中的名词项;所以在生成句子前,需要做出判断。
12.如权利要求2所述的口语对话语言生成方法,其特征在于,所述的第三步中,其中省略项也是占位的。
13.如权利要求2所述的口语对话语言生成方法,其特征在于,所述的第六步中,句子模板的其他部分按照基本句子的生成过程生成。
14.如权利要求1或2所述的口语对话语言生成方法,其特征在于,算法的输入采用言语行为表达式,它有很强的表达能力,可以提供丰富的生成句子类型所需要的信息。
15.如权利要求1或2所述的口语对话语言生成方法,其特征在于,算法中提取语境信息辅助生成,使得生成的句子更加符合对话语境。
16.如权利要求1或2所述的口语对话语言生成方法,其特征在于,算法采取了下列方法只有语言中的普遍规律写入算法,习惯性知识性的内容和任务内容要全部写入配置文件。
17.如权利要求1或2所述的口语对话语言生成方法,其特征在于,算法与任务无关,所以容易移植。
18.如权利要求2所述的口语对话语言生成方法,其特征在于,算法是可扩充的。
19.如权利要求18所述的口语对话语言生成方法,其特征在于,所述的扩充,是算法生成的句子类型是可以扩充的;算法生成的短语类型是可以扩充的;算法生成的句子成分是可以扩充的。
全文摘要
本发明一种通用的汉语两级混合模板口语对话语言生成方法涉及人工智能的自然语言生成技术,特别是涉及到根据言语的内部表达式生成具有口语特性的汉语语言。该方法把汉语的句子分解为两个层面句子和短语。每个层面分别使用不同的模板来生成。即,根据短语模板生成短语,再把短语模板根据句子模板的要求组合成句子,从而生成句子。本发明的方法,采用言语行为表达式,有很强的表达能力,可以提供丰富的生成句子类型所需要的信息。其提取语境信息辅助生成,使得生成的句子更加符合对话语境。实现了算法与任务无关,所以容易移植。
文档编号G10L13/00GK1595496SQ0315700
公开日2005年3月16日 申请日期2003年9月8日 优先权日2003年9月8日
发明者杜利民, 于水源 申请人:中国科学院声学研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1