文本模板生成器、文本生成设备、文本检验设备及其方法

文档序号:6615923阅读:177来源:国知局
专利名称:文本模板生成器、文本生成设备、文本检验设备及其方法
技术领域
本发明涉及自然语言处理的技术领域,更具体地,涉及一种文本模板生成器及其方法,文本生成设备及其方法,用于检验文本是否是习惯用法文本的文本检验设备及其方法和用于生成习惯用法文本的系统及其方法。

背景技术
随着计算机的广泛采用以及因特网应用的日益增长,在各个领域中计算机变得越来越普及。大量的日常使用的应用采用了自然语言处理技术,例如,文本分类系统和文本搜索引擎。
文本分类系统将文本分类为不同的类别,其中属于同一类的文本具有共同的特征。在不同应用的情况下,可以被分类的文本包括文章,电子邮件,短消息,句子,短语等等,分类的特征可以是语义,格式,文法等等。例如,反垃圾电子邮件系统,可以识别并阻拦垃圾电子邮件,就是一种文本分类系统。短消息标记系统也是一种文本分类系统,可以将发送或接收的短消息加上不同的标记,例如,紧急,垃圾邮件,私人等等。根据短消息的特定标签可以执行特定操作。例如,移动电话在接收到标签为紧急的短消息之后,一直响铃。没有输入正确的密码,则标签为私人的短消息不能够被浏览。训练样本的数量是影响文本分类系统的关键因素,通常,系统使用的训练语料越多,系统将会越精确。因此,为文本分类系统构建足够的训练语料很重要。训练语料构建的工作耗时且令人厌烦,因此,生成习惯用法的文本作为训练语料将非常有用。
文本搜索引擎搜索与输入查询文本相关的所有文档。一般地,搜索引擎仅搜索准确包括查询文本的文档,即,不能够找到虽然没有包括查询文本但是与查询文本紧密相关的文档。因此,能够产生相关查询文本的生成方法将增强搜索引擎的性能。
通常,习惯用法文本的生成处理包括两个主要步骤文本生成步骤和习惯用法文本检验步骤。
已有的文本生成方法包括基于语法的方法,基于模板的方法以及基于统计的方法。
基于语法的方法首先确定生成文本应该叙述什么(即概念,一个概念就是一个语义构成);其次,计算概念之间的关系;第三,根据关系产生生成的文本的语法结构;第四,生成描述各个概念的文本;之后,根据语法结构生成实际的文本。已经采用的语法有标准化语法;短语结构语法;系统语法;相邻树语法,一般扩充转换网络语法,分类语法等。基于语法的方法比较有效,但是很难构建且依赖于语言。
基于模板的方法用于经常生成结构类似的消息的环境下。一般地,生成的文本的结构是固定的或者给定原型文本,并按照特定的限定方式填充一些开放字段。典型的环境是生成天气预报的文本。例如“今天是_度,天气为_。”这种方法很容易实现,但是只能用于特定环境。
基于统计的方法根据语言统计信息生成文本,例如,N元模型,熵信息等。这种方法逐概念地生成文本,即,每次生成描述一个概念的文本。如果可以利用多种类型的描述来描述一个概念,则根据之前生成的文本以及仍然需要利用语言统计信息生成的概念选择最有可能的描述。选择最有可能的描述文本的方法是独立于语言且容易实施,但是生成概念描述的方法是依赖于语言且很难实施的。
现有的习惯用法文本检验方法包括基于语义的方法和基于词类别搭配的方法。
基于语义的方法使用语义词典来检验词搭配是否合理。例如,“观看电视”是合理的搭配,但是“吃电视”就不是合理的搭配。
基于词类别搭配的方法根据词类别搭配信息检验合理性。例如,词性是一种词类别,搭配模式是“动词+名词”则是合理的,但是搭配模式为“形容词+动词”就不是合理搭配。
日本专利申请JP11328180提出了一种方法,用于支持使用句子结构框架在目标语言中的句子生成,以及使用与句子结构框架对应的示例句子的句子生成。当输入了充当用户要生成的句子的主要动词的谓语时,句子结构框架检索部分检索句子结构框架,其中谓语可以从句子结构框架数据库存储部分获取,之后对句子结构框架进行列表并显示。当从列表中选出一个句子结构框架的槽以及输入了名词短语时,名词短语分析部分从名词短语提取关键词,从用于分析的语法词典存储部分获取关键词的语义信息,并将其传送到语义信息匹配部分。当来自名词短语分析部分的语义信息与槽的语义限制信息匹配时,编辑控制部分确定槽的名词短语,以及当确定了所有槽的名词短语时,完成目标句子的生成。总而言之,该专利申请中生成的文本是与输入句子具有相同结构的句子。其中采用了语法和基于模板的文本生成方法,因为根据结构信息分析了句子结构并生成了句子,以及采用了基于词分类搭配的习惯用法文本,因为采用了词性搭配信息和词分类语义分配信息。
日本专利申请JP2064859提出一种除了呈现同义功能之外,当文本构成元素用作习惯用法表述的一部分时,呈现用于习惯用法表述的同义表述来有效地重写文本的方法,其中采用了习惯用法表达词典以及同义表达词典来重写日文句子。该专利申请中生成的文本是输入句子的同义表述,因为仅能够改变一些短语的同义表述,所以该专利申请采用了基于模板的文本生成方法,由于使用了习惯用法表述词典和同义表述词典,所以该专利申请采用了基于语义的习惯用法文本检验方法。
论文(Use of statistical N-gram models in natural languagegeneration for machine translation.Fu-Hua Liu,Liang Gu,Yuqing Gao,Picheny,M.IBM T.J.Watson Res.Center,Yorktown Heights,NY,USA.Proceedings of 2003 IEEE International Conference on Acoustics,Speech,and Signal Processing,2003,page I-636-I-639 vol.1)描述了在语音一语音翻译系统中存在的各种语言建模问题。在该论文中,当使用了基于最大熵的统计自然语言生成模型来生成目标语言句子作为翻译输出时,出现了各种词性变化和同义词问题,因为在语义表示中使用了折衷的方案以避免数据稀少问题。该论文使用了N元模型作为后处理步骤来增强生成性能。其中,生成的文本是用于机器翻译目的的句子或短语,由于使用了最大熵和N元模型,采用了基于统计的文本生成方法以及使用了基于语义的习惯用法文本检验方法。
总之,对于文本生成方法,基于语法的方法可以有多种应用,但是语法很难构建且依据语言的不同而不同。基于统计的方法虽然独立于语言,但是生成的文本的质量较低。基于模板的方法适用于有限的情况,例如,生成的文本结构是固定的或者提供了示例文本。基于模板的方法仅能够生成满足固定模板(约束条件)的文本。没有相应的方法来改变或生成模板(约束条件)。
对于习惯用法文本的检验方法,基于语义的方法较为有用,但是语义词典的构建非常昂贵。基于词分类搭配的方法较为粗糙,且需要语言学家将词划分为类并构建搭配词典。不能够准确确定文本是否符合习惯用法。


发明内容
为了解决上述问题,提出了本发明,可以根据约束条件生成文本模板以及可以检验文本是否符合习惯用法,还可以生成符合习惯用法的文本。
根据本发明的第一方面,提出了一种文本模板生成器,包括 槽位置确定单元,用于根据约束条件确定输入的文本中需要被替换的词的位置,作为槽位置;以及 目标替换确定单元,用于根据约束条件确定替换槽位置的对象,从而生成包括对象的文本模板。
根据本发明的第二方面,提出了一种文本模板生成方法,包括 槽位置确定步骤,根据约束条件确定输入的文本中需要被替换的词的位置,作为槽位置; 目标替换确定步骤,根据约束条件确定替换槽位置的对象,从而生成包括对象的文本模板。
根据本发明的第三方面,提出了一种文本生成设备,包括 文本模板生成器,用于根据约束条件使用分析后的文本生成文本模板; 基于词替换的文本生成装置,用于根据文本模板利用与约束条件相关联的词典生成文本。
根据本发明的第四方面,提出了一种文本生成方法,包括 文本模板生成步骤,根据约束条件使用分析后的文本生成文本模板; 基于词替换的文本生成步骤,根据文本模板利用与约束条件相关联的词典生成文本。
根据本发明的第五方面,提出了一种文本检验设备,用于检验文本是否符合习惯用法,包括 词筛选单元,用于从已经分割的文本中选择要检验的词; 词对生成单元,用于生成与要检验的词中的每一个词相关的词对; 词习惯用法强度计算单元,用于根据各个词对的出现次数计算从文本中筛选的要检验的词的词习惯用法强度;以及 文本习惯用法强度计算单元,用于根据词习惯用法强度计算文本的文本习惯用法强度。
根据本发明的第六方面,提出了一种文本检验方法,用于检验文本是否符合习惯用法,包括 词筛选步骤,从已经分割的文本中选择要检验的词; 词对生成步骤,生成与要检验的词中的每一个词相关的词对; 词习惯用法强度计算步骤,根据各个词对的出现次数计算从文本中筛选的要检验的词的词习惯用法强度;以及 文本习惯用法强度计算步骤,根据词习惯用法强度计算文本的文本习惯用法强度。
根据本发明第七方面,提出了一种用于生成习惯用法文本的系统,包括 根据本发明的文本生成设备,用于生成文本;以及 根据本发明的文本检验设备,用于判断生成的文本是否是习惯用法文本;以及 文本选择设备,用于根据判断结果选择习惯用法文本。
根据本发明第八方面,提出了一种用于生成习惯用法文本的方法,其中包括步骤 通过根据本发明的文本生成方法生成文本;以及 通过根据本发明的文本检验方法判断生成的文本是否是习惯用法文本; 根据判断结果选择习惯用法文本。



图1a是示出了根据本发明的利用输入文本和约束条件生成文本的文本生成设备的示意图; 图1b是示出了根据本发明的利用输入文本生成文本习惯用法强度的文本检验设备的示意图; 图1c是示出了根据本发明的利用输入文本和约束条件生成符合习惯用法的习惯用法文本生成系统的示意图; 图2是示出了根据本发明的用于生成习惯用法文本的示例系统的硬件结构图; 图3是示出了根据本发明的文本生成设备的结构图; 图4是示出了根据本发明的文本生成设备的文本分析器的结构图; 图5a是示出了根据本发明的文本生成设备的文本模板生成器的结构图; 图5b示出了根据文本模板生成器生成文本模板的流程图; 图6是示出了根据本发明的文本生成设备的基于词替换的文本生成装置的示意图; 图7是示出了根据本发明的基于词替换的文本生成方法的流程图; 图8是示出了根据本发明的文本检验设备的具体结构图; 图9是示出了根据本发明的文本检验设备检验文本的流程图; 图10是示出了根据本发明的词对搜索单元的示意图; 图11是示出了根据本发明的词对搜索单元执行词对搜索的流程图; 图12示出了本发明的一个应用的示意图; 图13示出了根据本发明另一个应用的示意图。

具体实施例方式 下面,将参考附图描述本发明的优选实施例。在附图中,相同的元件将由相同的参考符号或数字表示。此外,在本发明的下列描述中,将省略对已知功能和配置的具体描述,以避免使本发明的主题不清楚。
图1a示出了根据本发明的利用输入文本生成文本习惯用法强度的文本生成设备的示意图。参考图1a,由根据本发明的文本生成设备110根据输入文本901和文本生成约束条件902来生成满足约束条件的文本904。文本可以是词,短语或句子。
图1b示出了根据本发明的利用输入文本生成文本习惯用法强度的文本检验设备的示意图。参考图1b,由根据本发明的文本检验设备220对输入文本901进行检验,并输出与输入文本对应的文本习惯用法强度905,从而根据习惯用法强度来确定输入的文本是否符合习惯用法。
图1c示出了根据本发明的利用输入文本和约束条件生成符合习惯用法的习惯用法文本生成系统的示意图。参考图1c,文本生成设备110生成满足预定的约束条件的文本904,并提供给文本检验设备220,文本检验设备220对文本生成器110中生成的文本904是否符合习惯用法进行检验;文本选择设备230从文本检验设备220的检验结果中选出符合习惯用法的文本,并输出符合习惯用法的文本。
图2是示出了图1c的用于生成习惯用法文本的系统的硬件结构图。该系统例如可以是运行特定程序的计算机系统。其中09指示了该系统的关键部件。所述系统包括CPU 01,用于对应用程序提供计算功能;内部总线04,所述系统通过内部总线04在内存06和永久存储器07(可以是硬盘和闪存)之间交换数据;输入装置03,例如可以是用于按键输入的键盘或用于语音输入的麦克风等等,用于接受用户输入文本901以及文本生成约束条件902;输出装置(未示出)和辅助组件02。存储器07存储有操作系统文件071,习惯用法文本生成系统文件073,生成的文本904,关系词典52,本地数据库53,本地语料56以及辅助系统工作的其它文件072。所述内存06包括操作系统061,习惯用法文本生成系统063以及其它的应用程序062。所述系统还包括网卡05和因特网搜索引擎55。所述系统通过网卡05与因特网08进行交互,以通过因特网搜索引擎55来搜索网页或者其它网站081。根据图1c,利用该系统可以生成符合习惯用法的文本。
图3示出了根据本发明的文本生成设备的具体结构图。该文本生成设备110包括文本分析器11,用于对输入文本901进行例如分词,加词性标记,语法分析之类的分析;文本模板生成器12,用于基于输入的文本生成约束条件902利用文本分析器11分析的文本和关系词典52生成满足约束条件的文本模板并激活词典133;基于词替换的文本生成装置131,用于利用词典133对文本模板中的预定词进行替换;以及存储生成的文本的存储器134。关系词典52可以包括同义词典,反义词典,Wordnet词典,Hownet词典以及其它的特定词典。词典133可以包括多个词典,例如同义词典,翻译词典等。其中,所述约束条件可以包括要生成的文本的期望数目,要替换的哪种词性的词的有关信息;要生成的哪种文法的有关信息以及要生成哪种文本的有关信息,等等。在本实施例中,可以由基于词替换的文本生成装置131根据输入的文本生成约束条件来激活词典133,而不是由文本模板生成器激活词典133。此外文本生成设备可以不包括存储器134,而是将生成的文本直接输出。
参考图4,示出了文本分析器的一个示例。该文本分析器11包括分词单元111;词性(POS)标记单元112;语义分析单元113以及文法分析单元114。所述文本分析器11是依赖于语言的,对接收的输入文本901进行分析以输出文本分析结果。一般地,所述文本分析器11所包括的分词单元111将输入文本901分成词的序列,POS标记单元112对每个词的词性进行标记。分词结果和词性标记结果可以互相影响。然后,语义分析单元113和文法分析单元114分别对输入的文本执行语义分析和文法分析,并将文本分析结果输出。本发明中,所述的文本分析器11也可以不包括分词单元111,例如,当输入是英文文本时,不需要对其进行分词。所述的文本分析器11也可以只包括语义分析单元113和文法分析单元114两者之一。
下列的表1和表2分别示出了利用文本分析器11对英文例句“Iam very happy to meet you”和中文例句“你可能会偶尔想起他来”的分析结果。

表1

表2 参考图5a,文本模板生成器12包括槽位置确定单元50,目标替换确定单元52,词典激活单元54以及模板知识数据库124。虽然图5a中示出了文本模板生成器12包括词典激活单元54,但是,很明显地,文本模板生成器12也可以不包括词典激活单元54,而是直接输出生成的文本模板。
图5b示出了根据文本模板生成器生成文本模板的流程图。在S511,文本模板生成器12的槽位置确定单元50根据输入的约束条件,确定分析后的输入文本中所需要替换的词的位置,作为槽的位置。其中,每个需要被替换的位置就是一个槽的位置。对槽的位置的确定方法包括下列三种(1)如果输入的约束条件明确了要求替换的词性或词,比如“替换词性动词”,“替换词可能”,就可以根据输入的文本分析结果直接确定输入文本中可以替换的词的位置。(2)如果输入的约束条件明确了要求替换的词类,比如“替换词类运动”,就根据语义词典(关系词典的一种),比如Hownet,确定需要替换的词的位置。(3)如果输入的约束条件没有明确要求替换的词性、词类或者词,比如给出的约束条件是“同义文本”,就根据预先设定好的模版知识数据库124确定允许替换的词性、词类或者词,以此确定槽位置。以上几种约束条件可以组合使用以及本发明的槽的位置的确定方法并不局限于上述三种情况。
在S512,文本模板生成器12的目标替换确定单元52根据输入的约束条件,确定每个槽的目标替换。该槽的目标替换指在步骤S511中确定的槽可以被替换成的词性、词类或者词。如果输入的约束条件明确了目标词性或词,比如“目标词性名词”,“目标词足球”,就可以直接确定该槽的目标替换。如果输入的约束条件明确了目标词类,比如“目标词类休闲”,就根据语义词典,比如Hownet,确定可以被替换的目标词。如果输入的约束条件没有明确的目标,比如“同义文本”,就从预先设定好的模版知识数据库中得到目标词性、词类或者词。之后,在S513,根据输入的约束条件,激活相应的词典。比如,当约束条件是“同义文本”时,就激活同义词典。在S514,输出产生的文本模板。
参考图6,基于词替换的文本生成装置包括输入单元62,用于接收文本模板;槽填充单元64,用于利用词典133对文本模板中的槽的位置进行填充;以及输出单元66,用于输出生成的文本。
下面将结合图7对基于词替换的文本生成装置生成基于词替换的文本的流程进行描述。首先,在S611,输入单元62接收文本模板。在S612,槽填充单元64从激活的词典133中选出符合槽的替换条件的词并填充。在S613,槽填充单元64判断是否还有未填充的槽,如果存在,则执行S612,否则,在S614,由输出单元66输出生成的文本。
下列表3给出了在给出输入文本和约束条件之后,生成模板和激活词典以及最终生成的文本的示例。
表3

图8示出了根据本发明的文本检验设备。该文本检验设备220用于对输入的文本进行校验,计算输入的文本的习惯用法的强度值,从而可以确定输入的文本是否符合表述习惯。文本的习惯用法强度值越大,则表明该文本越符合表述习惯。
该文本检验设备220包括用于接收输入的文本输入单元(未示出);用于对文本进行分割的文本分词器82;用于从分割的文本中选择要检验的词的选词单元84;用于生成与要检验的词中的每一个词相关的词对的词对生成单元86;用于计算词对出现次数的词对搜索单元92;用于计算词的习惯用法强度的词习惯用法强度计算单元88;用于计算文本的习惯用法强度的文本习惯用法强度计算单元90以及用于输出文本的习惯用法强度的输出单元(未示出)。
下面将具体描述该文本检验设备220如何检验输入的文本是否符合习惯用法。参考图9,在S911,输入单元接收输入的文本。在S912,文本分词器82将文本分为多个词。之后,在S913,选词单元84从文本中选出要检验的词。选择的方式可以包括下列之一,但不局限于此1)依次选择每个词;2)仅选择非停止词;3)仅选择预定词。
在S914,词对生成单元86生成与要检验的词相关的词对。利用搜索窗生成相关的词对。假设当前的检验词是Wj,设定搜索窗为(n,m),其表示词Wj前面的n个词和词Wj后面的m个词与词Wj相关。利用搜索窗一共可以搜索到检验词Wj的m+n+2(n和m分别大于1)个相关词对。对于搜索窗为(n,m)(n和m分别等于1),则可以搜索到3个相关词对。宽度为(n,m)的搜索窗,可以包含如下搜索词对当前词;当前词之前的第一个词和当前词组成的字符串;当前词之前的第二个词直至第n个词分别与任意词和当前词组成的字符串;当前词和当前词之后的第一个词组成的字符串;当前词之后的第二个词直至第m个词分别与任意词和当前词组成的字符串;当前词之前第一个词、当前词和当前词之后第一个词组成的字符串。
下列表4示出了搜索出的m+n+2个词对。


表5示出了当给定的输入文本是“A little boy was standing out infront of a store window”时,使用搜索窗(2,2)和搜索窗(1,1)搜索到的检验词“boy”的相关词对。

在生成了词对之后,在S915,在语料中搜索每个词对,并求出词对的出现次数。在S916,根据公式1计算检验词的习惯用法强度Idiomatic(Wj),其中利用公式2将m+n+2个词对对应的出现次数映射到(0,1)上。 公式1 P(Ni)是一个映射函数, 公式2 其中wi是权重,满足是第i个词对的出现次数.如果搜索窗是(1,1),则公式1可以简化为 Idiomatic(W)=0.25×P(N1)+0.25×P(N2)+0.5×P(N3). 下列表6给出了计算词习惯用法强度的示例。
其中,对于不同的输入文本中的检验词“boy”和“eating”,其词习惯用法强度各不相同。
之后,在S917判断是否需要对另一个词进行检验,如果是,则执行S913—S916,否则,执行S918。在S918,当已经对所有要检验的词求出词习惯用法强度之后,根据公式3—5之一来计算文本的习惯用法强度。
(公式3) 其中,文本习惯用法强度由所检验的词中具有最小习惯用法的词的强度决定。
(公式4),其中qi是权重,满足qi可以由Wi的用法决定,比如词性等; (公式5) 虽然词对计算单元仅搜索本地数据库来查找词对并获得每个词对的出现次数的过程会非常快速,但是如果希望获得大量的词对以及准确的词对出现次数,可以搜索因特网以及搜索本地的语料来获得有关词对的出现次数。在S919,输出生成的文本习惯用法强度,从而决定文本是否符合习惯用法。
图10是词对搜索单元的一个示例。该词对搜索单元包括执行本地搜索的本地搜索单元101;本地数据库102;判断单元103;语料搜索单元104;搜索因特网08的因特网搜索引擎55;以及搜索本地语料108的本地搜索引擎106。
参考图11,在S1111,在词对搜索单元接收到与要检验的词相关的词对之后,本地搜索单元101搜索本地数据库102,以搜索词对出现次数。在S1112,如果找到了相关词对的出现次数,则执行S1115。如果判断单元103判断出本地数据库102中并没有找到相关的词对,则在S1113,利用语料搜索单元104执行进一步的搜索。语料搜索单元104使用因特网搜索引擎55和本地搜索引擎106来分别搜索因特网08和本地语料108中的至少一个,从而获得词对的出现次数。在S1114,在获得词对的出现次数之后,将其写入本地数据库102。在S1115,输出该词对出现次数。
图12是本发明的一个应用的示意图。本发明可以应用于自动短消息分类器系统。该系统包括两个阶段训练阶段和分类阶段。
在训练阶段,每个短消息(short message,简称SM)被手工标签。标签可以包括个人、紧急、垃圾邮件等等。由于手工标签较昂贵且费时,采用本发明的习惯用法文本生成设备生成符合习惯用法的短消息。每次,将加标签的短消息发送到文本生成设备并将生成的约束条件信息设置为同义,那么所有生成的短消息将与输入的短消息具有相同的标签。手工的加标签的短消息和生成的短消息用来训练短消息分类器。训练的数据越多,分类器的性能越好。
图13是本发明的另一个应用的示意图。该系统采用了本发明的习惯用法文本生成设备用于增强文本搜索引擎。首先,将查询串和查询串的扩展方式(即,约束条件)发送到习惯用法文本生成设备,以生成多个扩展的查询串。将原始的查询串和扩展的查询串发送到搜索引擎来搜索相关的文本。虽然以中英文为例,对本发明进行了说明,但是,很明显地,本发明可以应用于其它的语言的文本生成以及检验。
尽管已经参照具体实施例,对本发明进行了描述,但本发明不应当由这些实施例来限定,而应当仅由所附权利要求来限定。应当清楚,在不偏离本发明的范围和精神的前提下,本领域普通技术人员可以对实施例进行改变或修改。
权利要求
1.一种文本模板生成器,包括
槽位置确定单元,用于根据约束条件确定输入的文本中需要被替换的词的位置,作为槽位置;以及
目标替换确定单元,用于根据约束条件确定替换槽位置的对象,从而生成包括对象的文本模板。
2.一种文本模板生成方法,包括
槽位置确定步骤,根据约束条件确定输入的文本中需要被替换的词的位置,作为槽位置;
目标替换确定步骤,根据约束条件确定替换槽位置的对象,从而生成包括对象的文本模板。
3.一种文本生成设备,包括
文本模板生成器,用于根据约束条件使用分析后的文本生成文本模板;
基于词替换的文本生成装置,用于根据文本模板利用与约束条件相关联的词典生成文本。
4.如权利要求3所述的设备,其中所述分析后的文本是由文本分析器分析的。
5.如权利要求4所述的设备,其中文本分析器包括
词性POS标记单元,用于对文本中的词的词性POS进行标记;
语义分析单元,用于对标记后的词的语义进行分析。
6.如权利要求4所述的设备,其中文本分析器包括
词性POS标记单元,用于对文本中的词的词性POS进行标记;
文法分析单元,用于分析标记后的文本的文法。
7.如权利要求4所述的设备,其中文本分析器包括
词性POS标记单元,用于对文本中的词的词性POS进行标记;
语义分析单元,用于对标记后的词的语义进行分析;以及
文法分析单元,用于对语义分析单元输出的文本的文法进行分析。
8.如权利要求5至7之一所述的设备,其中文本分析器还包括
分词单元,用于将输入的文本分割为词。
9.如权利要求3所述的设备,其中文本模板生成器包括
槽位置确定单元,用于根据约束条件确定输入的文本中需要被替换的词的位置,作为槽位置;以及
目标替换确定单元,用于根据约束条件确定替换槽位置的对象,从而生成包括对象的文本模板。
10.如权利要求9所述的设备,其中当约束条件限定了要被替换的词性POS或词时,槽位置确定单元使用分析后的文本确定槽位置。
11.如权利要求9所述的设备,其中当约束条件限定了要替换的词的类别时,槽位置确定单元和目标替换确定单元分别通过使用文法词典确定槽位置以及可以替换槽位置的词。
12.如权利要求9所述的设备,其中当约束条件限定了要被替换的文本的特征时,槽位置确定单元和目标替换确定单元分别确定槽位置和可以用于替换槽位置的词,词性POS或词类别。
13.如权利要求3所述的设备,其中基于词替换的文本生成装置从词典中选择作为替换对象的词并填充词位置,从而生成填充后的文本。
14.一种文本生成方法,包括
文本模板生成步骤,根据约束条件使用分析后的文本生成文本模板;
基于词替换的文本生成步骤,根据文本模板利用与约束条件相关联的词典生成文本。
15.如权利要求14所述的方法,其中所述方法还包括文本分析步骤,分析输入的文本。
16.如权利要求15所述的方法,其中文本分析步骤包括
词性POS标记步骤,对文本中的词的词性POS进行标记;
语义分析步骤,对标记后的词的语义进行分析。
17.如权利要求15所述的方法,其中文本分析步骤包括
词性POS标记步骤,对文本中的词的词性POS进行标记;
文法分析步骤,分析标记后的文本的文法。
18.如权利要求15所述的方法,其中文本分析步骤包括
词性POS标记步骤,对文本中的词的词性POS进行标记;
语义分析步骤,对标记后的词的语义进行分析;以及
文法分析步骤,对语义分析步骤获得的文本的文法进行分析。
19.如权利要求16至18之一所述的方法,其中文本分析步骤还包括
分词步骤,将输入的文本分割为词。
20.如权利要求14所述的方法,其中文本模板生成步骤包括
槽位置确定步骤,根据约束条件确定输入的文本中需要被替换的词的位置,作为槽位置;以及
目标替换确定步骤,根据约束条件确定替换槽位置的对象,从而生成包括对象的文本模板。
21.如权利要求20所述的方法,其中当约束条件限定了要被替换的词性POS或词时,槽位置确定步骤包括使用分析后的文本确定槽位置的步骤。
22.如权利要求20所述的方法,其中当约束条件限定了要替换的词的类别时,槽位置确定步骤包括通过使用文法词典确定槽位置的步骤,以及目标替换确定步骤包括以及通过使用文法词典确定可以替换槽位置的词的步骤。
23.如权利要求20所述的方法,其中当约束条件限定了要被替换的文本的特征时,槽位置确定步骤包括确定槽位置的步骤,以及目标替换确定步骤包括确定可以用于替换槽位置的词,词性POS或词类别的步骤。
24.如权利要求14所述的方法,其中基于词替换的文本生成步骤包括从词典中选择作为替换对象的词并填充词位置,从而生成填充后的文本的步骤。
25.一种文本检验设备,用于检验文本是否符合习惯用法,包括
词筛选单元,用于从已经分割的文本中选择要检验的词;
词对生成单元,用于生成与要检验的词中的每一个词相关的词对;
词习惯用法强度计算单元,用于根据各个词对的出现次数计算从文本中筛选的要检验的词的词习惯用法强度;以及
文本习惯用法强度计算单元,用于根据词习惯用法强度计算文本的文本习惯用法强度。
26.如权利要求25所述的设备,其中
词筛选单元根据下列方式之一选择要检验的词顺序地选择每一个词,选择非停止词以及选择预定词。
27.如权利要求25所述的设备,其中
词对搜索单元利用搜索窗搜索与要检验的词相关的每个词对的出现次数,其中搜索窗是(m,n),表示要检验的词之前的m个词以及要检验的词之后的n个词与要检验的词有关。
28.如权利要求25所述的设备,其中
词对搜索单元利用搜索窗可以搜索到m+n+2个词对。
29.如权利要求25所述的设备,其中词对搜索单元包括
本地搜索单元,用于搜索本地数据库,以获得词对出现次数;以及
语料搜索单元,用于在本地数据库中没有搜索到词对的出现次数时,搜索因特网和本地语料中至少一个,以获得词对出现次数,并添加到本地数据库中。
30.如权利要求25所述的设备,其中
词习惯用法强度计算单元利用第一预定权重以及将各个词对的出现次数映射到(0,1)区间上的值来计算各个词的词习惯用法强度。
31.如权利要求25所述的设备,其中
文本习惯用法强度计算单元将要检验的词的词习惯用法强度中最小的词习惯用法强度作为文本的习惯用法强度。
32.如权利要求25所述的设备,其中
文本习惯用法强度计算单元用于根据第二预定权重和词习惯用法强度来计算文本习惯用法强度。
33.如权利要求25所述的设备,其中
文本习惯用法强度计算单元用于根据词习惯用法强度来计算文本习惯用法强度。
34.一种文本检验方法,用于检验文本是否符合习惯用法,包括
词筛选步骤,从已经分割的文本中选择要检验的词;
词对生成步骤,生成与要检验的词中的每一个词相关的词对;
词习惯用法强度计算步骤,根据各个词对的出现次数计算从文本中筛选的要检验的词的词习惯用法强度;以及
文本习惯用法强度计算步骤,根据词习惯用法强度计算文本的文本习惯用法强度。
35.如权利要求34所述的方法,其中
词筛选步骤包括根据下列方式之一选择要检验的词的步骤顺序地选择每一个词,选择非停止词以及选择预定词。
36.如权利要求34所述的方法,其中
词对搜索步骤包括利用搜索窗搜索与要检验的词相关的每个词对的出现次数的步骤,其中搜索窗是(m,n),表示要检验(统一为要检验)的词之前的m个词以及要检验的词之后的n个词与要检验的词有关。
37.如权利要求36所述的方法,其中
词对搜索步骤利用搜索窗可以搜索到m+n+2个词对。
38.如权利要求34所述的方法,其中词对搜索步骤包括
本地搜索步骤,搜索本地数据库,以获得词对出现次数;以及
语料搜索步骤,在本地数据库中没有搜索到词对的出现次数时,搜索因特网和本地语料中至少一个,以获得词对出现次数,并添加到本地数据库中。
39.如权利要求34所述的方法,其中
词习惯用法强度计算步骤包括利用第一预定权重以及将各个词对的出现次数映射到(0,1)区间上的值来计算各个词的词习惯用法强度的步骤。
40.如权利要求34所述的方法,其中
文本习惯用法强度计算步骤包括将要检验的词的词习惯用法强度中最小的词习惯用法强度作为文本的习惯用法强度的步骤。
41.如权利要求34所述的方法,其中
文本习惯用法强度计算步骤包括根据第二预定权重和词习惯用法强度来计算文本习惯用法强度的步骤。
42.如权利要求34所述的方法,其中
文本习惯用法强度计算步骤包括根据词习惯用法强度来计算文本习惯用法强度的步骤。
43.一种用于生成习惯用法文本的系统,包括
如权利要求3的文本生成设备,用于生成文本;以及
如权利要求25的文本检验设备,用于判断生成的文本是否是习惯用法文本;以及
文本选择设备,用于根据判断结果选择习惯用法文本。
44.一种用于生成习惯用法文本的方法,其中包括步骤
通过使用如权利要求14的文本生成方法生成文本;以及
通过使用如权利要求34所述的文本检验方法判断生成的文本是否是习惯用法文本;
根据判断结果选择习惯用法文本。
全文摘要
本发明涉及一种文本模板生成器、文本生成设备、文本检验设备及其方法,其中该文本模板生成器包括槽位置确定单元,用于根据约束条件确定输入的文本中需要被替换的词的位置,作为槽位置;以及目标替换确定单元,用于根据约束条件确定替换槽位置的对象,从而生成包括对象的文本模板。由此可以根据不同的约束条件生成符合要求的模板。以及提供了一种文本生成设备及其方法、一种用于检验文本是否符合习惯用法的文本检验设备及其方法,以及提供了一种用于生成习惯用法文本的系统及其方法,从而可以确定输入的文本是否符合习惯用法,并输出符合习惯用法的文本。
文档编号G06F17/27GK101470700SQ20071030662
公开日2009年7月1日 申请日期2007年12月28日 优先权日2007年12月28日
发明者靳简明, 吴根清, 许荔秦 申请人:日电(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1