一种语言文本的处理装置及语言学习装置的制作方法

文档序号:6578822阅读:134来源:国知局
专利名称:一种语言文本的处理装置及语言学习装置的制作方法
技术领域
本发明涉及不同语种及方言的文本处理技术,特别是涉及一种语言文本的处理装 置及语言学习装置。
背景技术
目前,通过电子词典、PDA(个人数字助理)或语言学习机等电子装置可以进行语 言的学习。这些电子装置可以从扬声器中输出句子及词语的正确发音,同时每一个句子的 结构也可以通过显示屏显示出来。通过这种方式,用户就可以得到每一个句子的正确发音 以及句子中的语法结构等有用的信息。在实际应用中,各种方言或语种中存在着很多独具特色的词语。虽然通过电子词 典这样的装置可以获得正确的读音,但是却因为没有上下文环境的配合而很难给用户带来 非常深刻的记忆。除此之外,还存在着某些众不同的特殊语法,这些语法及其特殊,更使学 习者无法理解。在这种情况下,用户希望能够根据方言的字词或语法这两个特别方面得到 提醒。除此之外,由于在很多语言中大量存在着“一个意思可以有多种说法”的现象。并 且此时用词,语法有可能完全不一样。在这种情况下需要给用户必要的分析与解释。基于上述背景,一种现有文本处理技术“便携式即时方言互译装置及其方法 (CN1645363) ”,其通过一个方言文法转换表来实现一种方言到另一种方言的转换。在这个 技术中,没有对方言中的特殊词汇做处理,并且对方言文法转换的过程中采用完全匹配的 方式,也就是说两者之间一定要完全一致才认为匹配成功。但是语言的方式是多种多样,在 实际使用中不可能只有一种表达方式。另一种现有文本处理技术,“在方言语音合成系统中进行文本方言化处理的方法 (CN1815551) ”,其通过概率训练的方式来实现一种方言到另一种方言的转换。在该技术中, 没有对方言中特有的字词和语法进行比较分析,仅仅提出了一个转换方案。没有对“一个意 思可以有多种说法”的现象进行处理。

发明内容
本发明实施例的目的是提供一种语言文本的处理装置及语言学习装置,能够对不 同方言或语种中的特有字词和语法进行比较分析,能够减少目前方言学习中的字词和语法 问题。为了实现上述目的,一方面,提供了一种语言文本的处理装置,包括存储单元,用于存储语言的字词对应信息和语法对应信息;接收单元,用于接收用户的输入文本;字词处理单元,用于根据所述字词对应信息对所述输入文本中的字词进行处理, 得到初步字词处理结果;语法处理单元,用于根据所述语法对应信息对所述输入文本中的语法结构进行处理,得到初步语法处理结果;融合反馈单元,用于对所述初步字词处理结果和所述初步语法处理结果进行融合 处理,得到并输出最终处理结果。优选地,上述的处理装置中,所述字词对应信息包括不同语种之间的字词对应关 系和/或不同方言之间的字词对应关系;所述语法对应信息包括不同语种之间的语法对应关系和/或不同方言之间的语 法对应关系。优选地,上述的处理装置中,所述字词处理单元具体包括分词和对齐模块,用于从所述输入文本中分出最小的独立词并确定对应位置;字词分析模块,根据所述字词对应信息确定所述独立词的对应字词,根据共现概 率确定所述对应字词是否合适,并将合适的对应字词作为所述初步字词处理结果。优选地,上述的处理装置中,所述语法处理单元具体包括预处理模块,用于确定所述输入文本的当前语法结构;语法分析模块,用于根据所述语法对应信息和共现概率确定所述当前语法结构的 对应语法结构,将所述对应语法结构作为所述初步语法处理结果。优选地,上述的处理装置中,所述融合反馈单元具体包括冲突分析单元,用于对所述初步字词处理结果和所述初步语法处理结果进行冲突 分析,将没有冲突的初步字词处理结果和初步语法处理结果合并后作为所述最终处理结果 并进行输出;迭代单元,用于将有冲突的初步字词处理结果和初步语法处理结果进行合并得到 合并文本,并将所述合并文本作为输入文本返回给所述字词处理单元和/或所述语法处理 单元,获得新的初步字词处理结果和/或新的初步语法处理结果并发送给所述冲突分析单兀。本发明的另一个方面,提供一种语言学习装置,包括存储单元,用于预先存储作为翻译学习对象的对象文本和所述对象文本对应的翻 译答案文本;输出单元,用于显示所述对象文本;输入单元,用于接收用户输入的针对所述对象文本的翻译文本;以及,分析判断单元,用于将所述翻译答案文本与所述输入单元获取的翻译文本进行比 较,获得用于指示所述翻译文本的正确程度的比较结果。优选地,上述的语言学习装置中,所述分析判断单元包括字词处理单元和语法处 理单元;所述字词处理单元,用于,根据所述翻译答案文本确定所述翻译文本中的错译字 词;所述语法处理单元,用于,根据所述翻译答案文本确定所述翻译文本中的错译语 法。优选地,上述的语言学习装置中,所述分析判断单元还包括融合反馈单元,用于, 将所述错译字词对应的正确字词,以及所述错译语法对应的正确语法带入所述翻译文本,获 得新的翻译文本,并将所述新的翻译文本发送给所述字词处理单元和所述语法处理单元。
优选地,上述的语言学习装置中,所述字词处理单元,还用于,根据所述翻译答案 文本,确定所述翻译文本中的具有更适合字词的独立词;所述语法处理单元,还用于,根据所述翻译答案文本,确定所述翻译文本中的具有 更适合语法的当前语法。优选地,上述的语言学习装置中,还包括输出单元,用于将所述错译字词及对 应的正确字词、所述错译语法及对应的正确语法、所述独立词及对应的更适合字词,以及所 述当前语法及对应的更适合语法作为所述正确程度的比较结果进行输出。优选地,上述的语言学习装置中,所述输出单元通过屏幕显示方式或通过语音方 式进行输出。优选地,上述的语言学习装置中,所述更适合字词为在所述独立词的对应字词中 平方和权重大于所述独立词的字词;所述更适合语法为在所述当前语法的对应语法中平方和权重大于所述当前语法 的语法。本发明实施例至少存在以下技术效果1)本发明提供了一种能分析和纠正方言中错误的装置和方法,其基于接收的文本 向用户提供所接收的文本中的字词和语法信息的分析判断结果,能够减少目前方言学习中 的字词和语法问题,2)本发明通过一套字词和语法分析比较装置,自动判断输入句子中的字词和语法 是否符合目标方言(或目标语种),如不符合给出正确提示,,并且本发明还通过融合反馈 处理得到字词和语法的最佳适应结果,不但能提示错误字词,还能够根据权重提供更适合 的字词和语法,能够对“一个意思可以有多种说法”的现象进行处理。


图1为本发明的语言文本的处理装置的一个实施例的结构图;图2为本发明进行语言文本处理的实施例的流程图;图3为本发明字词处理单元102的处理流程图;图4为本发明语法处理单元103的处理流程图;图5为本发明融合反馈单元104的处理流程图;图6a为本发明存储单元201中任意一种方言的组成图;图6b表示任意一种方言的字典信息表样例的数据结构图;图6cl_图6c6表示汉语和英语的语法树示意图以及相关符号表的结构图;图6dl-图6d2分别表示粤语和英语的特殊字词信息表的结构图;图6el_图6e2分别表示粤语和英语的特殊语法信息表的结构图;图6fl-图6f2分别表示粤语和英语的特殊字词关键字信息表的结构图;图6gl_图6g 2分别表示粤语和英语的特殊语法关键字信息表的结构图;图7表示在普通话到粤语实例应用中的翻译练习的场景流程图。
具体实施例方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对具体实施例进行详细描述。本发明的语言文本的处理装置,包括存储单元,用于存储语言的字词对应信息和语法对应信息;接收单元,用于接收用户的输入文本;字词处理单元,用于根据所述字词对应信息对所述输入文本中的字词进行处理, 得到初步字词处理结果;语法处理单元,用于根据所述语法对应信息对所述输入文本中的语法结构进行处 理,得到初步语法处理结果;融合反馈单元,用于对所述初步字词处理结果和所述初步语法处理结果进行融合 处理,得到并输出最终处理结果。其中,所述融合反馈单元具体包括冲突分析单元,用于对所述初步字词处理结果 和所述初步语法处理结果进行冲突分析,将没有冲突的初步字词处理结果和初步语法处理 结果合并后作为所述最终处理结果并进行输出;迭代单元,用于将有冲突的初步字词处理 结果和初步语法处理结果进行合并得到合并文本,并将所述合并文本作为输入文本返回给 所述字词处理单元和/或所述语法处理单元,获得新的初步字词处理结果和/或新的初步 语法处理结果并发送给所述冲突分析单元。图1为本发明的语言文本的处理装置的一个实施例的结构图,如图所示,整个处 理装置有三部分组成一个是核心处理单元101,进行方言信息的处理;第二是存储单元201,主要储存的是方言在字词和语法方面的相关信息;第三是交互单元301,可以通过输入单元得到数据,可以通过输出单元输出数据。其中,核心处理单元最为重要,用于进行字词和语法分析,产生各种提示信息。核 心处理单元又细分为三个部分字词处理单元102,主要进行各种特殊字词提示信息的最 优选择;语法处理单元103,主要进行各种特殊语法结构提示信息的最优选择;融合反馈单 元104,把字词处理单元和语法处理的分析结果进行融合,在两者有冲突时进行迭代反馈。图2为本发明进行语言文本处理的实施例的流程图,如图所示,包括步骤21,用户首先输入自己给出的方言文本;步骤22,根据本发明的算法进行字词分析和语法分析,并进行融合反馈,得到最终 的分析判断结果作为最优结果,还对其中的特殊字词和语法进行提示;步骤23,返回给用户最优结果。图3是字词处理单元102的内部处理流程图;字词处理单元102根据用户输入文 本中的特殊字词进行分析判断,并且找到最优的特殊字词。其过程如下首先,对用户输入的方言文本进行预处理,即调用外部字词处理系统,主要进行两 方面的处理,分词和词对齐。分词就是找出输入文本中的最小分析单元,词对齐就是把输入 文本中的词和原始文件中的词一一对齐。这两个功能处理都有比较成熟的实现。然后,再根据存储单元201中的特殊字词信息表在输入文本寻找是否具体特殊字 词或者说是否应该具有特殊字词并进行选择判断,要注意的是根据不同应用可以按需要 设置特殊字词,并不一定要分析特殊字词表里的所有信息。然后分两步一,是在输入文本 中寻找特殊字词,找不到进入下一步,找到的话看这个特殊字词用在这里是否合适。判断合适的方法是根据这个特殊字词所在句子里的其他字词作为关键词,计算共现概率来衡量 (本文中“共现概率”所指的是两个物体在某种情况下同时出现的概率,也叫“同现概率”)。 二,是在输入文本中寻找是否可以用特殊字词代替的字词,找不到进入下一步,找到分析使 用哪个特殊字词比较合适。判断合适的方法是根据这个特殊字词所在句子里的其他字词作 为关键词,计算共现概率来衡量。具体计算方法和过程在关键字计算样例中说明。最后,根据字词分析,给出分析结果提示。图4是语法处理单元103的内部流程图,即根据用户输入文本中的特殊语法进行 分析判断,并且找到最优的语法结构。其过程如下首先,对用户输入的方言文本进行预处理,即调用外部语法处理系统,就是找出当 前输入文本的语法结构。这个功能有比较成熟的实现。要注意的是根据不同应用可以按 需要设置特殊语法结构,并不一定要分析语法结构表里的所有信息。然后,再根据存储单元201中的特殊语法信息表在输入文本寻找是否具体特殊语 法或者说是否应该具有特殊语法并进行选择判断。这里分三步一,是根据存储单元201中 的方言语法信息表判断输入文本是否符合目标方言的语法结构,是的话,进入下一步,不是 的话根据这个特殊语法所在句子里的其他字词作为关键词,计算共现概率来衡量,看是否 能找到相似的语法结构,找不到返回正确结果,找到则进入下一步。二,是在输入文本中寻 找特殊语法,找不到进入下一步,找到的话看这个特殊语法用在这里是否合适。判断合适 的方法是根据这个特殊语法所在句子里的其他字词作为关键词,计算共现概率来衡量。具 体计算方法和过程在关键字计算样例中说明。二,是在输入文本中寻找是否可以用特殊语 法代替的语法结构,找不到进入下一步,找到分析使用哪个特殊语法比较合适。判断是否合 适的方法是根据这个特殊语法所在句子里的其他字词作为关键词,通过计算共现概率来衡 量。最后,根据字词分析,给出分析结果提示。图5是融合反馈单元104的内部流程图,即根据用户输入文本中的特殊字词和语 法分析结果进行融合,并在需要的时候进行迭代反馈,最后返回融合结果。其过程如下首先,对字词分析结果和语法分析结果进行冲突分析。无冲突的话,把两者结果结 合输出,有冲突的话进入下一步。然后,依据冲突方,对另一方进行再次迭代,再进行冲突分析。直到冲突结束或者 无法解决。例如,语法分析的结果,导致字词分析中的结果不正确,那么依据语法分析的结 果,再次进行字词分析。然后再进行冲突分析,如果冲突存在,证明此路不通。如果不存在, 则认为可行。最后在所有可行的方案中,根据这个所在句子里的其他字词作为关键词,计算 共现概率来衡量。具体计算方法和过程在关键字计算样例中说明。最后,根据最终融合结果,给出分析结果提示。图6a表示类存储单元201中存储的任意一种方言(或语种)的信息表数据组成 图。对于系统中任意一种方言,都需要有六种信息表数据。其中字典和语法字典属于公共 资料,可以从外部获得。然后特殊字词,特殊语法表,以及特殊字词关键字列表和特殊语法 关键字列表可以通过公开语料库训练得到。对于中文来说,字典,语法字典,公开语料库都 可以从北京大学计算语言学研究所资源和《国家语委语料库》中获得。图6b表示类存储单元201中任意一种方言的字典信息表样例的数据结构图;(用中文举例,中文字典信息表说明请查阅北京大学计算语言学研究所所著《现代汉语语法信 息词典规格说明书》)。对于中文来说字典信息大致包含词语,词性和拼音。图6cl-6c6表示类存储单元201中汉语和英语的语法树信息样例(中文语法信 息表说明请查阅教育部语言文字应用研究所计算语言学研究室著《国家语委语料库》,英语 语法信息参考The Penn Treebank Project) 0 一般来说在汉语语法结构中至少包含成分 标记和关系标记。例如图6cl中DJ就是成分标记,表示单句句型,完整的成分标记表有图 6c2表示;BH就是关系标记,表示标号结构完整的关系标记表有图6c3表示。在英语Perm Treebank语法结构中至少包含语法标记和功能标记。例如图6c4中NP,S,VP等就是语法 标记,其中NP表示名词短语,完整的语法标记表有图6c5表示;SBJ就是功能标记,含义是 表面主语,所有功能标记有图6c6表示。图6d表示类存储单元201中任意一种方言的特殊字词信息样例(这里用6dl粤 语和6d2英语举例)。特殊字词存在一一映射关系和一对多关系。例如粤语中“呢”表示 “这”,“唔”表示“不”就是一对一映射关系。而一对多关系,在原始方言和目标方言相差很 大时出现比较多。例如英语和汉语中,例如“Wisdom”至少表示“智慧”和“学识”两种意思。 一般来说对于特殊字词信息,至少包含字词项目的发音,词性,映射字词等信息。图6d的制作是基于具有相同含义的某种方言X和另一种方言Y语料库之上。分 别对两个语料库进行分词(可以使用《国家语委语料库》提供的相关分词工具),然后进行 词对齐之后就可以得到相应的映射词。词对齐技术已经有相关的实现例如邓丹,刘群,俞 鸿魁等人所著《基于双语词典的汉英词语对齐算法研究》中所提及的方法。图6e表示类存储单元201中任意一种方言的特殊语法信息样例(这里用6el粤 语和6e2英语举例)。特殊语法也存在一一映射关系和一对多关系。例如英语语中定词后 置结构和汉语中的动宾结构就是一种一一对应关系,而普通话和粤语中的动词副词结构倒 置现象就是一对多的关系,例如粤语中副词可以放在动词后,也可以放在动词前,而普通话 中则只能方在动词前面。一般在特殊语法信息表中至少包含语法结构信息,映射结构信息 等。值得注意的是,表中语法特征指目标语言中存在的语法特征,例如图6el中的语法特征 是粤语的语法特征,图6e2中的语法特征是英语的语法特征。而语法特征的提取可以由语 法信息库获得,其具体含义由图6c表示。图6e的制作是基于具有相同含义的某种方言X和另一种方言Y语料库之上。分别 对两个语料库进行句法分析(可以使用《国家语委语料库》提供的相关句法分析工具),然 后进行句子对齐之后就可以得到相应的映射结果。句子对齐技术已经有相关的实现例如 张艳,柏R秀纪等人所著《基于长度的扩展方法的汉英句子对齐》中所提及的方法。图6f表示类存储单元201中任意一种方言的特殊字词关键字信息样例(这里用 图6fl粤语和图6f2英语举例)。根据公开的语料库可以计算出特殊字词的所有可能关键 字的频率,因此一般在特殊字词关键字信息表中,至少包含特殊字词信息,当前特殊字词对 应的关键字列表,每个关键字的频率以及每个关键字距离特殊字词的距离列表。距离列表 的格式是逗号隔开每个关键字列表,冒号表示每种距离的可能性。例如图6fl中的特殊字 词“细蚊仔”,有两个关键字,因此关键字距离列表形如“-2:2,-2:2”。第一个-2:2表示“顽 皮”的距离列表,-2表示在特殊字词“细蚊仔”左边第二个词,2表示在特殊字词“细蚊仔” 右边第二个词。
图6f的制作是基于某种方言X语料库之上。根据相应的特殊字词,计算所有关键 字和特殊字词的共现概率和距离而得到。图6g表示类存储单元201中任意一种方言的特殊语法关键字信息样例(这里用 图6gl粤语和图6g2英语举例)。根据公开的语料库可以计算出特殊语法的所有可能关 键字的频率,因此一般在特殊语法关键字信息表中,至少包含特殊语法信息,语法特征,当 前特殊语法对应的关键字列表,每个关键字的频率以及每个关键字距离特殊字词的距离列 表。距离列表的格式是逗号隔开每个关键字列表,冒号表示每种距离的可能性。其中对 应特征指用于计算关键字距离的起始点,定义为特殊语法结构的第一个部分的。例如not only. . . but also有两个部分,第一部分是not only。对于“the same as”本身只有一个 部分,因此就是自己。图6g的制作是基于某种方言X语料库之上。根据相应的特殊语法,计算所有关键 字和特殊语法的共现概率和距离而得到。具体实施形式的一个样例1。为了更清晰的描述整个过程,这里用学习机中的普通话到粤语的翻译练习的场景 为例。这个场景的流程如图7所示。首先假设此时学习机给出“他是一个顽皮的小孩”这 个句子让学习者翻译,而此时学习者给出以下翻译结果“佢是一个顽皮嘅细路仔”。然后学 习机接受到这个翻译之后,调用本发明装置开始对字词和语法开始分析判断。根据图2,字词分析和语法分析同时做。这里先看左分支特殊字词分析。在这部 分,又分成两部分一是输入中有字应该使用特殊字词而没有使用的情况,此时分析对象为 用户输入文本“佢是一个顽皮嘅细路仔”。本例中“是”应该用“喺”代替,并且根据图6dl 这是一个一一对应关系,因此不需要分析关键字;二是输入中有哪些特殊字词,此时分析对 象是学习机给出的文本“他是一个顽皮的小孩”。本例中,根据图6dl,使用了 3个特殊字 词,一个是“佢”,这个字与“他”是一一对应关系,因此没有错误。第二个是“是”,这个字于 “喺”是一一对应关系。第三个特殊词是“细路仔”,这个词与“小孩”是多对一对应关系。因 此需要根据关键字判断。这里关键字是指句子除了“细路仔”之外的其它词,对于本句来说 有“他,是,一个,顽皮,的”。根据图6fl,在确定关键词距离得基础上以本句的关键字列表 为原点对“细路仔”和“细蚊仔”两个字的关键字列表求平方和作为权重,得到“细路仔” 0 和“细蚊仔” :0. 04。这里比较权重大小,大的则认为比较合适,因此这里“细蚊仔”比“细路 仔”合适。比较一和二的结果,得出字词分析中的总结果,一是本句的用户翻译有一个错误 “是”应该用“喺”代替。二是建议,本例中“细蚊仔”比“细路仔”更合适。根据结果一,结 果二和图6gl,更改的内容没有影响到语法分析,左分支结束。然后右分支特殊语法分析。这部分也分成两部分。一是输入文本有没有使用方言 的特殊语法,本例中就是输入文本中有没有使用粤语的特殊语法,此时分析对象为用户输 入文本“佢是一个顽皮嘅细路仔”。对比图6el “特殊语法”列和本句,发现没有特殊语法被 使用。二是看有没有特殊语法应该使用到本例的文本中。此时分析对象是学习机给出的文 本“他是一个顽皮的小孩”。根据图6el中特殊语法表的“映射结构”列,发现符合相应语法 特征的语法结构“A+是+B”。此时根据相应的特殊语法“A+喺+B+嚟架”是一对一映射,因 此不用进行关键字分析。因此,语法分析的结果是应该使用特殊语法“A+喺+B+嚟架”代 替 “A+是+B”。
当同时做完左右分支后,就是融合反馈的过程。根据字词分析的结果和语法分析 结果,“是”应该用“喺”代替和应该使用特殊语法“A+喺+B+嚟架”代替“A+是+B”没有冲 突,并且互补。而两者结果都不会再次影响对方的结果。因此融合反馈完成,直接可以退出 融合反馈单元。最后本发明装置返回最后的结果.结论有二 一是本句的用户翻译有二个错误 “是”应该用“喺”代替,并应使用特殊语法“A+喺+B+嚟架”。二是建议,本例中“细蚊仔”比 “细路仔”更合适。于是学习机将这个结果反馈给学习者,使学习者在方言的字词使用和语法使用方 面有更好的理解。具体实施形式的一个样例2。为了更清晰的描述跨语言支持的可能性,这里再用学习机中的普通话到英语的 翻译练习的场景为例。这个场景的流程如图7所示。首先假设此时学习机给出“我和重 视知识一样重视智慧”这个句子让学习者翻译,而此时学习者给出以下翻译结果“I pay attention to wisdom and knowledge”。然后学习机接受到这个翻译之后,调用本发明装 置开始对字词和语法开始分析判断。根据图2,字词分析和语法分析同时做。这里先看左分支特殊字词分析。在这部 分,又分成两部分一是输入中有字应该使用特殊字词,此时分析对象为用户输入文本“我和重视知 识一样重视智慧”。并且根据图6d2“映射词”列判断本句中特殊字词为“重视”和“智慧”。根 据图6d2本例中“智慧”和“wisdom”是一一对应关系,因此不需要分析关键字。比对发现用 户翻译结果正确。同时“重视”不是一一对应关系,因此需要分析关键字。这里关键字是指句 子除了“pay attention to”之外的其它词,对于本句来说有“I,wisdom,knowledge”。根据 图6f2,在确定关键词距离得基础上以本句的关键字列表为原点对“pay attention to”和 “value”两个字的关键字列表求平方和作为权重,得到“pay attention to”:0和“value”: 0.04。这里比较权重大小,大的则认为比较合适,因此这里“value”比“Pay attention to” 更合适。二是输入中有哪些特殊字词。此时分析对象为用户输入文本“I pay attention to wisdom and knowledge”。本例中,根据图6d_2 “特殊字词”列,本句使用了 2个特殊 字词,其中“pay attention to”,这个词与“重视”是一一对应关系,因此没有错误。另外 "wisdom"和“智慧”也是一一对应关系,因此没有错误。因此在字词分析中,结果一用户翻译没有错误。结果二建议“Pay attention to” 在本句翻译中并没有错误,但是“value”比“pay attention to”更合适。左分支结束。然后右分支特殊语法分析。这部分也分成两部分。一是输入文本有没有使 用方言的特殊语法,此时分析对象为用户输入文本“I pay attention to wisdom and knowledge”。本例中根据6e_2“特殊语法”列就是输入文本中有没有使用英语的特殊语法, 检测结果是没有使用。二是看有没有特殊语法应该使用到本例的文本中。,此时分析对象为 用户输入文本“我和重视知识一样重视智慧”。根据图6e2中特殊语法表“映射结构”列,发 现符合相应语法特征的语法结构有“和.· · 一样”。并且是多对一关系,即有两个语法。"the same as”和“as wellas”。因此两者都正确,并且需要根据关键字进行权重比较选择更好的结果。对于本句来说有“I,pay attention to,wisdom,knowledge”。根据图6g_2,在确 定关键词距离得基础上以本句的关键字列表为原点对“the same as”和“as well as”两 个语法结构的关键字列表求平方和作为权重,得到“the same as” :0. 04和“as well as" 0. 1。这里比较权重大小,大的则认为比较合适,因此这里语法分析的结果是用户翻译的结 构“A+and+B” 有错误,“as well as”和“the same as”都可以,并且“as well as” 比“the same as,,更合适。当同时做完左右分支后,就是融合反馈的过程。根据字词分析的结果和语法分析 的结果,两者不存在冲突。因此按图2流程图不用返回到融合反馈单元,这部分直接结束。最后本发明装置返回最后的结果.结论有二一是用户翻译有错误,应该使用特 殊语法 “as well as” 或者 “the same as”,其中 “as well as” 比 “the same as” 更合适。 二是建议,“pay attention to”在本句翻译中并没有错误,但是“value”比“pay attention to”更合适。于是学习机将这个结果反馈给学习者,使学习者在方言的字词使用和语法使用方 面有更好的理解。关键字计算样例。本装置中很多部分都涉及到了关键字计算,而他们的基本原理都类似。因此在这 里以特殊字词的关键字计算为例,说明关键字计算的方法。具体例子就是用上面例子和图 6Π中的数据。设当前句子的关键字列表是X= {他,是,一个,顽皮,的},关键字距离列表 为Y = {-4,-3,-2,-1},而特殊字“细路仔”的关键字列表是Al = {可爱},关键字距离列 表是A2= {-2:2};特殊字“细蚊仔”的关键字列表Bl = {顽皮,可爱},关键字距离列表 是B2= {-2:2,-2:2} 0设决定选择的平方和权重为W,而W(X,Α)表示X和Al,A2的权重。 那么因为X中的所有关键字都没有在Al中出现,因此W(X,A) = 0,而X中的关键字有一个 “顽皮”在Bl中出现,并且“顽皮”在Y中的距离为_2,同时在B2中-2也存在。根据图6f-l 中“顽皮”的频率得到W(X,B) = 0.22 = 0.04。然后比较W(X,A)和W(X,B)就可以得到结 果。如果W(X,A)和W(X,B)相等,则认为两者都可行。此外,本发明还提供了学习机(语言学习装置)的实施例,语言学习装置包括存 储单元,用于预先存储作为翻译学习对象的对象文本和所述对象文本对应的翻译答案文 本;输出单元,用于显示所述对象文本;输入单元,用于接收用户输入的针对所述对象文本 的翻译文本;以及,分析判断单元,用于将所述翻译答案文本与所述输入单元获取的翻译文 本进行比较,获得用于指示所述翻译文本的正确程度的比较结果。该学习机中,所述分析判断单元包括字词处理单元和语法处理单元;所述字词处 理单元,用于,根据所述翻译答案文本确定所述翻译文本中的错译字词;所述语法处理单 元,用于,根据所述翻译答案文本确定所述翻译文本中的错译语法。所述分析判断单元还包 括融合反馈单元,用于,将所述错译字词对应的正确字词,以及所述错译语法对应的正确语 法带入所述翻译文本,获得新的翻译文本,并将所述新的翻译文本发送给所述字词处理单 元和所述语法处理单元。其中,所述字词处理单元,还用于,根据所述翻译答案文本,确定所述翻译文本中 的具有更适合字词的独立词;所述语法处理单元,还用于,根据所述翻译答案文本,确定所 述翻译文本中的具有更适合语法的当前语法。所述输出单元通过屏幕显示方式或通过语音方式进行输出。所述更适合字词为在所述独立词的对应字词中平方和权重大于所述独立词 的字词;所述更适合语法为在所述当前语法的对应语法中平方和权重大于所述当前语法的语法。本发明的应用场景。本发明可以使用在PDA,学习机,机器翻译器等场景。本发明可以作为单独的模块 使用,在产品中完成语言转换,错误提示等功能。在这种情况中,输入输出借助于安装本发 明产品的输入输出装置,本发明的字词,语法数据与此产品的数据相分离。由上可知,本发明实施例具有以下优势1)本发明提供了一种能分析和纠正方言中错误的装置和方法,其基于接收的文本 向用户提供所接收的文本中的字词和语法信息的分析判断结果,能够减少目前方言学习中 的字词和语法问题,2)本发明通过一套字词和语法分析比较装置,自动判断输入句子中的字词和语法 是否符合目标方言(或目标语种),如不符合给出正确提示,,并且本发明还通过融合反馈 处理得到字词和语法的最佳适应结果,不但能提示错误字词,还能够根据权重提供更适合 的字词和语法,能够对“一个意思可以有多种说法”的现象进行处理。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人 员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应 视为本发明的保护范围。
权利要求
一种语言文本的处理装置,其特征在于,包括存储单元,用于存储语言的字词对应信息和语法对应信息;接收单元,用于接收用户的输入文本;字词处理单元,用于根据所述字词对应信息对所述输入文本中的字词进行处理,得到初步字词处理结果;语法处理单元,用于根据所述语法对应信息对所述输入文本中的语法结构进行处理,得到初步语法处理结果;融合反馈单元,用于对所述初步字词处理结果和所述初步语法处理结果进行融合处理,得到并输出最终处理结果。
2.根据权利要求1所述的处理装置,其特征在于,所述字词对应信息包括不同语种之 间的字词对应关系和/或不同方言之间的字词对应关系;所述语法对应信息包括不同语种之间的语法对应关系和/或不同方言之间的语法对 应关系。
3.根据权利要求2所述的处理装置,其特征在于,所述字词处理单元具体包括 分词和对齐模块,用于从所述输入文本中分出最小的独立词并确定对应位置;字词分析模块,根据所述字词对应信息确定所述独立词的对应字词,根据共现概率确 定所述对应字词是否合适,并将合适的对应字词作为所述初步字词处理结果。
4.根据权利要求3所述的处理装置,其特征在于,所述语法处理单元具体包括 预处理模块,用于确定所述输入文本的当前语法结构;语法分析模块,用于根据所述语法对应信息和共现概率确定所述当前语法结构的对应 语法结构,将所述对应语法结构作为所述初步语法处理结果。
5.根据权利要求4所述的处理装置,其特征在于,所述融合反馈单元具体包括 冲突分析单元,用于对所述初步字词处理结果和所述初步语法处理结果进行冲突分析,将没有冲突的初步字词处理结果和初步语法处理结果合并后作为所述最终处理结果并 进行输出;迭代单元,用于将有冲突的初步字词处理结果和初步语法处理结果进行合并得到合 并文本,并将所述合并文本作为输入文本返回给所述字词处理单元和/或所述语法处理单 元,获得新的初步字词处理结果和/或新的初步语法处理结果并发送给所述冲突分析单兀。
6. 一种语言学习装置,其特征在于,包括存储单元,用于预先存储作为翻译学习对象的对象文本和所述对象文本对应的翻译答 案文本;输出单元,用于显示所述对象文本;输入单元,用于接收用户输入的针对所述对象文本的翻译文本;以及, 分析判断单元,用于将所述翻译答案文本与所述输入单元获取的翻译文本进行比较, 获得用于指示所述翻译文本的正确程度的比较结果。
7.根据权利要求6所述的语言学习装置,其特征在于,所述分析判断单元包括字词处 理单元和语法处理单元;所述字词处理单元,用于,根据所述翻译答案文本确定所述翻译文本中的错译字词;所述语法处理单元,用于,根据所述翻译答案文本确定所述翻译文本中的错译语法。
8.根据权利要求7所述的语言学习装置,其特征在于,所述分析判断单元还包括融合 反馈单元,用于,将所述错译字词对应的正确字词,以及所述错译语法对应的正确语法带入 所述翻译文本,获得新的翻译文本,并将所述新的翻译文本发送给所述字词处理单元和所 述语法处理单元。
9.根据权利要求8所述的语言学习装置,其特征在于,所述字词处理单元,还用于,根 据所述翻译答案文本,确定所述翻译文本中的具有更适合字词的独立词;所述语法处理单元,还用于,根据所述翻译答案文本,确定所述翻译文本中的具有更适 合语法的当前语法。
10.根据权利要求9所述的语言学习装置,其特征在于,还包括输出单元,用于将 所述错译字词及对应的正确字词、所述错译语法及对应的正确语法、所述独立词及对应的 更适合字词,以及所述当前语法及对应的更适合语法作为所述正确程度的比较结果进行输出ο
11.根据权利要求10所述的语言学习装置,其特征在于,所述输出单元通过屏幕显示 方式或通过语音方式进行输出。
12.根据权利要求9或10所述的语言学习装置,其特征在于,所述更适合字词为在所述独立词的对应字词中平方和权重大于所述独立词的字词; 所述更适合语法为在所述当前语法的对应语法中平方和权重大于所述当前语法的语法。
全文摘要
本发明提供一种语言文本的处理装置及语言学习装置,处理装置包括存储单元,用于存储语言的字词对应信息和语法对应信息;接收单元,用于接收用户的输入文本;字词处理单元,用于根据所述字词对应信息对所述输入文本中的字词进行处理,得到初步字词处理结果;语法处理单元,用于根据所述语法对应信息对所述输入文本中的语法结构进行处理,得到初步语法处理结果;融合反馈单元,用于对所述初步字词处理结果和所述初步语法处理结果进行融合处理,得到并输出最终处理结果。本发明能够对不同方言或语种中的特有字词和语法进行比较分析,能够对“一个意思可以有多种说法”的现象进行处理。
文档编号G06F17/28GK101930430SQ20091014889
公开日2010年12月29日 申请日期2009年6月19日 优先权日2009年6月19日
发明者刘宏建, 周泉, 国德峰, 永松健司 申请人:株式会社日立制作所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1