根据跨语种短语表的断词器的制造方法

文档序号:9457672阅读:339来源:国知局
根据跨语种短语表的断词器的制造方法
【专利说明】根据跨语种短语表的断词器
[0001] 背景
[0002] 断词器(也称为词态分析器)是一种接收单词并输出词素的自动化系统。例如, 给定一个单词,断词器能够标识可能组成该单词的一个或多个词素的组合。词素是语言中 最短的语法单元。单词的一个示例及其构成词素是单词"feeling",在该单词被用作为名词 时,其可包括单个词素"feeling",而当该单词被用作为动词时,可包括两个词素"feel"和 "ing"。
[0003] 现有的断词器通常通过受监管的学习来创造,其中单词的示例及其词素通过人类 判断来标注。这使得要制作断词器变得昂贵和耗时,尤其是对于高度词性变化的语言,诸如 土耳其语。另一选项是使用词法数据和语言学规则。然而,取决于所涉及的语言,词法数据 和语言学规则常常不可用。
[0004] 断词器对于许多应用是非常有用的,这些应用包括但不限于信息检索、机器翻译 以及语音处理。具体来说,断词器在处理诸如芬兰语、德语、土耳其语以及阿拉伯语之类的 词态丰富的语言时是有用的。
[0005] 下面描述的实施例不限于解决已知的断词器和/或构造断词器的方式的任何或 所有缺点的实施方式。
[0006] 概述
[0007] 下面呈现了本发明的简要概述,以便向读者提供基本理解。本概述不是本公开的 穷尽概览,并且不标识本发明的关键/重要元素或描述本说明书的范围。其唯一的目的是 以简化形式呈现此处所公开的精选概念,作为稍后呈现的更详细的描述的序言。
[0008] 描述了将单词分割成词素的自动创建的断词器,例如用以改善信息检索、机器翻 译或语音处理。在各实施例中,提供了一种跨语种短语表,其包括源语言(诸如土耳其语) 短语和目标语言(诸如英语)的可能的翻译,并带有相关联的概率。在各个示例中,短语表 中具有类似目标语言翻译的源语言短语的块被创建。在各个示例中,使用块中的目标语言 翻译的推导使得能够找到针对源语言单词的词干和词缀组合,而无需来自人类判断的输入 或者对于源语言语言学规则或源语言词法的在先知识。
[0009] 通过结合附图参考以下详细描述,可易于领会并更好地理解许多附带特征。
[0010] 附图简述
[0011] 根据附图阅读以下【具体实施方式】,将更好地理解本发明,在附图中:
[0012] 图1是使用断词器构建系统创建的能够访问跨语种短语表的断词器的示意图;
[0013] 图2是跨语种短语表的示意图;
[0014] 图3是使用跨语种短语表来创建断词器的方法的流程图;
[0015] 图4是使用图1的装置来创建断词器的方法的示例的流程图;
[0016] 图5示出了示例性基于计算的设备,其中可实现断词器和/或用于创建断词器的 装置的各实施例。
[0017] 在各个附图中使用相同的附图标记来指代相同的部件。
[0018] 详细描述
[0019] 下面结合附图提供的详细描述旨在作为本发明示例的描述,并不旨在表示可以构 建或使用本发明示例的唯一形式。本描述阐述了本发明示例的功能,以及用于构建和操作 本发明示例的步骤的序列。然而,可以通过不同的示例来实现相同或等效功能和序列。
[0020] 尽管本发明的示例在此处被描述并解说成是在使用土耳其语一英语短语表的断 词器构建系统(其中土耳其语被称为源语言或未知语言,而英语被称为目标语言或已知语 言)中实现的,然而所描述的系统是作为示例而非限制提供的。如本领域技术人员将理解 的,本发明示例适于应用在使用各种不同语言的各种不同类型的断词器系统中。
[0021] 图1是使用断词器构建系统100创建的能够访问跨语种短语表108的断词器110 的示意图。断词器110被创建以将诸如土耳其语之类的源语言的单词分割(或截断)成土 耳其语词素。对于给定单词,断词器110可输出不止一个可能的分割以及与每个分割相关 联的概率值。源语言是未知的,因为不存在对于断词器构建系统100可用的土耳其语的现 有知识,除了以下将更详细解释的跨语种短语表。除了访问跨语种短语表之外,断词器构建 系统不具有关于土耳其语语言学规则的知识、不具有土耳其语词典、不具有土耳其语单词 通过人类判断分割成词素的示例。
[0022] 断词器110可包括数据库、存储器或其它存储,用于保存以下中的一者或多者:词 干词典、词缀列表、词缀一词干适用性矩阵、以及分割概率。断词器110还可包括计算机实 现的规则、标准或其它处理,以接收源语言的单词并且使用数据库、存储器或其它存储中的 该信息来将源语言单词分割成词素。对于给定单词,断词器110可输出多个方案以及与每 个方案相关联的概率。
[0023] 词干词典是词素列表,词素可被标识为名词、动词、形容词、副词、专有名词、或功 能词。在此处描述的各示例中,词干词典可以是跨语种的,因为它可指示对于未知语言(例 如土耳其语)中的一个词干,它对应于哪个已知语言(例如英语)词干。
[0024] 词缀列表是从未知语言文本的示例中观察到的后缀和/或前缀的列表。术语"词 缀"在此被用来表示前缀或后缀中的任一者或两者。词缀列表可用任何形式存储并且不限 于以列表形式存储。
[0025] 词缀一词干适用性矩阵是对于在未知语言中观察到的词缀和词干的组合的记录, 并带有来自已知语言(例如英语)中的那些组合的含义的细节。例如,含义可以是特定后 缀被用来赋予动词的第三人称现在时。词缀一词干适用性矩阵可用任何形式存储并且不限 于以矩阵形式存储。
[0026] 词缀适用性矩阵是在未知语言中观察到的一起出现的词缀的组合的记录,词缀适 用性矩阵可用任何格式存储并且不限于以矩阵形式存储,并且可具有关于当词缀被组合在 一起时的词缀序列的信息。
[0027] 分割概率是表示给定单词由指定词素以指定次序形成的可能性的数字值。该数字 值可被表示为百分比、〇和1之间的值或其它方式。
[0028] 断词器构建系统100是使用软件和/或硬件通过计算机实现的。其包括用于将来 自短语表的一个或多个短语创建分组的块划分组件102 ;用于使用块划分组件102的输出 来推导词干的词干推导组件104 ;以及用于形成词缀列表、词缀适用性矩阵、以及词缀一词 干适用性矩阵的词缀推导组件106。断词器构建系统的输出包括词干、词缀列表、词缀适用 性矩阵、词缀一词干适用性矩阵以及分割概率,以供在源语言断词器110处使用。
[0029] 跨语种短语表108可以是数据库、存储或其它存储器,其保存每个源短语到可能 的目标短语的映射,并带有相关联的概率。源短语包括想要针对其创建断词器的未知语言 (诸如土耳其语)的一个或多个单词。目标短语包括已知语言(诸如英语)的一个或多个 单词。映射可以表格的形式存储或者以任何其它适当的方式存储。以下参照图2更详细地 讨论了其中使用表格格式的示例。
[0030] 跨语种短语表、断词器构建系统100以及源断词器110 -起形成用于分析单词的 系统112。系统112的一个或多个组件可由下游的系统114使用,下游系统114包括但不限 于机器翻译
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1