藏汉翻译系统的多策略藏语长句切分方法

文档序号:6626491阅读:969来源:国知局
藏汉翻译系统的多策略藏语长句切分方法
【专利摘要】本发明公开了一种用于藏汉翻译系统的、对复杂藏语长句进行快速、准确切分的多策略藏语长句切分方法,它包括:接收藏语长句,对每一成分逐个判断,若成分为数字或特殊符号、逗号但无源文模式匹配成功且模式条件满足的逗号切分实例、单词但在特征词索引表中检索不到,或者检索到然而无源文模式匹配成功且模式条件满足的特征词切分实例,则继续判断下一成分,否则记录切分点,切分点之前成分作为切分子句送出,继续判断余下第一个成分。在判断各成分之前先要判断指针当前是否指向空,若是则将余下成分送出结束,否则读取指针当前指向的成分。
【专利说明】藏汉翻译系统的多策略藏语长句切分方法

【技术领域】
[0001] 本发明涉及一种用于藏汉翻译系统的、基于多策略对藏语长句进行切分的方法, 属于基于计算机科学的语言处理与分析领域。

【背景技术】
[0002] 藏文是一门古老而独特的语言,它具有独特的标点符号体系,不同于其他文字的 标点符号。藏语的标点符号数量是很有限的,只有7种--音节点、单垂符、双垂符、四垂符、 蛇形垂符、聚宝垂符、云头符,见下表1所示。
[0003] 表 1
[0004]

【权利要求】
1. 一种藏汉翻译系统的多策略藏语长句切分方法,其特征在于,它包括如下步骤: 1) 接收由转写系统转换的藏语长句,设当前长句由若干成分构成,令指针指向第一个 成分,成分为一单词或一数字或一逗号或一特殊符号; 2) 判断指针是否指向空:若是,将当前剩余成分作为切分子句送出,结束;否则,读取 指针指向的成分; 3) 判断该成分是否为数字或特殊符号:若不是,继续4);否则,指针指向下一成分,返 回2); 4) 判断该成分是否为逗号:若不是,继续5);否则,取出逗号切分实例的源文模式和模 式条件:若源文模式匹配成功且模式条件满足,记录切分点,将切分点之前的所有成分作为 切分子句送出,指针指向切分点之后的第一个成分,返回2);否则,指针指向下一成分,返 回2); 5) 在特征词索引表中检索该成分:若检索到,继续6);否则,指针指向下一成分,返回 2); 6) 在特征词切分实例表中逐一取出该成分对应的各特征词切分实例:若找到源文模 式匹配成功且模式条件满足的特征词切分实例,记录切分点,将切分点之前的所有成分作 为切分子句送出,指针指向切分点之后的第一个成分,返回2);否则,指针指向下一成分, 返回2)。
2. 如权利要求1所述的多策略藏语长句切分方法,其特征在于: 逗号切分规则实例库用于存储所述逗号切分实例,逗号切分实例包括一源文模式和一 模式条件; 特征词切分规则实例库用于存储所述特征词索引表、所述特征词切分实例表,所述特 征词索引表用于存储特征词,所述特征词切分实例表用于存储特征词切分实例,每一特征 词对应有至少一特征词切分实例,每一特征词切分实例包括一源文模式和一模式条件。
3. 如权利要求2所述的多策略藏语长句切分方法,其特征在于: 所述特征词切分规则实例库还存储有首字母索引,首字母索引用于存储26个拉丁字 母,每一拉丁字母与所述特征词索引表中以该拉丁字母作为首字母的特征词相对应。
4. 如权利要求2或3所述的多策略藏语长句切分方法,其特征在于: 所述特征词是自身附近成分可能作为切分点的单词; 所述逗号切分实例的所述源文模式是含有逗号和切分位置的成分表达式,用于说明逗 号在源文句子中作为切分点时应该满足的源文特征条件,以及示出切分位置; 所述特征词切分实例的所述源文模式是含有特征词和切分位置的成分表达式,用于说 明特征词在源文句子中作为切分点时应该满足的源文特征条件,以及示出切分位置; 对于所述逗号切分实例和所述特征词切分实例,所述模式条件是含有多个上下文语境 条件判断式的集成表达式,用于说明该模式条件对应的源文模式使用时应该满足的各上下 文语境条件。
5. 如权利要求4所述的多策略藏语长句切分方法,其特征在于: 检查当前成分是否满足逗号切分实例中的模式条件以及检查当前成分是否满足特征 词切分实例中的模式条件,是基于藏文字典库进行的; 藏文字典库的单词文本文件中的每个单词有如下内容: ?单词 ?单词的语法分类和语义属性 ?上下文区分函数 ?单词的中文解释 ?单词的词组 并且,藏文字典库建立首字母索引和单词索引文件来查找单词文本文件中的单词。
6. 如权利要求5所述的多策略藏语长句切分方法,其特征在于: 所述上下文语境条件包括对切分点前和/或后指定长度范围内的成分判断、对切分点 前和/或后指定长度范围内的单词所属语法分类和/或语义属性的判断。
7. 如权利要求5所述的多策略藏语长句切分方法,其特征在于: 访问所述藏文字典库的步骤为: 1) 基于单词的首字母,通过所述首字母索引找到对应的所述单词索引文件; 2) 在所述单词索引文件中基于二分算法查找该单词; 3) 若没找到,则失败返回,否则继续4); 4) 读出该单词的字节数,根据该单词的字节数在所述单词文本文件中读出该单词的信 息; 5) 结束。
8. 如权利要求1所述的多策略藏语长句切分方法,其特征在于: 在送出切分子句时,当判断切分子句的成分个数超过阈值个数时,提醒用户注意是否 特征词切分规则实例库不完善,需要收入新的特征词切分实例来完善。
9. 如权利要求1所述的多策略藏语长句切分方法,其特征在于: 所述当前长句中的成分个数大于15。
【文档编号】G06F17/28GK104239294SQ201410458322
【公开日】2014年12月24日 申请日期:2014年9月10日 优先权日:2014年9月10日
【发明者】黄河燕, 黄静 申请人:华建宇通科技(北京)有限责任公司, 北京理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1