基于通用音节结构的藏文字符排序装置和方法

文档序号:6331248阅读:139来源:国知局
专利名称:基于通用音节结构的藏文字符排序装置和方法
技术领域
本发明涉及语言文字信息处理技术,特别涉及藏语言文字信息处理技术,具体是 一种基于通用音节结构的藏文字符排序装置和方法。虽然,本发明使用于广泛的应用范围, 它尤其使用于信息处理装置对基于藏文字符集国际标准的藏文音节和梵音藏文组合字符 的排序。
背景技术
排序是计算机系统的一个重要函数。一组字符串呈现给用户时,用户希望这组字 符串是按照一定规律排序的,从而能很容易且很可靠地找到其中的某个特定字符串。排序 对数据库来说也是至关重要的,不仅是为了记录的排序更是为了在给定域范围时能够选择 符合条件的记录。藏文字符的计算机排序也是藏文分词、语料库建设、拼写检查、文本检索 以及操作系统藏化等问题的基础,可以说,藏文字符的计算机排序是藏文信息处理的基础。藏文字符的计算机排序要符合以下几方面的要求①藏文字符的计算机排序结果要符合传统字典中音节的排序规律。经过1300多 年的发展,藏文传统字典中音节的排序规律已被广大藏文使用者完全接受和遵循。因此,传 统藏文字典中音节的排序规律是检验藏文字符计算机排序结果是否准确的主要标准。②藏文字符的编码要符合字符集国际标准。1997年,193个基本藏文字符被收录 到ISO的基本多文种平面(Basic Multilingual Plane,简写为BMP)的OF行,从而使藏文 成为我国第一个拥有国际标准的少数民族文字。2004年后,MS Wind0WS、LinUX等主流操作 系统开始全面支持藏文字符集的国际标准。从此以后,包括字符排序在内的所有藏文信息 处理都应完全基于字符集国际标准,否则,无法得到主流操作系统的支持。③藏文字符的排序技术要符合相关国际标准。Unicode和ISO在充分研究古今 中外各种文字排序特点的基础上,发布了 IS0/IEC 14651、IS0/IEC 14652以及Unicode Technical Standard #10等技术标准,这些标准给出了编码字符计算机排序的通用规则, 并给出了所有编码字符的排序元素(Collation elements)。只有完全符合这些标准的藏文 字符排序技术才符合标准化要求,才能得到操作系统、应用软件的全面支持。④要研究全部藏文的合理排序。从排序的角度出发,藏文字符串可以分为八种类 型本地藏文音节(例如喝T )、梵音藏文组合字符(例如§或#)、非音节藏文字母串(特 指不构成本地藏文音节和梵音藏文组合字符的字母串,例如Τ〒)、藏文数字串(例如例 )、藏文标点符号串(例如_)、其它文字字符串(例如aBc)、藏文图形符号串以及混合字 符串。藏文字符计算机排序的重点是本地藏文音节和梵音藏文组合字符的正确排序,但也 要兼顾其余六类字符串的合理排序。总之,藏文字符的计算机排序要从字符集的国际标准出发,排序技术要符合ISO 以及Unicode的相关标准,重点解决本地藏文音节和梵音藏文组合字符的排序问题,排序 结果要符合传统藏文字典的排序规律。

发明内容
为了解决现有技术中存在的上述问题,本发明提出一种基于通用音节结构的藏文 字符排序装置和方法,具体技术方案如下一种用于对本地藏文音节和梵音藏文组合字符排序的基于通用音节结构的藏文 字符排序装置装置,包括预处理子装置,对以<《和叹为后缀的藏文音节和不符合藏文音节通用结构的梵 音藏文组合字符进行适当分解,得到一个音节序列,使得序列中的每个音节都符合藏文音 节通用结构;音节展开子装置,将符合藏文音节通用结构的音节按照特定顺序展成一维字母 串;排序元素调用子装置,调用一维字母串中每个字母的排序元素,然后,按照一维字 母串中所有字母的第一级权重、第二级权重、第三级权重的顺序排列,得到原音节的排序元 素串;排序元素串压缩子装置,对音节的排序元素串利用游程长度等方法压缩;所述的藏文音节通用结构由基本辅音、前加辅音、上加辅音、第一下加辅音、第二 下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音组成;所述预处理子装置对以3、《和冬为后缀的藏文音节的预处理方法是将日、; ]或者这 看作独立的音节,而将剩余字母的组合看作一个音节;所述预处理子装置对不符合藏文音节通用结构的梵音藏文组合字符的预处理方 法是将最上层的辅音看成独立的音节,考察剩余字母的组合是否符合通用音节结构,如果 不符合则重复此过程,直到剩余字母的组合符合通用音节结构为止;将符合通用结构的音节展成一维字母串的特定顺序是,按照优先级依次是,基本 辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加 辅音和第二后加辅音;所述的音节展开子装置把符合通用音节结构的音节按照所述的特定顺序展成 一维字母串时,如果音节在某个位置上的字母空缺,则展开式的相应位置用排序元素为 [· 2020. 0020. 0002]的特殊字符填补。一种利用上述装置对本地藏文音节和梵音藏文组合字符排序的基于通用音节结 构的藏文字符排序方法,包括步骤1)预处理,指对以日、《或洛为后缀的藏文音节和不符合藏文音节通用结构的梵音 藏文组合字符进行适当分解,得到一个音节序列,使得序列中的每个音节都符合藏文音节 通用结构;2)音节展开,指将符合通用音节结构的音节按照特定的顺序展成一维字母串;3)排序元素调用,指依次调用一维字母串中每个字母的排序元素,然后,按照所有 字母的第一级权重、第二级权重、第三级权重的形式排列,得到原音节的排序元素串;4)排序元素串压缩,指对音节的排序元素串利用游程长度方式压缩;所述的藏文音节通用结构由基本辅音、前加辅音、上加辅音、第一下加辅音、第二 下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音组成;所述的预处理对以< 杨时为后缀的本地藏文音节的预处理方法是将<《或者这看作独立的音节,而将剩余字母的组合看作一个音节;所述的预处理对不符合藏文音节通用结构的梵音藏文组合字符的预处理方法是 将最上层的辅音看成独立的音节,考察剩余的字母是否符合通用音节结构,如果不是则重 复此过程,直到剩余字母的组合符合通用音节结构为止;将符合通用结构的音节展成一维字母串的特定顺序是,按照优先级依次是,基本 辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加 辅音和第二后加辅音;符合通用音节结构的音节按照特定的顺序展成字一维母串时,如果音节在某个位 置上的字母空缺,则展开式的相应位置用排序元素为[.2020.0020.0002]的特殊字符填 补。发明的优点和积极效果1.本发明实现了全部藏文音节和梵音藏文组合字符的计算机排序,排序结果符合 传统藏文字典的排序规律;提高了排序质量和效率,是计算机对藏文文字进行高效处理的 ■石出。2.本发明统一用图1所示的通用结构直接或者间接表示所有藏文音节和梵音藏 文组合字符,克服了藏文音节和梵音藏文组合字符无统一结构的弊端。3.本发明统一了所有藏文音节和组合字符的展开顺序,简化了藏文字符的排序算 法。4.本发明引入排序元素为[.2020. 0020. 0002]的特殊字符用以填补音节展开时
的空缺位置,提高了排序元素串的压缩比率。


附图被包括而且作为本申请的一部分揭示了本发明的实例,并结合描述来解释本 发明的原理。在附图中图1是本发明的藏文音节通用结构示意图;图2是本发明的藏文字符排序装置示意图;图3是本发明的通用藏文音节结构中字母的展开顺序示意图;图4是本发明所依托的计算机系统硬件环境示意图;图5是本发明所依托的计算机系统软件环境示意图。
具体实施例方式
下面结合附图与具体实施方式
对本发明作进一步说明 图1是本发明的藏文音节通用结构。藏文是一种音节文字,有30个辅音和5个元 音。30 个辅音为=Y5T^lt5^q'"!c3FkH WT1I y,,5 个元音为沢§^叙砰。这
些字母按照正字规律相互组合而形成藏文音节,例如—1τ。这样形成的音节称为本地藏文 音节。本地藏文音节中,有一个是基本辅音,其他辅音根据它们相对于基本辅音的位置而 分别称为前加辅音、上加辅音、下加辅音、后加辅音以及又后加辅音。例如音节中,叩是 基本辅音A是前加辅音…是上加辅音、3是下加辅音、字母°1和9分别是后加辅音和又后加辅 音。此处,一个藏文音节中基本辅音的确定对本领域的专业人员而言是显然的。为了书写
6美观,上加辅音和下加辅音可能会变形,例如字母\为上加辅音时变形为τ,而字母^、^和 作下加辅音时分别变形为S、3和%每个本地藏文音节都有元音,如果元音是< 队&或《则 分别写元音符号\《、S或力如果元音是㈤则元音符号省略。藏民族全民信教,在佛教经典的翻译过程中借用了大量的梵文 词。为了准确音译这些梵文词,创造了与本地藏文在字母系统、拼写规则 等方面差异较大的梵音藏文。梵音藏文有34个辅音和16个元音,34个辅 音为T1T^「丨尸^可司 q^iqYsiI uj^iiI Wi^']岡,16 个元音为
^'Il ^llf5^l。梵音藏文对垂直方向上叠加的辅音个数没有严格的限制,
但仍以音节为单位进行排序。梵音藏文音节没有前加辅音、后加辅音和又后加辅音,因此, 一个梵音藏文音节最多是基本辅音、下加辅音以及元音的垂直组合,称为梵音藏文组合字 符。但梵音藏文组合字符可能有两个下加辅音,例如组合字符?有两个下加辅音为乡和力也 可能有两个元音,例如组合字符絮有两个元音S和。§。本地藏文音节有基本辅音、前加辅音、上加辅音、下加辅音、元音、后加辅音以及又 后加辅音,而梵音藏文组合字符可能有两个元音(依次称为第一元音和第二元音),还可能 有两个下加辅音(依次称为第一下加辅音和第二下加辅音)。因此,藏文音节的通用结构应 该能够表示基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二 元音、后加辅音和又后加辅音等九个字母。由于第二元音M出现在后加辅音的位置,可以一 般地让第二元音和后加辅音共用一个位置。因此,藏文音节的通用结构共有八个元素基本 辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第一后加辅音/第二 元音和第二后加辅音(见图1)。图2是本发明的藏文字符排序装置图。这个排序装置由预处理子装置200、音节展 开子装置202、排序元素调用子装置204以及排序元素串压缩子装置206构成。本发明的第一个子装置是预处理子装置200,子装置200对以< 实和这为后缀的本 地藏文音节和不符合通用结构的梵音藏文组合字符进行适当分解,得到一个音节序列,使 得序列中的每个音节都符合通用结构。由于受语法影响而以< 气或吸为后缀的本地藏文音节不符合藏文音节通用结构, 这类音节有①受属格助词3影响的音节,例如力喊、^^等;②受终结词 影响的音节,例 如醉、Tf 等;③受构形词缀3影响的音节,例如韧、η麵等;④同时受构形词缀这和属格助 词每影响的音节,例如|明。对以< €或a为后缀的本地藏文音节的预处理方式是将< 戈和 这看作独立的音节,而将剩余字母的组合看作一个音节,从而得到一个每个音节都符合通用 音节结构的音节序列。例如音节中的后缀s和&看作独立的音节后,得到音节序列敌込曰, 其中的每个音节即1、&和铁都符合通用结构。有些梵音藏文组合字符(例如)不符合藏文音节通用结构,对这类组合字符的 预处理方法是将最上层的辅音看成一个独立音节,考察剩余字母的组合是否符合藏文音 节通用结构,如果不符合则重复此过程,直到剩余字母的组合符合藏文音节通用结构为止。 例如将组合字符f的第一层辅音^看作独立的音节后,剩余字母的组合哥符合通用结构,从 而把组合字符f分解成了音节序列,这个序列中的每个音节即^和 都符合通用结构。本发明的第二个子装置是音节展开子装置202,子装置202的功能是将符合通用
结构的音节按照图3所示的顺序即按照基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/后加辅音和又后加辅音的顺序展开;如果音节中某个位 置上的字母空缺,则展开式的相应位置要用一个特殊字符(此处暂时用符号“□”表示)来 替补,但要求这个特殊字符的排序元素要小于任何一个藏文字母的排序元素,从而得到一 个和原音节序性等价的藏文字母串。由表1可以看出,藏文音节和它的一维展开式的序性 是等价的。表1 二维音节的一维展开式
权利要求
一种基于通用音节结构的藏文字符排序装置,其特征是包括预处理子装置,对以和为后缀的藏文音节和不符合藏文音节通用结构的梵音藏文组合字符进行分解,得到一个音节序列,该音节序列中的每个音节都符合藏文音节通用结构;音节展开子装置,将符合藏文音节通用结构的音节按照特定顺序展成一维字母串;排序元素调用子装置,调用一维字母串中每个字母包括特殊字符的排序元素,然后,按照一维字母串中所有字母包括特殊字符的第一级权重、第二级权重、第三级权重的顺序排列,得到原音节的排序元素串;排序元素串压缩子装置,对音节的排序元素串进行压缩。FSA00000252016700011.tif,FSA00000252016700012.tif
2.根据权利要求1所述的基于通用音节结构的藏文字符排序装置,其特征是所述预处 理子装置所述的藏文音节通用结构由基本辅音、前加辅音、上加辅音、第一下加辅音、第二 下加辅音、第一元音、第二元音/第一后加辅音和第二后加辅音组成。
3.根据权利要求1所述的基于通用音节结构的藏文字符排序装置,其特征是所述预处 理子装置对以< €和冬为后缀的藏文音节的预处理方法是将<《或者弦看作独立的音节, 而将剩余字母的组合看作一个音节;所述的预处理子装置对不符合藏文音节通用结构的梵音藏文组合字符的预处理方法 是将最上层的辅音看成独立的音节,考察剩余字母的组合是否符合通用音节结构,如果不 符合则重复此过程,直到剩余字母的组合符合通用音节结构为止。
4.根据权利要求2所述的基于通用音节结构的藏文字符排序装置,其特征是所述音节 展开子装置将符合通用结构的音节展成一维字母串的特定顺序是,按照优先级依次是,基 本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后 加辅音和第二后加辅音。
5.根据权利要求1所述的基于通用音节结构的藏文字符排序装置,其特征是所述的音 节展开子装置把符合通用音节结构的音节按照所述的特定顺序展成一维字母串时,如果音 节在某个位置上的字母空缺,则展开式的相应位置用排序元素为[.2020. 0020. 0002]的特 殊字符填补。
6.一种利用权利要求1所述装置的基于通用音节结构的藏文字符排序方法,其特征是 包括步骤1)预处理,指对以<$或3为后缀的藏文音节和不符合藏文音节通用结构的梵音藏文 组合字符进行适当分解,得到一个音节序列,该音节序列中的每个音节都符合藏文音节通 用结构;2)音节展开,指将符合通用音节结构的音节按照特定的顺序展成一维字母串;3)排序元素调用,指依次调用一维字母串中每个字母的排序元素,然后,按照所有字母 的第一级权重、第二级权重、第三级权重的形式排列,得到原音节的排序元素串;4)排序元素串压缩,指对音节的排序元素串进行压缩。
7.根据权利要求6所述的特征是基于通用音节结构的藏文字符排序方法,其所述的 藏文音节通用结构由基本辅音、前加辅音、上加辅音、第一下加辅音、第二下加辅音、第一元 音、第二元音/第一后加辅音和第二后加辅音组成。
8.根据权利要求6所述的特征是基于通用音节结构的藏文字符排序方法,其特征是所述的预处理对以日、《和冬为后缀的本地藏文音节的预处理方法是将礼$或者$看作独立 的音节,而将剩余字母的组合看作一个音节;所述的预处理对不符合藏文音节通用结构的梵音藏文组合字符的预处理方法是将最 上层的辅音看成独立的音节,考察剩余的字母是否符合通用音节结构,如果不是则重复此 过程,直到剩余字母的组合符合通用音节结构为止。
9.根据权利要求6所述的特征是基于通用音节结构的藏文字符排序方法,其特征是将 符合通用结构的音节展成一维字母串的特定顺序是,按照优先级依次是,基本辅音、前加辅 音、上加辅音、第一下加辅音、第二下加辅音、第一元音、第二元音/第一后加辅音和第二后 加辅音。
10.根据权利要求6所述的特征是基于通用音节结构的藏文字符排序方法,其特征是 将符合通用音节结构的音节按照特定的顺序展成字一维母串时,如果音节在某个位置上的 字母空缺,则展开式的相应位置用排序元素为[.2020. 0020. 0002]的特殊字符填补。
全文摘要
一种藏文字符排序的装置和方法,该装置由预处理子装置、音节展开子装置、排序元素调用子装置和排序元素串压缩子装置组成。其中,预处理子装置对不符合通用音节结构的藏文音节和梵音藏文组合字符进行适当分解,得到一个音节序列,使得序列中的每个音节都符合通用结构;音节展开子装置对符合通用音节结构的音节按照特定顺序展开,得到与原音节序性等价的字母串;排序元素调用子装置调用展开式中每个字母的排序元素,得到排序元素串;排序元素串压缩子装置对排序元素串进行合理压缩。本发明对全部藏文音节和梵音藏文组合字符的排序结果符合传统藏文字典的排序规律。
文档编号G06F17/22GK101937459SQ20101026908
公开日2011年1月5日 申请日期2010年8月31日 优先权日2010年8月31日
发明者达飞鹏, 黄鹤鸣 申请人:东南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1