一种基于简拼的藏文词组输入法的制作方法

文档序号：6597773阅读：337来源：国知局

专利名称：一种基于简拼的藏文词组输入法的制作方法
技术领域：
本发明涉及藏文信息输入技术，特别涉及一种基于简拼的藏文词组输入法。
背景技术：
藏文是中华民族文化宝库中的一颗明珠，它是依据印度梵文创立的拼音文字，留传至今已有一千三百多年的悠久历史，是当今世界风采依旧的古老文字之一。藏文具有与汉文媲美的浩瀚文献，而且还有大量金铭石刻、木简木牍和文书经巻等，为藏民族文化的传承和发展发挥着重要作用。藏文是拼音文字，它的词组或句子是由一个个音节(或称为字)组成的，一个音节对应一个音，一个音节又由若干藏文字母组成，粗看起来它和英文很相似，具有从左向右横
向书写的线性结构，如^fir^^'q^^^f5 ("扎西德勒"，意为"吉祥如意")；但是对于一个
藏文音节来说，它又要从一个基字开始，由上加字、下加字、前加字、后加字迭加组合而成，因而又具有了平面字的特点。藏文音节的结构是以一个字母为核心，核心字母叫"基字"，其余字母在此基础上前后附加和上下叠写，组合成一个完整的字表结构，如图1所示。
通常藏文字形结构最少为一个辅音字母，即单独由一个基字构成，如^'最多由6
个辅音字母构成，如^|^]^，元音符号则加在辅音结构的上、下、正中，元音不能单独使用，
其余辅音字母的称谓都根据加在基字的部位而得名。加在基字前的字母叫"前加字"，加在基字上的字母叫"上加字"，加在基字下面的字母叫"下加字"，加在基字后面的字母叫"后加字"，而后加字之后再加字母叫"再后加字"或"重后加字"。藏文30个辅音字母均可作基字，但是，可作前加字、后加字、上加字、下加字的字母在文法中都是有规定的，而且数量有限。再后加字，在文字厘定中已经取消，只出现于文献中。藏文的读音也是以基字辅音为中心的，一个音节只有一个元音(元音a可省略)，因此一个音节对应一个音，在拉萨语中前加字和上加字辅音都已不发音，在安多语中也有一部分不发音。藏文的书写是以音节为单位，从左到右横写，音节之间用小点隔开，如 qg,^'q^^hj^，而字节的书写顺序基本是D前加字，2)上加字，3)基字，4)下加字，5)
元音，6)后加字，7)再后加字。大部分的输入法也是按此顺序来输入藏文编码的。从藏文字的结构、发音及拼写方法来看，有两个部件是不可缺少的，那就是基字和
元音，因此，本发明提出的词组输入编码方案就是以它们为基础的。随着信息技术的飞速发展与广泛应用，藏文信息处理技术及应用也得到了重视，近年来，在藏文操作系统、藏文信息技术标准、藏语音信息处理和综合应用等领域取得了较大进展，但由于受到用户数量、市场规模及技术力量等因素的制约，与汉字信息处理技术相比，藏文信息处理技术的成果还有一定的差距。藏文输入技术是藏文信息处理中的一个不可缺少关键技术，目前，Windows Vista系统已经支持了藏文，其中配备了自带的Unicode字体的Himalaya藏文输入法，其他广泛使用的藏文输入法主要有国内的同元藏文输入法、央金藏文输入法、班智达藏文输入法、琼迈藏文输入法、宗喀藏文输入法等，以及国外的桑布扎(Sambhota)藏文输入法、Tise藏文输入法和keyman藏文输入法等。
目前，藏文的录入速度与汉文录入技术相比仍具有明显差距，主要原因是缺乏高效的词组输入法。在现有输入法当中，仅有少数具有词组输入功能，微软的Himalaya输入法等国外的藏文输入法都不支持词组输入法，而国内的具有词组输入的班智达输入法采用了基字加后加字的词组编码方案，但具有不自然、难记难用且重码多等缺点。因此急需开发一种易用、自然、通用性强且重码低的词组输入方案，以提高藏文的录入速度。

发明内容
本发明的目的在于针对现有技术的不足，克服目前藏文输入法缺乏词组输入或者
词组输入编码难学难用等缺点，提供一种基于简拼的藏文词组输入法，具体为，利用藏文字根及元音字符的有效组合形成编码，适用于当前流行的多种藏文输入编码或键盘布局，通用性强，具有重码低，易于实现，易于建立和扩充词库等特点，且符合藏文书写的自然思维方式，容易理解及使用。本发明的目的通过以下技术方案得以实现一种基于简拼的藏文词组输入法，具体如下以构成词组的各音节的字根辅音字母及其元音字母的组合作为该词组的输入编码，输入时，其中字根辅音字母是必需的，而元音字母视情况可选；当某字根的输入编码由多个键盘字符组成时，则仅用该字根得首字符；当词组音节数较长时，可用*号作为通配符，不必输入剩余字节的编码字符；在整个词组的编码字符串中，音节间不加空格。
以Wylie拉丁转写输入法编码为例，藏文的30个辅音字母及4个元音字母的编码
如下<formula>formula see original document page 4</formula>其中有的藏文字母对应多个键盘字符，例如R对应ng， S^对应tsh。词组
.q^]'^N'q，^I^的Wylie输入法的编码串为"bkra shis bde legs"，按本发明的词组输入方案，该词组有以下几种输入方式 1)完整的词组输入编码，即包括所有音节的字根辅音字符及其元音字符，，kasidele，，； 2)省去所有元音字符，仅以构成词组的各音节的字根字符作为输入编码"ksdl"; 3)省去某些字节的元音字符，因此有多种组合，如"kasdl"或"kasidl"或，，ksdele，，或，，kasidle，，等； 4)用*号作为通配符，不必输入剩余字节，例如"kasi*"或"ksc^"或"ksi承"等，当词组音节数较长时这种方法很有效。相比于现有技术，本发明具有以下突出的优点和有益效果
1)通用性强本发明的词组编码方案可应用于现存的大多数输入法，使得那些还未具有词组输入的藏文输入法很容易得以功能扩展，例如词组q23,Wq^'^^l^，对于桑布扎
(Sambhota)藏文输入法的keym即l，按本发明，其词组输入编码串为"kaSidele"或"kSdl"等. 2)词组输入快速高效、重码少词组门!!],^"^'》^的Wylie输入法的编码串为"bkra shis bde legs" —
共18键，而按本输入法，"ksdl"加上一个空格键一共仅需5键，对于音节较短的词组，可添加某音节的元音字母便可降低重码率，以减少翻页键；对于较长的词组，如^^奇^^'瑜'513^^^':^'各'￡1|，^ Wylie输入编码一共42键，而利用本编码的通配符
气输入编码为"kbocp圹，，加上一个空格键一共仅需7键，无需翻页即可查到。可见，使用本发明后，藏文词组的输入效率可成倍提高；
3)符合藏文书写的思维习惯，好学易记本发明的词组输入编码是基于藏文的基字和元音这两个基本元素的有效组合，符
合藏文书写的思维习惯，好学易记，而不像部分输入法采用了难以记忆的后加字的参与，这
是一种不自然的编码，难记而不实用； 4)易于利用现有资源，建立和扩充词库采用本发明提出的编码方案，可以方便地利用网络等现有资源，将网络中的各类电子藏文词条、词汇转换并添入输入法的词库，使得词库可随时扩充，与时倶进；
5)实现词频动态更新，用户词组记忆本发明的词组输入法可实现词组高频先见，并采用将静态统计与动态调整相结合的词频动态更新，以实现适应用户特点的个性化输入模式；另外，本方案还可方便地实现用户词组的记忆功能，从而使藏文输入快捷、灵活和方便。

下面将结合实施例和附图对本发明作进一步的详细描述图1为藏文字^|，^的结构简析示意图；图2为本发明一具体实施例的输入法词库的结构示意图；图3为本发明一具体实施例的输入法原理框图；图4为本发明一具体实施例的藏文输入过程；图5为本发明一具体实施例的词组输入过程。
具体实施例方式通过以下步骤实施本词组输入法方案 1.基于某种藏文输入编码制定词组输入编码方案，并建立相应输入法词库。
每个输入法都必然对应着其特定的词库，本发明中，首先选择一种现有的藏文输入编码或键盘布局，或者也可以重新开发一种藏文输入编码，并选择藏文字体的内码。在各种输入法编码中，有一个藏文字母仅对应一个字符的，也有对应多个字符的，例如Wylie编码，比较而言，前者重码稍少且实现难度小些。对于字体而言，目前提倡使用跨平台的国际统一内码Unicode字体，尤其是Windows支持藏文处理之后，各种基于Unicode的字体相继发布，已经可以满足藏文信息处理各种不同的需求。以Wylie编码为例，可以按如图2所示来设计输入法词库的结构，词库由Wylie转写编码、词组编码、词频三部分组成。词库中词频，可以通过语料词频统计程序事先统计计算得到，也可以先给定一个统一的初始值，例如1，此时词库中的词条先按藏文字母的排序存放，然后根据用户的实际使用情况调整词频，这种方法简单实用，易于实现。
词库的建立可按下面步骤进行 1)词条材料的搜集，可从互联网搜索相关的词汇表、词典等材料，这种方法效率最高，也可从纸质材料中通过OCR识别或人工录入获取； 2)词条的抽取和转换，可开发相应的抽取工具或使用功能强大的正则表达式工具，对搜集的材料进行词条抽取和转换； 3)将获取的词条归并到输入法词库中，可设计专门的程序模块负责此项工作。
建立词库后，输入法就有了坚实的基础了，词库的词条越丰富，输入法输入效率就越高。 2.建立基于词库的输入法引擎基于词库的输入法引擎主要由用户界面、内码转换模块和词组查询模块组成，如
图3所示。内码转换模块主要实现由Wylie编码串转换成藏文Unicode内码的功能；而词
组查询模块负责将用户输入的词组编码串与用户词库和输入法词库中的词组编码进行匹
配查找，然后将匹配的词条按词频顺序排序，送给内码转换模块及用户界面；另外，词组查
询模块还负责将用户新造词汇存入用户词库中。 3.输入过程如图4所示，当用户输入编码时，相应的藏文立刻显示在藏文结果区内，此时，若
按一个空格键，则根据编码在词库中搜索相应词组，其结果将显示在词组候选区中，再按一
个空格键则选中候选区中的第一个候选词组，或按相应的数字键进行词组选择，并将结果
区内的所有藏文送到应用程序的文字编辑窗；若按回车键，可直接将结果区内的所有藏文
送到应用程序的文字编辑窗；若按"0"键，则把编码区内的所有字串当作用户自定义词组
存入用户词库中，并将结果区内的所有藏文送到应用程序的文字编辑窗。藏文输入过程举例如下 l)Wylie拉丁转写逐字输入方法按Wylie拉丁转写输入规则输入音节，字节之间按空格键为字节分隔符"，"，例如，词组q3,^'q^'^^^的Wylie输入法的编码串为"bkrashis bde legs"。此时按回车键，
可直接将结果区内的q珥,^q^'a^^送到应用程序的文字编辑窗中； 2)词组输入方法在输入藏文编码的过程中，若按空格键，输入法引擎将输入编码串中最后一个音节编码作为词组输入的编码，在词库中进行匹配查询，例如，当输入了以下字符串"bkrashis bde legs yskg"，此时若按下空格键，输入法引擎将"yskg"作为词组编码，在词库中进行匹配查询，查到了两个候选词显示在候选区中，如图5所示。此时再按一个空格键可选取候选区中的第一个候选词组，也可用数字键选取候选区中的词组，必要时，可用"-"键和"+ "键，或"PageUp"键和"PageDown"键进行翻页。
词组输入的编码有以下几种形式 (1)词组编码直接由每个音节的字根编码的首字符组成，如^U,^"^^^的
输入编码为"ksdl"。对于四个音节以上较长的词组，这种方法重码少，效率高，而对于二字词组等较短词组来说可能重码较多，此时可采用下一种编码； (2)为了减少重码，可在某些字根辅音后添加元音，如qg^'g可用的输入编码为
"kisu"， 13'qS^^S可用的输入编码为"gki s "或"guks "或"gukisu"等； (3)在词组编码末尾后添加星号"*"，表示星号"*"之后为任意通配，一般用于四、五字以上词组的情况，此时不需输完所有字根，不用翻页或少翻页便可寻到词
组，例如的输入编码可以是"kbocp*"或"kebocp*"等；q气^'ffizip'a^'『'c^'^ii'q'c^'c^的输入编码为"dclg*"或"doclg*"等。
3)用户自定义词组记忆可通过按"0"键，把输入编码区内的所有字串当作用户自定义词组存入用户词库中，作为输入法词库的补充。用户词库中的词组将优先排在候选表之前，系统将根据词组的使用频度自动排序。
权利要求
一种基于简拼的藏文词组输入法，其特征在于，以藏文字根及元音的有效组合形成词组编码，适用于当前藏文输入编码和键盘布局，进一步，词组输入方案具体为以构成词组的各音节的字根辅音字母以及元音字母的组合作为该词组的输入编码，输入时，其中字根辅音字母是必需的；同时，当某字根的输入编码由多个键盘字符组成时，则仅用该字根的首字符，当词组音节数较长时，可用*号作为通配符，不必输入剩余字节的编码字符；在整个词组的编码字符串中，音节间不加空格。
2. 根据权利要求1所述的一种基于简拼的藏文词组输入法，其特征在于，包括基于词库的输入法引擎，输入法引擎由用户界面、内码转换模块和词组查询模块组成；进一步内码转换模块用于将输入法编码串转换成藏文内码；词组查询模块用于将用户输入的词组编码串与用户词库和输入法词库中的词组编码进行匹配查找，然后将匹配的词条按词频顺序排序，送给内码转换模块及用户界面；此外，词组查询模块将用户新造词汇存入用户词库中。
全文摘要
本发明涉及一种藏文词组输入法。这种方法主要利用藏文字根及元音字符的有效组合形成编码，适用于当前流行的多种藏文输入编码或键盘布局，具有重码低，易于实现，易于建立和扩充词库等特点，且符合藏文书写的自然思维方式，容易理解，且容易使用。
文档编号G06F3/023GK101788852SQ20101010347
公开日2010年7月28日申请日期2010年1月27日优先权日2010年1月27日
发明者黄战申请人:暨南大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄战
技术所有人：暨南大学
我是此专利的发明人

上一篇：达托霉素生产菌玫瑰孢链霉菌的代谢网络分析方法
上一篇：一种实现核销的方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。