一种兼容多种转写的输入梵语的方法、系统及装置与流程

文档序号:11807445阅读:1111来源:国知局
一种兼容多种转写的输入梵语的方法、系统及装置与流程
本发明涉及一种兼容多种转写的输入梵语的方法、系统及装置。
背景技术
:IAST是国际梵语转写字母的英语名称(InternationalAlphabetofSanskritTransliteration)的缩写,是学术上对于梵语转写的标准,亦变成了一般出版界,如书籍及杂志的非业界标准。随着Unicode字型的普及,它在电子文本的使用亦因此而相应地增加。这项标准是于1912年在雅典举行的东方学会议(InternationalCongressofOrientalists)上订立的,而它又基于了1894年在日内瓦举行的东方学会议制定的标准。[1][2]IAST是罗马化梵语和巴利语的最流行的方案,它允许无损的天城文转写(和其他的印度文字比如克什米尔语的传统文字夏拉达文的转写),而且不只是梵语的音素,还允许本质上的语音标注(比如是词尾的r和s的同位异音)。天城文又称“天城体”是印度和尼泊尔的一种文字,用来书写印地语、梵语、尼泊尔语、孟加拉语等语言。天城文最早出现在13世纪初,是城文变体之一,天城文是对城文的改良而成,改良后的城文为突出其神圣加多了个梵文“天”字成为天城文。城文来自笈多文,笈多文犹如印度的其他文字一样,源自于前3世纪的婆罗米文。现在亚洲不少民族使用的字母与天城文的关系密切,而从帕拉瓦文派生的文字则在缅甸、泰国、柬埔寨、老挝等地使用。现有技术中只有google、keyman可以分别输入梵语天城体,或是罗马转写,并且候选项列表也很少,或是没有。技术实现要素:本发明所要解决的技术问题是,针对现有技术的不足,提供一种兼容多种转写的输入梵语的方法及系统,其基于三种国际罗马化拉丁字符转写标准下的输入模式进行输入,使熟悉不同转写的用户都能熟练操作输入梵语,在输入过程中也能随时切换,提高输入效率。本发明解决上述技术问题的技术方案如下:一种兼容多种转写的输入梵语的方法,包括以下步骤:S1,接收用户输入的字符串,获取当前输入的字符串的输入模式;S2,根据所述输入模式调用预存的对应列表,根据所述列表得到对应所述字符串的拉丁字符串;S3,根据外部输入的选择指令,输出所述拉丁字符串或对应所述拉丁字符串的天城体字符串。本发明的有益效果是:本发明支持天城体/罗马化拉丁文字母转写字体的混合录入,同时支持基于国际罗马化拉丁字母转写标准下的IAST、HK,ITrans三种输入模式;优化了现有转写规则的歧义问题;支持百万级词条的列表,查询快速而准确,并能记录用户的输入信息,查询结果个体化,有着较好的用户体验。在上述技术方案的基础上,本发明还可以做如下改进。进一步,所述字符串的输入模式包括基于国际罗马化拉丁字母转写标准下的IAST、HK和ITRANS三种输入模式。IAST:是国际梵语转写字母的英语名称(InternationalAlphabetofSanskritTransliteration)的缩写,是学术上对于梵语转写的标准,亦变成了一般出版界,如书籍及杂志的非业界标准。HK:哈佛-京都转写(Harvard-KyotoConvention)是使用天城体的梵语和其他语言的ASCII码转写方案。ITRANS:印度语言转写(IndianlanguagesTRANSliteration简写为ITRANS)是印度文字,特别但不限于天城体(用于印度语、马拉地语、梵语、尼泊尔语、信德语和其他语言)的ASCII码转写。它由AvinashChopde开发。最新版本ITRANS5.30是2001年七月的发布。ITRANS在这个版本已经稳定了。进一步,所述预存的列表包括第一转写列表、第二转写列表和第三转写列表;所述第一转写列表用于存储IAST输入模式下的字符串及与其相对应的拉丁字符串;所述第二转写列表用于设置HK输入模式下的字符串及与其相对应的拉丁字符串;所述第三转写列表用于设置ITRANS输入模式下的字符串及与其相对应的拉丁字符串。采用上述进一步方案的有益效果是,通过三种标准的国际罗马化拉丁字母转写标准下的输入模式输入的字符串与拉丁字符串相对应,可以实现正确的输入。进一步,所述IAST输入模式、HK输入模式和ITRANS输入模式通过外部控制实现互相切换。采用上述进一步方案的有益效果是,通过一种模式进行输入时,用户通过快捷键或按键切换,可以转换为其他模式进行输入,切换过程不影响下一步处理。进一步,所述S3具体包括:根据外部输入的选择指令,判断是否输出天城体,如果是,对应所述拉丁字符串的天城体字符串去重后生成候选列表并输出;否则,将所述拉丁字符串去重后生成候选列表并输出。采用上述进一步方案的有益效果是,使用候选列表可以使用户输入更快捷,随着输入字符的增加,候选列表随时变化,当出现用户需要的字符时,用户通过点击选中,即可达到输入的目的;去重保证输出的候选列表中不存在重复的字符串,以保证输出的都是有效字符串。进一步,所述天城体字符串构成的候选列表中,当第一个字符串为单个带元音的辅音字符时,将所述辅音字符中带的元音插入到候选列表中的第二个字符串的位置上。列表中都是字符串,但是字符串也有只包含单个字符的情况。如不带元音a的辅音和带元音a的辅音天城体的辅音不带a时底下有止音符号在第一个字符串,只包含一个字符,有两种可能性,元音或辅音时,如或不带元音a的辅音和带元音a的辅音时。就在第二个位置插入该元音对应的元音符号,如注:元音里只有没有元音符号,当辅音加上他时去掉止音符辅音是元音的元音符号。进一步,所述候选列表中的字符按照权重值由大到小进行排序。采用上述进一步方案的有益效果是,通过权重值对字符进行排序后,用户首先查看到的是选中频率高的字符,更能适应用户的使用习惯,使用户输入更快捷。进一步,所述字符串的权重值按照以下规则获得:一个字符串在历史记录中被选中一次,则所述字符串对应的权重值加一;在历史记录中,出现连续至少两次输入同样字符串,则第一次选中的字符串其对应的权重值减一。采用上述进一步方案的有益效果是,所述权重值是根据用户的使用习惯生成的,通过用户的使用和自学习的功能,对用户经常输入的字符自动联想,保证输入的更快捷;权重值为高频词增加权重;智能纠错:两次或多次输入同样的字串,极大可能前一次选择候选列表时出现了误操作,因此降低前一次单词的权重。进一步,所述第一转写列表、第二转写列表和第三转写列表中还分别存储有所有拉丁字符串及与其相对应的天城体字符串。本发明解决上述技术问题的技术方案如下:一种兼容多种转写的输入梵语的系统,包括:接收模块、对照模块和输出模块;所述接收模块,接收用户输入的字符串,获取当前输入的字符串的输入模式;所述对照模块,根据所述输入模式调用预存的对应列表,根据所述列表得到对应所述字符串的拉丁字符串;所述输出模块,根据外部输入的选择指令,输出所述拉丁字符串或对应所述拉丁字符串的天城体字符串。本发明解决上述技术问题的技术方案如下:一种兼容多种转写的输入梵语的装置,包括如上所述的一种兼容多种转写的输入梵语的系统,还包括输入设备和输出设备;所述输入设备用于录入用户输入的字符串,并将字符串发送到系统中,系统经过处理输出拉丁字符串或天城体字符串;所述输出设备用于显示系统输出的拉丁字符串或天城体字符串。附图说明图1为本发明实施例1所述的一种兼容多种转写的输入梵语的方法流程图;图2为本发明实施例1所述的一种兼容多种转写的输入梵语的系统结构示意图;图3为本发明实施例3所述的一种兼容多种转写的输入梵语的装置结构示意图。附图中,各标号所代表的部件列表如下:1、接收模块,2、对照模块,3、输出模块,10、兼容多种转写的输入梵语的系统,20、输入设备,30、输出设备。具体实施方式以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。如图1所示,为本发明实施例1所述的一种兼容多种转写的输入梵语的方法,包括以下步骤:S1,接收用户输入的字符串,获取当前输入的字符串的输入模式;S2,根据所述输入模式调用预存的对应列表,根据所述列表得到对应所述字符串的拉丁字符串;S3,根据外部输入的选择指令,输出所述拉丁字符串或对应所述拉丁字符串的天城体字符串。S2中所述列表只有天城体和对应的罗马化拉丁文转写字母,天城体和对应的罗马化转写列表各100万条列表。所述字符串的输入模式包括基于国际罗马化拉丁字母转写标准下的IAST、HK和ITRANS三种输入模式。所述预存的列表包括第一转写列表、第二转写列表和第三转写列表;所述第一转写列表用于存储IAST输入模式下的字符串及与其相对应的拉丁字符串;所述第二转写列表用于设置HK输入模式下的字符串及与其相对应的拉丁字符串;所述第三转写列表用于设置ITRANS输入模式下的字符串及与其相对应的拉丁字符串。所述IAST输入模式、HK输入模式和ITRANS输入模式通过外部控制实现互相切换。所述S3具体包括:根据外部输入的选择指令,判断是否输出天城体,如果是,将对应所述拉丁字符串的天城体字符串去重后生成候选列表并输出;否则,将所述拉丁字符串去重后生成候选列表并输出。所述天城体字符串构成的候选列表中,当第一个字符串为单个带元音的辅音字符时,将所述辅音字符中带的元音插入到候选列表中的第二个字符串的位置上。所述候选列表中的字符按照权重值由大到小进行排序。所述字符串的权重值按照以下规则获得:一个字符串在历史记录中被选中一次,则所述字符串对应的权重值加一;在历史记录中,出现连续至少两次输入同样字符串,则第一次选中的字符串其对应的权重值减一。所述第一转写列表、第二转写列表和第三转写列表中还分别存储有所有拉丁字符串及与其相对应的天城体字符串[一]最小单位一个键符:如:天城体拉丁文转写k;[二]组合键:基本规律,如下例:输入方案:辅音+a,所见符号+字母=所要字符,如:-+a=ā,此规则原则又可分为15类。输入方法:一般的文献为了使用者用转写方案表示,专业文献研究为了使用方便格式如此,因此,使用者可根据拉丁文转写,如上加横杠类,输入-再输入对应的英文字符,得到相应的字体。例如:输入-a在IAST模式下得到ā,在天城体模式下得到,根据梵语语法规则,元音在单独,或作为词汇首字母出现时为原型,不符号形式出现,如:当元音在辅音后面出现则为符号形式,如:元音īūō都是遵循这一规则。波斯音素IAST输入遵循-+g的原则,天城体模式下遵循辅音规则。的输入为(2)上向左斜点:áúé(3)上右斜点:àèò;(4)上为^号:(4)上为和上为~:(5)上加点:(6)下加点:(8)上横下点:(9)上横下圈:(10)上斜点横:(11)下横线:k_h_nlrdb;(12)下为两点..:t..s..h..;(13)上为(14)(15)对这些字符根据所见即所得,联想输入的方法,不必切换到不同语种的输入法而得到该字符,同时可以在word、记事本、写字板、浏览器里使用,如用户输入在IAST的转写模式下,输入“c,”既可以得到在IAST的天城体模式下输入“c,”既可以得到对应的天城体天城体的合写规则和变形:(1)两个天城体符号结合后特殊变形:转写为转写为tra;转写为转写为(2)有时横划代替中的特殊画,如t+ta=tta;中的圆圈变为横画,(字体Sanskrit2003,正常显示),k+ta=kta。(3)在不带元音a结尾的辅音之后,变为辅音下斜线,如k+ra=kra。(4)在带元音a结尾的辅音或元音之后,加在后字母上,以符号出现,如:(5)的变形,如【二】列表转写测试程序,遵循梵语语音规则,因为巴利语语法规则简单涵盖在梵语里,因此以梵语语音规则为基础,软件模拟转写规则,一一录入编码字符串,服务器获取字符串,查询对应编码,如不在对应字符编码内,将以红色字体再相应例和行里显示,可直接修改错误文件,再次检验。【三】梵语列表包含了,有同一字根的单词的形式的变形:阳、中、阴三性;体、业、具、为、从、属、依、呼八个格的变形;单数、双数、复数变化。列表包含最权威的Formesfléchiesdusanscrit(梵语词形屈折变化查询词典),包括了梵语名词、动词的词性、格的所有变化规律,合并相同字符后大约61,1317个列表,(1)动词。如下图:以动词gam的变形为例,又可以分为三类动词,每一类动词又具备不同的变化形式,比如gam第一类动词的现在时变化:-现在时-转写Passive单数双数复数第一人称gamyegamyāvahegamyāmahe第二人称gamyasegamyethegamyadhve第三人称gamyategamyetegamyantePassive单数双数复数第一人称gamyegamyāvahegamyāmahe第二人称gamyasegamyethegamyadhve第三人称gamyategamyetegamyante(2)名词。名词又分为阳、中、阴三性;体、业、具、为、从、属、依、呼八个格的变形;单数、双数、复数变化。(3)当用户输入编码字符串;获取对应所述编码字符串的候选项列表;通过服务器查找是否有对应的候选项,当所输入错误或漏输,候选列表查询,则不出现在候选项里。所述拉丁字符与天城体字符之间通过预设的对应规则实现对应,其中拉丁字符与天城体字符一对一或多对一对应。基本字符:元音:天城体元音的原型为10个,元音符号为9个,对应的拉定文转写字符为19个。单元音列表如表1所示:表1注1:a没有元音符号,因每一元音都固有这一元音:如2:现在规范化后一般天城体转写只对应一个IAST转写方案,本输入法综合了不同历史文献研究出版物中中出现过的对应拉丁文转写方案,可以输入特殊转写,如á也可以得到对应天城体现在通用标准天城体转写为斜线前第一个字母。双元音列表如表2所示:双元音天城体原形为4个,双元音符号4个,对应的拉定文转写字符为9个。表2扩展元音列表如表3所示:扩展元音主要出现在印地语中,天城体原形5个,天城体元音符号4个。拉丁文转写5个。其中的元音符号是一个,都可以对应的转写自身还有一个转写方案为我们为了使用者方便记忆采取元音符号分别对应和用户输入和时可以得到元音符号所述对应规则中对天城体的变形通过变形规则对应不同的拉丁字符串。表3辅助符号列表如表4所示:辅助符号,天城体主要的有4个,拉丁文转写4个。其中在有些文献里会转写为单独录入止音符号的频率很低,因此本输入法按国际转写规则不对单独转写,如特殊需要,可通过天城体屏幕键盘录入,这样能提高录入速度。(1)随韵(anusvāra)梵语规则规定以收尾的词,若遇到的下一个词以辅音起首,则变为随韵(anusvāra),如:使用者可以输入或得到天城体(2)(visarga),“止声”,亦多用于词尾,在梵语规则中常用于替换s、r等(3)(aunāsika),较少出现。梵文中多出现于和的连声。表4辅音列表如表5所示:辅音后不带元音a时,天城体自动显示为代止音符的天城体。如:表5其他符号列表如表6所示:其他符号天城体4个,拉丁文转写8个。(1)天城体有4个对应常用的转写方式,分别录入可以得到对应天城体(2)s转写’(Avagraha)表示初音的省略,如:(3)°为缩略符号,可以通过天城体屏幕键盘或特殊符号录入。(4)|相当于逗号,||相当于句号。表6在具体示例中,天城体与拉丁字符对照关系及拉丁字符与英文字符对照关系如下:其中,元音、母音&元音符号的对照关系如下:IAST输入模式下的对照关系:元音、母音&元音符号符号辅音、子音单辅音集合变形/不规则辅音其他符号数字其他辅音/子音HK输入模式下的对照关系如下:符号辅音、子音单辅音集合变形/不规则辅音其他符号数字ITRANS输入模式下的对照关系如下:符号辅音、子音单辅音集合变形/不规则辅音其他符号数字其他辅音/子音如图2所示,为本发明实施例2所述的一种兼容多种转写的输入梵语的系统,其特征在于,包括:接收模块1、对照模块2和输出模块3;所述接收模块1,接收用户输入的字符串,获取当前输入的字符串的输入模式;所述对照模块2,根据所述输入模式调用预存的对应列表,根据所述列表得到对应所述字符串的拉丁字符串;所述输出模块3,根据外部输入的选择指令,输出所述拉丁字符串或对应所述拉丁字符串的天城体字符串。所述字符串的输入模式包括基于国际罗马化拉丁字母转写标准下的IAST、HK和ITRANS三种输入模式。所述预存的列表包括第一转写列表、第二转写列表和第三转写列表;所述第一转写列表用于存储IAST输入模式下的字符串及与其相对应的拉丁字符串;所述第二转写列表用于设置HK输入模式下的字符串及与其相对应的拉丁字符串;所述第三转写列表用于设置ITRANS输入模式下的字符串及与其相对应的拉丁字符串。所述IAST输入模式、HK输入模式和ITRANS输入模式通过外部控制实现互相切换。所述输出模块包括:根据外部输入的选择指令,判断是否输出天城体,如果是,将对应所述拉丁字符串的天城体字符串去重后生成候选列表并输出;否则,将所述拉丁字符串去重后生成候选列表并输出。所述天城体字符串构成的候选列表中,当第一个字符串为单个带元音的辅音字符时,将所述辅音字符中带的元音插入到候选列表中的第二个字符串的位置上。所述候选列表中的字符按照权重值由大到小进行排序。所述字符串的权重值按照以下规则获得:一个字符串在历史记录中被选中一次,则所述字符串对应的权重值加一;在历史记录中,出现连续至少两次输入同样字符串,则第一次选中的字符串其对应的权重值减一。所述预存的第一转写列表、第二转写列表和第三转写列表中还分别保存所有拉丁字符串及与其相对应的天城体字符串。如图3所示,为本发明实施例3所述的一种兼容多种转写的输入梵语的装置,其特征在于,包括如上所述的一种兼容多种转写的输入梵语的系统10,还包括输入设备20和输出设备30;所述输入设备20用于录入用户输入的字符串,并将字符串发送到系统中,系统10经过处理输出拉丁字符串或天城体字符串;所述输出设备30用于显示系统10输出的拉丁字符串或天城体字符串。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1