国际音标联想式输入法的制作方法

文档序号:6651377阅读:277来源:国知局
专利名称:国际音标联想式输入法的制作方法
技术领域
本发明是一种国际音标联想式输入法,属于计算机文字处理和知识表示领域。
背景技术
国际音标(International Phonetic Alphabet,简称IPA)是一组语言学者和语言工作者用来个别标示各种人类所能发出来的声音(指单音或音素)的语音符号系统,作为统一标示所有语言中语音的标准符号,其中大多数的符号都取自或衍生自罗马字母的小写印刷体,其他的有些来自希腊字母,有些则明显地与其他任何的字母标准毫无关系。国际音标被世界上大多数国家的语言学家和语言教师所广泛接受,许多的语言学著作、辞典和教科书都是用这套符号系统。国际音标最早是在1886年,由语言学家保尔巴西所带领的一群英国和法国语言教师基于教学与研究上的需要,在国际语音学协会的赞助下开发出来的,公布于1888年。最早的国际音标是根据斯威特制订的罗马字母,但之后它又经过数次修正,其最后一次的版本是在1993年,并于1996年又更新一次。国际音标修订和更新工作是由国际音标协会(International Phonetic Association)承担的,并把每次修改都刊登在《语音教师》刊物上。同时,在ISO/IEC 10646编码标准的每一次更新中,对国际音标进行或多或少的补充和更新,这不仅体现在国际音标字符集的数量上,也体现在其使用方法的进一步规范化、标准化。
然而,在文字处理领域对国际音标应用存在诸多问题。不仅应用上不规范,也不符合相关编码标准,因而语言文字应用、教学和研究相关数据的共享与交流等受到极大的限制。例如某人采写的文档离开了作者的计算机就不能正确显示或不能显示国际音标字母和符号。还有以先定义后使用的形式出现了很多不规范的用例,甚至还“诞生”了一些不必要的字符和规则。还因为对某些字母的写法出了偏差,导致文章著作的出版也常常遇到不少障碍。
本发明是基于最权威的ISO/IEC 10646编码标准、适用于现代文字编辑排版应用的国际音标联想式输入法。特别是在语言文字教学和研究领域有非常广泛的市场前景。不仅使国际音标应用更加规范并符合相关编码标准,还解决了国际音标字母和符号多、键位少、字母与符号杂乱无章、一般文字工作者难以掌握,应用不规范等难题。我们将国际音标的字符集,基于ISO/IEC 10646编码的特点分为字母和符号两大类。其中,符号是用来修饰字母,使其对语音的表示更为准确。

发明内容
本发明提供一种国际音标联想式输入法,包括(一)、键字符和国际音标字符之间的对应关系如下所示
其中黑斜体为“键”值,其后字符为“国际音标”(二)、将国际音标符号依据与字母的组合位置分为上、中、下、侧上、侧中和侧下六种类型;(三)、采用单级输入和多级输入相结合的方式输入国际音标。
本发明的国际音标联想式输入法还包括定义实时选择键和引导键,选择键选用数字键1、2、3、4、5、6、7、8、9、0键及空格键;引导键可分为字母引导键和类型引导键字母引导键用于选择候选列表中国际音标字母或国际音标字母和符号预组合候选列表中某一个字母或字母和符号组合,类型引导键用于选择某一个国际音标字母可以组合的国际音标符号类型。
本发明的国际音标联想式输入法定义的类型引导键如下上Q、W、E、R、T键等同;侧上Y、U、I、O、P键等同;中A、S、D、F、G键等同;侧中H、J、K、L、[;]键等同;下Z、X、C、V、B键等同;侧下N、M、[,]、[.]、[/]键等同。
本发明的国际音标联想式输入法采用单级输入和多级输入相结合的方式输入国际音标的输入方式包括一级、二级、三级和四级输入A.一级输入按照字形相似原则,输入相应的拉丁字符,在候选列表中给出该键上所映射的所有国际音标字母,并等待下一级输入;B.二级输入如果输入选择键,则输入相对应的国际音标字母并结束此次输入过程;如果输入国际音标字母引导键,则选中相对应的字母,在候选列表中给出此字母能组合的符号类型,并等待下一级输入;C.三级输入输入类型引导键,据此选择国际音标符号类型(上、中、下、侧上、侧中、侧下),在候选列表中给出字母和所有这个类型符号的预组合,并等待四级输入;D.四级输入依据输入的选择键,输入相对应的国际音标字母和符号组合并结束此次输入过程。
本发明的国际音标联想式输入法借鉴操作系统国际化框架定义了面向多种语言(对象)的国际音标特征知识库,知识库继承顺序为语系、语族、语言、方言、次方言。
本发明的国际音标联想式输入法语言对象的国际音标知识库数据采用XML语言表示和存储,其中主要数据结构由知识库属性表、字符索引表、基数表、特征表、关联表、和顺序表组成。
本发明的国际音标联想式输入法定义虚拟字母键,用于输入各种单个国际音标符号。
本发明的国际音标联想式输入法输入各种单个国际音标符号包括一级、二级和三级输入A、一级输入用于输入系统预定义或用户自定义的虚拟字母键,在候选列表中给出六个国际音标符号类型;B、二级输入输入类型引导键,依据选择的国际音标符号类型(上、中、下、侧上、侧中、侧下)给出字母和所有这个类型符号的预组合候选列表,C、三级输入依据输入的选择键,输入相对应的国际音标符号并结束此次输入过程。
本发明的国际音标联想式输入法定义树形引导式软键盘。
本发明是一种基于ISO/IEC 10646编码标准,面向多种语言的国际音标联想式输入法(IPA Associable Input Method)。其特征为一、基于最为权威的ISO/IEC 10646编码标准。二、国际音标字符根据与拉丁字符字形相似的原则分布在键盘上。三、定义了面向多种语言的国际音标特征知识库。四、采用单级输入与多级输入相结合的策略。五、定义了实时选择键和引导键。六、定义了虚拟字符键,用于引导输入单个国际音标符号。七、定义了树形引导式软件盘。
本发明是基于最权威的ISO/IEC 10646编码标准、适用于现代文字编辑排版应用的国际音标联想式输入法。特别是在语言文字教学和研究领域有非常广泛的市场前景。不仅使国际音标应用更加规范并符合相关编码标准,还解决了国际音标字母和符号多、键位少、字母与符号杂乱无章、一般文字工作者难以掌握,应用不规范等难题。我们将国际音标的字符集,基于ISO/IEC 10646编码的特点分为字母和符号两大类。其中,符号是用来修饰字母,使其对语音的表示更为准确。


附图1为国际音标特征知识库语言对象继承结构模型图;附图2是国际音标字符和符号组合的输入流程图;附图3是根据本发明实施例国际音标符号分类图;附图4是根据本发明实施例国际音标符号的输入流程图。
附图5是根据本发明实施例树形引导式软键盘。
具体实施例方式
下面将结合附图详细描述本发明。
在国际音标联想式输入法中,将国际音标字母,按与拉丁字母字形相似的原则分布在键盘上。这样有助于用户对键盘分布的记忆或不用记忆键盘分布而根据字形的相似性直接进行输入。基于国际音标1993年(1996年的修订)版本,采用ISO/IEC 10646编码标准给出了《国际音标字母映射表》(附件一)。
由于国际音标的版本和ISO/IEC 10646编码标准也都在不断更新,上表也会依据相关规范和标准的更新而需要进行更新。
下面介绍国际音标特征知识库。
组织(继承)结构附图1为国际音标特征知识库语言分类模型结构图。在国际音标联想式输入法中,借鉴操作系统国际化框架(118N Frame)定义了面向多种语言的国际音标特征知识库(Knowledge Base,简称KB)。例如,知识库继承顺序为语系、语族、语言、方言、次方言等。
语系(Phylum)是语言学的概念,根据语言的发展和演变、直接而明显的关联,对语言进行归类的方法定义的概念,简称“系”(PH)。
语族(Austronesian)也是语言学的概念,是主要依据语言语音、词汇、语法规则之间某些对应关系定义的,简称为“族”(AU)。
语言(Language)是语言学的概念,是一套通过表示方法和合乎逻辑的语法构成的进行沟通和推理的系统。许多语言通过手势、声音、符号和文字,目的是交流观念、意见、思想和含义等,简称为“语”(LA)。
方言(Dialect)是语言学里语系的概念,是一个特定地理区域中某种语言的变体,其相关判断依据是非常主观的,简称为“方”(DI)。
次方言(Hypo-Dialect)是民间传统说法中的定义或因特殊需要而定义的、有明显自有特点的狭义方言,简称为“次”(HD)。
标示方法用知识库ID的方式来标示语言对象(可以是语系、语族、语言和方言)的继承结构,即蒙古语内蒙古方言的知识库ID为AL_MO_IM,而内蒙古方言的科尔沁次方言为AL_MO_IM_HO。例如AL_MO_IM[Altai]+[Mongolian]+[Inner-Mongolia]AL_MO_IM_HO[Altai]+[Mongolian]+[Inner-Mongolia]+[Horqin]
语系、语族、语言、方言和次方言ID的获取规则如果英文名称只有一个单词,则去前两字母的大写形式,如果ID重名,则舍弃第二个字母并取其下一个字母。如果还发生重名,则依次类推。
如果英文名称有两个或两个以上的单词,则去第一个和第二个词首字母的大写形式。如果ID重名,则舍弃第二个词的第一字母并取其下一个字母。如果还发生重名,则依次类推。
特征表示某一个语言对象(可以是语系、语族、语言和方言)的国际音标知识库数据采用XML语言表示和存储,其中主要数据结构有知识库属性表、字符索引表、基数表、特征表、关联表、和顺序表等组成。其中,基数表也对用户的国际音标字符使用频率提供格式化存储结构。
知识库(Knowledge Base)知识库(Knowledge Base,简称为KB)全部采用XML语言组织和表示其所含的各种数据表,也是知识库的存储方式。
<?xml version=″1.0″encoding=″utf8″?>XML版本、编码<!--MenkIPA Processing System Knowledge Base-->注释<KBVersion=″XX.XX.XX″> 知识库版本<LibVersion=″XX.XX.XX″> 程序库版本<KBTables> 定义表——开始<Table Name=″Header″Value=″True″> 属性表<Table Name=″Base″Value=″True″> 基数表<Table Name=″Feature″Value=″True″>特征表<Table Name=″Context″Value=″True″>关联表<Table Name=″Order″Value=″True″> 顺序表
</KBTables>定义表——结束<Header> 属性表……</Header>
<Mapping> 字符索引表……</Mapping>
<Base> 基数表……</Base>
<Feature> 特征表……</Feature>
<Ligature> 关联表……</Ligature>
<Order>顺序表……</Order>
……<!--Knowledge Base End--> 注释——结尾属性表(Header)国际音标知识库属性表主要用于描述当前知识库的相关属性,例如知识库ID及名称、创建和修改相关的属性等等。从知识库ID能够得到知识库的继承关系。下面以AL_MO_MO_IM,即阿尔泰语系——蒙古语族——蒙古语——内蒙古方言为例,对属性表进行简要说明<Header>
<Param Name=″KBID″Value=″AL_MO_MO_IM″>
<Param Name=″Name″Value=″Inner Mongolia″>
<Param Name=″String″Value=″蒙古语内蒙古方言″>也可以是其它文字<Param Name=″Creator″Value=″Husela.Lang″>创建者<Param Name=″CEmail″Value=″″>创建者信箱<Param Name=″CDateTime″Value=″2005-05-24″> 创建日期<Param Name=″Modifier″Value=″Goshawk″> 最后修改者<Param Name=″CEmail″Value=″husela@gmail.com″>修改者信箱<Param Name=″MDateTime″Value=″2005-08-30″> 修改日期<Param Name=″Owner″Value=″Menksoft Co.Ltd.″> 所有者<Param Name=″CopyRight″Value=″All Rights Reserved″> 版权声明<Param Name=″Link″Value=″www.menksoft.com/IPA/KB.html″>
……</Header>
字符索引表(IPAMap)国际音标知识库字符索引表定义三个参数,即字符索引(Index)、字符名称(Name)和字符编码(Code),给出字符索引、字符名称和字符编码之间的映射关系。这样可以在后续的各个数据表中可以使用字符名称,而不必去使用字符编码,这样也可以增强知识库的易维护性。
<Mapping>
<IPA>
<!--Code Field Encoding by BMP of Unicode-->
<IPALetter Index=″0″Name=″Latin_a″Code=″0x0061″>
<IPALetter Index=″1″Name=″Latin_b″Code=″0x0062″>
<IPALetter Index=″2″Name=″Greek_a″Code=″0x0161″>
<IPALetter Index=″3″Name=″Greek_b″Code=″0x0161″>
……
<IPASign Index=″n″Name=″Sign_b″Code=″0x02B2″>
……</IPA>
<Script>
……</Script></Mapping>
基数表(Base)国际音标知识库基数表给出每一个国际音标字符在当前语言对象(可以是语系、语族、语言和方言)上的基数,国际音标字符基数是有限语料的不完全统计得出的数据。国际音标字符(由Name字段标示)基数(由Value字段表示)等价于字符在有限语料中出现的百分数,我们通常不采用百分数,而采用万分数。这里所指有限语料是,在当前语言对象的范畴内,基于筛选出来的语言素材,整理出来的较规范国际音标文本。<Base>
<IPAchar Name=″Latin_a″Value=″25″>
<IPAchar Name=″Latin_b″Value=″17″>
<IPAchar Name=″Greek_a″Value=″0″>
<IPAchar Name=″Greek_b″Value=″4″>
……<IPAchar Name=″IPA_a″Value=″109″>
……</Base>
选择当前语言知识库输入国际音标时,基于国际音标字符基数,并结合用户实时输入累计值重新计算获得字符的实时频度,对国际音标字母或符号候选列表进行重新排序。方法如下
假设实时频度为F,字符基数为B,累计值为X,则F=B+(X MOD K)(默认为10,用户可设定为1至100。
特征表(Feature)所认可国际音标与其语言对象的字母之间二维数据表,即行为和语言对象的拉丁转写、列为国际音标字符。这一表适合用于音素文字对象。此表对国际音标的模糊拼读输入提供基于上下文的特征知识和应用策略。<Feature>
<LookupList>
<LookupIndex Index=″0″Type=″1″>
<LookupIndex Index=″2″Type=″2″>
<LookupIndex Index=″3″Type=″3″>
……</LookupList>
<Lookup Index=″0″Type=″1″>
<Input Index=″0″Type=″0″>
<Letter Index=″0″Value=″n″>
<Letter Index=″0″Value=″b″>
<Letter Index=″0″Value=″p″>
……</Input>
<Input Index=″1″Type=″1″>
<Letter Index=″0″Value=″Latin_a″>
<Letter Index=″0″Value=″Greek_a″>
<Letter Index=″0″Value=″IPA_a″>
……</Input>
……
<Output Index=″1″Type=″1″>
<IPA Index=″0″Value=″Latin_a″>
<Letter Index=″0″Value=″Greek_a″>
<Letter Index=″0″Value=″IPA_a″>
……</Output>
</Lookup>
<Lookup Index=″1″Type=″2″>
……</Lookup>
……</Feature>
关联表(Ligature)国际音标关联表,基于语言对象的语音基本单位,给出其相应有限个国际音标组合。语言(福音、元音)上下文特征。这个表适合用于汉藏语系中的汉语、藏语等语言对象。此表也对国际音标的模糊拼读输入提供基于上下文的特征知识和应用策略。下面以汉语(拼音)为例<Ligature>
<RecordList>
<RecordIndex Index=″0″Type=″1″>
<RecordIndex Index=″1″Type=″2″>
……</RecordList>
……<Record Index=″1″Type=″2″>
<Input Index=″0″Type=″0″>
<Letter Index=″0″Value=″n″>
<Letter Index=″0″Value=″b″>
……</Input>
<Input Index=″1″Type=″1″>
<Letter Index=″0″Value=″a″>
……</Input>
……<Output Index=″0″Type=″0″>
<IPA Index=″0″Value=″Latin_n″>
<IPA Index=″0″Value=″Latin_b″>
</Output>
<Output Index=″1″Type=″1″>
<IPA Index=″0″Value=″Latin_a″>
……</Output>
……</Record>
……</Ligature>
顺序表(Order)当知识库并用《特征表》和《关联表》时,以正则表达式形式给出相关规则的应用顺序,依次获得更为准确的结果。特别是这两个表的处理方法发生有二义时,也依据此表中定义的次序来决定。
如附图2所示,国际音标联想式输入法将采用单级输入与多级输入相结合的输入。其中包括一级、二级、三级和四级输入A.一级输入按照字形相似原则,输入相应的拉丁字符,在候选列表中给出该键上所映射的所有国际音标字母,并等待下一级输入;B.二级输入如果输入选择键,则输入相对应的国际音标字母并结束此次输入过程;如果输入国际音标字母引导键,则选中相对应的字母,在候选列表中给出此字母能组合的符号类型,并等待下一级输入;C.三级输入输入类型引导键,据此选择国际音标符号类型(上、中、下、侧上、侧中、侧下),在候选列表中给出字母和所有这个类型符号的预组合,并等待四级输入;D.四级输入依据输入的选择键,输入相对应的国际音标字母和符号组合并结束此次输入过程。
如附图3所示,过急音标处理系统中,将国际音标符号依据与字母的组合位置分为上(字母上面)、中(与字母交叉)、下(字母下面)、侧上(字母侧面上端)、侧中(字母侧面中端)和侧下(字母侧面下端)等六种类型。
国际音标联想式输入法定义了实时选择键和引导键,这样输入变得更加简单、灵活。选择键选用数字键1、2、3、4、5、6、7、8、9、0键及空格键。引导键要分字母引导键和类型引导键两种字母引导键是用于选择国际音标字母候选列表或国际音标字母和符号组合候选列表中的某一个字母或字母和符号组合。
类型引导键是用于选择某一个国际音标字母可以组合的国际音标符号类型。可选类型有六个,其具体分类请参考下一节《符号分类》的内容。
其类型引导键定义如下上Q、W、E、R、T键等同;侧上Y、U、I、O、P键等同;中A、S、D、F、G键等同;侧中H、J、K、L、[;]键等同;下Z、X、C、V、B键等同;侧下N、M、[,]、[.]、[/]键等同。
如附图4所示,国际音标联想式输入法定义了虚拟字母键。以虚拟字母键为引子,方便快捷地输入各种单个国际音标符号。其中包括一级、二级和三级输入A、一级输入用于输入系统预定义或用户自定义的虚拟字母键,在候选列表中给出六个国际音标符号类型;B、二级输入输入类型引导键,依据选择的国际音标符号类型(上、中、下、侧上、侧中、侧下)给出字母和所有这个类型符号的预组合候选列表,C、三级输入依据输入的选择键,输入相对应的国际音标符号并结束此次输入过程。
如附图5所示,国际音标联想式输入法,将依据输入流程定义了独特的树形引导式软键盘。
以上对本发明的实施方式进行了详细的说明,应当理解的是上述实施例仅仅是示例性的,在不脱离本发明权利要求的精神和范围的条件下,可以对本发明进行各种修改和变化。




权利要求
1.一种国际音标联想式输入法,包括(一)、字符和字符列表之间的对应关系如下所示 其中黑斜体为“键”值,其后字符为“国际音标”(二)、将国际音标符号依据与字母的组合位置分为上、中、下、侧上、侧中和侧下六种类型;(三)、采用单级输入和多级输入相结合的方式输入国际音标。
2.根据权利要求1所述的国际音标联想式输入法,其特征在于还包括定义实时选择键和引导键,选择键选用数字键1、2、3、4、5、6、7、8、9、0键及空格键;引导键可分为字母引导键和类型引导键字母引导键用于选择候选列表中国际音标字母或国际音标字母和符号预组合候选列表中某一个字母或字母和符号组合,类型引导键用于选择某一个国际音标字母可以组合的国际音标符号类型。
3.根据权利要求2所述的国际音标联想式输入法,其特征在于还包括定义类型引导键如下上Q、W、E、R、T键等同;侧上Y、U、I、O、P键等同;中A、S、D、F、G键等同;侧中H、J、K、L、[;]键等同;下Z、X、C、V、B键等同;侧下N、M、[,]、[.]、[/]键等同。
4.根据权利要求3所述的国际音标联想式输入法,其特征在于采用单级输入和多级输入相结合的方式输入国际音标的输入方式包括一级、二级、三级和四级输入A.一级输入按照字形相似原则,输入相应的拉丁字符,在候选列表中给出该键上所映射的所有国际音标字母,并等待下一级输入;B.二级输入如果输入选择键,则输入相对应的国际音标字母并结束此次输入过程;如果输入国际音标字母引导键,则选中相对应的字母,在候选列表中给出此字母能组合的符号类型,并等待下一级输入;C.三级输入输入类型引导键,据此选择国际音标符号类型(上、中、下、侧上、侧中、侧下),在候选列表中给出字母和所有这个类型符号的预组合,并等待四级输入;D.四级输入依据输入的选择键,输入相对应的国际音标字母和符号组合并结束此次输入过程。
5.根据权利要求1-4任何一项权利要求所述的国际音标联想式输入法,其特征在于借鉴操作系统国际化框架定义了面向多种语言的国际音标特征知识库,知识库继承顺序为语系、语族、语言、方言、次方言。
6.根据权利要求5所述的国际音标联想式输入法,其特征在于语言对象的国际音标知识库数据采用XML语言表示和存储,其中主要数据结构由知识库属性表、字符索引表、基数表、特征表、关联表、和顺序表组成。
7.根据权利要求6所述的国际音标联想式输入法,其特征在于定义虚拟字母键,用于输入各种单个国际音标符号。
8.根据权利要求7所述的国际音标联想式输入法,其特征在于输入各种单个国际音标符号包括一级、二级和三级输入A、一级输入用于输入系统预定义或用户自定义的虚拟字母键,在候选列表中给出六个国际音标符号类型;B、二级输入输入类型引导键,依据选择的国际音标符号类型(上、中、下、侧上、侧中、侧下)给出字母和所有这个类型符号的预组合候选列表,C、三级输入依据输入的选择键,输入相对应的国际音标符号并结束此次输入过程。
9.根据权利要求8所述的国际音标联想式输入法,其特征在于定义树形引导式软键盘。
全文摘要
本发明是一种基于ISO/IEC 10646编码标准面向多种语言的国际音标联想式输入法(IPA Associable Input Method)。其特征为一、国际音标字符根据与拉丁字符字形相似的原则分布在键盘上。二、定义了面向多种语言的国际音标特征知识库。三、采用单级输入与多级输入相结合的策略。四、定义了实时选择键和引导键。五、定义了虚拟字符键,用于引导输入单个国际音标符号。六、定义了树形引导式软件盘。本发明解决了国际音标字母和符号多,键位少,字母与符号杂乱无章、一般文字工作者难以掌握,应用不规范等难题。
文档编号G06F3/023GK1808350SQ200510130779
公开日2006年7月26日 申请日期2005年12月29日 优先权日2005年12月29日
发明者呼斯勒, 巴图赛恒, 岳耀明, 白双成 申请人:内蒙古蒙科立软件有限责任公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1