华文汉字输入法的制作方法

文档序号:6441737阅读:186来源:国知局
专利名称:华文汉字输入法的制作方法
技术领域
本发明涉及一种拼音文字式华文汉字输入法,同时又是一种汉语信息处理技术, 通过这种拼音文字式的汉字编码的输入、存储和处理,提出一种汉字标准化建议,实现汉字 无重码输入,汉字标准字繁体与简体的对称转换,个性化自然语音和儿化音的输出,同时, 为克服拼音编码输入法无法输入知形不知音的缺点,提出一种汉字字形辅助输入法,用汉 字笔画构成码进行相似字形汉字检索与学习。
背景技术
目前,已申请专利的汉字输入法,按输入设备和技术手段分,有三类一是依据汉 字编码通过键盘输入;二是手写或扫描输入,再按字形转换成编码或直接转换成汉字 ’三 是通过语音识别系统将人说的话语转换成汉字或汉字编码。其中,键盘输入又可根据编码 方式的不同分成三类一种是纯拼音的编码,一种是纯字形的编码,第三种是拼音加字形的 编码。拼音加字形的编码中,大多以区分汉字部首为主,或偏“形”或偏“音”,或“形” “音” 结合,虽有与“意”结合者,没有用意符完全区分和表示汉字基本意义的,不能充分反映汉字 的造字理据。虽然这些输入法在输入的速度、效率、转换的准确率等方面有长足的进步,但 各种类型的输入方法都还有一些影响汉字输入和信息处理的问题,如编码存在重码,输入 需要选字,进行汉字信息处理时不能简单地区分同音字和多音字,需要字库、词库和语料库 等大量的辅助资源和复杂的软件处理过程支撑,如字、词、语及其联想检索和词的切分等, 不能处理超大字符集中的当用字,不能区分国家规定的标准字和异体字,不能限制异体字 的使用,相应输入法也不能按汉字编码顺序对汉字进行有实用意义的排序,不能同时满足 信息的生产、获取、转换、组织、存储、处理(分析、计算、识别、检索等)、表达、评价的综合技 术要求和人们日益增长的信息处理速度、效率、可靠程度、设备的经济实用性等全方位的需 求。目前,汉字输入依然存在万“码”奔腾、万“码”齐喑的局面,现有的任何一种汉字 输入法都不能同时满足各种人群的需要;在汉语汉字教学的对外交流和推广中,如何选择 一种普遍适用的汉字输入法,也是一件为难之事。由于现有的输入法都存在重码问题,个性 化语音输出难以实现。由于没有进行汉字标准化整理,现有输入法不能解决非对称繁简汉 字相互转换的问题,如“前后”和“太后”应分别转换成“前後”和“太后”,现有输入法只能 根据当时的输入需要输入,不能在输入后进行转换。所有输入法都带有联想功能,但联想功 能也存在选字的问题。五十年的实践证明,《汉语拼音方案》不能方便表示音节的声调,也不能表示特殊 读音的音节,如U、□、□等音节,用汉语拼音不能方便区别和输入同音字,也不能按口、hm、 hng、ng、m等音节的拼写形式输入对应音节的汉字,即用《汉语拼音方案》输入汉字不仅存 在大量的重码,还存在有字无码的现象,如微软拼音“嗷hm”须输入“hen”,“哼hng”须输入 “heng”,“嗯n、ng”须输入“en”,“欸g”须输入“ea”等。汉字难学、难认,但学会了终生难忘,识读速度快。汉字难以进入计算机,语音输入因同音词问题准确率较低,因为分词问题不能快速进行智能化处理,智能语音输出难以完 美实现,需要以浪费资源、时间为代价,还需人工干预。目前,大陆使用简体字,台湾、香港、澳门和海外一些国家和地区使用繁体字,还不 能统一使用一种字形体系,不同地区无论输入繁体还是简体,输入法也各不相同,在一定时 期内还不能实现输入法的统一,也没有一种输入法能作为现阶段繁体与简体同码存储、按 需转换的统一平台,为两岸的经贸交流架起一座深入沟通、都能接受的桥梁。

发明内容
为了解决现有输入法不区分标准字与异体字,不区分标准字简体与繁体,不限制 使用异体字的问题;为了解决汉字编码重码和输入汉字需要选字的问题;为了解决标准字 繁体与简体非对称转换,两岸及海外使用简繁两种不同形式汉字的问题;为了解决汉字信 息处理过程中需要先进行词的切分,切分词不一定准确符合作者原意,切分词时还需要进 行人工干预的问题;为了解决用汉字文档输出汉语自然语音需要大量的字库、词库、语句语 料库,不能实现个性化自然语音和儿化音语音输出的问题;为了解决现有输入法中的任何 一种都不能同时适合各种人群需要的问题;为了解决汉字不能按读音自动排序的问题,以 及为了解决未来新增汉语新意汉字如何在字符集中表示,汉语国际化,现有汉字编码不能 准确定音、定形、定意和当用汉字不定量,解决汉字定形、定音、定意、定量不准确的问题,以 及在文字学、数学、物理、化学、生物学、工程技术等领域的文档中输入专用字母困难等一系 列问题或不足,本发明提供一种拼音文字式汉字输入法解决方案——华文汉字输入法。华文汉字输入法方案内容开始-华文汉字输入法方案由三部分组成第一部分,总则,说明本发明方案的主旨;第 二部分,华文汉字输入法,解决知音知意的汉字输入、繁简转换、异体字限制使用和语音输 出等技术问题,适于边思考边写文章;第三部分,华文汉字字形辅助输入法,解决只知形不 知音意的汉字输入、学习汉字的技术问题,适于照文录入,也适于学习不认识的汉字。第一部分总则华文汉字输入法以普通话语音系统为语音标准,以1958年2月11日中华人民共 和国第一届全国人民代表大会第五次会议通过的《汉语拼音方案》为汉字定音标准;根据 中华民族承传下来7000多年的龙的精神,采世界优秀拼音文字之所长,取国际通行的字母 体系中的通用字母和符号,经过拼音文字体系化处理,在沈个拉丁字母的基础上,另外选 用23个以希腊字母为主的国际通用字母,如“α β Y”等,组成49字母的拼音文字式汉字 输入法体系;在保持《汉语拼音方案》中单字母声母、单字母韵母的情况下,将《汉语拼音方 案》确定的声母、韵母全部单字母化,固定零声母,固定声母、韵母读音,根据声母与韵母相 互搭配时读音互补的规律进行韵母变音,减少韵母数量,使汉语音节系统化、最简化,采用 省略韵母和声母变音方式解决个别音节同声调字多的问题;采用字母标调法,选择4个与 音调特征象形的字母作为调母,为阴平、阳平、上声、去声标调,轻声按实际发音标调;采用 意母定字法,按照汉字造字规律,将同音节同声调汉字分成4个大类观个意类,人女、人、 手、口、心、身、目,生活衣、食、住、行、言、病、物,生物鸟、马、兽、虫、鱼、草、木,自然水、 火、金、玉、石、土、常意,除常意类外,设置27个意母与之对应,利用在这观个意类中汉字表意的互补规律,完整保持汉字音、形、意特征,实现汉字编码对汉字的准确化表音、简单化 表形、标准化表意;对汉字进行初步标准化整理,按照约定俗成的原则,将相同音节、相同声 调、相同释义的汉字分成标准字和异体字,解决超大字符集汉字输入问题;根据繁简对应关 系和实际情况将标准字分成繁体和简体,使构成的拼音式华文汉字编码与标准汉字繁体及 简体一一对应,使异体字与标准字华文汉字编码对应,实现标准字及其异体字按华文字母 序排序。将43种汉字基本笔画布设在软键盘或计算机键盘上,无需考虑笔顺,按字的笔画 构成输入所有笔画,由华文汉字输入法系统对基本笔画按对应字母顺序排列,形成笔画构 成码,按笔画构成码检索要输入的汉字和与之相似的汉字,显示汉字属性,实现辅助输入知 形不知音汉字和学习汉字的目的。第二部分华文汉字输入法一、字母表华文汉字输入法共有49个字母,分大写和小写,读音符合国际化及约定俗成原 则,如表1所示。表1华文汉字输入法字母表大 写小 写名称大 写小 写名称大 写小 写名称δ小 写名称大 写小 写名称大 写写名称λ 写小 写名称AaeiHheitfOO9UVVvi Γ 'gamaEeεε'epsilsnBbbi:IiaiPPpi:WW'dAblju:ΛΛlIsemdeΠπpai:MMnju:CCsi:Jjd3eiQqkju:XXeks丄It〕O 'outaVPrsuDddi:KkkeiRr0YywaiΘθ'ei:t9ΦΦfaiΣσ'sigmaEei:L1elSSesZZzi:eesai U'ju:t3ΔδdeltaFfefMmemTtti:Vα'alfaημmju:ψψpsaiΩΩ'aumigaGgd^i:NηenUU,juBPbeitaAa_eit38^an33'fi:ta二、声母表用22个字母表示汉语普通话的22个声母,除零声母外,声母按照不同的发音部位 分为6组,如表2所示。表2华文汉字输入法声母表
权利要求
1.华文汉字输入法采用26个拉丁字母和23个以希腊字母为主的国际通用字母,组成 49字母的拼音文字式汉字输入法体系;在保持《汉语拼音方案》中单字母声母、单字母韵母 的情况下,单字母化声母和韵母,声母转换为zh-B β jh-ΓΙμ、sh-Yy、y/w-Vp,韵母对应转 换为a-a、 o-po、 e-pe、 e-ρθ、 ai-a、 ei-θ、 au-α、 ou- 、 an-八、en-pM、 ang-a、 eng-jK、 ong-ρ 、 er-r> r-r、i-i、ia-jia、ie-e、iao-e、 iou、iu-w、ian-ε、in-e、iang-ψ、 ing-π、iong-γ、u-u、ua-]ie、uo-o、 uai-pe、uei、ui-]iv、uan-ρφΛ uen、un-pii、uang-ρψ、ueng-τ、ti-v、yo-po> ue-M、uan-φ、iin-ti、ng-pir、m-m+调母、n-n+调母,根据声母与韵母相互搭配时读音互补的规律进行韵母变音, 减少韵母数量,使音节最简化;采用字母标调法,用“Σ σ”、“Δ δ”、“ΩΩ”、“33”分别 为阴平、阳平、上声、去声标调,轻声按实际读音标调;采用意母定字法,按照汉字造字规 律,将同音节同声调汉字分成4个大类28个意类,第一类为人类,包括人的性别、身体 器官及其行为、性状,第二类为生活类,包括人和生物的生活、行为、需求及其性状,第三 类为生物类,包括除人类以外的生物及其行为、性状,第四类为自然类,包括自然现象、 物质及其性状,人女、人、手、口、心、身、目,生活衣、食、住、行、言、病、物,生物鸟、马、 兽、虫、鱼、草、木,自然水、火、金、玉、石、土、常意,除常意类外,各意类对应字母分别为 Aa、Ee、Ii、Oo、Uu、Vv, Ww> Va、 P/、 Λλ、 Ii> θ、 Ce、 Aa> Ee、 Ππ、 0 、 Φφ、 、 Ψψ、22、εε、Mm、Σσ、Δδ、Ωω、33;汉字编码及拼写格式为声母+韵母+调母+意母, 音节字不加调母和意母,常意类不加意母;利用在这28个意类中汉字表意的互补规律,完 整保持汉字音、形、意特征。
2.一种与华文汉字输入法配套使用的汉字字形辅助输入法,将43种汉字基本笔画布 设在软键盘或计算机键盘上,不考虑笔画顺序,只考虑笔画构成,只要按字形输入一个字所 具备的所有笔画,华文汉字输入法系统就能将笔画转换成对应的华文汉字输入法字母,并 按字母顺序对笔画码进行重新排序,形成笔画构成码,并在“华文汉字字形辅助输入法汉字 属性表”中找到一个或多个与其有相同笔画构成码的汉字字头,按字头显示汉字属性,主要 包括字头、华文汉字编码和笔画构成码,为了使输入法具有学习汉字的功能,增加了正确笔 顺、读音、字性(繁体、简体、异体)和释义等属性项。
3.一种由华文汉字编码派生出来的汉语语音个性化输出方法,按个人语音录制1300 个有调音节语音和对应的儿化音,用成熟的语音处理软件集成个人语音文件,集成不同人 的语音文件形成个性化语音库;在华文汉字输入法系统软件中,设计语音设置功能,能够进 行不同人的语音、语速、音高等设置,当选定一段文字或设置阅读起始位置后,点阅读钮,系 统根据华文汉字编码的音节和调母,查到相应的音节码(1 446)和调母码(0 4),组合 成一个字的语音文件名,根据是否有儿化音标志“.r”确定在普通语音库或儿化语音库中提 取对应的语音文件,就可进行语音播放。
4.异体字也按编码存储,异体字编码为其对应的标准字编码+异体字序号,对异体字 转换只是过滤掉序号,保留标准字编码,再按需要转换成繁体或简体,或按标准字编码播放 语首。
全文摘要
华文汉字输入法以普通话语音系统和《汉语拼音方案》为汉字定音标准;取国际通行体系及字母,用26个拉丁字母和23个国际通用字母构成49字母拼音文字式汉字编码方案;将声母、韵母单字母化,读音固定,按声韵搭配规律变音,采用省韵和声母变音解决个别音节同调字多的问题;字母标调,轻声按实际发音标调;按汉字造字规律,将同音同调字分为4个大类28个意类,对27个实意类设置意母,用意母定字,完整保持汉字音、形、意特征;按照标准化原则把同音同调且同义字分为标准字和异体字,解决超大字符集汉字输入问题;标准字分繁体和简体,与华文汉字编码一一对应,均按字母排序,输入不选字;用基本笔画构成码辅助输入知形不知音的汉字。
文档编号G06F3/023GK102053719SQ201010210540
公开日2011年5月11日 申请日期2010年6月28日 优先权日2010年6月28日
发明者门雁冰 申请人:门雁冰
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1