一种汉语声韵音位汉字编码方法

文档序号:6406695阅读:730来源:国知局
专利名称:一种汉语声韵音位汉字编码方法
专利说明 本发明涉及一种音形汉语字词输入技术及其键盘设计。
现有音码设计均以汉语字词或汉字部件表现的语音作为编码码元,所用的语音表示法是1958年制定的拼音方案。拼音方案的核心是音素化拼音字母表示法(《拼音方案》第一部分),其理论基础是西方现代音位学理论。《拼音方案》同时吸收了中国传统的声母、韵母以及声调概念,并用音素化字母建立了字母组合式声韵母表示法(《拼音方案》第二、三部分)。这两种表示法就是汉语键盘输入拼音音码的元表示法。拼音音码方案采用拉丁字母符号,并与国际通用的标准小键盘键位符号保持一致,具有一定的大众基础。不足之处是以西方音位理论为基础的音素化拼音字母全拼或纯拼音码方案的码元单位缺乏汉民族认知心理基础,其音素字母单位与汉民族几千年语言运用中形成的语音单位不一致,这就给方案的易学、易用、易记造成难以逾越的障碍。而以拼音字母组合形式构成的声母和韵母双拼、简拼或三拼音码方案虽具有一定的实用性,但缺乏支撑理论。声母和韵母甚至不是现代语言学中的任何一级语言单位。这给今后国家标准键盘表示法的制定、规范应用和理论建设均造成困难。
分析字形是对汉字客观属性的发掘,但本编码方案更重视发掘作为主体的人对作为客体图形符号特征的汉字客体的心理感知过程。汉字认知心理有以下特点 A模糊性。中外学者对字母图形和汉字图形的知觉研究证明,在字形识别过程中存在局部特征和完形特征的认知差别。人们往往依据从字形获取的大体轮廓(完形特征)模糊印象而进行识别。就汉字论,首尾笔画、外框、偏旁等反映轮廓的完形特征在局部特征(如中间部件和精细笔画)得到清晰的辩认之前已经得到提取。阅读中,汉字处在语句大字符串情景中,视觉迅速扫描和心理迅即感知都充分说明人们心理对字形的模糊识别过程。
B二分性。这项性质一直很少直接的充分研究,但相关研究成果已十分丰硕。二分性的重要基础是聚合性概念,汉字以形声字为主,据研究,在国家颁布的《现代汉语通用字表》的7000汉字中,形声结构的字共5636字,占80%强。形声字由形符与声符构成,各种形符或声符具有共同的特征,在人们认知心理中形符与声符构成汉字的两个聚合类,因此识别汉字时很大程度上以二合及二分的识别模式进行。另外,哲学上的二元辩证观及逻辑上的二分性均支持汉字字形的二分观念。
C习惯性。习惯性是一种经验,是模糊性和二分性在实践中的反映。如民间对同音姓氏的辩析弓-长-张;立-早-章;古-月-胡;言-午-许。俗语源字有“人言为信;羊大为美;贝乏为贬;三人为众;立女为妾”等等。行话或黑语有“丘八为兵”等等。
本发明的目的在于避免上述现有技术中的不足之处而提供一种通用标准键盘上输入汉语字词的方法满足人们按语音盲打输入的要求。
本发明依据声韵音位学理论及其方法而建立,主要是将汉语字词语音(音节)分为声位和韵位(及调位),编码中将声位和韵位作为编码码元应用。
一、支撑理论 汉语声韵音位理论是基于历时和共时语言系统所存在的客观语言单位而提出的。汉语音位系统必须建立在汉民族对语言单位归纳的认知基础上,真实反映出音位在汉民族语言心理上具有的客观真实性、可感知性和可识别性。为此我们提出了汉语的三大音位类声位、韵位和调位。下面列出声位和韵位,并用通行的拉丁字母来表示(也可用其它符号形式表示)。
声位符号(括号内为国际音标) b[p]p[p']d[t]t[t']g[k]k[k'] z[ts] c[ts'] zh[t

s] ch[t

s'] j[t

] q[t

'] f[f] s[s] sh[

s] r[z

] x[

] h[x] m[m]n[n] l[l] 韵位符号(括号内为国际音标) i[i]u[u]ü[y] a[a]ia[ia]ua[ua] (o[o])uo[uo] e[r]ie[iε]üe[y] -i[

]/[

] er[

] ai[ai]uai[uai] ei[ei]uei[uei] ao[au]iao[iau] ou[ou]iou[iou] an[an]ian[ian]uan[uan]üan[yan] en[

n] in[in] uen[u

n] ün[yn] ang[aη]iang[iaη]uang[uaη] eng[

η] ing[iη] ueng[u

η] (ong[uη]iong[yη] 三、码元设计 汉语声韵音位具有特定的组合关系,见下表
为了增加区别性码元,离散同音现象和均衡键位负载量,可根据声韵音位组合关系将同一声位或韵位分为不同的结构音位形式元音位和变音位以及代音位。变音位采用在元音位前后加特殊符合来表示,本编码在元音位前后加“-”表示。
1.凡与u或u起首读音形式和ü或ü起首读音形式韵位组合的声位,取变声位作为码元,反之则取元声位作为码元。
2.凡与非u或u起首读音形式和非ü或ü起首读音形式韵位组合的零声位(即仅有韵位形式的音节),取韵位起始的拉丁字母符号作为代声位。
3.凡与u或u起首读音形式韵位组合的零声位,取拉丁字母W作为代声位。
4.凡与ü或ü起首读音形式韵位组合的零声位,取拉丁字母符号y作为代声位。本项同时要满足第一条的规则。
5.凡与咝音声位(即z、c、s、zh、ch、sh、r、i、q、x)组合的i韵位,取变韵位作为码元。本编码以-i形式表示。
6.几个特殊的自成音节的声位(如普通话m、n,广州话η等),取其本身作为变音位形式码元。
因此,本编码现有作为码元的元声位、变声位及代声位共计48个,声位与韵位的组合规律见下表
三、键位设计 考虑到汉语中方音的现实存在,本编码按方音差别将音位码设计为普通话方案、南北通用方案和粤方言方案及其它方言方案。键盘设计见附图,

图1是声韵音位键位分布图(通用版);图2是声韵音位键位分布图(北方版)。
在普通话方案中,本发明巧妙地将具有互补关系的韵位排列在同一键位上,如ong和ueng,ia和ua,ve和uei等,将视觉符形相近的韵位排列在同一键位上,如vn和un,van和uan等,将读音相近的放在同一键位上,如o和uo,-m和-n等。同时还将卷舌音元声位与相应的非卷舌音元声位安排在同一键位上,或者卷舌音变声位与非卷舌音元声位排在同一键位上,既便于记忆,又易与通用版衔接,如sh和s-,ch和c-,zh和z-,s与sh-,c与ch-,z与zh-。此外,本编码还遵操作者击键规律研究的最新成果,将高频与低频键位调到最佳状态。
四、汉字部件类 从字形上分析,所有汉字均由部件构成,其结构如下
独体型汉字以笔画作为部件,其部件类型为 名称横(提)竖(竖勾)撇捺(点)折 形式 一

丨亅 丿

丶 乙


独体型汉字以起始笔画作为起笔部件,结束笔画作为末笔部件。
笔画在且仅在独体型汉字类作为部件。具有歧义的部件“-”在独体型汉字类定为部件“-”(横,hen),在非独体型汉字类定为“-”(壹,yi)。
本编码将成字部件和非成字可读部件作为取码信息源,除个别特殊部件赋予可读音外,其他不可读部件均不成为信息源部件。
五、汉字切分原则 1.基本原则(二分原则) 所有汉字均按字型切分成两个部件。起笔笔画所在部件叫起笔部件,末笔笔画所在部件叫末笔部件。
2.成字原则(或可读原则) 切分出的各部件要成字或成可读部件。
3.取小原则 切出的部件若不成字或可读部件,则切出下一级起笔或末笔所在部件为所选部件。
4.剩余原则 除个别例外,切分剩余部分亦应成字或可读部件。
六、单字编码 单字以其起笔和末笔部件及单字本身作为取码信息源,并以部件音的声位和单字的声韵位作为码元。取码顺序为起笔部件音声位+末笔部件音声位+汉字声位+汉字韵位。
例如 汉字起笔末笔起笔部末笔部汉字汉字字码 部件部件件声位件声位声位韵位 叹口又KYTanKYTJ 扬 扌

T Y Y ang TYYH 碧王石WSBiWSBI 广丶丿NPK-uangNPHM 七、词语编码 词语以首位汉字和末位汉字的起、末笔部件音的声位作为码元,词语的长度限定为最长4个汉字。取码为首字起笔部件音声位+首字末笔部件音声位+末字起笔部件音声位+末字末笔部件音声位。
例如 词组部件1部件2部件3 部件4 声位1 声位2 声位3 声位4 词码 工艺一一艹乙HHCYHHCY 拼音扌并立日TBLRTBLR 美化羊大亻七YDRBYDRB 处理攵卜王里WMWLWMWL 中文丨丨丶丶S-S-NNUUNN 本发明相比现有技术具有如下优点 1.采用汉字声韵音位理论建立编码方案,符合汉民族语音感知和汉字认知心理。
2.汉字切分规则简洁、明确统一,不必特别记忆字形部件对应的码元,因而辩证地解决了字形码元(无论少抑或多)记忆问题。
3.根据结构语言学方法,在尊重客观语音现象规律的前提下,将有限的声韵音位形式数量大大扩充,为区分重码辟出一条新路,且声韵音位的形式分割具有严格规则,有利于学习和记忆。
4.键盘设计巧妙清晰,高击键率键位与低击键键位均衡分布,符合人体工程学原理。
5.本编码为“高频全码”设计(即高频字以全码方式输入),为实现动态方式下无记忆语音盲打奠下了坚实的基础。其中高频字采用无重码全码方式输入,二码和三码低频字也无重码,词语编码在任何情况下均为全码方式。
权利要求
1、一种汉语声韵音位汉字编码方法,其主要特征是将汉字字词语音(音节)分为声位和韵位(及调位),编码中将声位和韵位作为编码码元应用,将同一声位或韵位切分为不同的结构音位形式元音位、变音位、代音位,即同一音位在不同条件下可切分为两个或多个的变音位形式,对声位和韵位(及调位)可进一步作多层次变音位形式切分。
2、根据权利要求1所述编码方法,其特征在于按方音差别将音位码设计为普通话、南北通用、粤语方言及其它方言方案。键盘设计如下
声韵音位键位分布图(通用版)
声韵音位键位分布图(北方版)
3、根据权利要求1所述编码方法,其特征在于汉字切分的方法为
(1)所有汉字均按字形二分为起笔、末笔部件,根据二分原则、可读原则、取小原则和剩余原则切分汉字。
(2)独体型汉字以起始笔画为起始部件,结束笔画为末笔部件。
4、根据权利要求1所述编码方法,其特征在于字词的编码方式为
(1)单字编码起笔部件音声位+末笔部件音声位+汉字声位+汉字韵位。
(2)词语编码首字起笔部件音声位+首字末笔部件音声位+末字起笔部件音声位+末字末笔部件音声位。
全文摘要
汉语声韵音位编码将声位和韵位作为编码码元应用,又将同一声位或韵位切分为不同的结构音位形式。汉字切分按字形二分或二分取小方式进行。高频字采用无重码、全码方式输入,动态方式下不必记忆高频字种而实施盲打输入。二码和三码低码字也无重码。词语编码在任何情况下均为全码方式。
文档编号G06F3/023GK1074296SQ9211005
公开日1993年7月14日 申请日期1992年8月27日 优先权日1992年8月27日
发明者江荻 申请人:江荻
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1