将汉字转化为数字及拉丁字母的处理系统、方法和装置的制造方法

文档序号:10471087阅读:1165来源:国知局
将汉字转化为数字及拉丁字母的处理系统、方法和装置的制造方法
【专利摘要】本发明提供一种将汉字转化为数字及拉丁字母的处理系统、方法和装置;其中系统包括用于对汉字笔画划分为多个类别的构字元的预处理模块、存储模块、用于将目标汉字进行拆分的解元模块、将拆分后的目标汉字进行数字化的归码模块和将拆分后的目标汉字转化为拉丁字母的化拉模块;本发明实现汉字自动转换为阿拉伯数字和拉丁字母,并通过数字或拉丁字母转换为二进制数字,从而帮助机器识读和显示汉字,因而为汉字编程开辟了新的道路;并且为汉字的数字检索及教学提供了新思路和新方法,为世界公民通过机器查找和学习汉字提供了便利。
【专利说明】
将汉字转化为数字及拉τ字母的处理系统、方法和装置
技术领域
[0001] 本发明主要设及汉字计算机处理技术领域,具体设及一种将汉字转化为数字及拉 下字母的处理系统、方法和装置。
【背景技术】
[0002] 21世纪,人类进入大数字时代,并从大数字时代朝着自动化的终极目标前进。数字 化是自动化的前奏,语言文字的数字化技术则是自动化的瓶颈技术。
[0003] 计算机和IT网的广泛应用,使人类社会进入高速发展的阶段,科技发达,信息流 通,数据海量,高速公路、网络传递……使人们之间的交流越来越密切,生活也越来越方便, 然而由于在信息技术发明发展进程中,在机器指令之上的汇编指令,编程语言,开发工具, 操作系统,应用程序都是用英语开发的一-1967年美国国家标准学会发表了美国信息互换 标准代石马ASCII (American Standard Code for Informationinterchan邑e) cASCII是基于 拉下字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言,且W标准的形态 规范计算机编程。它是现今最通用的单字节编码系统,并等同于国际标准IS0/IEC 646"ASC Π 主要用于机器显示英语和其他西欧语言一一运就将汉字及其他非拉下语系的世界文字 排斥于电脑编码系统之外。
[0004] 另一方面,在新世纪里,中华鹏起对汉字的国际传播提出了新的要求,2004年在韩 国首尔开办第一个W汉语汉字教学为主的孔子学院,截至2014年12月7日,全球126个国家 (地区)建立475所孔子学院和851个孔子课堂。然而,由于数W万计的汉字属拼形文字,不能 拼读,对外汉语教学中的汉字教学难度很大。丹麦童话作家安徒生曾在童话集里如是说: "天书是用世界上最难的汉字写成的"。绝大多数的世界公民一直将汉字视为文字领域的 "珠穆朗玛一一一座极难逾越的高峰"。
[0005] 早在2001年4月25日,联合国教科文组织发表的《世界文化多样性宣言》行动计划 要点提出"促进'数字扫盲',将信息与传播新技术作为教学计划中的学科和可提高教学工 作效率的教学手段,提高掌握运些新技术的能力;"(要点9)
[0006] 汉字之难还在于检索之难,检索从来就是汉字的学习与实践中的重要环节,自东 汉许慎发现六书造字法和发明偏旁部首笔画检索法W来,至今已有两千多年的历史,许慎 在《说文解字》中,最先把汉字形体偏旁口类分为540个部首。后人经过精简,至2009年5月1 日国家教育部公布的《汉字部首表》规定主部首201个,附形部首99个,仍有300个之多,与拼 音文字相比,汉字检索极为不便。
[0007] 要之,时代需要汉字的数字化和自动化的新技术应运而生。惟其开拓发明汉字数 字化及汉字转换为拉下字母的新技术,中华民族的自动化才能实现,对外汉语教学包括汉 字检索也才能到达联合国教科文组织"将信息与传播新技术作为教学计划中的学科和可提 高教学工作效率的教学手段"的目标;并使机器在通过ASCΠ "显示现代英语和其他西欧语 言"的同时,兼容并显示汉字,实现直接用汉语汉字编程,从而使中华民族在大数字时代和 自动化进程中把握大势、抢占先机,立于不败之地。

【发明内容】

[0008] 本发明所要解决的技术问题是提供一种将汉字转化为数字及拉下字母的处理系 统、方法和装置,实现汉字自动转换为阿拉伯数字和拉下字母,并通过数字或拉下字母转换 为二进制数字,从而帮助机器识读和显示汉字。
[0009] 本发明解决上述技术问题的技术方案如下:一种将汉字转化为数字及拉下字母的 系统,包括预处理模块、存储模块、解元模块、归码模块和化拉模块,
[0010] 所述预处理模块,用于根据预设的汉字拆分规则将汉字笔画划分为一笔、两笔或 多笔的笔画形态,从而得到多个类别的构字元;还用于将各个构字元分别用设定的数字进 行编码,再将所述数字分别用设定的拉下字母进行表示;所述构字元为构成方块汉字最基 本的笔画形态,构字元可W是一笔笔画、两笔笔画或多笔笔画形成的符号。
[0011] 所述存储模块,用于存储各个构字元,W及存储各个构字元、数字及拉下字母的对 应关系;
[0012] 所述解元模块,用于根据所述汉字拆分规则将录入的目标汉字进行拆分,得到目 标汉字的多个笔画形态,并将各个笔画形态分别匹配至对应类别的构字元下,从而得到该 目标汉字的多个构字元;
[0013] 所述归码模块,用于将所述目标汉字的多个构字元分别与对应的数字进行匹配, 从而得到该目标汉字的数字形式;
[0014] 所述化拉模块,用于将目标汉字的数字形式分别与对应的拉下字母进行匹配,从 而得到该目标汉字的拉下字母形式。
[0015] 本发明的有益效果是:1)实现汉字自动转换为阿拉伯数字和拉下字母,从而帮助 机器识读和显示汉字,因而为汉字编程开辟了新的道路;2)为汉字的数字检索及教学提供 了新思路和新方法,为世界公民通过机器查找和学习汉字提供了便利。
[0016] 在上述技术方案的基础上,本发明还可W做如下改进。
[0017] 进一步,所述预处理模块中,根据汉字拆分规则将汉字笔画划分为十个构字元:类 0母、横母、撇母、掠母、竖母、角母、弯母、类7母、类8母和类9母。
[0018] 采用上述进一步方案的有益效果是:打破了传统数十种笔画构字的规律,并将传 统数十种笔画科学抽象为十个构字元,有利于对汉字结构进行快速识读和拆解,便于用极 少数字和拉下字母来对等表示汉字。
[0019] 进一步,所述预处理模块中,将十个构字元分别用数字0~9表示:类0母为0,横母 为1,撇母为2,掠母为3,竖母为4,角母为5,弯母为6,类7母为7,类8母为8和类9母为9;将数 字0~9分别用拉下字母表示为:1234567890=ABCDEFGHI0。
[0020] 采用上述进一步方案的有益效果是:为汉字与数字之间、汉字与拉下字母之间W 及汉字与数字及拉下字母Ξ者之间建立了等码链。
[0021] 进一步,所述十个构字元中,
[0022] 类0母为方圆闭合的多笔笔画形态;
[0023] 横母为由一笔从左至右形成横笔的笔画形态;
[0024] 撇母为由一笔从上至左下角形成的笔画形态;
[0025] 掠母为由一笔从上至右下角或由左至右上角的笔画形态;
[00%]竖母为由一笔从上至下形成竖笔的笔画形态;
[0027] 角母为由一笔或两笔形成一个折角的笔画形态;
[0028] 弯母为由一笔或两笔或多笔形成两个折角的笔画形态;
[0029] 类7母为由一笔横穿角母或弯母的笔画形态;
[0030] 类8母为由两笔交叉形成的笔画形态;
[0031] 类9母为由多笔形成"9"状(正向"9"或反向"9")的笔画形态。
[0032] 采用上述进一步方案的有益效果是:通过十个构字元将汉字进行归码,实现汉字 自动转换为阿拉伯数字和拉下字母,从而帮助机器快速识读汉字,为汉字与数字之间、汉字 与拉下字母之间W及汉字与数字及拉下字母Ξ者之间建建立了等码链。
[0033] 本发明解决上述技术问题的另一技术方案如下:一种将汉字转化为数字及拉下字 母的处理方法,包括根据预设的汉字拆分规则将汉字笔画划分为一笔、两笔或多笔的笔画 形态,从而得到多个类别的构字元的步骤;
[0034] 将各个构字元分别用设定的数字进行编码,再将所述数字分别用设定的拉下字母 进行表示的步骤;
[0035] 将所述多种构字元分别用设定的数字进行编码,并将所述数字分别用设定的拉下 字母进行表示的步骤;
[0036] 存储各个构字元,W及存储各个构字元、数字及拉下字母的对应关系的步骤;
[0037] 根据所述汉字拆分规则将录入的目标汉字进行拆分,得到目标汉字的多个笔画形 态,并将各个笔画形态分别匹配至对应类别的构字元下,从而得到该目标汉字的多个构字 元的步骤;
[0038] 将所述目标汉字的多个构字元分别与对应的数字进行匹配,从而得到该目标汉字 的数字形式的步骤;W及
[0039] 将目标汉字的数字形式分别与对应的拉下字母进行匹配,从而得到该目标汉字的 拉下字母形式的步骤。
[0040] 进一步,根据汉字拆分规则将汉字划分为十个构字元:类0母、横母、撇母、掠母、竖 母、角母、弯母、类7母、类8母和类9母。
[0041 ]进一步,将十个构字元分别用数字0~9依次表示:类0母为0,横母为1,撇母为2,掠 母为3,竖母为4,角母为5,弯母为6,类7母为7,类8母为8和类9母为9,并将数字0~9分别用 拉下字母表示为:1234567890=ABCDEFGHI0。
[0042] 进一步,所述十个构字元中,
[0043] 类0母为方圆闭合的多笔笔画形态;
[0044] 横母为由一笔从左至右形成横笔的笔画形态;
[0045] 撇母为由一笔从上至左下角形成的笔画形态;
[0046] 掠母为由一笔从上至右下角或由左至右上角的笔画形态;
[0047] 竖母为由一笔从上至下形成竖笔的笔画形态;
[0048] 角母为由一笔或两笔形成一个折角的笔画形态;
[0049] 弯母为由一笔或两笔或多笔形成两个折角的笔画形态;
[0050] 类7母为由一笔横穿角母或弯母的笔画形态;
[0051 ]类8母为由两笔交叉形成的笔画形态;
[0052] 类9母为由多笔形成"9"状(正向"9"或反向"9")的笔画形态。
[0053] 本发明解决上述技术问题的另一技术方案如下:一种将汉字转化为数字及拉下字 母的处理装置,包括所述的将汉字转化为数字及拉下字母的处理系统,还包括采集设备、数 据库和输出设备,所述采集设备用于录入的目标汉字,并将录入的目标汉字传输至所述处 理系统,所述处理系统将目标汉字转化为数字形式及拉下字母形式并调用所述输出设备进 行显示,所述数据库用于存储各个目标汉字及其对应的数字形式及拉下字母形式。
[0054] 进一步,还包括二进制转换器,所述二进制转换器用于将该目标汉字转化得到的 数字及拉下字母分别进行二进制数值的转换,从而得到该目标汉字的两种二进制数值。
[0055] 采用上述进一步方案的有益效果是:汉字通过数字或拉下字母转换为二进制数 字,便于机器处理汉字。
【附图说明】
[0056] 图1为本发明系统的模块示意图;
[0057] 图2为本发明装置的结构示意图;
[0058] 图3为本发明实施例的示意图;
[0059] 图4为本发明实施例构字元的示意图;
[0060] 图5为本发明汉字认母盘的工作示意图。
【具体实施方式】
[0061] W下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并 非用于限定本发明的范围。
[0062] 本发明一种将汉字转化为数字及拉下字母的处理系统、方法和装置提出一种方 案,使汉字通过计算机由方块式自动转化为汉字的解元式、汉字的数字式和汉字的拉下式 使机器能够自动识读汉字,实现数字扫盲、数字检索和直接用汉语汉字编程,进而使ASCn 升级为CHINA-ASCII(缩写C-ASCII) dASCH升级为C-ASCII后,不但用于显示现代英语和其 他西欧语言,还能用于显示华语汉字,从而为中华文字在大数字时代增添强大的竞争力。
[0063] 如图1所示,一种将汉字转化为数字及拉下字母的处理系统,包括预处理模块、存 储模块、解元模块、归码模块和化拉模块,
[0064] 所述预处理模块,用于根据预设的汉字拆分规则将汉字笔画划分为一笔、两笔或 多笔的笔画形态,从而得到多个类别的构字元;还用于将各个构字元分别用设定的数字进 行编码,再将所述数字分别用设定的拉下字母进行表示;所述构字元为构成方块汉字最基 本的笔画形态,构字元可W是一笔笔画、两笔笔画或多笔笔画形成的符号;
[0065] 所述存储模块,用于存储各个构字元,W及存储各个构字元、数字及拉下字母的对 应关系;
[0066] 所述解元模块,用于根据所述汉字拆分规则将录入的目标汉字进行拆分,得到目 标汉字的多个笔画形态,并将各个笔画形态分别匹配至对应类别的构字元下,从而得到该 目标汉字的多个构字元;
[0067] 所述归码模块,用于将所述目标汉字的多个构字元分别与对应的数字进行匹配, 从而得到该目标汉字的数字形式;
[0068] 所述化拉模块,用于将目标汉字的数字形式分别与对应的拉下字母进行匹配,从 而得到该目标汉字的拉下字母形式。
[0069] 所述预处理模块中,根据汉字拆分规则将汉字笔画划分为十个构字元(即汉字10 母):类0母、横母、撇母、掠母、竖母、角母、弯母、类7母、类8母和类9母。
[0070] 如图3所示,所述预处理模块中,将十个构字元分别用数字0~9表示:类0母为0,横 母为1,撇母为2,掠母为3,竖母为4,角母为5,弯母为6,类7母为7,类8母为8和类9母为9;将 数字0~9分别用拉下字母表示为:1234567890=ABCDEFGHI0。
[0071] 因此,所述存储模块存储着十个构字元(即汉字10母)、数字及拉下字母的对应关 系:一 7、I .£.Π 屯十P□ = 12:34567890=ABCDEFGHI0。
[0072] 对目标汉字进行拆分时,可根据书写笔画按照先左后右、先上后下、先外后内的规 则依次拆分(取母);
[0073] 先左后右的,如;人(2、3),中(0、4),大(8、3),由(0、8),小(2、5、3)而不作(5、2、3), 运(26318)不作(31836);
[0074] 先上后下的,如:天(1、8、3);
[0075] 先外后内的,如:囚(0、2、3)国(01813)。
[0076] 如图3-4所示,所述十个构字元中,
[0077] 类0母为方圆闭合的多笔笔画形态;标准式"口"及其变形,变形式包括口 PO;
[0078] 横母为由一笔从左至右形成横笔的笔画形态;标准式"一";
[0079] 撇母为由一笔从上至左下角形成的笔画形态;标准式"厂及其变形;
[0080] 掠母为由一笔从上至右下角或由左至右上角的笔画形态;标准式"V"及其变形, 变形式包括-。-、;
[0081] 竖母为由一笔从上至下形成竖笔的笔画形态;标准式"Γ;
[0082] 角母为由一笔或两笔形成一个折角的笔画形态;标准式及其变形,变形式包 括乃^1>.广編厂i >,也就是不同平面角的多种笔画形态;
[0083] 弯母为由一笔或两笔或多笔形成两个折角的笔画形态;标准式,变形式包括 y援Π?口一乙去^ ^ 、 r L !三:男獻,也就是含有两角相连的。弯"的 多种笔画形态;
[0084] 类7母为由一笔横穿角母或弯母的笔画形态;标准式"屯"及其变形,变形式包括 :1 义 fc 黎 产.皮又力Μ f 1, '發专表《.少'、':;
[0085] 类8母为由两笔交叉形成的笔画形态;标准式及其变形,变形式包括?ξ乂7^十 止.4 .
[0086] 类9母为由多笔形成类似巧"(正向"9"或反向巧")的笔画形态;标准式Τ'及其变 形,变形式包括尸ΡΓ
[0087] W上所述变形是指变形符号与字母的标准符号书理相同,而其或因笔形变化、或 因角度变化、抑或长短变化而发生形态的变动。
[0088] W上汉字十个构字元即汉字10母,由于将汉字的拼形构件抽象归纳为只有10母, 故可简称华-10码,它恰好与阿拉伯数字互为底盘,构成"字底数字/数字字底","字底数字" 是指与具体汉字的构字元相对应的阿拉伯数组;"数字字底"是指特定的阿拉伯数组唯一对 应的具体汉字或汉字的解元式。
[0089] 国颁"2013通用字表"中8105个一级至Ξ级字就是由上述10个构字元即拼形字母 拼成的。
[0090] 为了充分说明汉字10母拼字并与数字互为底盘的情况,下面我们列举"富、强、民、 主、文、明、和、谐、自、肚'10字为例来说明:
[0091] 例1:富= 361008
[0092] 掠母(、)+弯母(一)+横母(-)+类0母(口)+类0母(口)+类8母(十)
[0093] 例2:强= 6600433
[0094] 弯母(。)+弯母()+类0母(口)+类0母(巧+竖母(|)+掠母掠母(、)
[0095] 例3:民=97
[0096] 类9母(P )+类7母(t )
[0097] 例4:主= 3181
[009引掠母(、)+横母(一)+类8母(十)+横母(一)
[0099] 例5:文= 318
[0100] 掠母(、)+横母(一)+类8母(X )
[0101] 例6:明=01611
[010^ 类0母(口)+横母(_)+弯母(巧)+横母(_)+横母(_)
[0103] 例7:和= 28230
[0104] 撇母(.> )+类8母(十)+撇母0)+掠母(、)+类0母(口 ):
[0105] 例8:谐= 365162201
[0106] 掠母(、)+弯母(角母(I- )+横母(_)+弯母(L)+撇母(./ )+撇母(/ )+ 类0母(口)+横母(_)
[0107] 例9:自=2011
[010引撇母(./ )+类0母(日)+横母(_)+横母(_)
[0109] 例10:由=08
[0110] 类0母(口)+类8母(十)。
[0111] 构成汉字的方块式、汉字的解元式、汉字的数字式和汉字的拉下式可等码互转的 关系,汉字的拉下式简称为汉拉下,汉拉下是汉字与拉下系文字如英文接轨的形式;例如: 好=GHEG(7857),朋=FAAFAA(611611),友二服(87)。
[0112] 因此,汉字由单式形态变化为四式形态,即汉字的方块式、汉字的解元式、汉字的 数字式和汉字的拉下式,汉字的方块式即汉字的本原式、通常式和应用式;
[0113] 汉字的解元式就是单个汉字由方块式分解为汉字的构字元(或构字元变形式)的 排列式,汉字的构字元(或构字元变形式)的排列形式也叫汉字10母的线性式;
[0114] 汉字的数码式是将汉字的解元式转换成数码的排列式的形态。由于汉字10母与10 位阿拉伯数字形成等码关系,即可互为底盘,故将汉字的方块式分解为汉字10个构字元的 排列式简称为"解元",而将10个构字元的排列式转换为10位的阿拉伯数组的形式,简称为 "归码",把上述两个过程连在一起,就叫做汉字的"解元归码";
[0115] 所述汉字的拉下式是依序将拉下字母表前9个字母加 ο,组成与汉字10母和阿拉伯 数字互为等码的形式,简称为"化拉",把上述"化拉"过程与"归码"过程连在一起,就叫做汉 字的"归码化拉"。
[0116] 通过上述汉字的解元归码和归码化拉的过程,汉字便在光学层面具有了四式形 态,举例如下:
[0117] 我
[011引方块式:我
[0119] 解元式(线性式):一 1牙-1瓜、
[0120] 数码式:277773
[0121] 拉下式:BGGGGC
[0122] 你
[0123] 方块式:你
[0124] 解元式(线性式):/|/^.1/、
[01巧]数码式:2425523
[01%] 拉下式:BDB邸BC [0127]他
[012引方块式:他
[0129] 解元式(线性式):j|-i;L
[0130] 数码式:2476
[0131] 拉下式:BDGF
[0132] 华
[01削方块式:华
[0134] 解元式(线性式屯十
[0135] 数码式:2478
[0136] 拉下式:BDGH
[0137] 化
[0138]方块式:化
[0139] 解元式(线性式):/|屯
[0140] 数码式:247
[0141] 拉下式:CDG
[0142] 花
[01创方块式:花
[0144] 解元式(线性式):卡卡列屯
[0145] 数码式:88247
[0146] 拉下式:HHBDG
[0147] 画
[0148]方块式:画
[0149] 解元式(线性式):-叶U
[01加]数码式:1086
[0151] 拉下式:A0HF
[0152] 从上面例子可W看出:
[0153] 1)部分汉字与其他汉字在声学层面可能相同,但在光学层面则不尽相同或完全不 同,运就是所谓"音同字不同",而所谓"字不同"究其实是因构字元即拼形字母各异;
[0154] 2)所述汉字的拉下式简称汉拉下,它虽然不能拼读,但却能为人和机器读懂,方块 字因之不仅能够显示于人,而且能够显示于机,故汉字通过汉拉下自此亦能为ASC Π 直接显 示一一汉拉下为计算机兼容汉字和显示汉字创造了条件。
[01W] -种将汉字转化为数字及拉下字母的处理方法,包括如下步骤:
[0156] 根据预设的汉字拆分规则将汉字笔画划分为一笔、两笔或多笔的笔画形态,从而 得到多个类别的构字元的步骤;
[0157] 将各个构字元分别用设定的数字进行编码,再将所述数字分别用设定的拉下字母 进行表示的步骤;
[0158] 将所述多种构字元分别用设定的数字进行编码,并将所述数字分别用设定的拉下 字母进行表示的步骤;
[0159] 存储各个构字元,W及存储各个构字元、数字及拉下字母的对应关系的步骤;
[0160] 根据所述汉字拆分规则将录入的目标汉字进行拆分,得到目标汉字的多个笔画形 态,并将各个笔画形态分别匹配至对应类别的构字元下,从而得到该目标汉字的多个构字 元的步骤;
[0161 ]将所述目标汉字的多个构字元分别与对应的数字进行匹配,从而得到该目标汉字 的数字形式的步骤;W及
[0162] 将目标汉字的数字形式分别与对应的拉下字母进行匹配,从而得到该目标汉字的 拉下字母形式的步骤。
[0163] 根据汉字拆分规则将汉字划分为十个构字元:类0母、横母、撇母、掠母、竖母、角 母、弯母、类7母、类8母和类9母。
[0164] 将十个构字元分别用数字0~9依次表示:类0母为0,横母为1,撇母为2,掠母为3, 竖母为4,角母为5,弯母为6,类7母为7,类8母为8和类9母为9,并将数字0~9分别用拉下字 母表示为:1234567890=ABCDEFGH 10。
[0165] 所述十个构字元中,
[0166] 类0母为方圆闭合的多笔笔画形态;
[0167] 横母为由一笔从左至右形成横笔的笔画形态;
[0168] 撇母为由一笔从上至左下角形成的笔画形态;
[0169] 掠母为由一笔从上至右下角或由左至右上角的笔画形态;
[0170] 竖母为由一笔从上至下形成竖笔的笔画形态;
[0171] 角母为由一笔或两笔形成一个折角的笔画形态;
[0172] 弯母为由一笔或两笔或多笔形成两个折角的笔画形态;
[0173] 类7母为由一笔横穿角母或弯母的笔画形态;
[0174] 类8母为由两笔交叉形成的笔画形态;
[0175] 类9母为由多笔形成"9"状(正向"9"或反向"9")的笔画形态。
[0176] 如图2所示,一种将汉字转化为数字及拉下字母的处理装置,包括所述的将汉字转 化为数字及拉下字母的处理系统,还包括采集设备、数据库和输出设备,所述采集设备用于 录入的目标汉字,并将录入的目标汉字传输至所述处理系统,所述处理系统将目标汉字转 化为数字形式及拉下字母形式并调用所述输出设备进行显示,所述数据库用于存储各个目 标汉字及其对应的数字形式及拉下字母形式。
[0177] 具体的,所述采集设备包括扫描仪、录音器和键盘设备,用户(操作者)可通过其中 一种设备进行目标汉字的录入;所述数字及拉下字母的处理系统的存储模块包括汉字认母 盘,所述汉字认母盘存储有经过预处理模块处理得到的各个构字元及其变形式的信息,W 及存储各个构字元、数字及拉下字母的对应关系的信息;解元模块中包括解元仪,所述解元 仪将录入的目标汉字在所述汉字认母盘中与预处理信息进行识别和拆分,从而得到该目标 汉字的相关的构字元;所述归码模块包括归码仪,所述归码仪将拆分的目标汉字的相关构 字元与其所对应的数字进行编码,从而得到该目标汉字的数字形式,并存储在数据库中;所 述化拉模块包括化拉仪,所述化拉仪将目标汉字的数字形式用其所对应的拉下字母进行转 换,从而得到该目标汉字的拉下字母形式,并存储在数据库中;所述输出设备包括显示屏, 所述显示屏将该目标汉字的数字形式和拉下字母形式进行显示。如图5所示,为归码仪和化 拉仪在汉字认母盘中匹配数字和拉下字母的示意图。
[0178] 所述数据库W下列顺序排列:1)按首字母分为10部排列、2)按单个汉字的拼形字 母数从少到多排列、3)按字底数字从小而大的顺序排列;
[0179] 1)按首字母分为10部排列
[0180] 按汉字10母(即十个构字元)排列,即按0123456789分部排序,也就是依字的首字 母归部,计为:
[0181] 0部(类0母)例如:品000-000 吕 00-00电07-0G呈0181-0AHA骂00561-00EFA
[0182] 1 部(横母)例如:二 11-AA 下 15-AE丐 1416-ADAF 否 12430-ABDC0哥 104105-A0DA0E
[0183] 2部(撇母)例如:人23-BC 千28-BH 公 2353-BCEC 和28230-B 皿 C0 斧238514-BCHEAD
[0184] 3部(掠母)例如:广 35-CE户 39-CI 玄 31553-CAEEC 讯33368-CCCFH 客36270-CFBG0 [01 化]4部(竖母)例女日:山 46-DF 旧 401-D0A卢 419-DAI 步 4411242-DDAABDB 齿4411623- DDAAFBC
[01 化]5部(角母)例如:了 55-EE 子57-EG 厘 50881-E0HHA 驯563244-EFC 抓 D线 5537773- 邸CGGGC
[0187] 6部(弯母)例如:刀62-FB应6514-FEAD 肚 61181-FAAHA 改 65218-FEBAH 欧 682523- 即邸BC
[0188] 7部(类7 母)例如:世76-GF 女 78-GH 打 7315-GCAE转78773-GHGGC 顿 7612623
[0189] 8部(类8 母)例如:古80-册太833-HCC左8141-HADA 朽82316-皿CAF巧83623-HCFBC
[0190] 9部(类9 母)例如:尺93-IC 民 97-IG届908-I0H 刷9745-IGDE 阶92324-IBCBD
[0191] 2)按单个汉字的拼形字母数从少到多排列
[0192] 按汉字的拼形字母数排列是指因同部的汉字的字母数有所不同,故同部的汉字的 字底数字也各不相同,而按其字母个数从少到多的排列,例如:
[0193] 1部(横母)
[0194] 1母(1 字)一1-A
[0195] 2母(3字)二11-AA 下-15AE 干-18AH
[0196] 3 母(12字)可 105-Α0ΕΞ111 -AAA亏 116-AAF ……
[0197] 4母(21字)西1025-A0 邸画 1086-A0HF更1088-A0 皿 [019 引百 1201-AB0A……
[0199] ……
[0200] 13 母(2字)覆 1044224210127-A0 孤 BBDBA0ABG
[0201] 霸1711111608611-AGAAAAAFOHFAA
[0202] 14母(1字)露17111104143270-AGAAAA0DADCBG0
[0203] 3)按字底数字从小而大的顺序排列
[0204] 所述按字底数字从小到大的顺序排列,是指同部的单个汉字由于构字元不同、构 字元多少或不同,所W其字底数字必然不同,例如:
[0205] 9部(类9母)前10字依字底数字从小到大排列如下:
[0206] 尸9I-IA尺93-IC民97-IG阳901-I0A届908-I0H队923-ICB局960-IF0尼962-IFB屈 976-IGF阵978-IGH。
[0207] 本装置中还包括查询器,所述查询器接收到键盘的查询汉字时,从数据库中调取 该查询汉字的数字形式和拉下字母形式,并通过显示屏进行显示。
[0208] 本装置中还包括二进制转换器,所述二进制转换器用于将该目标汉字转化得到的 数字及拉下字母分别进行二进制数值的转换,从而得到该目标汉字的两种二进制数值,并 可通过显示屏随机将所得之一种或两种二进制数值进行显示。
[0209] 例如,分别输入汉字方块式"我"、"们",数字及拉下字母的处理系统根据传来的解 元式信息分别自动转换为十进制字底数字和汉字的拉下式,"277773-BGGGGC"(我)和 "243416-BDCDAf'(们),传入二进制转换器中分别自动转换为:
[0210] 我= 277773 = 1000011110100001101
[0211] 们= 24:3416 = 111011011011011000
[0212] 我们= 277773 2似416 = 1000011110100001101 111011011011011000;
[0^3]或
[0214] 我= BGGGGC = 01000010 01000111 01000111 01000111 01000111 01000011
[0215] 们二抓CDAF = 01000010 01000100 01000011 01000100 01000001 01000110
[0216] 我们= BGGGGC BDCDAF = 01000010 010001 1 1 010001 1 1 010001 1 1 0100011101000011 01000010 01000100 01000011 01000100 01000001 01000110。
[0217] 汉字通过十进制字底数字可W直接转换成权值形式,所谓权值即加权平均数,通 常也指字符对应的二进制编码出现的概率(英文有26个字母,它转写为权值和二进制时,通 常是从ASCII表里找到字母对应的十进制数字,再转写成二进制或计算权值),汉字10母因 与阿拉伯数字互为等码,故可W直接转换成二进制或计算权值。W"元""旦""佳""节"四字 为例,其字底数字一-十进制数组一-是可W直接读出的:
[021 引元= 1126、旦= 011、佳= 248181、节= 8864,
[0219] 按照10进制数转换权值通式,分别为:
[0220] 元=1126 = 1*10~3+1*10~化巧10~1+6*10~0
[0221] 旦= 011 =0*10 - 2+1*10 - 1+1*10 - 0
[0222] 佳= 248181 =巧 10~5+4*10~4+8*10~3+1*10~ 化 8*10~+1*10~0
[0223] 节= 8864 = 8*10 -3+8*10 -化 6*10 -1+4*10 -0
[0224] 上述例子表明汉字抽象为10母拼形后,可通过汉字的数字式即字底数字直接转换 为权值或二进制的形式,运就为计算机兼容汉字创造了便利。
[0225] 使汉字通过计算机由方块式自动转化为汉字的解元式、汉字的数字式和汉字的拉 下式使机器能够自动识读汉字,实现数字扫盲、数字检索和直接用汉语汉字编程,进而使 ASCn升级为CHINA-ASCII(缩写C-ASCII)下面是C-ASCII同时用于英语和汉语即汉拉下显 示常用术语的示例,转换如表1所示:
[0226]
[0228] ASCII升级为C-ASCII后,不但用于显示现代英语和其他西欧语言,还能用于显示 华语汉字,从而使汉字与英文一样,能够通过机器进入网络和各个国际科技领域,为中华文 字在大数字时代增添强大的竞争力。
[0229] 本发明实现汉字自动转换为阿拉伯数字和拉下字母,并通过数字或拉下字母转换 为二进制数字,从而帮助机器识读和显示汉字,因而为汉字编程开辟了新的道路;并且为汉 字的数字检索及教学提供了新思路和新方法,为世界公民通过机器查找和学习汉字提供了 便利。
[0230] W上所述仅为本发明的较佳实施例,并不用W限制本发明,凡在本发明的精神和 原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种将汉字转化为数字及拉丁字母的处理系统,其特征在于,包括预处理模块、存储 模块、解元模块、归码模块和化拉模块, 所述预处理模块,用于根据预设的汉字拆分规则将汉字笔画划分为一笔、两笔或多笔 的笔画形态,从而得到多个类别的构字元;还用于将各个构字元分别用设定的数字进行编 码,再将所述数字分别用设定的拉丁字母进行表示; 所述存储模块,用于存储各个构字元,以及存储各个构字元、数字及拉丁字母的对应关 系; 所述解元模块,用于根据所述汉字拆分规则将录入的目标汉字进行拆分,得到目标汉 字的多个笔画形态,并将各个笔画形态分别匹配至对应类别的构字元下,从而得到该目标 汉字的多个构字元; 所述归码模块,用于将所述目标汉字的多个构字元分别与对应的数字进行匹配,从而 得到该目标汉字的数字形式; 所述化拉模块,用于将目标汉字的数字形式分别与对应的拉丁字母进行匹配,从而得 到该目标汉字的拉丁字母形式。2. 根据权利要求1所述的一种将汉字转化为数字及拉丁字母的处理系统,其特征在于, 所述预处理模块中,根据汉字拆分规则将汉字笔画划分为十个构字元:类0母、横母、撇母、 捺母、竖母、角母、弯母、类7母、类8母和类9母。3. 根据权利要求2所述的一种将汉字转化为数字及拉丁字母的系统,其特征在于,所述 预处理模块中,将十个构字元分别用数字0~9表示:类0母为0,横母为1,撇母为2,捺母为3, 竖母为4,角母为5,弯母为6,类7母为7,类8母为8和类9母为9;将数字0~9分别用拉丁字母 表示为:1234567890=ABCDEFGHIO。4. 根据权利要求2或3所述的一种将汉字转化为数字及拉丁字母的处理系统,其特征在 于,所述十个构字元中, 类〇母为方圆闭合的多笔笔画形态; 横母为由一笔从左至右形成横笔的笔画形态; 撇母为由一笔从上至左下角形成的笔画形态; 捺母为由一笔从上至右下角或由左至右上角的笔画形态; 竖母为由一笔从上至下形成竖笔的笔画形态; 角母为由一笔或两笔形成一个折角的笔画形态; 弯母为由一笔或两笔或多笔形成两个折角的笔画形态; 类7母为由一笔横穿角母或弯母的的笔画形态; 类8母为由两笔交叉形成的笔画形态; 类9母为由多笔形成"9"状的笔画形态。5. -种将汉字转化为数字及拉丁字母的处理方法,其特征在于,包括根据预设的汉字 拆分规则将汉字笔画划分为一笔、两笔或多笔的笔画形态,从而得到多个类别的构字元的 步骤; 将各个构字元分别用设定的数字进行编码,再将所述数字分别用设定的拉丁字母进行 表示的步骤; 将所述多种构字元分别用设定的数字进行编码,并将所述数字分别用设定的拉丁字母 进行表示的步骤; 存储各个构字元,以及存储各个构字元、数字及拉丁字母的对应关系的步骤; 根据所述汉字拆分规则将录入的目标汉字进行拆分,得到目标汉字的多个笔画形态, 并将各个笔画形态分别匹配至对应类别的构字元下,从而得到该目标汉字的多个构字元的 步骤; 将所述目标汉字的多个构字元分别与对应的数字进行匹配,从而得到该目标汉字的数 字形式的步骤;以及 将目标汉字的数字形式分别与对应的拉丁字母进行匹配,从而得到该目标汉字的拉丁 字母形式的步骤。6. 根据权利要求5所述的一种将汉字转化为数字及拉丁字母的处理方法,其特征在于, 根据汉字拆分规则将汉字划分为十个构字元:类〇母、横母、撇母、捺母、竖母、角母、弯母、类 7母、类8母和类9母。7. 根据权利要求6所述的一种将汉字转化为数字及拉丁字母的处理方法,其特征在于, 将十个构字元分别用数字〇~9依次表示:类0母为0,横母为1,撇母为2,捺母为3,竖母为4, 角母为5,弯母为6,类7母为7,类8母为8和类9母为9,并将数字0~9分别用拉丁字母表示为: 1234567890=ABCDEFGHIO。8. 根据权利要求5或6所述的一种将汉字转化为数字及拉丁字母的处理方法,其特征在 于,所述十个构字元中, 类〇母为方圆闭合的多笔笔画形态; 横母为由一笔从左至右形成横笔的笔画形态; 撇母为由一笔从上至左下角形成的笔画形态; 捺母为由一笔从上至右下角或由左至右上角的笔画形态; 竖母为由一笔从上至下形成竖笔的笔画形态; 角母为由一笔或两笔形成一个折角的笔画形态; 弯母为由一笔或两笔或多笔形成两个折角的笔画形态; 类7母为由一笔横穿角母或弯母的笔画形态; 类8母为由两笔交叉形成的笔画形态; 类9母为由多笔形成类似"9"的笔画形态。9. 一种将汉字转化为数字及拉丁字母的处理装置,其特征在于,包括权利要求1-4任一 项所述的将汉字转化为数字及拉丁字母的处理系统,还包括采集设备、数据库和输出设备, 所述采集设备用于录入的目标汉字,并将录入的目标汉字传输至处理系统,处理系统将目 标汉字转化为数字形式及拉丁字母形式并调用所述输出设备进行显示,所述数据库用于存 储各个目标汉字及其对应的数字形式及拉丁字母形式。10. 根据权利要求9所述的一种将汉字转化为数字及拉丁字母的处理装置,其特征在 于,还包括二进制转换器,所述二进制转换器用于将该目标汉字转化得到的数字及拉丁字 母分别进行二进制数值的转换,从而得到该目标汉字的两种二进制数值。
【文档编号】G06F17/22GK105824793SQ201610351991
【公开日】2016年8月3日
【申请日】2016年5月25日
【发明人】潘昌仁
【申请人】潘昌仁
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1