一种汉字拆分处理方法

文档序号:6409082阅读:1204来源:国知局
专利名称:一种汉字拆分处理方法
技术领域
本发明属于计算机中文信息处理领域。
计算机在中国的普及和应用有赖于计算机对中文的处理能力,其中汉字的计算机输入问题是一个比较难于实现的问题。汉字的数量庞大,字形复杂,属性众多,难于使用西文标准键盘输入。
目前已有的汉字输入方案很多,大致分为音码、形码、音形码等几类。
除了最简单的拼音输入方法,其它各种以字形为基础的编码方案都需要对汉字进行拆分。这是必要的,也是可能的。因为通过分析汉字的字形,可以发现汉字有一定的组成规律;汉字的字形可以分为笔画、字根、整字若干层次,笔画的类型和数目最多为数十种,字根的数目最多为数百种,各种字根相互组合形成了数万个汉字。用数十个键位来直接表达数十个笔画、数百个字根,然后把由字根部件组合成的汉字进行拆分,依次对每个字根进行描述,这也就是目前各类编码方案的核心思想。
各类方案的不同点主要表现在对字根部件特征的提取、描述,以及与键位的对应关系上,不同编码各自的规则包括一套字根部件特征描述规则和与之对应的键位安排,以及汉字的拆分规则两大部分。
决定汉字拆分方法的因素是汉字的组成规律和字根部件的选取方法。
汉字拆分中遇到的问题一是拆分结果的表示,二是字根部件的选择。
汉字拆分的结果是把一个整字分割成一个汉字组件的序列,在分割过程中往往产生一些在标准汉字集合(比如GB2312,ISO10646等)中没有收入的字符,比如,“学”字的上部件,“泰”字的上部件和下部件,如何表示这种字符,人们采取了不同的方法,有经济实力的单位一般自己搜集整理出一套字符集合,把它们安排在标准字符集合的未用区域,同时为这些字符制作相应的显示和打印字模;其它一些人则尽量回避这一问题,比如一般的编码说明材料中都不提供完整的汉字拆分表,而是使用手工书写或者造字软件造字的方法列举一些说明性的汉字拆分示例,然后提供用西文字符表示的码表。个别单位、个别人自己搜集整理非标准字符、安排内码、制作显示字模和打印字模,整个过程工作量大,又无标准可循,容易造成人力、物力资源的重复性投入。
汉字拆分时,由于字根部件的选择差异,导致汉字拆分结果的不同,各种方案对汉字的拆分方法各异,比较混乱。这个问题已经引起了有关专家的注意,不少文字专家提出了防止“文字污染”的观点;同时这个问题也使用户感到茫然,无所适从。比如对“束”的拆法就有“一口小”“十口八”“木口”等等几种。诸如此类为了减少重码率,盲目对汉字强行拆分的作法,造成了当前汉字编码中的一些不科学、不规范、不合理现象,直接影响着计算机与汉字的教学和应用。
本发明就是针对汉字拆分处理中存在的这些问题而提出的。目的是解决汉字拆分过程中出现的非标准汉字字根、部件无法统一表示的问题以及汉字拆分过程中的不科学、不规范、不合理现象。
考察汉字拆分过程产生的标准字符集合中未收入的字符,即非标准字根部件,可以看出,它们或者是一个或几个标准汉字的变形,或者是一个或几个标准汉字的部件。比如“慕”的下部字根是“心”的变体,“泰”的下部字根是“水”的变体;“泰”的上部字根是该字的一部分,也是“春”“奉”“奏”“秦”等字的一部分。非标准字符都是来源于标准字符的,这样就可以使用标准字符加注一个标记的方法来表示非标准字符。
这种特殊标记作为一种转义符号,当一个标准字符和转义符号同时出现时,就说明表示的是非标准字符。
转义符号要选自计算机信息交换字符集中,可以是单字节,也可以是双字节。
为了避免符号使用的冲突,转义符号可以选择在中文文本中比较罕用的西文符号。
转义符号可以使用一个,也可以使用几个。如果使用几个,可以分别赋予它们不同的含义,比如使用几个转义符号分别表示非标准部件在标准部件内的位置,包括上部件、下部件、左部件、右部件等等。这样有助于识别非标准字符和对应的标准字符之间的关系。
在选择标准的对应字符时可以考虑字形相似、同源变体、字形包含、常用、首部件等几个因素,便于联想、识别。
所谓字形相似是指形状相似的变形字,比如“水”和“泰“字的下部件;所谓同源变体是指来源相同、字体发生变化,比如“心”和“慕”字的下部件;所谓字形包含是指标准字包含非标准部件,比如“学”字包含“学”字的上部件;所谓常用是指标准字符比较常用;所谓首部件是指书写时先写的部件,比如“朝”的左部件就是首部件;图1。
这样,凡是出现非标准字符的场合均使用转义符号加上其对应的标准字符来表示。包括计算机内部信息、数据交换,以及显示、打印等场合。比如选用单字节ASCII字符“_”作为转义符号,“_春”表示它的上部件,“_水”表示“泰”的下部件,那么,“泰”就可以拆分成为“_春_水”的序列。
当计算机内部处理数据时,如果遇到转义符号和汉字同时出现,就要做相应的处理。
当用户看到转义符号和汉字同时出现在显示设备,以及印刷品上时,应该当做非标准字符对待。所以,在使用系统、文字材料以前,应该给用户适当的说明。
下面,考察各类汉字编码方案对汉字的拆分过程,可以看出所有汉字可以大致分为三类第一类汉字一般不拆分,比如最基本的常用字根口、艹、氵等等;第二类汉字一般拆分,比如明显的组合多体字汉、字等等;第三类汉字有时拆分,有时不拆分,比如青、音、骨等等;本发明对汉字进行如下划分,同时针对不同的类型,采用不同的特征描述策略基本部件不拆分,包括频度较高的字根、结构紧密的单体字,例如,最基本的高频常用字根口、艹、氵等等;结构紧密是指构成字根、部件、汉字的笔画之间联系密切,具有交叉,以及紧密连接等关系,不宜进行强制拆分,如果拆分也不易确定拆分结果,比如“夫”,笔画交叉,结构紧密,有些编码强行拆分,但结果往往不同,有的编码拆分成为“二人”,有的编码拆分成为“一大”;同理,“春”的上部件也不宜拆分成为“三人”“三八”“丰丶”等等。
复合部件允许拆分和不拆分,包括结构松散的单体字,频度较高的组字字根、部件、多体字,比如莫、林、从等等。其中莫、林、从这些字是明显的可拆分的合体字,但是因为以这些字作为部件的字不少,比如以“莫”为部件的汉字有摹、墓、暮、幕、募、慕、蓦以“林”为部件的汉字有彬、郴、楚、焚、禁、婪、麓、梦、梵、棼这样,由于组字频度较高,如果把它们作为一个整体来处理,比较符合汉字的结构特点,而且在提取特征时,也会提高编码的效率。
合体字拆分,包括多体字,比如明显的组合多体字汉、字等等;与上述汉字划分相应的汉字描述特征提取策略是基本部件作为一个整体来提取特征,形成一组特征代码;复合部件可以作为一个整体对待,提取描述特征,形成一组特征代码;也可以拆分成n个部件,分别提取描述特征,形成n组特征代码;合体字拆分成n个部件,依次从每个部件中提取特征代码,得到n组特征代码;这里所说的描述特征可以是汉字的字形信息,比如笔画,也可以是汉字的发音信息或者其它信息。一组描述特征体现为一组代码,可以在键盘上得到体现。
一组代码内部关系比较密切,代码组与组之间相对独立。
复合部件在作为一个整体处理时,可以使用和基本部件相同的特征提取方法,也可以不同,因为复合部件在字形上比基本部件包含更丰富的信息,比如,尽管把它当做一个整体,也可以分别从各个组成部件中提取特征,形成一组的描述特征代码。
本发明使用转义符号加上标准字符表示非标准字符,充分利用了各种现有资源,避免了内码设计和字模制作,节省时间、精力;而且统一、直观,易于表示,易于接受;本发明对汉字的兼容拆分处理方法规范、合理、智能,提高了汉字处理系统的容错能力和适应性;同时也提高了编码效率。
这种方法可以应用到各种中文信息处理软硬件系统中,印刷出版物中。
本发明的一个实施方案是与林码汉字输入方法(专利申请号94117506.5)相结合使用。
对汉字字符集合GB2312-80中收入的所有汉字字符进行拆分处理时1.选择一个转义符号“_”,该字符是ASCII单字节符号;2.搜集、整理出一组非标准汉字部件字符集合,选择相应的替代表示标准字符,形成对应表,选择标准替代字时,可以考虑字形相似、同源变体、字形包含、常用、首部件等几个因素;图1;3.在2中得到的非标准汉字部件字符集合作为标准字符集合的附加字符集合,两者的并集形成扩充字符集合,其中非标准字符通过使用转义符号加上对应的标准字符组合来表示;4.考察扩充字集,根据字根、部件、单体字的使用频度和字形紧密程度确定基本部件集合;5.考察扩充字集,根据部件、汉字的使用频度、组字频度和字形特点,确定复合部件集合;6.考察扩充字集,根据多体字的组成结构特点,确定合体字集合;7.对4中得到的基本部件集合,直接进行字符属性的提取和描述,形成属性特征描述代码表;图3;林码对字根特征的描述采用带有相对位置信息的笔画特征,林码的一种实施方案把笔画按形状分为横竖撇捺折五种,按相对位置分为上中下三种,按笔顺依次提取各个笔画;比如“木”的笔画特征是“中一、上丨、中丿、中丶”;8.对5中得到的复合部件集合,制作复合部件拆分表,其中基本部件作为拆分部件;同时制作复合部件不拆分整体属性特征描述代码表;图4;9.对6中得到的合体字集合,制作汉字拆分表,其中基本部件和复合部件作为拆分部件;图5;复合部件是可拆可不拆的,可拆是因为它由若干基本部件组成;可不拆,因为复合部件作为一个整体在汉字中充当一个组字部件的频度比较高,这样,如果作为一个整体对待,更能够体现汉字的结构特点,比如前面提到的“募”字可以拆分成为“莫力”,把“莫”字作为一个组字部件来处理;10.基本部件的属性代码位于一个键盘分区内;林码汉字输入方案把键盘划分成为若干区域,字根和单体字的输入在一个区域内完成,多体字拆分成为字根、部件,然后依次交替在不同的键盘区域中输入各个字根、部件;11.复合部件的属性代码可以在一个分区内,也可以分布在若干分区内;例如“莫”可以拆分成为“艹日大”,提取三组相对独立的字形特征,然后分别交替在三个键盘分区中输入,也可以提取每个字根的第一笔画,形成一组特征代码,在一个键盘分区中输入,当复合部件出现在别的汉字中,作为一个整体来处理,比较直观;12.合体字的属性代码分布在若干分区内,如果包含复合部件,则同时兼容拆与不拆两种情况;比如“募”在输入时可以拆分成为“艹日大力”,依次在交替在四个键盘分区中输入每个字根,也可以拆分成为“莫力”,其中“莫”字在一个键盘分区中输入,提取它的三个字根的首笔画作为描述特征代码。同样的方法可以应用到词汇的输入,把组成词汇的每个字都作为一个整体来处理,例如输入“莫非”一词时,两个字可以分别在两个键盘分区内输入,而不必交替在多个分区内依次输入两个字的各个字根的特征代码。


图1.非标准部件的表示举例图2.汉字字符分类图3.基本部件及其处理举例不拆分图4.复合部件及其处理举例可拆可不拆图5.合体字及其处理举例拆分
权利要求
1.一种汉字拆分处理方法,其特征是对于在汉字拆分过程中产生的、汉字标准字符集中没有收入的非标准汉字部件,使用转义符号加上一个标准字符来表示,同时对于可以拆分,也可以不拆分的字根、部件、汉字进行兼容处理。
2.按照权利要求1的方法,其特征是采用下列步骤(1).选定一个或若干个转义符号;(2).对汉字字符集中的汉字进行拆分,搜集出现的非标准部件字符;(3).为每一个非标准字符选定一个对应的标准字符;(4).制作标准字符与非标准字符的对应表;(5).凡是出现非标准字符的场合均使用转义符号加上其对应的标准字符来表示。图1。
3.按照权利要求2的方法,其特征是所说的转义字符是计算机信息交换用标准字符集合中的符号。
4.按照权利要求2的方法,其特征是所说的若干个转义字符可以分别表示非标准部件字符与对应的标准字符的字形关系,包括字形相似、字形变体、字形包含、左部件、右部件、上部件、下部件等等。
5.按照权利要求2的方法,其特征是在为非标准部件字符选择替代用标准字符时,考虑两者的相互关系,包括字形相似、同源变体、字形包含、常用、首部件等等因素。
6.按照权利要求2的方法,其特征是所说的出现非标准字符的场合包括计算机软硬件系统内部信息交换、字符显示、字符打印等。
7.按照权利要求1的方法,其特征是在对汉字拆分处理时,根据字形结构、组字频度等特点,把标准汉字字符和非标准汉字字符分为以下三种情况(1).基本部件包括常用字根部件、结构紧密的单体字;(2).复合部件包括可以作为组字部件,组字频度较高的字根、部件、汉字;(3).合体字结构分明的多体字。图2。
8.按照权利要求7的方法,其特征是采用下列步骤(1).对基本部件不拆分,作为一个整体,提取特征,形成一组特征描述代码;图3;(2).对复合部件可拆也可不拆,不拆分时,作为一个整体,提取特征,形成一组特征描述代码;拆分时,把它拆成n个部件,可以提取出n组特征描述代码;图4;(3).对合体字拆分,把它拆成n个部件,可以提取出n组特征描述代码;如果其中包含复合部件,分别按拆分和不拆分两种情况处理;图5。
9.按照权利要求8的方法,其特征是对于复合部件,在作为一个整体提取特征时,可以分别从n个部件中提取特征,形成一组特征描述代码。
10.按照权利要求1至9任何一条的方法,可以应用到各种计算机中文信息处理的软硬件系统,以及各种印刷出版物中。
全文摘要
一种汉字拆分处理方法,针对计算机汉字信息处理过程中对汉字进行拆分而产生的非标准字符和盲目拆分问题,提出了使用转义符号加上一个相关的标准字符表示非标准字符,标准字符集合和非标准字符集合构成扩充字符集合,把扩充字符集合中的字符分为基本部件集合、复合部件集合、合体字集合三类,分别进行不拆分、可拆可不拆、拆分的处理。使文字拆分高效、规范、合理。
文档编号G06F3/023GK1152143SQ9510598
公开日1997年6月18日 申请日期1995年6月7日 优先权日1995年6月7日
发明者林兵 申请人:林兵
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1