字词联体标注方法及其字模与字图的制作方法

文档序号:6597281阅读:657来源:国知局
专利名称:字词联体标注方法及其字模与字图的制作方法
技术领域
本发明由一种字词联体标注方法、标注字模、标注字图与汉语拼音字模和字图组成,它对字词在语言文字和信息处理方面的属性进行联体综合性直观标注,并为语言文字、信息技术及印刷技术,提供联体标注的字模和字图,属于语言文字与信息技术及印刷技术领域。
为叙述方便,对本说明书中涉及的“概念”,加以说明。“字词”,包括汉语,或其它语言中的“字”或“词”;本说明书,以汉语字词,作为举例说明的对象,在其它语言中的类似应用,以此类推。“标注”,在这里是指,对文本中的字词,加以标记、注释。“字词联体标注方法”,是一种将字词和它的标注,在形体上,联结成一个整体,并作为记录语言(或处理信息)的文字(或技术)符号的方法。“字词联体标注”,简称“联体标注”;如不引起歧义,可简称“标注”,比如,用于“标注汉字”、“标注字模”和“标注字图”等。“字模”,是指作为文字(或技术符号)使用的字词的点阵图形。“字图”,是指作为文字(或技术符号)使用的字词的彩色图形。“色度”,是指颜色的深浅程度。字词的“属性”,描述字词在读音、形体和信息代码中的一种或多种信息。“信息代码”,描述用于信息输入的输入编码,或用于机器识别处理的机器代码,或它们两者的组合。“机器代码”,是用于字词的人\机识别及处理的图形代码,描述包括字词的数据库编码、读音代码、“个性化”信息代码和用于字模(或字图)合成的数据代码等信息中的一种或多种信息,或描述其它方面信息。数据库编码,为查询包括字词的读音、形体(包括字模和字图)和词性意义等信息提供“地址”(编码),它按一定格式组成,或直接为数据库记录号,或为字符集编码,或为机内代码。读音代码,是描述字词读音的代码,或是利用字词读音生成的代码,或是指代字词读音序列号的代码,在无歧义时,是一种泛称。
现有的字词标注方法,包括字典、词典、“夹注”和“读音标注”等形式。字典、词典,对字词的读音、形体、意义和用法提供规范性注释。“夹注”,是在文本正文中标注;如双行夹注,在正文中,用双行小字,对字词加以注释。“读音标注”,将字词的读音,标注在字词的头上、脚下或身后。以上标注方法,在形体上,字词和标注,是分离的,未绑定一体,不便于输入排版;字词是否标注,存在随意性,不利于加强语言文字的规范化;在内容上,没有直观标注信息代码,不便于字词的编码输入、机器识别和处理。
汉语,在个人使用方面,存在汉字、汉语拼音和汉字输入编码等多种符号;这些符号,在形体上,各自独立,不便于加强汉语符号使用的规范化。
汉字输入编码,是专为汉字输入而新增加的符号代码,它游离于汉字和汉语拼音之外,编码方案众多,有几百种。人们在使用中,需要掌握一种(或多种)输入编码。编码输入,要不断地去“翻译”编码,容易使人疲劳。如何取码,需要记忆;过一段时间不用,又要忘记。这些输入编码,没有与字词一起标注,需要记忆和“翻译”,增加了学习和使用的难度。据报道,现已推出了规范的音码、形码和数字编码,这些编码的推广和应用,仍然需要一种直观的表现形式。
汉字,存在难读、难写、难记、难输入、难检索和难于机器识别及处理(简称“六难”)等缺点。
汉字,是具有艺术性的表意文字。这种艺术性,表现为字词形态的“个性化”。但是,在现有条件下,为适应机器识别处理,汉字必须“定型”;这种“定型”,不便于表现汉字的“个性化”艺术特征。汉字字体,现在已有几十种字模,提供应用选择,但是,那不是使用者个人的字体风格。
汉语拼音,是标注汉字读音、推广普通话的法定工具。但是,现有的“读音标注”,在形体上,没有和字词联结在一起,不便于输入排版;应用范围较窄,通常应用在拼音识字教育方面;在广泛的社会应用中,缺少一种将字词和标注,在形体上紧密联结的应用形式,不利于加强读音规范化。在现有条件下,汉语拼音自身,还不能流畅地输入和输出显示。这种“不流畅”,具体表现为在字体和字型的匹配方面,看起来不顺眼,给人一种“另类”的感觉;在计算机输入操作中,显得麻烦。
拼音识字和字词输入培训不同步,学习普通话容易“回生”,其中一个原因,就是字词、读音和输入编码,在形体上,没有联结在一起。
信息处理,需要对字词的一些实用属性进行规范。应用这些规范,需要记忆,因为,这些实用属性,不能从字词的形体上,直观地表现。如,汉字“想”,当部件组成指定为“木、目、心”时,编码部件为“木、目、心”;当部件组成指定为“相、心”时,编码部件为“相、心”。又如,“幕”和“暮”,其汉语拼音同为“ mù”,其输入编码的“音码”相同;若加用其“形码”区分,其区别特征,则需要记忆。
现有的字词机器识别和处理,包括识别处理字词的印刷字体和个人书体,一般是通过处理字词的“图像特征”实现的。字词,是识别处理的基本单位。有多少个字词,就要识别多少个“图像特征”。同一字词,字体不同,图像特征就不一样;同一字体,字型大小不同,图像特征也不一定相同。汉字,字数接近9万,其“图像特征”,数量多,种类多,识别处理,工作量大。印刷字体的多样性和个人书体的“个性化”,是文字及其技术发展的必然规律,这也将不断增加字词机器识别和处理的难度。
现有的字词机器阅读,一般是通过处理字词的“机内代码”实现的。字词,是阅读处理的基本单位。有多少个字词,就要处理多少个“机内代码”。不知字词的“机内代码”,就不便机器阅读。
现有的字模,没有将字词和它的标注属性做成一体,不便于输入排版,不便于加强语言文字的规范化,不便于字词的编码输入、机器识别和处理。
现有的字模,不便于信息安全管理和版权保护。现有的字模,是通用的。比如,一个“永”字,只要字体一定,“永”字的字模代码,在同一的信息系统中,就是一定的,就可以通用于系统的不同终端设备。这种“通用性”,不利于信息安全管理和版权保护。现有的字模,没有“个性”标记。在现实社会中,这个“永”字,它是具有“个性”标记的。比如,谁写的?谁的笔迹?是否允许公开?是否授权使用?以及谁出版?谁印刷?谁复制?等等。但是,在现有条件下,同一的信息系统中,所有人都可以使用这个“永”字;同一字型的所有的“永”字,在形体上,都是一样的,没有“个性”标记。信息技术的发展,使文本的机器识别和处理,文本的复制和公开,变得非常“便利”。这种“便利”,有不利于信息安全管理和版权保护的一面。字模,没有“个性”标记,不便于明确法律责任,不便于防伪,不便于抑制盗版和非法复制。字模,需要有定义“个性”标记的“开关”,需要标注“个性化”信息。现有的“加密”技术,解决了文本“未经允许,不能偷看”的问题,但是,没有解决文本“允许看,而不允许非法修改和复制”的问题。
在现有技术中,一种“合成字模”方案,用部件字模合成汉字字模,这将精简或改进现有的汉字字模库。字模库的汉字部分,可以只有少量的部件字模,或只有部件字模和常用汉字字模。但是,现有的字模和字图,不能为这种方案的机器识别输入,提供字模合成的数据代码。
现有的字图,大多应用于幼儿读物。这些“彩色文字图画”,对文字读音、笔画、结构和拼写,进行“图解示意”,有利于幼儿拼音识字。但是,这些“彩色文字图画”,仅仅是“图解”文字的工具,它自身,仍然是被文字说明的对象;没有用来记录语言,不具有信息代码方面的意义。
现有的信息处理与文字改革实践,需要一种既有利于汉字、汉语拼音和输入编码相互融合,又有利于汉字、汉语拼音和输入编码相互促进、协同发展,既能解决现实应用,又可兼顾长远目标的实践形式。
汉字存在简体、繁体和异体。它具体表现为有的具有简体和繁体,有的具有“正体”和异体,有的具有简体、繁体和异体等形式。为叙述方便,笼统叫做“汉字的简体、繁体和异体”。它的实质,就是“一个汉字,几个形体”。在现有的汉字信息技术中,一个字的简体、繁体和异体,是当作几个不同的“字”处理的,它具有几个汉字字符集编码,增加了字符处理的数量。汉字的继续简化和新字符的产生,受到已有字符集编码的约束。已有字符集,不能及时安排它们的“座位”;就是安排它们“座位”后,还需要一个长时期的约定俗成。因为,这个“座位”,没有直观地标注在字模和字图上。还有,张三造的“大”字,与李四造的“大”字,哪怕它们在形体上完全一样,在现有条件下,计算机是作为两个不同的“大”字对待的,因为,它们在字符集中的“座位”不同。在现有条件下,还不能将张三造的“大”字,编码注册,标注在字模(或字图)上,让李四知道,使李四不必再造这个“大”字;或者,让李四造的“大”字,标注与张三相同的注册编码,作为同一个“大”处理。
本发明的目的,就是提供一种字词联体标注方法、标注字模、标注字图与汉语拼音字模和字图,(1)实现字词属性的联体综合性直观标注,(2)将字词、读音和信息代码统于一体,(3)降低字词学习、使用和编码输入的难度,(4)减小和克服汉字“六难”,提高字词拼写的确定性,改进汉语拼音的输入和输出显示,(5)加强语言文字规范化,(6)促进编码输入规范化,(7)改进字词识别和阅读技术,(8)有利于加强信息安全管理和版权保护,(9)为信息处理与文字改革实践,提供一种既有利于汉字、汉语拼音和输入编码的相互融合与协同发展,又兼顾现实应用与长远目标的实践形式,(10)为汉字的简体、繁体和异体,实现“异形同码”,为汉字的继续简化和新造字符的使用,为改进汉字字符集编码,提供一种实践形式,(11)为机器识别输入“字模合成”数据,提供条件,(12)实现字词输出显示个性化;(13)增强字模和字图在信息处理中的功能。
本发明的目的是这样实现的;(1)实现字词属性的联体综合性直观标注。本发明,采用字词联体标注方法及相应的字模和字图,对字词在语言文字和信息处理方面的属性进行联体的、综合性的、直观的标注。在标注结构上,具有联体性。联体标注及相应的字模和字图,具有“文字部分”和“标注部分”。它将字词的“文字部分”和“标注部分”,在形体上,联结成一个整体。字词与标注属性,以整体形式,一起出现,即有字词的地方,就有字词的标注属性。它们以这个整体形式,作为记录语言(或处理信息)的文字(或技术)符号,实现字词的联体标注。在标注内容上,具有综合性。它对字词在语言文字和信息处理方面的属性进行标注;这些属性,包括字词的读音、形体和信息代码,或只包括字词的读音和形体,或只包括字词的信息代码和形体,或只包括字词的信息代码。在标注方法上,具有直观性。这种直观性,表现在方便人与机器的识别处理方面。它将易于人或机器识别的标注材料(包括颜色、色度、编码、记号、字符及其变形,或指纹、水印、磁性油墨等)进行选用和定义,作为字词标注的标志。标注材料的应用,使字词标注形象化。它可以形象表现字词的选用属性,对包括读音、拼写、笔画、笔顺、结构样式、部件组成、部件归属、选用部件、输入编码和机器代码等在内的一种或多种字词属性,进行直观形象标注。标注对象和标注内容融为一体,具有直观性。文字部分,采用标注形态,可以形象标志字词的选用属性,对包括拼写、笔画、笔顺、结构样式、部件组成、部件归属和选用部件等在内的一种或多种字词属性,进行直观形象标注;比如,在字词的标注形态中,提示编码部件。标注部分,在字词的“读音\输入编码”标注中,可以选用标注材料,如用颜色、色度或字符变形等,直观地标注字词读音、音节声调,或提示输入编码的“简码”。在标注组合(与应用)上,具有灵活性。“文字部分”,可以表现为字词的本来形态,也可以表现为字词的标注形态。“标注部分”,表述字词读音和信息代码(信息代码,包括“输入编码”和“机器代码”),具有“读音\输入编码”和“机器代码”,或只有“读音\输入编码”,或只有“读音(输入编码隐含)”,或只有“机器代码”等样式,或其它样式。机器代码,可以直观形象标注,也可以隐匿秘密标注。字词的读音拼写和输入编码联接在一起,表现为“读音\输入编码”样式,或者字词的读音拼写和输入编码不联接在一起,比如,表现为“读音(输入编码隐含)”样式。“读音\输入编码”样式,它前面是字词读音,后面是输入编码,或前面是字词读音,后面是用以区别同音字词的形义特征代码,前后两部分结合作为输入编码,中间用符号隔开,或不用符号隔开,分隔符号可以根据需要定义选用。机器代码,是用于字词的人\机识别及处理的图形代码,它在形式上,定义包括“识别起点、纵横向识别参照”等标记,或定义其它标记,或不作这类标记定义;它在内容上,描述包括字词的数据库编码、读音代码、“个性化”信息代码和用于字模(或字图)合成的数据代码等信息中的一种或多种信息,或描述其它方面信息。数据库编码,为查询包括字词的读音、形体(包括字模和字图)和词性意义等信息提供“地址”(编码),它按一定格式组成,或直接为数据库记录号,或为字符集编码,或为机内代码。“个性化”信息代码,描述包括著作、出版、印刷复制设备、专用字体、公证印记和密码等方面的一个或多个在管理机关登记注册的信息,或其它自定义信息。“文字部分”和“标注部分”,其相互位置,如“上下、前后”,可以根据需要确定;其相互组合,可以是两部分全部出现,也可以是“文字部分”与“输入编码”组合出现,或“文字部分”与“机器代码”组合出现。在应用形式上,具有多样性。它采用标注字模,或采用标注字图,或采用汉语拼音字模和字图,或采用其它形式,实现对字词的一个,或多个属性,进行联体直观表现。
(2)将字词、读音和信息代码统于一体。本发明,采用联体标注及相应的字模和字图,将字词在语言文字和信息处理方面的属性,进行联体综合性直观标注。在内容和结构上,将字词、读音和输入编码,统于一体。字词的标注形态,既可表述字词的笔画、部件和结构,又可隐含(提示)字词的输入编码。读音标注和输入编码融为一体。标注字模和字图,在形体上是一个整体;以整个联体标注,作为应用单位;具有文字符号和技术代码两种功能。
(3)降低字词学习、使用和编码输入的难度。字词的标注形态,形象表述字词的拼写、笔画、笔顺、部件、结构和部件归属等属性,有助于字词的学习和理解。标注字词的读音,有助于阅读。将输入编码与文字一起标注,按文本输入,可实现输入编码不用记忆。将输入编码与字词读音相结合,可降低编码输入的难度。
(4)减小和克服汉字“六难”,提高字词拼写的确定性,改进汉语拼音的输入和输出显示。汉字“难读”,就给汉字标注读音。汉字“难写”、“难记”,就在汉字形体上,标注笔顺、结构和部件组成等,减小其学习和应用的难度。如果对字词的汉字形态,实在不会“写”和“记”,可以利用汉语拼音,将字词表述为它的读音代码,用读音代码记录汉语字词;或者,依照标注汉字文本,使用字词标注的读音代码,或输入编码,实现能“写”易“记”,还能输入汉字。汉字“难输入”,就在汉字形体上提示“取码”部件,将输入编码直接标注在汉字边上;没有标注汉字文本参照,或者连字也不认识,就直接输入字词的读音代码,在输入法的屏幕提示中选字,或直接表述为“汉语拼音”样式。汉字“难检索”,利用读音标注、输入编码和机器代码,可以为人\机检索提供方便。汉字数量多,“难于机器识别及处理”,就给它标注上机器代码;机器代码,是专门用于字词的人\机识别及处理的图形代码,利用它,可以方便进行字词的人\机器识别。联体标注的“读音\输入编码”,它将字词的读音拼写和输入编码相融合,有益扩大汉语拼音的应用范围和作用;“读音\输入编码”,采用“读音加形义特征”格式,即前面是字词读音,后面是用以区别同音字词的形义特征代码,中间用符号隔开,或不用符号隔开,实现字词描述具有唯一确定性;这种编码格式,为汉语拼音,解决“一种拼写对应多个字词”的缺点,提供一种思路。汉语拼音字模和字图,把汉语拼音音节,做成一个字模或字图,用这个整体,进行汉语拼音的输入和输出,使汉语拼音音节的输出显示,在字体和字型上,实现匹配,看起来顺眼,使汉语拼音音节的输入变得方便,简洁。
(5)加强语言文字规范化。联体标注,可以将字词在读音、形体和输入编码方面的规范和建议,进行联体综合性直观标注,字词与标注,在形体上绑定一体,将杜绝应用语言文字规范的随意性,加强语言文字规范化的力度。比如,使用标注汉字,你只要接触汉字,它就主动给你提供普通话注音,建议你使用某一种编码输入,有利于推广普通话,有利于扩大汉语拼音的应用范围和作用。
(6)促进编码输入规范化。汉字输入编码,方案众多。这些编码,还需要优选和规范。输入编码,采用联体综合性直观标注,有利于输入编码的学习和应用。本发明,推荐“读音加形义特征”格式的输入编码,它是一种符合现行文字规范的、与汉语拼音相结合的汉字输入编码。
(7)改进字词识别和阅读技术。本发明,将机器代码与字词形体一起标注。机器代码,是专门用于字词的人\机识别及处理的图形代码,它在形式上,定义包括“识别起点、纵横向识别参照”等标记,或定义其它标记;它在内容上,描述包括字词的数据库编码、读音代码、“个性化”信息代码和用于字模(或字图)合成的数据代码等信息中的一种或多种信息,或描述其它方面信息;数据库编码,为查询包括字词的读音、形体(包括字模和字图)和词性意义等信息提供“地址”(编码),它按一定格式组成,或直接为数据库记录号,或为字符集编码,或为机内代码;“个性化”信息代码,描述包括著作、出版、印刷复制设备、专用字体、公证印记和密码等方面的一个或多个在管理机关登记注册的信息,或其它自定义信息。采用机器代码,将机器对字词“图形特征”的识别处理,简化为对字词“机器代码”的识别处理,改变了现有字词机器识别处理的方式,将减少机器识别处理的工作量,有利于提高机器识别处理的准确性、可靠性。其具体改进在于;①减少机器识别处理的数量。汉字,字数接近9万;印刷字体,现有几十种。现有的印刷字体机器识别处理,需要识别几百万个“图形特征”。采用机器代码,若为十六进制,则只有16种“图形代码”,只需要识别16种“图形特征”。②机器代码的识别,不受字体和字型影响。字词的“图形特征”,因字体不同而不同;因字型不同也不完全一样。机器代码,标志了图形代码的识别起点和纵横向识别参照标记。纵横向识别参照标记,标记了图形代码在不同字体和字型中各“位”代码的位置和大小,作为机器识别的参照。采用机器代码,字词的机器识别,将不受字体和字型影响。③简化汉字“归一化”处理。现有的字词机器识别,需要在“图像特征”提取前,进行归一化处理,包括位置归一化和大小归一化,以便对各种大小的字符都能正确识别。采用机器代码标志的识别起点和纵横向识别参照标记,将简化这种“归一化”处理。它将数以百万计的汉字“图形”归一化,简化为对16种“图形代码”的归一化。机器阅读,采用机器代码,可以将计算机对字词“机内代码”的处理,简化为对字词标注的“读音代码”的处理,将减少机器阅读的处理量。比如,汉字的机器阅读,它将近9万个“机内代码”的处理,减少为对1300多个“读音代码”的处理。
(8)有利于加强信息安全管理和版权保护。联体标注,为字词的“个性化”应用提供了条件。这种“个性化”应用,有利于信息安全管理和版权保护。标注材料,包括颜色、色度、编码、记号、字符及其变形,或指纹、水印、磁性油墨等,使用者可以进行“个性化”选择。这些标注材料代表的意义,使用者可以进行“个性化”定义。有的标注材料,如,指纹、水印、磁性油墨等,本身就具有信息安全方面的功用。字词形体,可以选择“个性化”标注。字词的标注形态,“文字”可以变形、变色,可以在字形上编码、标记,还可以使用供人\机识别的手印、水印和磁性油墨等标注材料,可以使用“个性化”的字体(笔迹)图形,实现字词形态“个性化”。还有,联体标注的“文字部分”,可以有“字形”,或无“字形”(空白),可用“专门约定”的字体文件输出显示。“文字部分”的个性化处理,可作为字词的“形体密码”。“形体密码”,也可以直接表述在“机器代码”的“个性化”信息代码中,以利于人\机识别处理。“机器代码”,既有利于加强机器处理的“通用性”,更有利于加强信息安全管理的“个性化”。个人信息,如,著作登记注册,是否允许公开,是否授权使用,是否为专用字模(或字图),都可以标注在每个字词的字模和字图中。这些信息,表述在机器代码的“个性化”信息代码中,供人\机识别。“个性化”信息代码,描述包括著作、出版、印刷复制设备、专用字体、公证印记和密码等方面的一个或多个在管理机关登记注册的信息,或其它自定义信息。如没有明确责任和授权,标注文本的机器输入输出、识别和阅读,将受到限制。联体标注,可为防止非法复制(如,复印、扫描)提供条件。比如,未经允许的复印,犹如穿着偷来的、标记有别人名姓的衣服。因为,复制件的字模(或字图)上,标注有别人的,经过管理机关登记注册的密码和标记。这种行为,反而扩大了作者的影响。字词的“机器代码”,给查处带来方便。生产复印、扫描机具的行业,可以利用机器代码标注的“个性化”信息,比如,识别是否允许复制的密码(或标记),使其机具具有防止非法复制的功能。或者,在复制件上,标注复制机具的印记,这个印记中,应包括该复制机具,在管理机关的注册代码,以明确责任。联体标注,可为加强版权管理提供条件。如能依据著作的字模(或字图)中,机器代码标注的个人信息,直接给作者支付版税,也可以起到保护版权的作用。“个性化”信息,标注在字词上,不但有利于版权保护,还可以明确文本的法律责任。谁写的?谁出版?都可以表述在“个性化”信息中。在联体标注中,使用指纹、水印和磁性油墨等标注材料,可以起到防伪,加强信息安全的作用。利用联体标注,在“文字部分”标注指纹、记号,或在机器代码的“个性化”信息中,标注经管理机关注册的信息密码,可实现字模(或字图)的专用。使用专用的字模和字图,可以明确谁写的?谁出版?谁印刷?谁复制?还是以“永”字为例。①从机器识别输入途径,保护版权。当“永”字的形体,进行了“个性化”标注,或采用“形体密码”,比如,上面的“点”,变了形,或变了色,或加了别的印记,如未标注机器代码,这个“永”字,人们能认,但不能用机器识别输入;如标注了机器代码,并且机器代码加了密,则需要密码,才能用机器识别输入;当“永”字的形体,没有了,是空白,机器代码加了密,这个“永”字,人们不能认,需要密码,需要“专门约定”的字体文件,才能用机器识别输入输出显示。②个人专用印记。将“永”字的形体进行“个性化”标注,比如,文字用个人的笔迹,加以个人的手印图形,或加以别的标记,生成个人的字词“形体密码”;在“机器代码”中,加入“个性化”信息表述,比如,加入由签名(或应用)时间、文本中特定位置(或选定)的字符代码等,生成与文本内容联结一体,并报经管理机关注册(或公证)的密码(或标记),供人与机器识别;通过“文字部分”和“标注部分”的个性化处理,使这个“永”字具有唯一性、合法性和与标注文本的联体性;如将这个“永”字,复制在别的文本,或非法定使用场合,则这个“永”字,将失去应有的效用。在一些需要明确法律责任的场合,文本中的每一个字,都可以采用这种联体标注。③专用字模(或字图)。出版、印刷部门,为防止盗版(或盗印),明确职业责任,可以使用自己专用的字模(或字图)。在字模(或字图)的机器代码中,标注经过主管部门登记注册的密码和标志,供人\机识别。
(9)为信息处理与文字改革实践,提供一种既有利于汉字、汉语拼音和输入编码相互融合与协同发展,又兼顾现实应用与长远目标的实践形式。信息处理与文字改革实践的长远目标,应该是走世界文字共同的拼音化方向;它的现实任务应该是,简化汉字,推行汉语拼音、推广普通话和规范现有的汉语符号系统。联体标注,有利于现有汉语符号系统的相互融合,它将汉字、汉语拼音和汉字输入编码,在形体上,融为一体;在功用上,相互综合。比如,在“文字部分”,提示“取码”部件(选出部件),同时,也起到提示“部件归属”的作用;将读音标注与形义特征代码结合,作为输入编码。联体标注,将汉字、汉语拼音和输入编码,各自规范,共融一体,相互参照,有利于汉语符号系统的协同发展。它为汉字加注,有利于加强汉字规范化和汉字现代化发展;汉语拼音与汉字输入相结合,有利于提高字词拼写的确定性,扩大了应用范围和作用;汉字输入编码,与字词读音相联系,有利于简化和规范汉字输入编码符号系统,有利于推荐适用的汉字输入编码。联体标注的“文字部分”和“标注部分”,有多种结构形式。其中,“标注部分”与“文字部分”的横排样式,更有利于汉字拼音化实践。比如,汉字“树”,它的“文字部分”为“树”,“标注部分”(读音\输入编码)为“shù`mu”,其结构横排样式为“shù`mu树”。这种样式,作为现实应用,将文字的读音、字形和输入编码结合在一起,有利于加强语言文字与输入编码的规范化;作为长远规划,又有利于“汉字拼音化”实践;当右边的“文字部分”,逐步“简化”,左边的“标注部分”,逐步“约定俗成”,就能实现汉字拼音化的平稳过渡,达到文字改革的目的。汉字,用“读音加特征代码”形式描述,如“shù`mu”(树),使汉语拼音的字词拼写,具有唯一确定性。联体标注,在目前,有利于加强语言文字和信息技术的规范化;有利于推广普通话;有利于扩大汉语拼音的应用范围和作用。
(10)为汉字的简体、繁体和异体,实现“异形同码”,汉字的继续简化和新造字符的使用,改进汉字字符集编码,提供一种实践形式。联体标注,把汉字的简体、繁体和异体,看作是一个汉字具有的几种不同“字形”,并为这些“字形”安排相应的字体文件;它把汉字的简体、繁体和异体,尽量标注为同一个输入编码;在机器代码中,它为一个汉字的简体、繁体和异体,安排同一个数据库查询“地址”(编码);它把这个汉字的简体、繁体和异体的字模和字图,安排在同一“地址”的不同“字段”中。这些字体文件或“字段”的名称,可以叫做“简体”,“繁体”,“异体”,或“异体1”,“异体2”,…,等,或用相应的代码表示。这些作法,这里,把它叫做“异形同码”处理。如果一个汉字具有简体、繁体和异体,可以用简体(或正体)汉字在字符集中的代码,作为这个汉字在数据库中的查询“地址”。在联体标注中,具有简体、繁体和异体的常用汉字,它们的编码输入,可作如下处理。(1)如一个汉字的简体、繁体和异体之间,具有共同的形义特征,则将这些共同具有的形义特征,作为输入编码的形义特征部分,使这个汉字的简体、繁体和异体的输入编码相同。(2)如一个汉字的简体、繁体和异体之间,不具有共同形义特征,则在它们的输入编码的原理样式中,“指定”共同的“字符组合”,作为输入编码,使这个汉字的简体、繁体和异体的输入编码相同。具有简体、繁体和异体的常用汉字,经过(1)、(2)两种处理,它们读音相同,输入编码相同,数据库查询“地址”相同,有利于在使用中促使其统一和简化。或在输入编码的尾部,加注表示“繁体”,“异体”,或“异体1”,“异体2”,…,等内容的字体标记代码,有助于选择字体文件。“异形同码”,为改进现有的汉字字符集编码,提供一种实践形式。它将拆除繁体和异体在现有汉字字符集中的“座位”,用简体(或正体)汉字在字符集中的代码,作为它们的代码,有利于精简汉字字符集;不让“死字”占有汉字字符集的合法“座位”,有利于语言文字的规范化。对于非常用汉字的输入和输出显示,包括简体、繁体和异体,本发明建议,汉字输入,采用“读音加形义特征”格式编码输入,或采用“合成字模(或字图)的数据代码”输入,即把合成汉字的基本部件的合成数据代码连续输入(应用已知技术),作为汉字的输入编码;汉字输出显示,采用基本部件字模(或字图)合成(应用已知技术)。新造的字符和新简化的汉字,采用联体标注,在“机器代码”中,标注它们的注册信息,数据库“地址”,在“读音\输入编码”中,标注读音和输入编码,可以避免重复造字和有利于推广应用。新造字符的注册号,应采用一种法定格式;这种法定格式的编码,在机器代码中单独标注,或者,与机器代码中的数据库编码结合标注;这种法定格式,应向使用者公开,并能用以生成注册号查询编码;使用注册号查询编码,应能查看到新造字符的所有信息。公开的新造字符,都应进行注册登记,避免重复造字,以利于语言文字规范化;造字之前,用注册号查询编码,先查一下,看是否已有此字。新简化的汉字,利用“读音\输入编码”标注、“机器代码”标注等标注方法,标注读音、标注输入编码、标注数据库编码和读音代码等,有利于人和机器的识别,有利于简化汉字的推广应用。
(11)为机器识别输入“字模合成”数据,提供条件。汉字采用“字模合成”,有利于精简现有的汉字字模库,为新造字符和不常用字符,提供一种处理方案。汉字合成数据,包括合成部件代码和结构合成数据代码。联体标注,将汉字的合成输入和合成输出显示的代码和数据代码,直接标注在字模和字图的机器代码中,有利于机器识别处理。
(12)实现字词输出显示个性化。输出显示个性化,表现为文字形体的多样性和文字功用的多样性。输出显示个性化,需要制作“个性化”的字模和字图,并将它们存储备用。这些工作,可以使用一般的已知技术实现。在联体标注的“文字部分”,采用字词的标注形态,标注使用者个人的书体;采用个人的笔迹图形,扫描或绘制成“个性化”的字词形体,表达个人的风格情趣。在联体标注的“标注部分”,标注字词的机器代码,提供机器识别处理。机器代码,标注字词的数据库编码,为字词在数据库中定位,生成具有通用性的数据库编码。字词形体的个性化和数据库编码的通用性,使“个性化”的字模和字图,具有通用性、合法性和实用性。因为,个性化的输出显示,并不影响人\机识别处理,也符合国家的“字符集”编码标准。将具有个性化特征的字模和字图,存储在字词数据库中备用,或利用现有的“字体文件编辑工具”,将具有个性化特征的字模,存入字体文件中备用。字词输出显示时,可利用字模或字图中的机器代码,直接从字词数据库中,调出个性化字模和字图,或利用字词在字体文件中的编码,调出个性化字模。标注文本的输出显示,可以是空白文本,可以是加密文本,也可以是使用专用印记的联体文本;可以是颜色单一的字模显示,也可以是色彩艳丽的字图显示。数据库编码的通用性,与“个性化”信息代码标注,是使用中的不同方面,并不矛盾。
(13)增强字模和字图在信息处理中的功能。标注字模,与现有字模的改进之处在于,它具有“文字部分”和“标注部分”,两个部分,在形体上,联结成一个整体,它以这个整体,作为记录语言(或处理信息)的文字(或技术)符号;对字词在语言文字和信息处理方面的属性,在字模上,进行标注;对标注材料进行选用和定义,作为字词标注的标志;“文字部分”,表现字词的本来形态,或表现字词的标注形态;“标注部分”,表述字词读音和信息代码,具有“读音\输入编码”和“机器代码”,或只有“读音\输入编码”,或只有“读音(输入编码隐含)”,或只有“机器代码”等样式,或其它样式。标注字图,它的“文字部分”和“标注部分”,在形体上,联结成一个整体,与现有字图的改进之处在于,它以这个整体,作为记录语言(或处理信息)的文字(或技术)符号;对字词在语言文字和信息处理方面的属性,在字图上,进行标注;对标注材料进行选用和定义,作为字词标注的标志;“文字部分”,表现字词的本来形态,或表现字词的标注形态;“标注部分”,表述字词读音和信息代码,具有“读音\输入编码”和“机器代码”,或只有“读音\输入编码”,或只有“读音(输入编码隐含)”,或只有“机器代码”等样式,或其它样式;对字词的一个,或多个属性进行直观表现。汉语拼音字模和字图,包括汉语拼音字母、音节及其相应的字模或字图,与现有汉语拼音应用的改进之处在于,字模和字图中,标注有信息代码;将单个汉语拼音字母,做成一个字模或字图;或将汉语拼音音节,做成一个字模或字图;改进了现有汉语拼音的输入方式。其共同特点,就是具有联体性、技术性,具有语言文字和信息处理两方面功用。
比较现有技术,本发明具有如下特点1、联体标注,把字词的读音和形体联结一体,为加强语言文字规范化,提供一种强制应用形式有利于强化普通话的学习和应用;有利于扩大汉语拼音的应用范围和作用。
2、联体标注,把字词的输入编码和形体联结一体,有利于精简和规范现有的汉语符号系统,促进编码输入规范化;将直观标注与编码输入相结合,有利于降低编码输入的难度。
3、联体标注,把字词的读音、形体和输入编码联结一体,直观标注,提示(或指定)汉字的结构样式、偏旁归类、部件组成和输入编码等属性,有利于拼音识字教学,降低汉语学习、使用和编码输入的难度;把拼音识字教育和信息技能培训同步,将普通话的学校教育和社会应用紧密结合,有利于幼(少)儿信息输入技能的学习和终生“固化”。
4、在字模和字图上,标注易于机器识别的“机器代码”,将改进现有的机器识别技术。
5、在字模或字图上,标注经管理机关注册的“个性化”信息,将加强信息安全管理和版权保护。
6、联体标注的“拼音加汉字”横排样式,为文字改革实践,提供一种既有利于推广普通话,又有利于“汉字拼音化”的实践形式。
7、联体标注,给汉字标注读音,图解形体,提供(或提示)输入编码,标注机器代码,在汉语拼音音节后面,标注区别同音字词的形义特征代码,等等,将减小和克服汉字“六难”,提高字词拼写的确定性。
8、把汉字的简体、繁体和异体,作为“同一代码,几个字体”处理,将精简现有的字符集编码,促进“简繁异三体”,在使用中统一和简化。
9、在字模(或字图)上,标注汉字“合成数据”代码,为汉字的机器识别输入到合成输出提供条件,将有利于精简和改进现有汉字字模库。
10、在字模(或字图)上,标注新造字符的注册信息,有利于新造字符和新简化汉字的使用与推广。
11、联体标注,实现字词输出显示“个性化”,既保持汉字的艺术特色,又不影响机器识别输入。
12、将联体标注的字模和字图,作为记录语言(或处理信息)的文字(或技术)符号,为语言文字与信息处理,提供一种实用新形式。
以下,对本发明作进一步说明。
一、联体标注联体标注,就是对字词在语言文字和信息处理方面的属性进行联体的、综合性的、直观的标注。字词在语言文字和信息处理方面的属性,包括字词的读音、形体和信息代码,以及它们的不同组合形式。
联体标注的一般样式,如

图1,“联体标注(单字)”、图2,“联体标注(词组)所示。图1,是单字的一般样式;图2,是词组的一般样式。
联体标注,它们具有“文字部分”和“标注部分”。“文字部分”和“标注部分”,在形体上,联结成一个整体,作为记录语言(或处理信息)的文字(或技术)符号;这个联结整体,在图1和图2中,示意为蓝色框内部分,是字模和字图的应用单位;比如,需要一个“思”字,则“思”字的文字部分和标注部分将一起出现。
“文字部分”,表现字词的本来形态,或表现字词的标注形态。字词的本来形态,就是字词现有的字模和字图样式,即对字词现有形体没作标注加工。字词的标注形态,是选用标注材料,在字词形体上,直观标志形体属性的一种形体样式。比如,汉字的标注形态,对汉字的笔画、笔顺、部件和结构等,进行直观表述,并且,这些表述,是按照现行的语言文字规范进行的。如图1,“联体标注(单字)”中的“文字部分”,“思”字的“标注形态”,用定义的红色,标志“思”字的“取码(编码)部件”是“心”。
“标注部分”,表述字词读音和信息代码。信息代码,包括字词的“输入编码”和机器代码。“标注部分”,它包括有字词的“读音\输入编码”和“机器代码”。“读音\输入编码”,将字词的读音标注和字词的输入编码联接成一体,具有自身的应用特点。如图1,“联体标注(单字)”中的“标注部分”,标注了“思”字的“读音\输入编码”和“机器代码”,用定义的红色,标志“思”字输入编码的“简码”为“sī”。
字词的读音标注,和输入编码联接在一起,表现为“读音\输入编码”样式,或者字词的读音拼写不和输入编码联接在一起,表现为其它样式。“读音\输入编码”样式,它前面是字词的读音,后面是输入编码,或前面是字词的读音,后面是用以区别同音字词的形义特征代码,前后两部分结合作为输入编码,中间用符号隔开,或不用符号隔开,分隔符号可以根据需要定义选用;这后一种样式,在叙述中,可以表述为“读音加形义特征”,或“读音加形义(区别)特征”,或“读音`特征”。把字词的读音标注简称“读音”,字词的形义特征代码简称“特征”,“读音\输入编码”的后一种样式,将表示为“读音`特征”格式。如图3,“读音\输入编码”,“思”字的读音,为分隔符号“`”前的红色字符部分“sī”;“思”字的输入编码(原理上),为前后两部分的结合“sī`xn”。字词读音,按语言文字规范标注。汉语字词,按汉语拼音方案和汉语拼音正词法的有关规范标注。汉语字词的变调,轻声,多读音,可以标注在相应的字模和字图上,并在输入编码上(或输出显示方面),加以区别(比如,加入修正声调的代码,或编辑合成字词的读音标注);或对字词的变调不加标注,仍用原调。字词的变调不加标注,个人阅读时,按变调规则处理;机器识别和阅读,按变调处理规则,设置相应的变调处理程序,将需要变调处理的相连音节,按变调处理程序进行处理。字词读音,还可以采用特别颜色、字符变形等标注材料,加以标志。联体标注的词组的读音,在“读音\输入编码”样式中,就是把各个单字的读音拼写,按字序排列,放在“输入编码”或“形义特征代码”的前面。字词的读音标注,还可以采用汉语拼音的其它样式,比如,汉语拼音的“双拼”样式。汉语拼音的“双拼”代码及键盘定义,见后面的叙述。字词的“读音\输入编码”,还可以在它的尾部,加注字词的字体文件代码,提供给不认识汉字者,在字词输入时,选择字体文件用。如图4,“读音\输入编码(2)”,用字符“- f”表示选用“繁体”字体文件。
字词的输入编码,和读音拼写联接在一起,表现为“读音\输入编码”样式,或者字词的输入编码不和读音拼写联接在一起,表现为其它样式。“读音\输入编码”样式,它前面是字词读音,后面是输入编码;或前面是字词读音,后面是用以区别同音字词的形义特征代码,前后两部分结合作为输入编码;中间用符号隔开,或不用符号隔开,分隔符号可以根据需要定义选用。如图3,“读音\输入编码”,“思”字的输入编码是“sī`xn”。
输入编码的“读音`特征”格式,是“读音\输入编码”中的一种;它就是在读音标注后面,加注字词的形义特征代码(简称特征),前后两部分结合,作为输入编码;两者之间,用字符“`”(或别的符号)隔开,或不用符号隔开。形义(区别)特征代码,表述字词在笔画、部件、结构等形义方面的区别特征。形义(区别)特征代码的定义,尽量与这些特征的读音(或命名)的相联系,使其代码简单易记。比如,汉字“思”(如图5,“标注样式”中的样式1),用首选部件“心”作为与其它同音字的形义(区别)特征;用“心”的基本音节“xin”的双拼代码“xn”(双拼代码,说明见后面),作为形义(区别)特征代码。汉字“思”的输入编码,在原理上,表述为“sī`xn”。
输入编码的特征代码部分,也可以隐含在“文字部分”的形态标注提示中,不在“读音\输入编码”中出现(如图5,“标注样式”中的样式3)。图中,汉字“思”,在“文字部分”,事先定义,用红色,指明其形义(区别)特征,是部件“心”;“思”的输入编码,在原理上,应表述为“sī`xn”,这里,将“`xn”隐去,仅表述为红色的“sī”。隐含特征代码,有利于精简符号。
输入编码的“简码”样式,即对输入编码(原理编码)的简化,可以用颜色、色度或字符变形,直接标注在原理编码上(如图5,“标注样式”中的样式2)。图中,汉字“思”,输入编码,在原理上,应表述为“sī`xn”,假定其简码为“sī”,这里,将其用特别颜色和字符变形,标志和区分简码,将输入编码表示为“sī`xn”;简码部分加粗,用红色标志,其余部分变为斜体。
汉字字词的输入编码,在本说明中,推荐使用“读音`特征”格式。它是现有技术“双分汉字”(申请号02108826.8)的一种应用形式。它将字词的读音和字词的形义(区别)特征一同描述,两者之间,用字符“`”(或定义别的字符)隔开,或不用字符隔开。实现字词的编码(和拼写)具有唯一确定性。字词的形义(区别)特征,可以是成字部件,或是笔画结构,或是笔画;有读音的,用读音描述,无读音的,用笔画代码描述;部件的读音,用汉语拼音的“双拼”样式表达。这里,不对其作过多叙述。采用“读音”加“形义(区别)特征”描述汉字,有如下好处。一是,读音是字词的主要属性,在语言中,可以不知字词形态,而不可不知字词读音。二是,可以实现所有汉字的无重码输入。三是,有利于汉字、汉语拼音自身的现代化。四是,它可以为汉字拼音化,提供一种“通过自身演化”的实践样式。比如,汉字“树”,它的输入编码是“shù`mu”,当左边的读音部分逐步规范化,右边的形义(区别)特征逐步约定俗成,可以为汉字拼音化,提供一种连续过渡的“全字符样式”。(在“联体标注”中,汉字拼音化,还有“拼音加汉字”等其它样式)。五是,有利于汉语拼音实践,探索字词拼写的唯一确定性。
汉字词组的输入编码,分两种情况。一、如词组的输出显示,由单个的标注字模(或字图)组合,字模(或字图)上,标注有单字的输入编码,其词组的输入编码,按现有的通行做法,在各个单字标注的“读音`特征”中读取。根据各个输入法的具体要求,读取相应的音节或字符。简便的通行做法是二字词,按“声韵声韵”读取;三字词组,按“声声声韵”读取;四字及其以上词组,按“声声声声”读取。二、如词组的输出显示,为联体标注的词组字模(或字图),词组的字模(或字图)上,应标注词组的输入编码;其输入编码标注,若采用“读音`特征”格式,在原理上,应先标注词组的读音部分,再标注词组的形义特征部分;词组的读音代码,按单字顺序拼写词组读音;词组的形义特征代码,根据需要确定(或选用),用部件的读音(或命名)代码表示,仍按单字顺序编写;输入编码的长度,由具体的输入法确定。其简码,仍按现有的通行做法,二字词,按“声韵声韵”、三字词组,按“声声声韵”、四字及其以上词组,按“声声声声”,采用标注材料,标注在词组读音部分的对应字符上。
汉字字词的输入编码,除了“读音`特征”格式外,还可以有其它样式。比如,可以将其它流行的汉字输入编码,添加在读音标注的后边,起到描述形义特征的作用,或直接单独标注其他输入编码。
汉字输入编码的实际输入。在现有条件下,“带调”的汉语拼音字符和音节,以及字母“ü”,在标准键盘上,没有相应的键位。汉字输入的实际操作,需要作如下处理。汉语拼音字母“ü”,在输入编码中,如必须用“ü”输入时,按现在的通行作法,用字符“v”代替。带调汉语拼音字符及音节,如“ā、dǎ”等,它们的输入编码,用基本音节字符加声调标记表示。声调标记,用数字,或用字符,表示汉语普通话的四声。用数字“1、2、3、4”,表示四声,将数字加在字词的基本音节后面,如“ā、dǎ”,实际输入编码为“a1、da3”。用字符,表示汉语普通话的四声,字符的选用,有多种方案,可以根据需要定义。这里提供一种表示方法。将汉语普通话的四声,沿用传统的“阴平、阳平、上声、去声”的叫法,取其中的四字,“阴、阳、上(shǎng)、去”的声调,作为汉语普通话四声的代表,用它们音节的第一(或第二)个字母(书面表述时,可用其斜体变形),如“i、y、s、q”,作为汉语普通话四声的代码。如“ā、dǎ”,它的输入编码书面表述为“a i、da s”,实际键盘输入编码为“ai、das”,声调代码,不用倾斜。汉字词组输入编码的实际输入操作,与单字的输入操作类似。如词组的输出显示,由单个的标注字模(或字图)组合,其“原理编码”中的字符及声调处理,与单字输入一样;其简码输入,不考虑声调处理。如词组的输出显示,为联体标注的词组字模(或字图),词组的字模(或字图)上,标注有词组的输入编码;若为词组的“原理编码”,假定为“读音`特征”格式,先顺序输入词组中各个单字的基本音节,在需要输入声调时,将各个单字的声调顺序标记,加在词组基本音节的后边;若还需要输入词组的形义特征,再按单字顺序,输入形义特征代码。如词组“大地”,它读音的汉语拼音为“dàdì”,实际输入编码可以是“dadi44”,或“dadiqq”。汉语词组输入,声调的取舍,是否需要输入形义特征代码,可由具体的输入法定义。
机器代码,在联体标注中,是用于字词的人\机识别及处理的图形代码。这里,仅表述一些机器代码样式(示意),用以说明在联体标注中,机器代码的应用和作用。
机器代码,在标注字模(或标注字图)上,由一组,或几组编码组成;每组编码,由一条,或几条编码组成;每组编码,按“…、8、4、2、1”编码顺序排列,确定每组编码的“权位”及方向;每条编码,具有每组编码中定义的相应“权位”,它其中的每一位(这里,叫它“码位”),具有相同的“权”;每条编码,根据需要,定义和划分相应的“码位区间”(几个连续的码位);每个“码位区间”,定义相应的指代内容。机器代码,一般安排在字模或字图的底部,也可安排在字模或字图的四周,或其它部位。机器代码,一般在纵向定义“权位”及方向,在横向定义“码位”及方向。机器代码,在“权位”和“码位”两个方向上,设置相应的参照标记,用以区分和定义“权位”与“码位”的位置、长宽;为机器识别和阅读,或人工识别,提供对应代码的点阵图形样式;因为,字体不同,字形大小不同,机器代码中,“各位”的点阵图形也会不一样。这里,把机器代码“各位”的点阵图形,叫做“码符”。由各个“码符”构成的点阵图形,叫做“码图”。机器代码,可以“明示”标注,容易看见,也可用特殊材料“隐形”标注,不易看见。机器代码,可以有隔行、隔位、逐条标注的疏散样式,也可以有不隔行、不隔位、联接一体的紧凑样式。每组编码,可以根据需要,安排表达包括数据库编码、读音代码、“个性化”信息代码和用于字模(或字图)合成的数据代码等代码中的一种或多种信息的“码位区间”,或安排描述其它方面信息的“码位区间”;“个性化”信息代码,描述包括著作、出版、印刷复制设备、专用字体、公证印记和密码等方面的一个或多个在管理机关登记注册的信息,或其它自定义信息;每组编码的最末一位,是校验位。
机器代码,还可用于人工识别,以“码图”作为识别单位(或特征),用作人工输入字词的“形码”,供不识字的人使用;或加以立体化处理,比如“模压”,或“扎孔”,提供给盲人(或正常人)使用;或指定字词的词义和词性,等等。
这里,为叙述方便,先以汉语单字为例,加以叙述。假定机器代码安排在字模或字图底部,每组编码由4条编码组成,代码为16进制,按“…、8、4、2、1”权位排列;例字为“思”,其机器代码样式,如图6,“机器代码(疏散样式)”、图7,“机器代码(紧凑样式)”。两图中,左边,锯齿状码图,作为码符的纵向参照标记,定义码符纵向高度,并定义每条编码的权位及权位的方向,还作为每条编码的起始标志,其左下角,为整个机器代码的识别起点;底边,黑白矩形相间的码图,作为码符的横向参照标记,定义码符横向宽度。
图6,为机器代码的疏散样式,10行36列;左边,用锯齿状码图,作为纵向定位参照;每条编码,用白色矩形条隔开;每个码位,用1黑1白的矩形码符标志,由码符的纵向和横向参照标记定义;每条编码设置18个码位;在图中,从左到右,第1位,为编码起始标志位,第2到第17位,为数据位,第18位,为校验位。在数据位中,第2到第6位,为字词的数据库编码,提供110多万个编号;第7到第9位,为读音序号,提供4.3千多个编号;第10到第17位,为备用码位,提供“个性化”信息代码设置。第18位,倒数第1位,为校验位,它将每组机器代码,在各条编码中取“1”(或定义为取“0”)的码位个数之和,凑成整十。在图中,标注“思”的数据库编码为“0CBBCH”,读音序号为“3BAH”,校验位为“0003H”。
图7,为机器代码的紧凑样式,6行36列;每条编码,用锯齿状码图,作为纵向定位参照,不用隔开;每个码位,用单个黑色(或白色)矩形码符标志,由码符的纵向和横向参照标记定义;每条编码设置36个码位;在图中,从左到右,第1到第2位,为编码起始标志位,第3到第35位,为数据位,第36位,为校验位。在数据位中,第3到第7位,为字词的数据库编码,提供110多万个编号;第8到第10位,为读音序号,提供4.3千多个编号;第11到第35位,为备用码位,提供“个性化”信息代码设置。第36位,倒数第1位,为校验位,它将每组机器代码,在各条编码中取“1”(或定义为取“0”)的码位个数之和,凑成整十。在图中,标注“思”的数据库编码为“0CBBCH”,读音序号为“3BAH”,校验位为“0003H”。
数据库编码,描述字词在数据库中的检索(查询)“地址”,或为新生的字词在数据库中“定位”,它可以按字词在数据库中的记录号编码,或按词组首字(或余字)的字符集代码编码,或按字词的读音代码编码,或将它们几者结合编码,根据实际需要定义,以有利于字词的检索(查询)。或直接采用数据库记录号,或字符集编码,或机内代码,作为数据库编码。
读音序号,就是把所有字词的读音按一定规则排序,生成“音序”,并把这种“音序”,表述为代码样式。读音代码,就是表示(或指代)字词读音(或属性)的代码;在“机器代码”中,就是把字词的字数与字词的读音序号排列结合,生成的用以检索字词读音(或其它信息)的代码。在这里,“读音代码”包含“读音序号”,两者,有时可以混用。汉语,普通话有1300多个音节,将其排序,可生成1300多个读音序号。汉语单字的读音代码,不标字数,就是它的读音序号。汉语词组的读音序号,前头1位,表示词组的字数,余后,为各字读音序号的顺序排列,或者不表示词组字数。比如,“思想”一词,假定“思”字的读音序号为“3BAH”,假定“想”字的读音序号为“445H”,字数为2,那么,词组“思想”的读音代码为“23BA445H”。
用于字模(或字图)合成的数据代码。在机器代码中,标注字模(或字图)的合成数据,就是要用机器识别技术,为字模(或字图)的合成输入输出显示,提供条件。用部件字模合成汉字字模,精简或改进汉字字模库,是一项已知技术;合成汉字“字图”,可看作是其扩展应用。字模的合成数据,包括合成字模所需的部件字模,以及这些部件字模的图形大小和位置坐标。其中,字模的图形大小和位置坐标,可以标准化为结构类型数据。知道了组成一个汉字的部件代码,以及这些部件的结构类型代码,就能合成这个汉字。汉字的基本部件有几百种,汉字的结构类型有几十种;可以安排5个码位,作为字模(或字图)合成数据的“码位区间”;用2位,提供256个编码,描述汉字的基本部件代码;用2位,提供256个编码,描述汉字的结构类型代码;用1位,提供16个编码,描述是合成字模,还是合成字图,或者其它信息。是否标注“字模(或字图)合成数据代码”,可以根据使用要求和技术条件决定。
机器代码的组数和长度,应根据字模和字图的使用范围,即常用字型的大小变化来确定。如字模和字图在形体上,选用范围大,比如,从16点到128点,都要使用,为将就在小字型上也能清楚表达机器代码,为文字部分提供较大空间,编码的组数要少,编码长度要短。比如,在现有条件下,要在16点字型上清楚显示机器代码,可以设置1组“1组4条”紧凑样式的编码,每条编码12位或13位长度。
机器代码的码符,标志每条编码中,各“位”的点阵图形的形态。机器代码一样,但在不同字体、不同字型中,码符的形态是不同的。就是在同一字型中,在字模和字图的不同部位,相同代码的码符也不一定相同。利用“码符”概念,使码符随字体(或字型)的大小变化,而它所表达的机器代码保持不变,有利于机器代码的机器识别,最终,也有利于字词的识别。
机器代码的码位安排。机器代码,每条编码,设置起始标志位、数据位和校验位。起始标志位,设为1位(或2位),与其它编码,构成起始识别标记码图,作为机器代码的起始识别标记。数据位,安排字词数据库编码、字词读音序号(或读音代码),字词的合成输入输出代码,字词的“个性化”信息代码。字词数据库编码,如设置5位16进制,可提供110多万个编码,汉字已有字符不到9万,常用词组很少,能够满足字词的查询使用。单字的读音音序编号,如设置3位16进制,可提供4.3千多个编号,汉语普通话带调音节只有1300多个。单字的合成输入输出代码,如设置4位16进制,可满足汉字几百个基本部件的编码和几十个合成数据类型编码。字词的“个性化”信息代码,可以包括是否授权使用,是否为公开文本,该字词在文本中的序号等内容,或者描述包括著作、出版、印刷复制设备、专用字体、公证印记和密码等方面的一个或多个在管理机关登记注册的信息,或其它自定义信息。词组的码位安排,与单字的码位安排稍有不同。词组的数据库编码,以词组为单位,单独编码,或将就词组“首字”的数据库编码,作为词组的数据库编码;词组的读音代码,以单字读音序号顺序排列,或在它们前面,增加1位,表述词组的字数;字词的合成输入输出代码,以单字的合成数据顺序排列,或在它们前面,增加1位,表述词组的字数;字词的“个性化”信息代码,可以不变。词组的机器代码长度,随数据库编码、读音代码和合成输入输出代码的长度增加而增加。比如,“思想”一词,假设它把词组“首字”的字符集代码作为词组的数据库编码,检索时,可以按首字的字符集代码,在数据库中找到首字“思”,在“思”字栏,按词组“思想”(或“余字“想”)的读音序号(标注在机器代码中),就能找到记录“思想”的字段。假定“思”字的读音序号为“3BAH”,假定“想”字的读音序号为“445H”,字数为2,那么,词组“思想”的读音代码为“23BA445H”,7位,比单字的读音代码增加4位。词组“思想”的机器代码长度,也相应增加4位。字数大于15的词组,较少出现;这(示例)里,把字数大于15的词组,采用单字合成;表示词组字数,只安排了1个16进制码位;如需要表示字数大于15的词组(或句子)的字数,可以安排2个(或以上)码位,作为特殊应用,比如,需要在一个字模里,表述一首唐诗。
机器代码,特别是其中“个性化”的数据设置,为信息安全管理和版权保护,提供了新的条件。“个性化”的数据设置,包括是否授权使用,是否为公开文本,该字词在文本中的序号等内容,或者描述包括著作、出版、印刷复制设备、专用字体、公证印记和密码等方面的一个或多个在管理机关登记注册的信息,或其它自定义信息,标注在“个性化”信息代码中。“个性化”信息代码,有两个方面的用场。一是,未经(或不用)管理机关注册,仅供个人(或个别场合)使用,但缺少法律约束;二是,经过管理机关注册,具有法律效力,可在社会上使用。联体标注,将字词的点阵图形,作为字词加密的对象。每个字词,都可以有相应的密码,标注在字模(或字图)的“个性化”信息代码中。字词的字模和字图,打上了“个性化”标记,谁的字模和字图,谁的打字机,在输出文本时,都可以做出标记。文本是否注册,是否允许公开,都可以标志出来。利用机器代码,在文本处于“专用”状态时,没有授权,文本不能用机器识别和阅读,不能利用机器,对文本的字模和字图进行编辑、修改;在文本需要处于“公用”状态,可以对文本字模和字图进行“还原”,即用法定(或个人)的专门程序,对“个性化”信息代码进行处理,使文本能用机器识别和阅读。如文本被非法复印,文本字模和字图上的“个性化”数据,不能改变。在文本复制很方便的情况下,有利于保护版权。机器代码,用水印、磁性油墨等标志时,字词具有保密和防伪功能。
“个性化”信息代码,可以根据个人需要定义,也可以按照管理机关的法定格式定义。假设(举例),以图7,“机器代码(紧缩样式)”为例,定义第11位到第35位码位区间,为“个性化”信息代码设置。如用4个码位,第11位到第14位,表述出版部门代码,可以提供6万多个编码。如用5个码位,第15位到第19位,表述管理机关的注册代码,可以提供104万多个编码;这些编码,将作品、作者、出版、印刷、专用字体、公证印记、标记字符及其位置和随机密码等方面的一种或多种信息,由管理机关用法定的密码算法生成。如用4个码位,第20位到第23位,表述管理机关用于现场抽查的法定密码算法代码,可以提供6万多个编码。如用5个码位,第24位到第28位,表述作者(或出版者)的自定义代码,可以提供6万多个编码;其中的码位安排,密码设置,可以自行设定,或报公证(或管理)机关备案。“个性化”信息代码,它的码位区间长度,标注信息的选项,应根据使用者的需要和字模(或字图)的空间大小确定。
用机器代码与“专门约定”的字体文件结合,对文件的识别和输出显示进行加解密。如用“专门约定”的字体文件,这种字体文件,将所有字符变成“空白”,机器代码采用加密代码,这时,输出显示的文本,文字部分是“空白”,标注部分是密码;没有解密,则这种文本,人不能认,机器不能识别;有了密码,机器能识别,但人还不能认;有了密码,还要有“专门约定”的能“显现字形”的字体文件,文本才能正常输出显示,才能实现机器能识别,人能认。
利用联体标注,生成“专用印记”。比如,在一张借条上,生成“专用印记”。将自己的签名和手印,做成字模的文字部分;将借条中的重要信息,如事由、金额和出据时间等信息,按法定格式运算,生成密码,做成字模的标注部分(机器代码);那么,这个字模,与这个借条联系在一起,作为这个借条的“专用印记”,具有法律效力;并且,这个“专用印记”,离开这个借条,就失去效用,具有联体性。
利用机器代码,生成“专用字模和字图”。“专用字模和字图”的作法,与“专用印记”相似。它的“个性化”信息部分,要标注经管理机关注册的有关信息代码,但是,密码的生成,不一定要与文本联系在一起。
机器代码及其“个性化”信息代码,可以进行编辑与修改。字模的编辑与修改,有现成的“字体文件编辑工具”。个人使用,可以从网上下载相关软件。字图中,机器代码的编辑和修改,就用一般的“画图”工具,就能实现。还可以设置专用的程序,在文本脱稿前,统一标注所有字模和字图的“个性化”信息代码。
机器代码的人机识别。利用现有的机器识别技术,对“机器代码”进行识别,在技术上,不存在困难,反而降低了机器识别的难度。只是,对机器代码的识别,在识别方式上,有自身的特点,在具体的识别程序中,应加以考虑。以图6,“机器代码(疏散样式)”、图7,“机器代码(紧凑样式)”为例,假设机器代码在字模和字图的底部。①首先,要找到“识别”的起点。“识别”的起点,包括码图的坐标起点,每条编码的位置和“权”,每条编码的起始标志。码图的坐标起点,在纵向参照和横向参照的交点,就是左下角的白色矩形码符。每条编码的位置和“权”位,在疏散样式中,以黑白“码图”为标志;在紧凑样式中,以黑白“码符”为标志;每条编码的起始标志,为锯齿形码图。②以横向参照标记,作为读取机器代码的步进标记;在疏散样式中,以黑白“码图”为标志;在紧凑样式中,以黑白“码符”为标志;在横向上,读出每组编码在对应“位”上的二进制读数;在纵向上,读出每条编码在对应“位”上的“权值”。③校验。校验位,将每组编码中,黑色(或白色)码符的个数总和,凑成“整十”。这里,将黑色码符定义为“1”,将白色码符定义为“0”,将为“1”的码符个数,作为校验的对象。以凑成“整十”校验,比以“奇偶”校验,可提高校验精度。
机器代码,也可通过人工识别。在熟悉了16个十六进制码图后,可以将机器代码,作为字词输入的“形码”。既可作为单一的形码,也可作为其他输入编码的辅助手段。
机器代码,还可以标注为现有技术中的其它代码样式,比如,条形码。
联体标注,可以对字词的字模和字图,设置输出显示“开关”,控制输出显示的属性个数、标注样式。比如,定义只显示字词的读音与形体,或定义只显示字词的机器代码与形体,或定义所有属性一起显示。当定义只显示字词形体时,联体标注的字模和字图显示,将与现有的字模和字图一样,回复到现有状态。一种简易的程序实现,比如,在字模输出显示时,只输出显示“文字部分”;将“标注部分”的代码全设为“0”(无图形),再把“文字部分”,按定义的缩放比例,增加或减少(定义为“1”的)点阵(象素)的个数;就能实现只输出显示字模的“文字部分”。
联体标注,由于标注内容的综合性和标注方法的灵活性,使标注样式具有多样性。它对字词的形体、读音、输入编码和机器代码,可以全部标注,也可以部分标注或单项标注。如图5,“标注样式”。
样式1,标注字词的读音、形体和信息代码;文字部分,用定义的红色,标志了“取码(或编码)部件”是“心”;标注部分,用定义的红色,标志了输入编码的“简码”是“sī”。样式2,标注字词的“读音\输入编码”和形体;文字部分,用红色,标志了“取码(或编码)部件”;标注部分,标注了“读音\输入编码”,用红色,标志输入编码的“简码”。样式3,标注了字词的读音和形体;输入编码的“形义(区别)特征”部分,隐含在文字部分;文字部分,用红色,标志了用作“形义(区别)特征”的部件;标注部分,在“读音”拼写中,用红色,标志输入编码的“简码”。样式4,标注了字词的机器代码和形体;文字部分,用红色,标志了“取码(或编码)部件”。样式5,只标注了字词的读音;文字部分,表现字词的本来形态。样式6,只标注了字词的机器代码;文字部分,为空白;可以用“专门约定”的字体文件输出显示。
联体标注,具体的实用样式包括标注字模、标注字图与汉语拼音字模和字图等。
要实现字词输出显示个性化,可利用现有操作系统中的“画图”、“造字程序”等工具,或者利用“字体文件编辑工具”,生成个性化的字模和字图,存储在数据库和字体文件中。也可以由操作系统,提供现成的“空白”字体文件,方便使用者“造”自己的“字模(或字图)”。
联体标注,若在文字部分采用直观标注,可为汉字简化,提供一种样式。比如,将繁体“聲”字(其字已简化,这里用作举例)中的“声”涂黑,其余虚化,标注出读音,做成字模,通行于出版物,在潜移默化中,繁体“聲”字,就能过渡到简体“声”字,不用去专门记忆,不增大识字量。
汉字的联体标注,将汉字的简体、繁体和异体,看作是“同一个字的几个不同字形”。它们使用同一个数据库编码“地址”,尽量安排(使用)同一个输入编码,标注同一个读音,它们的字模和字图,存储在数据库的同一个“地址”的不同“字段”中。在具体使用中,可配备相应的字体文件和提供字词在数据库的查询代码。这些字体文件,可以叫做“简体”,“繁体”,“异体”,或“异体1”,“异体2”,…,等,或用相应的代码表示。查询代码,可采用读音、笔画、部件或流行输入编码作代码,为不认识(不了解)字词者,在数据库中查询字词,提供方便。若认识汉字的简体、繁体和异体,直接选用相应的字体文件,进行汉字简体、繁体和异体的输入。若不认识汉字的简体、繁体和异体,有文本参照的,如文本为标注汉字,从输入编码的尾部标注中,选择字体文件,用标注的输入编码,输入汉字;或按照机器代码的“码图”样子,作为“形码”,依样输入;如文本为非标注汉字,则先用汉字的笔画、部件或流行输入编码等,作查询代码,在字词数据库中,先找到这个汉字,认识了这个汉字,了解其输入编码,选用相应的字体文件,再进行汉字简体、繁体和异体的输入。“异体同码”,其优点在于有利于语言文字的规范化,促使人们识字和首先使用简化字,其缺点在于,不便于不认识汉字的人们进行汉字输入。“异体同码”,在汉字编码方面,只是提供了规范化建议,并未解决汉字编码的根本问题;汉字的简体、繁体和异体,其庞大的字模(或字图)数据库,仍然存在;要根本解决问题,建议汉字采用部件字模(或字图)合成来实现汉字的输出显示。在字体文件的称谓上,既然有了“简体”,“繁体”,“异体”,或“异体1”,“异体2”,…,等叫法,与现有的“宋体”,“楷体”,…,等称谓,如何联系?可以叫做“宋简体”,“楷繁体”,…,等名称。
联体标注,为了解字词的多种属性,提供查询“地址”,将字词的必要属性,标注在字模和字图上。
标注字模(或标注字图)的数量。采用字词联体标注,汉字字模(或字图)的数量,比现有汉字的相应的字模数量,有所增加。在GB范围内,6763个汉字,采用标注汉字,标注基本音节,需要将近7300个字模,比字数增加7.5%;标注带调音节,需要字模7600多个,比字数增加13%;变调未考虑,一般的“轻声”字,考虑在内。词组数量较大,但常用词组数量不多,基本词汇就更少。可以将汉语中的基本词汇,做成标注字模(或标注字图)使用。其它词组,可以用单字的标注字模(或标注字图)合成,其输入编码,采用“简码”样式,读取“取码”单字的头一个字母。据介绍,现有的“字体文件编辑工具”,有的可容纳6万多个字模。如汉字采用字模合成输出显示(已知技术),那么,标注汉字的读音标注,可以用汉语拼音字模,实现编辑合成,就不必为其在多读音、变调、轻声等方面应用,另造字模(或字图);标注汉字,实际上,可以用部件、读音、输入编码和机器代码等字模(或字图)合成。
联体标注的法定样式和代码的标准化。联体标注,在应用形式上,具有个性化和多样性,但是,它也应该有自己的法定样式,用于法定场合。比如,这些法定样式,需要对“文字部分”与“标注部分”的排列形式(前后,上下),做出规定的;对“读音\输入编码”,进行规范。联体标注,所涉及到的代码,比如“机器代码”,以及机器代码中的“数据库编码”、“读音代码”、“‘个性化’信息代码”等,它们的格式,也应该有一种法定的或标准化的格式。这些格式,需要对属性表述的先后顺序,代码区间的长度等进行定义。在没有法定样式和标准化之前,联体标注,可为使用者提供相应的参考样式和参考代码格式。
联体标注中,“标注部分”,表述字词读音和信息代码,它的“其它样式”,是指“标注部分”可以是“空白”或其它隐形标注。
二、制备字模和字图这里,将标注字模、标注字图与汉语拼音字模和字图,在具体制备方面的做法,加以叙述。它们是字词联体标注方法在字模和字图方面的具体应用。它们具有一些共同特点(1)具有“文字部分”和“标注部分”,两个部分,在形体上,联结成一个整体,以这个整体,作为记录语言(或处理信息)的文字(或技术)符号;(2)对字词在语言文字和信息处理方面的属性,在字模(或字图,或字模和字图)上,进行标注;这些属性,包括字词的读音、形体和信息代码,或只包括字词的读音和形体,或只包括字词的信息代码和形体,或只包括字词的信息代码;(3)对标注材料,包括颜色(或无颜色)、色度、编码、记号、字符及其变形,或指纹、水印、磁性油墨等,进行选用和定义,作为字词标注的标志;(4)“文字部分”,表现字词的本来形态,或表现字词的标注形态;(5)“标注部分”,表述字词读音和信息代码,具有“读音\输入编码”和“机器代码”,或只有“读音\输入编码”,或只有“读音(输入编码隐含)”,或只有“机器代码”等样式,或其它样式。
(6)对字词的一个,或多个属性进行直观表现。
其不同之处在于(1)它们各自是联体标注方法,在字模、字图方面的具体应用。
(2)在汉语拼音字模和字图中,把汉语拼音,看作了“文字”,作为字模和字图中被标注的“文字部分”;它的文字形态和读音标注同为一体;它的“读音\输入编码”,可以省略。如图8,“汉语拼音字图”。
样式1,文字部分与标注部分齐全,输入编码中,用“i”表第一声;样式2,只有文字部分和机器代码;图中,机器代码只有“读音”代码;样式3,只有汉语拼音。
应用以上特点,要注意字模或字图,以整个形体,作为记录语言(或处理信息)的文字(或技术)符号;字词的属性,可以是一种或多种;要将标注材料,包括颜色、色度、编码、记号、字符及其变形,或指纹、水印、磁性油墨等,进行选用和定义,才能作为字词标注的标志;其中,“编码”,可以是数字,或是字符;“记号”,可以是图形,或是笔画中的标记。
1、制备标注字模(或字图)的一般步骤(1)根据需要,定义字词的标注“属性”,包括内容和数量;选用标注“材料”,包括颜色、色度或形体变化及其参数;(2)根据需要,定义“属性”与标注“材料”的对应关系;(3)确定字模(或字图)中的大小,文字部分与标注部分的位置和大小,选定需要标注的部件;(4)将标注“属性”,按定义要求,应用标注“材料”,在“造字程序”和“画图”工具中,或“字体文件编辑工具”中,对应实现;(5)将处理结果,保存在数据库或字体文件中。
2、标注字模的制备“标注字模”的制备,这里利用“造字程序”和“画图”工具,或“字体文件编辑工具”实现。“造字程序”、“画图”工具和“字体文件编辑工具”,是现有的公知技术。
(1)确定标注“属性”;(2)选用和定义标注“材料”,如基本颜色,不同色度的区别参数,或形体变化的扭曲方向和角度等;(3)确定标注“材料”与标注“属性”的对应关系,如色度,或扭曲角度和方向等的指代对象;(4)确定文字部分与标注部分的位置大小,制作或选用待标注的字体、字形和代码图形;(5)将各个标注“属性”,按定义进行加工比如,将需要变形处理的“属性”,按定义的扭曲方向和角度,分批进行变形处理;(6)将处理结果保存在数据库或字体文件中。
词组标注字模的制备,一般词组字数不多,大多几十字内,利用“字体文件编辑工具”制作存储,不受汉字习惯宽度(2个字节)的约束;在现有技术条件下,有的系统,是把词组字模当作一个汉字宽度看待得,有时输入词组,要多移动几下光标。
标注字模,不同色度的实现要在字模上,同时实现几种不同色度的表达,在原理上,就是使字模的不同色度区域,各自单位面积内,色点的数量不同,并使其相互之间具有明显“差异”。要实现单位面积内色点的数量不同,一种具体做法是先对各个色度,在单位面积内的色点数(密度),进行试验和定义,并制作不同色度的模块;再对要标注字形,进行“空心”勾边;然后,在空心框内,按定义密度,选用预制的色度模块,进行覆盖(描点)。如图9,“字模色度区分实例”,几种不同色度方块,用“造字程序”实现。
以“思”字为例。
①确定需要标注的属性为形体、读音、输入编码和机器代码;形体标注取码部件“心”;读音和输入编码联接一起;机器代码,描述数据库编码,读音代码,设设置校验位;数据库编码定义为字符集代码;“思”字的字符集代码为“0CBBCH”,读音代码为“3BAH”,校验位为“003H”;“思”字的输入编码为“si`xn”;②选定标注材料,定义其与属性的关系;字模基本颜色为黑色;文字形体的标注部分用“空心”勾边,标注取码部件“心”;读音\输入编码,简码用黑体加粗,形义特征字符用斜体;机器代码用紧凑样式;③标注位置,从上到下,为文字部分,读音\输入编码,机器代码三部分;范围大小,设定文字部分,占50%高度,读音\输入编码,占30%高度,机器代码,占20%高度;三部分之间,留出适当间隙;④字体,设为楷体样式,将其图形压缩到50%高度(字模高度,以下同),留出间隙;拼音字母选用一般样式,将其图形压缩到30%高度,宽度压缩到与字模等宽,留出间隙;机器代码,按属性定义要求制作码图,将其图形压缩到20%高度,宽度压缩到与字模等宽,留出间隙;⑤把“思”字的文字部分,读音\输入编码,机器代码拼合一体,调整间隙,就初步生成了标注字模;⑥把标注字模的字型,从16点到128点,进行输出显示,检查是否存在“掉点”(失去码符);若出现“掉点”,将其码符作左右调整,使其在使用范围内(比如,从16点到128点),不出现“掉点”;最后,生成“思”字的标注字模。
⑦将“思”字的字模图形,保存在字词数据库或字体文件中;大量的字模图形,可以用“字体文件编辑工具”编辑存放,比如用“字体创造程序”;字词数据库的建立,属于一般已知技术。
“思”字的标注字模,如图10,“‘思’字标注字模示意”。图11,“一种词组标注字模样式”。该图,字模经编码输入,输出显示后涂色制成;在读音\输入编码部分,用红色,标志词组的输入简码“ysjj”。
利用现有“造字程序”标注机器代码,为克服“掉点”,适应字型从16点到128点的变化,在64×64的点阵网格中,机器代码的码符,可作如图12,“一种无‘掉码’设置(底边12点样式)实例”的布置。这种“底边12点样式”(实际大小),底边的12个黑点“码符”,在16点到128点范围内变化,不会丢失码符。
几种标注字模的制作样式,见图13,“标注字模(样式1)”、图14,“标注字模(样式2)”。
3、标注字图的制备“标注字图”的制备,与标注字模的制备相似,这里利用“画图”工具实现。
(1)确定标注“属性”;(2)选用和定义标注“材料”,包括如基本颜色,不同色度的区别参数,或形体变化的扭曲方向和角度等;定义颜色和色度的“色序”;“色序”,是指将选用颜色和色度的种类排成序列,并编上序号,用以表示某一“属性”的标注或选用的先后。色序图示,见图15,“颜色与色序”,图16,“色度与色序”。
(3)确定标注“材料”与标注“属性”的对应关系,如色度,或扭曲角度和方向等的指代对象;(4)确定字图的大小,文字部分与标注部分的位置大小,制作或选用待标注的字体、字形和代码图形;(5)将各个标注“属性”,按定义进行加工;比如,将需要变形处理的“属性”,按定义的扭曲方向和角度,分批进行变形处理;(6)将处理结果保存在数据库文件中。
(7)输出打印,可以是“彩色字模”,也可以是“灰度字模”。
仍以“思”字为例。
①确定需要标注的属性为形体、读音、输入编码和机器代码;形体标注取码部件“心”;读音和输入编码联接一起;机器代码,描述数据库编码,读音代码,设设置校验位;数据库编码定义为字符集代码;“思”字的字符集代码为“0CBBCH”,读音代码为“3BAH”,校验位为“003H”;“思”字的输入编码为“si`xn”;②选定标注材料,定义其与属性的关系;字模基本颜色为黑色;文字形体的标注部分用红色标志,标注取码部件“心”;读音\输入编码,简码用黑体红色加粗,形义特征字符用斜体;机器代码用紧凑样式;③字图大小,假设为128×128象素单位;标注位置,从上到下,为文字部分,读音\输入编码,机器代码三部分;范围大小,设定文字部分,占50%高度(字图高度,下同),读音\输入编码,占30%高度,机器代码,占20%高度;三部分之间,留出适当间隙;④字体,设为楷体样式,将其图形压缩到50%高度,留出间隙;拼音字母选用一般样式,将其图形压缩到30%高度,宽度压缩到与字图等宽,留出间隙;机器代码,按属性定义要求制作码图,将其图形压缩到20%高度,宽度压缩到与字图等宽,留出间隙;⑤把“思”字的文字部分,读音\输入编码,机器代码拼合一体,调整间隙,就初步生成了标注字图;⑥把标注字图放大和缩小,观察在使用范围内,是否存在“掉点”(失去码符);出现“掉点”,将其码符进行调整,使其在使用范围内,不出现“掉点”;最后,生成“思”字的标注字图。
⑦将“思”字的字图,保存在字词数据库中;字词数据库的建立,属于一般已知技术。
“思”字的标注字图,如图17,“‘思’字标注字图示意”。
4、汉语拼音字模和字图汉语拼音字模和字图,是字词联体标注方法,在汉语拼音方面的应用。它的制备,与标注字模和标注字图一样。不同之处仅在于,在汉语拼音字模和字图中,把汉语拼音,看作了“文字”,作为字模和字图中被标注的“文字部分”;它的文字形态和读音标注同为一体;它的“读音\输入编码”,可以省略;在实际应用中,它可以与汉字(或标注汉字)横排输入输出显示,将标注汉字(用标注字模或字图输入和输出显示的汉字)的读音标注外移,增大文字部分的形体显示,还可以为“汉字拼音化”提供实践样式。它与现有汉语拼音的应用相比,其特征在于(1)字模和字图中,标注有信息代码;(2)将单个汉语拼音字母,做成一个字模或字图;或将汉语拼音音节,做成一个字模或字图;(3)方便了汉语拼音的人工输入。汉语拼音字模(或字图)的实用样式,如图8,“汉语拼音字图”示意。汉语拼音字模(或字图)与汉字横排应用,如图42,“汉语拼音字模与汉字横排应用(样式1)”示意。图中,汉语拼音字模,标注了“思”字的数据库编码。
三、“双拼”代码及键盘定义联体标注中,字词的读音标注、输入编码及其形义特征描述,可以采用汉语拼音的“双拼”样式。
双拼样式中,声母、韵母或字母(或其组合),用键盘上的1个字母代码表示。双拼代码,应根据汉字拼音化实践需要定义,以便于吸收汉字拼音化成果。本说明,为双拼代码定义提供一种实践方案。在本说明中,①韵母“ü”,在需要写成“ü”时,用字母“v”代替;②韵母“ê、er、ueng”,在普通话中无声韵配合,属于零声母音节,暂不单独定义键位;“er”,如单独应用,键盘实际输入为“e”与“r”两个字符;“ê”,如需单独应用,可用字符“e’”表示;“ueng”,假如有声韵配合需要,用“u-eng”字母组合表示,并将每一字母组合部分,转换为相应的双拼代码,如“u-g”(符号“-”在实际应用中,可省略),不受现有双拼格式束缚;③定义字符“ng”,是为了与注音符号“兀”相对应;④假如有新产生的音节,在没有定义键位前,可采用音位接近的拼写样式,或形态接近的拼写样式,表示为“x-y…-z”样式(每个字符代表1个字母或其组合),并转换为相应的双拼代码,以应付需要;⑤零声母音节,韵头“i、u、ü”的变换,遵循《汉语拼音方案》规定,余下的韵腹和韵尾部分,用对应的双拼代码表示;如,“ian”,单独应用,变换为“yan”,其双拼代码为“yj”(y-an),而不是“m”(ian)。双拼代码,其具体定义为“A”,代表韵母“a”;“B”,代表声母“b”,韵母“ou”;“C”,代表声母“c”,韵母“iao”;“D”,代表声母“d”,韵母“uang、iang”;“E”,代表韵母“e”;“F”,代表声母“f”,韵母“en”;“G”,代表声母“g”,韵母“eng”和字母“ng”;“H”,代表声母“h”,韵母“ang”;“I”,代表声母“ch”,韵母“i”;“J”,代表声母“j”,韵母“an”;“K”,代表声母“k”,韵母“ao”“L”,代表声母“l”,韵母“ai”;“M”,代表声母“m”,韵母“ian”;“N”,代表声母“n”,韵母“in”;“O”,代表韵母“o、uo”;“P”,代表声母“p”,韵母“un、ün”;“Q”,代表声母“q”,韵母“iu”;“R”,代表声母“r”,韵母“uan、üan”;“S”,代表声母“s”,韵母“iong、ong”;字母“T”,代表声母“t”,韵母“üe(ue)”;字母“U”,代表声母“sh”,韵母“u”;“V”,代表声母“zh”,韵母“ui、ü”;“W”,代表字母“w”,韵母“ua、ia”;“X”,代表声母“x”,韵母“ie”;“Y”,代表字母“y”,韵母“uai、ing”;“Z”,代表声母“z”,韵母“ei”。在本说明书中,字词的形义特征描述(举例),已经采用了“双拼”样式。
标注汉字的输入编码,采用“双拼”击键,可以规整编码输入的节奏,减少击键次数。这里,将键盘的“双拼”键位定义,提供如下。
“读音\输入编码”中“读音`特征”(简称输入编码)的分隔符号与汉语拼音的隔音符号,可以分别定义,也可以统一定义。其分别定义为;输入编码的分隔符号,在读音与形义特征之间,用IBM标准键盘的41号键字符“`”(字符的ASCII码值为96)表示,在形义特征之间,用IBM标准键盘的12号键字符“-”(字符的ASCII码值为45)表示;或采用其它符号表示。汉语拼音的隔音符号,用IBM标准键盘的40号键字符“’”(字符的ASCII码值为39)或其它字符表示。其统一定义为输入编码的分隔符号与汉语拼音的隔音符号,统一为汉语拼音隔音符号,用IBM标准键盘的40号键字符“’”(字符的ASCII码值为39)或其它字符表示。在数字键盘中,为减少符号定义,将分隔符号与隔音符号统一为隔音符号,用数字键“0”表示。中文标点符号的定义,与操作系统一致。
1.标准键盘的键位定义原标准键盘的规范设置不变。全拼代码的定义,与标准键盘的原有定义一致。这里,只叙述双拼代码定义。“XX号键(XX)”系IBM标准键盘的键位编号,括号内是字符的ASCII码值。
16号键(81),代表声母“q”,韵母“iu”; 17号键(87),代表字母“w”,韵母“ua、ia”18号键(69),代表韵母“e”; 19号键(82),代表声母“r”,韵母“uan、üan”;20号键(84),代表声母“t”,韵母“üe(ue)”;21号键(89),代表字母“y”,韵母“uai、ing”;22号键(85),代表声母“sh”,韵母“u”; 23号键(73),代表声母“ch”,韵母“i”;24号键(79),代表韵母“o、uo”; 25号键(80),代表声母“p”,韵母“un、ün”;30号键(65),代表韵母“a”; 31号键(83),代表声母“s”,韵母“iong、ong”;32号键(68),代表声母“d”,韵母“uang、iang”; 33号键(70),代表声母“f”,韵母“en”;34号键(71),代表声母“g”,字符“eng、ng”; 35号键(72),代表声母“h”,韵母“ang”;36号键(74),代表声母“j”,韵母“an”; 37号键(75),代表声母“k”,韵母“ao”;38号键(76),代表声母“l”,韵母“ai”; 44号键(90),代表声母“z”,韵母“ei”;45号键(88),代表声母“x”,韵母“ie”; 46号键(67),代表声母“c”,韵母“iao”;47号键(86),代表声母“zh”,韵母“ui、ü”; 48号键(66),代表声母“b”,韵母“ou”;49号键(78),代表声母“n”,韵母“in”; 50号键(77),代表声母“m”,韵母“ian”。
双拼代码指代的声母、韵母、字母和隔音(及分隔)符号对应的符号,都标志在标准键盘的键帽上,或标志在键帽旁。
2.数字键盘的键位定义汉语拼音字母的键位定义,已有国家推荐标准。这里,是另一种定义样式。两种样式之间,可以通过基础码表进行“字/数”转换。
(1)汉语拼音字母数字键“1”,代表拼音字母的“a、b”; 数字键“2”,代表拼音字母的“c、d”;数字键“3”,代表拼音字母的“e、f”; 数字键“4”,代表拼音字母的“g、h、i”;数字键“5”,代表拼音字母的“j、k、l”;数字键“6”,代表拼音字母的“m、n、o”;数字键“7”,代表拼音字母的“p、q、r”;数字键“8”,代表拼音字母的“s、t、u”;数字键“9”,代表拼音字母的“v、w、x”;数字键“0”,代表拼音字母的“y、z”。
(2)双拼代码;数字键“1”,代表双拼代码的声母“b”,韵母“a、ou”;数字键“2”,代表双拼代码的声母“c、d”,韵母“iao、iang、uang”;
数字键“3”,代表双拼代码的声母“f”,韵母“e、en”;数字键“4”,代表双拼代码的声母“g、h、ch”,字符“eng、ng、ang、i”;数字键“5”,代表双拼代码的声母“j、k、l”,韵母“an、ao、ai”;数字键“6”,代表双拼代码的声母“m、n”,韵母“ian、in、o、uo”;数字键“7”,代表双拼代码的声母“p、q、r”,韵母“un、ün、iu、uan、üan”;数字键“8”,代表双拼代码的声母“s、t、sh”,韵母“iong、ong、üe、ue、u”;数字键“9”,代表双拼代码的声母“zh、x”,字母“w”,韵母“ui、ü、ia、ua、ie”;数字键“0”,代表双拼代码的声母“z”,字母“y”,韵母“ing、uai、ei”。
数字代码指代的声母、韵母、字母和隔音(及分隔)符号的相应符号,标志在键盘的键帽上,或标志在键帽旁。
四、联体标注的应用这里,对联体标注的一些具体应用,加以罗列。
字模和字图的数据库管理。对每个字模(或字图)进行编码(编码样式,前面已经叙述),将字模(或字图)的“点阵(或象素)图形”,存放于数据库的相应字段中。在数据库中,设置与文字的读音、笔顺、及各种流行编码有关的多个字段。设置相应的查找、调用程序。具体操作,用一般数据库常识完成。
标注字模的应用方式。
标注字模,可以做成单独的字体文件,以“清一色”的标注汉字,出现在文本中,用“字体文件编辑工具”完成。也可夹在现有的字体文本中,利用现有“造字程序”完成;其特点是,对需要标注的字词,便于输入排版,对那些“区别”明显、容易识别的汉字字符,也可以不进行标注,两种情况,都可将就。
字词“属性”描述,包括“字体‘个性化’”、“读音”、“笔画”、“笔顺”、“结构样式”、“部件组成”、“选用部件”和“首选部件”等方面的一种或多种内容。
联体标注的应用杂例。这里,以颜色、色度和字符变形等,作为标注材料。
1、颜色(或色度)与色序根据需要,确定选用颜色(或色度)的种类;将这些颜色(或色度)排成序列,并编上序号,这里叫做“色序”。“末”为序列的最后一号。色序的前后,表示某一“属性”的选用(和标注)先后。举例如图15,“颜色与色序”,图16,“色度与色序”。
2、汉字结构汉字结构类型,从大的方面看,分为左右结构、上下结构和包围(杂和)结构三类。但其细分,却有很多具体样式。用联体标注,有助于学习汉字结构和信息编码处理。如图18至图23,用不同颜色,区分汉字结构;这里,左右结构,6种;上下结构,6种;内外包围,7种;其它结构,5种。用一种颜色或无色,表示独体。
(1)左右结构,如图18,“左右结构”;(2)上下结构,如图19,“上下结构”;(3)内外包围①半包围,如图20,“内外包围(半包围结构)”;②全包围,如图21,“内外包围(全包围结构)”;(4)其它结构,如图22,“其它结构”;(5)独体,如图23,“独体”。
3、标注“部首归类”(图24,“标注‘部首归类”)汉字“思”,会意兼形声。从心,从囟(xìn),囟亦声。囟,脑子。古人认为,心脑合作产生思想。本义思考,想;考虑。部首归类,有的将其规为“田”部,有的既将其规为“田”部,又将其规为“心”部;这里,将其规为“心”部,用“红色”,在字形上,直接标注。
汉字“意”,会意。从心,从音。本义;心志,心意。部首归类,有的将其规为“立”部,有的既将其规为“立”部,又将其规为“心”部;这里,将其规为“心”部,用“红色”,在字形上,直接标注。
4、标注汉字编码(取码)的“首选”部件(图25,“标注汉字编码‘首选’部件”)在汉字信息处理中,有时,汉字编码(取码),需要确定汉字的“首选”部件;特别是,当这些“首选”部件的位置,与书写顺序不一致时,就需要记忆;这里,用“红色”,将其“首选”部件,直观地标注出来。
5、标注汉字编码(取码)的选用部件及顺序(图26,“选用部件及顺序”)在汉字信息处理中,汉字编码(取码),需要确定部件和部件选用的顺序。这些部件、部件选用的顺序,需要记忆;这里,用“色序”,将其直观地标注出来。
6、标注汉字书写的起笔笔画(图27,“标注汉字书写的起笔笔画”)将汉字书写的起笔笔划用“红色”标注。
7、标注独体汉字的编码(取码)部件(或笔画)(图28,“独体汉字的编码部件(或笔画)”)8、指定“拼音字符串”中,汉字的读音。
比如,汉字“微”,它的一种输入编码是“wēi’chi”,可以用“颜色”标注“微”字的读音为“wēi”,如图29,“字符串中标注读音”。
9、指定“拼音字符串”中,汉字的输入编码。
比如,汉字“微”,它的一种输入编码是“wēi’chi”,可以用“颜色”标注“微”字的输入编码的简码为“wēi’c”,如图30,“输入编码中的简码”。
10、部件变形标注,如图31,“字符变形标注简码”。
11、为“简体、繁体和异体(和异体)”,指定共同的编码(取码)部件;这类汉字,读音相同,输入编码相同,再加上,机器代码中的数据库编码相同,可促使其在使用中统一和简化。(如图32,“指定简体和繁体(异体)共同的编码(取码)部件”)12、用颜色(或色度)区分汉语拼音音节的声调,用色序,标志音节的首字母或主要元音,表示四声。如图33,“用颜色(或色度)区分汉语拼音音节的声调”。
13、用字符变形区分汉语拼音音节的声调,用字符变形,标志音节的首字母或主要元音,表示四声,如图34,“用字符变形区分汉语拼音音节的声调(之一)”;如图35,“用字符变形区分汉语拼音音节的声调(之二)”。
14、用颜色(或色度)与用字符变形相结合,标志音节的首字母或主要元音,表示四声,区分汉语拼音音节的声调,如图36,“用颜色(或色度)与用字符变形相结合,区分汉语拼音音节的声调。
15、用字符变形,或与“颜色标注”结合,指定“拼音字符串”中,汉字的读音,如图37,“用颜色与变形,标志读音”。
“wēi’chi”(汉字“微”的“拼音字符串”),其“wēi”,形体加粗,标志为“微”字的读音。或与“颜色标注”结合,标注读音。
16、在笔画或部件上作记号,标注汉字的“实用属性”,比如,标志取码部件。(图38,“在笔画或部件上作记号”)17、联体标注,文字部分和标注部分,可以有不同的排列样式;标注部分的内容,可以根据需要和技术条件确定;如图39,“联体标注(无机器代码)”,示意了3钟排列样式,没有使用机器代码。
18、专用印记,如图40,“专用印记”。将个人手迹、指纹与机器代码(密码)联体标注,或将文本指定内容与机器代码一起加密,并经过公证,生成“专用印记”,;这种“专用印记”,将具有联体性(不可移用它处)、唯一性和法律效力。
19、“个性化”字模。机器代码的使用,使字模“个性化”成为可能。因为,字词形体的变化,不会影响人和机器的识别。如图41,“一个‘个性化’字模(示意)”,它将一句唐诗,做在一个字模上,并标注上这句唐诗在数据库中的“地址”编码,不影响机器的识别。图中,数据库编码为假设的,文字部分,用“字体文件编辑工具”做成。图上,也可以标注诗句的读音代码。对古文,标注读音,特别是对文言文的阅读,有所帮助。当然,这只是对字模(和字图)“个性化”应用的一种简单示意。它的文字部分,可以采用“自己”的手迹。
五、对说明书附图的图面说明图1,“联体标注(单字)”。图中1,为“文字部分”。2,为“标注部分”。3,为“部件归类\特征部件”;图中,“思”字的部件“心”,用红色标志。4,为“读音\输入编码”;图中,读音代码“sī”,字符用红色和形体“加粗”标志;特征代码“xn”,字符用“斜体”(形体变斜)标志。5,为“机器代码”;6,蓝色方框,框内为联体标注(单字)的整体形态(应用单位)。图1,为彩色字图;说明书附图,采用黑色灰度打印。
图2,“联体标注(词组)”。图中1,为“文字部分”。2,为“标注部分”。3,为“部件归类\特征部件”;图中,词组“思想”的两个部件“心”,用红色标志。4,为“读音\输入编码”。5,为“机器代码”;6,蓝色方框,框内为联体标注(词组)的整体形态(应用单位)。图2,为彩色字图;说明书附图,采用黑色灰度打印。
图3,“读音\输入编码”。图中1,为“读音部分”;图中,读音代码“sī”,用红色“加粗”标志。2,为“分隔符号”。3,为“特征部分”;图中,特征代码“xn”,用“斜体”变形标志。图3,为彩色图形;说明书附图,采用黑色灰度打印。
图4,“读音\输入编码(2)”。图中1,为“读音部分”;图中,读音代码“sī”,用红色“加粗”标志。2,为“分隔符号”。3,为“特征部分”;图中,特征代码“xn”,用“斜体”变形标志。4,为“字体代码”图中,字体代码“-f”,用蓝色“斜体”标志。图4,为彩色图形;说明书附图,采用黑色灰度打印。
图5,“标注样式”。图中1,“全部标注”样式。2,“部分标注”样式。3,“单项标注”样式。1-1,“样式1”;文字部分,“思”字的部件“心”,用红色标志;读音\输入编码中,读音代码“sī”,用红色“加粗”标志;特征代码“xn”,用“斜体”变形标志。2-1,“样式2”;文字部分,“思”字的部件“心”,用红色标志读音\输入编码中,读音代码“sī”,用红色“加粗”标志;特征代码“xn”,用“斜体”变形标志。2-2,“样式3”;文字部分,“思”字的部件“心”,用红色标志;读音代码“sī”,用红色“加粗”标志。2-3,“样式4”;文字部分,“思”字的部件“心”,用红色标志。3-1,“样式5”。3-2,“样式6”;只有机器代码;文字部分,为“空白”(无字),用淡紫色“思”示意。图5,为彩色图形;说明书附图,采用黑色灰度打印。
图6,“机器代码(疏散样式)”。图中1.0,为“每组编码权位排列”;图中,权位“8421”为对应红线指定位置。2.0,“码符纵向参照”;为红线指向的位于机器代码左边的“锯齿状”码图。3.0,“码符横向参照”;为红线指向的位于机器代码底边的“黑白矩形”码图。
图7,“机器代码(紧凑样式)”。图中1.0,为“每组编码权位排列”;图中,权位“8421”,为对应红线指定位置。2.0,“码符纵向参照”;为红线指向的位于机器代码左边的“锯齿状”码图。3.0,“码符横向参照”;为红线指向的位于机器代码底边的“黑白矩形”码符。
图8,“汉语拼音字图”。图中;,1,“样式1”;汉语拼音部分,用红色“加粗”;输入编码中,声调,阴平,用红色和“斜体”变形的“i”标志。2,“样式2”;汉语拼音部分,用红色“加粗”。3,“样式3”;只有汉语拼音部分,用红色“加粗”。图8,为彩色图形;说明书附图,采用黑色灰度打印。
图9,“字模色度区分实例”。图中,色度由深到浅,顺序为1,2,3,4,5。
图10,“‘思’字标注字模示意”。图中,文字部分,“思”字的部件“心”,为“空心”字符;读音\输入编码中,读音代码“sī”,用形体“加粗”标志;特征代码“xn”,用“斜体”变形标志。
图11,“一种词组标注字模样式”。图中;汉字部分,为红色字符;汉语拼音部分,各音节的声母,为红色“斜体”字符。图11,为彩色图形;说明书附图,采用黑色灰度打印。
图12,“一种无‘掉码’设置(底边12点样式)实例”。图中,1,“16点”;表示实际字型大小为16点;。2,“18点”;表示实际字型大小为18点。3,“20点”;表示实际字型大小为20点。4,“28点”;表示实际字型大小为28点。5,“36点”;表示实际字型大小为36点。6,“48点”;表示实际字型大小为48点。7,“72点”;表示实际字型大小为72点。8,“96点”表示实际字型大小为96点。9,“128点”;表示实际字型大小为128点。
图13,“标注字模(样式1)”。图中1,“伟”字,左边偏旁为“空心”。2,“伟”字,书写起笔笔画为“空心”。3,“伟”字,书写起笔笔画开头一端为“空心”。4,“伟”字,全字为“空心”。5,“伟”字,字体“反白”。6,“伟”字,字体“反白”,“反白”中带“麻点”。7,“伟”字,包含文字部分和读音\输入编码;文字部分,左边偏旁“空心”。8,标注字模,只含读音\输入编码和机器代码。
图14,“标注字模(样式2)”。图中1,含文字部分和读音标注。2,含文字部分和机器代码。3,含文字部分、读音\输入编码和机器代码。4,只含读音\输入编码和机器代码。5,含文字部分、读音标注和机器代码;读音标注和文字部分横排。6,汉语拼音字模。
图15,“颜色与色序”。图中颜色与色序,表示为“颜色名称(色序序号)”格式。1,“红色(1)”;定义红色的色序为1。2,“绿色(2)”;定义绿色的色序为2。3,“蓝色(3)”;定义蓝色的色序为3。4,“黄色(4)”;定义黄色的色序为4。5,“紫色(5)”;定义紫色的色序为5。6,“淡蓝(6)“;定义淡蓝色的色序为6。7,”淡绿(7)“;定义淡绿色的色序为7。8,……,省略号,表示还有其他颜色及色序序号;9,“黑色(次末)”;定义黑色的色序为“倒数第二”。10,“白色(末)”,定义白色的色序为“倒数第一”。图15,为彩色图形;说明书附图,采用黑色灰度打印。
图16,“色度与色序”。图中色度与色序,表示为“颜色名称(色序序号)”格式。1,“红色(1)”;定义红色的色序为1。2,“次红(2)”;定义次红色的色序为2。3,“淡红(3)”;定义淡红色的色序为3。4,“白色(末)”;定义白色的色序为“倒数第一”。5,“绿色(1)”;定义绿色的色序为1。6,“次绿(2)”;定义次绿色的色序为2。7,“淡绿(3)”;定义淡绿色的色序为3。8,“蓝色(1)”;定义蓝色的色序为1。9,“次蓝(2)”;定义次蓝色的色序为2。10,“淡蓝(3)”;定义淡蓝色的色序为3。图16,为彩色图形;说明书附图,采用黑色灰度打印。
图17,“‘思’字标注字图示意”。图中字图文字部分,用红色,标志部件“心”;读音\输入编码“sī`xn”中,读音代码“sī”,用红色“加粗”标志;特征代码“xn”,用“斜体”变形标志。图17,为彩色图形;说明书附图,采用黑色灰度打印。
图18,“左右结构”。图中1,“左右相称”;汉字“群”,右边部件“羊”,用黄色标志。2,“左小右大”;汉字“伟”,左边部件“亻”,用黄色标志。3,“左大右小”;汉字“刚”,右边部件“刂”,用黄色标志。4,“右再分”;汉字“婚”,左边部件“女”,用黄色标志;右边部件“昏”,再分为音部件“氏”和部件“日”;右上角,部件“氏”,用紫色标志。5,“左再分”;汉字“部”,右边部件“阝”,用黄色标志;左边部件“音”,再分为部件“立”和部件“口”;左上角,部件“立”,用紫色标志。6,“三并列”;汉字“谢”,左边部件“讠”,用黄色标志,中间部件“身”,用紫色标志。
图19,“上下结构”。图中1,“上下相称”;汉字“思”,下边部件“心”,用黄色标志。2,“上小下大”;汉字“字”,上边部件“宀”,用黄色标志。3,“上大下小”;汉字“垄”,下边部件“土”,用黄色标志。4,”下再分”;汉字“霸”,上边部件“雨”,用黄色标志;剩余部件 中,左边部件“革”,用紫色标志。5,“上再分”;汉字“暂”,下边部件“日”,用黄色标志剩余部件“斩”中,左边部件“车”,用紫色标志。6,“三叠层”;汉字“意”,下边部件“心”,用黄色标志,上边部件“立”,用紫色标志。
图20,“内外包围(半包围结构)”。图中1,“左上包”;汉字“庸”,左上角部件“广”,用黄色标志。2,“左下包”;汉字“迷”,左下角部件“辶”,用黄色标志。3,“右上包”;汉字“甸”,右上角部件“勹”,用黄色标志。4,“左三包”;汉字“匣”,部件“匚”,用黄色标志。5,“上三包”;汉字“闲”,部件“门”,用黄色标志。6,“下三包”;汉字“凶”,部件“凵”,用黄色标志。
图21,“内外包围(全包围结构)”。图中,1,“内外包围(全包围结构)”;汉字“固”,分为部件“口”和部件“古”,部件“口”用黄色标志。
图22,“其它结构”。1,“上部三并列”;汉字“懋”,下边部件“心”,用黄色标志;上边部件“楙”,分为“木”、“矛”、“木”三个部分,左边部件“木”,用紫色标志,中间部件“矛”,用蓝色标志。2,“中部分上下”;汉字“激”,左边部件“氵”,用黄色标志;中间部件 再分为部件“白”和部件“方”,部件“白”用蓝色标志,部件“方”用绿色标志。3,“中部分左右”;汉字“篮”,上边部件“”,用黄色标志;中部左边,部件 用紫色标志;中部右边,部件 用蓝色标志。4,“中部杂合”;汉字“率”,上部边部件“亠”,用黄色标志;中部为部件 与“幺”杂合,部件 用蓝色标志,部件“幺”,用紫色标志。5,“上下再分”;汉字“器”,分为“吅”、“犬”、“吅”三个部件;中间部件“犬”,用黄色标志;上边部件“吅”再分为两个“口”,左边部件“口”,用紫色标志,右边部件“口”,用蓝色标志;下边部件“吅”也分为两个“口”,左边部件“口”,用绿色标志。
图23,“独体”;1,左边的汉字“山”,用黄色作底色标志;2,右边的汉字“山”,不用颜色标志。
图24,“标注‘部首归类”;1,汉字“思”,部首归类为“心”,用红色标志;2,汉字“意”,部首归类为“心”,用红色标志。
图25,“标注汉字编码‘首选’部件”;1,汉字“部”,汉字编码“首选”部件为“阝”,用红色标志;2,汉字“懋”,汉字编码“首选”部件为“心”,用红色标志。
图26,“选用部件及顺序”;1,汉字“懋”,选用部件及顺序为“心、木、矛、木”,分别用“红色、绿色、蓝色、黑色”标志;2,汉字“部”,选用部件及顺序为“阝、立、口”,分别用“红色、绿色、蓝色”标志。
图27,“标注汉字书写的起笔笔画”;1,汉字“九”,书写起笔笔画为“丿”,用红色标志;2,汉字“力”,书写起笔笔画为 用红色标志;3,汉字“光”,书写起笔笔划为“丨”,用红色标志。
图28,“独体汉字的编码部件(或笔画)”;1,独体汉字“夫”,编码部件(笔画)为“二”,用红色标志;2,独体汉字“山”,编码部件(笔画)为“丨”,用红色标志。
图29,“字符串中标注读音”;在字符串“wēi’chi”中,用红色标志字符串的读音部分为“wēi”。
图30,“输入编码中的简码”;在字符串“wēi’chi”中,用红色标志字符串输入编码的简码为“wēi`c”。
图31,“字符变形标注简码”;在字符串“wēi’chi”中,用红色及字符变形(斜体),标志字符串输入编码的简码为“wēi`c”。
图32,“指定简体和繁体(异体)共同的编码(取码)部件”;汉字“穷”,它的简体、繁体和异体分别为“1、2、3”,用红色,标志其指定的共同的编码(取码)部件为“穴”。
图33,“用颜色(或色度)区分汉语拼音音节的声调”;1,用红色,标志音节“ma”中的字母“a”,表示声调为“阴平”,代表音节“mā”;2,用紫红色,标志音节“ma”中的字母“a”,表示声调为“阳平”,代表音节“má”;3,用蓝色,标志音节“ma”中的字母“a”,表示声调为“上声”,代表音节“mǎ”;4,用淡蓝色,标志音节“ma”中的字母“a”,表示声调为“去声”,代表音节“mà”;5,用字符本来原色,标志音节“ma”,表示音节读作“轻声”。
图34,“用字符变形区分汉语拼音音节的声调(之一)”;1,音节“ma”中的字母“a”,变形为“斜体”,表示声调为“阴平”,代表音节“mā”;2,音节“ma”中的字母“a”,变形为“斜体加粗”,表示声调为“阳平”,代表音节“má”;3,字符串“mA”中的字母“A”,变形为“斜体”,表示声调为“上声”,代表音节“mǎ”;4,字符串“mA”中的字母“A”,变形为“斜体加粗”,表示声调为“去声”,代表音节“mà”;5,音节“ma”,不作变形处理,表示音节读作“轻声”。
图35,“用字符变形区分汉语拼音音节的声调(之二)”;1,音节“ma”中的字母“a”,变形为“斜体”并“下移”,表示声调为“阴平”,代表音节“mā”;2,音节“ma”中的字母“a”,变形为“斜体加粗”并“下移”,表示声调为“阳平”,代表音节“mǎ”;3,字符串“mA”中的字母“A”,变形为“斜体”并“下移”,表示声调为“上声”,代表音节“mǎ”;4,字符串“mA”中的字母“A”,变形为“斜体加粗”并“下移”,表示声调为“去声”,代表音节“mà”;5,音节“ma”,不作变形处理,表示音节读作“轻声”。
图36,“用颜色(或色度)与用字符变形相结合,区分汉语拼音音节的声调”;1,音节“ma”中的字母“a”,变形为“斜体”并“下移”,再用红色标志,表示声调为“阴平”,代表音节“mā”;2,音节“ma”中的字母“a”,变形为“斜体加粗”并“下移”,再用紫红色标志,表示声调为“阳平”,代表音节“má”;3,字符串“mA”中的字母“A”,变形为“斜体”并“下移”,再用蓝色标志,表示声调为“上声”,代表音节“mǎ”;4,字符串“mA”中的字母“A”,变形为“斜体加粗”并“下移”,再用淡蓝色标志,表示声调为“去声”,代表音节“mà”;5,音节“ma”,不作变形处理,也不用颜色标志,表示音节读作“轻声”。
图37,“用颜色与变形,标志读音”;字符串“wēi`chi”中,读音部分“wēi”,用红色标志,字符形体“加粗”;形义特征部分“chi”,颜色不变,字符用“斜体变形”表示。
图38,“在笔画或部件上作记号”;1,汉字“思”,其部件“心”,形体用“白点”标志;2,汉字“夫”,其部件“二”,形体用“白点”标志;3,汉字“山”,其起笔笔画“丨”,起笔端,用白色“空心”标志。
图39,“联体标注(无机器代码)”。1,“样式1”;文字部分,采用“标注形态”,剩余部件“对”,用蓝色标志;标注部分,无“机器代码”,“读音\输入编码”,安排在文字部分下边。2,“样式2”;文字部分,采用“标注形态”,剩余部件“对”,用蓝色标志;标注部分,无“机器代码”,“读音\输入编码”,只有读音部分,安排在文字部分左边。3,“样式3”;文字部分,采用“标注形态”,剩余部件“对”,用蓝色标志;标注部分,无“机器代码”,“读音\输入编码”,只有读音部分,安排在文字部分上边。
图40,“专用印记”;个人专用印记,包括个人签名、个人手印、经公证注册的机器代码;图中,个人签名为蓝色,手印为红色,机器代码为黑色,印记边框为红色,印记底色为“玉蓝色”。
图41,“一个‘个性化’字模(示意)”;在一个字模中,表达诗句“白日依山尽,黄河入海流。”和这一诗句的机器代码。
图42,“汉语拼音字模与汉字横排应用(样式1)”。1,汉语拼音字模;蓝色框内,包含汉语拼音和它的机器代码;拼音字符“sī”,用红色标志,形体“加粗”。2,汉字“思”,部件“心”,用红色标志。汉语拼音字模与汉字字模横排。
权利要求
1.一种字词联体标注方法,它具有“文字部分”和“标注部分”,属于语言文字和信息技术领域,其特征在于(1)“文字部分”和“标注部分”,在形体上,联结成一个整体,作为记录语言(或处理信息)的文字(或技术)符号;(2)对字词在语言文字和信息处理方面的属性进行标注;这些属性,包括字词的读音、形体和信息代码,或只包括字词的读音和形体,或只包括字词的信息代码和形体,或只包括字词的信息代码;(3)对标注材料(包括颜色、色度、编码、记号、字符及其变形,或指纹、水印、磁性油墨等)进行选用和定义,作为字词标注的标志,对包括读音、拼写、笔画、笔顺、结构样式、部件组成、部件归属、选用部件、输入编码和机器代码等在内的一种或多种字词属性,进行直观形象标注,或进行隐匿秘密标注;(4)“文字部分”,表现字词的本来形态,或表现字词的标注形态;标注形态,是选用标注材料,在字词形体上,标志字词属性的一种形体样式;(5)“标注部分”,表述字词读音和信息代码(信息代码,包括“输入编码”和“机器代码”),具有“读音\输入编码”和“机器代码”,或只有“读音\输入编码”,或只有“读音(输入编码隐含)”,或只有“机器代码”等样式,或其它样式;字词的读音拼写和输入编码联接在一起,表现为“读音\输入编码”样式,或者字词的读音拼写不和输入编码联接在一起;“读音\输入编码”样式,它前面是字词读音,后面是输入编码,或前面是字词读音,后面是用以区别同音字词的形义特征代码,前后两部分结合作为输入编码,中间用符号隔开,或不用符号隔开,分隔符号可以根据需要定义选用;机器代码,是用于字词的人\机识别及处理的图形代码,它在形式上,定义包括“识别起点、纵横向识别参照”等标记,或定义其它标记,或不作这类标记定义,它在内容上,描述包括字词的数据库编码、读音代码、“个性化”信息代码和用于字模(或字图)合成的数据代码等信息中的一种或多种信息,或描述其它方面信息;数据库编码,为查询包括字词的读音、形体(包括字模和字图)和词性意义等信息提供“地址”(编码),它按一定格式组成,或直接为数据库记录号,或为字符集编码,或为机内代码;“个性化”信息代码,描述包括著作、出版、印刷复制设备、专用字体、公证印记和密码等方面的一个或多个在管理机关登记注册的信息,或其它自定义信息;(6)采用标注字模,或采用标注字图,或采用汉语拼音字模和字图,或采用其它形式,实现字词标注。
2.一种标注字模,属于语言文字与信息技术及印刷技术领域,其特征在于;(1)具有“文字部分”和“标注部分”,两个部分,在形体上,联结成一个整体,以这个整体,作为记录语言(或处理信息)的文字(或技术)符号;(2)对字词在语言文字和信息处理方面的属性,在字模上,进行标注;这些属性,包括字词的读音、形体和信息代码,或只包括字词的读音和形体,或只包括字词的信息代码和形体,或只包括字词的信息代码;(3)对标注材料(包括色度、编码、记号、字符及其变形,或指纹、水印、磁性油墨等)进行选用和定义,作为字词标注的标志;(4)“文字部分”,表现字词的本来形态,或表现字词的标注形态;(5)“标注部分”,表述字词读音和信息代码,具有“读音\输入编码”和“机器代码”,或只有“读音\输入编码”,或只有“读音(输入编码隐含)”,或只有“机器代码”等样式,或其它样式。
3.一种标注字图,它是具有“文字部分”和“标注部分”的文字图形,属于语言文字与信息技术及印刷技术领域,其特征在于;(1)“文字部分”和“标注部分”,在形体上,联结成一个整体,以这个整体,作为记录语言(或处理信息)的文字(或技术)符号;(2)对字词在语言文字和信息处理方面的属性,在字图上,进行标注;这些属性,包括字词的读音、形体和信息代码,或只包括字词的读音和形体,或只包括字词的信息代码和形体,或只包括字词的信息代码;(3)对标注材料(包括颜色、色度、编码、记号、字符及其变形,或指纹、水印、磁性油墨等)进行选用和定义,作为字词标注的标志;(4)“文字部分”,表现字词的本来形态,或表现字词的标注形态;(5)“标注部分”,表述字词读音和信息代码,具有“读音\输入编码”和“机器代码”,或只有“读音\输入编码”,或只有“读音(输入编码隐含)”,或只有“机器代码”等样式,或其它样式;(6)对字词的一个,或多个属性进行直观表现。
4.一种汉语拼音字模和字图,包括汉语拼音字母、音节及其相应的字模或字图,属于语言文字与信息技术及印刷技术领域,其特征在于(1)字模和字图中,标注有信息代码;(2)将单个汉语拼音字母,做成一个字模或字图;或将汉语拼音音节,做成一个字模或字图。
5.用权利要求1所述的字词联体标注方法,或用权利要求2所述的标注字模,或用权利要求3所述的标注字图,或用权利要求4所述的汉语拼音字模和字图,或用其相互组合,实现的输入、输出(包含打印和显示)技术和产品。
6.用权利要求1所述的字词联体标注方法,或用权利要求2所述的标注字模,或用权利要求3所述的标注字图,或用权利要求4所述的汉语拼音字模和字图,或用其相互组合,实现的印刷技术和产品。
7.用权利要求1所述的字词联体标注方法,或用权利要求2所述的标注字模,或用权利要求3所述的标注字图,或用权利要求4所述的汉语拼音字模和字图,或用其相互组合,实现的商业性出版物(包括多媒体读物)和广告。
全文摘要
本发明由字词联体标注方法及其字模与字图组成,它将字词的“文字部分”和“标注部分”(表述读音和信息代码)联结一体,作为记录语言(或处理信息)的供人\机识别的文字(或技术)符号,对字词在语言文字和信息处理方面的属性进行联体综合性直观标注,属于语言文字与信息技术及印刷技术领域。它有利于语言文字的规范化和现代化,强化汉语拼音和普通话的学习和应用,促进编码输入的规范化,加强信息安全管理和版权保护,促进“简繁异三体”在使用中统一和简化。
文档编号G06F3/16GK1499357SQ0214747
公开日2004年5月26日 申请日期2002年11月1日 优先权日2002年11月1日
发明者李成跃 申请人:李成跃
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1