多功能汉字笔划字库的制作方法

文档序号:6411981阅读:2504来源:国知局
专利名称:多功能汉字笔划字库的制作方法
目前通用的汉字字库,如GB2312-80的6763个字符采用“区位”排列,1601是“啊”,1602是“阿”,1643是“八”,5027是“一”,7664是“爨”。区位码与所代表的字之间具有单一的对应性,起到交换作用,除了有部分拼音和部首联系外,没有更多的功能,比如排序功能。某种代码具有多种功能是事物科学性的追求,那么6763个字符,还有没有其它的排列方法,使其既具有区位码的单一对应性,同时又能对字符进行笔划、部首和拼音排序,使字库兼有多种文字处理能力。
本发明就是针对以上追求而设计的一种新的多功能汉字笔划字库,它是这样实现的对字库的内容,如现行国家标准GB2312-80字库所包括的6763个字符,按汉字传统的笔划笔顺次序排列,组建成多功能汉字笔划字库(附图
)。0001是,“一”,1000是“吨”,6763是“爨”。
字符排列的方法是笔划少的在前,笔划多的在后。笔划相同时,用笔形相区别。按字的结构,依笔顺顺序分解成单笔笔形。再依某种笔形排序的规定,分出先后。如目前通用的“札”字法,即一、丨、丿、丶、乙五种笔形,按1、2、3、4、5的次序排列。笔顺笔形相同时,加拼音相区别。拼音相同时,求异读异声相区别。仍然相同时,加修正值相区别。务求精确区分,达到“1对1”映射。修正值从字的形、音、义上寻找区别因素,进行复分。应有原则性、灵活性、可比性和操作性并约定俗成。如以字形中不相同的部分加拼音相区分挨+s(提手),埃+t(提土);驿+m(马),绎+s(丝);以字形简繁长短相区分,卩在阝前,矢在失前。多功能汉字笔划字库排列法提高了汉字笔划排序的科学性,加拼音区分出末(M)、示(S)、未(w),取偏旁区分出挨(提手)、埃(提土)、驿(马)、绎(丝),解决了原来笔划笔顺排序中无法区分的“盲区”。另列出字符的部首代码,供部首笔划排序时使用。代码依某种工具书而定,如《辞源》采用250个部首,“丨”在第2位,“口”在第31位,那么“中”字的《辞源》部首代码是002,“国”字是031。
笔划字库码与区位码之间,由于和同一字符都具有单一对应性,也自然形成对应关系因此笔划码与现有机内码之间可以转换,与现有中文信息存取制机兼容,可以作为交换码成为国家标准。如“啊”的区位码是1601,笔划码是3052。“一”的区位码是5027,笔划码是0001。“爨”的区位码是7664,笔划码是6763。字库笔划码同时也是字符排序码。用这种区位对应码,可以直接进行6763个字符内的排序。用原始的字库笔划码做排序数据库,如“啊”的原始笔划码为(030)(《辞源》中“口”部列30位)10(10划)2515212512(笔顺笔形丨、乙、一、乙、丨、一、丨、乙、一、丨)aa(拼音一声),则可以接待6763个字符之外新加字的排序,具有开放性。以原始码或区位对应码作字库排序附属卡或软件同样具有排序功能。
多功能笔划字库的优点是既具有区位码单一对应性,又有字的笔划、笔顺笔形、拼音和部首的内在联系,笔划字库码同时也是字的笔划排序次序码。小的排在前,大的排在后,使笔划字库码直接具有对字符进行笔划、拼音和部首排序的功能。提高了字库的合理性、科学性和完善性,符合汉字传统的排序习惯。在辞书编纂,人名笔划排序、笔划目录、检字表索引编制和文字识别,传输,压缩等领域有应用前景。
以前汉字笔划排序有多种排序规定,如“元享利贞”法(一、丶、丿、丨),“江山千古”法(丶、丨、丿、一), “寒来暑往”法(丶、一、丨、丿),“札”字法(一、丨、丿、丶、乙)等。读者要懂得多种排序规定才能检索使用各种工具书。现在通过多功能笔划字库无形中使笔划排序规定有了统一标准,非常有利于工具书编纂、编目、索引编制和读者检索利用。
多功能笔划字库的组建方法适用于汉字繁体,对使用汉字的外国字库和信息处理具有模式意义。所形成的原始字库笔划码具有兼容性和开放性。字库直接具有字符排序功能。如能被国际通用则促成了世界汉字排序方法和标准的统一,有利于文化和信息交流,是汉文出版界和读者盼望的一件喜事。
权利要求
本发明提出了一种新的组建多功能汉字笔划字库的方法,其特征是1、对字库的内容,如现行国家标准GB2312----80字库所包括的6763个字符,按汉字传统的笔划笔顺次序排列,组建成多功能笔划字库。0001是“一”,6763是“爨”。
2.字符排列的方法是笔划少的在前,笔划多的在后。笔划相同时,用笔形相区别。按字的结构,依笔顺顺序分解成单笔笔形。再依某种笔形排序的规定,分出先后。如目前通用的“札”字法,即一、丨、丿、丶、乙五种笔形,按1、2、3、4、5的次序排列。笔顺笔形相同时,加拼音相区别。拼音相同时,求异读异声相区别。仍然相同时,加修正值相区别。务求精确区分,达到“1对1”映射。
3.修正值从字的形、音、义上寻找区分因素,进行复分。应有原则性、灵活性、可比性和操作性并约定俗成。如以字形中不相同的部分加拼音相区分挨+s(提手),埃+t(提土);驿+m(马),绎+s(丝);以字形简繁长短相区分,卩在阝前,矢在失前。
4.另列出字符的部首代码,供部首笔划排序时使用。代码依某种工具书而定,如《辞源》采用250个部首,“丨”在第2位,“口”在第31位,那么“中”字的《辞源》部首代码是002,“国”字是031。
5.笔划字库码与区位码之间,由于和同一字符都具有单一对应性,也自然形成对应,因此,笔划码与现有机内码之间可以转换,与现有中文信息存取机制兼容,可以作为交换码成为国家标准。如“啊”的区位码是1601,笔划码是3052,“一”的区位码是5027,笔划码是0001。“爨”的区位码是7664,笔划码是6763。用这种区位对应码,可以直接进行6763个字符内的排序。用原始的多功能字库笔划码做字符排序数据库,如“啊”的笔划原始码为(030)(《辞源》中“口”部列30位)10(10划)2515212512(笔顺笔形丨、乙、一、乙、丨、一、丨、乙、一、丨)aa(拼音一声),则可以接待6763个字符之外新加字的排序,具有开放性。以原始码或区位对应码作字库排序附属卡或软件同样具有字符排序功能。
6.多功能笔划字库的优点是既具有区位码的单一对应性,又有字的笔划、笔顺笔形、拼音和部首的内在联系,字库码同时也是字的次序码。小的排在前,大的排在后,使笔划字库码直接具有对字符进行笔划、拼音和部首排序的功能。提高了字库的合理性、科学性、完善性,也符合汉字传统的排序习惯。在辞书编纂,人名笔划排序、笔划目录、检字表、索引编制和中文识别,传输,压缩等领域有应用性前景。
7.以前汉字笔划排序有多种规定,读者要懂得多种排序规定才能检索使用各种工具书。现在通过多功能汉字笔划字库无形中使笔划排序规定有了统一标准,非常有利于工具书编纂、编目、索引编制和读者检索利用。
8.多功能笔划字库的组建方法适用于汉字繁体。对使用汉字的外国字库和信息处理具有模式意义。所形成的原始字库笔划码具有兼容性和开放性,直接具有字符排序功能。如能被国际通用,则促成了世界汉字排序方法和标准的统一,有利于文化和信息交流,是汉文出版界和读者盼望的一件喜事。
全文摘要
本发明设计出一种新的按字符笔划多少排列字库的方法。笔划少的在前,多的在后,笔划相同时按笔顺笔形某种规定顺序排列。笔顺笔形相同时按拼音排列。拼音相同时求异读异声区别。仍然相同时加修正值区别。如“啊”的区位码是1601,笔划码是3052。“一”的区位码是5027,笔划码是0001。“ 爨”的区位码是7664,笔划码是6763。笔划码既有单一对应性,又是字符排序的顺序,字库直接具有字符排序功能,使汉字排序标准统一并有兼容性和开放性。多功能汉字笔划字库的组建方法适用汉字繁体。对使用汉字的外国字库和信息处理具有模式意义。
文档编号G06F3/023GK1200508SQ97109898
公开日1998年12月2日 申请日期1997年5月28日 优先权日1997年5月28日
发明者王仁富 申请人:王仁富
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1