利用部件自动生成汉字字库的实现方法

文档序号:6624557阅读:370来源:国知局
利用部件自动生成汉字字库的实现方法
【专利摘要】本发明公开了一种利用部件自动生成汉字字库的实现方法,包括以下步骤:第一步:建立结构库;第二步:建立声旁库;第三步:建立形旁库;第四步:自动生成汉字字库,本发明的有益效果如下:通过建立结构库、声旁库和形旁库,在需要生成不同字体的汉字字库时,只需根据该种字体的结构变量调整结构库、声旁库以及形旁库的变量,并形成汉字编码,即可实现汉字字库的自动生成,最后利用计算机软件将所生成的对应字体的汉字打包形成字库,大大提高制作效率,降低字库生成成本。
【专利说明】利用部件自动生成汉字字库的实现方法

【技术领域】
[0001]本发明涉及一种字库的自动实现方法,尤其是一种利用部件自动生成汉字字库的实现方法。

【背景技术】
[0002]现在,汉字字库广泛地应用到我们的日常生活和工作之中,改善了很多工作、交流的方式和不同媒介传播信息的渠道。虽然很多人都在天天接触和使用它,但对它复杂的制作工艺、居高的生产成本却鲜为人知。
[0003]汉字字库产生于上个世纪80年代末至90年代初,这是在中国文化传播的一场伟大革命。这一新技术逐渐应用到电脑和激光照排机之中,从而替代了传统的铅字排版和照相制版,极大地提高了工作效率,也具有极其深远的社会意义。
[0004]随着时代的变迁,计算机、平板电脑和智能手机等现代化的办公设备以及通讯工具开始为我们的日常办公、网上冲浪、文字聊天等提供了一个很好的平台,这一技术的发展方便了我们的同时每个人提笔写字的机会越来越少,电脑字库使我们逐渐远离了手写。这一变化当下的每个人都有切身体会,导致大多数人在现实生活之中提笔忘字,更看不到身边评论某人字写的如何的机会。虽然这一现象值得深思和担忧,但时代的发展和大势所趋,是很难改变眼前现状的。
[0005]汉字字库是基于书法审美基础之上进行再设计的汉字,以书法为根基但又有很大不同,是无数标准模数方块字的集合。无论每个字的笔画多少,都是等大面积的无限分割。用电脑输出的汉字等大、整齐、匀称,正是这一与手写体相比缺少个性的特点大大增加了其易读性。由于汉字的造字规律和自身特点使汉字字库开发的字数多、工作量大而且难度极高,所以开发成本也一直居高不下。一套成熟的汉字字体前期的设计制作一般需要几个人协作两三年,测试也需要一两年,加起来要四五年的时间。另外,我国在知识产权保护方面的相关法规的不完善和大众的法律意识淡薄导致了字体盗版的泛滥,更影响了汉字字体的收益空间,造成了投入高、风险大、数量少(相对于使用汉字的日本我国的汉字字体的数量大概是其的四分之一)的尴尬局面。目前我国所使用的汉字字库以正文字体的宋、仿、黑、楷最为典型,大部分脱胎于之前的铅字稿或短时期的“快销品”,甚至有些产品是二十多年前开发的也不少见,而且我国字库字体的数量相对使用汉字的日本也十分匮乏。
[0006]目前,根据不同字体建立不同风格的汉字字库虽然已经借助于自动化设备实现,但是,由于在字库生成过程中,需要团队协作,无论使用的是何种软件都会存在很多问题,其中尤为突出的就是每个人对字的感觉不同,在控制字的中宫、字面的大小、声形旁的比例、笔画的粗细和弧度等都会有很大的差异。这种情况是汉字字库尤为难解决的问题,后期要花费很大的精力和成本来处理这一问题。现在,汉字字库的制作工艺虽然比传统字库的做法效率提高了很多,但每款字体还是需要一至几年和几十万甚至上百万人民币不等的成本。


【发明内容】

[0007]本发明要解决的技术问题是提供一种利用部件自动生成汉字字库的实现方法,通过建立结构库、声旁库和形旁库,并进行统一编码,在需要根据不同字体建立汉字字库时,只需根据该种字体的结构变量对结构库以及声旁和形旁进行参数调整即可,实现字库的自动生成,大大降低成本。
[0008]为解决上述技术问题,本发明所采取的技术方案是:一种利用部件自动生成汉字字库的实现方法,包括以下步骤:
[0009]第一步:建立结构库,首先构建制作字库所需的矢量字库,并为每个汉字进行编码,然后为矢量字库中的每个汉字规定笔画位置和中宫可控制大小的结构形式,所有矢量字库中的汉字对应的所有结构形式构成结构库;
[0010]第二步:建立声旁库,将矢量字库中每个汉字的声旁依据控制变量按照渐变的方式形成16X16的声旁矩阵,声旁矩阵的行和列分别赋予o-f的编码,形成声旁库;
[0011]第三步:建立形旁库,除独体字外,将左右结构、上下结构、半包围结构和全包围结构的汉字按照形旁分类形成形旁库;
[0012]第四步:自动生成汉字字库,将汉字在矢量字库中的编码、声旁库的编码和形旁库的编码组成汉字编码,该编码的形式为“矢量字库编码-形旁库编码+声旁库编码”,最后根据结构库生成汉字字库。
[0013]在步骤二中,所述的控制变量为声旁的高矮和宽窄,声旁矩阵从左至右为最宽至最窄,从上到下为最高至最窄,从上到下和从左到右均为逐渐变化,矢量字库中的所有汉字的声旁的声旁矩阵构成声旁库。
[0014]第三步所述的形旁库分类方法包括将出现在左右结构的汉字中的形旁从左至右依据最宽到最窄的规律依次形成8种结构,并将8种结构从0-7依次编码,将出现在上下结构的汉字中的形旁从上至下依据最高到最矮的规律依次形成8种结构,并将该8种结构从0-7依次编码,将出现在全包围结构和半包围结构的汉字中的形旁依据最宽至最窄和最高至最矮两种变化方式形成4X4种结构形式,并将所形成的4X4的矩阵从左至右和从上至下依次赋予0-3的编码,所有形旁在不同结构的汉字中出现的形式编码构成形旁库
[0015]所述结构库中的笔画位置和中宫大小根据不同字体进行调整,从而生成不同字体的汉字字库。
[0016]本发明的有益效果如下:通过建立结构库、声旁库和形旁库,在需要生成不同字体的汉字字库时,只需根据该种字体的结构变量调整结构库、声旁库以及形旁库的变量,并形成汉字编码,即可实现汉字字库的自动生成,最后利用计算机软件将所生成的对应字体的汉字打包形成字库,大大提高制作效率,降低字库生成成本。

【专利附图】

【附图说明】
[0017]图1是实施例中声旁矩阵示意图。

【具体实施方式】
[0018]下面结合附图和【具体实施方式】对本发明作进一步详细的说明。
[0019]综上所述,由于汉字字库的制作由于汉字数量庞大,结构复杂,所以难度也相对很高,除了字体相关知识,工艺一直是难突破的一个关口,经过仔细分析、统计、类比和试验后发现汉字的各个部件之中存在着一个模糊的规律,部件是指汉字的声旁或者形旁,即同一部件在不同的字中可以按阶梯由大到小逐次递减来适合每个汉字的需求,梳理好所需的形旁,然后根据最大部件法的声旁表梳理出各个方向的声旁关键字,利用上述方法经过大量的尝试之后,制作出需要的形旁库和声旁库,给每个部件一个代码,在软件中先构建好系统字库每个字的相对可调整中宫大小的最佳结构,根据每个字所需部件从相应的形旁库和声旁库中提取,每个字根据使用的部件相应的会有一个代码,和Unicode结合编成新的编码,再设计新的字库时就可以在软件中根据这个编码快速、便捷地自动生成,这就是利用模糊概率快速批量生成汉字的方法,在拼好字的基础之上软件自动打包成所需的汉字字库。
[0020]具体方案包括以下步骤:
[0021]第一步:建立结构库,首先构建制作字库所需的矢量字库,并为每个汉字进行编码,然后为矢量字库中的每个汉字规定笔画位置和中宫可控制大小的结构形式,所有矢量字库中的汉字对应的所有结构形式构成结构库;
[0022]第二步:建立声旁库,将矢量字库中每个汉字的声旁依据控制变量按照渐变的方式形成16X16的声旁矩阵,声旁矩阵的行和列分别赋予O-f的编码,所述的控制变量为声旁的高矮和宽窄,声旁矩阵从左至右为最宽至最窄,从上到下为最高至最窄,从上到下和从左到右均为逐渐变化,矢量字库中的所有汉字的声旁的声旁矩阵构成声旁库;
[0023]第三步:建立形旁库,除独体字外,将出现在左右结构的汉字中的形旁从左至右依据最宽到最窄的规律依次形成8种结构,并将8种结构从0-7依次编码,将出现在上下结构的汉字中的形旁从上至下依据最高到最矮的规律依次形成8种结构,并将该8种结构从0-7依次编码,将出现在全包围结构和半包围结构的汉字中的形旁依据最宽至最窄和最高至最矮两种变化方式形成4X4种结构形式,并将所形成的4X4的矩阵从左至右和从上至下依次赋予0-3的编码,所有形旁在不同结构的汉字中出现的形式编码构成形旁库;
[0024]第四步:自动生成汉字字库,将汉字在矢量字库中的编码、声旁库的编码和形旁库的编码组成汉字编码,该编码的形式为“矢量字库编码-形旁库编码+声旁库编码”,最后根据结构库生成汉字字库,所述结构库中的笔画位置和中宫大小根据不同字体进行调整,从而生成不同字体的汉字字库。
[0025]本发明以GB18030为例,GB18030字库共有27533个汉字,其中约3%独体字、80%左右结构、10%上下结构、7%包围结构。汉字的特点以复合字居多,形旁和声旁的组合形式是多种多样的,粗分一下,大概有11种类型:
[0026]左形右声——你、语、冷、构、理
[0027]左声右形——胡、欺、雌、副、领
[0028]上形下声一字、花、露、筒、楚
[0029]上声下形一愚、禁、斧、袋、肓
[0030]外形内声(全包孕)——圃
[0031]左上形右下声-厅、廊、病、房
[0032]左下形右上声一逢、廷
[0033]左下声右上形——匍、匐
[0034]上半包-闷、周、同
[0035]下半包-函
[0036]左半包——匡
[0037]汉字中除了独体字之外,其余都是复合字,大约占到整个汉字的97%左右。虽然复合字的各个部件大小不一,但在其中有一条模糊的规律可以借鉴,用华文宋体作为样本,其中木字旁的字共有970个,进行大量试验后,用“林”和“懈”两个最大和最小两个极端的木字旁渐变生成8个由宽到窄的木字旁,可以满足970个木子旁的字;声旁字“古字旁”有32个,8个由大到小逐渐渐变的就可以满足所有声旁字的使用,将形旁和声旁各分成8个级另IJ,在不调整宽度的情况下可以拼出几乎所有的字,这个方法就可以通过约束形旁和声旁根据不同字所占比例的变量很轻松地将字拼出来,同样的方法可以用到上下结构之中,通过适当的调整以后也可以用到包围结构和半包围结构上来,有很大的发挥空间。
[0038]以声旁表中的“古“字为例,找出独体字“古”(最大古)、左右结构的“酤”(最窄古)、上下结构的“罟”(最矮古)、包围结构的“固”(最小古)四个极点的“古”字声旁,将其分布于以o-f为坐标的矩阵四个角,渐变生成古字声旁库(参见附图1);以0-7为代码由大到小两个极点生成所有左右、上下结构的形旁;以内部空间最大、最小、最高、最矮四个极点将其分布于0-3为为坐标的矩阵四个角生成包围结构的形旁,将和“古”字相关的各个形旁放于声旁矩阵的不同功能区,可以快速拼出所有和“古”字相关的字,通过实践证明,这一用模糊概率快速生成汉字的方法可以大大提高拼字的效率,二是避免了不同人拼字对粗细、大小、宽窄、弧度、角度、字形把握的不一致的问题。
[0039]总之,本发明通过建立结构库、声旁库和形旁库,在需要生成不同字体的汉字字库时,只需根据该种字体的结构变量调整结构库、声旁库以及形旁库的变量,并形成汉字编码,即可实现汉字字库的自动生成,最后利用计算机软件将所生成的对应字体的汉字打包形成字库,大大提高制作效率,降低字库生成成本。
【权利要求】
1.一种利用部件自动生成汉字字库的实现方法,其特征在于:包括以下步骤: 第一步:建立结构库,首先构建制作字库所需的矢量字库,并为每个汉字进行编码,然后为矢量字库中的每个汉字规定笔画位置和中宫可控制大小的结构形式,所有矢量字库中的汉字对应的所有结构形式构成结构库; 第二步:建立声旁库,将矢量字库中每个汉字的声旁依据控制变量按照渐变的方式形成16X16的声旁矩阵,声旁矩阵的行和列分别赋予o-f的编码,形成声旁库; 第三步:建立形旁库,除独体字外,将左右结构、上下结构、半包围结构和全包围结构的汉字按照形旁分类形成形旁库; 第四步:自动生成汉字字库,将汉字在矢量字库中的编码、声旁库的编码和形旁库的编码组成汉字编码,该编码的形式为“矢量字库编码-形旁库编码+声旁库编码”,最后根据结构库生成汉字字库。
2.根据权利要求1所述的利用部件自动生成汉字字库的实现方法,其特征在于:在步骤二中,所述的控制变量为声旁的高矮和宽窄,声旁矩阵从左至右为最宽至最窄,从上到下为最高至最窄,从上到下和从左到右均为逐渐变化,矢量字库中的所有汉字的声旁的声旁矩阵构成声旁库。
3.根据权利要求2所述的利用部件自动生成汉字字库的实现方法,其特征在于:第三步所述的形旁库分类方法包括将出现在左右结构的汉字中的形旁从左至右依据最宽到最窄的规律依次形成8种结构,并将8种结构从0-7依次编码,将出现在上下结构的汉字中的形旁从上至下依据最高到最矮的规律依次形成8种结构,并将该8种结构从0-7依次编码,将出现在全包围结构和半包围结构的汉字中的形旁依据最宽至最窄和最高至最矮两种变化方式形成4X4种结构形式,并将所形成的4X4的矩阵从左至右和从上至下依次赋予0-3的编码,所有形旁在不同结构的汉字中出现的形式编码构成形旁库。
4.根据权利要求3所述的利用部件自动生成汉字字库的实现方法,其特征在于:所述结构库中的笔画位置和中宫大小根据不同字体进行调整,从而生成不同字体的汉字字库。
【文档编号】G06F17/30GK104182520SQ201410421562
【公开日】2014年12月3日 申请日期:2014年8月26日 优先权日:2014年8月26日
【发明者】严永亮 申请人:严永亮
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1