二进制图形码编码方法及其组字规则的制作方法

文档序号:6373500阅读:2437来源:国知局
专利名称:二进制图形码编码方法及其组字规则的制作方法
技术领域
本发明是一种通过图形编码表示计算机区位码,再通过区位码对应不同计算机内码编码方案下的字库来表示汉字、字符及ASCII码的方法。名称是“二进制图形码编码方法及其组字规则”,属于计算机识别应用技术领域。
背景技术
中国专利局公开的CN1151542用墨快数字编码方法及其编码纸,CH1172981可手写的图形编码及其识别方法,CN1256450A七巧仿珠算图形编码,CN1262558A四位图形编码方法,其编码的基础图形虽有所不同,就其本质,都是通过对一个基础图形的变换来表示“0”——“9”间10个确定的十进位数字。一些方法虽构思巧妙,辨识容易,但因不能代表汉字、符号,其更为广泛的应用存在着很大的局限性。目前广为使用的OCR光学字符识别法,是利用字符的图形信息作为字符的“输入代码”,将扫描到计算机中的图形字符,利用人工智能中的图形识别技术进行辨识。这种方法的技术特征决定了它的正确率只能接近但无法达到100%。因此,在需要绝对准确的场所,OCR无法使用。教育部门备份《考生报名信息卡》时采用的OM法,其特征是在10个一行、4行一组的圆圈形方阵中,通过涂色来表示4位数的十进制数码,再通过所代表的区位码来表示某个汉字或符号。其优点是涂写容易、辨识准确。其局限性在于无效图形占位过大(占全部图形的90%),造成纸文件的信息容量过低,浪费较大,只适于少量文字的识别,不适于大量信息的贮存与统计。此外,其字库因容量有限,不能适应发展的需要。因此,该法使用并不广泛。
新发明的目的是 研究创造一种人与机器都能辨识的图形码,这种图形码能够(1)、与现有的主要的计算机汉字字库或标准ASCII码建立一种一一对应的关系;(2)、这种对应关系必须是有规律的;(3)、计算机扫描输入后必须能够100%的准确识别;(4)、通过简单的学习,一般具有中等文化程度的人能够较容易的掌握和识别;(5)、容量上留有余地,能够适应未来二进制计算机内码发展的需要;(6)、它的推广和应用,能够使计算机通过扫描识别代替人工统计纸质票、表、证、卡的工作,为社会节约人力、物力和时间。
技术方案 二进制图形码包含四套方案(四种图形)基本型(米字格)图形码、异型图形码、特例1-田字格图形码、特例2-对角线图形码。
1、基本型(米字格)图形码先用中位线与中线将一个预制的矩形(一般为正四方形)分为“田字格”,将中位线视为坐标系的X轴,中线视为Y轴。再用对角线将“田字格”分为“米字格”,矩形内出现八个相等的直角三角形。将处于第1象限以X轴为边的三角形编为I号,按逆时针方向将其余七个三角形依次编为II、III、IV、V、VI、VII、VIII号。I、II号三角形处于第1象限,III、IV号三角形处于第2象限,V、VI号三角形处于第3象限,VII、VIII号三角形处于第4象限。这个有固定格式、固定编号次序、固定编号位置的“米字格”图形,是绘制全息图形码的基础图形。基础图中的每个小三角形可以通过涂色或不涂色来表示两种不同的情况,若以涂色代表二进位制的“1”,不涂色代表二进位制的“0”,便可以得到2a=256(a=8)幅不同的图形。每幅图形按照从I号三角形起到VIII号三角形止的顺序,依次读出涂色所代表的“1”和不涂色所代表的“0”,就得到256个8位数的二进制数码。其最小数为“00000000”,最大数为“11111111”,换算成十六进制码后,最小数为“00”,最大数为“FF”。
由于计算机中常把8个二进制位(bit)组成一个字节(byte),一个图形码扫描到计算机中,若只区分每个区域是否涂墨的话,就只占一个字节。在标准ASCII码中,一个字符占一个字节。因此,一个图形码可代表ASCII码的一个字符。如大写字母A的标准ASCII码为A(1000001)(最高位空缺,视为“0”),查《表一》可知,附图中“图66”的二进制码读数为(01000001),所以,图形码“图66”就代表大写字母“A”。
由于包括国家标准区位码(GB码)、台湾地区通行的大五码(BIG5)在内的大多数汉字内码编码方案,采用的是双字节。因此,两个图形码排列在一起,前面的表示区码,后面的表示位码,就可以和区位码汉字字库一一对应,从而代表一个汉字字符。
为使计算机识别,按照国际上通行的内码分配原则,前128个二进制数的首位数为“0”的图形码代表标准ASCII码(十六进制数为“00”-“7F”,见图1-图128),这些图形码不能作为汉字的区码,在组成汉字时不能排列在第一位。后128个二进制数的首位数为“1”的图形码代表GB码或BIG5码的区码(十六进制数为“80”-“FF”,见图129-图256),位码则根据各编码方案的原则确定。为便于查阅,将各图形码的图形编号、特征(涂色三角形集合、二进制读数)及代表的区位码编成《二进制图形码图形含义表》(表一)。将代表ASCII码的前128个图形码另编《二进制图形码(或特例组合)与ASCII码对应关系表》(表三),反映其代表的ASCII码。
2、异型图形码 在“田字格”图形中,将矩形的各相邻两边的中点连线,并将矩形内出现的八个相等的直角三角形按一定规律依次编号,形成“米字格”图形的异形图。其图形虽与“米字格”图形有所差异,但因其包含的元素个数与“米字格”图形一致,各图形码的二进制、十六进制码与对应的“米字格”图形码相同,因此组字规律相同。
3、特例1-“田字格”图形码将“米字格”图形内处于同一象限的两个三角形俩俩合并,得到四个小矩形。将得到的图形按所处象限依次编号,形成“米字格”图形的特例—“田字格”图形。“田字格”有2a=16(a=4)幅图。从I号元素起,到IV号元素止,按顺序将涂色与不涂色所代表的二进制数依次读出,得到从“0000”到“1111”的16个二进制数。按照二进制与十六进制的换算关系,转化为“0”-“F”16个十六进制码,这就是“田字格”图形码。一个图形码有四个元素,两个图形码组成一个字节,代表一个ASCII码;四个图形码组成两个字节,代表一个汉字字符。具体方法是代表ASCII码时,排在前面的图形码构成二进制码的前四位数,排在后面的构成后四位数。代表GB码或BIG5码时,处于第一、第二位的两个图形码组成区码,第三、第四位的组成位码。其余规则与基本形图形码规则相同。田字格图形码所代表的十六进制数码见表二《二进制图形码(特例)图形含义表》,组合后代表的ASCII码见表三《二进制图形码(或特例组合)与ASCII码对应关系表》。
4、特例2-对角线图形码 将“米字格”图形内处于X轴、Y轴两侧的两个三角形俩俩合并,并按逆时针方向将四个三角形依次编号,形成特例2-对角线图形。对角线图形除图形形状与“田字格”不同外,其包含的元素个数与“田字格”图形码一致,各图形码的二进制、十六进制码与对应的“田字格”图形码相同,因此组字规律相同。
下面结合实例,对二进制图形码的编码方法及组字规则作进一步说明。
1、在汉字编码方案采用GB码的情况下,“网址3W.”几个字、符,用基本型图形码表示如下第一步查GB码字表并将区位码转化成二进制码汉字“网” 区码CD(11001101) 位码F8(11111000)汉字“址” 区码D6(11010110) 位码B7(10110111)阿拉伯数字“3” 区码A3(10100011) 位码B3(10110011)大写拉丁语字母“W” 区码A3(10100011) 位码D7(11010111)符号“.”区码A3(10100011) 位码AE(10101110)第二步在两个一组的基础图形中,将“网”的区码CD(11001101)填入第一个图形,位码F8(11111000)填入第二个图形。方法是将不同位置的“1”所对应的三角形涂色(墨)。在区码CD(11001101)中,“1”处于1、2、5、6、8位,其对应的三角形为I、II、V、VI、VIII号。在位码F8(11111000)中,“1”处于1、2、3、4、5位,其对应的三角形为I、II、III、IV、V号。其余的依此类推,用图形码表示如附图35页“图545”。
2、在汉字编码方案采用BIG5码时,字库各字的区位码与GB码虽有差异,但用二进制图形码同样能够表示。如“册”字,GB码的编码为“B2 E1”,BIG5码的编码为“A5 55”,查《表一》可知,代表B2、E1的图形码是“图179、图226”,代表A5、55的图形码是“图166、图86”。因此,按区位码的顺序将图形码“图179、图226”排列在一起代表的是GB码的“册”字,将“图166、图86”排列在一起代表的是BIG5码的“册”字。
3、用田字格或对角线图形码表示时,区码或位码各有两个图形码构成,且与排列位置有关。如“网址”二字,用田字格图形码表示如下第一步查GB码字表并将二进制码每四位分为一组“网”区码CD(1100 1101) 位码F8(1111 1000)“址”区码D6(1101 0110) 位码B7(1011 0111)第二步将每组二进制码按排列顺序依次填入4个一组的田字格基础图中,便得到用田字格图形码表示的“网址”。见图548(附图36页)4、用基本型图形码表示英文“China”第一步查各英文字母(区分大小写)的ASCII码C(1000011) h(1101000) i(1101001) n(1101110) a(1100001)第二步将七位数的二进制码首位添“0”补足8位后,依次填入对应的三角区。如“C”的ASCII码补足8位后为C(01000011),“h”为h(01101000)。需涂墨的三角形区域“C”为II、VII、VIII号,“h”为II、III、V号。其余各字母方法相同。用图形码表示见图547(附图35页)


1、附图第1-16页“图1-图256”为基本型(米字格)图形码全部图形。附图35页“图545”为基本型(米字格)图形码基础图形及其表示的字符“网址3w.”2、附图第17-32页“图257-图512”为异型图形码全部图形。附图35页“图546”为异型图形码基础图形及其表示的汉字“网址”。异型图形码中,有部分图与基本型图形基本相同,如图257与图1、图260与图4、图272与图16等,由于其基础图形不同,故作为不同的图形分别收录。
3、附图33页“图513-图528”为特例1-“田字格”图形码全部图形。附图36页“图548”为田字格图形码基础图形及其表示的汉字“网址”。
4、附图34页“图529-图544”为特例2-“对角线”图形码全部图形。附图36页“图549”为对角线图形码基础图形及其表示的汉字“网址”。
5、附图35页“图547”为用基本型图形码表示的英文“China”。
具体实施例方式
1、各种选举选票的设计加入此码后,能使计算机代替人工,做到迅速、公正、准确的统计,节约人力、物力和时间。
2、必须需要纸质文件的调查表、统计表、报名表、简历等,以此码辅助填制后,能迅速汇入计算机,节约统计汇总时间。
3、身份证、机票、车票上的地址、姓名、号码、站名, 以此码辅助表示,扫描后能够准确识别与统计。加密处理后还可以防伪。
4、尚无条码化的商品、物资的仓储、调配管理。
5、其他各种需要汇总或储存的纸质文件。
6、二进制图形码是数字化的文字,它为汉字的加密、防伪提供了一条渠道。
7、用于教学可开发学生智力,加深学生对计算机的理解。
总之,二进制图形码规律性强、适应范围广、各图形码与通行的计算机内码具有一一对应的关系,组字规则简单、科学,因此具有较强的生命力。其符号的含义简单明了,易学易懂,容易掌握,计算机扫描后不需进行内码转换就可直接识别,技术要求简单,结果可靠。
表一二进制图形码图形含义表






表二二进制图形码(特例)图形含义表

表三二进制图形码(或特例组合)与ASCII码对应关系表



权利要求
1.一种以图形编码表示区位码,通过区位码对应不同计算机内码编码方案下的字库来表示汉字、字符及ASCII码的方法。名称是“二进制图形码编码方法及其组字规则”,其特征是用中位线、中线、对角线将预制的矩形分为“米字格”,将得到的8个三角形依次编号,按顺序依次读出I至VIII号三角形涂墨所代表的“1”和不涂墨所代表的“0”,得到256个从“00000000”-“11111111”的8位数二进制图形码或“00”-“FF”的十六进制图形码。二进制数首位为“0”的128个图形码按照其二进制读数单个代表标准ASCII码中的一个字符。若两个图形码排列在一起,且排列在前的图形码的二进制的首位数为“1”,则这两个图形码代表一个汉字字符。排列在前的图形码代表区码,共有128个。排列在后的图形码代表位码,它是按照不同的汉字内码编码方案的原则确定的。通过区位码与汉字内码的对应关系,用图形码来表示不同的汉字内码编码方案(如GB码或BIG5码)中的字符。
2.根据权利要求1所述,将“米字格”矩形中的对角线变为相邻两边中点的连线后,得到8个三角形,用涂墨表示“1”,不图墨表示“0”,得到256个代表“00000000”-“11111111”的二进制数或“00”-“FF”的十六进制数的图形码,并将得到的图形码与区位码对应后表示字符。
3.根据权利要求1、2所述,将“米字格”图形中相邻的三角形俩俩合并后,得到具有四个小矩形的“田字格”图形或四个三角形的“对角线”图形,将其按照一定次序编号后用涂墨法分别表示16个“0000”-“1111”的二进制码或“0”-“F”的十六进制码。并将其中的两个图形码排列代表ASCII码,四个图形码排列对应汉字区位码以表示字符。
4.根据权利要求1、2、3所述,用二进制图形码表示如日本语、韩国语等能够用二进制或十六进制区位码表示的文字。
5.根据权利要求1、2、3所述,用途墨显示的方法,即黑白两色的显示,同样可用任何两种色差分明的色彩加以显示。
全文摘要
一种以图形编码表示区位码,通过区位码对应不同内码编码方案下的字库来表示汉字、字符及ASCII码的方法。名称是“二进制图形码编码方法及其组字规则”,属于计算机识别应用技术领域。他是将“米字格”矩形的8个三角形依次编号,按顺序读出I至VIII号各三角形涂墨所代表的“1”和不涂墨所代表的“0”,得到256个8位数二进制码。首位数为“0”的前128个图形码代表标准ASCII码,汉字须两个图形码排列在一起表示,首位数为“1”的后128个图形码代表汉字区码,位码按照GB码或BIG5码等对应方案的原则确定,通过与汉字内码建立的对应关系来表示汉字字符。该方法严格遵循规律,机读准确率可达100%,与国际标准接轨。可广泛用于各类纸质票、表、证、卡的机读识别。
文档编号G06F3/023GK1472627SQ03149560
公开日2004年2月4日 申请日期2003年7月17日 优先权日2003年7月17日
发明者王玉宏 申请人:王玉宏
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1