计算机纯文本字符的提取方法

文档序号:6552645阅读:313来源:国知局
专利名称:计算机纯文本字符的提取方法
技术领域
本发明涉及计算机纯文本字符的提取方法,尤其涉及对使用计算机编辑并 印制纸文件的电子文件的计算机纯文本字符的提取方法。
技术背景随着计算机技术的普及使用,人们在大量使用各种格式的电子文件表示思 想、意思,同时,也在使用计算机控制下的各种数码印刷机械(如打印机)同 时把这些不同格式的电子文件印制成纸文件,以便保存于交流。例如,2个企业在签署一份经济合同时,首先在计算机里起草一份具有文字内容的电子文件,双方同意后,再使用数码印刷机械(如激光打印机)把 这份合同印制到纸张上,双方分别在纸张文件上盖章签字,作为有效信用文件。人们在相互的思想和意思表示中,需要证明自己的意思表示的真实性,例 如,上述合同的盖章签字。在信息时代,大量使用的计算机电子文件也需要进行真实性验证,从上世 纪九十年代中期开始,国际范围内普遍使用散列函数与非对称密钥体系构成的 数字签名技术对计算机电子文件进行真实性验证,为此,各国先后颁布了涉及到对电子文件进行数字签名认证的法律,2005年,我国《电子签名法》发布实 施,推动了数字签名技术在电子文件真实性验证中的应用。电子文件是人们思想和意思的计算机表示方式,由于电子文件具有容易灭失的特点,例如计算机病毒破坏,计算机数据存储介质的质量差、寿命短, 人为损坏等等不可预见的因素,都容易造成计算机电子文件的灭失,因此,在 很多情况下,需要依靠纸质文件记载同一个思想和意思的表示。
计算机电子文件与使用计算机控制的数码印刷机械印制的纸质文件,都使 用人类几千年形成的语言文字符号供人们阅读。计算机使用代码表示这些语言文字符号,如计算机中使用的十进制ASCII字符代码,十六进制的Unicode字符代码,十六进制的国标简体中文字符代 码。数字签名技术对一份电子文件的真实性认证,只是对组成这份电子文件的 一系列计算机字符代码集合的认证。如"(1)我是中国人"是由7个字符, 即、"半角空格"、"我是中国人"5个汉字组成,认证时,计算机只要把代表这些字符的计算机代码集合即可,即是带括号字母数字代码"A2C5","半角空格"代码"0020","我"代码"CED2","是"代码 "CAC7","中"代码"D6D0","国"代码"B9FA","人"代码"C8CB", 集合为"A2C50020CED2CAC7D6D0B9FAC8CB"的16进制数组。由于计算机技术是从英文国家向多语言文字的国家发展的,在计算机字符 集,就有许多一个意义的视觉字符有多个区位码表示的现象,例如英文字母 数字有半角与全角两种输入和表示方式,相对应的,也就有2个区位码对应一 个意义的字母数字;同时,为方便计算机输入、提高文字符号录入速度,在字 符输入法设计中,也有把多个符号集合为l个符号的处理方法。 检索国标简体中文字符集,有以下几类容易混淆的字符代码 如"."的全角字母数字代码是"A3AE",而"."半角字母数字代码 是"002E"。如"3."是"A2B3" —个代码表示的字符,而"3."是由"0033"代 码表示的"3"与"002E"代码表示的"."2个字符组成的。如"(1)我是中国人"这句话中的是一个代码"A2C5"表示;而 "(l)"则可以由3个半角字符"("、"1"、")"的代码"0028 0031 0029" 再如 一份文件中有许多空格,而在计算机字符集中,空格有"半角空格"与"全角空格"2种形式,分别由代码"0020" 、 "A1A1"表示。在计算机电子文件中,使用区位码可以很容易地区分这些字符;但是,当这些字符通过计算机控制的数码印刷机械印制到纸张上以后,如同在本文件中 所表现的,根据字符的视觉形态,是无法辨认其计算机代码表示方法的。同样, 在一份打印好的纸张文件上,也不能判断出究竟有多少计算机空格字符,这些 空格字符中有几个全角空格,几个半角空格,我们也无法辨别。"(1)我是中国人"这句话印制在纸张上,如果我们想通过计算机数字 签名技术认证纸张上的这句话的真实性,则需要把这句话的字符代码再输入到计算机中,使用散列函数中运算;由于这句话中的的计算机字符表示方 法有2种,组成的代码集合也就有不同的2组一组是"A2C5 0020 CED2 CAC7 D6D0 B9FA C8CB" , 7个代码;另一组"0028 0031 0029 0020 CED2 CAC7 D6D0 B9FA C8CB,, , 9个代码;而不同的代码集合数据在散列函数中的运算结果是完全不同的。这种字符的多种表示方式干扰和阻碍了对电子文件印制在纸张上的文字 内容的真实性认证。由于计算机技术的历史发展影响,造成了计算机信息处理中的这种混杂的 字符代码表示方法,使数字签名技术很难、甚至无法对纸张文件记载的文字内 容进行真实性认证,从而使电子文件的认证与使用该电子文件打印的纸张文件 的认证完全脱节,形成了目前普遍存在的纸张文件内容认证困难问题, 一旦出 现了变造与伪造的假信用文件,只能使用常规的理化检验方法,而不能使用数 字化的计算机数字签名技术对纸张文件内容进行真实性认证。这是伴随计算机字符表示方式与数字签名安全认证技术而出现的世界性 问题。
如何把计算机电子文件真实性认证的数字签名技术也同样应用到计算机 打印的纸张文件的真实性认证上面?使人们的一个意思表示下的电子文件与 纸张文件的2种文件形态统一在一个数字签名技术体系认证中,从而使现代计算机信息表现形式与人类传统信用表示形式具有同样的安全认证技术保证,为 形成有序的社会政治、经济秩序提供文件真实性认证的技术支持,这是需要解 决的文件安全认证的世界性问题。 发明内容为解决上述问题与技术缺陷,本发明提供计算机纯文本字符的提取方法, 通过字符过滤处理方法,在提取计算机电子文件的纯文本字符时,将计算机字 符中的多种代码表示方式归于一种代码表示方式,以过滤后的纯文本字符为数 字签名的数据源,并在纸张文件中记录数字签名的数据,提高纸张文件文字内 容再输入的容错性,在不改变人们使用计算机的已有习惯与己经形成的国际化 字符标准的基础上,有效地对计算机编辑和打印的纸介质文件所记载的文字内 容进行数字签名的真实性验证。本发明是通过以下技术方案实现的提取计算机电子文件中纯文本字符时,使用计算机字符代码对原电子文件 中的纯文本字符中表示一个意义的视觉字符的多个区位码进行一致性过滤替 换,使提取后的文件纯文本字符中每一个表示一个意义的视觉字符只有一个区 位码或一种计算机字符输入方式。在计算机字符集,使用全角与半角2种字符代码表示一个意义的视觉字 符,全部使用半角字符代码表示。在计算机字符集,使用全角与半角2种字符代码表示一个意义的视觉字符,全部使用全角字符代码表示。把两个以上多个视觉字符集合在一起使用一个代码表示一个意义的视觉 字符,分拆为两个以上多个视觉字符,并分别使用其字符代码表示。
全部删除电子文件中的代码为0020的半角空格字符与代码A1A1的全角空 格字符。
具体实施方式
本发明涉及计算机纯文本字符的提取方法,下面详细说明本发明是如何实现的按照本发明技术方案建立字符过滤对应表。 纸张文件印制的技术实施步骤第一步按照本发明申请文件的字符过滤方法,对计算机字符集的全部字符进行分析筛选,建立一份字符过滤对应表。 第二步取得一份电子文件时,提取电子文件中的全部纯文本字符。 第三步计算机自动检索字符代码,按照字符过滤对应表对字符进行一致性过滤,形成新的纯文本字符。 第四步以新的纯文本字符为数据源,输入散列函数(例如SHA-1专用散列函数)运算得出散列值。 第五步使用RSA密钥体系的数字证书对散列值进行数字签名,得出数字签名值。第六步在需要印制的纸张文件上的选定区域记录散列值和数字签名值,例如记录在印章上面。 第七步按照电子文件中的原始文本字符与格式印制纸张文件。 以上方法印制的纸张文件的真实性验证步骤前提对应纸张文件的电子文件已经灭失,只有一份纸张文件,不能与电 子文件一起进行匹配性验证。第一步录入人员以纯文本方式按照自己的录入习惯在计算机中重新输入 纸张文件中的全部字符。 第二步计算机自动检索字符代码,按照字符过滤对应表对字符进行一致性过滤,形成新的纯文本字符。 第三步提取记载在该纸张文件中的散列值与数字签名值。 第四步使用同一散列函数运算形成新的纯文本字符,得出散列值。 第五步比较纸张文件上记载的散列值与新运算得出的散列值, 一致则文件内容没有改动。第六步使用原数字证书用户的公钥对数字签名值解密,得出的数值应当 是印制纸张文件时第四步的散列值,对比真实性验证中第三步与 第四步的2组散列值, 一致的为真,不一致的为假。 本发明的优点是规范了计算机在不同人员、多次录入时可能发生的字符代 码不一致的问题,使纸张文件可以在字符一致性的基础上使用数字签名技术进 行真实性验证。以上所述,仅为本发明较佳的具体实施方式
,但本发明的保护范围并不局 限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易 想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护 范围应该以权利要求的保护范围为准。
权利要求
1、 计算机纯文本字符的提取方法,其特征在于,提取计算机电子文件中 纯文本字符时,使用计算机字符代码对原电子文件中的纯文本字符中表示一个 意义的视觉字符的多个区位码进行一致性过滤替换,使提取后的文件纯文本字 符中每一个表示一个意义的视觉字符只有一个区位码或一种计算机字符输入 方式。
2、 根据权利要求1所述的计算机纯文本字符的提取方法,其特征在于, 在计算机字符集,使用全角与半角2种字符代码表示一个意义的视觉字符,全 部使用半角字符代码表示。
3、 根据权利要求1所述的计算机纯文本字符的提取方法,其特征在于, 在计算机字符集,使用全角与半角2种字符代码表示一个意义的视觉字符,全 部使用全角字符代码表示。
4、 根据权利要求1所述的计算机纯文本字符的提取方法,其特征在于, 把两个以上多个视觉字符集合在一起使用一个代码表示一个意义的视觉字符, 分拆为两个以上多个视觉字符,并分别使用其字符代码表示。
5、 根据权利要求1所述的计算机纯文本字符的提取方法,其特征在于,符。
全文摘要
本发明公开了计算机纯文本字符的提取方法,其特征在于,提取计算机电子文件中纯文本字符时,使用计算机字符代码对原电子文件中的纯文本字符中表示一个意义的视觉字符的多个区位码进行一致性过滤替换,使提取后的文件纯文本字符中每一个表示一个意义的视觉字符只有一个区位码或一种计算机字符输入方式。
文档编号G06F17/22GK101122897SQ20071012222
公开日2008年2月13日 申请日期2007年9月24日 优先权日2007年9月24日
发明者吴建明 申请人:吴建明
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1