基于基因字的文档处理方法及装置的制作方法

文档序号:6440120阅读:169来源:国知局
专利名称:基于基因字的文档处理方法及装置的制作方法
技术领域
本发明涉及文档处理领域,具体而言,涉及一种基于基因字的文档处理方法及装置。
背景技术
电子公文或文档的交换技术是一种通过计算机信息网络,在不同单位之间传递电子公文的技术。随着信息技术尤其是互联网络技术的发展,各个单位或单位内部的各个部门都可以通过局域网或万维网互相联结。同时,各单位或部门也普遍采用计算机文字编辑软件起草公文或文档。电子公文或文档交换技术就是以此为基础,通过规范电子公文格式, 统一传递流程和记录,提供网上安全传输手段的一种技术和系统,使公文就能够以电子形式,从发布单位通过网络快速地传递到接收单位,不再需要专人在各个单位之间进行投递, 从而,减轻工作量,提高工作效率。随着信息技术的不断发展,公文或文档交换特别是电子公文或文档交换日益频繁,无论是在党政机关管理国家事务的过程中,还是企事业单位的日常行政管理中,公文或文档是传递重要信息、贯彻上级精神的重要载体。因此,加强对公文或文档特别是电子公文或文档的管理,使电子公文或文档具有一定的保密性和防伪性就显得尤为重要,而对于某些特殊机关部门的特殊文档,文档的保密性和防伪具有更为重要的意义。现有技术中,大部分公文或文档不具有防伪的功能,通常是通过公文或文档上的序号或公章判断公文的出处及真伪。但是,公文或文档上的序号可以被轻易遮挡或复制,而现在的彩色扫描、复印和打印技术使得公文或文档上的公章也很容得被复制。现有技术通过加密识别来解决上述问题,但要实现加密和识别,一般会采用文本的数字水印技术,它是信息隐藏技术领域内的重要技术,比较常见的是图像数字水印。而现实中存在大量的文本(如电子公文)需要保密,电子公文系统内部可以限制已经加密后的电子文本流出,另外这类系统往往通过限制打印次数等方式限制转为纸质的文件,但一旦转为纸质以后,系统就无法限制文件文档的复印,往往也无法追踪纸质文件的原始来源。由于基因字是一种专用字库中的所有字符的集合,其字形与原始字库有细微差别,不易被伪造与察觉,同时可以使用专用程序很方便的检测出来,因此,技术人员可以通过嵌入基因字的方式来解决针对已经转为纸质的文档无法限制其打印或复印次数的问题, 但现有的基因字嵌入文档的方式由于冗余度不均衡且利用率低,导致了在系统读取嵌入了基因字的文档时,识别字符正确率较低的问题。目前针对相关技术的基因字嵌入文档的方式由于冗余度不均衡且利用率低,导致了在系统读取这种嵌入了基因字的文档时,识别字符正确率较低的问题,尚未提出有效的解决方案。

发明内容
针对相关技术的基因字嵌入文档的方式由于冗余度不均衡且利用率低,导致了在系统读取这种嵌入了基因字的文档时,识别字符正确率较低的问题,目前尚未提出有效的问题而提出本发明,为此,本发明的主要目的在于提供一种基于基因字的文档处理方法及装置,以解决上述问题。为了实现上述目的,根据本发明的一个方面,提供了一种基于基因字的文档处理方法,该方法包括根据基因字库从原始文件中提取一个或多个源字符,以获取源字符集合,其中,源字符集合中的源字符在基因字库中存在对应的基因字;计算源字符集合中每一个源字符的重复频率,并根据每一个源字符的重复频率和字符内码对源字符集合中的源字符进行排序;根据蛇形算法对排序后的源字符集合中的源字符按照预设的组数进行分组, 以获取预定数目的字符组;将一组或多组字符组中的所有源字符替换为基因字库中与其对应的基因字,以获取嵌入基因字的文档。进一步地,计算源字符集合中每一个源字符的重复频率,并根据每一个源字符的重复频率和字符内码对源字符集合中的源字符进行排序包括按照重复频率由高到低的次序对源字符集合中的源字符进行排序,以获取源字符集合的第一排序集合;按照字符内码由大到小或由小到大的次序对第一排序集合中重复频率相同的源字符进行排序。进一步地,计算源字符集合中每一个源字符的重复频率,并根据每一个源字符的重复频率和字符内码对源字符集合中的源字符进行排序包括按照重复频率由低到高的次序对源字符集合中的源字符进行排序,以获取源字符集合的第一排序集合;按照字符内码由大到小或由小到大的次序对第一排序集合中重复频率相同的源字符进行排序。进一步地,在根据蛇形算法对排序后的源字符集合中的源字符按照预设的组数进行分组,以获取预定数目的字符组之前,方法还包括设置嵌入信息以获取嵌入信息的位数,其中,嵌入信息的位数为预设的组数;对嵌入信息进行加密,以获取安全嵌入信息。进一步地,在根据蛇形算法对排序后的源字符集合中的源字符按照预设的组数进行分组,以获取预定数目的字符组之后,方法还包括读取每组字符组中所有源字符的字符信息,以获取每个字符组的对应信息,其中,在任意一组字符组中,当字符信息为0的源字符数目大于字符信息为1的源字符数目时,该字符组的对应信息为0 ;当字符信息为1的源字符数目大于字符信息为0的源字符数目时,该字符组的对应信息为1。进一步地,将一组或多组字符组中的所有源字符替换为基因字库中与其对应的基因字,以获取嵌入基因字的文档包括当字符组的对应信息为0时,将该字符组的所有源字符替换为基因字库中与其对应的基因字;当字符组的对应信息为1时,该字符组的所有源字符不执行替换操作。进一步地,将一组或多组字符组中的所有源字符替换为基因字库中与其对应的基因字,以获取嵌入基因字的文档包括当字符组的对应信息为1时,将该字符组的所有源字符替换为基因字库中与其对应的基因字;当字符组的对应信息为0时,该字符组的所有源字符不执行替换操作。为了实现上述目的,根据本发明的另一方面,提供了一种基于基因字的文档处理装置,该装置包括提取模块,用于根据基因字库从原始文件中提取一个或多个源字符,以获取源字符集合,其中,源字符集合中的源字符在基因字库中存在对应的基因字;处理模块,用于计算源字符集合中每一个源字符的重复频率,并根据每一个源字符的重复频率和字符内码对源字符集合中的源字符进行排序;分组模块,用于根据蛇形算法对排序后的源字符集合中的源字符按照预设的组数进行分组,以获取预定数目的字符组;替换模块,用于将一组或多组字符组中的所有源字符替换为基因字库中与其对应的基因字,以获取嵌入基因字的文档。进一步地,处理模块包括第一排序模块,用于按照重复频率由高到低或由低到高的次序对源字符集合中的源字符进行排序,以获取源字符集合的第一排序集合;第二排序模块,用于按照字符内码由大到小或由小到大的次序对第一排序集合中重复频率相同的源字符进行排序。进一步地,装置还包括设置模块,用于设置嵌入信息以获取嵌入信息的位数,其中,嵌入信息的位数为预设的组数,并对嵌入信息进行加密,以获取安全嵌入信息。进一步地,装置还包括读取模块,用于读取每组字符组中所有源字符的字符信息,以获取每个字符组的对应信息,其中,在任意一组字符组中,当字符信息为0的源字符数目大于字符信息为1的源字符数目时,该字符组的对应信息为0 ;当字符信息为1的源字符数目大于字符信息为0的源字符数目时,该字符组的对应信息为1。进一步地,替换模块包括第一替换模块,用于当字符组的对应信息为0时,将该字符组的所有源字符替换为基因字库中与其对应的基因字;当字符组的对应信息为1时, 该字符组的所有源字符不执行替换操作;或者,第二替换模块,用于当字符组的对应信息为 1时,将该字符组的所有源字符替换为基因字库中与其对应的基因字;当字符组的对应信息为0时,该字符组的所有源字符不执行替换操作。通过本发明,采用根据基因字库从原始文件中提取一个或多个源字符,以获取源字符集合,其中,源字符集合中的源字符在基因字库中存在对应的基因字;计算源字符集合中每一个源字符的重复频率,并根据每一个源字符的重复频率和字符内码对源字符集合中的源字符进行排序;根据蛇形算法对排序后的源字符集合中的源字符按照预设的组数进行分组,以获取预定数目的字符组;将一组或多组字符组中的所有源字符替换为基因字库中与其对应的基因字,以获取嵌入基因字的文档,由于上述在文档中嵌入基因字的方式采用了均衡统计的方法,便于重复使用基因字,从而解决了相关现有技术的基因字嵌入文档的方式由于冗余度不均衡且利用率低,导致了在系统读取这种嵌入了基因字的文档时,识别字符正确率较低的问题,进而实现在识别嵌入基因字的文档时,读取文档中的字符信息更加准确且正确率更高的效果。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中图1是根据本发明实施例的基于基因字的文档处理装置的结构示意图;图2是根据本发明实施例的基于基因字的文档处理方法的流程图。
具体实施例方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。图1是根据本发明实施例的基于基因字的文档处理装置的结构示意图。如图1所
6示,该基于基因字的文档处理装置包括提取模块10,用于根据基因字库从原始文件中提取一个或多个源字符,以获取源字符集合,其中,源字符集合中的源字符在基因字库中存在对应的基因字;处理模块30,用于计算源字符集合中每一个源字符的重复频率,并根据每一个源字符的重复频率和字符内码对源字符集合中的源字符进行排序;分组模块50,用于根据蛇形算法对排序后的源字符集合中的源字符按照预设的组数进行分组,以获取预定数目的字符组;替换模块70,用于将一组或多组字符组中的所有源字符替换为基因字库中与其对应的基因字,以获取嵌入基因字的文档。本申请上述实施例,通过处理模块和分组模块实现将提取到的与基因字相对应的源字符进行分组和蛇形排序,在完成分组和蛇形排序之后,将基因字库中的基因字替换成原文件中对应的源字符。上述装置利用基因字及其字频的不同组合和分组来携带大量信息,由于蛇形排序的均衡统计技术便于重复使用基因字,从而解决了现有的基因字嵌入文档的方式由于冗余度不均衡且利用率低,导致了在系统读取嵌入了基因字的文档时,识别字符正确率较低的问题,进而实现了在识别嵌入基因字的文档时,读取文档中的字符信息更加准确且正确率更高,而且大大提高了使用基因字的文件在提取嵌入信息时的鲁棒性。上述装置实现的按照既定规则嵌入基因字的原文件,由于动态平衡了嵌入原文件的每组基因字的冗余量,使得信息隐藏性好,在被打印或者复印多次之后,系统可以准确的判断该加密文件是否超出了允许打印或复印的次数。本申请上述实施例中的处理模块可以包括第一排序模块301,用于按照重复频率由高到低或由低到高的次序对源字符集合中的源字符进行排序,以获取源字符集合的第一排序集合;第二排序模块302,用于按照字符内码由大到小或由小到大的次序对第一排序集合中重复频率相同的源字符进行排序。该实施例中的排序组合方式在实施过程中是具有等同效果的,主要是为后续的组合过程提供基于统计所得的排序均衡的源字符。上述实施例中的处理模块与分组模块的组合用于依据统计所得的字频来动态分配每组中字符的数量,从而动态平衡每组中字符的冗余量,有利于信息的隐藏,同时可以重复使用相关的基因字,大大提高了基因字利用频率和每组中信息的平衡度,有利于提高信息嵌入量,本申请上述实施例中的装置还可以包括设置模块80,用于设置嵌入信息以获取嵌入信息的位数,其中,嵌入信息的位数为预设的组数,并对嵌入信息进行加密,以获取安全嵌入信息。该实施例为将字符进行分组而预设的分组数量,而且,为了提高安全性可以将该嵌入信息进行加密,例如,当嵌入信息为0110时,可以经过加密,使得其它非合法用户看到的嵌入信息是0011或1100等,而不是0110,只有合法用户可以识别正确的嵌入信息。因此,上述实施例可以实现将原始文件中的所有字符集合中的源字符,按照嵌入信息的编码长度以及依据统计所得的字频来动态分配每组中字符的数量,即实现了动态平衡每组源字符中的冗余量,有利于信息隐藏,而且可以重复使用有关基因字。上述实施例中的装置还可以包括读取模块90,用于读取每组字符组中所有源字符的字符信息,以获取每个字符组的对应信息,其中,在任意一组字符组中,当字符信息为0 的源字符数目大于字符信息为1的源字符数目时,该字符组的对应信息为0 ;当字符信息为 1的源字符数目大于字符信息为0的源字符数目时,该字符组的对应信息为1。本申请上述实施例中的替换模块可以包括第一替换模块,用于当字符组的对应
7信息为0时,将该字符组的所有源字符替换为基因字库中与其对应的基因字;当字符组的对应信息为1时,该字符组的所有源字符不执行替换操作;或者,第二替换模块,用于当字符组的对应信息为1时,将该字符组的所有源字符替换为基因字库中与其对应的基因字; 当字符组的对应信息为0时,该字符组的所有源字符不执行替换操作。图2是根据本发明实施例的基于基因字的文档处理方法的流程图,如图2所示该方法包括如下步骤步骤S102,通过图1中的提取模块来实现根据基因字库从原始文件中提取一个或多个源字符,以获取源字符集合,其中,源字符集合中的源字符在基因字库中存在对应的基因字。步骤S104,通过图1中的处理模块来计算源字符集合中每一个源字符的重复频率,并根据每一个源字符的重复频率和字符内码对源字符集合中的源字符进行排序。步骤S106,通过图1中的分组模块来实现根据蛇形算法对排序后的源字符集合中的源字符按照预设的组数进行分组,以获取预定数目的字符组。步骤S108,通过图1中的替换模块来将一组或多组字符组中的所有源字符替换为基因字库中与其对应的基因字,以获取嵌入基因字的文档。本申请上述实施例,在将提取到的与基因字相对应的源字符进行分组和蛇形排序之后,将基因字库中的基因字替换成原文件中对应的源字符。上述方法利用基因字及其字频的不同组合和分组来携带大量信息,由于蛇形排序的均衡统计技术便于重复使用基因字,从而解决了现有的基因字嵌入文档的方式由于冗余度不均衡且利用率低,导致了在系统读取嵌入了基因字的文档时,识别字符正确率较低的问题,进而实现了在识别嵌入基因字的文档时,读取文档中的字符信息更加准确且正确率更高,而且大大提高了使用基因字的文件在提取嵌入信息时的鲁棒性。上述方式实现的按照既定规则嵌入基因字的原文件,由于动态平衡了嵌入原文件的每组基因字的冗余量,使得信息隐藏性好,在被打印或者复印多次之后,系统可以准确的判断该加密文件是否超出了允许打印或复印的次数。本申请上述实施例中的步骤S104,计算源字符集合中每一个源字符的重复频率, 并根据每一个源字符的重复频率和字符内码对源字符集合中的源字符进行排序可以具体通过如下步骤实施按照重复频率由高到低的次序对源字符集合中的源字符进行排序,以获取源字符集合的第一排序集合;按照字符内码由大到小或由小到大的次序对第一排序集合中重复频率相同的源字符进行排序。或者,步骤S104也可以具体通过如下步骤实施按照重复频率由低到高的次序对源字符集合中的源字符进行排序,以获取源字符集合的第一排序集合;按照字符内码由大到小或由小到大的次序对第一排序集合中重复频率相同的源字符进行排序。上述实施例在统计原始文件中具有对应的基因字的源字符的数量(包含重复的)和字频之后,实现根据字频高低(字频相同时依据字符内码)对所有的源字符集中的源字符进行排序,该方式可保证字符排序的唯一性。具体的,上述方法的具体实施方式
如下首先将原始文件中与基因字库中基因字相对应的源字符提取出来,然后开始统计提取到的每一个源字符的字频。其中每一个源字符的字符信息可以采用二进制位来表示(例如0或1),当一个源字符作为基因字出现的字频为η时,可以将该源字符表征为η位0或1。
例如以以下一段文字为例进行说明。该原始文件的一段文字为山主有开发中长有技有生山主,每一个文字看作一个源字符,经过对比和查询得到该段文字在基因字库中对应的基因字,从而获取到一个源字符集合山主开发长技生,该源字符集合中的每一个源字符在基因字库中都有对应的基因字,也就是说该段文字共含有7个对应的基因字(不包含重复的)。根据统计得到
基因字字频山2
主2
开1
发1
长1
技1
生1在统计得到每个源字符对应的基因字的字频之后,同时获取每一个源字符的内码,如果采用重复频率由高到低以及字符内码由小到大的次序进行排序(例如山和主的字频都为2,山的内码0x5c71,主的内码位OMdb,则主排在山前面,其余类似),则排序后的字符顺序为主山发开技生长,其字频依次为2211111。基于上述实施例,在步骤S106根据蛇形算法对排序后的源字符集合中的源字符按照预设的组数进行分组,以获取预定数目的字符组之前,方法还可以包括设置嵌入信息以获取嵌入信息的位数,其中,嵌入信息的位数为预设的组数;对嵌入信息进行加密,以获取安全嵌入信息。具体的,依旧以原始文件的一段文字为山主有开发中长有技有生山主, 进行举例说明,此时,可以根据需求设置嵌入信息,例如,设置嵌入信息为0110,共4位,因此可知源字符集合中的源字符在采用上述方法进行排序后,可以分成4组进行分配。另外, 为了提高安全性可以将该嵌入信息进行加密,例如,当嵌入信息为OllO时,可以经过加密, 使得其它非合法用户看到的嵌入信息是OOll或1100等,而不是0110,只有合法用户可以识别正确的嵌入信息。在通过步骤S106获取到由嵌入信息确定的分组数量之后,可以依据此嵌入信息
的位数,按照蛇形算法将该源字符集合中已经排序好的每一个源字符分配到各个字符组
中,具体的可以依据嵌入信息的长度来使得每组依次取一个源字符,然后依据蛇形原则分
配给各字符组,直至所有基因字分配完毕,可以更好的解决分配过程中字频不均的问题,以
实现动态平衡每组的中冗余量,而且可以重复使用有关基因字,即使得每组字符组中用O
或1表示的源字符数量基本平均,从而改进了其他方式导致字符组中有的分组中O或1的
源字符数量很多,或者很少的问题,不会出现某一组字符组中表征源字符的O或1很少,而
导致该字符组的信息有误的现象,使得在使用基因字替换源字符组中的源字之后,基因字
的使用率提高,大大提高了后续识别或检测文件的鲁棒性。
具体的,可以依旧以原始文件的一段文字为山主有开发中长有技有生山主,进行举例说明,根据嵌入信息长度0110,我们可以将以上文字分成如下四组第一组主第二组山长第三组发生第四组开技在使用基因字库中的对应的基因字替换每组中的源字符之后,系统识别该文档, 即在对基因字进行检测时,不会出现由于某一组字符组中表征源字符的0或1很少导致原文件破损的情况,提高了检测基因字的准确率,即将应为0的表示成1,或将应为1的表示成 O0基于上述实施例,在步骤S106根据蛇形算法对排序后的源字符集合中的源字符按照预设的组数进行分组,以获取预定数目的字符组之后,方法还可以包括读取每组字符组中所有源字符的字符信息,以获取每个字符组的对应信息,其中,在任意一组字符组中, 当字符信息为0的源字符数目大于字符信息为1的源字符数目时,该字符组的对应信息为 0 ;当字符信息为1的源字符数目大于字符信息为0的源字符数目时,该字符组的对应信息为1。该实施例中,由于每一个字符组都由若干位0或1组成,可以根据每一组中0和1的数量来确定该字符组用0或1来表征。此处一个字符组中如果用“0”表征的源字符多于用 “ 1,,表征的源字符,则可以用“0”表征该字符组。本申请上述实施例中,步骤S108将一组或多组字符组中的所有源字符替换为基因字库中与其对应的基因字,以获取嵌入基因字的文档可以包括如下一种实施步骤当字符组的对应信息为0时,将该字符组的所有源字符替换为基因字库中与其对应的基因字; 当字符组的对应信息为1时,该字符组的所有源字符不执行替换操作。该步骤还可以是包括如下另外一种实施步骤当字符组的对应信息为1时,将该字符组的所有源字符替换为基因字库中与其对应的基因字;当字符组的对应信息为0时,该字符组的所有源字符不执行替换操作。具体的实施过程中,系统可以根据需求定义0或1的实施步骤,可以定义用 “0”表征的字符组中的所有源字符需要被基因字替换,而用“1”表征的字符组中的所有源字符不用替换。在具体的实施过程中,也可以定义为用“1”表征的字符组中的所有源字符需要被基因字替换。本发明的要点在于嵌入替换简单,速度快,易于实现,基因字利用率高,冗余度比较均衡,信息隐藏性好,信息嵌入量比较大。由上述可知,本申请上述方法实施例在已有的原始文件中嵌入了基因字表中对应的基因字,嵌入的过程中关键采用了基于蛇形算法的分配技术,先提取源文件中需要替换基因字的源字符集,然后对该源字符集中的源字符进行排序和分组处理,实现了均衡不同字频的源字符的过程,而且为了保证验证原始文件与基因字集合表的有效性,完整性,需要设置嵌入的信息的及其位数。需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。从以上的描述中,可以看出,本发明实现了如下技术效果本发明的实现的在文档
10中嵌入基因字的方式,嵌入替换简单,速度快,易于实现,且基因字利用率高,冗余度比较均衡,信息隐藏性好,信息嵌入量比较大。显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种基于基因字的文档处理方法,其特征在于,包括根据基因字库从原始文件中提取一个或多个源字符,以获取源字符集合,其中,所述源字符集合中的源字符在所述基因字库中存在对应的基因字;计算所述源字符集合中每一个源字符的重复频率,并根据每一个源字符的重复频率和字符内码对所述源字符集合中的源字符进行排序;根据蛇形算法对排序后的所述源字符集合中的源字符按照预设的组数进行分组,以获取预定数目的字符组;将一组或多组字符组中的所有源字符替换为基因字库中与其对应的基因字,以获取嵌入基因字的文档。
2.根据权利要求1所述的方法,其特征在于,计算所述源字符集合中每一个源字符的重复频率,并根据每一个源字符的重复频率和字符内码对所述源字符集合中的源字符进行排序包括按照重复频率由高到低的次序对所述源字符集合中的源字符进行排序,以获取所述源字符集合的第一排序集合;按照字符内码由大到小或由小到大的次序对所述第一排序集合中重复频率相同的源字符进行排序。
3.根据权利要求1所述的方法,其特征在于,计算所述源字符集合中每一个源字符的重复频率,并根据每一个源字符的重复频率和字符内码对所述源字符集合中的源字符进行排序包括按照重复频率由低到高的次序对所述源字符集合中的源字符进行排序,以获取所述源字符集合的第一排序集合;按照字符内码由大到小或由小到大的次序对所述第一排序集合中重复频率相同的源字符进行排序。
4.根据权利要求1-3中任意一项所述的方法,其特征在于,在根据蛇形算法对排序后的所述源字符集合中的源字符按照预设的组数进行分组,以获取预定数目的字符组之前, 所述方法还包括设置嵌入信息以获取所述嵌入信息的位数,其中,所述嵌入信息的位数为所述预设的组数;对所述嵌入信息进行加密,以获取安全嵌入信息。
5.根据权利要求1-3中任意一项所述的方法,其特征在于,在根据蛇形算法对排序后的所述源字符集合中的源字符按照预设的组数进行分组,以获取预定数目的字符组之后, 所述方法还包括读取每组字符组中所有源字符的字符信息,以获取每个字符组的对应信息,其中,在任意一组字符组中,当字符信息为0的源字符数目大于字符信息为1的源字符数目时,该字符组的对应信息为0;当字符信息为1的源字符数目大于字符信息为0的源字符数目时,该字符组的对应信息为1。
6.根据权利要求5所述的方法,其特征在于,将一组或多组字符组中的所有源字符替换为基因字库中与其对应的基因字,以获取嵌入基因字的文档包括当所述字符组的对应信息为0时,将该字符组的所有源字符替换为基因字库中与其对应的基因字;当所述字符组的对应信息为1时,该字符组的所有源字符不执行替换操作。
7.根据权利要求5所述的方法,其特征在于,将一组或多组字符组中的所有源字符替换为基因字库中与其对应的基因字,以获取嵌入基因字的文档包括当所述字符组的对应信息为1时,将该字符组的所有源字符替换为基因字库中与其对应的基因字;当所述字符组的对应信息为0时,该字符组的所有源字符不执行替换操作。
8.一种基于基因字的文档处理装置,其特征在于,包括提取模块,用于根据基因字库从原始文件中提取一个或多个源字符,以获取源字符集合,其中,所述源字符集合中的源字符在所述基因字库中存在对应的基因字;处理模块,用于计算所述源字符集合中每一个源字符的重复频率,并根据每一个源字符的重复频率和字符内码对所述源字符集合中的源字符进行排序;分组模块,用于根据蛇形算法对排序后的所述源字符集合中的源字符按照预设的组数进行分组,以获取预定数目的字符组;替换模块,用于将一组或多组字符组中的所有源字符替换为基因字库中与其对应的基因字,以获取嵌入基因字的文档。
9.根据权利要求8所述的装置,其特征在于,所述处理模块包括第一排序模块,用于按照重复频率由高到低或由低到高的次序对所述源字符集合中的源字符进行排序,以获取所述源字符集合的第一排序集合;第二排序模块,用于按照字符内码由大到小或由小到大的次序对所述第一排序集合中重复频率相同的源字符进行排序。
10.根据权利要求8或9所述的装置,其特征在于,所述装置还包括设置模块,用于设置嵌入信息以获取所述嵌入信息的位数,其中,所述嵌入信息的位数为所述预设的组数,并对所述嵌入信息进行加密,以获取安全嵌入信息。
11.根据权利要求8或9所述的装置,其特征在于,所述装置还包括读取模块,用于读取每组字符组中所有源字符的字符信息,以获取每个字符组的对应信息,其中,在任意一组字符组中,当字符信息为0的源字符数目大于字符信息为1的源字符数目时,该字符组的对应信息为0 ;当字符信息为1的源字符数目大于字符信息为0的源字符数目时,该字符组的对应信息为1。
12.根据权利要求11所述的装置,其特征在于,所述替换模块包括第一替换模块,用于当所述字符组的对应信息为0时,将该字符组的所有源字符替换为基因字库中与其对应的基因字;当所述字符组的对应信息为1时,该字符组的所有源字符不执行替换操作;或者,第二替换模块,用于当所述字符组的对应信息为1时,将该字符组的所有源字符替换为基因字库中与其对应的基因字;当所述字符组的对应信息为0时,该字符组的所有源字符不执行替换操作。
全文摘要
本发明公开了一种基于基因字的文档处理方法及装置。其中,该方法包括根据基因字库从原始文件中提取一个或多个源字符,以获取源字符集合,其中,源字符集合中的源字符在基因字库中存在对应的基因字;计算源字符集合中每一个源字符的重复频率,并根据每一个源字符的重复频率和字符内码对源字符集合中的源字符进行排序;根据蛇形算法对排序后的源字符集合中的源字符按照预设的组数进行分组,以获取预定数目的字符组;将一组或多组字符组中的所有源字符替换为基因字库中与其对应的基因字,以获取嵌入基因字的文档。通过本发明,能够实现在识别嵌入基因字的文档时,读取文档中的字符信息更加准确且正确率更高。
文档编号G06F17/30GK102495881SQ20111040025
公开日2012年6月13日 申请日期2011年12月6日 优先权日2011年12月6日
发明者郝佳 申请人:方正国际软件(北京)有限公司, 方正国际软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1