自然事物的编码与任意进制转换及其应用的制作方法

文档序号:2411321阅读:346来源:国知局
专利名称:自然事物的编码与任意进制转换及其应用的制作方法
道生一,一生二,二生三,二生万物。万物负阴而抱阳,冲气以为和。——老子本发明涉及一种信息集成处理技术,包括对自然事物的编码、加密和压缩(或扩展),并着重强调其在数据库、尤其是基因库(包括DNA、RNA数据库)和蛋白质数据库中的应用。具体地说,是将自然事物首先按照存在状态的不同给予不同的编码,然后将编码数字以自然顺序排列,生成一个低进制的数字顺序,进而将其向高进制转换,该数字顺序的长度因而被压缩,从而获得一个短顺序的压缩加密数据。其中,进制数即为密钥本身。压缩(或扩展)由编码、进制转换或者通过人工消减(增加)数据长度完成,加密则以相对固定的数字库为基础由数字编码选择和进制选择两个过程完成。
通过编码揭示自然事物运动的历史由来已久。春秋时期思想家老子(即李耳)在《道德经》四十二章有“道生一,一生二,二生三,三生万物”的叙述,其中论及了一种以自然事物的变化过程为顺序的编码,是目前所能找到的最早的编码记载,距今已2500年。

图1给出了这种编码思想的一个具体的解释。三个整桔子表示初始,此时系统中只有一种状态,进制数为1(也就是枚举法),这个数转换十进制为3,二进制为11。现将其中之一切为两半,则产生了一个新状态。如果设整个桔子的状态为0,半个桔子的状态为1,按照不同顺序排列,则可产生二进制顺序0110、0011、1100、1001、1010、0101。图为1001,转换十进制为9。如果再将半个桔子之一切为两半,系统又产生了第三个状态,设其为2。它与前两个状态按不同顺序排列可以产生三进制顺序22100、22001、22010、21002、21200、21020、20210、20120、20201、20102、2002、20012、12200、12020、12002、10220、10022、10202、02201、02210、02120、02102、02021、02012、01220、01022、01202。图为10022,转换十进制为89,转换二进制为1011001。同理,三可进一步生四,四又可生五,如此等等,新状态不断出现。自然事物的运动也是如此。数学是大自然的语言,潮起潮落、花谢花开等自然事物状态的变迁都可以用数学来描述。一旦这些状态产生的时间顺序和排列的空间顺序确定之后,其表示的数字顺序也确定下来。这就是“道生一,一生二,二生三,三生万物”所寓示的基本内容。其后,老子进一步指出,“万物负阴而抱阳,冲气以为和”,意指物质世界虽然状态万千,但都包含了阴阳两种状态。与前文语意相连,实际上是指出了事物的多个状态与阴阳两种状态之间的转换,即任意正整数进制与二进制之间的转换。同时指出了促进万物内在关系和谐的动力在于气,即能量。由此可见,“万物负阴而抱阳”,并不是指哲学上“一分为二”那码事儿,而是具有确切的数学含义,即“万”与“二”的数学关系。这个关键的证据表明,古代中国远在欧洲之前即已认识了二进制,而且形成了独立的进制转换的认识体系。以相对固定的数字库为基础的、对自然事物进行的编码方法,最早由春秋时期著名思想家老子记载下来,所以称为“圣贤老子码”。相应地,由他记载下来的任意正整数进制与二进制之间转换的算法称为“圣贤老子算法”。本发明扩展了“圣贤老子算法”,使其能够在任意进制之间进行,以此对数据进行加密和压缩(或扩展)处理。“道生一,一生二,二生三,三生万物。万物负阴而抱阳,冲气以为和。”构成了本发明的核心思想。
相同的数字顺序在不同的进制下无疑表示不同的数字,“100”二进制时表示4,十进制时表示100,五十进制时表示2500,等等。通过把数据向高进制转换可以实现用有限的数字顺序精确地表达一个任意大的数字,这是它与科学计数法相比具有的优势。比如,123456在十进制下表示1×105+2×104+3×103+4×102+5×101+6,数字大小在105数量级,而在10120进制下表示1×105×120+2×104×120+3×103×120+4×102×120+5×10120+6,数字大小有10600数量级之巨。对于一个任意大的数字,科学计数法虽然顺序很短,但只能模糊地表示其数量级,如以十进制进行精确表示,则顺序过长上述10600之巨的数字如以十进制写出长达600位。采用高进制同样可以精确表示数字,同时压缩了数字的长度,兼备二者之长。所以,将低进制数据转换为高进制将使数据变得简洁,从而方便了数据的记忆、输入、输出、存储、传输等处理过程。
本发明的目的在于根据老子的方法以相对固定的数字库为基础对纷繁复杂的自然事物进行编码,对其进行加密、压缩(或扩展)等处理,或者直接对数据库中的信息单元进行处理,从而完善对数据库、尤其是基因和蛋白质数据库的认识和管理。与此同时,加密、压缩(或扩展)等处理的对象亦可是编码整个数据库的二进制信息,或者编码图片、文字、图像、声音、程序等资料的二进制信息。完成上述操作的基础是建立相应规模的数字库,即扩展的零和自然数的字符集。如建立105的数字库,需要找到105个字符分别对应0-99999,每一个字符表示、并且只表示105之内的某一数字,进而将其固化,形成所需的数字库。通常的一个做法是按照或不按照字典顺序选择汉字,满、藏、维、蒙、壮、朝等少数民族文字,日、德、英、俄等诸国文字,使其分别对应0-99999中的某一数字,变文字资源的多样性为有序性,从而建立105的数字库。由此,至多可以完成105个状态的编码,或者最高105进制的进制转换。限于篇幅,仅举100进制数字库一例,如下100进制数字库一例0-9由阿拉伯数字组成,10-99由相应汉字代表。
0123456789阿爱矮挨哎碍癌艾唉哀把八吧爸拔罢跋巴芭扒擦次此词瓷慈雌磁辞刺大答达打搭瘩塔带代呆饿哦额鹅蛾扼俄讹恶厄发法罚伐乏筏阀珐砝非个各歌割哥搁格阁隔革哈蛤虾还海害咳氦孩骇几及急既即机鸡积记级表1显示了一个常用的数据表格,下面以此为例介绍本发明的数据处理过程。
一、编码。首先选择编码区域,观察其中包含有多少种状态,并按老子的方法给每种状态一种编码。如“供体细胞”一栏10个项目中共有7种不同的状态,分别设为0-6。按照自然顺序排列,生成七进制数字1023145562。同理,其它栏也生成相应的数字顺序(如表2)。这些数字顺序即为进制转换的对象。
二、低进制向高进制转换的计算,实现数据的加密和压缩,形成集成的加密表格。如“供体细胞”一栏的数字顺序1023145562,在选择七进制时编码它的二进制顺序最短,选择高于此的进制将使编码延长。此时,进制和数字顺序共同决定了一个具体的数。将它转换为十进制为42381355;以前述100进制数字库转换为50进制为“6刺2巴5”(6×504+39×503+2×502+27×50+5);转换100进制为“达辞挨扼”(42×1003+38×1002+13×100+55)。同一个数在不同的进制下对应不同的数字顺序,只有正确的进制才能恢复数字顺序的大小,才能通过进制转换恢复原来的数字顺序。表3对部分栏进行了进制转换,冒号前为转换后的进制数,冒号后为转换前的进制数。加密时,进制数作为密钥。
进制选择可以为正整数,负整数、正负分数。后两种以该算法为基础为满足加密要求而设立,尚不清楚其具体的数学意义。例如,数字顺序123在-10进制时为123=1×(-10)2+2×(-10)+3=83;在10.5进制时为123=1×(10.5)2+2×(10.5)+3=134.25。进制转换是等量转换,其间数值大小不变,生成的进制数即为密钥。在X进制下,数字顺序Ai与十进制的转换关系为Y=Σi=0nAiXi]]>它是加密算法的核心所在。以此为基础的数据压缩(或扩展)是一种线性压缩(扩展)。
三、数据传输、存储等处理。
四、高进制向低进制转换的计算,实现数据的解压缩和解密,重新生成表2,进而译码,生成表1。
表1 核移植技术(或动物克隆)国内近期相关原始文献统计
在计算机中,图片、文字、图像、声音、数据库、程序等资料都是以二进制编码的,某个资料的编码一旦确定,其0和l的自然排列便形成了一个数字顺序。并且当进制数为2时,这个数的编码最短。将它向高进制转换,其数字顺序将大幅减少,而且因为是等量转换其内在的信息并未丢失。按照前述方法,数字库中扩展的自然数字符是以文字表示的,所以生成了以文字为基础的新顺序。将这些文字形成文字资料存储或在线传播,或者写成密信通过普通邮件传播,可以减少传输的负担和风险,同时也节省了存储的空间。所以,以数字库为基础,图片、文字、图像、声音、数据库、程序等二进制信息都能转换、伪装成为文字资料。在传输后,只要接收方也有同样的数字库,当这些文字回到数字库里时,则又重新成为数字顺序,通过对其进行解压缩和解密运算便可将数据恢复了。
对于相对简单的数据库系统,以上操作可以依赖手工完成,但对于大型或者复杂的数据库而言,则需要计算机及其相关程序的帮助。一个完整的系统由编码器、数字库、运算器、译码器及其相互连结等构成。一、编码器计算加密或压缩部位的状态,并从数字库中选择字符,给出每一种状态的数字编码。编码可以一次完成,也可以按照不同的属类多次进行。表1为多次编码的情况。二、数字库为编码与进制转换的基础,决定编码能力和数据压缩(或扩展)的能力。随着数字库内多样性的增加,编码和压缩(或扩展)的能力也增加。三、运算器算法的执行者,完成进制的相互转换。四、译码器实现编码的逆过程。
一般说来,数据压缩能力取决于如何获得数据最短的编码长度。除了频率特征、上下文关系等之外,进制是数据压缩时需要考虑的重要因素。尽可能把数据向高进制转换,然后把高进制下获得的数字顺序当作低进制数字顺序处理,这时获得的数据编码最短,压缩效率最高。而此时进制数本身则成为密钥,以供解密和解压缩之用。因而,这种方法能够压缩那些“不可压缩”的数据。例如,在不定进制下,编码数字顺序111的比特数最长为无穷大,最短为2。也就是在进制为无穷大时,该顺序值为无穷大,其二进制编码亦无穷大;在进制为1时,其二进制编码最短。但是,在进制可变的前提下,这2比特的数据却足以传递高进制下的某一信息,只要将进制正确的恢复就可以还原出这条信息了。另一方面,压缩还可以通过消除高进制数字顺序的进制特征实现。以文字为基础的数字库的作用就是把数字伪装成了文字,消除了数和进制的特征。
一个偷听者获得密文并且知道是以这种方式加密的之后,获得正确的信息需要经过三个步骤一是获得数字库,了解每个字符代表什么数字;二是获得正确的进制数。不同的进制代表密文不同的长度,输入的密钥不正确,数据的长度不能正确恢复,得出的结果是没有意义的;三是知道每种编码代表的实际意义。由于以上三个过程加密者可以自由控制,从而大大降低了密文被偷听者破译的风险。而且,加密与压缩是耦联的,密文的长度通过控制能够大大小于明文,从而减轻了存储、传输等过程的负担。
人类基因组序列是由30亿个碱基线性排列组成的,包含A、T、C、G四种碱基成分。如果以三个碱基占据1厘米的长度计算,将其全部写出有1万公里长,而且在这样的长度上没有任何路标。这个数字实际上是一个四进制的无量纲大数,尽管它很大,一旦四种碱基代表的数字设定之后,按照自然顺序排列它便代表一个数字顺序,并且取四进制时这个数字的编码最短。人类99.9%的基因序列是相同的,只有0.1%的不同。把人类共有的和个人特有的序列分别挑拣出来,并按照自然顺序排列,可以生成两个数字,分别设其为X和Y。于是,每个人基因序列的数值都能表示为X+Y,其中X值每个人都是相同的,个体间的差异取决于Y值。Y值中包含了个性、特长、智力、体格、行为、寿命、疾病等丰富的信息,是人类个体特异性的最重要的生物学依据。精确认识基因、基因组和蛋白质数字的数值,使它们的长度处于可控制的范围内,不仅有助于认识生命现象,而且为数据的处理提供了便利。此时,以进制转换为核心的数据压缩技术将发挥它的作用。
不妨设A=0,T=1,C=2,G=3,人类基因组30亿个碱基顺序转换为十进制之后将被压缩为18亿个数字顺序,压缩为原长度的60%,并且其中保留了原来所有的信息。随着数字库的扩大和进制水平的提高,数字顺序将越来越短。在105进制下,将被压缩为3.6亿个数字顺序,压缩为原长度的12%;在10的1亿次方进制下,将被压缩为18个数字顺序,压缩为原长度的0.0000006%;在大于10的18亿次方进制的条件下,将被压缩为1个数字顺序,压缩为原长度的0.000000033%,达到最大压缩。理论上,只要用于进制选择的数字库足够大,该技术进行数据压缩的能力可以无限大,利用它将基因组数据压缩到可以控制的长度而不损失任何信息,在原则上是可行的。
计算机的参与有助于精确认识人类基因组数据数值的大小,进制则相当于万里征程中的路标。不同的进制选择正象尺度中的纳米、微米、毫米、厘米、分米、米、公里等一样,在基因组中起着度量的作用。不过,随着数字库的增大,数字的二进制编码也越来越长。一个109的数字字符,其编码的长度达30比特,而一个表示10的3亿次方的数字字符其编码的长度达10亿比特,可以写满2张光盘。但这个字符通过普通邮件传输,或者键入到其他字符集里在线传输,则要简便得多。一旦这个(些)字符被重新回到这个数字库中时,其数据长度自动恢复。此时,数据长度的削减是通过人工实现的。比如人类基因组的数据,在10的2亿次方进制下,一个数字顺序1234567890可能压缩了30亿碱基的全部信息,将其转换为四进制并将0123指代的碱基还原,可以恢复一个基因组序列;又如,数字1010100001,如果把它当作二进制数据,则只有10比特,如将其视为10的2亿次方进制的数据,则可以恢复一个人类基因组序列。不过,象这样十位数字都落在十进制数字库0-9或二进制数字库0和1之间的可能性是很低的(其可能性随着数字库的增大而增高,当数字库与进制数相等时必然发生),它们可能是0-10的2亿次方-1之间的任何数字。假如其中一个是10的1亿次方,代表这个数的字符假设为A,虽然A的编码在此数字库中长达3亿比特,但只需以人工手段将生成的数字顺序脱离数字库,将它手写出来或者在键入其他字符集里,便可以方便地进行记忆、传输、输入、输出、存储等诸多处理了。
例一下面展示用十进制的数字库对水稻U2snRNA基因上游序列元件FDRGU2-1A的处理。其顺序为ATACCACCTCG。设T=0;C=1;G=2;A=3。考虑到碱基序列与数字顺序方向相反(碱基由左向右,数字由右向左),上述序列按自然顺序排列为四进制数字21011311303,将其转换成十进制为2383219;转换为476643进制为54,转换为2383210进制为19。随着进制水平的提高,该基因序列由11位数字压缩至7位,进而又被压缩为2位,从而大大减少了数字顺序的数目。如将压缩数据还原,只需将其重新转换为四进制,并设0=T;1=C;2=G;3=A;同时将生成的顺序反写,即可恢复基因库数据ATACCACCTCG。如果使用前述100进制的数字库,转换为100进制算法为2383219=2×1003+38×1002+32×100+19。其中,38为“辞”,32为“此”,19为“哀”,上述序列在此数字库中即转换为100进制的文档“2辞此哀”,由原来的11位压缩至4位。如对其加密,100即为该顺序的密钥。
例二舒缓激肽(牛)RPPGFSPFR(9肽)具有抑制组织炎症反应,降低平滑肌张力的作用。以此为例显示对蛋白质数据的处理。设R=1,P=0,G=2,F=3,S=4,F=5。该20进制的顺序为150432001,转换成十进制为Y=1+2×203+3×204+4×205+5×207+208=32013296001,用上述数字库转换100进制为“3把挨扒发1”。
权利要求
1.一种信息集成处理技术,具体地说,是自然事物的编码与任意进制转换用于数据的加密和压缩(或扩展),也就是2500年前“圣贤老子码”和“圣贤老子算法”应用的扩展。其特征是建立在相对固定的数字库(即扩展的零和自然数的符号集)基础上的、依赖或不依赖计算机的、以进制转换为核心的数据加密和压缩(或扩展),在X进制(X的取值范围为实数,包括正整数、负整数和正负分数)下,数字顺序Ai与十进制转换的数学式为Y=Σi=0nAiXi]]>
2.权利要求1中所说的信息集成处理技术,其特征是把进制转换后的高进制数字顺序当作低进制数字顺序处理,或者人工消除数字顺序间的进制关系实现数据压缩。
3.权利要求1、2中所说的信息集成处理技术,其特征是加密由进制选择或/和编码选择组成,其中进制数即为密钥本身。
4.权利要求1、2、3、中所说的信息集成处理技术,其特征是为加密与压缩(或扩展) 选择组成,其中进制数即为密钥本身。
5.权利要求1、2、3、4中所说的信息集成处理技术,其特征为数字库中的字符来源于文字,包括简体、繁体、古体汉字,满、藏、维、壮、朝、蒙少数民族文字,英、日、德、法、阿拉伯、俄、拉丁、希腊八国文字,或者其中任意一种文字及其组合。
6.权利要求1、2、3、4、5中所说的信息集成处理技术,其特征为应用对象是数据库,尤其是基因库(包括DNA和RNA数据库)和蛋白质数据库。
7.权利要求1、2、3、4、5中所说的信息集成处理技术,其特征为应用对象是文字、声音、图片或图像及其组合。
8.权利要求1、2、3、4、5中所说的信息集成处理技术,其特征为应用对象是程序。
9.权利要求1、2、3、4、5中所说的信息集成处理技术,其特征为编码的对象是自然事物。
10.上述权利要求任意一项中所说的信息集成处理技术,其特征为实施算法和数字库的设备是计算机,包括中央处理器、内部存储器和外部存储器(硬盘、软盘、光盘)。
全文摘要
本发明涉及一种信息技术,为2500年前“圣贤老子码”和“圣贤老子算法”的扩展,并具体应用于数据的加密和压缩(或扩展)。它来自于《道德经》“道生一,一生二,二生三,三生万物。万物负阴而抱阳,冲气以为和。”的记载所提供的以数字库为基础的对自然事物编码和进制转换的算法。其核心是把进制转换后高进制下的数字顺序当作低进制下的数字顺序处理而获得最短的数据编码,进制数则成为密钥。它在生物信息学中尤其有用。
文档编号G09C1/06GK1301002SQ00134529
公开日2001年6月27日 申请日期2000年12月12日 优先权日2000年12月12日
发明者尹国兴 申请人:尹国兴
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1