专利名称:对专利基因或基因专利进行检索、注释和数据挖掘的方法
技术领域:
本发明属于生物信息学领域,具体而言涉及生物化学与分子生物学以及计算机网络和数据挖掘领域。
背景技术:
专利基因是在专利中被涵盖的基因、微阵列序列、序列通式或单核苷酸多态等,基因专利则体现为包含专利基因的申请公开书或审定授权书。有关基因专利的知识产权保护问题很早就受到关注[1]。基因专利处理不当会引发一系列的法律问题[2]或伦理问题[3]。我国某转基因棉花研究由于初期没有可用的专利基因检索技术,对专利基因检索不充分,导致开发完成后与该基因的专利权人间发生法律纠纷。而即使对于已授权的基因专利,也会因当初检索和数据挖掘工作上的缺漏而被判予无效[4]。当前,知识产权问题已成为立项的核心问题,基因专利的考察对于生命科学研究战略制定、审批立项和项目执行等均具有重要意义。这些考察重点包括哪些基因已被专利覆盖,哪些尚未被覆盖;某基因的哪些技术或功能在已覆盖范围之外还有创新余地等。由此可见,专利基因是基因专利的核心,对基因专利的考察最终要落实到对专利基因的考察上来。
专利基因是一种具生物学、社会偏好和法律状态三重意义的特殊文本。对专利基因进行全面而精确的检索并进行深入的数据挖掘,除能启迪开发思路外,还能避免对基因的重复研究和知识产权纠纷隐患的产生。此前考察我国专利基因的唯一途径是对中国基因专利标题或摘要进行文字检索。但目前专利中存在的用词艰深隐晦及基因名使用不标准等问题均可能造成重要信息漏检。BLAST技术[5]的运用可开发成一种不通过标题和摘要而直接到达专利基因的检索方法,然而专利文献海量性和图片或纸质形式的文本又成为实现这种检索的瓶颈。此外,基因的查新工作当前多限于对GenBank等公共非冗余库运用BLAST来执行序列同源比对,多数研究者可能无法并且也忽视了对专利基因的BLAST检索。据FIZ Karlsruhe信息研究所报道,近60%的世界专利(WIPO)基因尚未被三大核酸数据库收录,即使对收录的专利基因也没有分子生物学意义方面的注释;我国专利基因几乎未被任何公共数据库收录,即使在收费极昂贵的私营数据库中也收录不全。这是由于申请人和各国知识产权管理部门未系统地向世界三大核酸数据库提交专利基因。因此,如果某基因在公共数据库中不存在功能已知的同源序列,并不能将其判定为新基因,更不能武断地追加投资进而对其展开深入研究和开发。
上述现状表明,通过专利数据库对我国专利基因所能完成的检索和分析十分有限,而公共核酸数据库几乎不能提供有关中国专利基因的任何信息。目前,人们对海量专利基因的检索需求日益精确化和专业化,除进行BLAST检索外,研究者还需针对基因名、专利基序、基因的细胞组分、分子功能和生物学过程等方面进行检索和深入分析,并且需进行面向通路、基因微阵列和SNP的专利覆盖情况考察。
1 Doll J J.The Patenting of DNA.Science,1998,280(5364)689-6902 Abbott A.Clinicians win fight to overturn patent for breast-cancer gene.Nature,2004,429,329 3293 Abbott A.Europe pares down double patents on breast-cancer gene.Nature,2005,433,344 3444 Paradise J,Andrews L,Holbrook T.Patents on human genesan analysis ofscope and claims.Science,2005,307,1566-15675 Schaffer A A,Aravind L,Madden T L,et al.Improving the accuracy ofPSI-BLAST protein database searches with composition-based statistics andother refinements.Nucleic Acids Res.,2001,29(14)2994-3005发明目的本发明的目的是针对上述该领域内的现状,创造一种对专利基因或基因专利进行检索、注释和数据挖掘的方法,从而使基因专利文献在较低的电子化程度上能够为生命科学界提供尽可能多的信息。
技术方案数据库创建方法选取符合知识产权行业标准(ZC 0003-2001)的且未失效的基因专利,人工或计算机识别专利文献中的核酸序列、蛋白序列、专利基序、引物序列、探针序列、SNP、RNA序列、基因微阵列及多肽核酸(PNA)等,并将其电子化。其中,专利基序是指型如“一种肽,具有‘X1CYDX2A’的通式,其中X1是L或I,X2是E或Q或缺失”的描述,在NASDAP中以核酸序列正则表达式或蛋白序列正则表达式的形式存储;专利SNP则选取左右各20nt的侧翼序列连同突变位点储存为正则表达式。定期进行序列更新和法律状态更新。用cgi技术构建web检索界面。
注释方法本发明所采用的技术方案是以基因为单位组织专利。将不同专利中相同的基因聚合成一类,以便进行注释和数据挖掘。核酸序列无论是否编码蛋白质,均按6个相位翻译,选择其中最长的开放阅读框(ORF)所对应的氨基酸序列作为代表序列。将核酸代表序列与蛋白序列合并再执行两两比对,将一致性98%以上且共有序列占总长度80%以上的序列聚为一簇,称为一个基因专利簇(UniPat)。定义每簇中最长的蛋白序列为该簇的参考序列。
将参考序列对标准参考数据库,例如SWISS-PROT进行BLASTP,BLASTP的E值设置为1e-40,从而保证了精确度。注释后的序列拥有蛋白名、基因名、登录时间、国际酶学委员会编号以及物种名等属性。将参考序列通过SWISS-PROT登陆号及基因本体注释关联到基因本体(GO)和基因缩略本体(GO slim)。对专利序列和专利微阵列的检索方法通过WEB提交待检序列(图1),通过POST方法传送至服务器端的cgi程序。cgi程序读取待检序列并判断提交的序列类型是核酸序列还是蛋白序列,随后通过BLAST或FASTA或Smith-Waterman或HMM或Needleman-Wunsch等方法执行待检序列与数据库中序列的比对。如果选用BLAST算法,则对于DNA序列,可选用″blastn″、″tblastx″或″blastx″三种子算法来完成对库检索,而对于蛋白序列,则可选用″blastp″或″tblastn″程序。在运行程序之前,去除非DNA或蛋白质序列的非法字符,同时去除对服务器造成安全隐患的字符,并且屏蔽可能造成服务器死机的长度超过20000个核苷酸或5000个氨基酸的超长序列。对于选用″blastn″、″tblastx″或″tblastn″程序的情况,待检序列所比对的对象为核酸专利序列;而″blastp″或″blastx″程序的比对目标为蛋白序列。比对完成后,按照与待检序列相似性从高到低的顺序输出专利序列及其所在的专利。随后创建日志文档,对于提交人的IP地址、提交时间、选择程序、序列类型以及序列情况进行记录。
对专利序列通式和专利单核苷酸多态的检索方法通过WEB提交待检序列(图1),通过POST方法传送至服务器端的cgi程序。cgi程序读取待检序列并判断提交的序列类型是核酸序列还是蛋白序列,从而选择相应的核酸序列正则表达式或蛋白序列正则表达式。在运行程序之前,去除非DNA或蛋白质序列的非法字符,同时去除对服务器造成安全隐患的字符,并且屏蔽可能造成服务器死机的长度超过20000个核苷酸或5000个氨基酸的超长序列。运行正则表达式匹配程序,从而实现对待检序列的专利序列通式和专利单核苷酸多态的扫描。在程序运行结果中输出待检序列所包含的正则表达式、这些正则表达式在待检序列中的位置及其所对应的专利。
数据挖掘方法数据挖掘主要针对编码蛋白的专利基因,暂不包括对引物、RNA、核酶、STS探针、微阵列探针、SNP侧翼序列、专利基序、多肽核酸以及各种顺式作用元件等专利对象的分析。对专利基因和基因专利间的多对多关系的挖掘采用通过perl语言编程来实现对SQL查询结果进行数据分析的方法。对专利基因的生命周期挖掘采用阶层聚类或K值聚类的算法。
图1实现对专利序列和专利微阵列的检索方法的WEB界面。
图2实现对专利序列通式和专利单核苷酸多态的检索方法的WEB界面。
图3专利基因的生命周期。
(a)为平均每年申请数大于1的UniPat的生命周期聚类。颜色深浅表示从1999年到2003年每年的申请数量的多少。聚类采用阶层聚类方法。
(b)为上述聚类结果中四个典型类的生命周期明细。up37为大肠杆菌肌醇六磷酸酶基因;up4为人免疫球蛋白Fc片断基因;up67为促肝再生因子基因;up18为干扰素α-2b基因。
具体实施例方式
(一)通过本检索方法实现对于未知序列的检索和功能调查在某癌旁组织与癌组织差异表达的文库中获得一全长序列,欲了解其功能,将其ORF对应的蛋白序列提交针对GenBank的nr库(2006年1月12日版)的BLASTP服务。将所有参数均为默认值可以得到数条(第一条序列gi号为10732642)功能未知序列,这表明该基因的功能可能尚未鉴定。此时研究者希望追加投资对此基因进行下一步研究。然而,如将此序列通过本专利所述方法中的”blastp”程序进行检索,严格设定E值为0,仍可得到一条存在于申请号为“CN00111997.4”的中国专利中的序列。检索该专利全文得知,该基因早在2000年就已由上海市肿瘤研究所申请了较大覆盖范围的物质专利,权利要求涵盖此基因在肿瘤治疗中的应用,并已于2004年被授权。此例展示了本方法在科研决策中防止重复研究、避免浪费及知识产纠纷隐患的重要作用。
(二)通过本检索方法常规检索漏检的信息为了解美国FDA批准药物“ω芋螺毒素MVIIA”及其类似物在中国的专利申请和授权状况,首先在国家知识产权局网站的专利名称检索栏中输入“芋螺毒素”,结果返回5条记录,其中有关MVIIA的专利仅2条。然而用MVIIA的氨基酸序列采用本方法执行检索后发现,除上述2条外,还有5条E值最高为5e-11的序列出现在已授权专利“CN00109828.4”中。因此,尽管作者的权利要求是与MVIIA仅相差一个氨基酸的人工多肽,然而采用传统检索则已造成重要信息的漏检。其原因是作者对“ω芋螺毒素”采用了“欧米加-海螺毒素”的非标准提法。类似漏检案例还会发生于许多采用“肽”、“新肽”等短标题命名以及采用低信息量摘要的专利。尽管这是一种申请策略,然而却可能导致纠纷。上述情况通过NASDAP的BLAST均可检出,因此最大限度地保证了专利基因检索的精确性,也维护了专利的公开原则。
(三)通过本检索方法实现潜在生物信息的挖掘通过对NASDAP执行TBLASTX获得东亚钳蝎α毒素基因家族专利群的16条序列。该家族序列间相似性多在60%以上,且权利要求多样化,如抗昆虫、抗心律失常、抗肿瘤、抗神经兴奋等。这启发研究人员对该家族具有不同生物活性根源的探索或引发对该家族其他成员开发潜力的思索。对该家族序列执行多重比对发现这些序列间存在高度保守的半胱氨酸残基,进一步获悉这是一种名为“CSαβ”的基序,它存在于多个物种内并承载多样的生物学功能。昆虫防御素、芋螺毒素、人内皮素、蜂毒和Brazzein甜味蛋白等均具有该基序。由此可见,自然和人类社会不约而同地选择了“CSαβ”基序,这提示我们针对拥有此基序的蛋白的开发可能还存在很多机会。
(四)采用本专利所述的数据挖掘方法实现专利基因和基因专利间多对多关系的挖掘通过考察以UniPat为组织的专利群而明确了基因与专利间多对多的关系。一方面,围绕一个基因所进行的多方面开发将衍生出不同的权利要求,进而对应多个不同的专利申请;另一方面,在一个专利中被要求权利的基因可能存在多个。对一个基因的多方面开发归纳起来主要包括核苷酸分子、蛋白分子、改性的蛋白分子、基因微阵列、SNP、基因或蛋白在疾病诊断方面的应用、基因或蛋白作为药物、基因或蛋白作为药靶、包含该基因的载体、宿主、细胞系、不同的制备工艺以及极少数的基因治疗用途等。通过perl语言编程来实现对SQL查询结果进行数据分析的方法,可以发现我国专利中申请数最多的5个基因分别是人免疫球蛋白重链VDJ区基因、人免疫球蛋白Fc区基因、人免疫球蛋白重链V-J4区基因、促红细胞生成素、PSCA抗体基因。抗体基因被密集申请的原因除了本身具有治疗作用外,我国基因专利权利要求主体是肽类药物也是一个重要因素抗体基因通过与各种肽类基因融合表达可发挥其靶向功能,因此可作为药物载体被广泛使用。采用该方法进而发现中国专利这种以蛋白本身作为药物为主的申请策略与美国人类基因专利以药靶、致病基因、重要通路的节点以及诊断用基因等上位概念为主的申请策略完全不同。在美国人类基因专利中,药物基因或免疫球蛋白基因这样的“工具基因”未排入密集申请基因的前10位。
在一专利对应多基因这个方面,69.7%的专利申请采用覆盖多于一个基因的申请方式,甚至还出现了一个专利申请覆盖数百个基因的情况。然而对授权基因专利的分析表明,平均每个专利仅能获得1.04个基因的专利权。
上述结论通过本技术之外的现有数据挖掘方法并不能得到。
(五)采用本专利所述的数据挖掘方法实现专利基因的典型生命周期的挖掘对UniPat每年的被引数进行考察,从而获得每个专利基因生命周期的轮廓。对UniPat按其生命周期进行阶层聚类或K值聚类,聚类结果显示中国专利基因生命周期主要有以下四种类型(图3)1)先热后冷型一些功能和应用范围较专一的基因往往呈现这种生命周期特征。它们的申请人往往局限于少数几个。如大肠杆菌肌醇六磷酸酶(UniPat编号up37)在一年内呈现突然爆发式的申请,权利要求内容大致包括物质专利、点突变性质改进等[18-20]。然而由于其开发空间有限,随后的申请呈现下降趋势。
2)多热点型这些基因在专利中所承载的功能是诸如提高蛋白可溶性或药靶导向性等。因常与其他蛋白组成融合蛋白共表达,它们扮演一种“肽类药物伴娘”的角色。其生命周期决定于各种肽类药物的应用状况,因此生命曲线常常出现波动。该类的典型代表如人免疫球蛋白Fc基因片断(up4)等。
3)先冷后热型此类基因在其物质专利申请初期并未引起足够的关注。沉寂之后可能某事件激发了市场需求或开发热情,在短时间内相继有不同机构介入,形成的竞争效应能够进一步激发申请热情。例如促肝再生因子(up67)的专利群。
4)持续热点型具有此类生命周期的基因往往能够开发成为广泛应用的药物。一个基因常对应多个申请人及多种开发方式。围绕此基因竞争格外激烈,不同申请人的权利要求间甚至出现了交叠。如干扰素α-2b基因(up18)自从被申请了原核表达的工艺专利后,不同机构又对其从上游调控元件、在浮萍中表达、与胸腺肽融合表达、与Fc片断融合表达,分子修饰及性质改良等多个方面进行开发。
采用本专利所述的数据挖掘方法可以得出结论上述4个专利基因生命周期的代表基因在审批方面除胸腺肽从1999年至2003年每年授权1件外,其余仅授权最早的申请。
上述结论通过本技术之外的现有数据挖掘方法并不能得到。
权利要求
1.一种检索专利中的基因或基因微阵列序列及其所对应的专利的方法,其特征是将专利文献中的核酸序列、蛋白序列或基因微阵列序提取并储存为计算机文件的形式并定期更新,同时将待检序列通过序列比对程序与之进行比对从而获得与待检序列相似的专利基因或专利基因微阵列序列及其所对应的专利。
2.一种检索专利中的序列通式或单核苷酸多态及其所对应的专利的方法,其特征是将专利文献中的核酸、蛋白序列通式或单核苷酸多态等生物信息提取并储存为正则表达式的形式并定期更新,同时通过对待检序列进行正则表达式的扫描而获得待检序列中的专利基因通式或单核苷酸多态以及它们所对应的专利。
3.如权力要求1所述的检索核酸、蛋白序列或基因微阵列序列的方法,其特征是通过人工识别或计算机识别而将专利文献中的基因序列格式化为纯文本格式或fasta格式或NCBI的blastall程序所认可的格式或关系型数据库的兼容格式并与专利申请号进行关联,用BLAST或FASTA或Smith-Waterman或HMM或Needleman-Wunsch等算法进行待检序列与专利序列之间的比对,并按照相似性的大小输出并排序。
4.如权力要求2所述的检索核酸或蛋白序列通式以及单核苷酸多态的方法,其特征是将专利通式和单核苷酸多态储存为正则表达式形式并与专利申请号进行关联,对待检序列进行正则表达式扫描后获得待检序列所包含的正则表达式、其在待检序列中的位置及其所对应的专利。
5.一种对专利基因或基因专利进行注释的方法,其特征是将专利中经翻译的基因序列和蛋白序列以相似性98%以上为标准聚成一簇,由此获得多个簇,选择每簇中最长的蛋白序列对标准蛋白数据库进行BLASTP而完成注释。
6.一种对专利基因或基因专利进行数据挖掘的方法,其特征是采用SQL语言结合聚类算法、相关性发掘算法等技术对已经聚类的专利基因或基因专利进行数据挖掘。
7.如权力要求1所述的检索方法在设计制造面向基因的搜索引擎中的应用。
全文摘要
本发明实现了对专利序列、专利微阵列、专利单核苷酸多态性(SNP)、专利基序等专利基因对象以及基因专利进行检索、注释和数据挖掘的方法。其中的检索方法在相关研究的立项、基因研发状态追踪以及基因专利申请和审批等工作中将具有广泛的应用。而注释和数据挖掘方法可以供企业用来对专利基因在自然进化和社会偏好双重选择压下的生命周期、申请偏好及授权偏好等特性进行考察。
文档编号G06F19/00GK1851704SQ200610040349
公开日2006年10月25日 申请日期2006年5月17日 优先权日2006年5月17日
发明者杨仑, 夏振华, 徐朗莱 申请人:杨仑, 夏振华, 徐朗莱