microRNA组学数据扰动平台的制作方法

文档序号:18190056发布日期:2019-07-17 05:33阅读:339来源:国知局

本发明涉及一种生物医药技术领域,尤其是基于microrna组学数据的“疾病—药物”关联平台。



背景技术:

microrna(mirna)是当前生物信息学领域的研究热点,它是一类重要的非编码小rna分子,其功能主要在转录后水平调控基因表达,每个microrna大概能控制数十个基因的表达,而每个基因的表达也受到多重microrna的调控,是一套全新的表达调控机制。大量的研究表明microrna的异常表达与肿瘤等多种疾病的的发生发展密切相关,很多microrna的表达水平和正常细胞里的表达水平有明显的差异,有的上调,有的下调。microrna与疾病的相关性已经毋庸置疑,人们已经开展了相关的研究。目前已有数个microrna异常与疾病相关信息数据库的建立,但其中或为手工整理文献得到的,只具有简单相关信息的数据,或只集中在某一类肿瘤类型中。到目前为止,多数研究只是专注于microrna与疾病的相关性,还没有一个专门基于microrna组学数据的“疾病—药物”关联平台。

此外,geneexpressionomnibus(geo)等生物信息数据库中的microrna数据与日俱增,面对海量的microrna组学数据,如何解释和分析这些数据,从中挖掘出潜在的规律,发现“疾病—药物”潜在的关联,为癌症等难治疾病提供新的治疗思路和方案,是亟待解决的问题。



技术实现要素:

本发明针对现有技术搭建了microrna组学数据扰动平台,可以计算与疾病和药物相关的高表达microrna,通过基因表达数据的负相关,预测出疾病与药物之间的潜在关联,为更多的microrna相关疾病预测出精准的治疗药物,优化疾病治疗方案。

本发明提供的技术方案是:一种microrna组学数据扰动平台,包括预测工具模块、出版物模块和对外服务模块,其中:

预测工具模块主要是利用python编程语言与mysql数据库建立连接并进行操作,通过数据清洗、高表达基因计算、关联分析步骤构建“疾病—药物”关联模型;主要包含2个分析工具,一个是疾病和药物关联分析工具,另一个是高表达microrna分析工具;检索结果以两个表格进行呈现:一个表格显示检索疾病或药物的相关性评分;另一个表格显示命中结果中各种疾病或药物出现的频次;

出版物模块主要展示的是研究者利用所述平台数据发表的相关论文题录,即链接全文,在论文题录下方以标签的形式着重显示此论文的研究重点以及值得借鉴学习的方面;

对外服务模块主要为研究者提供专门的数据处理以及分析的服务,注册用户可以向所述平台上传问题,这些问题将统一分类汇总传输给相应的后台,后台处理给出解决方法后所述平台会及时反馈给用户;

本发明中预测工具模块、出版物模块和对外服务模块这三个模块相辅相成,相互依赖。研究人员使用预测工具所做出来的研究成果如果出版发表,发表的文献都会收录在出版物模块中;对外服务模块会具体展示出平台将会给用户提供什么服务,这些服务需要用户提供什么资料,平台会给用户提供什么资料以及收费标准等等,对外服务模块所提供的服务正是基于预测工具来实现的。

所述扰动平台其能够完成下述功能:

(1)获取series描述信息,构建series获取号(accesion)字典:通过数据库自带的gui接口下载与microrna相关的series描述信息,下载的内容包含后续程序开发所需要的序列号accession;利用python编写程序抽取series描述信息中的accession号,建立series获取号字典,存储在accession.csv文件中;

(2)获取series基因表达信息:根据获取号accesion推断出miniml文件对应的网址,然后获取相应的url,下载miniml文件;

(3)利用python针对下载下来的miniml压缩文件编写相应的解压缩程序,自动不间断的解压压缩文件;

(4)解压完成后,通过对解压得到的数据进行提取,得到同一个系列series不同样本数据的来源信息,存储在group.txt文件中;并将不同样本数据中的基因表达值合并生成一个矩阵,存储在matrix.txt文件中;

(5)通过编写的程序对(4)得到的数据进行分析计算,得到上调高表达基因与下调低表达基因,分别存储在up.csv与down.csv文件中;计算分析,给出“...发现了**个上调基因,**个下调基因”的信息,计算结果会存储在up.csv与down.csv文件中;

(6)将(5)中得到的系列series与(2)中的系列series匹配,解压得到每一个相匹配的系列series所对应的平台信息;然后选择平台platform信息中的genesymbol信息,将genesymbol与(5)得到的数据进行匹配,匹配得到的数据分别存储在up_symbol.csv与down_symbol.csv文件中;

(7)关联分析:通过疾病与药物micro表达数据的负相关计算,预测出疾病与药物之间的潜在关联。

所述的microrna组学数据扰动平台,其中,所述负相关计算是jaccard相似系数法:给定两个集合a,b,jaccard系数定义为a与b交集的大小与a与b并集的大小的比值,对疾病的上调基因和药物的下调基因、疾病的下调基因和药物的上调分别做这个运算,最终计算出来的系数值用来预测相关性的强度,值越高相关性越强,预测出疾病与药物之间的潜在关联,如果疾病与药物是负相关关系就证明了是相互抑制的作用,反之亦然。

本发明具有以下有益效果:

本发明提供的microrna组学数据扰动平台,可以通过microrna表达数据的负相关计算,预测出疾病与药物之间的潜在关联,为更多的microrna相关疾病预测出精准的治疗药物,实现同病异治和异病同治;通过对microrna相关的不同疾病高表达基因的相似度计算,建立不同疾病之间的关联,实现对复杂疾病发病机制的理解、诊断、预测和药物研发;通过对microrna相关的不同疾病高表达基因相似度的计算,建立不同化合物之间的关联,发现me-too和me-better类似化合物。最终实现化合物预测的高度自动化、智能化,实现老药新用、新药研发、临床治疗方案的优化和理论创新。

具体实施方式

一种microrna组学数据扰动平台,包括预测工具模块、出版物模块和对外服务模块,其中:

预测工具模块主要是利用python编程语言与mysql数据库建立连接并进行操作,通过数据清洗、高表达基因计算、关联分析步骤构建“疾病—药物”关联模型;主要包含2个分析工具,一个是疾病和药物关联分析工具,另一个是高表达microrna分析工具;检索结果以两个表格进行呈现:一个表格显示检索疾病或药物的相关性评分;另一个表格显示命中结果中各种疾病或药物出现的频次;

出版物模块主要展示的是研究者利用所述平台数据发表的相关论文题录,即链接全文,在论文题录下方以标签的形式着重显示此论文的研究重点以及值得借鉴学习的方面,例如:试验进展;数据生成;数据分析;分析方法;数据集成;数据标准;标志物生成;软件开发等方面;

对外服务模块主要为研究者提供专门的数据处理以及分析的服务,注册用户可以向所述平台上传问题,这些问题将统一分类汇总传输给相应的后台,后台处理给出解决方法后所述平台会及时反馈给用户;

所述扰动平台其能够完成下述功能:

(1)获取series描述信息,构建series获取号(accesion)字典:通过数据库自带的gui接口下载与microrna相关的series描述信息,下载的内容包含后续程序开发所需要的序列号accession;利用python编写程序抽取series描述信息中的accession号,建立series获取号字典,存储在accession.csv文件中;

(2)获取series基因表达信息:根据获取号accesion推断出miniml文件对应的网址,然后获取相应的url,下载miniml文件,miniml文件是xml格式文件,包含所有平台(platform)、样本(sample)和系列(series)信息的完整数据;

(3)利用python针对下载下来的miniml压缩文件编写相应的解压缩程序,自动不间断的解压压缩文件;

(4)解压完成后,通过对解压得到的数据进行提取,得到同一个系列series不同样本数据的来源信息,存储在group.txt文件中;并将不同样本数据中的基因表达值合并生成一个矩阵,存储在matrix.txt文件中;

(5)通过编写的程序对(4)得到的数据进行分析计算,得到上调高表达基因与下调低表达基因,分别存储在up.csv与down.csv文件中;计算分析,给出“...发现了**个上调基因,**个下调基因”的信息,计算结果会存储在up.csv与down.csv文件中;

(6)将(5)中得到的系列series与(2)中的系列series匹配,解压得到每一个相匹配的系列series所对应的平台信息;然后选择平台platform信息中的genesymbol信息,将genesymbol与(5)得到的数据进行匹配,匹配得到的数据分别存储在up_symbol.csv与down_symbol.csv文件中;

(7)关联分析:通过疾病与药物micro表达数据的负相关计算,预测出疾病与药物之间的潜在关联。

疾病会引起某些基因表达丰度信息的上调或下调,药物也会引起某些基因表达丰度信息的上调或下调,那么我们需要找到一种药物能够使得上调基因丰度下调,让下调基因丰度上调,这就是所谓的负相关。我们要找的就是负相关最强的这种药物作为我们最终的预测药物。负相关计算可以运用很多的算法,其中有一种算法就是jaccard相似系数,给定两个集合a,b,jaccard系数定义为a与b交集的大小与a与b并集的大小的比值。但是我们所使用的与原始的jaccard相似系数有一些差异,我们是对疾病的上调基因和药物的下调基因、疾病的下调基因和药物的上调分别做这个运算,最终计算出来的系数值,用来预测相关性的强度,值越高相关性越强。预测出疾病与药物之间的潜在关联,如果疾病与药物是负相关关系就证明了是相互抑制的作用,反之亦然。判断标准是jaccard相似系数的值,jaccard相似系数的值越高相关性越强。现利用该平台已预测出方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1