生物物质分析方法及装置以及程序与流程

文档序号:18796591发布日期:2019-09-29 19:46阅读:372来源:国知局
生物物质分析方法及装置以及程序与流程

本公开涉及一种推测多个生物物质在生物体内发挥作用时的依存关系的生物物质分析方法及装置以及程序。



背景技术:

在生物体内作为rna(ribonucleicacid,核糖核酸)及蛋白质存在多数(人体中为几万个以上)的基因。这些基因的量或状态(例如化学修饰)相互依存并且经时间发生变化。

而且,这些基因通过该依存关系在生物体内发挥作用,因此,例如由药剂等处理细胞时,通过分析这些基因的量或状态具有哪一种依存关系而经时间发生变化,能够阐明药剂的作用机制。

其中,在国际公开第2010/064414号(专利文献1)中,示出根据表达量的时间变化的类似性对多数基因进行分组的方法。并且,在美国专利申请公开第2009/0112480号说明书(专利文献2)中,示出根据表达数据的类似性及与这些相关的生物学功能的类似性对多数基因进行分组的方法。

然而,专利文献1及专利文献2中未提出任何调查多数基因的表达量的依存关系的方法。仅对多数基因进行分组,很难获知如上述的药剂等的作用机制。

在国际公开第2004/048532号(专利文献3)中示出由多数基因的表达量的时序数据推测这些基因的依存关系的方法。



技术实现要素:

发明要解决的技术课题

然而,在专利文献3所述的方法中,存在数据的测量时点数少于作为分析对象的基因的个数时,很难确定其推测结果的问题。在多数时点测量基因的表达量时花费费用和功夫,因此有时还存在测量时点数比基因数小于1成以上的情况,这种情况大部分为不确定推测结果。

该问题因以下理由发生。时序数据的测量时点数小于基因数时,其个数的差异越大,多个基因的时序数据越明显,容易发生表示几乎相同的时间变化的事态。由此,在推测时序数据的依存关系的算法中,变得很难区别多个基因,从而变得很难确定推测结果。

本公开鉴于上述问题而完成,其目的在于提供一种根据在多个时点测量多数生物物质的量或状态值的时序数据,推测生物物质之间的依存关系时,即使在数据的测量时点数少于生物物质的个数的情况下,易于确定推测结果的生物物质分析方法及装置以及程序。

用于解决技术课题的手段

本公开的生物物质分析方法包括如下步骤:准备按照每个生物物质分别在多个时点获取表示多个生物物质的量或状态的值的时序数据;根据每个生物物质的时序数据的时间变化,将多个生物物质分成多个组;根据各组中所含的至少1个以上生物物质的时序数据,通过运算处理而生成表示各组的状态的代表时序数据;及根据各组的代表时序数据,通过运算处理推测组之间的依存关系。

并且,在上述本公开的生物物质分析方法中,根据每个生物物质的时序数据的时间变化和各生物物质的生物学功能的类似性,能够将多个生物物质分成多个组。

并且,在上述本公开的生物物质分析方法中,根据各生物物质的基因本体、各生物物质的规范途径、各生物物质所具有的上游因子、各生物物质的表现系统或与各生物物质有关的疾病,能够评价各生物物质的生物学功能的类似性。

并且,在上述本公开的生物物质分析方法中,将多个生物物质分成多个组时,能够允许至少1个生物物质属于多个组。

并且,在上述本公开的生物物质分析方法中,预先准备多个参考时序数据,且通过比较多个参考时序数据与每个生物物质的时序数据,能够将多个生物物质分成多个组。

并且,在上述本公开的生物物质分析方法中,推测组之间的依存关系时,能够将各组的代表时序数据作为其他组的代表时序数据的函数来表示。

并且,在上述本公开的生物物质分析方法中,推测组之间的依存关系时,能够将各组的代表时序数据的第1时点的值作为在其他组的代表时序数据的第1时点之前的第2时点的值的函数来表示。

并且,在上述本公开的生物物质分析方法中,推测组之间的依存关系时,能够将各组的代表时序数据作为其他组的代表时序数据的条件概率或条件概率密度函数来表示。

并且,在上述本公开的生物物质分析方法中,能够将各组的代表时序数据设为属于各组的生物物质的时序数据的各时点的值的平均值、中央值、众数、离散、标准偏差或三阶以上的矩。

并且,在上述本公开的生物物质分析方法中,表示生物物质的量的值能够设为表示生物物质的表达量、存在量、浓度或密度的值。

并且,在上述本公开的生物物质分析方法中,表示生物物质的状态的值能够设为表示有无生物物质的表达的值、表示存在的有无的值、表示有无化学修饰的值或表示具有化学修饰的生物物质与没有化学修饰的生物物质的比例的值。

并且,在上述本公开的生物物质分析方法中,多个生物物质能够包含dna(deoxyribonucleicacid,脱氧核糖核酸)、rna(ribonucleicacid)、蛋白质及生物体内的低分子化合物中的至少1个以上。

并且,在上述本公开的生物物质分析方法中,能够将各组设为节点,并生成利用边缘连结与存在依存关系的组对应的节点之间的网络图。

并且,在上述本公开的生物物质分析方法中,能够在网络图中附加和与各节点对应的组的生物学功能相关的字符信息或图、表示与各节点对应的组中所含的生物物质的名称、符号、结构或组成的图或者与生物物质相关的字符信息而显示。

并且,在上述本公开的生物物质分析方法中,接收网络图中所含的节点的选择,并能够在网络图中附加和与该被选择的节点对应的组的生物学功能相关的字符信息或图、表示与被选择的节点对应的组中所含的生物物质的名称、符号、结构或组成的图或者与生物物质相关的字符信息而显示。

本公开的生物物质分析装置具备:存储部,存储按照每个生物物质分别在多个时点获取表示多个生物物质的量或状态的值的时序数据;分类部,根据每个生物物质的时序数据的时间变化,将多个生物物质分成多个组;及依存关系推测部,根据各组中所含的至少1个以上生物物质的时序数据,生成表示各组的状态的代表时序数据,且根据各组的代表时序数据,推测组之间的依存关系。

本公开的生物物质分析程序使计算机执行如下步骤:存储按照每个生物物质分别在多个时点获取表示多个生物物质的量或状态的值的时序数据的步骤;根据每个生物物质的时序数据的时间变化,将多个生物物质分成多个组的步骤;及根据各组中所含的至少1个以上生物物质的时序数据,生成表示各组的状态的代表时序数据,且根据各组的代表时序数据,通过运算处理推测组之间的依存关系的步骤。

发明效果

根据本公开的生物物质分析方法及装置以及程序,准备按照每个生物物质分别在多个时点获取表示多个生物物质的量或状态的值的时序数据,且根据每个生物物质的时序数据的时间变化,将多个生物物质分成多个组。并且,根据各组中所含的至少1个以上生物物质的时序数据,通过运算处理生成表示各组的状态的代表时序数据,且根据各组的代表时序数据,通过运算处理推测组之间的依存关系。

如上,若设为在根据每个生物物质的时序数据的时间变化,对多个生物物质进行分组的基础上,推测这些组之间的依存关系,则组数与测量时点数的差异相较于生物物质数与测量时点数的差异变小,因此能够容易确定依存关系的推测。

附图说明

图1是用于说明本公开的生物物质分析方法的第1实施方式的流程图。

图2是表示每个生物物质的时序数据的一例的图。

图3是用于说明多个时序数据的分组的说明图。

图4是表示根据组中所含的多个生物物质的时序数据,获取1个代表时序数据的说明图。

图5是用于说明根据组的代表时序数据推测组之间的依存关系的方法的概念图。

图6是用于说明基于贝叶斯网络法的依存关系的推测方法的概略的图。

图7是用于说明本公开的生物物质分析方法的第2实施方式的流程图。

图8是用于说明根据每个生物物质的时序数据的时间变化的类似性及各生物物质的生物学功能的类似性进行分组的方法的图。

图9是用于说明允许1个生物物质属于多个组的图。

图10是表示预先设定的参考时序数据的一例的图。

图11是表示相对于网络图附加组的名称及生物物质的名称而显示的一例的图。

图12是用于说明根据相邻的2时点的时序数据的值的变化进行分组的方法的图。

图13是表示网络图的一例的图。

图14是表示使用本公开的生物物质分析装置的一实施方式的生物物质分析系统的概略结构的框图。

具体实施方式

以下,参考附图对本公开的生物物质分析方法的第1实施方式进行详细说明。图1是用于说明本实施方式的生物物质分析方法的流程图。

在本实施方式的生物物质分析方法中,首先,准备按照每个生物物质分别在多个时点获取表示多个生物物质的量或状态的值的时序数据(s10)。

作为多个生物物质,例如包含dna(deoxyribonucleicacid)、rna(ribonucleicacid)、蛋白质及生物体内的低分子化合物中的至少1个。更具体而言,作为多个生物物质,可以是具有基因a的rna、基因b的rna及基因c的rna等不同基因的rna,也可以是dna及rna的组合等。

而且,作为表示生物物质的量的值,例如能够使用生物物质的表达量、存在量、浓度或密度等。并且,作为表示生物物质的状态的值,能够使用表示有无生物物质的表达的值、表示存在的有无的值、表示有无化学修饰的值或表示具有化学修饰的生物物质与没有化学修饰的生物物质的比例。

作为表示有无生物物质的表达的值、表示存在的有无的值及表示有无化学修饰的值,例如将表示“有”的值设为“1”,将表示“无”的值设为“0”等,并预先设定表示“有”的值和表示“无”的值。并且,作为有无化学修饰,例如由有无磷酸化或有无甲基化等。

表示多个生物物质的量或状态的值可以设为例如通过进行微矩阵测量等而获取,也可以设为通过经由互联网等获取保存在公共数据库等中的数据而准备。作为这种数据库,例如能够使用geneexpressionomnibus(基因表达数据库)。更具体而言,能够使用测量人类胚胎时的器官产生过程中的基因表达的数据(参考https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=gse18887)。该数据通过fang等获取(devcell,19(1):174-84,2010)。

表示多个生物物质的量或状态的值在生物物质分别在多个时点按时序测量,且作为时序数据获取。图2是表示关于生物物质1~n分别获取的时序数据的一例的图。

接着,在本实施方式的生物物质分析方法中,根据图2所示的每个生物物质的时序数据的时间变化的类似性,将多个生物物质分成多个组(s12)。具体而言,如图3所示,通过将时间变化类似的时序数据彼此组合为1个组,而将与其类似的时序数据对应的生物物质组合为1个组。关于时序数据的类似性,例如计算各时序数据的类似度,并将预先设定的阈值以上的时序数据组合为1个组即可。

接着,如上述,将多个生物物质分成多个组之后,根据各组中所含的至少1个以上生物物质的时序数据,并通过运算处理生成表示各组的状态的代表时序数据(s14)。图4是表示根据1个组中所含的生物物质1~生物物质5为止的时序数据获取1个代表时序数据的说明图。

关于组的代表时序数据,例如通过计算属于该组的生物物质的时序数据的各时点的值的平均值、中央值、众数、离散、标准偏差或三阶以上的矩而生成即可。具体而言,图4所示的一例的情况下,计算出生物物质1~生物物质5的各时序数据的第1时点的值的平均值,将其设为代表时序数据的第1时点的值,计算出各时序数据的第2时点的值的平均值,将其设为代表时序数据的第2时点的值,同样地,计算出各时序数据的第n时点的值的平均值,将其作为代表时序数据的第n时点的值,来生成代表时序数据即可。

接着,在本实施方式的生物物质分析方法中,如上述,根据所生成的各组的代表时序数据,并通过运算处理推测组之间的依存关系(s16)。

其中,根据组的代表时序数据,对推测组之间的依存关系的方法,使用图5进行概略的说明。图5中分别表示组x、组y及组z的代表时序数据。而且,在组x的代表时序数据中,在时点t上的值变得最大,且在组y的代表时序数据中,在时点t+1上的值变得最大。即,与组x的代表时序数据的值成为最大值相应,组y的代表时序数据增加而成为最大值。另外,组x的代表时序数据的值在时点t+1上成为最大之后,组z的代表时序数据在时点t+2上的值大幅减少。

如上,推测为第1组的代表时序数据与第2组的代表时序数据持关联性地发生变化时,推测为第1组与第2组存在依存关系。

例如图6a及图6b所示,关于如上述的组之间的依存关系,能够将各组的代表时序数据的第1时点(时刻t)的值作为在其他组的代表时序数据的第1时点之前的第2时点(时刻t-1)的值的函数进行模型化。由此,特定时点上的各组的状态还能够表现为依存于其他组的过去的状态。在图6a中的α~ζ分别表示各组。例如,与时刻t-1上的组α的代表时序数据的变化相应地,在时刻t上,其他组的代表时序数据发生变化时,推测为组α与其他组之间有依存关系。图6a所示的例子中,推测为组α依存于组β,组γ依存于组β,组δ依存于组α、β、γ,组ε依存于组β、γ,组ζ依存于组β。设为如上,特定时点上的各组的状态还能够表现为依存于其他组的过去的状态。

并且,如上述,将各组的代表时序数据的值作为其他组的代表时序数据的值的函数表示时,可以作为其他组的代表时序数据的条件概率或条件概率密度函数来表示。描述生物物质的行为的数据包含干扰,因此通过进行使用概率的记载,能够更准确地推测在生物体内发生的行为。

另外,在本实施方式中,示出有利用贝叶斯网络将组之间的依存关系进行模型化而推测的一例,但并不限定于此,可以利用其它公知方法例如布尔网络及微分方程式系统等进行模型化。

图6b是表示将各组设为节点,并利用边缘连结与存在依存关系的组对应的节点之间的网络图的一例。图6b所示的网络图例如能够显示于显示装置等中。通过如上显示网络图,以使用户更容易了解依存关系。

根据上述实施方式的生物物质分析方法,设为在根据每个生物物质的时序数据的时间变化,对多个生物物质进行分组的基础上,推测这些组之间的依存关系,因此组数与测量时点数的差异相较于生物物质数与测量时点数的差异变小,因此能够容易确定依存关系的推测。

接着,对本公开的生物物质分析方法的第2实施方式进行说明。图7是用于说明本实施方式的生物物质分析方法的流程图。在上述第1实施方式的生物物质分析方法中,设为根据每个生物物质的时序数据的时间变化的类似性,对多个生物物质进行分组,但是,在第2实施方式中,进一步还考虑各生物物质的生物学功能的类似性来进行分组(s22)。

例如,如图8所示,根据每个生物物质的时序数据的时间变化的类似性,分组成组1及组2之后,进一步根据属于组1的各生物物质的生物学功能的类似性,将组1分组成组1_1、组1_2及组1_3,且将组2分组成组2_1及组2_2。

关于各生物物质的生物学功能的类似性的评价,例如根据是否具有共同的基因本体、是否属于共同的规范途径、是否具有共同的上游因子、是否与共同的表现系统相关或者是否与共同的疾病相关来进行即可。

另外,如上述,根据每个生物物质的时序数据的时间变化的类似性及各生物物质的生物学功能的类似性,对多个生物物质进行分组时,可以允许至少1个生物物质属于多个组。图9是表示1个生物物质属于多个组的一例的图。图9所示的1个黑圆表示1个生物物质。图9所示的例子中,存在属于2个组的生物物质及属于3个组的生物物质。

生物物质存在与多个生物学功能相关的案例。如上述,通过允许1个以上的生物物质属于2个以上的组,获得在生物体内实际发生的行为的更准确的推测结果。

另外,对还使用除了如上述各生物物质的生物学功能的类似性进行分组之外的步骤(图7所示的s20、s24、s26),第2实施方式的生物物质分析方法与第1实施方式的生物物质分析方法相同。

如第1实施方式的生物物质分析方法,仅根据每个生物物质的时序数据的时间变化的类似性进行分组,多数生物物质组合成极少数的组,从而存在即使推测出组之间的依存关系,例如对获知药剂等的作用机制的目的也得不到充分的效果的情况。根据第2实施方式的生物物质分析方法,基于时序数据的时间变化的类似性及生物学功能的类似性对多个生物物质进行分组,因此能够减少或消除上述问题。

并且,存在即使推测出生物物质之间的依存关系,人类也很难了解其生物学意义的情况。相对于此,如第2实施方式的生物物质分析方法,生物物质根据生物学功能的类似性被分组,推测出这些组之间的依存关系时,能够由功能单元解释推测结果,因此变得容易理解。

另外,在上述实施方式的生物物质分析方法中,通过计算每个生物物质的时序数据的类似度,对多个生物物质进行分组,但作为分组的方法并无限定。例如,如图10所示,可以预先准备多数参考时序数据,通过比较该参考时序数据与每个生物物质的时序数据,将多个生物物质分成多个组。即,也可以设为以与相同的参考时序数据类似的时序数据对应的生物物质彼此属于相同组的方式进行分组。

并且,将图6b所示的网络图显示于显示装置时,如图11所示,可以设为对与各组对应的节点,显示该组的名称及组中所含的生物物质的名称。并且,生物物质的名称并无限定,可以设为在网络图中附加与其他生物物质相关的字符信息、表示生物物质的符号、生物物质的结构或表示生物物质的组成的图等来显示。并且,可以在网络图中附加和与组中所含的生物物质相同的生物学功能相关的字符信息或图等来显示。

另外,如上述,显示组的名称等时,节点的个数较多的情况下,存在很难对所有的节点显示组的名称等的情况。因此,可以设为例如通过接收来自鼠标及键盘等输入装置的输入指示,接收网络图中所含的节点的选择,并仅对被选择的该节点附加组的名称及生物物质的名称等来显示。由此,用户能够仅显示所关心的信息,从而能够容易看到网络图。

接着,对上述第2实施方式的生物物质分析方法的具体的一例进行说明。其中,对测量人类胚胎时的器官产生过程中的基因表达的数据进行分析的例子进行说明。

首先,从作为公共的数据库的geneexpressionomnibus获取测量上述基因表达的数据。另外,上述数据利用微矩阵测量carnegie阶段(根据胚胎形态的特征对发育进行分阶段的标准)的9至14的6时点中的多数基因的表达而获得。

关于每个基因,通过将6时点中的基因的表达量的值转换成源自时间平均的差分值而成标准化,由此计算每个基因的时序数据。

而且,通过分组对时间变化类似的时序数据进行了分组。具体而言,判定具有5个相邻2时点(例如阶段从9向10转变的2时点等)中的时序数据的值的变化是否增加、不变或减少,来分类为图12所示的253(35)组。在该分类中,在5个所有相邻2时点之间判定为“不变”的时序数据从后述的分析中排除。

接着,如图8所示,关于如上述分类的各组,进一步通过生物学功能类似的基因彼此组合,将组中所含的多个基因进行分组。具体而言,使用作为公共web按钮的david(https://david.ncifcrf.gov/)的functionalannotationclustering(功能注释聚类),对具有类似的基因本体·术语(http://www.geneontology.org/)的基因进行分组。此时,允许存在分配成2组以上的基因。

如此,根据每个基因的时序数据的时间变化的类似性及各基因的生物学功能的类似性进行分组的结果,获得了468个组。

接着,通过计算属于各组的基因的时序数据的各时点的值的平均值生成各组的代表时序数据。

而且,利用贝叶斯网络法推测468组的代表时序数据之间的时间依存关系。具体而言,通过对sign-bn软件(http://sign.hgc.jp/)赋予468组的代表时序数据而进行依存关系的推测。

而且,根据所推测的依存关系,将各组设为节点,通过利用边缘连结具有依存关系的节点彼此,而生成如图13所示的网络图。由此,获得了如具有总括器官产生的功能的少数组控制与个别器官的形成相关的多数组的状态的产生生物学的见解匹配的分层结构。图13中,粗线的圆标记表示的2个组位于网络的最上游,作为成分主要包含转录因子的基因。在这些2个的下游包含所有组的85%,示出了少数组控制多数组的状态。

接着,关于用于实施上述第1及第2实施方式的生物物质分析方法的生物物质分析系统进行说明。图14是表示使用本公开的生物物质分析装置的一实施方式的生物物质分析系统1的概略结构的框图。

如图14所示,生物物质分析系统1具备生物物质分析装置10、显示装置20及输入装置30。

生物物质分析装置10由具备中央处理装置、半导体存储器及硬盘等的计算机构成,硬盘安装有本公开的生物物质分析程序的一实施方式。而且,通过中央处理装置执行该生物物质分析程序,由此图1所示的存储部11、分类部12、依存关系推测部13及控制部14发挥作用,由此,通过计算机执行存储上述每个生物物质的时序数据的步骤、根据每个生物物质的时序数据的时间变化,将多个生物物质分成多个组的步骤、根据各组中所含的至少1个以上的生物物质的时序数据,生成表示各组的状态的代表时序数据,且根据该各组的代表时序数据,推测组之间的依存关系的步骤。

存储部11由半导体存储器或硬盘等存储介质构成,并存储上述每个生物物质的时序数据。

分类部12根据每个生物物质的时序数据的时间变化将多个生物物质分成多个组。分类部12例如使用上述david的functionalannotationclustering进行分组。关于具体的分组方法,与上述第1及第2实施方式的生物物质分析方法相同。另外,实施第2实施方式的生物物质分析方法时,关于各生物物质的生物学功能,与各生物物质及其时序数据建立关联而预先设定。

依存关系推测部13根据各组中所含的至少1个以上的生物物质的时序数据,生成表示各组的状态的代表时序数据,且根据该各组的代表时序数据,推测组之间的依存关系。依存关系推测部13例如利用上述sign-bn软件推测组之间的依存关系。对具体的组之间的依存关系的推测方法,也与上述第1及第2实施方式的生物物质分析方法相同。

控制部14由中央处理装置构成,并控制整个生物物质分析装置10。

显示装置20由液晶显示器等构成,并通过基于控制部14的控制显示上述网络图等。

输入装置30由鼠标及键盘等构成,接收从显示于显示装置20的网络图中所含的多个节点中任一节点的选择。通过输入装置30接收节点的选择时,在显示装置20中显示与该节点对应的组的名称及该组中所含的生物物质的名称等。

日本申请专利2017-024633号的公开,其整体内容通过参考编入本说明书中。

本说明书中记载的所有文献、专利申请和技术标准通过参考编入本说明书中,其程度与个别的文献、专利申请或技术标准通过参考具体且个别描述的情况相同。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1