一种基于图数据的新药研发管理系统及方法与流程

文档序号:29445694发布日期:2022-03-30 10:58阅读:80来源:国知局
一种基于图数据的新药研发管理系统及方法与流程

1.本发明涉及信息处理技术领域,具体涉及一种基于图数据的新药研发管理系统及方法。


背景技术:

2.新药研发是一件非常耗时、耗钱、耗力的工程,在其研发阶段,将积累了数十亿至上百亿条数据,这些数据涉及到各种化合物如何治疗疾病,各种化合物靶标什么基因,各种化合物在治疗疾病的同时会带来什么副作用等。这些数据体量巨大,关联复杂,如果能够快速释放这些关联数据的价值,新药研发的周期将会大大缩减,将会有更多的患者更快用上新药,摆脱病痛的困扰。
3.但是这些数据存储在关系型数据库中,生成了tb级别的十多张关系型表格,每一次查询都需写数十条查询语言,关联多张关系表,消耗大量的时间后才能得到结果。而且新药研发的众多环节中,每一环节都涉及到大量数据的大量关联查询。无法快速查询这些海量关联数据成为了阻碍新药研发效率提升的一大拦路石。


技术实现要素:

4.本发明的发明目的在于:提供了一种帮助新药研发人员快速发现化合物、疾病、靶标基因之间的关系,加快研发进度的一种基于图数据的新药研发管理系统及方法。
5.第一方面:一种基于图数据的新药研发管理系统,包括:
6.数据采集模块,用于获取并整合医药数据;其中,所述医药数据包括化合物信息、疾病信息、靶标基因信息和副作用信息;
7.图数据模块,用于根据所述医药数据构建图模型;其中,将各化合物、疾病、靶标基因和副作用作为顶点,将各顶点相互之间的关联因素作为边;
8.查询预测模块,用于根据所获取的查询信息,将所述查询信息传送至所述图模型中进行预测,并显示所反馈的预测结果。
9.优选地,所述化合物信息包括化合物id、化合物名称、数据来源、国际化合物标识和类似化合物信息;
10.所述疾病信息包括疾病id、疾病名称和类似疾病信息;
11.所述靶标基因信息信息包括靶标基因id、靶标基因名字、基因描述和染色体;
12.所述副作用信息包括副作用id和副作用名字。
13.优选地,所述关联因素包括类似化合物、类似疾病、结合、治疗、造成和联系多个因素,且将各个因素作为对应的边类型。
14.优选地,所述边类型为类似化合物时,对应的起始点类型和终止点类型均为化合物;
15.所述边类型为类似疾病时,对应的起始点类型和终止点类型均为疾病;
16.所述边类型为结合时,对应的起始点类型为化合物,终止点类型为靶标基因;
17.所述边类型为治疗时,对应的起始点类型为化合物,终止点类型为疾病;
18.所述边类型为造成时,对应的起始点类型为化合物,终止点类型为副作用;
19.所述边类型为联系时,对应的起始点类型为疾病,终止点类型为靶标基因。
20.优选地,查询时,采用图查询语言,并对所述预测结果进行排序。
21.第二方面:一种基于图数据的新药研发管理方法,应用于第一方面所述的一种基于图数据的新药研发管理系统,所述方法包括:
22.获取并整合医药数据;其中,所述医药数据包括化合物信息、疾病信息、靶标基因信息和副作用信息;
23.根据所述医药数据构建图模型;其中,将各化合物、疾病、靶标基因和副作用作为顶点,将各顶点相互之间的关联因素作为边;
24.根据所获取的查询信息,将所述查询信息传送至所述图模型中进行预测,并显示所反馈的预测结果。
25.优选地,所述化合物信息包括化合物id、化合物名称、数据来源、国际化合物标识和类似化合物信息;
26.所述疾病信息包括疾病id、疾病名称和类似疾病信息;
27.所述靶标基因信息信息包括靶标基因id、靶标基因名字、基因描述和染色体;
28.所述副作用信息包括副作用id和副作用名字。
29.优选地,所述关联因素包括类似化合物、类似疾病、结合、治疗、造成和联系多个因素,且将各个因素作为对应的边类型。
30.优选地,所述边类型为类似化合物时,对应的起始点类型和终止点类型均为化合物;
31.所述边类型为类似疾病时,对应的起始点类型和终止点类型均为疾病;
32.所述边类型为结合时,对应的起始点类型为化合物,终止点类型为靶标基因;
33.所述边类型为治疗时,对应的起始点类型为化合物,终止点类型为疾病;
34.所述边类型为造成时,对应的起始点类型为化合物,终止点类型为副作用;
35.所述边类型为联系时,对应的起始点类型为疾病,终止点类型为靶标基因。
36.优选地,查询时,采用图查询语言,并对所述预测结果进行排序。
37.采用上述技术方案,具有以下优点:本发明提出的一种基于图数据的新药研发管理系统及方法,通过根据化合物、疾病、靶标基因、副作用等信息构成关联关系网络,得到图模型,从而对化合物、疾病、靶标基因和副作用的关联情况进行全维度的呈现,从而帮助新药研发人员快速发现化合物、疾病与靶标基因之间的关系,加快新药的研发进度,进而提升新药研发效率。
附图说明
38.图1是本发明实施例所提供的一种基于图数据的新药研发管理系统的系统框图;
39.图2是本发明实施例所提供的一种图模型的结构示意图;
40.图3是本发明实施例所提供的一种预测结果的示意图;
41.图4是本发明实施例所提供的一种基于图数据的新药研发管理方法的流程图。
具体实施方式
42.下面将详细描述本发明的具体实施例,应当注意,这里描述的实施例只用于举例说明,并不用于限制本发明。在以下描述中,为了提供对本发明的透彻理解,阐述了大量特定细节。然而,对于本领域普通技术人员显而易见的是:不必采用这些特定细节来实行本发明。在其他实例中,为了避免混淆本发明,未具体描述公知的电路,软件或方法。
43.在整个说明书中,对“一个实施例”、“实施例”、“一个示例”或“示例”的提及意味着:结合该实施例或示例描述的特定特征、结构或特性被包含在本发明至少一个实施例中。因此,在整个说明书的各个地方出现的短语“在一个实施例中”、“在实施例中”、“一个示例”或“示例”不一定都指同一实施例或示例。此外,可以以任何适当的组合和、或子组合将特定的特征、结构或特性组合在一个或多个实施例或示例中。此外,本领域普通技术人员应当理解,在此提供的示图都是为了说明的目的,并且示图不一定是按比例绘制的。
44.下面结合附图,对本发明作详细的说明。
45.参考图1、图2所示,本发明实施例所提供的一种基于图数据的新药研发管理系统,包括:
46.数据采集模块,用于获取并整合医药数据;其中,所述医药数据包括化合物信息、疾病信息、靶标基因信息和副作用信息。
47.具体地,所述医药数据包括来源于互联网公开的医药数据,以及制药公司自身所积累的数据,并将这些数据作为样本数据集;所述样本数据集的规模:样本数据集样本数据集包含137个疾病、1552种化合物、5734种副作用、20945个靶标基因以及各点间相似、治疗、造成等17万条边的关系;其中:
48.所述样本数据集内容详细说明:
49.·
化合物信息:如化合物id、化合物名称、数据来源、国际化合物标识、url;
50.·
疾病信息:如疾病id、疾病名称、数据来源、url;
51.·
靶标基因信息:如靶标基因id、靶标基因名字、数据来源、url、基因描述、染色体;
52.·
副作用信息:如副作用id、副作用名字、数据来源、url;
53.·
类似化合物信息:如两化合物相似性、数据来源;
54.·
类似疾病信息:如数据来源;
55.·
化合物造成副作用、化合物结合靶标基因、化合物治疗疾病、疾病联系靶标基因信息。
56.图数据模块,用于根据所述医药数据构建图模型;其中,将各化合物、疾病、靶标基因和副作用作为顶点,将各顶点相互之间的关联因素作为边。
57.具体地,所述关联因素包括类似化合物、类似疾病、结合、治疗、造成和联系多个因素,且将各个因素作为对应的边类型。
58.参照表1所示,图模型中的点类型有:
59.表1
[0060][0061]
对应的,所述边类型为类似化合物时,对应的起始点类型和终止点类型均为化合物;
[0062]
所述边类型为类似疾病时,对应的起始点类型和终止点类型均为疾病;
[0063]
所述边类型为结合时,对应的起始点类型为化合物,终止点类型为靶标基因;
[0064]
所述边类型为治疗时,对应的起始点类型为化合物,终止点类型为疾病;
[0065]
所述边类型为造成时,对应的起始点类型为化合物,终止点类型为副作用;
[0066]
所述边类型为联系时,对应的起始点类型为疾病,终止点类型为靶标基因。
[0067]
具体的,参照表2所示,图模型中的边类型有:
[0068]
表2
[0069]
起始点类型边类型终止点类型属性化合物类似化合物化合物相似性、数据来源化合物结合靶标基因数据来源化合物治疗疾病数据来源化合物造成副作用数据来源疾病联系靶标基因数据来源疾病类似疾病疾病数据来源
[0070]
查询预测模块,用于根据所获取的查询信息,将所述查询信息传送至所述图模型中进行预测,并显示所反馈的预测结果。
[0071]
具体地,查询时,采用图查询语言,并对所述预测结果进行排序;应用时,采用的cypher、gremlin等图查询语言,可以将原本关系型数据库的几十条关联查询浓缩为一条,减少代码量;同时,可根据所得化合物之间的相似性进行排序;查询时,所涉及的点类型,对应有至少一种所述关联因素,具体可参照表2。
[0072]
进一步地,为便于更好的理解本方案,下面以具体的业务诉求进行举例说明。
[0073]
业务诉求1:
[0074]
在新药研发的过程中,苗头化合物的寻找占据大量时间与精力,现阶段寻找苗头化合物的途径为随机筛选,具有盲目性;使用图数据技术可以从相似性、相同作用机制的角度出发,进行苗头化合物的预测,提升新药研发效率。
[0075]
查询说明:
[0076]
找到疾病,例如,cervical cancer(宫颈癌)的类似疾病;
[0077]
找到能够治疗类似疾病的化合物作为预测的苗头化合物。
[0078]
查询语句:
[0079]
//寻找疾病cervical cancer(宫颈癌)的类似疾病,和对类似疾病具有治疗作用
化合物
[0080]
match p=(j:疾病{name:'cervical cancer'})-[r:类似疾病]-(h1)-[r1:治疗]-(f)
[0081]
//返回疾病与预测的苗头化合物
[0082]
return p
[0083]
查询结果参照图3所示,首先查询出与所述宫颈癌的类似疾病,子宫癌与卵巢癌;然后再根据治疗这一关联因素,找到能够治疗类似疾病的化合物作为预测的苗头化合物;
[0084]
从图3中可通过疾病的相似性找到可能能够治疗疾病cervical cancer(宫颈癌)的化合物,对同时能治疗两种相似疾病的化合物可提前实验验证。
[0085]
业务诉求2:
[0086]
查询说明:
[0087]
找到能够治疗疾病sarcoma(肉瘤)的化合物;
[0088]
寻找上述化合物的相似化合物,作为预测的苗头化合物。
[0089]
查询语句:
[0090]
//寻找能够治疗疾病sarcoma(肉瘤)的化合物的相似化合物。
[0091]
match p=(j:疾病{name:'sarcoma'})-[r:治疗]-(h1)-[r1:类似化合物]-(f)
[0092]
//返回治疗疾病sarcoma(肉瘤)的化合物,与预测的苗头化合物。
[0093]
return p
[0094]
最后,通过化合物的相似性找到可能治疗疾病sarcoma(肉瘤)的化合物,再对化合物的相似度进行排序后进行实验验证。
[0095]
业务诉求3:
[0096]
查询说明:
[0097]
寻找能够治疗疾病primary biliary cirrhosis(原发性胆汁性肝硬化)的化合物;
[0098]
找到该化合物的靶标基因与副作用;
[0099]
找到与该化合物同时具有相同靶标基因与副作用的化合物,将这些化合物作为预测的苗头化合物。
[0100]
查询语句:
[0101]
//寻找能够治疗疾病primary biliary cirrhosis(原发性胆汁性肝硬化)的化合物,并与该化合物具有相同副作用与结合靶标基因的化合物。
[0102]
match p=(j:疾病{name:'primary biliary cirrhosis'})《-[r:治疗]-(h1:化合物)-[r1:造成]-》(f)《-[r2:造成]-(h2:化合物)-[r3:结合]-》(b)《-[r4:结合]-(h1)
[0103]
//返回与能治疗疾病sarcoma(肉瘤)有相同副作用与结合基因的化合物,视为预测的苗头化合物。
[0104]
return p
[0105]
最后,可通过化合物相同的结合基因与副作用找到可能治疗疾病primary biliary cirrhosis(原发性胆汁性肝硬化)的化合物,可对化合物进行实验验证。
[0106]
采用上述方案,通过依据化合物、疾病、靶标基因、副作用等信息构成关联关系网络,得到图模型,从而对化合物、疾病、靶标基因和副作用的关联情况进行全维度的呈现,从
而帮助新药研发人员快速发现化合物、疾病与靶标基因之间的关系,加快新药的研发进度,进而提升新药研发效率。
[0107]
基于上述系统的发明构思,参考图4所示,本发明实施例还提供的一种基于图数据的新药研发管理方法,应用于上述所述的一种基于图数据的新药研发管理系统,所述方法包括:
[0108]
s101,获取并整合医药数据;其中,所述医药数据包括化合物信息、疾病信息、靶标基因信息和副作用信息。
[0109]
具体地,所述医药数据包括来源于互联网公开的医药数据,以及制药公司自身所积累的数据。
[0110]
所述化合物信息包括化合物id、化合物名称、数据来源、国际化合物标识和类似化合物信息;
[0111]
所述疾病信息包括疾病id、疾病名称和类似疾病信息;
[0112]
所述靶标基因信息信息包括靶标基因id、靶标基因名字、基因描述和染色体;
[0113]
所述副作用信息包括副作用id和副作用名字。
[0114]
s102,根据所述医药数据构建图模型;其中,将各化合物、疾病、靶标基因和副作用作为顶点,将各顶点相互之间的关联因素作为边。
[0115]
具体地,所述关联因素包括类似化合物、类似疾病、结合、治疗、造成和联系多个因素,且将各个因素作为对应的边类型。
[0116]
对应的,所述边类型为类似化合物时,对应的起始点类型和终止点类型均为化合物;
[0117]
所述边类型为类似疾病时,对应的起始点类型和终止点类型均为疾病;
[0118]
所述边类型为结合时,对应的起始点类型为化合物,终止点类型为靶标基因;
[0119]
所述边类型为治疗时,对应的起始点类型为化合物,终止点类型为疾病;
[0120]
所述边类型为造成时,对应的起始点类型为化合物,终止点类型为副作用;
[0121]
所述边类型为联系时,对应的起始点类型为疾病,终止点类型为靶标基因。
[0122]
s103,根据所获取的查询信息,将所述查询信息传送至所述图模型中进行预测,并显示所反馈的预测结果。
[0123]
具体地,查询时,采用图查询语言,并对所述预测结果进行排序;应用时,采用的cypher、gremlin等图查询语言,可以将原本关系型数据库的几十条关联查询浓缩为一条,减少代码量;同时,可根据所得化合物之间的相似性进行排序。
[0124]
需要说明的是,关于该方法更为具体的工作过程和举例说明,请参考前述系统实施例部分,在此不再赘述。
[0125]
采用上述方法,利用构建的图模型,对化合物、疾病、基因的关联情况进行全维度的呈现,从而可以帮助新药研发人员快速发现化合物、疾病、基因之间的关系,加快新药的研发进度。
[0126]
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术
方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1