本发明属于生物基因和人工智能药物研究,尤其涉及一种基于文献中化合物数据的提取与管理方法及系统。
背景技术:
1、药物分子合成与优化领域中,很多情况下需要基于历史文献资料做分析研究。在庞大的文献资料情况下,如何提高调研、数据分析的效率显得至关重要。传统的方法通常是药化专家在阅读大量文献数据过程中人工识别认为有意义的数据,通过纯人工的方式来收录和保存数据。这种方法效率非常低,而且这个过程非常依赖于药化学家的领域知识和经验,不方便索源,效率低,在数据转化的过程中工作量庞大,很难快速推进调研和分析的速度,分析的结果数据如果想和ai相结合进一步分析,难度也比较高,整个流程也变得效率极为低下。
2、目前在药物研发过程中,会分析大量的历史经验数据,常见的数据提取方式是通过文献资料,找到有意义的药化数据,通过参考分析,来提高研发效率,如:smiles数据,药化专家通过归纳、分类,转换相应的化学结构,提取其中有意义的数据信息,然后药化专家在此基础上做进一步的分析、泛化。这种传统的技术调研、数据分析的方式不仅效率低下,而且后续信息索源方面非常困难,在当今的大数据时代,很难快速的推进,同时在信息整理的全过程全人工参与,不方便团队协作,效率低下且很容易犯错误。
3、因此,上述的现有技术确实有待提出更佳解决方案的必要性。
技术实现思路
1、针对以上现有技术中的不足,提供一种基于文献中化合物数据的提取与管理方法及系统,基于mis系统结合ai,全方位管理数据,支持全方位的药物研发过程中文献数据的挖掘、收集和提取,支持数据结合ai的智能分析、索源,极大的提高药物研发的效率,同时为了适应当前移动互联网的发展可以将mis系统支持多端适配,极大的拓展了使用场景,另外基于mis系统和ai智能对接,可以高效实现数据的快速泛化、新药化数据的推理及生成,从而提高研发效率,为整个药物研发缩短了周期。ai的全程参与也拓展了药化专家的思路,为药物研发提供了无限的可能。
2、本发明一方面提供了一种基于文献中化合物数据的提取与管理方法,基于chrome浏览器访问使用,包括:
3、s1,用户初步搜集、整理并通过chrome浏览器访问mis平台系统上传文献资料;
4、s2,mis平台系统根据所述文献资料的类型进行药化信息识别;
5、s3,将所述药化信息和所述区域数据通过分类存储数据库归类存储;其中所述分类存储数据库用于根据所述药化信息和所述区域数据的数据类型特征建立索引形成经验数据,从而便于基于所述经验数据高效进行数据检索;
6、s4,基于所述经验数据,进行数据特征的分析学习并生成新的化学数据,将所述新的化学数据提供给所述用户。
7、优选的,所述文献资料的类型包括图片类文献资料和pdf类文献资料。
8、优选的,所述s2包括:
9、s21,对于图片类文献资料,所述mis平台系统基于自动识别模块识别所述图片内的药化信息并转存,实现服务端自动转换处理以及后续方便溯源;
10、s22,对于pdf类文献资料,所述用户通过线上浏览所述pdf类文献资料,快速标注感兴趣的区域数据,mis平台系统通过识别模块自动识别所述快速标注的感兴趣的区域数据并转存,用于实现服务端自动转换处理以及后续方便溯源。
11、优选的,所述s21中所述mis平台系统为跨终端的方式访问。
12、优选的,所述药化信息和所述区域数据包括:smiles和compound name。
13、本发明的第二方面提供一种基于文献中化合物数据的提取与管理系统,基于chrome浏览器访问使用,包括:
14、数据上传模块(101),用于用户初步搜集、整理并通过chrome浏览器访问mis平台系统上传文献资料;
15、信息识别模块(102),用于mis平台系统根据所述文献资料的类型进行药化信息识别;
16、分类存储数据库(103),用于将所述药化信息和所述区域数据通过分类存储数据库归类存储;其中所述分类存储数据库用于根据所述药化信息和所述区域数据的数据类型特征建立索引形成经验数据,从而便于基于所述经验数据高效进行数据检索;
17、数据提取管理模块(104),用于基于所述经验数据,进行数据特征的分析学习并生成新的化学数据,将所述新的化学数据提供给所述用户。
18、优选的,所述文献资料的类型包括图片类文献资料和pdf类文献资料。
19、优选的,所述信息识别模块(102)包括:
20、图片类信息识别模块(1021),对于图片类文献资料,所述mis平台系统基于自动识别模块识别所述图片内的药化信息并转存,实现服务端自动转换处理以及后续方便溯源;
21、pdf类信息识别模块(1022),对于pdf类文献资料,所述用户通过线上浏览所述pdf类文献资料,快速标注感兴趣的区域数据,mis平台系统通过识别模块自动识别所述快速标注的感兴趣的区域数据并转存,用于实现服务端自动转换处理以及后续方便溯源。
22、优选的,所述药化信息和所述区域数据包括:smiles和compound name。
23、本发明的第三方面在于提供一种基于文献中化合物数据的提取与管理方法在药物开发中的应用。
24、本发明提供的方法、系统以及应用,具有如下有益的技术效果:
25、本发明创造性地将药化专家提供的文献资料通过mis识别系统而系统的管理起来,同时结合ai技术快速的识别出文献标识信息,然后进行分类管理,基于识别的药化信息通过人工智能的学习,泛化出不同的药化信息,从而加速药物研发的进程,采用这种方式克服了传统工作方式的局限性,方便数据管理、追溯,为新型药物小分子的发现与设计带来极大的便利,降低了相关工作人员对领域知识的依赖,提高了新型药物设计和开发的效率,缩短研发周期,具有较高的实用价值。
1.一种基于文献中化合物数据的提取与管理方法,其特征在于,基于chrome浏览器访问使用,包括:
2.根据权利要求1所述的一种基于文献中化合物数据的提取与管理方法,其特征在于,所述文献资料的类型包括图片类文献资料和pdf类文献资料。
3.根据权利要求2所述的一种基于文献中化合物数据的提取与管理方法,其特征在于,所述s2包括:
4.根据权利要求3所述的一种基于文献中化合物数据的提取与管理方法,其特征在于,所述s21中所述mis平台系统为跨终端的方式访问。
5.根据权利要求4所述的一种基于文献中化合物数据的提取与管理方法,其特征在于,所述药化信息和所述区域数据包括:smiles和compound name。
6.一种基于文献中化合物数据的提取与管理系统,用于实施权利要求1-5任一所述的方法,其特征在于,基于chrome浏览器访问使用,包括:
7.根据权利要求6所述的一种基于文献中化合物数据的提取与管理系统,其特征在于,所述文献资料的类型包括图片类文献资料和pdf类文献资料。
8.根据权利要求7所述的一种基于文献中化合物数据的提取与管理系统,其特征在于,所述信息识别模块(102)包括:
9.根据权利要求8所述的一种基于文献中化合物数据的提取与管理系统,其特征在于,所述药化信息和所述区域数据包括:smiles和compound name。
10.一种权利要求1-5任一所述基于文献中化合物数据的提取与管理方法在药物开发中的应用。