X射线衍射数据分析系统的制作方法

文档序号:17597824发布日期:2019-05-07 19:45阅读:377来源:国知局
X射线衍射数据分析系统的制作方法

本发明属于晶体结构的分析领域,具体涉及一种x射线衍射数据分析系统,通过批量处理、自动化执行及可视化分析,提高x射线衍射数据处理效率。



背景技术:

xrpd,即通常所说的x射线粉末衍射(x-raypowderdiffraction,xrpd)。通常应用于晶体结构的分析。x射线是一种电磁波,入射到晶体时在晶体中产生周期性变化的电磁场。引起原子中的电子和原子核振动,因原子核的质量很大振动忽略不计。振动着的电子是次生x射线的波源,其波长、周相与入射光相同。基于晶体结构的周期性,晶体中各个电子的散射波相互干涉相互叠加,称之为衍射。散射波周相一致相互加强的方向称衍射方向,产生衍射线。

x射线对于晶体的衍射强度是由晶体晶胞中原子的元素种类、数目及其排列方式决定的。x射线衍射技术已经成为最基本、最重要的一种结构测试手段,在材料科学、生命医学、化学化工、环境科学等众多领域发挥了积极的作用。

药物结晶在制药工艺中粒子形成,并且确定稳定性和最终剂型的药物释放性能上起着重要作用,而杂质的存在会对药品的药效产生不利影响,晶体微观结构也会影响药物性能,因此如何提高结晶纯度和质量十分重要。

当前用于x射线衍射数据分析的系统主要为针对单一数据样本进行精细的处理、加工,如精修、定量分析等,以达到求解晶体结构的目的。因此工具批量处理能力不足,单一样本处理操作成本高;对大量数据的统计分析能力不足;并发计算能力不足。



技术实现要素:

针对上述技术问题,本发明提供x射线衍射数据分析系统,操作更高效,主要应用于制药工业中,药物晶型研究环节,包括盐型的筛选、共晶的筛选、多晶型筛选及单晶培养等。主要表现为,对实验室产生的大量xrpd数据进行批量处理、加工、比对等,提高数据处理环节的效率,降低时间成本,进而加速药物研发的速度。

具体技术方案为:

x射线衍射数据分析系统,包括如下模块:

格式转换模块,基于数据来源的多样式,提供多种原始数据的数据格式转换,包含如下两种类型的数据:分子或晶体结构数据,粉末衍射数据或峰数据;

数据处理模块,用于对粉末衍射数据进行去噪、去本底减背景及数据识别;

数据分析模块,用于对粉末衍射数据进行分析;分析的内容包括寻峰、求面积、重心、积分宽、比对衍射图、聚类及指标化。

批处理模块,用于编辑工作流、运行工作流;所述的编辑工作流,定义对样本数据处理的工作流,对大量同类型的数据进行批量处理,结合人工智能,提高工作效率。

计算服务模块,利用各种算法库封装的计算单元,这些计算单元被打包发布为docker镜像,通过任务调度系统传参调用;

资源统计服务模块,提供精确到任务级的计算资源消耗统计,为成本控制提供有效依据;包括任务查询、资源统计功能。

用户认证模块,对用户信息进行认证。

本发明提供的x射线衍射数据分析系统,可以批量进行数据处理,结合人工智能技术,增强数据采集能力,是一种更高效的指标化方法,丰富的可视化分析,能有效的降低人工成本。

本发明提供的x射线衍射数据分析系统,为桌面应用程序,支持windows7或10,macos、linux等操作系统,选择相应的安装包进行安装。本发明提供检查并更新依赖。

本发明提供的x射线衍射数据分析系统,支持“批处理”功能,支持对大量样本数据进行批量处理。该功能中,主要为定义工作流、运行工作流。结合自动化操作的需求,合理设计并编写工作流文件,运行工作流。

本发明提供的x射线衍射数据分析系统,提供了自主研发的指标化方法的应用,通过云平台的任务提交、资源调度,结合“批处理”功能,实现结晶实验中分析工作的自动化。

附图说明

图1是本发明结构示意图;

图2是用户认证流程;

图3是本系统安装操作流程;

图4是初始化程序运行过程;

图5是本发明工作流-对指定样本集合中的xrpd数据进行批量寻峰并聚类示意图;

图6是本系统编辑工作流操作流程;

图7是本系统运行工作流操作流程;

图8是本系统指标化分析提交操作流程;

图9是云平台任务状态变更流程;

图10是本系统指标化分析数据可视化操作流程;

图11是渲染功能运行流程;

图12是实施例粉末衍射样本数据指标化分析数据结果;

图13是实施例推荐晶胞的峰位置比对图。

具体实施方式

结合实施例说明本发明的具体技术方案。

如附图1所示,该x射线衍射数据分析系统包括如下模块:

格式转换模块,基于数据来源的多样式,提供多种原始数据的数据格式转换,包含如下两种类型的数据:其一为分子或晶体结构数据,包括后缀为cif、res、gjf、xyz及mol等文件;其二为粉末衍射数据或峰数据,包括后缀为csv、txt、raw、braw、jip、bgr、pid、xye及3cam等文件;

数据处理模块,对粉末衍射数据进行去噪、去本底减背景及数据识别等功能,比如从非文本类数据源中提取粉末衍射数据,如专利、图片等中提取;

数据分析模块,对粉末衍射数据进行分析,包括寻峰、求面积、重心、积分宽、比对衍射图、聚类及指标化等功能;

批处理模块,包括编辑工作流、运行工作流等功能;编辑工作流,定义对样本数据处理的工作流,对大量同类型的数据进行批量处理,结合人工智能,提高工作效率;

计算服务模块,利用各种算法库封装的计算单元,比如聚类、指标化方法、数据提取等,这些计算模块被打包发布为docker镜像,通过任务调度系统(faces云计算资源调度平台,2016sr096169)传参调用;

资源统计服务模块,提供精确到任务级的计算资源消耗统计,为成本控制提供有效依据,包括任务查询、资源统计等功能;

用户认证模块,对用户信息进行认证。

如附图2所示,用户认证流程的详细步骤如下:

步骤1:启动软件。

步骤2:软件程序加载。

步骤3:用户填写登录表单,表单中包括用户账号/邮箱、密码。

步骤4:对表单信息(用户账号/邮箱、密码)进行联网验证。若错误,则提示用户“用户名/密码错误”,引导用户重新填写用户账号/邮箱、密码。若正确,则返回token并进入软件主页。

如附图3所示,本系统提供的安装流程详细步骤如下:

步骤1:获取操作系统相应安装包。

步骤2:双击安装包。

步骤3:界面引导程序启动,并提示,是否执行安装程序。若否,则关闭界面并退出程序。若是,则系统启动安装程序。

步骤4:当安装程序执行完成时,系统给出提醒“安装完成并重启本程序。”,同时关闭当前窗口,重新打开应用程序。

步骤5:安装后首次打开应用,进入初始化步骤,见图4。

步骤6:初始化过程完成,退出应用并重新启动应用。

如附图4所示,为本系统安装流程中初始化步骤程序运行流程,详细步骤如下:

步骤1:进入初始化步骤。

步骤2:检查依赖完整性。若依赖完整,则创建桌面及开始菜单快捷方式(windows)并提示“初始化步骤完成”。若依赖不完整,则提示“依赖缺失”,并联网获取依赖包。

步骤3:依赖包可能是多个包,每当获取完整包后即执行安装依赖,直至依赖完整。

多晶型筛选、评估与选择环节,旨在筛选出在物理化学稳定性、溶解度、溶出速率及生物利用度,以及工艺可开发性综合性质高的优势药物晶型。另一方面,探索当前化合物的多晶型,对于药物专利的保护也有着重要的意义。在实验室,多晶型的制备有重结晶法、熔融法、升华法及粉末研磨法等,不同方法中又可以采用不同的溶剂类型、比例、结晶条件、结晶速度、辅助结晶添加物等条件,至此,会产生大量的xrpd数据,数据处理环节,则需要花费大量的时间进行数据样本的分析、一一比较,进而达到对结晶条件的人工筛选。

基于以上问题,本系统引入了“批处理”功能,对大量样本数据进行批量处理。如附图5所示,为“批处理”功能的示例。首先,基于本系统中提供的功能,需要定义完整的处理流程,保存此工作流;其次,执行,根据操作的不同,一个工作流的运行时间长度不等,等待过程中可以查看当前工作流运行状态;当工作流运行结束时,系统会给出提醒信息,此时,可以查看工作流输出的具体内容。示例中定义了一个“对指定样本集合中的xrpd数据进行批量寻峰并聚类”的工作流。对具体操作进行拆解,可以拆解为:读取指定文件目录下全部文件、样本去噪(并保存为副本)、寻峰(对样本质量进行评价,结合评价调整寻峰参数,将峰信息写入指定文件)、聚类(提交计算任务对相似度进行计算)、结果保存。

如附图6所示,为本系统提供的编辑工作流操作流程,详细步骤如下:

步骤1:选择“编辑工作流”功能;

步骤2:跟随系统指示,选择是否新建工作流。若是,则切换至编辑工作流界面。若否,则打开本地工作流存储的文件夹,选择已有工作流,同样可以进行编辑;否则,则可以退出当前功能。

步骤3:使用拖拽功能,结合需求对操作进行组织。

步骤4:点击“保存”,对编辑好的工作流进行保存。若否,则退出当前功能。若是,则输入自定义工作流名称。至此工作流编辑完成。

如附图7所示,为本系统提供的编辑工作流操作流程,详细步骤如下:

步骤1:选择“运行工作流”功能;

步骤2:系统会打开工作流存储的文件夹,展示已有工作流文件。

步骤3:选择想要运行的工作流文件。若是,则选择并单击“运行”,运行工作流。若否,则退出此功能。

人工处理xrpd数据过程中,参数调整时结合了人工经验、数值微调等。因此,结合人工智能,对此类操作进行学习,使“批处理”过程保证准确率的同时仍然可以自动执行,降低人工成本,提高并行效率。

衍射图指标化指由粉末衍射图数据出发,推算出其中的各个衍射峰对应的晶面指标的过程,是完成物相结构鉴定或测定工作的关键环节。粉末衍射图指标化具有诸多意义:1用一套晶胞参数(a、b、c、α、β、γ)能成功指标化衍射图中的所有衍射线,是确认样品是否纯相的重要依据;2可以判明样品与已知化合物是否具有相同晶型,是否属于同一固溶体系列、类同象系列;3作为测定或精修晶胞参数的必需;4指标化可以给出每个衍射峰对应的晶面指标,同时也得到了晶胞参数(a、b、c、α、β、γ),同时也可以给出晶体所属的晶系、点阵类型、可能的空间群等。

指标化对晶体结构判定具有重要意义,也是实验和预测之间的桥梁。当前最具代表性的指标化算法为尝试法、晶带法和二分法;程序为treor、ito和dicvol。结合已有的诸多指标化方法及自有算法的开发(一种晶体粉末衍射的指标化方法,201810449561.8),结合实验数据,多维度对粉末衍射数据进行评价,综合评判。如附图12所示,为一个粉末衍射样本数据指标化分析数据结果,表格中展示的为算法给出的推荐晶胞的基本信息及多维度评分,从左至右,每列数据依次为:序号、晶胞参数a、晶胞参数b、晶胞参数c、晶胞参数α、晶胞参数β、晶胞参数γ、综合打分、预估体积、空间群、晶胞相似度、对称操作数。附图13为推荐晶胞的峰位置比对图,由下至上,最下面一行为原始粉末衍射样本的峰信息,其他行为按综合打分由低到高排序,每一组推荐晶胞参数的峰信息。

如附图8所示,为本系统提供的指标化分析提交操作流程,详细步骤如下:

步骤1:选择“指标化分析”。

步骤2:选择本底粉末衍射数据,并上传。

步骤3:指标化分析需要提供用以系统判别及运作的数据,包括峰信息、晶系、程序运行参数(其他参数)。其中,基于使用频率统计,晶系、程序运行参数量类参数,本系统配置了默认参数,可以点击进行修改。

步骤4:检查信息完整性。若完整,则创建任务并提交至云平台,统一调度。若不完整,则给出缺少信息的提醒,并重复步骤3,4,直至完整性检查判断为是。

如附图9所示,为云平台任务状态变更流程,详细步骤如下:

步骤1:任务提交成功,任务状态序号1,状态说明:排队中。

步骤2:调度系统对任务进行分发,分发成功则状态序号变更为2,状态说明:排队中。

步骤3:当前云平台支持多集群,当分配至亚马逊集群,则状态序号变更为4,并开始运行任务,状态说明:运行中。若分配至其他集群,则状态序号变更为3,其他集群进行资源分配,状态说明:准备中。

步骤4:当任务运行完成时,若任务正常运行完成,则状态序号变更为5,状态说明:完成。若任务运行时发现异常,任务终止,则状态序号变更为103,状态说明:异常。

如附图10所示,为本系统提供的指标化分析数据可视化操作流程,详细步骤如下:

步骤1:选择“查看指标化分析任务列表”。

步骤2:选择任务(1个或多个)。

步骤3:选择“结果可视化”。

步骤4:弹出新窗口,并展示当前任务的全部结果列表。可以对结果进行指定属性排序、通过体积过滤、计算相似度,以上均为可选项。

步骤5:选择条目数据,选择“渲染”。

步骤6:刷新窗口页面数据,即可看到每一条目的数据及其可视化效果,滚动鼠标进行翻页查看。

如附图11所示,为渲染功能运行流程,详细步骤如下:

步骤1:结果列表数据,或对结果列表数据进行指令操作(排序、过滤、计算等)。将操作进行完整记录。

步骤2:对数据进行标准格式化操作。

步骤3:获取操作列表,查看是否存在需要计算的操作,若是,则调用本地资源进行计算,计算后结果保存。若否,则对运行操作后结果再次进行标准格式化操作。

步骤4:前端程序获取格式化数据,进行渲染。页面信息呈现。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1