用于评估临床试验风险的方法与流程

文档序号：26010009发布日期：2021-07-23 21:29阅读：1027来源：国知局

本发明涉及临床试验技术领域，具体涉及一种通过算法对临床试验数据中与受试者安全性关联的关键数据和数据质量数据评估，并根据评估结果得出临床试验参与医院的风险数据以及风险等级，根据风险等级精准的调配监查人力资源以最终达到更好的保护受试者权益，提高试验质量和效率的目的。

背景技术：

临床试验(clinicaltrial)，指任何在人体(病人或健康志愿者)进行药物的系统性研究，以证实或揭示试验药物的作用、不良反应及/或试验药物的吸收、分布、代谢和排泄，目的是确定试验药物的疗效与安全性。临床试验监查，是为了保证研发药物在临床试验的实施、记录与报告符合试验方案、标准操作流程、临床试验管理规范以及使用的管理规范的要求而对临床试验过程进行的监督行为。

在传统的监查过程中，基本上就是通过临床监查员进入临床试验参与医院(根据法律法规以及药物临床试验管理规范的要求，承担涉及人体医学研究的临床试验，包括药物、医疗器械、体外诊断试剂的注册临床试验，研究者或申办方发起的上市后临床研究，涉及人体的医学调查、分析、运用人体生物行为有关的研究。)对大量的涉及到临床试验过程中受试者的安全性的数据、有效性数据以及数据质量的完整性、及时性和数据采集过程的合规性进行监查。其重要的意义在于，临床试验过程是一个极其严格的具有程序性要求的过程。在这个过程中会存在潜在的试验风险，诸如由于录入数据时候的不严谨导致某个重要的试验指标漏填或者错填，临床试验操作不规范而导致试验采集的数据不准确或者不可信等。这种试验风险就会给受试者的安全带来隐患甚至导致临床试验失败。为此，临床监查员就会进入临床试验参与医院中对相关数据反复核验。

临床试验成败的关键在于高质量试验数据的产生、采集的真实和规范。目前为了保证临床试验质量严重依赖高密度的现场监查的方法，需要大量的临床试验监查员(cra)定期或不定期地对各试验参与医院开展现场核查，包括对大量的已产生的源数据进行期后核对(sdv)以最大限度的维护数据质量。这是一种相对滞后的被动的做法，其预先防止问题产生以及产生问题及时解决的能力有限。此外，这种资源密集型平均调配人力的方法，并不能保证识别出所有的数据质量问题，没能对应风险程度精准调配人力和监查人力资源，故其高成本与所获得的价值不精准。因此，多个国家的卫生主管部门在不断倡导(hsp/bimo概念文件2007；美国食品药物监督管理局，fda指南草案2011；欧洲医药管理局，ema参考文件2011:mhra风险适应性方法)现行临床试验管理模式的转变，即提倡逐步转变到基于风险的监查方法(risk-basedmonitoring)。该方法是指在临床试验过程中，充分关注那些影响临床试验质量和受试者权益的关键因素，即风险因素，并针对这些风险因素进行集中监查，更精准有效地来控制临床试验的总体质量。

在公开号为cn111095424a名称为临床试验支援系统、临床试验支援程序以及临床试验支援方法的中国发明专利及其同族专利jp2019207521a中提出了一种根据风险评价模型对每个实施设置进行风险评价，通过定期地访问各实施设施来进行，但在某个实施设施中，事故的发生频率高，或者应对成本较高的事故发生得比其他实施设施多等情况下，以增加与该实施设施相关的现场监测的频率的方式变更访问计划。本质上，该方案中提供了一种根据实施设施(可以理解为本申请中的临床试验参与医院)的风险高低，并根据风险高低模拟监查方案的成本对应的访问计划，从而降低监查成本的目的。但是该发明专利申请中其评估实施风险高低的方法是利用风险模型“根据在测试评价结果数据存储模块34中记录的、实施设施中的药物临床试验协调员(crc)的关于药物临床试验的评价结果来判定实施设施的风险等级”(参见说明书第0103段)而风险模型中所依据的评价对象为“风险评价模型22记录每个实施设施的风险评价结果，包含事故221、平均发生次数222以及风险等级223。”(参见说明书第0056段)。据此，该发明专利申请中所提供的风险模型是基于事故的基础上进行的实施设施的历史风险的评价以根据历史评价其未来的风险的高低。没有解决的问题是：1.风险评价模型没有被清楚的公开。对于本领域技术人员来说根据其以公开的内容只能知道其技术思路是根据实施设施曾经发生的事故以判定该实施设施的风险等级。据此可知这是一种历史评估方法而不是实时动态的评估方法。换而言之，就是无法做到实时监控实施设施的风险变化。2.风险评价参数没有作出清楚的公开。风险评价模型能够起到风险评价的作用，前提是对于其模型计算的内容有清楚且明确的指标数据。在该发明专利申请中没有清楚的描述指标数据的范围和内容，进而无法清楚的知晓风险评价模型的评估内容和方法。总的来说该发明专利申请是从控制临床试验成本的角度进行研发，不能达到对临床试验的风险进行提前预警达到管控临床试验风险目的。

基于以上问题，申请人进一步研究如何实现对临床试验参与医院实施进行风险评估的方法。即评估风险的算法(模型)以及评估指标的范围和内容。依据算法和指标给出具体的算法评分，根据评分划分等级，根据等级确定监查人力资源的分配比例。已达到实时管控临床试验参与医院的风险以提前预警的目的。

进一步的，申请人研究发现，影响风险评估效果的因素有多种。其中很重要的一个就是风险指标数据的录入的真实、完整和全面。具体来说，临床试验在不同阶段会收集多种源数据。而不同源数据的格式不统一，同一指标的命名规则不统一，人工录入效率又非常的低下，就会造成数据不全面而降低的风险评估算法的有效性。基于此，申请人经过研究，提供一个能够将多格式的数据向一个标准格式转换的方法，以提升数据录入效率、全面性和准确性。

在公开号为cn109147883a名称为应用临床试验数据的原始文件映射、管理方法及其系统中公开了一种建立结构化试验数据与原始文件的映射关系的方法。具体来说就是建立一种临床试验数据的非标准格式文件向标准格式文件转换的关系，这种转换关系被称之为映射。映射关系建立后，导入非标准格式文件后，非标准格式文件内存储的临床试验数据将会根据映射关系转换为为标准格式文件内存储的临床试验数据。但该发明专利申请的问题在于：其手段是通过人工智能自动学习算法在所述调取的原始文件上标记出与所述结构化试验参数对应的原始参数位置标记(参见说明书第0174段)。人工智能本质是机器计算，具体于该发明专利中是对原始文件以及结构化试验参数进行标记的统计，以及对标记的分析与标准格式文件的匹配分析。但该发明专利中没有任何具体的计算的方法仅仅提出了一种设想，无法满足实际的使用需求。

申请人欲提供一种通过对非标准格式文件的标签进行模糊匹配的方法，即通过字符串的匹配识别实现非标准格式文件中的变量标签与标准格式文件的变量标签的匹配关系，以建立非标准格式文件的数据与标准格式文件的数据的映射关系，已达到真实的数据格式转换的目的。同时本申请中的字符串识别是字符串树整体的字符串识别以提升识别效率具体内容参见

技术实现要素：
。

发明内容

本发明的目的在于提供一种用于评估临床试验风险的方法，将采集获取的多种临床试验数据划分为与受试者安全性关联的关键试验数据以及与数据质量数据。从这两种类别的数据结合算法，对临床试验的参与医院的风险进行量化评估，根据量化评估的结果可以精准的调配监查人力资源进入临床试验参与医院中对临床试验进行管控最终达到更好的保护受试者权益，提高试验质量和效率的目的。

为实现上述发明目的，本发明采用如下技术方案：

一种用于评估临床试验风险的方法，包括：

电子数据采集和转换系统，用于采集多个临床试验参与医院的临床试验受试者的临床试验数据并转换为标准格式数据；

数据存储模块，用于保存临床试验数据；

还包括：

中央数据处理中心，用于调取数据存储模块中的临床试验数据计算得出临床试验参与医院的风险指标数据；

通过以下方法实现对临床试验参与医院的临床试验风险评估，具体为：

步骤一，通过电子数据采集和转换系统导入临床试验数据并将非标准格式的临床试验数据统一为标准格式的临床试验数据，将临床试验数据保存至数据存储模块中；

步骤二，中央数据处理中心调取数据存储模块中的临床试验数据通过如下方法计算获取分项风险指标数据：

步骤s1.根据临床试验方案确定与该方案所对应的临床试验受试者安全性关联的关键数据，以及临床试验数据质量数据；

步骤s2.依据临床试验受试者安全性关联的关键数据通过评估算法计算临床试验安全性风险分项指标数据，依据临床试验数据质量数据通过评估算法计算临床试验数据质量风险分项指标数据；

步骤三,通过评估算法计算临床试验参与医院的风险指标数据。

本申请中的电子数据采集系统包括edc系统、rtsm(随机化与试验药物管理系统)、medcoding(医学编码系统)、pv(药物安全警戒管理系统)、etmf(临床试验全文档管理系统)、ctms(临床试验项目管理系统)等用于收集的临床试验数据的系统。本申请中会将如上各种系统收集来的临床试验数据均导入到电子数据采集系统中。具体来说所采集的数据包括有诸如血压、身高、性别等与受试者自身关联的生理指标性数据；还包括在临床试验过程中受试者发生不良事件的次数、不良事件类型、不良事件率等与受试者安全性关联的数据，还包括临床试验过程中监查员对临床试验过程中试验过程所提出的监查问题的数量，监查问题在规定时间内没有被答复的数量这类对临床试验过程的监查数据；还包括重要方案违背次数，主要方案偏离率，次要方案偏离率等与临床试验过程的合规性有关的数据；还包括临床试验中剂量不正确，随机分组但未接受研究治疗的受试者人数等于药物合规性的数据。以上仅是对临床试验过程中所要收集的数据的多样性的举例的描述，以说明临床试验过程的数据采集是具有严格的规范要求和标准化内容的，主要参照依据临床试验质量管理规范(iche6(r2))等相关法律法规作为指导原则和执行标准。

而临床试验监查过程中就是由临床试验监查员对上述的各种类别的试验数据进行监查，监查首要目的是保护临床试验受试者在临床试验过程中的安全，其次是要保证临床试验数据在临床试验过程中记录的完整、全面和及时。这两个目的可以被概括为安全性有关的目的，和与数据质量有关的目的。而临床试验的风险也主要就是安全性风险和数据质量风险。

安全性风险主要指临床试验受试者在使用临床试验药物后出现不良事件或者严重不良事件的数据，以及与评价不良事件或者严重不良事件关联的数据。所谓不良事件可以简单理解为对受试者造成健康方面的影响的事件，而严重不良事件则是对受试者造成严重健康方面的影响甚至是死亡的事件。

数据质量风险主要是指试验过程采集临床试验数据操作步骤或者行为的规范性的数据，以及评价数据记录真实性、数据记录完整性和及时性的数据。数据质量风险的存在会直接导致临床试验的失败，因为没有真实、完整和符合规范要求的数值支撑，就无法评判试验药物的真实的有效性和安全性。

以上，本申请主要的发明思路就是通过安全性关联的关键数据，以及临床试验数据质量数据通过算法计算出临床试验参与医院(临床试验研究机构)在试验过程中存在的安全性风险和数据质量风险的可能性的高低，以调配监查人力资源进入临床试验参与医院中进行监查研究以降低整体的临床试验参与医院的系统性风险。

而根据不同的关键数据或者数据质量数据的选择以获得多种类别的安全性风险分项指标数据或者质量风险分项指标数据以方便监查员可视化的获取更加具体的风险因素。

进一步的，还包括步骤四,设定若干个临床试验安全性风险阈值，并将计算获得的临床试验安全性风险分项指标数据与临床试验安全性风险阈值比较后获得临床试验安全性风险等级信息；设定若干个临床试验数据质量风险阈值，并将计算获得的临床试验数据质量风险分项指标数据与临床试验数据质量风险阈值比较后获得临床试验数据质量风险等级信息；设定若干个临床试验风险阈值，并将计算获得的临床试验参与医院的风险指标数据与临床试验风险阈值比较后获得临床试验参与医院的风险等级信息。

本申请的风险等级信息是依据具体的风险指标分项指标数据与阈值比较后获得的定性的判断。这里的阈值是由监查人员根据临床试验质量管理规范以及项目经验所确定的若干个数值。比较后所获得的风险等级信息是具体的高、中、低或者红、黄、绿等代表风险程度的符号信息。

进一步的，所述的步骤s2中临床试验安全性风险分项指标数据通过如下方法计算获得，具体为：

步骤a1，根据临床试验方案确定与该方案相关的临床试验受试者安全性关联的关键数据，包括如下关键数据类别中的一种或者多种：

与不良事件/严重不良事件有关的关键数据:包括发生不良事件的数量数据，不良率数据，不良事件发生最多的一种的受试者人数数据，受试者中发生不良事件且未被解决的人数数据，特别关注的不良事件发生人数数据,不良事件上报及时性数据，不良事件类型分析数据，两次访问之间的不良事件发生数量数据；发生严重不良事件的数量数据，严重不良率数据，严重不良事件发生最多的一种的受试者人数数据，受试者中发生严重不良事件且未被解决的人数数据，特别关注的严重不良事件发生人数数据,严重不良事件上报及时性数据，严重不良事件类型分析数据发生不良事件的数量数据，严重不良事件上报及时率数据，严重不良事件类型分析数据中的一种或者多种；

与停药事件有关的关键数据：包括停药率，暂时停药的受试者人数数据，停药事件类型的分析数据，严重不良事件导致的停药率中的一种或者多种；

步骤a2,根据步骤a1中所获得的临床试验受试者安全性关联的关键数据带入评估算法中计算获得临床试验安全性风险分项指标数据，具体为：

对全部的关键数据逐一进行风险评分，具体为：统计第j个关键数据在全部临床试验参与医院中所采集数据的均值或者中位数指记为μj，统计第j个关键数据在第i个临床试验参与医院中所采集数据的均值或者中位数记为xij，统计第j个关键数据在全部临床试验参与医院中的标准差σj其中则第j个关键数据在第i个临床试验参与医院中的风险评分定义为

步骤a3.计算临床试验安全性风险分项指标数据，对第j个关键数据赋予权重数值记为wj，则第i个临床试验参与医院的临床试验安全性风险分项指标数据为计为m。

进一步的，所述的步骤s2中的临床试验数据质量风险分项指标数据通过如下方法计算获得，具体为：

步骤b1,根据临床试验方案确定与该方案相关的临床试验数据质量数据，包括如下数据质量数据类别中的一种或者多种：

与临床试验病例报告完成有关的数据：包括受试者从访视到初始数据输入的及时性数据，受试者发生不良事件从访视到数据输入的天数数据，文件缺失率数据，药物问责的及时性数据中的一种或者多种；

与差异管理有关的数据：包括监查员对采集的数据核查后发现的问题数量，导致数据更改的问题数量，问题在规定期限内未被回复导致问题回复通道被关闭而判定未回复的数量，问题超出规定时间回复的数量，重新发出的问题数量，因问题导致数据更改率，从问题回复通道被创建到问题回复通道关闭的天数中的一种或者多种；

与数据趋势有关的数据：包括重复值，试验室检查的异常值中的一种或者多种；

和试验中止有关的数据：包括筛选失败率、入组率、受试者中止率、受试者中止率中的一种或者多种；

步骤b2.根据步骤b1中所获得的临床试验数据质量数据带入评估算法中计算获得临床试验数据质量风险分项指标数据，具体为：

对全部的临床试验数据质量数据逐一进行风险评分，具体为：统计第j个临床试验数据质量数据在全部临床试验参与医院中所采集数据的均值或者中位数指记为μ′j，统计第j个临床试验数据质量数据在第i个临床试验参与医院中所采集数据的均值或者中位数记为x′ij，统计第j个临床试验数据质量数据在全部临床试验参与医院中的标准差σ′j其中则第j个临床试验数据质量数据在第i个临床试验参与医院中的风险评分定义为

步骤b3.计算临床试验数据质量分项指标数据，对第j个关键数据赋予权重数值记为w′j，则第i个临床试验参与医院的临床试验数据质量风险分项指标数据为计为m。

进一步的，所述的步骤三中的临床试验参与医院的风险指标数据通过如下方法计算获得，具体为:

步骤c1，计算临床试验参与医院的风险指标数据，对步骤a3的第i个临床试验参与医院的临床试验安全性风险分项指标数据赋予权重计为t，对步骤b3的第i个临床试验参与医院的临床试验数据质量风险分项指标数据赋予权重计为t，则第i个临床试验参与医院的风险指标数据为

申请人根据研究发现，实现风险评估算法中核心在于统计适当的数据指标和依据标准化过程将不同单位的指标进行去单位标准化后权重赋值以计算。

进一步的，所述的电子数据采集系统，通过以下方法实现将非标准格式的临床试验数据统一为标准格式的临床试验数据；

步骤d1,导入一种或者多种非标准格式的临床试验数据；

步骤d2,应用标签模糊匹配算法识别非标准格式的临床试验数据的变量标签并给出具体的匹配结果；

步骤d3，对非标准格式的临床试验数据的全部变量或关键变量进行重复判定，并对判定为重复的非标准格式的临床试验数据进行标记，根据步骤d2中的匹配结果将非标准格式的临床试验数据转换为sdtm标准格式的临床试验数据，对转换后的试验数据进行校验并标记不符合sdtm标准格式的临床试验数据。

通过将多源的非标准格式的系统的数据向标准格式的数据进行统一。具体原因在于，如上所述临床试验过程中会有多个系统以记录多类别的数据。这些数据就会有很多种的数据格式，在使用评估算法的时候需要以一种统一的数据格式进行计算，如果用人工进行录入显然是效率低的。而本发明中通过标签模糊匹配算法识别非标准格式的临床试验数据上的变量标签并给出具体的匹配结果。这样一来就可以建立多种数据格式向统一格式的映射关系，通过计算机的识别匹配的方式替代人工输入的方式以能够大幅提升数据采集的效率和准确性。而所述的标签模糊匹配算法识别，在于能够快速的识别多源数据中的数据名称的字符串的信息，以向标准数据格式名称的匹配，以提升匹配的效率，本申请中特别采用字符串树整体字符串的匹配方法。

进一步的，所述的步骤d2中模糊匹配算法包括以下步骤：

sdtm标准格式数据的变量标签字符串和/或受控术语作为模式字符串，将非标准格式的临床试验数据的变量标签字符串作为目标字符串；

基于前缀将模式字符串的集合转换为树状有限状态自动机；

将树状有限状态自动机构成的字符串树中最短的模式字符串的最后端字符与目标字符串的最后端字符对齐；

字符串树从前至后与目标字符串中对位的字符比较，失配时计算按坏字符跳转方法字符串树向前跳转长度进行跳转；

任一模式字符串与目标字符串中至少部分连续字符串完全匹配则判断该模式字符串与目标字符串匹配。

所述的受控术语是sdtm标准格式数据规则用到的域变量、域变量标签以及变量值的标准用语,域是不同内容对应的临床试验数据的集合，域包括不良事件域、生命体征数据域、人口学数据域、注释域、受试者访视域、心电图数据域、受试者元素表；

每个所述的域采用唯一的两个字符代码表示，所述的域变量按不同来源被分到相关的域中；域变量是指每个域中不同数据的命名，域变量包括：标识变量、主题变量、时间变量和修饰语变量。

临床数据交换标准协会(cdisc)是一个开放的、包括各种学科的非盈利性机构。协会致力于开发行业标准，为医学和生物制药产品的开发提供临床实验数据和元数据的取得、交换、提交以及存档的电子手段。而所述的sdtm数据格式就是由该协会制定的研究数据表格模型(sdtm)有关临床研究项目病例报告表数据表格是向监管部门递交的内容标准格式。

进一步的步骤d3中对非标准格式的临床试验数据的全部变量或关键变量进行重复判定是两种不同的数据重复判定规则，当采用全部变量进行重复判定时两个非标准格式的临床试验数据的所有变量都相同判定为重复数据，当采用关键变量进行重复判定时两个非标准格式的临床试验数据的部分变量(关键变量)相同即判定为重复数据。将非标准格式的临床试验数据转换为标准格式的临床试验数据是数据格式统一的过程，转换过程包括字典转换、日期格式归一化、时间格式归一化等属性的标准格式转换。

字典转换在非标准格式的临床试验数据变量字典值与标准格式的临床试验数据域变量字典值不一致时进行，根据建立非标准格式的临床试验数据和标准格式的临床试验数据的映射关系时指定的字典值映射关系进行字典转换。

日期格式归一化在非标准格式的临床试验数据日期变量格式与标准格式的临床试验数据日期域变量格式不一致时进行，进行日期格式的转换统一。

时间格式归一化在非标准格式的临床试验数据时间变量格式与标准格式的临床试验数据时间域变量格式不一致时进行，进行时间格式的转换统一。

对转换后的试验数据进行校验，其中校验过程主要包括数据的完整性校验、一致性校验等。

常用的校验规则有：空值校验、值域范围校验、值域代码集校验、格式(正则)校验、长度校验等。

空值校验是指在标准格式的临床试验数据域变量要求值非空的情况下校验非标准格式的临床

试验数据变量值是否为空值；

值域范围校验是指在标准格式的临床试验数据域变量存在取值范围的情况下校验非标准格式的临床试验数据变量值是否在取值范围内；

值域代码集校验是指在标准格式的临床试验数据域变量存在字典值范围的情况下校验非标准

格式的临床试验数据变量值是否在字典值范围内；

格式(正则)校验是指在标准格式的临床试验数据域变量存在格式要求情况下，使用正则表达式校验非标准格式的临床试验数据变量值是否符合格式要求；

长度校验是指校验非标准格式的临床试验数据变量值长度是否大于标准格式的临床试验数据域变量最大接受长度。

一种用于评估临床试验风险的系统，包括，

临床信息电子数据采集模块，用于采集临床试验数据；

数据存储模块，用于存储采集的临床试验数据；

运算模块，用于执行风险评估算法；

以及数据传送和接收模块。其中所述的运算模块用于执行如上所述的各种方法的算法部分的计算单元部件。所述的数据传送和接收模块是实现各类别的信息接收端口实现数据互联互通以及即时通讯的设备。

相对于现有技术，本发明的技术效果在于：

1.将采集获得的数据进行统计，将临床试验数据划分为与受试者安全性关联的关键数据以及数据质量数据两个维度对临床试验参与医院的风险进行评估。根据本申请的方法，能够将多种临床试验数据结合后进行量化以得到临床试验安全性风险分项指标数据、数据质量风险分项指标数据和临床试验参与医院的风险指标数据，依据这些数据就可以调配监查人力资源精准的进入临床试验参与医院中。并根据具体的安全性风险分项指标数据、数据质量风险分项指标数据以监查各个组成的数据指标的风险程度以执行相应的监查工作达到实时的管控临床试验的目的，维护受试者权益提高临床试验质量。

2.本申请中提供的方法是基于多种维度的实时数据进行评估的，这种方法的优势在于实时动态的监查临床试验参与医院的风险而非基于临床监查协调员(crc)进行人工统计医疗事件的传统的统计方式。为了保证风险评估的实时性，就需要提升试验数据导入评估系统的效率，而不能依靠传统的人工录入的方式。为此本申请中提供的数据格式的转换方法，就极大的提升了数据格式转换的效率。具体的将多种系统中的多种类别的数据的变量标签字符串组成为一个集合形成一个树结构，再将树结构上从最短的字符串开始通过字符串匹配方法与想要转换成为标准格式的非标准格式目标字符串进行比较。通过树结构的整体的比较能够有效提升匹配速度，降低人工操作的步骤，以提升数据导入系统的全面性、准确性以及及时性。在数据全面、准确、及时的条件下以提升风险评估的准确性和及时性，以达到管控试验风险提升试验质量的目的。

附图说明

图1是本发明实施方式中所表示的临床试验风险评估方法的流程图；

图2是本发明实施方式中所表示的临床试验风险评估系统的构成图；

图3是本发明实施方式中所表示的采用模糊匹配算法的初始状态图；

图4是本发明实施方式中所表示的采用模糊匹配算法的第一次跳转状态图；

图5是本发明实施方式中所表示的采用模糊匹配算法的第二次跳转状态图；

图6是本发明实施方式中所表示的临床试验参与医院不良事件数量的风险评估分析表格；

图7是本发明实施方式中所表示的临床试验参与医院监查员对采集的数据核查后发现的问题数量评估分析表格；

图8是本发明实施方式中所表示的对与安全性有关的数据指标以及与数据质量有关的数据指标进行风险评估后得出的临床试验评估分析表格；

图9是本发明实施方式中风险阈值的确定的表格；

图10是本发明实施方式中各个数据的风险阈值的表格；

图11是本发明实施方式中模糊匹配算法的坏字符跳转方法的跳转状态示意图一；

图12是本发明实施方式中模糊匹配算法的坏字符跳转方法的跳转状态示意图二。

具体实施方式

以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明，本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。

请参见图，一种临床试验风险评估方法，其步骤流程图如图1所述，其应用于临床风险评估的系统中，系统构成如图2所示。

具体为，

多源试验数据采集步骤1，多源试验数据采集步骤1是在图2中的临床试验采集模块101中完成，其通过数据输入装置105输入或者直接通过各种数据端口从多种试验系统中导入临床试验采集模块102中。所述的多种试验系统包括电子数据捕获系edc、随机化与试验药物管理系统rtsm、医学编码系统medconding、临床试验全文档管理系统etmf、临床试验项目管理系统ctms、药物安全管理系统pv、患者报告结局pros等。

从多个存储有临床试验数据的存储部件或者人工录入多种格式的试验数据存储于运算以及数据存储模块102中。这些试验数据包括两种类别：与受试者安全性有关的临床试验数据以及与临床试验数据质量有关的数据。

其中与安全性有关的临床试验数据包括如下数据的一种或者多种：

与不良事件/严重不良事件有关的关键数据:包括发生不良事件的数量数据，不良率数据，不良事件发生最多的一种的受试者人数数据，受试者中发生不良事件且未被解决的人数数据，特别关注的不良事件发生人数数据,不良事件上报及时性数据，不良事件类型分析数据，两次访问之间的不良事件发生数量数据，发生严重不良事件的数量数据，严重不良率数据，严重不良事件发生最多的一种的受试者人数数据，受试者中发生严重不良事件且未被解决的人数数据，特别关注的严重不良事件发生人数数据,严重不良事件上报及时性数据，严重不良事件类型分析数据发生不良事件的数量数据，严重不良事件上报及时率数据，严重不良事件类型分析数据中的一种或者多种；

与停药事件有关的关键数据：包括停药率，暂时停药的受试者人数数据，停药事件类型的分析数据，严重不良事件导致的停药率中的一种或者多种。

与临床试验数据质量有关的数据的数据包括如下类别数据的中的一种或者多种：

与数据趋势有关的数据：包括重复值，试验室检查的异常值中的一种或者多种；

和试验中止有关的数据：包括筛选失败率、入组率、受试者中止率、受试者中止率中的一种或者多种。

上述试验数据的采集均是根据《药物临床试验质量管理规范》或者其他临床试验管理规范的要求进行的。根据规范的要求，会将上述试验数据进行规范化的记录，通常这些记录是有临床试验参与医院的研究者进行的。而这些试验数据将会被电子化的录入各种类别的数据系统中，如：电子数据捕获系edc、随机化与试验药物管理系统rtsm、医学编码系统medcoding、临床试验全文档管理系统etmf、临床试验项目管理系统ctms、药物安全管理系统pv、患者报告结局pros等。在这些系统中会存在多种角度评价或者辅助评价受试者安全性的数据或者数据质量数据。这些数据都是规范化的数据，其内容可以通过查阅《药物临床试验质量管理规范》或者其他临床试验管理规范或者本领域技术人员的知识知晓其具体含义，本实施例中对如下几个数据内容进行解释：

不良事件数据是指受试者服用药品后身体指标产生不良后果的人数或者次数数据，而严重不良事件数据是指不良后果较为严重的人数或者次数数据。停药率，是指在一个临床试验过程受试者服用试验药物后出现不良事件暂停给药的人数除以总的受试者人数的比值。停药事件类型的分析数据，是指根据规范要求将停药事件的类型进行划分为多种规定的停药事件类型统计各种停药事件类型的数量的数据。

受试者从访视到初始数据输入的及时性数据，是指受试者在服用试验药物后会根据试验计划的要求定期前往临床试验参与医院进行检查并记录用药的情况，受试者去临床试验参与医院中访视的日期到临床试验研究人员将访视的结果数据录入相关试验系统的日期的间隔时间的数据。

文件缺失率数据，是指临床试验研究者根据规范未向临床试验系统中提交的文件数量与规范要求的全部文件的数量的比值。

与差异管理有关的数据，是指监查人员或者数据管理人员在对临床试验参与医院进行监查或者数据管理后会提出疑问，并在系统内发送至临床试验研究人员处，通过这个发问过程对临床试验数据质量进行管控的数据。

问题数量，是指监查人员或者数据管理人员所提出的问题的数量。

导致数据更改的问题数量，是指监查人员或者数据管理人员提出问题后临床试验研究人员根据提出的问题对相关数据进行修改的数量。

问题在规定期限内未被回复导致问题回复通道被关闭而判定未回复的数量，是指监查人员或者数据管理人员提出一个问题在系统内发送至临床试验研究人员处，临床试验研究人员会被要求在规定的时间内进行答复，如果没有在规定时间答复则被视为未回复问题，这样情况的数量。

试验室检查的异常值，是指临床试验的检查过程对受试者生理指标进行试验检查与合理数值差异很大的检查数据的数量。

筛选失败率，是指在临床试验开始时筛选受试对象，未进入临床试验的受试对象与总的受试对象的比值。

试验数据转换成为sdtm标准格式数据2，试验数据转换成为sdtm标准格式数据2是在运算以及数据存储模块102中完成。sdtm标准格式数据库中存储有若干个域(存储单元)，每个存储单元内根据标准规范存储相应类别试验数据。这些试验数据在sdtm标准格式的数据库中会有对应的变量标签(数据名称)，而这些变量标签是由若干个字符串构成的。为了将从其他系统中导入的试验数据格式统一转换为sdtm标准的格式，就需要通过变量标签的匹配的方式建立映射关系完成试验数据向sdtm标准格式数据的转换。

具体为通过模糊匹配方法进行映射关系建立，模糊匹配算法的内容为：

将sdtm标准格式的临床试验数据的变量标签字符串作为模式字符串，将非标准格式的临床试验数据的变量标签字符串作为目标字符串；

基于前缀将模式字符串的集合转换为树状有限状态自动机；

将树状有限状态自动机构成的字符串树中最短的模式字符串的最后端字符与目标字符串的最后端字符对齐；

字符串树从前至后与目标字符串中对位的字符比较，失配时计算按坏字符跳转方法字符串树向前跳转长度进行跳转；

任一模式字符串与目标字符串中至少部分连续字符串完全匹配则判断该模式字符串与目标字符串匹配。

请参见图3，设有四个标准格式数据的临床试验数据的变量标签名称(模式字符串)为：ethernetmovesme，ethernetisking，ethernetisdead和ethernetforever，共同构成模式字符串集合。非标准格式的临床试验数据的变量标签名称为：nothingtoworryaboutinthis，作为目标字符串。

基于前缀将模式字符串集合转换为树状有限状态自动机，此处的“前缀”是指将模式字符串首字符对齐后，至少两个模式字符串中共有部分的字符，例如ethernet即为四个模式字符串所共有的前缀。基于前缀将模式字符串构成有限状态自动机后形成树状结构(字符串树)。其中ethernetisking或者ethernetisdead为最短模式字符串，则将上述两个模式字符串的最后端的字符g和d与nothingtoworryaboutinthis的最后端的字符s对齐。

需要说明的是，多数情况下，多个标准格式数据的临床试验数据的变量标签名称具有“前缀”，基于前缀将模式字符串集合转换为树状有限状态自动机。少数情况下，多个标准格式数据的临床试验数据的变量标签名称不具有“前缀”(多个标准格式数据的临床试验数据的变量标签名称首字符即不同)，此时基于前缀将模式字符串集合转换为树状有限状态自动机所构成的字符串树从首字符(首字符对齐)即分叉。

对齐后从前至后(图3中从左至右方向)比较字符串树、目标字符串中对位的字符，当某位置每个模式字符串中的字符均与目标字符串中对位的字符不同时判断为失配(当某位置只有部分模式字符串中的字符与目标字符串中对位的字符不同，而还有部分模式字符串中的字符与目标字符串中对位的字符相同时，沿着包含相同字符的模式字符串分支继续比较。失配位置之前的字符就与目标字符串中对位的字符不同的模式字符串在下次跳转前不参与失配比较和跳转计算)，失配时字符串树向前进行跳转，跳转后继续按照从前至后的顺序比较字符串树、目标字符串中对位的字符，发生失配时字符串树再次向前跳转，直至匹配成功或者字符串树的最前端字符超出目标字符串最前端字符时匹配结束。

以图3至5所示的模式字符串、目标字符串的模糊匹配过程为例。如图3所示，将字符串树中最短模式字符串的最后端字符与目标字符串最后端字符对齐后从前至后比较字符串树、目标字符串中对位的字符，发现首字符即发生失配(“e”与“r”不同)。按坏字符跳转方法计算跳转长度过程如下：寻找字符串树中字符e后端的字符中是否有r，结果找到e后第四个字符为r，则按坏字符跳转方法计算的跳转长度为四个字符。字符串树向前跳转四个字符。第一次跳转后字符串树与目标字符串的相对位置如图4所示，此时字符串树中e后端的第一个r与目标字符串失配位置的r对齐。继续从前至后比较字符串树、目标字符串中对位的字符，发现首字符又发生失配(“e”与“t”不同)。按坏字符跳转方法计算跳转长度过程如下：寻找字符串树中字符e后端的字符中是否有t，结果找到e后第一个字符为t，则按坏字符跳转方法计算的跳转长度为一个字符。字符串树向前跳转一个字符。第二次跳转后字符串树与目标字符串的相对位置如图5所示，此时字符串树中e后端的第一个t与目标字符串失配位置的t对齐。继续从前至后比较字符串树、目标字符串中对位的字符，发现首字符又发生失配(“e”与“g”不同)。按坏字符跳转方法计算跳转长度过程如下：寻找字符串树中字符e后端的字符中是否有g，结果找到e后第十三个字符为g，则按坏字符跳转方法计算的跳转长度为十三个字符。字符串树向前跳转十三个字符。字符串树向前跳转十三个字符后字符串树的最前端字符超出目标字符串最前端字符，匹配结束。

以下将结合附图11至12对模糊匹配算法中的坏字符跳转方法进一步说明。采用坏字符跳转方法的跳转方式，字符串树与目标字符串匹配过程中不用逐个字符跳转进行比较，整个匹配过程中字符串树的跳转次数少，匹配效率高。

所述坏字符跳转方法为：若字符串树的失配字符后端存在与目标字符串的失配字符匹配的字符，则将字符串树向前跳转至最接近的匹配字符与目标字符串的失配字符对齐的位置；若字符串树的失配字符后端不存在与目标字符串的失配字符匹配的字符，则将字符串树向前跳转至最短模式字符串的最后端字符与目标字符串的失配字符前方第一个字符对齐的位置。

请参见图11所示，以模式字符串是：babababa，目标字符串包含子串：bababb为例，模式字符串第六个字符为a(模式字符串的失配字符，或者说字符串树中的失配字符)，对位的目标字符串字符为b(目标字符串的失配字符)，发生失配，在本例中，字符串树的失配字符a后端存在与目标字符串失配字符匹配的字符b，将字符串树向前跳转一个字符，就能使得最接近失配字符a的匹配字符b与目标字符串的失配字符b对齐。此时坏字符跳转方法算得的字符串树向前跳转长度为一个字符。

请参见图12所示，以模式字符串是：babababa，目标字符串包含子串：bababc为例，模式字符串第六个字符为a(模式字符串的失配字符，或者说字符串树中的失配字符)，对位的目标字符串字符为c(目标字符串的失配字符)，发生失配，在本例中，字符串树的失配字符a后端不存在与目标字符串失配字符匹配的字符c，若该模式字符串babababa是字符串树中的最短模式字符串，将字符串树向前跳转三个字符，就能使得最短模式字符串的最后端字符a与目标字符串的失配字符前方第一个字符b对齐。此时坏字符跳转方法算得的字符串树向前跳转长度为三个字符。通过如上方式加快了非标准格式目标字符串203(变量标签)与sdtm标准格式的临床试验数据的变量标签字符串202的匹配速度(非字符逐个匹配的方式)，就能快速建立非标准格式数据与标准的标准格式数据转换的映射关系，将非标准的格式数据被快速导入sdtm数据库的域中存储，完成格式的转换。

完成格式转换后的sdtm标准格式的临床试验数据存储于数据存储模块102中。

根据临床试验方案选择具体的临床试验数据3完成临床试验参与医院的风险评估是在图2中的运算以及存储模块102中完成。具体为：

步骤a1，根据临床试验方案确定与该方案相关的临床试验受试者安全性关联的关键数据，包括如下关键数据类别中的一种或者多种：

与停药事件有关的关键数据：包括停药率，暂时停药的受试者人数数据，停药事件类型的分析数据，严重不良事件导致的停药率一种或者多种；

步骤a2,根据步骤a1中所获得的临床试验受试者安全性关联的关键数据带入评估算法中计算获得临床试验安全性风险分项指标数据，具体为：

对全部的关键数据逐一进行风险评分，具体为：统计第j个关键数据在全部临床试验参与医院中所采集数据的均值或者中位数指记为μj，统计第j个关键数据在第i个临床试验参与医院中所采集数据的均值或者中位数记为xij，统计第j个关键数据在全部临床试验参与医院中的标准差σj，则第j个关键数据在第i个临床试验参与医院中的风险评分定义为其中

临床试验数据质量风险分项指标数据通过如下方法计算获得，具体为：

步骤b1,根据临床试验方案确定与该方案相关的临床试验数据质量数据，包括如下数据质量数据类别中的一种或者多种：

与临床试验病例报告完成有关的数据：包括受试者从访视到初始数据输入的及时性数据，受试者发生不良事件从访视到数据输入的天数数据，文件缺失率数据，药物问责的及时性数据一种或者多种；

与差异管理有关的数据：包括监查员对采集的数据核查后发现的问题数量，导致数据更改的问题数量，问题在规定期限内未被回复导致问题回复通道被关闭而判定未回复的数量，问题超出规定时间回复的数量，重新发出的问题数量，因问题导致数据更改率，从问题回复通道被创建到问题回复通道关闭的天数一种或者多种；

与数据趋势有关的数据：包括重复值，试验室检查的异常值一种或者多种；

和试验中止有关的数据：包括筛选失败率、入组率、受试者中止率、受试者中止率一种或者多种；

步骤b2.根据步骤b1中所获得的临床试验数据质量数据带入评估算法中计算获得临床试验数据质量风险分项指标数据，具体为：

临床试验参与医院的风险指标数据通过如下方法计算获得，具体为:

以下举例解释风险评估的计算方法。

如图6所示，其所表示的是在编号为1-14的中心(临床试验参与医院)对不良事件数量这一指标进行风险评估的过程。我们以编号为1的中心为例，在该中心发生ae数(不良事件的数量)11个，该中心的总的患者周为292.857(编号为1的中心的所有受试者的参与临床试验的周数)，则该中心每个患者周的ae平均数为0.03756，所有中心“每个患者周ae数”的平均数μj为0.068948(计算方式为将所有中心的不良事件之和除以所有中心总的患者周之和)，所有中心“每个患者周ae数”的标准差σj，其中在本实施例中，则针对对不良事件数量这个指标进行风险评估评分为：

其中n＝14所，xij＝0.03756，μj＝0.068948，σj＝0.081873，则cij＝0.38336。

如图7所示，其所表示的是在编号为1-14的中心监查员或者数据管理人员对采集的数据核查或者管理后发现的问题数量这一指标进行风险评估的过程。我们仍然以编号为1的中心为例，在该中心发生问题数量为36，该中心中的患者周292.8571，在各个患者周平均发生的问题的平均数为0.122926829，所有中心每个患者周的问题的平均数为μ′j(计算方式为将所有中心的不良事件之和除以所有中心总的患者周之和)为0.088716377，所有中心每个患者周的问题数'的标准差σ′j其中在本实施例中，则针对采集的数据核查后发现的问题数量进行风险评估评分为：

其中n＝14，x′ij＝0.12293，μ′j＝0.088716377，σ′j＝0.026740104，则c′ij＝1.279368695。

如图8所示，是依据每个患者周的不良事件风险评分数据，每个患者周的严重不良事件风险评分数据以及每个患者周的死亡事件风险评分数据作为计算受试者安全性关联分项风险指标数据，依据每个患者周的问题数量风险评分数据、每个患者周的逾期问题风险评分数据和平均问题回复时间风险评估数据量作为临床试验数据质量风险指标数据计算风险指标数据的依据。

具体为：每个患者周的不良事件的风险评估评分为0.3834，每个患者周的严重不良事件的风险评估评分为0，每个患者周的死亡事件的风险评估评分为0。计算受试者安全性关联分项风险指标数据是每个患者周的不良事件的风险评估评分的权重为1，其余事件没有发生权重为0。则依据公式计算得出受试者安全性关联分项风险指标数据为0.3834/1＝0.3834＝m。

每个患者周的问题数量风险评分数据为1.2794，每个患者周的逾期问题风险评分数据为1.8695，平均疑问回复时间的数据为1.6323。每个患者周的问题数量风险评分数据权重为1，每个患者周的逾期问题风险评分数据的权重为1，平均疑问回复时间的数据的权重为1。则依据公式计算得出临床试验数据质量风险指标数据为(1.2794+1.8695+1.6323)/3＝1.5937＝m。

受试者安全性关联分项风险指标数据为m＝0.3834，临床试验数据质量风险指标数据为m＝1.5937，其中受试者安全性关联分项风险指标数据权重设为t＝1，临床试验数据质量风险指标数据的权重设为t＝1，则依据公式计算得出风险指标数据为(0.3834+1.5937)/2＝0.9885。

基于受试者安全性关联分项风险指标数据、临床试验数据质量风险指标数据和风险指标数据为基础，确定受试者安全性关联分项风险等级、临床试验数据质量风险等级和临床试验风险等级。

具体为：确认每个患者周的不良事件风险评分阈值，每个患者周的严重不良事件风险评分阈值以及每个患者周的死亡事件风险评分阈值，依据每个患者周的问题数量风险评分阈值、每个患者周的逾期问题风险评分阈值和平均问题回复时间风险评分阈值以及受试者安全性关联分项风险评分阈值，临床试验数据质量风险指标风险评分阈值和临床试验风险指标风险评分阈值。

一般阈值通常按照1.15倍数据平均数(median)，1.3倍数据平均划分等级,小于或者等于1.15倍数据平均数为低风险，大于或者等于1.3倍数据为高风险，介于1.15倍数据和1.3倍数据之间为中风险。

参见图9为本实施例中阈值设定表格，其中“median”列的数据是参照图6、图7中编号为1的中心μj(平均数)或者μ′j列所数据值而设定的表格。

根据表格的数值计算获得的阈值表格如图10所示，其是依据图9中的各个平均数计算获得。根据图10的内容可知阈值1位低风险阈值，阈值2为高风险阈值。根据以上阈值判断风险等级。

小于阈值1风险等级低(绿色)，阈值1和阈值2中间是风险等级中(黄色)，大于阈值2风险等级高(红色)。

如图2所示，一种临床试验风险评估系统，是由临床信息电子数据采集模块101，用于采集临床试验数据；数据运算和存储模块102，用于存储采集的临床试验数据和执行风险评估算法；以及数据传送和接收模块103所组成。

其中数据传送和接收模块103将信息传送给信息接收端口104，信息接收端口为有线或者无线终端，其能够通过互联网接收临床试验安全性风险分项指标数据、临床试验数据质量风险分项指标数据以及风险指标数据中的一种或者多种；或者/和其能够通过互联网接收临床试验安全性风险等级信息、临床试验数据质量风险等级信息以及临床试验参与医院的风险等级信息中的一种或者多种；

其中，所述的信息接收端口根据数据使用方的身份至少可以分成如下几个类别：

临床试验参与医院的研究者信息接收端口，临床试验项目经理的信息接收端口；临床试验监查员的信息接收端口；临床试验受试者的信息接收端口；药厂的信息接收端口，项目管理统计人员的信息接收端口，临床试验管理机构信息接口；

其中各类别的信息接收端口，能够实现数据互联互通，并进行实时通信联系。

最后应说明的是：以上实施方式仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施方式对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：袁钧;王柏松;奚文;贾申科
技术所有人：上海用正医药科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。