用于为临床试验提供记录选择的基于地理聚类数据的数据库缩减的制作方法

文档序号:27611908发布日期:2021-11-27 04:47阅读:151来源:国知局
用于为临床试验提供记录选择的基于地理聚类数据的数据库缩减的制作方法
用于为临床试验提供记录选择的基于地理聚类数据的数据库缩减
1.相关应用的交叉引用
2.本技术要求于2019年4月12日提交的美国临时申请no.62/833,328的优先权和申请权益,该申请通过引用整体并入本文。
技术领域
3.本公开一般而言涉及用于消除数据库中的重复、不一致或以其它方式误导的记录的数据处理技术。更具体而言,但不作为限制,本公开涉及使用此类技术减小数据库的尺寸或复杂性,以便提高计算系统处理此类数据库的速度和效率,以便基于地理和临床表现(clinical performance)考虑识别临床试验的研究者。


背景技术:

4.临床试验是将新疗法引入到医疗保健系统中的过程的重要部分。此类新疗法可以包括新颖疫苗、组合物(例如,药物组合物)、膳食补充剂、医疗和/或膳食选择、和/或医疗设备。临床试验可以用于生成关于安全性、有效性、患者依从性、易用性和与治疗相关的其它话题的数据。临床试验的规模和成本可能变化,并且它们可能涉及一个国家或多个国家中的一个研究中心或多个研究中心。
5.随着时间的推移,实践医疗的医生选择接受训练,使得他们可以作为临床试验研究者参与试验。研究者可能改变工作地点、结婚等,从而导致临床研究者数据库中看似不同的研究者条目。随着研究者详细信息的增加,临床试验研究者数据库的尺寸和复杂性也增加。组合随着时间的推移通过合并和购置累积的来自几个源的信息使这种情况持久化,从而创建了包含同一个体随时间推移的多个实例的数据库。数据库查询可能会返回对先前使用的研究者数量的高估,并且特定研究者的经验深度可能会跨多个条目而被稀释。手动审查数据库条目既费时又容易出错,尤其是当跨不止一个个体划分任务时。


技术实现要素:

6.在一个示例中,一种系统包括数据存储库、包括计算机程序代码的非暂态计算机可读介质以及处理设备,其可通信地耦合到所述数据存储库和所述非暂态计算机可读介质。所述处理设备被配置用于执行所述计算机程序代码以执行操作。所述操作包括识别地理聚类数据的数据源,所述地理聚类数据包含要写入到所述数据存储库的数据库记录的对应描述符。所述操作还包括格式化所述对应描述符以产生标准化的对应描述符,以及匹配每个标准化的对应描述符以产生该描述符的记录分数。所述操作还包括组合所述标准化的对应描述符的记录分数以产生每条数据库记录的总分数,以及基于所述总分数选择性地将每条数据库记录写入到所述数据存储库以编译数据库。
7.在另一个示例中,一种方法包括识别地理聚类数据的数据源,该地理聚类数据包含要写入到数据存储库的数据库记录的对应描述符。该方法还包括格式化对应的描述符以
产生标准化的对应描述符,以及匹配每个标准化的对应描述符以产生该描述符的记录分数。该方法还包括组合标准化的对应描述符的记录分数以产生每条数据库记录的总分数,并基于总分数选择性地将每条数据库记录写入到数据存储库以编译数据库。
8.在另一个示例中,一种非暂态计算机可读介质包括可由处理器执行以使处理器执行操作的计算机程序代码。所述操作包括识别地理聚类数据的数据源,该地理聚类数据包含要写入到数据存储库的数据库记录的对应描述符。该操作还包括格式化对应的描述符以产生标准化的对应描述符,以及匹配每个标准化的对应描述符以产生该描述符的记录分数。该操作还包括组合标准化的对应描述符的记录分数以产生每条数据库记录的总分数,并基于总分数选择性地将每条数据库记录写入到数据存储库以编译数据库。
9.在一些示例中,每条数据库记录对应于临床试验研究者、与临床试验研究者对应的临床试验站点,或两者,并且该操作还包括使用空间聚类分析来产生地理聚类数据以确定在预期临床试验研究者的指定距离内的多个预期临床试验受试者。
附图说明
10.图1是描绘根据本公开各方面的用于为临床试验提供数据库记录选择的系统的框图。
11.图2是描绘根据本公开各方面的用于为临床试验提供数据库记录选择的系统的软件实体流程图。
12.图3是图示根据本公开各方面的在用于数据库记录选择的系统中使用的数据库缩减的过程的流程图。
13.图4是图示根据本公开各方面的为临床试验编译和使用临床研究者的数据库的过程的流程图。
14.图5是图示了根据本公开各方面的可以在数据库缩减中使用的数据源匹配逻辑流的示例的逻辑图。
具体实施方式
15.本公开的各方面和特征提供了一种系统,该系统使用计算机算法来确定数据库条目的相似性以减少质量控制检查、临界个案的判决或两者的人工工作。这些算法可以在添加新数据时自动运行,从而维持数据库质量并使数据库尺寸尽可能小。当采用临床试验研究者的计算机化选择时,这些优化确保了更快且更资源高效地处理数据。
16.在一些示例中,系统识别包含用于要写入到数据存储库的数据库记录的对应描述符的数据源。数据存储库包括用于为临床试验选择研究者的数据库。数据存储库可以包括其它数据库,包括用于为临床试验选择受试者的数据库。在一些示例中,系统还为了一致性格式化对应的描述符并匹配标准化的对应描述符以产生记录分数。可以组合记录分数以产生每条数据库记录的总分数,并且可以基于分数写入或不写入(选择性写入)数据库记录以便编译临床试验研究者的尺寸缩减的数据库。
17.在一些方面可以使用damerau

levenshtein方法来执行上述匹配以产生damerau

levenshtein分数。damerau

levenshtein分数然后可以用于提供二进制分数,该二进制分数确定数据库记录是否用在临床试验研究者的数据库中。使用已知匹配和误配训练的机器
学习模型可以用于提高匹配的效率和准确性。适应性可行性可以用于微调临床试验研究者选择。另外,一旦临床试验在进行中,上述数据存储库就可以基于临床试验信息进行更新。
18.下面讨论某些示例的详细描述。给出这些说明性示例是为了向读者介绍本文讨论的一般主题,而不是为了限制所公开概念的范围。以下部分参考附图描述了各种附加方面和示例,在附图中相同的数字指示相同的元件,并且方向性描述用于描述说明性示例,但是,与说明性示例一样,不应该用于限制本公开。
19.现在参考附图,图1描绘了根据一些方面的用于提供临床试验研究者和受试者选择的系统100的示例。图1描绘了系统100的硬件组件的示例。系统100包括统计计算环境服务器(计算服务器)102。计算服务器102可以是提供数据库缩减所需的聚类分析、建模和计算的计算机或其它机器。计算服务器102可以包括一个或多个其它系统。例如,计算服务器102可以包括用于访问通信网络的适配器、路由器等。在这个示例中,计算服务器102连接到数据网络104。数据网络104还可以完全并入(或可以包括)互联网、内联网、外联网或它们的组合。在一个示例中,两个或更多个系统或设备之间的通信可以通过安全通信协议来实现,诸如安全套接字层(“ssl”)或传输层安全(“tls”)。系统100包括通过网络104连接到计算服务器102的数据库服务器106。数据库服务器106连接到数据存储库107,该数据存储库107可以包括各种数据库,例如对应于或包括关于临床试验研究者、临床试验受试者或其它临床试验信息的信息的数据库。
20.仍然参考图1,计算服务器102还包括通信地耦合到非暂态存储设备110的处理设备108。非暂态存储设备110包括计算机可读介质,其用于存储计算机程序代码112,该计算机程序代码112用于使处理设备108执行根据本公开各方面的数据库缩减、数据库记录选择和支持功能的操作。非暂态存储器设备110还可以包括高速缓存的文件114,诸如由处理设备当前使用以执行这些操作的数据库记录。处理设备108可以包括一个处理器或多个处理器,并且处理设备的非限制性示例包括现场可编程门阵列(“fpga”)、专用集成电路(“asic”)、微处理器等。
21.继续参考图1,系统100中的数据网络104将计算服务器102连接到客户端计算设备118和124。计算设备118是移动设备,临床试验受试者可以通过该移动设备经由例如应用(app)或web访问关于临床试验的信息。计算设备124是计算机系统,临床试验研究者或与临床试验研究者相关联的人员可以使用该计算机系统来访问关于临床试验的信息。提供图1中描绘的设备数量是为了说明目的。可以使用不同数量的设备。例如,虽然图1中的每个设备、服务器和系统都显示为单个设备,但也可以使用多个设备。数据网络104可以包括多种不同类型的网络中的一种或多种,包括无线网络、有线网络或有线和无线网络的组合。
22.存储器设备110至少部分地能够存储可由处理设备执行的计算机程序代码或指令,并且在断电时保留这种存储的信息。包括在存储器设备110中的非暂态计算机可读介质可以包括能够为处理设备提供计算机可读指令或其它程序代码的电子、光学、磁性或其它存储设备。这种介质可以在安装在图1所示的服务器中或服务器上之前将指令存储在安装服务器上。计算机可读介质的非限制性示例包括(但不限于)(一个或多个)磁盘、(一个或多个)存储器芯片、只读存储器(rom)、随机存取存储器(“ram”)、asic、配置的处理设备、光存储装置,或计算机处理设备可以从中读取指令的任何其它介质。
23.图2是软件实体流程图,其描绘了根据本公开各方面的用于为临床试验提供数据
库记录选择和其它功能的软件系统200。通常在图2左侧的软件实体用于预试验,如底部附近的箭头所指示的。在临床试验开始201之后,图2右侧的软件实体管理临床试验。软件方框202提供研究方案设计服务,包括建模以确定纳入和排除标准。为了研究具有适当疾病状态和多样性水平的患者群体,研究者定义确定患者是否有资格参加试验的标准。纳入和排除标准可以包括患者特性(例如,年龄、遗传档案)以及特定于疾病和治疗的特性,包括与疾病和/或病症相关的先前试验室测试结果。另一个参数是临床试验所需的受试者数量。临床试验参数还可以包括招募受试者和/或研究者站点的期望时间以及完成临床试验的建议时间表。
24.系统200的方框204提供聚类分析以基于指定的距离识别临床研究者周围的受试者的地理聚类,并且识别离已知或参与的研究者太远的受试者聚类的附加研究者。聚类分析利用预期临床试验受试者的数据库206,其包括关于受试者授予临床研究、过去结果和临床信息的许可的信息。聚类分析还利用临床试验研究者和临床试验站点的数据库208。这些数据库可以驻留在数据存储库107中。纵向分析210被应用于数据库206中的数据以提供关于数据的历史观点。纵向分析包括关于最后使用的来自受试者的样本的数据,以及关于预期测试受试者随时间推移的分析物水平的数据。
25.站点评分方框211基于如基于历史表现确定的研究者的质量提供测试站点的排名。在本公开中,在讨论临床试验时,术语“研究者”可以与术语“站点”互换使用。站点可以是与研究者对应的特定实验室或研究组织,或者是指定研究者所属的特定实验室或研究组织。
26.对于空间聚类,每个可能的受试者包括i
cn(k)
,其中c=1并且n=1识别第一国家内的第一研究者位置,在定义的距离内具有k个可能的受试者(k取决于c和n);c=1并且n=2识别第一国家内的第二个可能的研究者位置,依此类推,对于c个国家并且n=1,..n(c),研究者位置具有k(nc)个可能的受试者。如由聚类分析方框204确定的空间或“地理”聚类可以通过国家数量c和∑n
c
的最小化来表示,使得:
[0027][0028]
其中p被设置在与满足研究时间表和受试者实际转换成临床试验患者的可接受确定性水平相称的水平。位置信息可以包括纬度和经度。gps数据、邮政编码、物理地址和/或邮政编码可以用于确定纬度和经度。临床试验参数用于查询数据库以确定临床试验的可能受试者和研究者。数据库提供与每个可能的受试者相关的信息,包括但不限于受试者的地理位置。类似地,数据库提供与每个可能的研究者相关的研究者信息,包括但不限于研究者的地理位置。在一些示例中,当有经验的临床研究者数量不足时,聚类分析204可以提供如果经过训练就可以被使用的潜在研究者的列表。例如,如果试验受试者也是医生,但没有作为临床研究者的经验,那么可以考虑训练该医生成为当前临床试验的研究者。
[0029]
继续图2,软件方框212从聚类数据中识别测试站点(研究者)。为了使该过程在计算上尽可能高效,软件方框212还包括根据本文描述的方面的数据库缩减技术。这种数据库缩减技术将在下面参考其余图进行详细描述。站点识别方框212使用国家站点分发引擎确
定临床试验的全球分布和国家站点混合。站点识别可以包括基于历史招募率以及基于国家站点分布中每个国家的监管时间要求来收集对临床试验的投标。软件方框212还可以提供图形工具,该工具列出先前使用的研究者和站点、其基于历史表现的排名以及其地理分布。还可以显示关于观察到的国家级筛查率的数据。
[0030]
在典型临床研究的预审阶段期间,收集在响应中联系的潜在研究者和受试者。最初联系产生可能改变受试者的选定分布、测试站点、临床研究者或其它参数的响应。当最终响应改变受试者和研究者的最佳地理聚类和分布时,适应性可行性软件方框214更新所有这些信息。
[0031]
全球测试站点分发软件方框216提供奖励前和奖励后建模。该建模软件工具基于特定于国家的招募率和要求提供测试站点分布。它提供了临床试验的时间框架和基于这些时间框架的要求。方框216还包括国家

站点混合计算器。可以在试验期间更新国家

站点混合和其它确定。软件方框216在调查开始之前和之后管理临床调查。测试站点分发软件进行数据库记录选择以摄取数据以便进行计算。通过确保数据库中的数据干净,即格式一致而没有因姓名拼写变化或传记信息随时间变化之类的问题导致的重复,使得这些计算比其它可能的方式更快且更高效。这个过程在本文中可以被称为数据缩减、数据去重复或数据库缩减。
[0032]
仍然参考图2,软件方框218提供站点识别、受试者识别、测试信息和关于两者的数据的提取,以及反馈到数据库206中,使得数据库保持最新以用于未来的临床试验。试验管理软件方框220提供用于与受试者和研究者交互的标杆分析(benchmarking)、通信和适当的仪表板。作为示例,可以通过客户端计算设备118和124显示来自这些仪表板的信息并且可以接收输入。
[0033]
系统200中的软件实体摄取真实世界临床数据(包括实验室诊断测试结果)并使用户能够评估协议的纳入/排除标准对可用的患有疾病的人群的影响,具有设计更高效试验的可能性。聚类使用患者与最合适的试验研究者的接近度来识别附近可用患者密度较大的研究者。它还支持为试验所需的国家和研究者的数量进行规划。用户界面提供了在防止误用的受控环境内运行复杂数学和统计程序而无需技术知识的能力。
[0034]
该系统利用在统计计算环境服务器102中运行的稳健的统计和数学算法。应用线性规划技术来确定潜在的国家站点分布,该分布基于每个国家的最新监管提交时间表和先前进行的类似试验的筛查率来实现试验时间表。在一些示例中,可以使用诸如r之类的统计编程语言来建立统计计算环境,以便提供数据的过滤、排列、分组、汇总和可视化。
[0035]
图3是图示根据本公开各方面的用于数据库缩减的过程300的流程图。过程300提供从非标准化(不清理拼写并且不尝试使条目在数据源之间或之内的格式一致)信息源汇编唯一临床试验研究者的列表。识别每个源内包含的信息片段的公共组件并将其在源之间进行比较,从而为每个组件生成相似性分数。然后将每个组件的相似性分数组合,以为临床试验研究者条目给出总体相似性分数,用于在源内和源之间对研究者进行每个逐对比较。对定义二项式结果(“匹配”、“不匹配”)的分数的值(分类器)的识别允许该过程高效地工作。
[0036]
在过程300的方框302处,识别临床研究者信息的内部源和外部源。在方框304处,清理临床研究者信息以使条目格式一致。在方框306处,来自不同源的数据库记录被比较并
且跨不同临床研究者信息源的唯一临床研究者被识别。在方框308处,数据库记录被写入到数据存储库以编译用于确定全球测试站点分布和协调临床试验的临床研究者数据库。数据库尺寸的缩减在本文中可以被称为去重复或缩减,因为重复的数据库条目被自动识别和消除,这缩减了数据库的尺寸。
[0037]
图4是图示根据本公开各方面的为临床试验编译和使用临床研究者的数据库的过程400的示例的流程图。在方框402处,地理聚类数据由处理设备108使用聚类分析204产生。地理聚类数据使用聚类分析来确定在预期临床试验研究者的指定距离内的多个预期临床试验受试者。在方框404处,识别包含数据库记录的对应描述符的地理聚类数据的源。识别出包含被存放在数据库中的条目的类似描述符的数据源;所选择的描述符的数量需要是必需的最少数量,而描述符集需要是所有潜在描述符的足够子集,使得它们在完整信息存在的情况下共同地唯一识别条目。
[0038]
在一些示例中,就唯一条目而言,可以假设外部源是最准确的源。该源对于设计临床试验的企业来说是外部的,因为否则,数据库缩减过程将是不必要的。出于本示例的目的,可以假设有三个内部数据源需要被组合和去重复,并且有一个外部数据源被假设为去重复的数据库。
[0039]
在图4的方框406处,处理设备108格式化对应描述符以产生标准化的对应描述符。出于本示例的目的,可以假设每个所选择的源中的每个数据库条目有五个关注的描述符:研究者姓名、研究者站点街道地址、研究者城市、研究者邮政编码和研究者电子邮件地址。在这个示例中,研究者姓名包括名字和姓氏的组合。对于东南亚姓名,可以应用两次匹配,一次颠倒一个数据库条目中姓名的顺序,以适合人首先通过其姓氏被引用的文化规范。这个示例中的研究者站点街道地址包括用于确定地识别位置的强制性建筑物/街区编号,因为有些地区,仅靠街道是不够的。例如,英国伦敦的harley street是世界闻名的私人执业医师街道;在数据库条目中仅使用harley street不会区分都在那里工作的两个同名研究者。每个描述符需要在格式上尽可能被标准化,以方便匹配过程。作为示例,在该过程中可以被纳入的标准化包括将所有字母字符转换成小写字母和去除标点符号。
[0040]
仍然参考图4,在方框408处,匹配每个标准化的对应描述符以产生标准化的对应描述符的记录分数。在一些示例中,使用机器学习模型。在一些示例中,damerau

levenshtein(dl)方法用于文本匹配。每个描述符分别在数据源条目内和数据源之间进行文本匹配过程。作为示例,考虑四个名字:stephen、steve、steven、stephanie。dl算法确定从一个名称到另一个名称所需的插入、删除和字符转换的数量。例如,steve和steven之间的差异产生为1的dl分数,因为更改只需要添加字母“n”。基于stephanie和stephen之间差异的dl分数为3(添加“i”和“e”并将“a”更改为“e”)。stephanie和steve之间的差异产生为5的dl分数(去除“h”、“a”、“n”和“i”,并将“p”替换为“v”)。
[0041]
被匹配的文本的长度可能是重要的。例如,“dog”和“cat”之间的差异产生为3的dl分数,这是3字母单词的最高分数。为此,通过将dl分数除以被比较的两个单词中较长的字符的数量来修改dl分数,以产生修改后的dl分数。使用上面基于“steve”和“steven”的示例,差异被评分为1/6,并且“stephanie”和“steve”之间的差异被评分为5/9。最后的更改是从1中减去修改后的分数并舍入,以从修改后的dl分数产生二进制的最终记录分数,其中分数1表示匹配,并且分数0表示完全误配。
[0042]
对于街道地址描述符,如果认为街道号码是关键的,那么需要修改。作为一个示例,系统可以被设计为使得被比较的描述符的数字部分需要完全匹配,否则记录分数0被分配给所讨论的记录。通过上述任何匹配,可以针对除特定部分(诸如街道号码)以外的所有描述符都存在良好匹配的情况向用户提出查询,以避免错误的误配和因此导致的错误地创建重复项。
[0043]
继续图4,在方框410处,记录分数被组合以产生包括标准化的对应描述符的数据库记录的总分数。在一个示例中,一旦对所有描述符都进行了评分,就可以使用k

means机器学习方法来组合标准化的对应描述符的记录分数,以产生所讨论的数据库记录的总分数。已知匹配和误配的训练集可以用于训练机器学习模型,该模型并入到使用k=2(匹配=“是”或“否”)过程中。在方框412处,数据库记录被写入到数据存储库107中的数据库208。基于总体匹配分数写入或不写入(选择性写入)数据库记录,如刚才描述的,对应于是或否,其中“是”指示该记录成为临床研究者的编译数据库的一部分。写入记录以编译数据库,直到处理完所有记录。在方框414处,处理设备108确定是否有剩余的记录要处理。如果是,那么对来自方框406的每条记录重复该过程。否则,编译后的数据库被投入使用。自适应可行性用于在方框416处产生测试站点分布。
[0044]
图5是图示根据本公开各方面的可以在数据库缩减中使用的数据源匹配逻辑流500的示例的逻辑图。数据库缩减开始于将每个内部数据源502与至少一个外部数据源504匹配。如果在判定方框506处没有匹配,那么匹配外部数据源508。在这个示例中,存在三个外部数据源,外部数据源a、外部数据源b和外部数据源c。如果在方框506处可以在内部数据源和外部数据源之间进行匹配,那么唯一id在方框510处被分配给匹配的记录。类似地,如果在判定方框512处可以在内部数据源508之间进行匹配,那么在方框510再次将唯一id分配给匹配的记录。对于来自内部数据源508的仍然不匹配的记录,系统可以在方框516处创建唯一id。为不匹配的记录创建的id可以用于定位记录以供将来引用。
[0045]
除非另外特别说明,否则在本说明书中,诸如“处理”、“计算(computing)”、“计算(calculating)”、“确定”等术语是指计算或处理设备的动作或过程,该计算或处理设备诸如一个或多个计算机或类似的一个或多个电子计算设备,其在计算平台的存储器、寄存器或其它信息存储设备、传输设备或显示设备内操纵或变换表示为物理电子或磁量的数据。
[0046]
本文讨论的一个或多个系统不限于任何特定的硬件体系架构或配置。计算设备可以包括提供以一个或多个输入为条件的结果的任何合适布置的组件。合适的计算设备包括访问存储软件的多用途基于微处理器的计算系统,该存储软件将计算系统从通用计算装置编程或配置为实现本主题的一个或多个方面的专用计算装置。可以使用任何合适的编程、脚本或其它类型的语言或语言的组合来在要用于编程或配置计算设备的软件中实现本文包含的教导。
[0047]
本文公开的方法的方面可以在此类计算设备的操作中执行。上面示例中呈现的一些方框的顺序可以被改变—例如,方框可以被重新排序、组合或分解成子方框。某些方框或过程可以被并行执行。
[0048]
本文中“被配置为”的使用意为开放性和包容性语言,其不排除被配置为执行附加任务或步骤的设备。此外,“基于”的使用是指计算或处理设备的动作或过程,并且是开放性和包容性的,因为“基于”一个或多个陈述的条件或值的过程、步骤、计算或其它动作在实践
中可以基于除所陈述的那些之外的其它条件或值。本文包括的标题、列表和编号仅是为了便于解释而不是限制。
[0049]
本主题的示例(包括图示的示例)的前述描述仅出于说明和描述的目的而给出并且不旨在穷举的或将本主题限制为所公开的精确形式。在不脱离本主题的范围的情况下,对于本领域技术人员而言,其多种修改、改编和使用将是显而易见的。给出上述说明性示例是为了向读者介绍这里讨论的一般主题,而不是为了限制所公开概念的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1