录入数据的方法及装置、计算机可读存储介质和电子设备与流程

文档序号:26855620发布日期:2021-10-09 03:47阅读:193来源:国知局
录入数据的方法及装置、计算机可读存储介质和电子设备与流程

1.本公开涉及数据处理技术领域,尤其涉及一种录入数据的方法、录入数据的装置,以及实现上述录入数据的方法的计算机可读存储介质和电子设备。


背景技术:

2.为了将临床试验数据进行系统地分析与研究,当前通过数据库,如edc(electronic data capture,电子数据采集系统),维护临床试验数据。而临床试验(clinical trial)过程中产生的数据,随着时间推移是不断增加的。也就是说,在通过数据库维护临床试验数据的过程中,会面临需要将不断产生的增量数据录入至数据库的问题。现有技术中一般采用人工方式将增量数据进行录入。
3.然而,人工录入的方式存在录入效率低的问题。
4.需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现要素:

5.本公开的目的在于提供一种录入数据的方法、录入数据的装置及电子设备,在保证较高录入准确度的同时,至少在一定程度上提升增量数据的录入效率。
6.本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
7.根据本公开实施例的一个方面,提供一种录入数据的方法,该方法包括:根据待录入数据库的当前数据条目的标识符,确定上述数据库中是否已存在与上述当前数据条目相同的目标数据条目;响应于上述数据库中是存在与上述当前数据条目相同的目标数据条目,确定所述当前数据条目的数据操作类型是否为删除类型;响应于所述当前数据条目的数据操作类型为非删除类型,确定上述当前数据条目的数据值是否与上述目标数据条目的数据值相同;响应于上述当前数据条目的数据值与上述目标数据条目的数据值不相同,通过上述当前数据条目的数据值替换上述目标数据条目的数据值,并处理待录入上述数据库的下一数据条目。
8.在示例性的实施例中,基于前述方案,上述方法还包括:响应于上述当前数据条目的数据值与上述目标数据条目的数据值相同,保持上述目标数据条目的数据值不变,并处理待录入上述数据库的下一数据条目的录入操作。
9.在示例性的实施例中,基于前述方案,上述方法还包括:响应于上述数据库中是不存在与上述当前数据条目相同的目标数据条目,将上述当前数据条目的数据录入至上述数据库。
10.在示例性的实施例中,基于前述方案,所述方法还包括:响应于上述当前数据条目包含数据操作类型为删除类型,将上述当前数据条目对应的数据值进行逻辑删除操作。
11.在示例性的实施例中,基于前述方案,上述当前数据条目包含多个数据点,每个上
述数据点具有对应的数据值;其中,所述确定所述当前数据条目的数据值是否与所述目标数据条目的数据值相同,包括:响应于上述当前数据条目包含数据操作类型为非删除类型,确定上述当前数据条目的每一个数据点上的数据值是否与上述数据库中对应的数据值均一致;所述响应于所述当前数据条目的数据值与所述目标数据条目的数据值相同,保持所述目标数据条目的数据值不变,包括:响应于上述当前数据条目的每一个数据点上的数据值与上述数据库中对应的数据值均一致,舍弃上述当前数据条目中每个数据点对应的数据值。
12.在示例性的实施例中,基于前述方案,上述方法还包括:响应于上述当前数据条目的每一个数据点上的数据值与上述数据库中对应的数据值存在不一致,获取目标数据点,其中,上述目标数据点为上述当前数据条目中数据值与上述数据库中对应的数据值不同的数据点;通过上述目标数据点的数据值替换上述数据库中对应的数据值。
13.在示例性的实施例中,基于前述方案,在确定上述当前数据条目的数据值是否与上述目标数据条目的数据值相同之前,上述方法还包括:
14.确定上述目标数据条目是否包含预设标记;响应于上述目标数据条目包含预设标记,将上述目标数据条目和上述当前数据条目的数据存放至目标队列,保持上述数据库中上述目标数据条目的数据值不变。
15.在示例性的实施例中,基于前述方案,上述方法还包括:确定病历报告表crf,以及确定上述crf中的每个层级的数据条目与源数据之间的映射关系;为上述每个层级的数据条目分别确定用于唯一识别的标识符;根据上述映射关系在上述源数据中提取数据,得到上述每个层级的数据条目分别对应的数据值。
16.在示例性的实施例中,基于前述方案,上述crf包括n个层级;其中,为上述每个层级的数据条目分别确定用于唯一识别的标识符,包括:确定第一层级的数据条目对应的唯一识别的标识符;第i+1层级的数据条目对应的标识符中包含有第i层级的数据条目的标识符,i为小于n的正整数。
17.在示例性的实施例中,基于前述方案,根据所述映射关系在所述源数据中提取数据,包括:将受试者临床试验数据转换为操作数据模型odm格式,并根据所述映射关系在所述源数据中提取数据,其中,所提取到数据的每个层级分别对应的数据值符合odm格式。
18.根据本公开实施例的另一个方面,提供一种录入数据的装置,该装置包括:第一预判模块,用于:根据待录入数据库的当前数据条目的标识符,确定上述数据库中是否已存在与上述当前数据条目相同的目标数据条目;第二预判模块,用于:响应于上述数据库中是存在与上述当前数据条目相同的目标数据条目,确定上述当前数据条目包含数据操作类型是否为删除类型;第三预测模块,用于:响应于所述当前数据条目的数据操作类型为非删除类型,确定上述当前数据条目的数据值是否与上述目标数据条目的数据值相同;更新模块,用于:响应于上述当前数据条目的数据值与上述目标数据条目的数据值不相同,通过上述当前数据条目的数据值替换上述目标数据条目的数据值,并处理待录入上述数据库的下一数据条目。
19.根据本公开的再一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述的录入数据的方法。
20.根据本公开的又一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的录入数据的方法。
21.本公开的实施例所提供的录入数据的方法、录入数据的装置及电子设备中,先根据待录入数据库的当前数据条目的标识符,确定数据库中是否已存在与当前数据条目相同的目标数据条目。若存在与当前数据条目相同的目标数据条目,再进一步确定当前数据条目包含数据操作类型是否为删除类型。在当前数据条目的数据操作类型为非删除类型的情况下,进一步判断当前数据条目的数据值是否与数据库中目标数据条目的数据值相同,以判断该数据条目对应的值是否发生了更新。若不相同,说明该数据条目对应的值发生了更新,也就是说当前数据条目对应的值为需要录入数据库的增量数据,进而通过当前数据条目的数据值替换目标数据条目的数据值。从而完成对于当前数据条目的数量并处理待录入数据库的下一数据条目。本技术方案中,先判断待录入数据条目及其对应的值是否属于增量数据,然后再将增量数据录入至数据库。通过自动化录入的方式提升了增量数据的录入效率与例如准确度。
22.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
23.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
24.图1示意性示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。
25.图2示意性示出本公开示例性实施例中一种录入数据的方法的流程图。
26.图3示意性示出本公开示例性实施例中另一种录入数据的方法的流程图。
27.图4示意性示出本公开示例性实施例中再一种录入数据的方法的流程图。
28.图5示意性示出的本公开示例性实施例中满足操作数据模型的数据结构图。
29.图6示意性示出的本公开示例性实施例中上传文件的图形用户界面图。
30.图7示出本公开示例性实施例中一种录入数据的装置的结构示意图。
31.图8示出本公开示例性实施例中一种电子设备的结构框图。
32.图9示出本公开示例性实施例中一种计算机可读存储介质的结构示意图。
具体实施方式
33.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
34.此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功
能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
35.图1示意性示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。参考图1,系统架构100可以包括:若干个终端120和服务器集群140。
36.终端120可以是手机、游戏主机、平板电脑、电子书阅读器、智能眼镜、mp4(movingpicture experts group audio layer iv,动态影像专家压缩标准音频层面4)播放器、智能家居设备、ar(augmented reality,增强现实)设备、vr(virtual reality,虚拟现实)设备等移动终端,或者,终端120也可以是个人计算机(personal computer,pc),比如膝上型便携计算机和台式计算机等等。
37.其中,终端120中可以安装有用于提供录入数据方案的应用程序。
38.终端120与服务器集群140之间通过通信网络相连。示例性的,通信网络是有线网络或无线网络。
39.服务器集群140是一台服务器,或者由若干台服务器组成,或者是一个虚拟化平台,或者是一个云计算服务中心。服务器集群140用于为提供录入数据方案的应用程序提供后台服务。示例性的,服务器集群140承担主要计算工作,终端120承担次要计算工作;或者,服务器集群140承担次要计算工作,终端120承担主要计算工作;或者,终端120和服务器集群140之间采用分布式计算架构进行协同计算。
40.示例性的,不同的终端120中安装的应用程序的客户端是相同的,或两个终端120上安装的应用程序的客户端是不同控制系统平台的同一类型应用程序的客户端。基于终端平台的不同,该应用程序的客户端的具体形态也可以不同,比如,该应用程序客户端可以是手机客户端、pc客户端或者全球广域网(world wide web,web)客户端等。
41.本领域技术人员可以知晓,上述终端120的数量可以更多或更少。比如上述终端可以仅为一个,或者上述终端为几十个或几百个,或者更多数量。本技术实施例对终端的数量和设备类型不加以限定。
42.示例性的,该系统还可以包括管理设备(图1未示出),该管理设备与服务器集群140之间通过通信网络相连。示例性的,通信网络是有线网络或无线网络。
43.示例性的,上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也可以是任何网络,包括但不限于局域网(local area network,lan)、城域网(metropolitan area network,man)、广域网(wide area network,wan)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中,使用包括超文本标记语言(hyper text mark

up language,html)、可扩展标记语言(extensible markuplanguage,xml)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(secure socket layer,ssl)、传输层安全(transport layer security,tls)、虚拟专用网络(virtual private network,vpn)、网际协议安全(internet protocolsecurity,ipsec)等常规加密技术来加密所有或者一些链路。
44.以下介绍录入数据的方法的实施例。本公开实施例提供的方法可以由任意具备计算处理能力的电子设备执行,例如如图1中的终端120和/或服务器集群140。在下面的举例说明中,以服务器集群140为执行主体进行示例说明。
45.其中,图2示意性示出本公开示例性实施例中一种录入数据的方法的流程图。参考图2,该实施例所示的方案包括:
46.步骤s210,根据待录入数据库的当前数据条目的标识符,确定所述数据库中是否已存在与所述当前数据条目相同的目标数据条目;
47.步骤s220,响应于所述数据库中是存在与所述当前数据条目相同的目标数据条目,确定上述当前数据条目包含数据操作类型是否为删除类型;
48.步骤s230,响应于所述当前数据条目的数据操作类型为非删除类型,确定所述当前数据条目的数据值是否与所述目标数据条目的数据值相同;
49.步骤s240,响应于所述当前数据条目的数据值与所述目标数据条目的数据值不相同,通过所述当前数据条目的数据值替换所述目标数据条目的数据值,并处理待录入所述数据库的下一数据条目。
50.其中,上述当前数据条目是指正在处理的数据条目,下一数据条目指将要处理的数据条目。上述数据条目以及数据条目对应的值均属于临床试验数据,具体为;临床试验过程中产生的数据。具体的,临床试验(clinical trial)是指任何在人体(病人或健康志愿者)进行药物的系统性研究,以证实或揭示试验药物的作用、不良反应及/或试验药物的吸收、分布、代谢和排泄,目的是确定试验药物的有效性与安全性的试验。在一个临床试验中,受试者将包含多个访视周期,受试者需要在规定的访视周期内完成相关的用药和检验检查,进而产生临床试验数据。
51.上述数据库可以是用于收集与维护临床试验数据的数据库,本实施例中以数据采集系统edc为例。其中,edc系统是一种基于计算机网络的用于临床试验数据采集的技术,通过软件、硬件、标准操作程序和人员配置的有机结合,以电子化的形式直接采集和传递临床数据。在录入临床试验数据的过程中需满足所有操作都要留痕的硬性监管要求,同时需避免数据重复上传。本技术方案用于解决该技术问题,提供了一种有效识别增量数据并实现增量数据自动化录入至相关数据库的技术方案。本技术方案能够在保证较高录入准确度的同时,有效提升增量数据的录入效率。
52.在示例性的实施例中,图3和图4分别示意性示出本公开示例性实施例中录入数据的方法的流程图。以下结合图3和图4对图2所示的录入数据的方法中各个步骤的具体实施方式进行更详细的说明。
53.本技术方案提供的数据录入方案在总体上包括:数据转换环节和数据导入系统环节。其中,图2所示的录入数据的方法的实施例用于介绍数据导入系统环节的相关实施例,而图3中步骤s310

步骤s330用于介绍数据转换环节的相关实施例。
54.参考图3提供的技术方案中,在执行步骤s210之前需执行步骤s310

步骤s330。即,以下先介绍数据转换环节的相关实施例:
55.在步骤s310中,确定病历报告表crf,以及确定所述crf中的每个层级的数据条目与源数据之间的映射关系。
56.其中,crf(case report form,病历报告表)为一种记录实验方案中对受试者要求的所有信息,并向申办者报告的文件,是临床试验收集数据的主要载体。其文件形式可以是印刷的、可视的或者是电子版的。
57.在示例性的实施例中,根据临床试验方案的要求确定crf中所包含的研究访视内
容、表单内容、数据条目(例如,字段/变量)内容,以及值域等。参考表1,表单内容可以包括生命体征(筛选期)、生命体征、体格检查、ecgo评分等。字段/变量包括:体重、是否进行评估、异常情况描述、评估日期等。
58.表1
[0059][0060][0061]
示例性的,为了提升临床试验数据采集、交换、提交、分析等过程中的处理效率,可以为临床试验数据进行标准化。则上述表单和字段的内容符合cdisc(clinical data interchange standards consortium,临床数据交换标准协会)标准,即采用符合该标准要求的域、变量名称、命名规范等,值域可以符合controlled terminology标准。
[0062]
示例性的,确定crf的过程可以在excel中配置完成,然后导入到edc系统中,也可以在edc系统中直接完成。具体的,通过计算机程序根据上述crf在关系型数据库中生成二维表结构,不同域的数据存放在单独的二维表中,二维表的表名、表结构、字段名需要与crf的数据条目内容一致。示例性的,可以在每张表中增加受试者id、访视周期id两个字段,其中,受试者id用于区分不同的受试者,访视周期id用于区分不同的访视周期,以在后续进行数据的整理和重组时作为参考因素。
[0063]
需要说明的是,上述crf各个数据条目对应的数据值(例如,受试者的体重数值、受试者是否进行评估、受试者的异常情况描述等)来源于源数据source data。其中,source data指临床试验中的原始记录或其核证副本上记载的所有信息。包括临床发现、观测结果以及用于重建和评价该试验所必须的其他相关活动记录。在本实施例中,source data可以是以电子形式记录和储存于ehr(electronic health records,电子健康记录/档案)系统中的临床试验相关活动的所有信息。ehr则是在健康相关活动中直接形成的具有保存备查价值的电子化历史记录,包括但不限于医院电子化信息系统产生的有关生命体征、病史、诊断、物理检查、实验室检验、药物治疗等信息。则上述crf各个数据条目对应的数据值具体可以为ehr数据中某张表下的某个字段。
[0064]
也就是说,上述crf与上述source data之间存在映射关系。具体的,参考图4,在
edc系统中建立的crf表41与受试者临床试验数据(source data)42之间存在映射关系43。
[0065]
参考图4,在步骤s410中,根据source data与crf之间的映射关系,将受试者临床试验数据转换为cdisc odm格式。
[0066]
示例性的,对于ehr中与上述映射关系相关的源数据,将被进行操作数据模型odm格式转换,以使得满足cdisc odm标准,从而将满足cdisc odm标准的源数据导入edc系统中。其中,odm(operational data model,操作数据模型)属于cdisc标准,具体为基于xml,用于获取、交换、报告或递交,以及对基于crf的临床研究数据归档的内容和格式标准。
[0067]
在示例性的实施例中,在支持cdisc标准的edc系统中,完成crf的定义之后,就可以直接生成当前crf的元数据信息(metadata),包含crf中与受试者(subject)、访视周期(event)、表单(form)、字段组(itemgroup)和字段(item)等数据元素有关的全部定义的信息。
[0068]
图5示意性示出的本公开示例性实施例中满足操作数据模型的数据结构图。参考图5示出的满足操作数据模型odm标准的多层级的数据条目元数据信息51以及满足操作数据模型odm的临床数据(clinicaldata)52。其中,一个临床试验项目(study)的源数据版式meta data version包含:访视周期定义event def、表单定义form def、字段组定义item group def和字段定义item def。具体的,一条完整的临床数据(clinicaldata)包含多个受试者数据(subject data),每个受试者会有多个访视周期数据(event data),每一个访视周期下面会产生多个表单的数据(form data,可类比理解为excel中的一个sheet,如生命体征、实验室检验),每一个表单下面又可能会有一个或多个字段组的数据(itemgroup data,可类比理解为excel中的一行),每一个字段组下面对应着一个个具体的字段(item,可类比理解为excel中的一个单元格),每一个字段会有各自的更为细致的定义(如在edc系统界面上展示的名称、数据类型、格式等)。
[0069]
继续参考图3,在步骤s320中,为所述每个层级的数据条目分别确定用于唯一识别的标识符uuoid。
[0070]
在示例性的实施例中,为crf中定义的每个层级的数据条目配置用于数据实体的唯一识别的标识符。例如,通过uuoid(unique united object id,唯一联合数据实体标识符)作为上述标识符,以edc系统中唯一定位某一层级的数据实体。
[0071]
对于图5所示的具有层级关系的数据实体/数据条目,每个层级需对应该层级的uuoid,如受试者层级为subjectkey,表单层级为formoid,字段层级为itemoid。示例性的,可以通过层级间oid进行组合的方式生成不同层级数据实体的uuoid。具体地,在下层级的uuoid包含在上层级的uuoid。详细如表2所示:
[0072]
表2
[0073][0074]
通过表2所示的uuoid设置方式可以保证每一个层级的数据实体拥有全局唯一的标识符。例如,两个表单的uuoid相同,但是这两个表单分别属于不同的访视周期,因此访视周期的uuoid不相同,则通过表2所示的方式便可以有效区分上述两个表单。
[0075]
需要说明的是,在根据上述映射关系在her中获取的源数据也可以按照上述方式确定各个源数据分别对应的uuoid,以确保edc系统能够准确识别,并对其进行预判操作(将在后续实施例中进行详细介绍)。
[0076]
继续参加图3,在步骤s330中,根据所述映射关系在所述源数据中提取数据,得到所述每个层级的数据条目分别对应的数据值。
[0077]
在示例性的实施例中,基于步骤s410对应的实施例以及上述步骤s310对应的实施例以及步骤s320对应的实施例,根据crf与source data之间的映射关系在ehr的source data中提取数据。示例性的,将抽取到的数据,填充到上述二维表相对应的映射位置,得到所述每个层级的数据条目分别对应的数据值。其中,每个层级分别对应的数据值为符合cdisc odm格式,同时带uuoid的数据。
[0078]
在示例性的实施例中,上述二维表可以按照表单form进行组织,即:将二维表中的数据以表单数据formdata节点的形式挂载到前述对应的访视周期数据studyeventdata以及受试者数据subjectdata节点下。其中,每个表单form中包含了各自的字段组数据itemgroupdata和字段数据itemdata。
[0079]
示例性的,实现二维表以进行表单form进行组织的可实施方式包括:首先,根据数据值的时间先后关系计算出每一条临床数据对应的访视周期,并把该信息填充到二维表的访视周期id字段中。然后,通过受试者id和访视周期id将受试者(subject)和访视周期
(event)进行区分。即:拥有相同受试者id的数据将被组织在同一个subjectdata节点下,拥有相同访视周期id的数据将被组织在同一个studyeventdata节点下。进一步地,再根据crf的元数据信息,确定每一个访视周期event所包含的表单form。最终形成如图5中所示的数据格式,即按照clinicaldata

subjectdata

studyeventdata

formdata

itemgroupdata

itemdata的形式,分层级地组织从源数据中提取出的数据。
[0080]
示例性的,如果同一个字段组下有多条记录,则用递增的数字序列itemgrouprepeatkey来标识记录的序号,从而标明当前记录对应edc系统中的第几行数据。
[0081]
示例性的,从源数据中提取出的每个层级分别对应的数据值还包含数据操作类型。其中,数据操作类型在cdisc odm中体现为数据节点的transactiontype属性。对于大部分数据,transactiontype属性(数据操作类型)默认都是设置为“upsert”类型,即,将插入(insert)和更新(update)两种操作类型合并成为一种,并交由edc系统根据uuoid来判断具体执行insert操作还是update操作,从而极大地简化了数据格式转换过程。
[0082]
另外,对于发生概率较小的数据删除操作,可以将transactiontype属性(数据操作类型)设置为“delete”类型。进一步地,edc系统根据uuoid确定相应的数据节点,并对数据执行逻辑删除操作。其中,该逻辑删除操作为非物理性删除,只是在edc系统中将其打上删除标记。
[0083]
需要说明的是,如果相关数据节点在数据库中已经有删除标记,则会忽略当前的“delete”类型,不执行任何操作。
[0084]
通过上述技术方案,能够在数据转换环节和数据导入系统环节之间实现平衡,即:使得既减少数据转换环节的人工干预等工作量,进而保证最大限度的自动化,又充分发挥edc系统自身的特点,在数据导入系统环节过程中在逻辑判断操作方面具有更灵活的调整空间。
[0085]
在以上实施例中介绍了数据转换环节的相关实施例,以下介绍数据导入系统环节的相关实施例。
[0086]
参考图2或图3,在步骤s210中,根据待录入数据库的当前数据条目的标识符,确定所述数据库中是否已存在与所述当前数据条目相同的目标数据条目。
[0087]
在示例性的实施例中,临床数据以odm方式组织完成后,可以批量导入edc系统。参考图6示意性示出的本公开实施例中上传文件的图形用户界面图。通过该界面用户可以实现批量上传odm的压缩文件(odm zip)600。
[0088]
具体的,该界面包含选择受试者文件部分610、选择受试者的数据文件部分620以及展示odm上传任务及任务上传状态的630。示例性的,用户可以通过点击/触控添加文件控件61来根据受试者id来确定出属于某一受试者的所有数据文件。示例性的,用户可以通过点击/触控添加文件控件62来在该受试者的所有数据文件中进行选择需要上传的文件,当然也可全部上传,对此不作限定。进一步地,通过630可以清楚明了地查看各odm任务的上传状态。
[0089]
在示例性的实施例中,对于上传至edc系统的数据进行自动化地识别与预判(如,通过edc系统的预判模块进行识别及预判操作)。具体地,由于odm格式的数据中,不同层级的数据实体(数据条目以及对应的数据值)唯一识别标识符uuoid,从而可以保证edc系统能够解析出odm中各个层级的数据实体,并通过uuoid进行逐级定位,进而实现自动化地识别
操作。
[0090]
以下介绍对于上传至edc系统的数据的自动化地预判操作相关的实施例:
[0091]
具体来说,edc系统中的上述预判模块会根据各个层级分别对应的uuoid信息,判断该uuoid是否在当前数据库中。示例性的,执行步骤s420:通过uuoid判断当前数据条目是否为新的数据条目。换句话说,判断uuoid对应的数据条目是否已经存在于该数据中。
[0092]
如果当前数据条目并不存在于当前数据库中,表明这是一个新的数据条目,也就说明该数据条目对应的数据值为增量数据需录入至数据库中。则作为步骤s350(将所述当前数据条目对应的数据值录入至所述数据库)的一种具体实施方式:执行步骤s490,在数据库中对上述当前数据条目对应的数据值进行insert操作。
[0093]
如果当前数据条目已经存在于当前数据库中(即数据库中存在与上述当前数据条目对应的目标数据条目),则表明有可能该数据条目对应的数据值为增量数据,进而需要对原有数据执行某种类型的修改操作,或者说该数据条目对应的数据值并不属于增量数据,需对其进行逻辑删除。本实施例中,需对uuoid对应的数据条目进一步判断,因此执行步骤s430:根据上述当前数据条目的数据操作类型进行判断(步骤s220的一种具体实施方式)。同前所述,其中,上述数据操作类型在cdisc odm中体现为数据节点的transactiontype属性,包含“upsert”和“delete”两种类型。
[0094]
如果当前数据条目的数据操作类型为delete,则执行步骤s440:逻辑删除数据库中目标数据条目下的所有数据。具体的,将数据库中当前数据条目对应的目标数据条目对应的数据值执行逻辑删除操作,同时在edc系统的后端数据库中对目标数据条目进行标记。其中,如果数据库中对应的目标数据条目已经被打上了逻辑删除的标记,则会忽略本次的逻辑删除操作。
[0095]
如果当前数据条目的数据操作类型为upsert,则需进一步判断其下层的每一个数据点上的数据值是否与数据库中对应的数据值是否均保持一致。
[0096]
参考图3,作为步骤s230的一种具体实施方式:响应于所述当前数据条目的数据值与所述目标数据条目的数据值相同,即说明当前数据条目的数据值并非发生更新的增量临床试验数据,因此执行步骤s340:保持所述目标数据条目的数据值不变,并处理待录入所述数据库的下一数据条目的录入操作。响应于所述数据库中是不存在与所述当前数据条目相同的目标数据条目,即说明当前数据条目的数据值为发生更新的增量临床试验数据,因此执行步骤s350:将所述当前数据条目的数据录入至所述数据库。通过步骤s230的该实施方式可以简单快捷的确定待录入数据条目对应的数据值是否为发生更新的临床试验数据,但是并没有体现数据操作类型odm或是否包含人工修改标记,因此该实施方式的录入准确度有待提高。
[0097]
为了有效提升数据录入准确度,本技术方案还提供步骤s230的另一中实施方式。
[0098]
参考图4,执行步骤s450:判断当前数据条目的每一个数据点上的数据值是否与数据库中目标数据条目中相应数据点上的数据值均一致。
[0099]
如果当前数据条目的每一个数据点上的数据值与数据库中对应的数据值均一致,说明当前数据条目对应的内容并没有发生更新,也就是说,当前数据条目下的数据值进步作为录入数据库的增量数据。因此edc系统自动忽略本节点的数据,即,执行步骤s4100:舍弃所述当前数据条目中每个数据点对应的数据值,而不对数据库中的目标数据条目执行任
何操作。
[0100]
如果如果当前数据条目的每一个数据点上的数据值与数据库中对应的数据值存在不一致,则将当前数据条目的数据点上的数据值与数据库中对应的数据值一致的数据值舍弃。而对于当前数据条目的数据点上的数据值与数据库中对应的数据值不一致的数据值理论上属于可以录入数据库的增量数据。但是本实施例中还优先考虑是否有人工修改标记并对包含人工修改标记的数据点进行人工确认,从而在自动化的数据录入过程中添加人工确认环节,以增加个性化需求以及有利于提升录入准确度。
[0101]
因此,本技术方案还需还进一步判断当前数据条目的数据值是否包含预设标记(如,人工修改标记)。在本实施例中执行步骤s460:判断数据库中与当前数据点对应的数据值是否包含预设标记。
[0102]
如果数据库中与当前数据点对应的数据值没有预设标记(即,当前数据点上的数据值与数据库中对应的数据值不一致,且数据库中与当前数据点对应的数据值没有预设标记),则执行步骤s470:对数据库中对应的数据点上的数据值进行update操作。具体地,在当前数据条目中获取目标数据点,其中,所述目标数据点为所述当前数据条目中数据值与所述目标数据条目中相应数据点上的数据值不同的数据点;并通过所述目标数据点的数据值替换所述数据库中对应的数据值。
[0103]
如果数据库中与当前数据点对应的数据值存在预设标记(即,当前数据点上的数据值与数据库中对应的数据值不一致,且数据库中与当前数据点对应的数据值存在预设标记),说明该数据点上已经发生过人工修改的标记,因为系统默认人工修改的优先级要高于机器自动填充,因此不会直接执行update操作,而是将这种不一致的情况放入报警队列(步骤s480:将源数据中当前数据点对应的数据值以及数据库中与当前数据点对应的数据值加入目标队列),后续由人工判断是接受还是拒绝机器自动填充的结果。
[0104]
可见,即使待录入的数据与上一批次已录入的完全一致(即没有增量数据),由于edc系统中配置了上述基于uuoid的预判机制(例如根据步骤s450的预判操作,对于数据点对应的数据值与数据库中对应的数据值相同的数据点,虽然数据操作类型虽然为upsert,也会被直接舍弃而不进行任何处理;又例如,在步骤s430的预判操作,将带有delete操作标记的数据点因为在edc系统中已经不存在,也不会再执行任何操作,等),因此,从整体上来看,除了增加edc系统相应和预判数据的负担之外,对于edc系统中已有的临床试验数据不会产生任何负面影响;因为没有执行任何有效的数据操作,因此不会产生任何多余的痕迹数据。如果新导入的数据与之前的数据存在差异,相同的部分会被舍弃,有差异的部分会被edc系统的预判机制捕捉到,并执行相应的操作。通过这种严格的预判和拦截机制,就能够实现增量临床数据的自动、重复导入,大大减轻人力成本,提高数据录入的时效性和准确性。由此,便实现了增量临床试验数据的预判操作以及录入操作。
[0105]
在示例性的实施例中,在临床试验过程中新产生的临床试验数据,均可以采用上述实施例提供的技术方案录入到edc系统中。示例性的,可以及设置运行频率为t+1天,或者根据数据产生的速度和项目对于数据时效性的要求,以t+m天(1≤m≤7)的频率运行。
[0106]
本技术方案提供通过标识符配置方案,以及基于标识符的识别操作、预判操作和拦截操作,有效实现增量临床试验数据的自动化录入。本方案中,具体结合cdisc相关的数据标准和edc系统自身的功能特点,将数据生产和数据导入这两个过程整合起来进行考虑,
解决了临床试验数据随访视周期推进增量产生,进而需要多次导入的问题。在不增加数据转换复杂度,不增加edc系统无效痕迹数据的情况下,有效提高临床试验数据数据录入的效率和准确性。
[0107]
本领域技术人员可以理解实现上述实施方式的全部或部分步骤被实现为由处理器,(包括gpu/cpu)执行的计算机程序。在该计算机程序被gpu/cpu执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。
[0108]
此外,需要注意的是,上述附图仅是根据本公开示例性实施方式的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
[0109]
以下通过图7介绍本公开的录入数据的装置实施例,可以用于执行本公开上述的录入数据的方法。
[0110]
图7示出本公开示例性实施例中一种录入数据的装置的结构示意图。如图7所示,上述录入数据的装置700包括:第一预判模块701、第二预判模块702、第三预判模块703,以及更新模块704。
[0111]
其中,上述第一预判模块701,用于:根据待录入数据库的当前数据条目的标识符,确定上述数据库中是否已存在与上述当前数据条目相同的目标数据条目;上述第二预判模块702,用于:响应于上述数据库中是存在与上述当前数据条目相同的目标数据条目,确定上述当前数据条目包含数据操作类型是否为删除类型;上述第三预测模块703,用于:响应于所述当前数据条目的数据操作类型为非删除类型,确定上述当前数据条目的数据值是否与上述目标数据条目的数据值相同;以及,上述更新模块704,用于:响应于上述当前数据条目的数据值与上述目标数据条目的数据值不相同,通过上述当前数据条目的数据值替换上述目标数据条目的数据值,并处理待录入上述数据库的下一数据条目。
[0112]
在示例性的实施例中,基于前述方案,上述录入数据的装置700还包括:保持模块。
[0113]
其中,上述保持模块,用于:响应于上述当前数据条目的数据值与上述目标数据条目的数据值相同,保持上述目标数据条目的数据值不变,并处理待录入上述数据库的下一数据条目的录入操作。
[0114]
在示例性的实施例中,基于前述方案,上述录入数据的装置700还包括:添加模块。
[0115]
其中,上述添加模块,用于:响应于上述数据库中是不存在与上述当前数据条目相同的目标数据条目,将上述当前数据条目的数据录入至上述数据库。
[0116]
在示例性的实施例中,基于前述方案,上述当前数据条目包含数据操作类型;上述录入数据的装置700还包括:逻辑删除模块。
[0117]
其中,上述逻辑删除模块,用于:响应于上述当前数据条目包含数据操作类型为删除类型,将上述当前数据条目对应的数据值进行逻辑删除操作。在示例性的实施例中,基于前述方案,上述当前数据条目包含多个数据点,每个上述数据点具有对应的数据值;其中,上述第三预测模块,具体用于:响应于上述当前数据条目的数据操作类型为非删除类型,确定上述当前数据条目的每一个数据点上的数据值是否与上述数据库中对应的数据值均一致;上述保持模块,具体用于:响应于上述当前数据条目的每一个数据点上的数据值与上述
数据库中对应的数据值均一致,舍弃上述当前数据条目中每个数据点对应的数据值。
[0118]
在示例性的实施例中,基于前述方案,上述录入数据的装置700还包括:获取模块。
[0119]
其中,上述获取模块,用于:响应于上述当前数据条目的每一个数据点上的数据值与上述数据库中对应的数据值存在不一致,获取目标数据点,其中,上述目标数据点为上述当前数据条目中数据值与上述数据库中对应的数据值不同的数据点;
[0120]
上述更新模块703还用于:通过上述目标数据点的数据值替换上述数据库中对应的数据值。
[0121]
在示例性的实施例中,基于前述方案,上述录入数据的装置700还包括:第五预判模块和入队模块。
[0122]
其中,上述第五预测模块,用于:在确定上述当前数据条目的数据值是否与上述目标数据条目的数据值相同之前,确定上述目标数据条目是否包含预设标记;
[0123]
上述入队模块,用于:响应于上述目标数据条目包含预设标记,将上述目标数据条目和上述当前数据条目的数据存放至目标队列,保持上述数据库中上述目标数据条目的数据值不变。
[0124]
在示例性的实施例中,基于前述方案,上述录入数据的装置700还包括:映射关系确定模块、标识符配置模块和提取模块。
[0125]
其中,上述映射关系确定模块,用于:确定病历报告表crf,以及确定上述crf中的每个层级的数据条目与源数据之间的映射关系;上述标识符配置模块,用于:为上述每个层级的数据条目分别确定用于唯一识别的标识符;上述提取模块,用于:根据上述映射关系在上述源数据中提取数据,得到上述每个层级的数据条目分别对应的数据值。
[0126]
在示例性的实施例中,基于前述方案,上述crf包括n个层级;其中,上述标识符配置模块,具体用于:确定第一层级的数据条目对应的唯一识别的标识符;第i+1层级的数据条目对应的标识符中包含有第i层级的数据条目的标识符,i为小于n的正整数。
[0127]
在示例性的实施例中,基于前述方案,上述提取模块,具体用于:将受试者临床试验数据转换为操作数据模型odm格式,并根据所述映射关系在所述源数据中提取数据,其中,所提取到数据的每个层级分别对应的数据值符合odm格式。
[0128]
上述录入数据的装置中各单元的具体细节已经在录入数据的方法中进行了详细的描述,因此此处不再赘述。
[0129]
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
[0130]
下面参照图8来描述根据本公开的这种实施方式的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
[0131]
如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830。
[0132]
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本公开各种
示例性实施方式的步骤。例如,所述处理单元810可以执行如图2中所示的步骤s210,根据待录入数据库的当前数据条目的标识符,确定所述数据库中是否已存在与所述当前数据条目相同的目标数据条目;步骤s220,响应于所述数据库中是存在与所述当前数据条目相同的目标数据条目,确定上述当前数据条目包含数据操作类型是否为删除类型;步骤s230,响应于所述当前数据条目的数据操作类型为非删除类型,确定所述当前数据条目的数据值是否与所述目标数据条目的数据值相同;步骤s240,响应于所述当前数据条目的数据值与所述目标数据条目的数据值不相同,通过所述当前数据条目的数据值替换所述目标数据条目的数据值,并处理待录入所述数据库的下一数据条目。
[0133]
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(rom)8203。
[0134]
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0135]
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
[0136]
电子设备800也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口650进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0137]
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd

rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
[0138]
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
[0139]
参考图9所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品900,其可以采用便携式紧凑盘只读存储器(cd

rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以
是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0140]
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd

rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0141]
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0142]
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
[0143]
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0144]
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0145]
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
[0146]
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd

rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
[0147]
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本技术旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或
者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1