用于用户数据处理的方法和系统与流程

文档序号:32571772发布日期:2022-12-17 01:07阅读:102来源:国知局
用于用户数据处理的方法和系统与流程

1.本发明涉及处理用户数据的领域,更具体地涉及基于自动生成的搜索标准的用户数据提取的领域。


背景技术:

2.临床研究长期以来依赖于手动数据收集工具,例如病例报告表(crf),以构建和促进临床试验数据的收集。大多数crf被定制为收集特定临床研究方案的特定数据。
3.历史上,crf是基于纸张的(pcrf);然而,最近电子crf(ecrf)的使用有所变化。电子病例报告表(ecrf)通过使用错误警报,自动数据完成和日后要求的数据输入提醒,提高了数据质量和完整性。
4.通常,电子数据捕获(edc)的益处胜过挑战;然而,随着新方法的开发和实施,需要不断地重新评估和重新评价新方法。因此,虽然edc的使用已经稳步增加,但是当出于后勤或财务原因edc不可行时仍然使用纸张。
5.一些edc系统可从病历或其他系统数据中提取或复制数据,以便录入ecrf;然而,这需要来自it工程师或临床领域专家的输入来执行数据映射以获取相关数据。数据映射是资源密集型项目,需要对源数据和目标数据进行人工审查和大量了解。
6.因此,edc通常被用作具有足够资源的大型项目的一部分以便实现它。然而,具有有限资源的项目通常需要借助于手动数据输入,导致这些项目的数据质量的降低。
7.因此,需要改进自动化edc的可访问性和质量。
8.此外,全球开展的并在公共国际数据库中注册的临床试验也有所增加。每项注册临床试验均有资格标准信息,描述了研究志愿者参与临床试验所必须具备的人口统计学和医学特征。通常,标准分为两部分:通常保存在非结构化自由文本中的包括标准和排除标准。
9.目前,合格性标准仅在自由文本中可用,这难以在计算上解析或处理。因此,合格性筛查仍然是手动进行的,这通常需要对患者记录进行冗长的审查并且是劳动密集型过程。
10.更具体地,要求医生检查患者是否有资格进行临床试验,然后通知研究团队接管筛选活动。研究人员然后可以使用患者健康记录中的数据开发算法以检测患者表型。通常地,表型分析过程从患者的病历中提取特征,并将它们组合成表型分析算法,以推断患者是否具有目标表型(phenotype)。该过程通常是冗长的,并且通常需要it工程来编写特定的查询代码。
11.因此,还需要提供一种自动评估用户对临床试验的合格性的改进手段。
12.us 2014/0222461公开了一种用于收集和管理电子医疗记录的站点侧平台。
13.xp 55754856公开了一种使用电子健康记录自动填充临床试验病例报告表的方法。


技术实现要素:

14.本发明由权利要求限定。
15.根据依照本发明的一方面的示例,提供了一种根据权利要求1的用于利用相关用户数据自动填充数字报告表单的方法。
16.该方法提供了从数字用户记录中自动提取相关用户数据以便以数字形式填充的手段。
17.通过基于从表单提取的输入数据模型来仅提取用于填充表单的相关用户数据,可以提高表单完成的准确性。
18.此外,通过分析更多的上下文信息,用于以数据元素的答案为目标的查询更准确,并且可以更准确地标识相关用户数据。
19.在另一实施例中,上下文信息包括多个实体。
20.在另一实施例中,生成该查询包括:
21.将至少来自所述数字报告表单中的上下文信息的多个实体进行分组;
22.基于至少一个组中的实体生成多个查询序列;以及
23.通过将多个查询序列与输入数据模型进行比较来得出针对输入数据模型的查询。
24.这样,所生成的查询可以更准确地匹配数字报告表单的上下文和相关的用户数据。
25.在实施例中,输入数据模型包括:
26.时间戳;
27.用户标识符;以及
28.数据元素。
29.这样,输入数据模型可以包括各种输入数据。
30.在另一实施例中,数据元素包括以下一项或多项:
31.语义定义;
32.文档类型;
33.数值;
34.数值范围;以及
35.单位。
36.这样,输入数据模型,特别是数据元素,可以包括各种各样的输入数据,从而适应更宽范围的应用。
37.在另一实施例中,语义定义包括以下一项或多项:
38.条件语句;
39.确认;以及
40.否定。
41.这样,输入数据模型可以考虑数字形式的语言。
42.在一个实施例中,输入数据模型包括具有数据元素类型的数据元素,并且其中数据元素类型包括:
43.有限选择;或
44.自由文本条目。
45.这样,查询可用于搜索数字用户记录以寻找正确类型的相关用户数据。
46.在一个实施例中,提取输入数据模型包括提取数据元素,其中提取数据元素包括:
47.确定数据元素是否包括:
48.复选框;
49.表格信元;或
50.字符串条目字段;
51.如果数据元素包括复选框,则确定复选框是否包括预定义选项;
52.如果复选框包括预定义选项,则将数据元素标识为有限选择;
53.如果复选框不包括预定义选项,则将数据元素标识为自由文本条目;
54.如果数据元素包括表格单元,则将所述数据元素标识为自由文本条目;以及
55.如果数据元素包括字符串条目字段,则将数据元素标识为自由文本条目。
56.在实施例中,该方法还包括:
57.将输入数据模型的数据元素标识为伪数据元素;
58.丢弃所述伪数据元素;以及
59.从数字报告表单获取新的数据元素。
60.以这种方式,可以解决误差,从而增加了表单完成的准确性。
61.在另一实施例中,上下文信息的获取包括应用自顶向下算法,该自顶向下算法包括:
62.标识数字报告表单的页面;
63.标识页面上的标题;以及
64.基于标题得出所述上下文信息。
65.在一个实施例中,上下文信息的获取包括应用自底向上算法,该自底向上算法包括:
66.将叶实体匹配算法应用于数字报告表单的实体;
67.基于实体的叶匹配标识相似实体;以及
68.基于相似实体得出上下文信息。
69.在一个实施例中,该方法还包括生成用于向用户显示的数据警报。
70.这样,可以通知用户可能需要他们注意的事情。
71.在一个实施例中,数据警报包括错误标志。
72.在一个实施例中,该方法还包括:如果不能提取相关用户数据,则接收用户输入以提供相关用户数据。
73.这样,用户可以考虑丢失的信息。
74.根据依照本发明一方面的示例,提供了一种包括计算机程序代码装置的计算机程序,当所述计算机程序在计算机上运行时,所述计算机程序代码装置适于实现上述方法。
75.根据依照本发明的一方面的示例,提供了一种用于利用相关用户数据自动填充数字报告表单的系统,该系统包括处理器,该处理器适于:
76.获取数字报告表单;
77.从数字报告表单提取输入数据模型;
78.基于所述输入数据模型生成查询;
79.获取数字用户记录;
80.基于查询来标识数字用户记录中的相关用户数据;
81.提取相关用户数据;以及
82.根据相关用户数据填充数字报告表单。
83.根据依照本发明的一方面的示例,该方法还包括使用基于文本的标准来标识符合条件的用户,并且获取数字用户记录还基于所标识的符合条件的用户,其中标识符合条件的用户的方法包括:
84.获取文本数据,其中该文本数据包括基于文本的标准;
85.将所述基于文本的标准分解成一个或多个子句;
86.将一个或多个子句分解成一个或多个语义短语;
87.标识每个语义短语作为搜索特征;
88.基于一个或多个搜索特征生成搜索标准;
89.基于搜索标准搜索用户数据库;以及
90.基于对用户数据库的搜索来标识合格用户。
91.该方法提供了一种用于从文本文档中提取搜索标准的自动装置,以用于在患者数据库中搜索合格患者。
92.将文本数据分解成子句和语义短语允许将文本数据简化成可搜索元素。
93.在一个实施例中,基于文本的标准包括时间元素,并且其中搜索特征包括时间标准。
94.这样,时间分量可以被包括在搜索标准中,这对于临床情形(诸如临床试验)通常是重要的。
95.在一个实施例中,该方法还包括将子句分配给组,其中该组包括:
96.通用组;以及
97.一阶差分组,其中一阶差分群取决于通用组。
98.这样,有可能在与给定标准元素的重要性有关的标准内建立分层结构。
99.在另一实施例中,将子句分配给组是基于时间元素的。
100.在实施例中,该方法还包括:
101.将搜索特征与医学数据库进行比较;以及
102.基于比较来更新搜索标准。
103.这样,可以使用实体来引用数据库,例如快速保健互操作性资源(fhir)数据库。
104.在一个实施例中,搜索特征包括基于文本的标准的实体,其中该实体包括以下一项或多项:
105.药剂身份;
106.医疗状况;
107.实验室;以及
108.医学检查
109.在一个实施例中,搜索特征包括基于文本的标准的特征,其中基于文本的标准的特征包括以下一项或多项:
110.算术比较器;
111.确认;
112.否定;以及
113.条件语句。
114.在一个实施例中,搜索特征包括基于文本的标准的值,其中基于文本的标准的值包括以下一项或多项:
115.数值;
116.数值范围;以及
117.单位。
118.在实施例中,该方法还包括:
119.向用户提供一个或多个子句;
120.接收关于一个或多个子句的用户输入;以及
121.基于用户输入来更新子句。
122.这样,诸如临床医生的用户可以看到子句并改变它们。这可用于训练自动化系统。
123.在一个实施例中,文本数据包括结构化数据和非结构化数据。
124.换言之,该方法可以处理任何输入文本数据。
125.在一个实施例中,文本数据的获取包括以下一项或多项:
126.自然语言处理;
127.机器学习;以及
128.信息提取。
129.根据依照本发明一方面的示例,提供了一种包括计算机程序代码装置的计算机程序,当所述计算机程序在计算机上运行时,所述计算机程序代码装置适于实现上述方法。
130.根据依照本发明的一个方面的示例,提供了根据权利要求19的处理单元。
131.根据依照本发明的一个方面的示例,提供了一种数据处理系统,该系统包括:
132.如上所述的处理单元;以及
133.与处理单元通信并适于接收用户输入的用户接口。
134.参考下面描述的实施例,本发明的这些和其它方面将变得显而易见。
附图说明
135.为了更好地理解本发明,并且为了更清楚地示出如何实现本发明,现在将仅通过示例的方式参考附图,其中:
136.图1示出了根据本发明的一方面的方法;
137.图2示出了基于数字报告表单生成查询的示意图;以及
138.图3示出了根据本发明另一方面的方法。
具体实施方式
139.将参照附图描述本发明。
140.应当理解,详细描述和特定示例虽然指示了装置、系统和方法的示例性实施例,但是仅用于说明的目的,而不旨在限制本发明的范围。本发明的装置、系统和方法的这些和其它特征、方面和优点将从以下描述,所附权利要求和附图中变得更好理解。应当理解,附图
仅仅是示意性的并且没有按比例绘制。还应当理解,在所有附图中使用相同的附图标记来表示相同或相似的部件。
141.本发明提供一种利用相关用户数据自动填充数字报告表单的方法。该方法包括获取数字报告表单和从数字报告表单中提取输入数据模型。然后基于输入数据模型生成查询。获取数字用户记录,基于查询在数字用户记录中标识并提取相关用户数据。然后基于相关用户数据填充数字报告表单。
142.本发明的另一方面提供了一种使用基于文本的标准来标识临床试验的合格用户的方法。该方法包括:获取文本数据,其中该文本数据包括基于文本的标准,将基于文本的标准分解成一个或多个子句,以及将一个或多个子句分解成一个或多个语义短语。然后将每个语义短语标识为搜索特征,并基于一个或多个搜索特征生成搜索标准。基于搜索标准和所标识的合格用户来搜索用户数据库。
143.图1示出了利用相关用户数据自动填充数字报告表单的方法100。
144.该方法开始于步骤110,获取数字报告表单。
145.数字报告表单可以是用于接收与用户相关的数据的任何数字形式。数字报告表单可以包括一个或多个包括标准或排除标准,下面将参考图3更详细地讨论这些标准。
146.在步骤120中,从数字报告表单中提取输入数据模型。输入数据模型涉及将由数字报告表单接收的数据。输入数据模型可以包括数据元素,其可以包括以下一项或多项:语义定义,如条件语句,确认和否定;文档类型;数值;数值范围;以及单位。语义定义可以确定从数据库提取并填充到数据元素中的数据的类型或值。
147.此外,输入数据模型可以包括与数据元素相关的上下文信息。例如,输入数据模型的上下文信息可以包括多个实体。实体是任何类型的事件,例如身体检查或诊断。输入数据模型的上下文信息可以包括时间戳,其可以涉及与输入到表格中的数据相关的时间,例如医疗事件发生的时间。输入数据模型的上下文信息还可以包括用户标识符,该用户标识符然后可以用于检索与所讨论的用户相关的数据。
148.在使用中,每个数据元素可以被分配id,该id基于在数字报告表单出现的上下文信息来确定。
149.在步骤130中,基于输入数据模型生成查询。换言之,输入数据模型用于使用与用户相关的数据来生成要回答的问题。
150.更具体地,输入数据模型的每个数据元素可以对应于查询。可以基于数据元素的实体信息生成查询。换言之,查询可包括与每个数据元素的上下文信息相关的实体信息。
151.数据输入模型的数据元素可以根据其类型被分组为多个组。三个示例性组可以包括:互斥组;拆分组;以及独立组。数据输入模型的数据元素可以以不同的方式彼此相关。例如,两个数据元素可以是互斥的,意味着应该只选择一个。此外,一些数据元素可被分成若干数据元素,诸如可被分成日、月和年的出生日期。此外,一些数据元素是独立的,并且与数据输入模型的其它数据元素无关。
152.可以假设互斥组和拆分组中的每一个对于上下文信息或相同组中的实体具有相同的语义含义,意味着上下文信息可以在数据元素组级被分配。在一些实施例中,独立组的数据元素也可以共享相同的上下文信息。在一些实施例中,与给定组的数据元素最近的信息可用作上下文信息。在一些实施例中,简单地选择最近的信息作为上下文信息可能是不
够的。
153.因此,可能需要为给定数据元素建立上下文信息的边界,其中该边界指示数据元素附近的信息的相关性。有两种方法可用于建立上下文信息的边界。
154.在称为自顶向下方法的第一方法中,字体、部分名和标题分别用于检测数字报告表单的页面、部分和子标题。具有最近上下文信息的数据元素或分组数据元素将被分配给页面、部分和子标题中的一个或多个。例如,共享同一页面的数据元素可以与相同的上下文信息相关联。
155.在称为自底向上方法的第二方法中,应用叶实体匹配,为数字报告表单的每个实体寻找相同或相似的定义实体。标识基于实体的叶匹配的相似实体。最后得到基于相似实体的上下文信息。在一些实施例中,自底向上方法基于自顶向下方法来实现。
156.实现了基于所生成的查询来生成查询并从用户数据记录中提取相关用户数据的表型算法。
157.更具体地,基于通过实现第一方法和第二方法提取的上下文信息,或者基于从诸如emr记录、成像记录、诊断结果、患者笔记等的任何类型的用户数据记录提取的上下文信息,首先从上下文信息中提取多个驱动事件或实体,然后将其分组。实体提取和分组步骤可以在查询生成过程期间执行,或者可以在查询生成过程之前执行。所提取的实体信息和分组信息可以被存储在数据库中。
158.作为示例,本体(ontology)可以用于定义具有相同语义含义的实体组,诸如癌胚抗原和cea。更具体地,用于治疗肿瘤学的驱动事件,例如术语实体:经肝动脉化疗和栓塞(tace)、肝移植、肝切除术和肝注射在第一级被分组为一个组。此外,第一级中的术语实体注射可以发生在第一操作、第二操作、第三操作。当设计数字报告表单时,临床研究人员可能希望标识在第一操作、第二操作、第三操作或这些操作中的任何一个时接受注射的对象。因此,术语实体:在第一操作中、在第二操作中、在第三操作中以及在这些操作中的任何一个操作中,在第二级被分组为一个组。类似地,不同的词语实体可以被分组在不同的组级,诸如第三级、第四级、第五级等。
159.一个实体组中的上下文信息可以在相同级别上相似。每个组可以包括多个实体。不同的实体组可以根据不同的标准链接在一起。组中的每个实体可以与来自另一组的实体组合,这可以由用户手动选择或由系统自动生成。路径是跨不同组中不同实体的组合。
160.在对实体分组之后,基于至少一个组中的实体生成多个查询序列,每个查询序列在语义上是唯一的。更具体地,可以生成多个查询序列,因为一个数据元素可以与不同级的不同组中的不同实体相关。然而,基于数据元素的上下文信息,只有一个序列是目标查询。目标查询由数据元素确定,更具体地,通过将一个数字报告表单的数据元素的上下文信息与多个查询序列进行比较来确定。然后选择最接近的匹配结果作为目标查询。
161.在示例性实施例中,然后应用叶实体匹配,为每个数据元素寻找相同或相似的定义实体。叶实体是在最后级处的组的实体。例如,当实体被分组成8个组级时,则叶实体是第8级处的实体。
162.然而,映射可能不是简单的一对一映射,例如,因为算法中实体的表达可能不同于数字报告表单中使用的实体的表达。例如,在数字报告表单中,可以使用全名癌胚抗原和缩写cea。
163.在这种情况下,可以采用自底向上的方法,从作为叶实体的检测到的数据元素开始,并将所有可能的序列追溯到根。在每个序列中,多个实体可以用于定义。此外,定义序列中的每个实体可以用同义词来扩展。此外,每个实体可以扩展为多种语言。
164.扩展实体可用于匹配以数字报告表单检测到的实体。最后,匹配的实体将组合成定义表型算法的一个或多个路径。选择匹配实体数量最大的表型算法。也可以返回具有相同最大匹配数量的表型算法。因此,表型算法的定义可以是动态的,并根据数字报告表单中存在的数据元素而改变。具有最大数量匹配实体的表型算法将被指定为最终表型算法,并且相关的用户数据将用该最终表型算法检索。
165.查询还可包括数据元素的类型或值。例如,数据元素的类型或值可以包括有限的选择,例如是/否答案或从中选择的答案列表。备选地,数据元素的类型或值可包括自由文本条目。
166.例如,可以通过确定数据元素是否包括复选框或任何其它类型的二进制选择来生成查询,并且如果数据元素确实包括复选框,则确定复选框是否包括预定义选项,诸如用户是否具有给定条件的家族历史。如果复选框包括预定义选项,则数据元素可定义为有限选择;然而,如果复选框不包括预定义选项,则数据元素可被定义为自由文本条目。
167.在另一示例中,如果确定数据元素包括表格单元,则数据元素可被定义为自由文本条目。在另一示例中,如果确定数据元素包括字符串条目字段,则数据元素可被标识为自由文本条目。
168.处理可能错误的数据可以以多种方式执行。例如,可以在检测到潜在错误数据的情况下呈现错误标记,并且可以提示用户检查该数据。可以通过比较自然语言处理(nlp)方法的训练和测试数据集之间的语料库差异来检测潜在的错误数据,所述自然语言处理(nlp)方法用于给出用于数据提取的nlp的总体估计性能。此外,与数字报告表单的医学领域相关的领域知识可用于定义临床逻辑测试,以筛选提取的数据的冲突或不一致性。
169.对于通过机器学习(ml)算法获取的数据元素,可以通过响应于错误标志记录用户决定来提高系统性能。校正后的数据可以用于重新填充训练数据集,并且可以相应地重新训练模型。此外,该系统可以适用于基于上下文信息标识语义混乱并提示用户清楚地定义所讨论的值。
170.在步骤140中,获取数字用户记录,并且在步骤150中,基于查询在数字用户记录中标识相关用户数据。数字用户记录可以从与用户相关的任何可用数据源获取。可用源可包括emr、his、ris、pacs、患者的健康记录等。
171.在步骤160中,从数字用户记录中提取相关用户数据,并且在步骤170中,基于相关用户数据填充数字报告表单。
172.可以根据以下方法从数字用户记录中提取相关数据。
173.对于每个数据源,可以首先提取最小信息。在输入数据模型中,两个强制性数据元素可以包括与医疗事件相关的时间戳和患者标识。时间戳可以包括标识某个医疗事件何时发生或医疗事件的描述何时被记录的时间字符序列。除了时间戳和用户标识符之外的元素可以被视为如上所述的数据元素。每个数据元素可以具有至少一个命名的属性定义,其定义数据元素的类型。
174.对于每个输入数据模型,可以存在至少一个时间戳、一个患者标识符和一个数据
元素。该信息可被编码或保持在自由文本中,在这种情况下,可采用文本分析工具来分析自由文本。
175.对于每个数据元素,从输入数据模型生成的查询可用于自动提取相关数据。数字报告表单中的数据元素可以被映射到不同的驱动事件。驱动事件可以包括特定的疾病治疗操作方法,例如与肿瘤治疗相关的肝动脉化疗和栓塞(tace)、肝移植、肝切除术、注射。当基于驱动事件提取用户数据并且多个驱动事件可以在一个数字报告表单中出现时,可能需要相应地合并所提取的用户数据。
176.换言之,本发明提供了利用用户数据将数字报告表单或crf解析为要回答的问题列表的方法,从而自动填充报告表单。换言之,在crf中定义的每个数据字段可以被转换为问题,并且对于每个问题,元素例如:时间戳;语义定义;文档类型;以及任何其他上下文信息,例如实验室结果的单位,可用于回答问题。
177.该方法可以被用作独立开发新的或集成现有的用于填充数字报告表单的表型算法的模块的一部分。
178.除了使用基于查询从数字用户记录中提取的相关用户数据来自动填充数字报告表单之外,该方法还可以包括生成用于向用户显示的数据警报,诸如错误标记或任何其他合适的指示符。例如,如果不能从数字用户记录中提取相关用户数据,则可以向用户显示数据警报,以便提示用户提供丢失的相关用户数据,以便完全填充数字报告表单。换言之,该方法可以使处理系统在相关用户数据不可用于回答查询时提醒可能是患者或临床医生的用户完成必要的检查或填充给定文档。
179.应当注意,输入数据模型的确定、查询的生成和相关用户数据的提取可以通过机器学习算法来执行。
180.机器学习算法是处理输入数据以便产生或预测输出数据的任何自训练算法。此处,输入数据包括数字报告表单、输入数据模型或查询,输出数据分别包括输入数据模型、查询或提取的相关用户数据。
181.在本发明中采用的合适的机器学习算法对于本领域技术人员来说是显而易见的。合适的机器学习算法的示例包括决策树算法和人工神经网络。诸如逻辑回归、支持向量机或自然贝叶斯模型的其它机器学习算法是合适的备选。
182.人工神经网络(或简单地,神经网络)的结构受到人脑的启发。神经网络包括多个层,每个层包括多个神经元。每个神经元包括数学运算。特别地,每个神经元可以包括单一类型的变换的不同加权组合(例如,具有不同加权的相同类型的变换,s形变换等)。在处理输入数据的过程中,对输入数据执行每个神经元的数学运算以产生数字输出,并且将神经网络中的每层的输出顺序地馈送到下一层。最后一层提供输出。
183.训练机器学习算法的方法是公知的。通常,这样的方法包括获取训练数据集,该训练数据集包括训练输入数据条目和对应的训练输出数据条目。将初始化的机器学习算法应用于每个输入数据条目以生成预测的输出数据条目。预测输出数据条目和对应的训练输出数据条目之间的误差用于修改机器学习算法。可以重复该过程直到误差收敛,并且预测输出数据条目与训练输出数据条目足够相似(例如
±
1%)。这通常被称为监督学习技术。
184.例如,在机器学习算法由神经网络形成的情况下,可以修改每个神经元的数学运算(的权重)直到误差收敛。修改神经网络的已知方法包括梯度下降、反向传播算法等。
185.训练输入数据条目对应于示例数字报告表单。训练输出数据条目对应于所提取的示例相关用户数据。
186.图2示出了根据从数字报告表单210获取的数据输入模型为每个数据元素生成id的示意性表示200,数字报告表单210包括复选框212、表214和字符串条目字段216。
187.例如,每个数据元素可以被划分为选择型数据元素和自由文本型数据元素。
188.在步骤220中,搜索数字报告表单210以查找复选框212,并且在步骤230中,确定复选框是否具有附加到它们的预定义选项。如果复选框确实具有附加到它们的预定义选项,则它们被确定为选择式查询,并且在步骤240中例如用k标识来编码,k标识还可以包括与数字报告表单上的复选框的位置有关的位置信息。在特定示例中,复选框可以用标识码k-00003-3来编码,k指示复选框表示选择式输入(诸如是或否问题),00003指示查询的编号(即,00003是数字报告表单的第三选择式数据元素),而最终编号3指示用于接收输入数据的原始空白行的长度。
189.如果在步骤230中确定复选框不具有与其相关联的预定义选项,则复选框可被认为是自由文本式数据元素,并在步骤250中例如用t标识码来编码。
190.在特定示例中,复选框可以用标识码t-00005-6来编码,t指示复选框表示自由文本类型输入(这样的操作日期),00005指示查询的编号(即,00005是数字报告表单的第五自由文本类型数据元素),而最终编号6指示用于接收输入数据的原始空白行的长度。
191.在步骤260中,在数字报告表单210中搜索表格单元214,表格单元214可以被视为自由文本类型的数据元素,并且用t标识码进行编码。
192.在步骤270中,搜索数字报告表单210中的字符串条目字段216。在步骤280中,确定在数字报告表单中是否存在加下划线的条目字段。如果有加下划线的输入字段,则该输入字段被当作自由文本类型的数据元素,并且用t标识码编码。
193.如果没有加下划线的条目字段,则在步骤290中可以确定在字符串条目字段中是否存在应用了加下划线的样式的任何空格。如果存在具有所应用的下划线样式的空格,则该空格被视为自由文本类型的数据元素并且用t标识码来编码。
194.如果不存在具有所应用的下划线样式的下划线条目字段或空格,则字符串条目字段可被标识为伪数据元素且不用于产生查询。这可以应用于例如数字报告上的信息文本块,而不需要输入任何用户数据。在标识伪数据元素的情况下,可以在数字报告表单内标识新的数据元素。然后,新数据元素可以经历如上下文所述的过程。
195.通过实施上述步骤,数字报告表单中的每个数据元素被提取并被分配唯一的id。数据元素确定数据输入模型。
196.当医疗专业人士设计上述数字报告时,建立一些基于文本的标准,以便填充患者信息或合格用户信息。图3示出了用于使用基于文本的标准来标识临床试验的合格用户的方法400,该基于文本的标准例如可以作为如上所述的数字报告表单的一部分来找到。获取140方法100的数字用户记录的步骤进一步基于如下详细描述的方法400的所标识的合格用户。
197.用户对临床试验合格性的评估可称为临床表型分析,其中用户数据用于根据一个或多个标准检测其临床表型。如果用户拥有可能是另一种更复杂的临床表型的一部分的目标临床表型,则他们有资格进行临床试验。
198.该方法在步骤410通过获取文本数据开始,其中该文本数据包括基于文本的标准。文本数据可以是结构化数据和/或非结构化数据,并且可以通过以下方式获取:自然语言处理;机器学习算法;和/或提取信息。
199.基于文本的标准可以包括时间元素。对于临床试验,大部分标准可以是时间相关的标准,例如,某些药物治疗的开始日期或给定症状出现的时间长度。此外,给定医疗事件的顺序可能与临床试验高度相关。
200.例如,基于文本的标准可以如下:
201.年龄在18至72岁之间的患者接受了电子罗非考昔处方,随后在5年内有来自icd-9的心肌梗死新代码。
202.在步骤420中,基于文本的标准被分解为一个或多个子句。例如,上述基于文本的标准可以分解如下:
203.接受电子罗非考昔处方并随后在5年内具有来自icd-9的心肌梗塞新代码的患者。
204.年龄在18-72岁之间的患者。
205.子句之间的关系可以是“全部”、“任何”或“大部分”。子句可被分配给组,其中该组包括通用组和一阶差分组,其中一阶差分组取决于通用组。通用组和一阶差分组之间的差是子句之间的关系。对于通用组,关系可以是所有的、任何的和大多数的。对于一阶差分组,只允许“所有”关系。将子句分配给组可以基于时间元素。
206.可以向用户提供一个或多个子句,以便接收关于一个或多个子句的用户输入。例如,用户可以批准子句或提供对子句的更改。然后可以基于用户输入来更新子句。
207.在步骤430中,一个或多个子句被分解成一个或多个语义短语。
208.例如,上述子句可以分解如下:
209.接受电子罗非考昔处方的患者。
210.随后在5年内有新的icd-9心肌梗死代码的患者。
211.年龄》18
212.年龄《72
213.语义短语也可以如上所述进行分组。在上述示例中,第一语义短语将属于通用组,而第二语义短语将属于一阶差分组。
214.换言之,初始复杂标准被分成多个短语。此外,如果需要,每个短语还可以进一步分成多个短语。该过程可由用户手动执行或通过nlp工具执行。
215.在步骤440中,每个语义短语被标识为搜索特征。
216.该搜索特征可以包括该基于文本的标准的实体,其中该实体包括以下一项或多项:药剂身份,例如药剂名称;医疗状况;实验室;以及医学检查,例如诊断测试。此外,搜索特征可以包括基于文本的标准的特征,其中基于文本的标准的特征包括以下一项或多项:算术比较器;确认;否定;以及条件语句。此外,搜索特征可以包括基于文本的标准的值,其中基于文本的标准的值包括以下一项或多项:数值;数值范围;以及单位。
217.如果语义短语是简单的标准,例如:单个临床概念(例如,怀孕)、否定(例如,未怀孕)、或简单的定量比较(例如,白细胞计数(wbc)》5000个细胞/mm3),其可以通过概念值模型来检测,语义短语可以被分成实体、特征和值。
218.实体可以在语义上被识别为药物、实验室等。然后,可以基于所识别的实体映射相
应的用户数据库资源用于数据查询,例如,通过将搜索字段缩小到仅与给定药物相关联的用户。该特征可以在语义上被识别为否定、比较器等,以便再次缩小用户数据库。该值可用于与用户数据库中的剩余数据进行比较。最后,利用逻辑算子,建立逻辑树,并计算最终结果。
219.在步骤450中,基于一个或多个搜索特征生成搜索标准。可以将搜索特征与医学数据库进行比较,并基于该比较进行更新。
220.在步骤460中,基于搜索标准来搜索用户数据库,并且在步骤470中,基于用户数据库的搜索来标识合格用户。
221.由于患者可能经历跨越给定治疗方案的许多事件,因此该方法可考虑用于研究受试者选择的筛选标准中的优先等级。对于特定条件周期,事件周围的索引时隙和时间间隔可以锚定事件的初始类型。然后,借助于其它合格条件,可以标识具有特殊条件的患者。不同事件的时间戳及其关系需要在临床意义范围内进行解析,以减少选择偏差,可以在不同的选择标准组之间共享时间戳信息。
222.例如,一些选择标准具有所需的清洗周期。在具体实例中,服用华法林的患者通常需要6至12个月的洗去。
223.对于给定的用户,在他们的治疗中可能有不止一个华法林,这意味着需要检查每次药物暴露以确认洗出期是否已经完成。华法林采纳事件可以作为索引点来处理,并且洗出周期是辅助变量。可以利用索引事件时间戳和任何附加约束条件来计算辅助变量。因此,辅助变量将成为合格用户选择的附加选择标准。
224.对于临床试验,如果在用户的时间表中存在具有辅助变量的条件,例如清洗周期期,则可以将用户包括为研究主题。对于队列研究或病例对照研究,如果检测到这种继发性病症,则患者将进入队列或组,并且辅助变量的时间戳将有助于队列类型。
225.通过研究附图,公开内容和所附权利要求,本领域技术人员在实践所要求保护的本发明时可以理解和实现所公开实施例的变型。在权利要求中,词语“包括”不排除其他元件或步骤,并且不定冠词“一”或“一个”不排除多个。
226.单个处理器或其它单元可以实现权利要求中所述的若干项的功能。
227.在相互不同的从属权利要求中叙述某些措施的事实并不表示不能有利地使用这些措施的组合。
228.计算机程序可以存储/分布在适当的介质上,例如与其他硬件一起提供或作为其他硬件的一部分提供的光存储介质或固态介质,但是也可以以其他形式分布,例如经由因特网或其他有线或无线电信系统。
229.如果在权利要求或说明书中使用术语“适于”,则应注意,术语“适于”旨在等同于术语“配置成”。
230.权利要求中的任何附图标记不应解释为限制范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1