一种基于自然语言处理的病例入组筛选方法及系统与流程

文档序号：30745754发布日期：2022-07-13 07:35阅读：224来源：国知局

1.本发明涉及数据处理，尤其涉及一种基于自然语言处理的病例入组筛选方法及系统。

背景技术：

2.病例数据分布产生于患者诊疗过程中的各阶段，是诊治、随访、科研等过程的必要信息数据，其既包括基本的患者信息、病史信息、辅助检查信息、手术信息，还包括各阶段所存在的医嘱信息、影像信息等。
3.以上病例数据中，除了患者信息中的姓名、证件号等固有信息为结构化数据，其它诸如病史信息、医嘱信息中，存在通过人工输入的大篇幅的文字表述，而影像信息中更包含有不同于文字表述的影像信息，以上信息均为半结构化、非结构化信息，基于关键字进行检测的手段难以完整提取得到其中的必要的有效信息，在转院等过程中需要由人工对病例数据进行查验、录入，此过程严重依赖人力工作，费时费力，对处理人的职业素养有极高要求。
4.此外，在针对特定病例进行科研时，常涉及多机构多时段的庞大病例数据，需在研究前进行分类鉴别，筛选出符合研究需求的病例数据进行入组，而入组规则主要存在于病史信息、手术信息等非结构化数据中，以语义形式体现，无法通过关键词进行鉴别。

技术实现要素：

5.本发明实施例公开一种基于自然语言处理的病例入组筛选方法及系统，通过采用自然语言处理方式处理原始病例数据与入组规则文本，获得文本标签集合与入组标签集合，进而采用plsa分类模型处理原始病例数据与文本标签集合，获得二者与各类型节点间基于概率分布的关联映射，再通过匹配入组标签集合与特定类型节点，提取得到所需的入组病例数据，完成对包括非结构化数据的原始病例数据进行入组筛选，过程无需人工介入，准确率高。
6.本发明实施例第一方面公开一种基于自然语言处理的病例入组筛选方法，所述方法包括：
7.采用nlp模型对原始病例数据进行初识别，获得文本标签集合；
8.基于所述原始病例数据及所述文本标签集合构建plsa分类模型，对原始病例数据、文本标签集合与若干类型节点进行关联映射；
9.基于入组规则文本，采用nlp模型确定入组标签集合；
10.匹配所述入组标签集合与所述文本标签集合，于所述隐含语义空间中确定所述入组标签集合对应的特定类型节点；
11.提取所述特定类型节点所关联映射的原始病例数据，得到入组病例数据。
12.作为一种可选的实施方式，在本发明实施例第一方面中，所述入组规则文本至少包括优选规则、排除规则及备注规则；
13.在所述原始病例数据中，符合所述优选规则同时不符合所述排除规则的原始病例
数据，或者，符合所述备注规则的原始病例数据，则为入组病例数据。
14.作为一种可选的实施方式，在本发明实施例第一方面中，在所述提取所述特定类型节点所关联映射的原始病例数据，得到入组病例数据之后，所述方法还包括：
15.采用datax工具对所述入组病例数据进行同步，将所述入组病例数据中的结构化数据置入标准数据表；
16.根据每一入组病例数据中所包含半结构化数据与非结构化数据相对于标准数据表的匹配值，拆分半结构化数据与非结构化数据并分别置入所述标准数据表中。
17.作为一种可选的实施方式，在本发明实施例第一方面中，所述方法还包括：
18.对基于入组病例数据所构建的每一标准数据表进行值域校验，对存在超限数据的标准数据表进行剔除；
19.对完成值域校验的每一标准数据表进行逻辑校验，对存在违背医学逻辑的缺陷数据的标准数据表进行剔除。
20.作为一种可选的实施方式，在本发明实施例第一方面中，所述方法还包括：
21.对所述入组病例数据所涉及的影像数据存储于影像库，通过患者主索引对入组病例数据与影像数据建立关联关系；
22.在检索调取任一入组病例数据时，基于关联关系同步调取对应的影像数据。
23.本发明实施例第二方面公开一种基于自然语言处理的病例入组筛选系统，所述系统包括：
24.标签识别单元，用于采用nlp模型对原始病例数据进行初识别，获得文本标签集合；
25.模型构建单元，用于基于所述原始病例数据及所述文本标签集合构建plsa分类模型，对原始病例数据、文本标签集合与若干类型节点进行关联映射；
26.标签确定单元，用于基于入组规则文本，采用nlp模型确定入组标签集合；
27.标签匹配单元，用于匹配所述入组标签集合与所述文本标签集合，于所述隐含语义空间中确定所述入组标签集合对应的特定类型节点；
28.数据提取单元，用于提取所述特定类型节点所关联映射的原始病例数据，得到入组病例数据。
29.作为一种可选的实施方式，在本发明实施例第二方面中，所述入组规则文本至少包括优选规则、排除规则及备注规则；
30.在所述原始病例数据中，符合所述优选规则同时不符合所述排除规则的原始病例数据，或者，符合所述备注规则的原始病例数据，则为入组病例数据。
31.作为一种可选的实施方式，在本发明实施例第二方面中，所述系统还包括：
32.数据同步单元，用于在所述数据提取单元提取所述特定类型节点所关联映射的原始病例数据，得到入组病例数据之后，采用datax工具对所述入组病例数据进行同步，将所述入组病例数据中的结构化数据置入标准数据表；
33.数据匹配单元，用于根据每一入组病例数据中所包含半结构化数据与非结构化数据相对于标准数据表的匹配值，拆分半结构化数据与非结构化数据并分别置入所述标准数据表中。
34.作为一种可选的实施方式，在本发明实施例第二方面中，所述方法还包括：
35.第一剔除单元，用于对基于入组病例数据所构建的每一标准数据表进行值域校验，对存在超限数据的标准数据表进行剔除；
36.第二剔除单元，用于对完成值域校验的每一标准数据表进行逻辑校验，对存在违背医学逻辑的缺陷数据的标准数据表进行剔除。
37.作为一种可选的实施方式，在本发明实施例第二方面中，所述方法还包括：
38.影像关联单元，用于对所述入组病例数据所涉及的影像数据存储于影像库，通过患者主索引对入组病例数据与影像数据建立关联关系；
39.影像调取单元，用于在检索调取任一入组病例数据时，基于关联关系同步调取对应的影像数据。
40.本发明实施例第三方面公开一种基于自然语言处理的病例入组筛选系统，包括：
41.存储有可执行程序代码的存储器；
42.与所述存储器耦合的处理器；
43.所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面公开的一种基于自然语言处理的病例入组筛选方法。
44.本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种基于自然语言处理的病例入组筛选方法。
45.本发明实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。
46.本发明实施例第六方面公开一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。
47.与现有技术相比，本发明实施例具有以下有益效果：
48.本发明实施例中，通过采用自然语言处理方式处理原始病例数据与入组规则文本，获得文本标签集合与入组标签集合，进而采用plsa分类模型处理原始病例数据与文本标签集合，获得二者与各类型节点间基于概率分布的关联映射，再通过匹配入组标签集合与特定类型节点，提取得到所需的入组病例数据，完成对包括非结构化数据的原始病例数据进行入组筛选，过程无需人工介入，准确率高。
附图说明
49.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
50.图1是本发明实施例公开的一种基于自然语言处理的病例入组筛选方法的流程示意图；
51.图2是本发明实施例公开的一种基于自然语言处理的病例入组筛选系统的结构示意图；
52.图3是本发明实施例公开的另一种基于自然语言处理的病例入组筛选系统的结构
示意图。
具体实施方式
53.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
54.需要说明的是，本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象，而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
55.本发明实施例公开了一种基于自然语言处理的病例入组筛选方法及系统，通过采用自然语言处理方式处理原始病例数据与入组规则文本，获得文本标签集合与入组标签集合，进而采用plsa分类模型处理原始病例数据与文本标签集合，获得二者与各类型节点间基于概率分布的关联映射，再通过匹配入组标签集合与特定类型节点，提取得到所需的入组病例数据，完成对包括非结构化数据的原始病例数据进行入组筛选，过程无需人工介入，准确率高。
56.实施例一
57.请参阅图1，图1是本发明实施例公开的一种基于自然语言处理的病例入组筛选方法的流程示意图。如图1所示，该基于自然语言处理的病例入组筛选方法可以包括以下步骤。
58.101、采用nlp模型对原始病例数据进行初识别，获得文本标签集合。
59.本实施例中，采用nlp模型提取每个原始病例数据中关键词的文本标签，作为基本的识别与匹配依据。
60.102、基于原始病例数据及文本标签集合构建plsa分类模型，对原始病例数据、文本标签集合与若干类型节点进行关联映射。
61.本实施例中，建立原始病例数据与类型节点相互关联的plsa分类模型，在此，每一病例数据体现为文本标签在其上的概率分布，而类型节点则体现为每一病例数据在其上的概率分布，从而形成双层结构的概率分布，据此得到原始病例数据与类型节点之间的概率关系，并基于关联最强的概率关系判定病例数据对应的类型节点。
62.103、基于入组规则文本，采用nlp模型确定入组标签集合。
63.本实施例中，入组规则文本基于研究项目确定，而入组规则文本多为长句式或者多段分布的文本表述，且在研究领域较为细化时，其主要体现为非结构化数据。
64.作为一种可选的实施方式，入组规则文本至少包括优选规则、排除规则及备注规则；在原始病例数据中，符合优选规则同时不符合排除规则的原始病例数据，或者，符合备注规则的原始病例数据，则为入组病例数据。
65.具体地，在此以乳腺癌研究为例，其优选规则可以是：病理学确诊的左乳或右乳恶性肿瘤，恶性肿瘤的定义范围为：癌、肉瘤、恶性或交界性叶状肿瘤、间质、cdcis、paget's
病。(初次确诊时，伴随其它第二肿瘤与否不影响入组)。
66.其排除规则可以是：
67.a、无组织学确诊的恶性乳腺肿瘤病灶的患者；
68.b、未在本院接受针对乳腺和腋窝的外科手术治疗的乳腺癌患者；
69.c、组织学确诊为经典型小叶原位癌、良性乳腺癌、乳腺炎、乳头状瘤、良性叶状肿瘤、无恶性病灶的患者；
70.d、于外院接受乳腺手术治疗，并获得阴性边缘，于本院进行腋窝手术的患者；
71.e、原发灶手术不在本院进行，术后出现复发转移的患者；
72.f、其它恶性肿瘤转移至乳腺或者腋窝的患者。
73.其备注规则可以是：
74.a、粗针穿刺活检不定位为外科手术治疗的患者；
75.b、原发ⅳ期乳腺癌手术患者；
76.c、在外院接受了肿物的切除活检(包括微创手术)，后于本院进行开放手术中切边缘，或者完成腋窝手术时，由本院病理科基于外院肿物的病理组织白片出具会诊报告的患者。
77.以上，优选规则的标准较为宽泛，适用于初步普筛，排除规则对优选规则加以补充，明确了不予入组的情况，进而，备注标准再对优选规则与排出规则进行补充，明确了予以入组的特殊情况。
78.104、匹配入组标签集合与文本标签集合，于隐含语义空间中确定入组标签集合对应的特定类型节点。
79.本实施例中，在入组标签集合明确了入组需求，且plsa分类模型对原始病例数据构建完整关联映射的情况下，对入组标签集合与文本标签集合进行匹配，确定出与入组需求一致的特定类型节点。
80.105、提取特定类型节点所关联映射的原始病例数据，得到入组病例数据。
81.本实施例中，特定类型节点所映射关联的原始病例数据即为符合入组规则文本要求的入组病例数据，在此根据特定类型节点对其进行提取。
82.本实施例中，在筛选出所需入组病例数据后，对其进行入组，
83.作为一种可选的实施方式，采用datax工具对入组病例数据进行同步，将入组病例数据中的结构化数据置入标准数据表；根据每一入组病例数据中所包含半结构化数据与非结构化数据相对于标准数据表的匹配值，拆分半结构化数据与非结构化数据并分别置入所述标准数据表中。
84.从而，入组病例数据中的结构化数据相应归入标准数据表，而半结构化数据与非结构化数据则基于其与标准数据表中各字段数据格式、字段要求等参数的匹配值进行拆分入组。
85.本实施例中，还对入组病例数据进行校验清洗，将存在错误的剔除，以获得准确可用的入组病例数据。
86.作为一种可选的实施方式，对基于入组病例数据所构建的每一标准数据表进行值域校验，对存在超限数据的标准数据表进行剔除；
87.对完成值域校验的每一标准数据表进行逻辑校验，对存在违背医学逻辑的缺陷数
据的标准数据表进行剔除。
88.在此，同构值域校验用以剔除存在超限数据(如负值年龄)的入组病例数据，逻辑校验用以剔除存在医学逻辑错误(如手术日期早于治疗前病理日期)的入组病例数据，避免无效数据对研究产生负面影响。
89.本实施例中，影像数据相对于入组病例数据进行独立存储，并与文本格式的入组病例数据建立关联关系。
90.作为一种可选的实施方式，对入组病例数据所涉及的影像数据存储于影像库，通过患者主索引对入组病例数据与影像数据建立关联关系；
91.在检索调取任一入组病例数据时，基于关联关系同步调取对应的影像数据。
92.从而无需对影像数据进行特殊处理，避免影响影像数据的准确性。
93.综上，通过采用自然语言处理方式处理原始病例数据与入组规则文本，获得文本标签集合与入组标签集合，进而采用plsa分类模型处理原始病例数据与文本标签集合，获得二者与各类型节点间基于概率分布的关联映射，再通过匹配入组标签集合与特定类型节点，提取得到所需的入组病例数据，完成对包括非结构化数据的原始病例数据进行入组筛选，过程无需人工介入，准确率高。
94.实施例二
95.请参阅图2，图2是本发明实施例公开的一种基于自然语言处理的病例入组筛选系统的结构示意图。如图2所示，该基于自然语言处理的病例入组筛选系统可以包括：
96.标签识别单元201，用于采用nlp模型对原始病例数据进行初识别，获得文本标签集合；
97.模型构建单元202，用于基于原始病例数据及文本标签集合构建plsa分类模型，对原始病例数据、文本标签集合与若干类型节点进行关联映射；
98.标签确定单元203，用于基于入组规则文本，采用nlp模型确定入组标签集合；
99.其中，入组规则文本至少包括优选规则、排除规则及备注规则；
100.在原始病例数据中，符合优选规则同时不符合排除规则的原始病例数据，或者，符合备注规则的原始病例数据，则为入组病例数据。
101.标签匹配单元204，用于匹配入组标签集合与所述文本标签集合，于隐含语义空间中确定入组标签集合对应的特定类型节点；
102.数据提取单元205，用于提取特定类型节点所关联映射的原始病例数据，得到入组病例数据；
103.数据同步单元206，用于在数据提取单元提取特定类型节点所关联映射的原始病例数据，得到入组病例数据之后，采用datax工具对入组病例数据进行同步，将入组病例数据中的结构化数据置入标准数据表；
104.数据匹配单元207，用于根据每一入组病例数据中所包含半结构化数据与非结构化数据相对于标准数据表的匹配值，拆分半结构化数据与非结构化数据并分别置入标准数据表中；
105.第一剔除单元208，用于对基于入组病例数据所构建的每一标准数据表进行值域校验，对存在超限数据的标准数据表进行剔除；
106.第二剔除单元209，用于对完成值域校验的每一标准数据表进行逻辑校验，对存在
违背医学逻辑的缺陷数据的标准数据表进行剔除；
107.影像关联单元210，用于对入组病例数据所涉及的影像数据存储于影像库，通过患者主索引对入组病例数据与影像数据建立关联关系；
108.影像调取单元211，用于在检索调取任一入组病例数据时，基于关联关系同步调取对应的影像数据。
109.作为一种可选的实施方式，数据同步单元206采用datax工具对入组病例数据进行同步，将入组病例数据中的结构化数据置入标准数据表；数据匹配单元207根据每一入组病例数据中所包含半结构化数据与非结构化数据相对于标准数据表的匹配值，拆分半结构化数据与非结构化数据并分别置入所述标准数据表中。
110.从而，入组病例数据中的结构化数据相应归入标准数据表，而半结构化数据与非结构化数据则基于其与标准数据表中各字段数据格式、字段要求等参数的匹配值进行拆分入组。
111.作为一种可选的实施方式，第一剔除单元208对基于入组病例数据所构建的每一标准数据表进行值域校验，对存在超限数据的标准数据表进行剔除；
112.第二剔除单元209对完成值域校验的每一标准数据表进行逻辑校验，对存在违背医学逻辑的缺陷数据的标准数据表进行剔除。
113.在此，同构值域校验用以剔除存在超限数据(如负值年龄)的入组病例数据，逻辑校验用以剔除存在医学逻辑错误(如手术日期早于治疗前病理日期)的入组病例数据，避免无效数据对研究产生负面影响。
114.本实施例中，影像数据相对于入组病例数据进行独立存储，并与文本格式的入组病例数据建立关联关系。
115.作为一种可选的实施方式，影像关联单元210对入组病例数据所涉及的影像数据存储于影像库，通过患者主索引对入组病例数据与影像数据建立关联关系；
116.在检索调取任一入组病例数据时，影像调取单元211基于关联关系同步调取对应的影像数据。
117.从而无需对影像数据进行特殊处理，避免影响影像数据的准确性。
118.综上，通过采用自然语言处理方式处理原始病例数据与入组规则文本，获得文本标签集合与入组标签集合，进而采用plsa分类模型处理原始病例数据与文本标签集合，获得二者与各类型节点间基于概率分布的关联映射，再通过匹配入组标签集合与特定类型节点，提取得到所需的入组病例数据，完成对包括非结构化数据的原始病例数据进行入组筛选，过程无需人工介入，准确率高。
119.实施例三
120.请参阅图3，图3是本发明实施例公开的另一种基于自然语言处理的病例入组筛选系统的结构示意图。如图3所示，该基于自然语言处理的病例入组筛选系统可以包括：
121.存储有可执行程序代码的存储器301；
122.与存储器301耦合的处理器302；
123.其中，处理器302调用存储器301中存储的可执行程序代码，执行图1的一种基于自然语言处理的病例入组筛选方法。
124.本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机
程序使得计算机执行图1的一种基于自然语言处理的病例入组筛选方法。
125.本发明实施例还公开一种计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行如以上各方法实施例中的方法的部分或全部步骤。
126.本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(read-only memory，rom)、随机存储器(random access memory，ram)、可编程只读存储器(programmable read-only memory，prom)、可擦除可编程只读存储器(erasable programmable read only memory，eprom)、一次可编程只读存储器(one-time programmable read-only memory，otprom)、电子抹除式可复写只读存储器(electrically-erasable programmable read-only memory，eeprom)、只读光盘(compact disc read-only memory，cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
127.以上对本发明实施例公开的一种基于自然语言处理的病例入组筛选方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨远刘昊曹润卿史俊才钟炎萤陈华达
技术所有人：健康数据（北京）科技有限公司
我是此专利的发明人

上一篇：一种具有散热功能的LED照明灯的制作方法
上一篇：天线元件、天线封装和显示装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。