本发明涉及胃癌临床资料智能提取与结构化工具,用于从胃癌患者的非结构化或弱结构化临床资料中按照不特定的数据集标准提取数据,制成数据表,减少填表人员的工作量。
背景技术:
1、前瞻性临床研究需要依据crf表,找专人(医生、医学生、临床研究公司人员等)查阅病历、报告、检查结果来填表。填表是一件劳累、枯燥、费时的事情,一个病人通常不少于数百个字段,填表时间基本不会少于30分钟,故从经济上而言是昂贵的。此外,更重要但常被人故意掩盖一点是,除非和该临床研究利益紧密相关的人员,很多人在填表的时候会“投机取巧”地乱填,为图省事而试图以假乱真,埋下了很多隐患。而回顾性临床研究包括近来成为热点的真实世界研究,要么由已经建成的专病库中,抽取数据来用,要么依然是设计和crf表类似的数据集,由专人填表再开展研究。然而,建专病库这件事,本质依然是填表,就无法避免上文所提的困境。
技术实现思路
1、本发明的目的是:提供一种针对胃癌患者病史的后结构化工具,在尽可能保障数据质量基础上,显著提升填表速度,降低填表成本。
2、为了达到上述目的,本发明的技术方案是提供了一种胃癌临床资料智能提取与结构化工具,其特征在于,包括:
3、输入模块:用于收集胃癌临床电子资料;
4、自然语言处理引擎:利用nlp技术来处理通过输入模块所收集到的胃癌临床电子资料中的信息;
5、规范化模块:用于对自然语言处理引擎所提取的信息进行标准化,该规范化模块使用医学本体或术语数据库;
6、数据转换模块:经过自然语言处理引擎的数据提取和规范化模块的规范化后,数据转换模块将数据结构化为表格形式;数据转换模块为每种类型的数据创建包含特定列的表格,并确保数据正确输入到这些表格中;
7、输出模块:以所需的格式输出通过数据转换模块获得的结构化数据,并确保与可能使用数据的其他系统的兼容性。
8、优选地,所述输入模块收集的所述胃癌临床电子资料包括电子病历和电子报告。
9、优选地,所述输入模块收集的所述胃癌临床电子资料的数据格式为pdf、docx、txt或xml。
10、优选地,所述输入模块收集的所述胃癌临床电子资料来自于本地存储或基于云的系统。
11、优选地,所述自然语言处理引擎进一步包括标记化单元、词性标记单元、句法分析单元、命名实体识别单元、语义分析单元、文本分类单元,其中:
12、标记化单元:用于识别胃癌临床电子资料文本中的每个词;
13、词性标记单元:用于标记胃癌临床电子资料文本中的每个词的词性;
14、句法分析单元:用于分析胃癌临床电子资料文本中句子的语法结构,提供额外的上下文,以辅助理解复杂的医学叙述;
15、命名实体识别单元:用于识别和分类特定数据字段;
16、语义分析单元:用于理解胃癌临床电子资料文本中单词和句子的含义和上下文,捕捉中文词的语义。
17、文本分类单元:用于将胃癌临床电子资料文本或部分文本分类到预定义的类中。
18、优选地,所述自然语言处理引擎还包括ocr工具单元,用于处理基于图片的文字输入。
19、优选地,所述自然语言处理引擎的各个单元在现有的胃癌患者数据文本上进行训练和测试。
20、优选地,所述规范化模块使用snomed ct或umls进行规范化;在中文上,所述规范化模块使用中文医学术语系统来进行标准化。
21、优选地,还包括反馈回路模块:通过手动检查输出模块的输出数据并将修正反馈回所述自然语言处理引擎进行重新训练。
22、本发明公开的一种胃癌临床资料智能提取与结构化工具可以解决目前人工填写crf表存在的隐患,不仅在临床研究填写数据表、建设专病数据库等任务中节省时间,缩减经济成本,而且能够获得信息更为准确的crf表。
1.一种胃癌临床资料智能提取与结构化工具,其特征在于,包括:
2.如权利要求1所述的一种胃癌临床资料智能提取与结构化工具,其特征在于,所述输入模块收集的所述胃癌临床电子资料包括电子病历和电子报告。
3.如权利要求1所述的一种胃癌临床资料智能提取与结构化工具,其特征在于,所述输入模块收集的所述胃癌临床电子资料的数据格式为pdf、docx、txt或xml。
4.如权利要求1所述的一种胃癌临床资料智能提取与结构化工具,其特征在于,所述输入模块收集的所述胃癌临床电子资料来自于本地存储或基于云的系统。
5.如权利要求1所述的一种胃癌临床资料智能提取与结构化工具,其特征在于,所述自然语言处理引擎进一步包括标记化单元、词性标记单元、句法分析单元、命名实体识别单元、语义分析单元、文本分类单元,其中:
6.如权利要求5所述的一种胃癌临床资料智能提取与结构化工具,其特征在于,所述自然语言处理引擎还包括ocr工具单元,用于处理基于图片的文字输入。
7.如权利要求6所述的一种胃癌临床资料智能提取与结构化工具,其特征在于,所述自然语言处理引擎的各个单元在现有的胃癌患者数据文本上进行训练和测试。
8.如权利要求1所述的一种胃癌临床资料智能提取与结构化工具,其特征在于,在英文上,所述规范化模块使用snomed ct或umls进行规范化;在中文上,所述规范化模块使用中文医学术语系统来进行标准化。
9.如权利要求1所述的一种胃癌临床资料智能提取与结构化工具,其特征在于,还包括反馈回路模块:通过手动检查输出模块的输出数据并将修正反馈回所述自然语言处理引擎进行重新训练。