一种针对心脏起搏器的结构化数据提取方法与流程

文档序号:11950461阅读:703来源:国知局
一种针对心脏起搏器的结构化数据提取方法与流程

本发明涉及一种针对心脏起搏器的结构化数据提取方法。



背景技术:

随着心血管疾病患者的数量增多、经济水平提高等因素,国内接受起搏器治疗的患者数量逐年递增。中国每年植入起搏器的患者超过5万,且以年10-15%的速度递增。根据近年的ACC/AHA/HRS起搏治疗指南推荐,起搏器植入后患者应该每3-12个月随访一次。

心脏病患者植入起搏器后,需要定期回医院进行随访,也就是传统意义上的手术后回医院复诊,以便专科医生定期通过成勇气对起搏器工作进行评价,并结合起搏器的诊断功能,优化设备参数,使患者最大收益。

目前国外起搏器厂家均采用程控仪导出患者体内起搏器的运行日志、参数等信息,导出格式为PDF,不支持其他数据格式,如Excel。

随着国内临床科研向大数据方向发展,从起搏器程控器中提取结构化数据的需求越发迫切。



技术实现要素:

本发明要解决的技术问题是提供一种抽取效率高的针对心脏起搏器的结构化数据提取方法。

为解决上述问题,本发明采用如下技术方案:

一种针对心脏起搏器的结构化数据提取方法,包括以下步骤:

1)从起搏器程控器设备中导出PDF格式的报告文件;

2)读取报告文件的内容并设置文本标记;

3)根据文本标记将报告文件的内容分切成独立的内容块;

4)将内容块制作成表格;

5)将表格内容转换成结构化数据;

作为优选,所述步骤2)的具体实现方式为:

2.1)打开PDF格式的报告文件;

2.2)使用计算机编程语言编程读取PDF格式的报告文件;

2.3)将读取到的PDF格式的报告文件进行文本标记。

作为优选,所述步骤4)的具体实现方式为:

4.1)根据内容块的内容的所在位置使用计算机编程语言编程实现坐标定位;

4.2)根据坐标对内容块进行栅格化处理;

4.3)形成表格。

作为优选,所述步骤5)的具体实现方式为:

5.1)根据表格每一行的单元格使用计算机编程语言编程按照第1列内容=属性名1;第2列内容=属性值1;第3列内容=属性名2;第4列内容=属性值2的格式进行提取;

5.2)将提取后的数据重新通过编程组合成属性名1=属性值1;属性名2=属性值2的格式;

5.3)编程筛选数据;

5.4)剔除无用的信息。

作为优选,所述计算机编程语言为JAVA或C语言。

作为优选,还包括有步骤6)将结构化数据写入数据库保存。

作为优选,所述数据库为SQLserver数据库或MySQL数据库。

本发明的有益效果为:采用计算机编程读取PDF格式的起搏器程控文件中的各项指标和参数,并将文本内容转为结构化数据格式,数据抽取效率和准确率高,彻底解决了人工抄录模式难以管控质量的难题,方便临床科研工作者进行精准判断,可以方便使用者导出成Excel和cvs等数据格式进行统计分析。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明一种针对心脏起搏器的结构化数据提取方法制作成的表格图;

图2为本发明一种针对心脏起搏器的结构化数据提取方法文件的内容切分图。

具体实施方式

实施例1

一种针对心脏起搏器的结构化数据提取方法,包括以下步骤:

1)从起搏器程控器设备中导出PDF格式的报告文件;

2)读取报告文件的内容并设置文本标记;

3)根据文本标记将报告文件的内容分切成独立的内容块,如图1所示;

4)将内容块制作成表格,如图2所示;

5)将表格内容转换成结构化数据;

本实施例的有益效果为:采用计算机编程读取PDF格式的起搏器程控文件中的各项指标和参数,并将文本内容转为结构化数据格式,数据抽取效率和准确率高,彻底解决了人工抄录模式难以管控质量的难题,方便临床科研工作者进行精准判断,可以方便使用者导出成Excel和cvs等数据格式进行统计分析。

实施例2

一种针对心脏起搏器的结构化数据提取方法,包括以下步骤:

1)从起搏器程控器设备中导出PDF格式的报告文件;

2)打开PDF格式的报告文件;使用JAVA编程读取PDF格式的报告文件;然后将读取到的PDF格式的报告文件进行文本标记;

3)根据文本标记将报告文件的内容分切成独立的内容块,如图1所示;

4)根据内容块的内容的所在位置,使用JAVA编程实现坐标定位;根据坐标对内容块进行栅格化处理;形成表格,如图2所示;

5)根据表格每一行的单元格,使用JAVA编程按照第1列内容= Last Delivered Shock;第2列内容= 24-SEP-2012 11:13;第3列内容= Cumulative Charge Time;第4列内容= 00:40m:s的格式进行提取;然后将提取后的数据重新通过编程组合成Last Delivered Shock =24-SEP-2012 11:13;Cumulative Charge Time =00:40m:s的格式;编程筛选数据;剔除无用的信息,得到有价值的结构化数据;

6)将结构化数据写入SQLserver数据库保存。

本实施例的有益效果为:采用JAVA编程读取PDF格式的起搏器程控文件中的各项指标和参数,Java 技术具有卓越的通用性和高效性,工作效率高,将文本内容转为结构化数据格式,数据抽取效率和准确率高,彻底解决了人工抄录模式难以管控质量的难题,方便临床科研工作者进行精准判断,可以方便使用者导出成Excel和cvs等数据格式进行统计分析。

实施例3

一种针对心脏起搏器的结构化数据提取方法,包括以下步骤:

1)从起搏器程控器设备中导出PDF格式的报告文件;

2)打开PDF格式的报告文件;使用C语言读取PDF格式的报告文件;然后将读取到的PDF格式的报告文件进行文本标记;

3)根据文本标记将报告文件的内容分切成独立的内容块,如图1所示;

4)根据内容块的内容的所在位置,使用C语言编程实现坐标定位;根据坐标对内容块进行栅格化处理;形成表格,如图2所示;

5)根据表格每一行的单元格,使用C语音编程按照第1列内容= Last Delivered Shock;第2列内容= 24-SEP-2012 11:13;第3列内容= Cumulative Charge Time;第4列内容= 00:40m:s的格式进行提取;然后将提取后的数据重新通过编程组合成Last Delivered Shock =24-SEP-2012 11:13;Cumulative Charge Time =00:40m:s的格式;编程筛选数据;剔除无用的信息,得到有价值的结构化数据;

6)将有价值的结构化数据写入MySQL数据库保存。

本实施例的有益效果为:采用C语音编程读取PDF格式的起搏器程控文件中的各项指标和参数,C语音编程具有高效、灵活、功能丰富、表达力强和较高的移植性,操作方便,将文本内容转为结构化数据格式,数据抽取效率和准确率高,彻底解决了人工抄录模式难以管控质量的难题,方便临床科研工作者进行精准判断,可以方便使用者导出成Excel和cvs等数据格式进行统计分析。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何不经过创造性劳动想到的变化或替换,都应涵盖在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1