一种标准化临床大数据中心系统的制作方法

文档序号：20079355发布日期：2020-03-10 10:20阅读：562来源：国知局

本发明涉及医疗信息大数据技术领域，尤其涉及一种标准化临床大数据中心系统。

背景技术：

大数据是指难以被传统数据管理系统有效且经济地存储、管理、处理的复杂数据集。大数据一般以pb为单位计量，并包含结构化、半结构化、无结构化的数据，大数据给数据的采集、运输、加密、存储、分析和可视化带来了严峻的挑战。与传统数据相比，大数据包含5个v特性：volume(数据规模巨大)、variety(数据类型繁多)、velocity(数据产生的数据非常快)、veracity(分析结果取决于数据准确性)、value(大数据一般包含非常重要的价值)。大数据带来了存储、管理、处理数据的挑战，也带来了发掘数据中新的价值的机遇。多个行业已经利用大数据改善业务，例如金融业、零售业、生命科学、环境研究。大数据市场估计每年会增长50亿美元的价值，到2020年将达到600亿美元的价值。

医疗机构采用大数据可以有效地帮助医生进行更准确的临床诊断；更精确地预测治疗方案的成本与疗效；整合病人基因信息进行个性化治疗；分析人口健康数据预测疾病爆发等。利用大数据技术还能有效减少医疗成本，麦肯锡全球研究院预计使用大数据分析技术将每年为美国节省3000亿美元开支。

虽然国内医疗机构为临床、科研、患者、药物研究等方面提供数据服务，也能够借助医疗大数据平台形成一定范围的医疗大数据生态圈，但是目前我国医疗大数据缺乏统一的标准规范。医疗机构建设医疗大数据平台的初衷也是为了满足自身医疗信息化发展的需求，未能充分考虑医疗大数据的数据共享和数据应用，无法最大限度地应用医疗大数据。

国家卫生健康委员会2018年发布《国家健康医疗大数据标准、安全和服务管理办法(试行)》明确指出要加快推进健康医疗大数据的标准制定工作，鼓励医疗卫生机构、科研教育单位、相关企业或行业协会、社会团体等参与健康医疗大数据标准制定工作。目前，医疗数据并不缺乏标准，但汇集之后的健康医疗大数据尚缺乏统一的国家或者行业标准，各个医疗大数据平台通常只是部分借鉴了成熟标准，大多平台建设还是采用各自的数据标准规范。不仅医疗大数据厂商的标准不统一，各个地区甚至各个医院都未使用统一数据标准，影响了健康医疗大数据平台的数据质量和数据治理效果。目前，医疗信息化行业内尚未有指导医疗机构大数据平台建设的具体、规范、适用性强的操作文件，由于建设规范的缺乏，一定程度上制约了数据标准、技术规范和共享规范的统一。

临床数据采集不完整，医疗数据的搜集和处理过程经常相互脱节，这使得医疗数据库难以对任何疾病信息全面反映。大量数据来源于人工记录，导致数据记录的偏差和残缺，许多数据的表达、记录本身也具有不确定性。

临床数据采集实时性差，数据的创建速度快，更新频率高，许多数据的采样周期已从周、天升级到分、秒，甚至是连续性记录。这对响应速度及处理速度提出更高要求。

数据清洗耗时长、规范化低，各业务系统的数据普遍存在一定的不标准、不规范问题，缺乏数据语义标准模型，数据识别和应用非常困难，大量数据的清洗、转换耗时长、规范化低。

缺乏后续应用服务，临床数据价值未得到有效的挖掘和利用，难以为诊断、治疗和日常管理等方面提供辅助决策；也难以实现精细化、高效率、科学化、等级评审等方面的管理要求。

技术实现要素：

1.发明要解决的技术问题

为了克服上述技术问题，本发明提供了一种标准化临床大数据中心系统。可以辅助医生治疗，提高临床效率，基于标准化数据中心，对类似症状患者进行搜索定位，从而得到类似症状对应患者的治疗方案、用药情况以及预后效果，从而辅助医生有针对性的进行治疗。

2.技术方案

为解决上述问题，本发明提供的技术方案为：

第一方面，本发明提供了一种标准化临床大数据中心系统，包括数据层、平台层、应用层、网络层和用户层；其中，数据层用于提供海量数据的存储、管理、分析挖掘计算能力及数据管理功能；所述平台层用于统一用户管理、统一权限控制、统一日志管理、统一监控管理、工作流引擎、报表工具、自定义表单管理；所述应用层用于数据智能采集服务、患者全程诊疗视图服务、辅助诊疗服务、临床数据深度挖掘增值服务、报表服务；所述网络层用于提供医院专用网、互联网、无线网、3g/4g网；所述用户层用于用户登录。

可选地，所述系统包括信息框架模型、数据分类规范、业务领域模型、数据库概念设计、数据库逻辑设计、数据库物理设计、医院数据目录、数据服务资源目录、应用服务资源目录。

可选地，所述数据存储采用备份库、非标准数据中心、标准化大数据中心来整合及管理数据，为上层提供支撑。

可选地，所述非标准数据中心为分主题建库，所述标准化大数据中心包括标准主题库、统计分析库、专题应用库、共享服务库、平台管理库。

可选地，所述业务领域模型包括业务领域数据流，所述业务领域数据流包括临床业务数据流、经营管理数据流和行政管理数据流。

可选地，所述标准化大数据中心，用以进行相关标准规范建设，包括标准规范建设和管理办法制定，所述标准规范建设包括数据分类体系规范、管理模式规范、核心元数据规范、数据汇交交换规范、数据服务接口规范和数据分级使用规范。

可选地，所述标准化大数据中心心的建设内容包括业务数据集成、数据资源建库、数据标准化处理。

可选地，所述数据资源建库包括主题库、专题库、分析库和应用库。

可选地，所述标准化大数据中心进行数据抽提的流程为：标准化清晰、指标抽取、属性确认、术语推荐和指标搜索。

可选地，非结构化数据抽提流程为：电子病历信息抽提、指标搜索、相关术语推荐、属性确认、指标抽取、数据标准化清洗、患者主索引、患者全程诊疗视图、患者信息分类、全程诊疗视图。

3.有益效果

采用本发明提供的技术方案，与现有技术相比，具有如下有益效果：

1)整合历史资源，实现全量、增量数据汇聚，对his、lis、pacs、emr、pet、手术麻醉、随访等所有业务系统的历史数据资源进行汇聚整合、清洗和关联，实现医院相关业务数据的集中管理。系统后台通过数据库接口，自动采集医院现有业务系统的临床数据，集成到标准化的临床数据库中。

2)建设标准中心、实现共享应用，支持icd-10疾病诊断字典、snomed医疗术语字典、支持xml输出标准、hl7接口标准等，将医院各业务系统中，与患者相关的疾病、诊断、治疗和随访等信息转化为结构化、标准化的数据，并形成标准化临床数据中心，并在此基础上实现医院内部各业务系统间的共享应用。

3)辅助医生治疗，提高临床效率，基于标准化数据中心，对类似症状患者进行搜索定位，从而得到类似症状对应患者的治疗方案、用药情况以及预后效果，从而辅助医生有针对性的进行治疗。

4)分析挖掘数据、辅助临床科研，在对医院标准化数据中心数据进行分析挖掘和专题应用的基础上，分析出临床表型与治疗方案、用药效果、基因特征、生理指标等因数之间的关联，为发表高水平科研论文、申报国家级重大科研项目以及临床经验的提升提供帮助。

附图说明

图1为本发明提供的一种标准化临床大数据中心系统的架构图。

图2为临床数据处理应用解决方案的结构示意图。

图3为据交互关系图。

图4为标准化临床数据中心的结构示意图。

图5为非结构化数据的抽提流程图。

具体实施方式

为进一步了解本发明的内容，结合附图及实施例对本发明作详细描述。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与发明相关的部分。

本发明中所述的第一、第二等词语，是为了描述本发明的技术方案方便而设置，并没有特定的限定作用，均为泛指，对本发明的技术方案不构成限定作用。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

实施例1

大数据结构化：将采集到的半结构化、非结构化临床数据进行清洗，转换为结构化数据。

大数据标准化：对大数据进行比对、关联、融合，实现临床数据标准化。

丰富的大数据应用：利用数据中心的大数据资源，对临床服务、科研管理、医院管理等提供辅助决策支持。

大数据可视化展示：提供医疗大数据数据模型可视化配置，提供大数据分析结果的可视化展示。

患者主索引：从不同业务系统中取得患者的信息并进行组织，形成同一患者的唯一标识编码，根据此编码能找到该患者的所有医疗信息。

归档日志抓取服务

归档日志抓取服务主要是对数据库归档日志进行分析、过滤、提取，存储到数据库或文件中，最新版本能够支持主流的数据库日志的抓取，如支持oracle、sqlserver、db2和ingres所有版本等。存储目标端支持常用的数据文件格式，如：xml；也支持大数据的分布式存储方式，如：hdfs。

实现归档日志实时抓取，需要在数据库服务器上安装一个日志抓取服务插件，该插件不影响数据库查询和操作性能，只对归档日志进行抓取。归档日志抓取分为两种方式：全量和增量，全量一般是手工触发，将单表或多表的数据导出；增量则是通过日志抓取服务的定时调度任务来实现。

全量归档日志抓取

全量意味着日志抓取中心对所复制的表进行校验，获取所复制表的所有数据，经网络传输、解压缩，并且将数据加载到目标数据库。数据被全量加载到目标数据库后，索引将被重新初始化。

当然除了目标数据库，全量数据抓取也可以将数据加载到目标文件。

增量归档日志抓取

增量归档日志抓取是指通过scheduer服务实时监听源数据变化情况，并实时的将数据传输到目标端。每次增量生成到目标端的数据都会标识状态：新增、修改和删除。目标端可以是数据库，也可以是文件，以文件格式为例，一般会存储为xml格式。每一次增量数据都会生成新的增量数据文件，因此后面的数据调度服务可以以消费者的模式来获取这些诶增量数据文件，再去做后续数据清洗和整合处理。

数据调度服务

数据调度服务主要通过调用数据清洗服务和数据整合服务对归档日志抓取服务从数据库中抓取的数据进行处理并整合到数据中心。

数据调度服务主要是起到串联和事务控制作用，实现以消费者模式读取数据文件，通过文件锁的方式保证同一个增量数据文件只会被处理一次；实现map-reduce并行计算，对大数据文件进行拆分处理从而提高效率；实现分布式事务控制，保证同一份数据的整个处理流程的事务一致性，保证数据的完整性。

数据清洗服务

主要是对临床医疗数据，如诊断数据、手术数据、用药数据、检验数据、体征数据、电子病历中抽取的数据进行数据清理,如数据项(字段)的定义与名称歧义、值域代码不统一，信息模型与资源内容缺乏统一描述和表达，单位出现中英文、数据名称使用简写等，对异构异源的临床医疗数据资源实施了有效的数据清理工作。

数据清理

数据清洗是清除错误和不一致数据的过程，当然，数据清洗不是简单的用更新数据记录，在数据挖掘过程中，数据清洗是第一步骤，即对数据进行预处理的过程。数据清洗的任务是过滤或者修改那些不符合要求的数据。不符合要求的数据主要有不完整的数据、错误的数据和重复的数据3大类。

各种不同的挖掘系统都是针对特定的应用领域进行数据清洗的。包括：

检测并消除数据异常；

检测并消除近似重复记录；

数据的集成；

特定领域的数据清洗；

项目中的数据来源于医院业务数据，其中数据是不完整的、有噪声和不一致的。数据清理过程试图填充缺失的值，光滑噪声并识别离群点，并纠正数据中的不一致。数据清洗的目的是为挖掘提供准确而有效的数据，提高挖掘效率。

缺失值处理

对于数据集中的数据，存在有这样两种情况：

数据中有大量缺失值的属性，我们通常采取的措施是直接删除，但是在有些系统进行etl处理时，不能直接处理大量的缺失值。

对于比较重要的属性，也会存在少量缺失值，需要将数据补充完整后进行一系列的数据挖掘。

数据选择

在对数据进行第一步缺失值清理后，会考虑删除掉冗余属性、或者与临床数据中心关系不大的属性，这称为人工选择。现有的数据消减包括：数据聚合、消减维度、数据压缩和数据块消减。而人工属性选择是物理降维方式，通过对业务的理解和相关人员的沟通，对数据集中的数据进行初步的筛选。

数据变换

数据变换是数据清理过程的第二步，是对数据的一个标准化的处理。大部分数据需要进行数据变换。数据变换是不同来源所得到的数据可能导致不一致，所以需要进行数据变换，构成一个适合数据挖掘决的描述形式。

数据的集成

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中，从而为数据挖掘提供完整的数据源。

数据整合服务

数据整合是将数据清理完成的数据按照设置好的映射关系，将数据对象写入临床数据中心对应的目标表，数据对象中属性(properties)对应目标表中字段信息。数据整合过程中并不是简单的将对象属性插入目标表字段这么简单，会根据配置好的映射规则，将数据对象对象写入数据中心。数据整合服务会定时自动处理数据清理之后的数据结果集(数据对象)。

首次进行数据整合是一个全量过程，需要将清洗完成好的数据对象写入数据库。首次之后的每次整合即为增量整合，增量整合又分为新增和修改两个操作；新增则将数据添加到数据中心，修改则通过主键唯一标识在数据中心中找到该条数据，替换其中有变化的。

大数据存储技术和系统

在数据存储系统体系结构方面，以大量廉价服务器组成无共享(shared-nothing)集群的方式逐渐成为主流。这种体系结构易于实现高可用、高性能、渐进可扩展的存储系统，并且由于存储资源与计算资源紧密耦合，在扩充存储容量的同时，计算能力也能够同步增强，能够避免\存得下，算不出"的问题。在软件方面，文件存储是最基本的数据存储方式。文件存储的优点是访问接口简单，文件格式可以由使用者灵活定义，因此文件存储往往作为更高级的数据管理系统的底层存储服务。目前能够存储超大规模数据的文件存储系统包括lustre、googlefilesystem(gfs)、hadoopdistributedfilesystem(hdfs)以及amazons3等。它们的共同特点是基于无共享架构、能够管理数百乃至数千存储节点、自动维护数据冗余或副本、高并发顺序访问吞吐率等。

大数据脱敏技术

大数据平台脱敏及模糊化模块主要包括两大功能：敏感数据发现和敏感数据脱敏。

敏感数据发现

通过设置敏感数据发现策略，平台自动识别敏感数据，发现敏感数据后产生报警，保障数据在产生阶段安全。敏感数据发现功能包括如下内容：

敏感信息规则库建立

关系型数据检测

敏感内容描述检测

敏感数据脱敏

针对hadoop平台hive、hbase大数据存储组件结合用户权限提供动态数据脱敏功能，保障敏感数据访问安全，同时基于大数据安全分析技术，发现敏感数据访问的异常行为，并提供敏感数据视图，实现全局化数据管理和对各种类别敏感数据脱敏的精细化管理。

数据脱敏及模糊化功能模块是在数据库层面对数据进行屏蔽、加密、隐藏、审计或封锁访问途径的方式。该模块作为一个网关形式部署，所有需要进行敏感数据动态脱敏的应用系统需通过该产品实现对数据库的访问。

异构系统适配器服务

异构系统适配器服务是数据交换系统的基础服务部件，是各信息系统接入esb的桥梁，是多种异构系统之间互连互通及互操作的服务单元。适配器应遵循国际级行业标准，提供标准的xml数据对象、服务接口、服务操作方法，如下图示，真正实现了信息系统服务重用。适配器服务应分为提供服务者和消费服务者，既可以提供服务消费，也可以消费其他服务。可以实现信息系统常用文件、数据库、通讯等技术适配能力，并可以按照特定规范进行适配器服务定制，满足可扩展需要。

基于webservices服务的方式

基于webservices服务的数据交换方式主要用于外部机构部门与数据中心间实时的数据交换和业务协同应用。

基于webservices技术的应用集成通过主流的webservices协议如soap、xmlrpc等协议的无缝集成，支持这些应用系统的接口，提供基于webservices的应用系统整合适配器，并提供快速整合webservices应用的工具和接口api。

数据提供方定义公开数据服务，以服务的形式封装数据交换的内容和协议。数据使用方调用数据提供方的公开数据服务以获取所需的数据，并且按照一定的数据转换和数据更新规则，把数据更新到本地数据源。通过本地数据服务和公开数据服务的交互实现数据提供方和数据使用方之间的数据交换。

基于数据库接口的方式

基于数据库接口交换的方式主要用于内部系统间的实时或非实时数据交换方式。

交换的双方通过定义发送和接收任务来进行数据库接口的交换。根据交换的数据格式的不同，这种数据交换方式又可以细分为两种类型：一种是数据落地的数据共享，一种是数据不落地的数据交换。

基于标准xml元数据和数据字典的数据交换由xma整合协同平台自动从前置机交换数据库中提取数据，并按照定义好的模板打包生成标准的xml数据包，由定制好的发送路由发送给接收方。接收方接收到xml数据包后自动进行解包处理，并将数据存储到接收方的前置机交换数据库中。

基于文件交换的方式

基于文件交换的方式主要用于外部或内部的非实时批量数据交换方式。

交换的双方通过定义发送和接收任务来进行数据文件的交换。根据交换的数据文件的不同，这种数据交换方式又可以细分为两种类型：一种是基于标准xml文件的数据交换，一种是基于其他文件格式的数据交换。

基于标准xml文件的数据交换由xma整合协同平台自动从前置机交换数据库中提取数据，并按照定义好的模板打包生成标准的xml文件，由定制好的发送任务发送给接收方。接收方接收到xml文件后自动进行解包处理，并将数据存储到接收方的前置机交换数据库中。基于其他文件格式的数据交换由业务系统将需要交换的数据文件放置到前置机上的规定路径下，通过xma整合协同平台发送到目的地交由接收部门自行处理。

实施例2

1平台架构

标准化临床大数据中心是为解决临床业务数据分散存储、不便于提取应用而设计的，为临床数据深度挖掘和深层次应用奠定统一的数据基础。该中心立足于医院原有的业务系统数据，通过最新计算机技术和人工智能的辅助来完成以患者为中心的临床数据的备份、汇聚、清洗、整合、关联、标准化和共享。从而现有业务系统中，与患者相关的疾病、诊断、治疗和随访等信息转化为结构化、标准化的数据，并存放在一个统一的数据中心中，可以实现各业务系统之间以及内部各科室之间信息的互联互通和共享应用。同时该中心还为疾病的诊断治疗、优势病种的临床科研以及医院的管理运营等业务应用奠定了标准化的数据基础。

标准化临床大数据中心主要分为数据层、平台层、应用层、展现层四大部分，以及贯穿于整个体系的标准规范管理和安全保障体系。

项目平台采用多层功能体系架构，具体如1图所示。

1.1数据层

数据层主要提供海量数据的存储、管理、分析挖掘计算能力及数据管理功能。数据存储采用备份库(ods)、非标准数据中心(分主题建库)、标准化大数据中心(标准主题库、统计分析库、专题应用库、共享服务库、平台管理库)来整合及管理数据，为上层提供支撑，如图2所示。

1.2平台层

平台层主要包括统一用户管理、统一权限控制、统一日志管理、统一监控管理、工作流引擎、报表工具、自定义表单管理等功能，该部分是整个系统的基础。

1.3应用层

应用层包括了大数据应用平台的核心业务应用，包括数据智能采集服务、患者全程诊疗视图服务、辅助诊疗服务、临床数据深度挖掘增值服务、报表服务等内容。

2信息资源规划及标准规范建设

开展医疗数据资源规划，理清数据分类、分层及业务关系，夯实“一个患者”标准化临床大数据中心的设计基础。包括信息框架模型、数据分类规范、业务领域模型、数据库概念设计、数据库逻辑设计、数据库物理设计、医院数据目录、数据服务资源目录、应用服务资源目录等。

以下重点从数据资源目录(静态数据分类)、数据流图(动态业务关系)两个角度，分析医院数据关系。

2.1数据资源目录

2.1.1医院数据分类

参照国家相关标准与规范，结合医院信息化建设需求，从临床业务、经营管理与监管等职能及业务内容入手，采用信息资源规划(irp)方法全面梳理标准化临床大数据中心建设的数据内容、分类体系及编码规则，从不同的分类标准与评判视角，确定数据类型与数据关系，设定数据类型编码与关联码，形成覆盖全医院数据分类体系和数据编码体系。

根据医院的业务情况，初步将医院的数据分为以下四个类别：

管理类：医院、医院的所有行政管理相关的数据全部归于此类；

临床类：临床医疗业务活动产生的数据归于此类；

经营类：经营业务活动过程中产生的数据归于此类；

基础类：字典、代码、值域、知识库、业务规则等数据归于此类。

2.1.2数据编码

对于数据分类及编目，通过以下四方面来分类：

(1)行政区划。可以根据所在行政区划的不同，对数据服务进行分类；采用国标《行政区划代码》(gb/t2260-2007)中对应的6位代码来命名。

(2)专业类型。可以根据所属的业务专业的不同，对数据服务进行分类；采用1位专业代码来命名。

(3)数据(集)名。可以根据数据所属的数据集不同，对数据服务进行分类；设定为4位数字码，空位以0补齐。

(4)年份。可以根据不同的年份对数据服务进行分类。采用年月组成的6位数字。

总编码原则：编码采用4层17位数字码组成，编码结构如图2所示：

2.1.3数据资源目录

数据资源目录体系是数据资源规划的重要成果之一，是数据组织、管理、共享、分发、应用的基础手段。通过深入全面调研业务，结合国际、国家、行业、医院的相关标准和规划，规划、疏理出医院的数据资源目录。

2.2业务领域数据流程

2.2.1临床业务数据流

以医院的临床业务事件为基础，囊括临床业务及患者服务的全流程，对全流程过程中所产生的数据进行全面的疏理与分析，分层整理出医院的各级数据流程图及数据交换关系图，从全局业务的角度，描述临床业务活动的数据成果，反映各业务部门进行业务协作时的数据交互关系。图3为一个典型的数据交互关系图。

2.2.2经营管理数据流

以医院的经营管理为中心，医院的经营管理业务活动为基础，囊括多级、多角色的全流程经营管理，对全流程过程中所产生的数据进行全面的疏理与分析，分层整理出医院的各级数据流程图及数据交换关系图，从全局业务的角度，描述经营管理业务活动的数据成果，反映各业务部门进行业务协作时的数据交互关系。

2.2.3行政管理数据流

以医院的行政管理为中心，医院的行政管理业务活动为基础，囊括多级、多角色的全流程行政管理，对全流程过程中所产生的数据进行全面的疏理与分析，分层整理出医院的各级数据流程图及数据交换关系图，从全局业务的角度，描述行政管理业务活动的数据成果，反映各业务部门进行业务协作时的数据交互关系。

2.3标准化临床大数据中心相关标准规范建设

2.3.1标准规范建设

从全局角度出发，应突出制定数据如何分类组织，不同信息化条件下的“一个患者”管理模式，数据的元数据，以及数据服务的接口及分级调用规范等，这些标准规范从全局角度，统一标准化临床大数据中心建设的数据组织、数据管理、汇集交换、服务接口、分组调用等，包括：

(1)数据分类体系规范

参照国家相关标准与规范，结合医院信息化建设需求，从医院运营管理与监管等职能及业务内容入手，采用信息资源规划(irp)方法全面梳理医院“一个患者”数据中心建设的数据内容、分类体系及编码规则，从不同的分类标准与评判视角，确定数据类型与数据关系，设定数据类型编码与关联码，形成覆盖全医院的数据分类体系。

(2)“一个患者”管理模式规范

针对标准化临床大数据中心建设近几年取得的数据管理经验以及当前面临的新问题，开展医院“一个患者”数据管理模式研究，分析数据集中管理、分布管理、集中+分布式管理的优缺点、适用条件、技术标准、建设步骤等，以统一数据组织、统一存储管理、统一数据服务、数据联动更新为原则，制定“一个患者”数据管理模式规范。

(3)核心元数据规范

元数据规范为保证元数据的一致性和质量，需规定核心元数据的内容与组织，每一项元数据元素的定义、内容描述、约束条件、最多出现次数、数据类型、值域等，并包括数据字典、元数据的实现以及实例。

(4)数据汇交交换规范

针对不同类型数据的汇交更新特点，描述数据在由下级到医院的汇集过程，数据交换包定义及组织方式，数据传输方式、数据安全策略、以及如何进行数据的采集更新、组织整理和共享交换等内容。

(5)数据服务接口规范

针对管理和监管等应用需求，参照国际、国家等相关技术标准与规范，制定“一个患者”数据服务接口规范，包括“一个患者”数据服务分类、编码、内容、安全、接口形式等，既能满足和支持系统的主流技术平台，同时又能实现数据服务的协同、共享与互操作。

(6)数据分级使用规范

针对不同类型、不同医院和地区的数据及技术平台，参照国家相关技术规范，制定统一的数据分级使用规范，既能满足和支持医院系统的主流技术平台，同时又能实现服务数据的协同、共享与互操作。

2.3.2管理办法制定

除了制定相应的数据标准、技术规范以外，还应重视相应的管理办法的制定，用以推进标准规范的执行，从执行角度再次约定规范执行的行为。应重点从数据汇交、更新、交换、服务提供、安全保密、备份、应急提供等方面，出台相应的管理办法。

3系统功能设计

3.1标准化临床数据中心

标准化临床数据中心立足于医院原有的业务系统数据，通过计算机技术的辅助来完成以疾病为中心的，临床数据的汇聚、清洗、整合、关联、标准化处理和共享应用。从而将业务系统中，与患者相关的疾病、诊断、治疗和随访等信息转化为结构化、标准化的数据，并存放在一个统一的数据中心中。

该标准化数据中心建设完毕后，可以为临床诊疗、管理、医学科研等提供数据支持和帮助，并快速发展提供了基础信息系统的支撑。

3.1.1系统功能规划设计

标准化临床数据中心的建设内容初步规划三个方面：业务数据集成、数据资源建库、数据标准化处理。具体功能规划图，如图4所示。

3.1.2数据资源建库

在业务数据集成的基础上，建设业务数据中心，在该数据中心的基础上，根据数据整合关联的分析结果和具体业务需求，分别建设相应的主题库、专题库、分析库和应用库。

标准主题库：以疾病为主题，按需建立若干标准主题库，为后续数据的分析挖掘和深度应用打下基础。

统计分析库：建立疾病统计分析数据库，该统计分析库将疾病按照病种或术种进行分类，归纳疾病知识体系，建立系统化疾病统计分析数据库，获取关于疾病的高质量、完整的研究资源，进而为临床诊断治疗和医学科学研究提供数据和技术支撑。

专题应用库：依据主任、医生和科研人员感兴趣的专题应用，建设相应的专题应用数据库。通过该专题应用库为使用者提供灵活、操作简单、方便直观的数据应用和深度挖掘服务。

3.1.3非结构化数据抽提

非结构化电子病历抽提是将自然语言描述的电子病历转化成结构化、标准化的电子病历的过程。我们利用公司独有的语义标准化转换组件，将非结构化信息转化成为结构化信息，让医生一目了然患者的所有情况，极大的提高了信息的可读性与合理性。

3.1.3.1系统功能规划设计

该抽提服务能自动从pdf、txt、html等格式的电子病历中抽提出医生和科研人员感兴趣的信息，并对数据进行结构化、标准化的清洗与转换，为临床研、疾病诊断治疗等提供重要临床信息。

3.1.3.2电子病历信息抽提

非结构化电子病历抽提服务能够唤醒医院沉睡已久的海量历史病历文档，充分激活临床数据，为临床诊断和医学研究提供支撑。系统通过灵活便捷的定制，快速抽提医生感兴趣的非结构化电子病例信息，并进行结构化图表的结果展示，为临床科研、诊疗决策和卫生决策等提供重要指导信息。

3.1.3.2.1整体流程，非结构化抽提流程图，如图5所示。

3.1.3.2.2指标搜索

本环节根据是否输入指标的条件有两条路径：

输入指标：从术语平台搜索指标，术语平台根据输入指标推荐出最接近的几个指标术语。

1.如果输入的指标中文或英文100％匹配，则进入属性确认页面。

2.否则进入术语推荐页面。

未输入指标：直接进入指标抽取，可以进行指标属性的维护。

3.1.3.2.3相关术语推荐

本环节根据术语平台返回的结果，选择推荐的术语，同时通过百度翻译将术语翻译成英文，同时可以修改翻译结果。

当然也可以选择用户输入的条件作为指标。

选择一条指标确认后会自动调用术语平台的接口进行术语及其同义词的维护。

3.1.3.2.4属性确认

本环节根据选择的指标，对指标需要抽取的属性行进维护确认，每个属性需要指定一个值域(词典库)，用于指标抽取时的取值依据。

3.1.3.2.5指标抽取

本环节对指标信息定位的结果进行批量的属性抽取，属性列在不同的病例块中共享，如果属性不能满足要求，可以在本页面进行指标属性维护。

3.1.3.2.6数据标准化清洗

本环节对指标抽取的结果进行修改，按样本数降序排序。

结果修改之后将标准化数据转存到事实表。

相关指标和属性需要更新到知识树。

3.1.4患者主索引

患者主索引应用特有的算法和技术用于医疗行业患者基本信息索引的创建、搜索和维护，可以智能地协助医疗人员对病人有效地进行搜索。empi能够从各种不同的子系统中取得患者的信息并进行组织，形成同一患者的唯一标识编码，根据此编码能找到分布在不同地域不同系统标准不统一的患者的所有医疗信息，同时消除重复的患者数据。empi同时提供一个搜索引擎，提供给其它应用程序对患者的智能搜索功能。主索引采用的方法包括以下几种：

·以患者的相关唯一号码作为主索引，如身份证号码、电话号码等，并同时结合姓名、性别等信息进行进一步明确；

·以视网膜作为唯一的主索引；

·以患者在医疗过程中所产生的生物信息、个人社会属性联合，采用聚类算法进行主索引的建立。

3.1.5患者全程诊疗视图

标准化临床数据中心通过建立患者主索引，集成医院不同的业务系统中的患者临床诊疗数据，向用户提供包括以患者为中心的历次就诊记录的主诉、现病史、各类检查、诊断、入院记录、出院记录、病程记录、体征数据、治疗、费用等360°全数据。同时系统提供统一的患者查询窗口，并且将患者历史就诊信息按时间轴的形式进行集中展现。以患者关键信息为主索引进行串联，医生可在一个视图里查看同一个患者的在院所有就诊信息。让医生能够全面掌握患者的健康信息，为医生的临床决策提供非常重要的数据支撑，有利于医生进行现病诊疗。

3.1.5.1患者信息分类

根据具体需求，在医院已有业务系统之上，对患者的信息进行有效集成；并依据疾病的具体要求，对患者信息进行补充完善。并在此基础上，对患者信息进行人性化的、科学的分类及管理。如已就诊患者管理、将就诊患者管理、科研对象管理等等。

3.1.5.2全程诊疗视图

系统基于标准化临床数据中心，在前端面向用户提供患者历次就诊的360度全数据，包括每次就诊记录的主诉、现病史、各类检查、病程记录、出院记录、体征数据、费用等信息。同时系统提供统一的患者查询窗口，并且将患者历史就诊信息按时间轴的形式进行集中展现，以患者关键信息为主索引进行串联，医生可在一个视图里查看同一个患者的在院所有就诊信息，既有利于医生进行现病诊疗，又方便医生进行科研活动。

3.1.5.3业务系统集成

若现有电子病历不能满足临床科研数据采集要求，系统可进行数据采集；若需要对该患者开处方，医生直接点击his直接进入系统开处方。该业务系统集成的实现，需要对应业务系统配合完成单点登录功能的改造。

3.1.5.4患者历史指标比对基于患者360°全程诊疗视图，对于曾先后多次在医院就诊的患者，系统提供从患者主诉、现病史、各类检查、诊断、入院记录、出院记录、病程记录、体征数据、治疗、费用等多个维度对历次就诊信息比对情况。使医生可以很方便地查看到患者的病情变化情况和趋势，从而帮助医生更加快速和准确地进行疾病诊断。

3.1.5.5病历信息智能检索

系统提供全文本的患者病历信息检索功能。根据用户输入的单个或多个碎片化文本条件，在心血管内科标准化临床数据中心的大样本中，检索到符合碎片化条件的所有患者病历列表，列表显示患者病历信息摘要，点击具体的某一具体病历记录，可以查看到该患者该次就诊的病历详情。

3.1.5.6患者信息精准导航

系统提供类似症状患者定位功能。通过输入患者病症，在标准化临床数据中心的大样本信息中，快速比对查找出类似症状的患者，从而帮助医生精确定位到疾病原因、诊断治疗方案和路径，找到针对目标患者的最佳诊疗方案，达到对疾病和特定患者进行个性化精准治疗的目的。

系统具备人性化操作检索功能。基于用户的习惯、需求及术语标准，建立了分层级分类的关键词索引库，一方面支持多个条件灵活组合检索，另一方面用户可以便捷地进行拖拽式操作，实现目标信息快速检索。

3.2临床数据分析挖掘

3.2.1数据智能分析应用

3.2.1.1系统分析流程

基于标准化的科研数据中心，系统通过拖拽式的简单操作，使得用户可灵活方便地进行多维度数据查询，实现了各业务系统中数据的自动关联查询和导航。

该系统的分析流程为：先确定分析人群；然后确定分析指标；最后利用r语言分析工具，通过参数选择形成对应的分析结果。

3.2.1.2确定分析对象

通过对出院患者的人群进行有条件的筛选，可以分为多个不同的条件组，检索出院患者人群，并通对多组患者数据进行统计。

可选参数：首先参数为动态数据，通过数据库中的内容自动增加与删除(如：这个月新增加一个肝胆五科，这个之前是没有的，这个月新增加的，这个时候我们的系统自动更新可选参数据列表)

检索条件：可选参数需要满足或、与、非三大逻辑条件，由于考虑或、与的逻辑关系或者必须为一个条件组内，能满足判断条件大于、小于、等于、大于等于、小于等于的应用，包括时间参数的选择。

分组功能：功能界面默认会有一个筛选条件组通过单击筛选条件组标签栏上的按钮进行分组的添加与删除。

初步统计：通过参数检索出分组数据，对数据进行分组统计：如：图表、数据透视表，如果用户觉得这几组数据具有可分析性就单击下一步，进入“功能选择”界面。

3.2.1.3选择分析指标

分析指标的选择包括两种方式：其一是选择数据参数导出；其二是选择参数(数据)进行分析。分别说明如下：

选择数据参数导出：通过选择多组患者共有的数据(参数)进行数据导出。

选择参数(数据)进行分析：通过选择多组患者共有的数据(参数)及选择分析的算法进行分析。

3.2.1.4展示分析结果

系统提供可视化图形和定制式数据视图，满足用户对数据分析和展现的多变需求。目前平台支持相关性分析、单因素回归、多因素回归、t检验、方差分析、正态性检验、分参数检验等分析方法。

3.2.2个性化专题分析

3.2.2.1患者基本信息特征分布

3.2.2.2药品分析

系统可展示药品分析结果，页面内容定制服务，实现展现的多变需求。

3.2.2.3检验趋势分析

系统可展示检验趋势数据分析结果，页面内容定制服务，实现展现的多变需求，支持时间段自行查询。

3.2.2.4卫生经济学分析

系统可展示卫生经济学数据分析结果，页面内容定制服务，实现展现的多变需求。

3.2.3科研统计方法

本平台提供的常用的科研分析可根据客户需求添加维护，目前提供的分析方法有以下这几种：

3.2.3.1相关性分析

相关性分析是对两个或者多个具备相关性的变量元素进行分析，衡量两个变量因素的相关密切程度。

3.2.3.2单因素回归

单因素回归是分析单一因素在组间的差异，直接的观察到两组或多组之间均数或者率的分布差异。

3.2.3.3多因素回归

多因素回归是用于总变动受三个或者三个以上因素影响，每个因素的变化对总变动影响的方向和程度。

3.2.3.4t检验分析

用t分布理论来推论差异发生的概率，比较两个平均数的差异。

3.2.3.5方差分析

方差分析用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响，研究所得的数据呈现波动状。造成波动的原因可分成两类，一是不可控的随机因素，另一是研究中施加的对结果形成影响的可控因素。

3.2.3.6正态性检验

利用观测数据判断总体是否服从正态分布的检验称为正态性检验，它是统计判决中重要的一种特殊的拟合优度假设检验。

3.2.3.7非参数检验

非参数检验是在总体方差未知或知道甚少的情况下，利用样本数据对总体分布形态等进行推断的方法。

本实施例的优点在于：

1.临床数据标准化处理：与“瀚云中文医学本体系统”实时进行交互，经过疾病诊断数据模型标准化处理后，使得医疗数据得以充分利用。

2.临床数据结构化：利用瀚云独有的语义标准化转换组件，将非结构化信息转化成为结构化信息，让医生一目了然患者的所有情况，极大的提高了信息的可读性与合理性。

3.构建医院术语体系：在对业务数据集成的基础上，利用“瀚云中文医学本体系统”，制定完善的医院术语体系，构建强大的术语网络建立知识图谱。

4.患者全程诊疗视图：提供患者历次就诊的360度全数据，包括每次就诊记录的主诉、现病史、各类检查、病程记录、出院记录、体征数据、费用等信息。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这根据所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以通过执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以通过专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，例如，各所述单元可以是设置在计算机或移动智能设备中的软件程序，也可以是单独配置的硬件装置。其中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离本申请构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：夏威;郭明华;盛军;戴平金;张耀婷
技术所有人：长沙瀚云信息科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。