医疗数据标准化处理方法及装置与流程

文档序号：17335520发布日期：2019-04-05 22:26阅读：408来源：国知局

本公开涉及数据处理技术领域，具体涉及一种医疗数据标准化处理方法、一种医疗数据标准化处理装置、一种存储介质以及一种电子终端。

背景技术：

为满足各自医疗场景的复杂化、多样化以及个性化的需求，各医院均具有各自的医疗信息系统。不同医院、不同医疗信息系统在日常运行中积累的原始医疗数据也没有遵循一定的数据标准。随着医疗信息化的推进，对原始医疗数据进行共享、挖掘和处理能够更好的利用历史治疗经验。

但由于原始医疗数据的记录、生成格式等没有统一标准，使得在对大量的原始医疗数据进行分析、处理的过程中会面临很多的标准化问题，例如同类或相同语义的词汇用法不统一等。现有技术在进行医疗数据或医疗词汇的标准化处理时，主要采用人工的方式首先将数据库中需要做标注的字段进行提取，再逐一对其核对标准词，再将标准词上传数据库进行替换。工作效率较低，且容易出现人为误差。而随着时间的积累，数据的维度和量级的升级，在对原始医疗数据进行数据挖掘和研究时，对数据的维护成本也将呈指数级的增长。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现要素：

本公开的目的在于提供一种医疗数据标准化处理方法、一种医疗数据标准化处理装置、一种存储介质以及一种电子终端，进而解决现有技术中的医疗数据中术语使用不统一、不标准，以及以人工方式处理医疗数据标准化时的效率低、错误率高的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供一种医疗数据标准化处理方法，包括：

根据预设规则在原始医疗数据中提取待处理字段集合；其中，所述待处理字段集合包括多个待处理字段；

根据所述待处理字段集合创建标注任务以获取所述待处理字段对应的标准标注；

根据所述待处理字段和对应的标准标注对所述原始数据进行标注处理。

在本公开的一种示例性实施例中，所述根据预设规则在原始数据中提取待处理字段集合包括：

在所述原始医疗数据中提取待处理字段；

获取所述待处理字段的标识信息；

根据所述标识信息对所述待处理字段进行分类以获取待处理字段集合。

在本公开的一种示例性实施例中，在原始医疗数据中提取待处理字段后，所述方法还包括：

对所述待处理字段进行去重处理。

在本公开的一种示例性实施例中，所述根据所述待处理字段集合创建标注任务以获取所述待处理字段对应的标准标注包括：

将所述待处理字段集合保存至预设分布式数据库；

根据预设标注规则对所述待处理字段进行标注以获取所述待处理字段的标准标注，并建立所述待处理字段与所述标准标注的映射关系。

在本公开的一种示例性实施例中，在所述根据所述待处理字段集合创建标注任务后，所述方法还包括：

按预设规则在所述待处理字段集合中选取待处理样例；

根据预设标注规则对所述待处理样例进行标注以获取所述待处理样例的标准标注；

根据所述待处理样例的标准标注获取所述待处理字段与所述标准标注的映射关系。

在本公开的一种示例性实施例中，所述方法还包括：

将所述待处理字段与所述标准标注的映射关系保存至所述分布式数据库。

在本公开的一种示例性实施例中，所述根据所述待处理字段和对应的标准标注对所述原始数据进行标注处理包括：

利用机器学习算法对所述待处理字段与所述标准标注的映射关系进行训练以获取标注模型；

利用所述标注模型对所述原始医疗数据进行标注处理。

根据本公开的第二方面，提供一种医疗数据标准化处理装置，包括：

待处理数据生成模块，用于根据预设规则在原始医疗数据中提取待处理字段集合；其中，所述待处理字段集合包括多个待处理字段；

标准标注获取模块，用于根据所述待处理字段集合创建标注任务以获取所述待处理字段对应的标准标注；

标注模块，用于根据所述待处理字段和对应的标准标注对所述原始数据进行标注处理。

根据本公开的第三方面，提供一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述的医疗数据标准化处理方法。

根据本公开的第四方面，提供一种电子终端，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行以下操作：

根据预设规则在原始医疗数据中提取待处理字段集合；其中，所述待处理字段集合包括多个待处理字段；

根据所述待处理字段集合创建标注任务以获取所述待处理字段对应的标准标注；

根据所述待处理字段和对应的标准标注对所述原始数据进行标注处理。

本公开的实施例所提供的医疗数据标准化处理方法中，首先获取多个待处理字段集合，并根据待处理字段集合创建标注任务，并对待处理字段集合中的待处理字段进行准确的标注，从而能够获取准确的待处理字段与标准标注之间的对应关系，进而能够对原始医疗数据中所包含的字段进行准确的标注处理。进而有效的提高医疗数据标准化的效率和准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开示例性实施例中一种医疗数据标准化处理方法示意图；

图2示意性示出本公开示例性实施例中一种医疗数据标准化处理装置组成示意图；

图3示意性示出本公开示例性实施例中一种医疗数据标准化处理装置的另一种示意图；

图4示意性示出本公开示例性实施例中一种医疗数据标准化处理装置的再一种示意图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

本示例实施方式中首先提供了一种医疗数据标准化处理方法，可以应用于对来源不同的原始医疗数据的标准化处理。参考图1中所示，上述的医疗数据标准化处理方法可以包括以下步骤：

步骤s1，根据预设规则在原始医疗数据中提取待处理字段集合；其中，所述待处理字段集合包括多个待处理字段；

步骤s2，根据所述待处理字段集合创建标注任务以获取所述待处理字段对应的标准标注；

步骤s3，根据所述待处理字段和对应的标准标注对所述原始数据进行标注处理。

本示例实施方式所提供的疾病评价及患病风险评估方法中，可以首先获取多个待处理字段集合，并根据待处理字段集合创建标注任务，并对待处理字段集合中的待处理字段进行准确的标注，从而能够获取准确的待处理字段与标准标注之间的对应关系，进而能够对原始数据中所包含的字段进行准确的标注处理。进而有效的提高医疗数据标准化的效率和准确率。

下面，将结合附图及实施例对本示例实施方式中的医疗数据标准化处理方法中各个步骤进行更详细的说明。

步骤s1，根据预设规则在原始医疗数据中提取待处理字段集合；其中，所述待处理字段集合包括多个待处理字段。

本示例实施方式中，上述步骤s1具体可以包括：

步骤s11，在所述原始医疗数据中提取待处理字段；

步骤s12，获取所述待处理字段的标识信息；

步骤s13，根据所述标识信息对所述待处理字段进行分类以获取待处理字段集合。

在对原始医疗数据进行标准化处理时，首先可以选取出原始医疗数据中需要进行标准化处理的非标准字段并作为待处理字段。例如：诊断措施名称、手术名称或药品名称以及科室名称等。在获取该些待处理字段后，便可以根据待处理字段的对应的分类信息对全部的待处理字段进行分类，从而获取多个待处理字段的标识。例如：“糖尿病二型”、“二型糖尿病”为疾病类型；“呼吸科”、“呼吸内科”、“呼吸1区”则为行政信息或科室。

对于上述的原始医疗数据，可以是来源于多个不同数据源或多个医疗信息系统的在日常运行中积累的医疗数据。具体来说，该原始医疗数据可以包括患者的个人信息、诊断信息、住院信息、费用信息以及医院或部门、单位的行政信息等等。举例而言，行政信息可以医院的科室划分、科室名称、岗位名称、职责内容等等，本公开对此不作特殊限定。

此外，在本公开的其他示例性实施例中，在原始医疗数据中提取待处理字段后，或者在获取待处理字段集合后，还可以对待处理字段进行去重处理。例如，将来自不同医疗信息系统的多个相同名称进行合并。从而减少后期数据处理的数量，有利于提高工作效率。

步骤s2，根据所述待处理字段集合创建标注任务以获取所述待处理字段对应的标准标注。

本示例实施方式中，上述的步骤s2可以包括：

步骤s211，将所述待处理字段集合保存至预设分布式数据库。

步骤s212，根据预设标注规则对所述待处理字段进行标注以获取所述待处理字段的标准标注，并建立所述待处理字段与所述标准标注的映射关系。

对于待处理字段集合，可以将来自不同数据库中异构数据导入统一的分布式数据库中。其中，上述的分布式数据库可以采用例如：hadoop系统或hbase系统等。并可以根据待处理字段集合创建一个或多个标注任务，从而对一个或多个待处理字段集合中的待处理字段进行标准化标注。此外，还可以提供一业务平台，便于根据待处理字段集合生成标注任务，以及对标注任务分配指定的用户。

对于上述的标准化标注，可以根据字段所属的不同的类别使用相关的标准进行医疗标准词汇的标注，并建立非标准词汇与标准词汇间的映射关系，并以固定的格式进行保存。例如，(病房)颈部血管超声科对应的标准字段可以为超声诊断专业；blk-病理科、blkmz-病理科门诊对应的标准字段可以为病理科；产科二胎门诊对应的标准字段可以为产科专业等。此外，对于具体的使用标准，可以采用例如：icd10或mesh标准等，或者自定义标准字段，本公开对此不作特殊限定。

另外，在本公开的其他示例性实施例中，在根据所述待处理字段集合创建标注任务后，还可以对待处理字段集合进行采样。具体来说，上述的步骤s2还可以包括：

步骤s221，按预设规则在所述待处理字段集合中选取待处理样例；

步骤s222，根据预设标注规则对所述待处理样例进行标注以获取所述待处理样例的标准标注；

步骤s223，根据所述待处理样例的标准标注获取所述待处理字段与所述标准标注的映射关系。

举例而言，可以对待处理字段集合中的字段进行语义分析，并确定语义相同的多个非标准字段，从而对多个表示相同语义的待处理字段进行分组。在获取该待处理样例对应的标准标注后，便可以获取本组中各带处理字段的标准标注。例如，“糖尿病二型”、“二型糖尿病”为语义相同的两个字段，便可以随机选取一个字段作为待处理样例。对应该组中两个字段的标准标注为“2型糖尿病”。通过对待处理字段集合选取待处理样例，并建立标准标注、待处理样例字段与待处理字段组的对应关系，可以有效的减少进行逐一标注的待处理字段的数据量，进而有效提高标准化效率。

在获取待处理字段与所述标准标注的映射关系后，还可以将该映射关系保存至上述的分布式数据库中。在将非标准词与标准词间的映射关系以文件的形式通过任务调度系统发送回分布式数据库后，还可以通过大数据计算引擎将该标注结果分发到分布式数据库的各个节点，例如利用如spark引擎；然后对各个节点上需要做标准化处理的数据以该标注结果为依据做对应字段上数据的替换，实现标准化处理。

步骤s3，根据所述待处理字段和对应的标准标注对所述原始数据进行标注处理。

本示例实施方式中，具体来说，上述的步骤s3可以包括：

步骤s31，利用机器学习算法对所述待处理字段与所述标准标注的映射关系进行训练以获取标注模型；

步骤s32，利用所述标注模型对所述原始医疗数据进行标注处理。

在获取部分非标准的待处理字段与对应的标准标注的关系后，便可以利用其作为样本数据，并利用机器学习算法进行训练以获取标注模型。例如，利用支持向量机算法、多项式朴素贝叶斯算法、多层感知机算法、随机森林算法或k-最近邻算法等模型训练标注模型。

此外，还可以将该标注模型在上述的业务平台上运行，从而可以对全部的原始医疗数据进行标注。另外，当存在新的标注任务后，便可以利用上述的标注模型对待处理字段进行标注处理。另外，在利用标注模型进行标注处理后，还可以利用人工的方式进行复核，并将复核结果反馈至该标注模型，以此来矫正模型的误差，从而提升该标注模型的准确率。

需要注意的是，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

进一步的，参考图2所示，本示例的实施方式中还提供了一种医疗数据标准化处理装置20，包括：待处理数据生成模块201、标准标注获取模块202以及标注模块203。其中：

所述待处理数据生成模块201可以用于根据预设规则在原始医疗数据中提取待处理字段集合；其中，所述待处理字段集合包括多个待处理字段。

所述标准标注获取模块202可以用于根据所述待处理字段集合创建标注任务以获取所述待处理字段对应的标准标注。

所述标注模块203可以用于根据所述待处理字段和对应的标准标注对所述原始数据进行标注处理。

上述的医疗数据标准化处理装置中各模块的具体细节已经在对应的医疗数据标准化处理方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图3来描述根据本发明的这种实施方式的电子设备600。图3显示的电子设备600仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图3所示，电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于：上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元610执行，使得所述处理单元610执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如，所述处理单元610可以执行如图1中所示的s1：根据预设规则在原始医疗数据中提取待处理字段集合；其中，所述待处理字段集合包括多个待处理字段；s2：根据所述待处理字段集合创建标注任务以获取所述待处理字段对应的标准标注；s3：根据所述待处理字段和对应的标准标注对所述原始数据进行标注处理。

存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(ram)6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元(rom)6203。

存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备600交互的设备通信，和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口650进行。并且，电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器660通过总线630与电子设备600的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是cd-rom，u盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。

参考图4所示，描述了根据本发明的实施方式的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(lan)或广域网(wan)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：晏宇明;张华明
技术所有人：金色熊猫有限公司
我是此专利的发明人

上一篇：背光单元以及包括该背光单元的液晶显示装置的制作方法
上一篇：一种新型煤矿采掘设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。