文本数据处理方法、装置、电子设备及计算机可读介质与流程

文档序号:16784909发布日期:2019-02-01 19:21阅读:320来源:国知局
文本数据处理方法、装置、电子设备及计算机可读介质与流程

本公开涉及计算机信息处理领域,具体而言,涉及一种文本数据处理方法、装置、电子设备及计算机可读介质。



背景技术:

电子病历记录了海量真实而丰富的临床数据,是临床医生长期实践和经验的总结,可用于支持临床辅助决策、流行病学统计、临床科研和药物研发等。然而电子病历中存在大量基于自然语言的非结构化文本,这部分数据要能被计算机利用和理解应用,需要基于临床自然语言处理进行结构化信息抽取。另一方面,不同医院、不同学科、不同医生对于病历和临床术语的记录,在表达方式和书写习惯上也会有不同,给病历信息抽取带来挑战。

现有技术中,电子病历的结构化信息抽取主要涉及医学命名实体识别和实体关系识别两个重要方面,现有的关系识别方法主要是基于规则或者基于机器学习关系分类获取二元语义关系(三元组)输出结构化结果。现有技术中的关系识别方法在实际应用过程中存在较多问题,比如较难快速适配跨院数据,词汇关系冲突、关系分层组合不准确等。

现有技术中“基于本体技术的结构化电子病历生成方法(申请号:201210544345.4)”关注基于本体对病历关键词进行层次化遍历,展开父类属性、等同关键词等形成词语组合,构建病历特征索引,进而该索引对病历进行过滤查询。该发明解决的是基于本体对病历关键词进行扩展和构建索引问题,不涉及对病历具体内容的后结构抽取。

现有技术中“一种电子病历文本结构化方法(申请号:201610405133.6)”主要基于医学专业词库,进行正向最大匹配分词后,判断短句中是否存在否定表达,决定是否输出疾病信息单元;然后再根据医学同义词词库合并信息元素的不同表达,以结构体/类的形式存储,完成结构化。该发明只简单对短句中是否有否定性修饰词且不存在否定性医学专业术语,决定输出与否。该发明无法解决结构化中同一短句中否定词具体作用对象问题,同时也不涉及不同实体能否搭配组合的结构化抽取和表示问题。

现有技术中“面向智能临床辅助决策支持系统的知识库构建方法与系统(申请号:201610658768.7)”基于临床病历和临床路径知识,为智能临床辅助决策构建知识库。该发明提出通过关系语义规则,获取实体关系三元组,并根据设置扩展三元组完成知识库构建,是的知识库中的知识课快速查询、检索、匹配、推荐,提高计算效率,并可以灵活实现适配临床实例和特征复杂情况。

现有技术中“基于深度学习及分布式语义特征医学信息抽取系统及方法(申请号:201610176409.8)”采用的是基于语言模型训练词向量,结合医学知识库和深度学习方法识别命名实体,该发明涉及的是命名实体识别问题,与本发明着重解决实体关系和结构化表示输出问题不同。

现有技术中“中文电子病历症状语义提取方法及其系统(申请号:201710610138.7)”通过对病历文本分词,引入医学术语库对医学名词分类,并标注关联名词释义、相关词汇,其目标是对病历文本中出现的不同术语关联知识库内容,比如临床医学术语标准或者医学主题词表等,其中关联算法采用监督学习算法训练模型。

现有的关系识别方法主要是基于规则或者基于机器学习关系分类获取二元语义关系(三元组)输出结构化结果。然而,现有基于规则的方法主要基于人工经验总结,没有较好的结合机器挖掘的优势;基于机器学习的关系分类依赖较多人工标注数据,同时数据分布的差异使其较难快速适配跨院数据;最后,现有基于规则/机器学习的关系识别停留在二元关系分类的基础上,在实际应用过程中存在较多问题,比如关系冲突、关系分层组合等。

因此,需要一种新的文本数据处理方法、装置、电子设备及计算机可读介质。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。



技术实现要素:

有鉴于此,本公开提供一种文本数据处理方法、装置、电子设备及计算机可读介质,能够将电子病历中的非结构化文本数据准确高效的转化为能够被计算机利用和理解的非结构化数据,提升医疗数据处理效率。

本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

根据本公开的一方面,提出一种文本数据处理方法,该方法包括:对文本数据进行预处理,生成多个文本单元,所述文本数据为非结构化数据;根据预定词典与集合对所述文本数据进行处理提取实体词,类型词,以及表达式;根据所述多个文本单元与所述实体词,类型词,以及表达式,生成文本序列集合;以及基于所述文本序列集合进行模式匹配与拆解,生成结构化数据结果。

在本公开的一种示例性实施例中,还包括:通过预定数据集合对所述结构化数据进行验证,以获取输出数据结果,所述预定数据集合包括多原子模式集合。

在本公开的一种示例性实施例中,对文本数据进行预处理,生成多个文本单元包括:对所述文本数据进行统一编码处理;剔除所述文本数据中的特殊字符;以及对所述文本数据按照预定规则进行切分以生成所述多个文本单元。

在本公开的一种示例性实施例中,根据预定词典与集合对所述文本数据进行处理提取实体词,类型词,以及表达式包括:根据预定词典与集合对所述文本数据进行单词切分;对单词切分之后生成的词语进行词性标注和词类标注;以及根据词性标注和词类标注结果由所述文本数据中提取实体词,类型词,以及表达式。

在本公开的一种示例性实施例中,根据所述多个文本单元与所述实体词,类型词,以及表达式,生成文本序列集合包括:根据所述多个文本单元与所述实体词,类型词,以及表达式将所述文本数据替换为类型标签序列;对所述类型标签序列进行统计分组处理;以及对统计分组处理后的类型标签序列进行排序生成文本序列集合。

在本公开的一种示例性实施例中,基于所述文本序列集合进行模式匹配与拆解,生成结构化数据结果包括:基于所述文本序列集合通过多原子模式筛选进行模式匹配与拆解;以及将模式匹配与拆解后的关系组合作为所述结构化数据。

在本公开的一种示例性实施例中,通过预定数据集合对所述结构化数据进行验证,以获取输出数据结果包括:通过预定数据集合对所述结构化数据进行遍历验证;以及提出不满足预定规则的数据以获取输出数据结果。

根据本公开的一方面,提出一种文本数据处理装置,该装置包括:预处理模块,用于对文本数据进行预处理,生成多个文本单元,所述文本数据为非结构化数据;词汇提取模块,用于根据预定词典与集合对所述文本数据进行处理提取实体词,类型词,以及表达式;序列处理模块,用于根据所述多个文本单元与所述实体词,类型词,以及表达式,生成文本序列集合;以及结果模块,用于基于所述文本序列集合进行模式匹配与拆解,生成结构化数据结果。

根据本公开的一方面,提出一种电子设备,该电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上文的方法。

根据本公开的一方面,提出一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上文中的方法。

根据本公开的文本数据处理方法、装置、电子设备及计算机可读介质,通过将病历中的数据根据预定集合进行单词拆分,计算机辅助标注生成标注数据集合,继而根据单词拆分结果与标注集合将文本数据进行结构化处理,生成结构化数据的方式,能够将电子病历中的非结构化文本数据准确高效的转化为能够被计算机利用和理解的非结构化数据,提升医疗数据处理效率。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。

附图说明

通过参照附图详细描述其示例实施例,本公开的上述和其它目标、特征及优点将变得更加显而易见。下面描述的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种文本数据处理方法及装置的系统框图。

图2是根据一示例性实施例示出的一种文本数据处理方法的流程图。

图3是根据另一示例性实施例示出的一种文本数据处理方法的流程图。

图4是根据另一示例性实施例示出的一种文本数据处理方法的示意图。

图5是根据一示例性实施例示出的一种文本数据处理装置的框图。

图6是根据一示例性实施例示出的一种电子设备的框图。

图7是根据一示例性实施例示出一种计算机可读存储介质示意图。

具体实施方式

现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本公开将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。

此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。

应理解,虽然本文中可能使用术语第一、第二、第三等来描述各种组件,但这些组件不应受这些术语限制。这些术语乃用以区分一组件与另一组件。因此,下文论述的第一组件可称为第二组件而不偏离本公开概念的教示。如本文中所使用,术语“及/或”包括相关联的列出项目中的任一个及一或多者的所有组合。

本领域技术人员可以理解,附图只是示例实施例的示意图,附图中的模块或流程并不一定是实施本公开所必须的,因此不能用于限制本公开的保护范围。

本申请的发明人发现,电子病历的结构化信息抽取主要涉及医学命名实体识别和实体关系识别两个重要方面:

基于以上的原因,本申请的发明人提出了一种文本数据处理方法、及装置,本申请的文本数据处理方法重点解决实体关系识别这一问题,针对电子病历系统模板化、记录人员文本表达模式化的特点,从语言表达模式、线下知识挖掘和验证两个层面,来实现电子病历信息的结构化提取。本申请的文本数据处理方法能保障抽取结果的合理性和正确性,避免召回错误和恶劣的结果,极大地提升了最终的结构化效果。

其中,临床病历中涉及的实体主要是临床术语,包括疾病名称、解剖部位、操作/手术、症状、药品、耗材、化疗方案等

图1是根据一示例性实施例示出的一种文本数据处理方法、装置、电子设备及计算机可读介质的系统框图。

如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的医务类网站提供数据支持的后台管理服务器。后台管理服务器可以对接收到的医疗信息查询分析等请求等数据进行处理,并将处理结果(例如病例数据分析数据、流行病学统计数据)反馈给终端设备。

服务器105可例如对文本数据进行预处理,生成多个文本单元,所述文本数据为包含非结构化数据的病历数据;服务器105可例如根据预定词典与集合对所述文本数据进行处理提取实体词,类型词,以及表达式;服务器105可例如根据所述多个文本单元与所述实体词,类型词,以及表达式,生成文本序列集合;服务器105可例如基于所述文本序列集合进行模式匹配与拆解,生成结构化数据结果。

服务器105还可例如通过预定数据集合对所述结构化数据进行验证,以获取输出数据结果,所述预定数据集合包括多原子模式集合。

需要说明的是,本公开实施例所提供的文本数据处理方法可以由服务器105执行,相应地,文本数据处理装置可以设置于服务器105中。而提供给用户进行医疗数据查看的网页端一般位于终端设备101、102、103中。

图2是根据一示例性实施例示出的一种文本数据处理方法的流程图。文本数据处理方法20至少包括步骤s202至s208。

如图2所示,在s202中,对文本数据进行预处理,生成多个文本单元,所述文本数据为非结构化数据。可例如包括:对所述文本数据进行统一编码处理;剔除所述文本数据中的特殊字符;以及对所述文本数据按照预定规则进行切分以生成所述多个文本单元。

在一个实施例中,可例如对文本数据进行字符编码处理,统一整理为unicode编码数据。

在一个实施例中,可例如,对于全角字符、非法字符、不可见字符等进行清理和替换,对于序列符号统一替换。

在一个实施例中,可例如按照段落、句子、子句层级切分和组织文本以生成所述多个文本单元。

在s204中,根据预定词典与集合对所述文本数据进行处理提取实体词,类型词,以及表达式。包括:根据预定词典与集合对所述文本数据进行单词切分;对单词切分之后生成的词语进行词性标注和词类标注;以及根据词性标注和词类标注结果由所述文本数据中提取实体词,类型词,以及表达式。

在一个实施例中,预定词典可例如为实体词词典、类型词词典,预定集合可例如为表达式集合。具体可例如为来源文本和结构化目标所依赖实体词、类型词词典和表达式集合。其中实体词主要包括疾病名称、解剖部位、症状、形态学、操作与手术、药品等,类型词主要包括话术词、逻辑词、修饰词等,表达式主要包括时间表达式、数值表达式等。

在一个实施例中,当前待分析的病历数据可例如为口腔医学相关病历,则预定实体词词典可例如为口腔医学词典,预定类型词词典可例如为口腔医学相关修饰词,预定集合可例如为常见口腔医学数值表达式。

在一个实施例中,通过自定义词典对文本进行切分、词性和词类标注。自定义词典可例如为医学相关术语词典,自定义词典还可例如为实体词词典或类型词词典等,本申请不以此为限。

在一个实施例中,复杂实体词汇可例如通过训练的序列标注模型进行实体识别。序列标注模型可例如通过原子模式集合训练生成,训练标注模型的过程将在图3及其实施例中具体描述。

在s206中,根据所述多个文本单元与所述实体词,类型词,以及表达式,生成文本序列集合。包括:根据所述多个文本单元与所述实体词,类型词,以及表达式将所述文本数据替换为类型标签序列;对所述类型标签序列进行统计分组处理;以及对统计分组处理后的类型标签序列进行排序生成文本序列集合。

在一个实施例中,基于s202切分的文本单元,根据s204输出的实体、类型、表达式,把文本数据中的内容替换为类型标签序列。处理后的数据如表1所示。

在一个实施例中,将文本数据中的类型标签序列进行统计和模板分组,统计过程中需要对并列关系进行合并与约简,最后考虑频繁程度和模板复杂度倒序排列,生成文本序列集合。

在s208中,基于所述文本序列集合进行模式匹配与拆解,生成结构化数据结果。包括:基于所述文本序列集合通过多原子模式筛选进行模式匹配与拆解;以及将模式匹配与拆解后的关系组合作为所述结构化数据。

在一个实施例中,可例如基于机器辅助的人工多元原子模式筛选:对于头部简洁和高频模板,人工交互选取无歧义的完整多元表达模式,作为多元原子模式,同时机器对模式的统计信息、重复冲突进行检测和展示。

其中,原子模式即最基本的不可再分的模式,这些模式可以独立存在。原子模式有助于识别数据如何是被使用、处理、存储和访问的。在本申请中,原子模式可例如为多元表达式中的一个,多原子模式可例如为多元表达式,多元表达式反映了数据相互依赖的多种关系可能,能够解决目前关系分析中的关系冲突和分层组合问题。

在一个实施例中,可例如基于人工的原子模式结构化输出结果映射:不考虑临床知识的实例约束,仅从字面和表达模式层面,人工确定里面原子模式所涉及多个实体的所有关系组合,对应的结构化输出候选。

其中,主诉多元原子模式样例如下:

(异常症状)(病程时间)9385

(身体结构)(异常症状)4807

(行为功能)(异常症状)2082

(身体结构)(功能行为)1586

(身体结构)(异常症状)(病程时间)971

(行为功能)(异常症状)(病程时间)852

(身体结构)(功能行为)(异常症状)(病程时间)698

(身体结构)(异常症状)伴(功能行为)(异常症状)(病程时间)362

(身体结构)(异常症状)(病程时间),(异常症状)(病程时间)217

在一个实施例中,以输入“双小腿疼痛1月余,肿胀10余天”,以及输入“胸部疼痛1月余,乏力10余天”;原子模式(身体结构@1)(异常症状@2)(病程时间@3),(异常症状@4)(病程时间@5)为例,确定的结构化输出结果候选如下:

(身体结构@1)(异常症状@2)(病程时间@3)

(身体结构@1)(异常症状@4)(病程时间@5)

最终输出的结构化数据为:

[双小腿-疼痛-1月余,双小腿-肿胀-10余天]

[胸部-疼痛-1月余,胸部-乏力-10余天]

根据本公开的文本数据处理方法,通过将病历中的数据根据预定集合进行单词拆分,计算机辅助标注生成标注数据集合,继而根据单词拆分结果与标注集合将文本数据进行结构化处理,生成结构化数据的方式,能够将电子病历中的非结构化文本数据准确高效的转化为能够被计算机利用和理解的非结构化数据,提升医疗数据处理效率。

本公开的文本数据处理方法针对电子病历系统模板化、记录人员文本表达模式化的特点,采用机器模板挖掘和人工交互的方式快速分析提取关系模板,充分发挥机器大规模数据阅读分析和人工小样本学习与知识总结的不同优势;

对于关系的关联分析,本发明从传统的二元关系分析,改进为基于多元原子模式的多元关系识别,能较好地解决关系冲突和分层组合问题;

对于复杂关系表达模式,基于原子模式进行动态拆解和组合实现结构化输出,解决了复杂关系表达模式的识别问题;

最后,从语言和逻辑模式层面无法区分识别的关系,引入上层知识约束、以及基于海量病历和专业文本挖掘的实体关联知识库(挖掘实例及预测实例)辅助进行判别。

应清楚地理解,本公开描述了如何形成和使用特定示例,但本公开的原理不限于这些示例的任何细节。相反,基于本公开公开的内容的教导,这些原理能够应用于许多其它实施例。

在本公开的一种示例性实施例中,还包括:通过预定数据集合对所述结构化数据进行验证,以获取输出数据结果,所述预定数据集合包括多原子模式集合。

以前述两个输入实例“双小腿疼痛1月余,肿胀10余天”,以及输入“胸部疼痛1月余,乏力10余天”为例,其匹配后的候选输出分别为:

[双小腿-疼痛-1月余,双小腿-肿胀-10余天]

[胸部-疼痛-1月余,胸部-乏力-10余天]

通过线下挖掘乏力可搭配的身体部位(简洁的可以根据紧邻、共现等统计挖掘方法,也可以采用更深入的挖掘学习方法,本申请不以此为限),可以得到对应的验证分值:

四肢-乏力0.83

手脚-乏力0.77

胸部-乏力0.03

按阈值过滤后,对于以上2个样例,系统最终输出最优结果为:

[双小腿-疼痛-1月余,双小腿-肿胀-10余天]

[胸部-疼痛-1月余,乏力-10余天]

图3是根据另一示例性实施例示出的一种文本数据处理方法的流程图。图3示例性的说明了“对历史病例数据生成的所述结构化数据进行遍历拆解;以及根据拆解结果生成预定数据集合”的相关步骤。

在s302中,病历文本预处理。可例如包括:对所述病历文本数据进行统一编码处理;剔除所述文本数据中的特殊字符;以及对所述文本数据按照预定规则进行切分以生成所述多个文本单元。

在s304中,实体词、类型词与表达式识别。根据预定词典与集合对所述文本数据进行单词切分;对单词切分之后生成的词语进行词性标注和词类标注;以及根据词性标注和词类标注结果由所述文本数据中提取实体词,类型词,以及表达式。

在s306中,文本序列模式统计挖掘。根据所述多个文本单元与所述实体词,类型词,以及表达式将所述文本数据替换为类型标签序列;对所述类型标签序列进行统计分组处理;以及对统计分组处理后的类型标签序列进行排序生成文本序列集合。

在s308中,多元原子模式分析和提取。基于所述文本序列集合通过多原子模式筛选进行模式匹配与拆解;以及将模式匹配与拆解后的关系组合作为所述结构化数据。

在s310中,复杂模式动态分析和挖掘。

在s3102中,复杂模式遍历拆解;利用历史病历数据产生的原子模式集合,以及常见并列、否定逻辑表达模式,对复杂模式遍历进行拆解;

在s3104中,如果复杂模式拆解成功,则保留拆解结果,退出该条处理,转步骤s3102,否则转步骤s3106;

在s3106中,增量词类和原子模式挖掘与更新;人工交互分析该模式无法拆解原因,如果有为归类词,则添加实体和类型词典;如果存在新的多元原子模式,则增加和更新原子模式集合(注:词典和规则的条件也可预处理后批量处理)

在s3108中,结束遍历,更新原子模式集合,直至所有复杂模式拆解成功,或者满足终止迭代条件退出。

以输入“左颈肿物、疼痛1年余,左侧头痛、面部麻木伴抽搐两月余”为例,其序列模式为:

(身体结构@1)(异常症状@2)、(异常症状@3)(病程时间@4),(身体结构@5)(异常症状@6)、(身体结构@7)(异常症状@8)伴(异常症状@9)(病程时间@10)

可拆分子模式为:

1.(身体结构@1)(异常症状@2)、(异常症状@3)(病程时间@4)=>(身体结构@1){异常症状}(病程时间@4)=>@1-@2-@4,@1-@3-@4;

2.(身体结构@5)(异常症状@6)(病程时间@10)=>@5-@6-@10;

3.(身体结构@7)(异常症状@8)伴(异常症状@9)(病程时间@10)=>@7-@9-@10,@8-@9-@10;

将获取的新的可拆分子模式更新进更新原子模式集合作为预定数据集合,以便后续病例处理时使用新的集合进行验证。

图4是根据另一示例性实施例示出的一种文本数据处理方法的示意图。如图4所示,本申请中的文本数据处理方法可例如包括线下挖掘分析和线上计算抽取两个方面。

其中线下挖掘分析包括:病历文本预处理、实体词、类型词与表达式识别、文本序列模式统计挖掘、多元原子模式分析和提取、以及复杂模式动态分析和挖掘。

其中线上计算包括:病历文本预处理、实体词、类型词与表达式识别、文本序列模式统计挖掘、模式动态匹配和拆解,输出候选结构化结果:根据上文生成的多元原子模式,以及对应人工确认的输出组合结果,对样本实例的表达模式,进行动态匹配和候选输出;以及候选结果验证:根据线下挖掘的可关联实例组合知识库,对p4的候选输出结果进行验证,保留满足验证条件的结果。

本申请中的文本数据处理方法,能够记录人员文本表达模式化的特点,从语言表达模式、线下知识挖掘和验证两个层面,来实现电子病历信息的结构化提取。

本申请中的文本数据处理方法,采用机器模板挖掘和人工交互的方式快速分析提取关系模板,充分发挥机器大规模数据阅读分析和人工小样本学习与知识总结的不同优势;

本申请中的文本数据处理方法,对于关系的关联分析,从传统的二元关系分析,改进为基于多元原子模式的多元关系识别,能较好地解决关系冲突和分层组合问题;对

本申请中的文本数据处理方法,对于复杂关系表达模式,基于原子模式进行动态拆解和组合实现结构化输出,解决了复杂关系表达模式的识别问题;

本申请中的文本数据处理方法,引入上层知识约束、以及基于海量病历和专业文本挖掘的实体关联知识库(挖掘实例及预测实例)辅助进行判别,能保障抽取结果的合理性和正确性,避免召回错误和恶劣的结果,极大地提升了最终的结构化效果。

本领域技术人员可以理解实现上述实施例的全部或部分步骤被实现为由cpu执行的计算机程序。在该计算机程序被cpu执行时,执行本公开提供的上述方法所限定的上述功能。所述的程序可以存储于一种计算机可读存储介质中,该存储介质可以是只读存储器,磁盘或光盘等。

此外,需要注意的是,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。

下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。

图5是根据一示例性实施例示出的一种文本数据处理装置的框图。文本数据处理装置50包括:预处理模块502,词汇提取模块504,序列处理模块506,以及结果模块508。

预处理模块502用于对文本数据进行预处理,生成多个文本单元,所述文本数据为非结构化数据。

词汇提取模块504用于根据预定词典与集合对所述文本数据进行处理提取实体词,类型词,以及表达式。

序列处理模块506用于根据所述多个文本单元与所述实体词,类型词,以及表达式,生成文本序列集合。

结果模块508用于基于所述文本序列集合进行模式匹配与拆解,生成结构化数据结果。

根据本公开的文本数据处理装置,通过将病历中的数据根据预定集合进行单词拆分,计算机辅助标注生成标注数据集合,继而根据单词拆分结果与标注集合将文本数据进行结构化处理,生成结构化数据的方式,能够将电子病历中的非结构化文本数据准确高效的转化为能够被计算机利用和理解的非结构化数据,提升医疗数据处理效率。

图6是根据一示例性实施例示出的一种电子设备的框图。

下面参照图6来描述根据本公开的这种实施方式的电子设备200。图6显示的电子设备200仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图6所示,电子设备200以通用计算设备的形式表现。电子设备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。

其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元210执行,使得所述处理单元210执行本说明书上述电子处方流转处理方法部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元210可以执行如图2,图3中所示的步骤。

所述存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(rom)2203。

所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备300(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备200交互的设备通信,和/或与使得该电子设备200能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口250进行。并且,电子设备200还可以通过网络适配器260与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述方法。

图7示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。

参考图7所示,描述了根据本公开的实施方式的用于实现上述方法的程序产品400,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该计算机可读介质实现如下功能::对文本数据进行预处理,生成多个文本单元,所述本文数据为非结构化数据;根据预定词典与集合对所述文本数据进行处理提取实体词,类型词,以及表达式;根据所述多个文本单元与所述实体词,类型词,以及表达式,生成文本序列集合;以及基于所述文本序列集合进行模式匹配与拆解,生成结构化数据结果。

本领域技术人员可以理解上述各模块可以按照实施例的描述分布于装置中,也可以进行相应变化唯一不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。

通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施例的方法。

通过以上的详细描述,本领域的技术人员易于理解,本公开针对电子病历系统模板化、记录人员文本表达模式化的特点,从语言表达模式、线下知识挖掘和验证两个层面,来实现电子病历信息的结构化提取。根据本公开实施例的文本数据处理方法、装置、电子设备及计算机可读介质具有以下优点中的一个或多个。

1.人机交互优势互补:采用机器模板挖掘和人工交互的方式快速分析提取关系模板,充分发挥机器大规模数据阅读分析和人工小样本学习与知识总结的不同优势;

2.从二元关系识别到多元关系识别:对于关系的关联分析,本发明从传统的二元关系分析,改进为基于多元原子模式的多元关系识别,能较好地解决关系冲突和分层组合问题;对

3.支持模板的动态匹配和计算:对于复杂关系表达模式,本发明基于原子模式进行动态拆解和组合实现结构化输出,解决了复杂关系表达模式的识别问题;

4.引入临床知识挖掘和验证:最后,从语言和逻辑模式层面无法区分识别的关系,引入上层知识约束、以及基于海量病历和专业文本挖掘的实体关联知识库(挖掘实例及预测实例)辅助进行判别,能保障抽取结果的合理性和正确性,避免召回错误和恶劣的结果,极大地提升了最终的结构化效果。

以上具体地示出和描述了本公开的示例性实施例。应可理解的是,本公开不限于这里描述的详细结构、设置方式或实现方法;相反,本公开意图涵盖包含在所附权利要求的精神和范围内的各种修改和等效设置。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1