一种文本处理方法及装置与流程

文档序号:14677021发布日期:2018-06-12 21:38阅读:185来源:国知局
一种文本处理方法及装置与流程
本申请涉及大数据领域,尤其涉及一种文本处理方法及装置。
背景技术
:电子病历(ElectronicMedicalRecord,简称EMR)也叫计算机化的病案系统或称基于计算机的病人记录。它是用电子设备(计算机、健康卡等)保存、管理、传输和重现的数字化的病人的医疗记录,取代手写纸张病历。它的内容包括纸张病历的所有信息,例如主诉、现病史、既往史、个人史、婚育史和家族史等。由于电子病历是最重要的医疗数据,有很多分析和应用都是建立在电子病历基础上的,例如根据电子病历对疾病及其相关信息进行检索,所以从电子病历的病历文本中获取疾病及其相关信息是非常关键的。疾病相关信息是对疾病进行诊断和治疗过程中所涉及到的医疗信息,例如疾病的症状、所采用的手术和药品、所进行的检查和检验等,疾病相关信息。现有技术基于支持度和置信度来获取上述信息。具体为,假设某个疾病和其某个或某些疾病相关信息是具有映射关系的,那么该映射关系的支持度为同时包含该疾病和该疾病相关信息的病历数量与所有病历数量之间的比值,该映射关系的置信度为同时包含该疾病和该疾病相关信息的病历数量与包含该疾病的病历数量之间的比值。通过设定支持度阈值和置信度阈值,并判断计算得到的上述映射关系的支持度是否大于或等于该支持度阈值,且其置信度是否大于或等于置信度阈值,如果是,那么认为该疾病和该疾病相关信息之间的映射关系是成立的,从而可以从病历文本中提取出该疾病和该疾病相关信息。然而,当病历文本中多个疾病和多个疾病相关信息同时出现的概率较大时,由于这些疾病和疾病相关信息之间映射关系的支持度和置信度都相同,因而无法区分出哪些疾病和哪些疾病相关信息是真正相对应的。所以,基于支持度和置信度从病历文本中获取疾病和疾病相关信息的方法并不准确。技术实现要素:为了解决现有技术基于支持度和置信度从病历文本中获取疾病和疾病相关信息的方法并不准确的问题,本申请提供了一种文本处理方法及装置,以实现可以从病历文本中,准确地获取到疾病与其对应的疾病相关信息,进而可以实现对病历文本进行有效地分析、处理。第一方面,本申请提供了一种文本处理方法,预先通过统计获取疾病和疾病相关信息之间的映射关系;所述方法包括:获取病历文本,所述病历文本中包括多个语句;按照标点符号和/或所述语句中标注的疾病标志,对所述多个语句进行划分,得到多组待处理子句;根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,得到多组归类子句,其中,一组归类子句对应一种疾病,不同组归类子句对应的疾病不同。可选的,若对所述多组待处理子句进行拆分,则所述根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,包括:对所述多组待处理子句中的每组待处理子句进行分词,得到多个分词结果;在所述每组待处理子句的多个分词结果中,确定属于疾病或疾病相关信息的分词结果;针对所述每组待定处理子句,若该组待处理子句包括多个待处理子句,则判断该组待处理子句中属于疾病或疾病相关信息的分词结果是否对应同一种疾病;若否,则按照疾病,对所述多个待处理子句进行拆分。可选的,若对所述多组待处理子句进行合并,则所述根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,包括:对所述多组待处理子句中的每组待处理子句进行分词,得到多个分词结果;在所述每组待处理子句的多个分词结果中,确定属于疾病或疾病相关信息的分词结果;根据所述疾病和疾病相关信息之间的映射关系,以及所述每组待处理子句中属于疾病或疾病相关信息的分词结果,确定所述每组待处理子句对应的疾病;将对应同一种疾病的多组待处理子句合并为一组归类子句。可选的,所述预先通过统计获取疾病和疾病相关信息之间的映射关系,包括:获取统计疾病数据和统计疾病相关信息数据;根据所述统计疾病数据和所述统计疾病相关信息数据,确定疾病与疾病相关信息之间的匹配概率;根据所述匹配概率,建立所述疾病与所述疾病相关信息之间的映射关系。可选的,若按照所述语句中标注的疾病标志,对所述多个语句进行划分,则所述按照标点符号和/或所述语句中标注的疾病标志,对所述多个语句进行划分,得到多组待处理子句,包括:对所述多个语句进行分词,得到多个分词结果;确定所述多个分词结果中属于疾病的分词结果;利用疾病标志对所述属于疾病的分词结果进行标注;根据所述疾病标志对所述多个语句进行划分,得到多组待处理子句。可选的,若所述疾病标志包括相邻的第一疾病标志和第二疾病标志,且所述第一疾病标志位于所述第二疾病标志之前,则所述根据所述疾病标志对所述多个语句进行划分,包括:将所述第一疾病标志和所述第二疾病标志之间的语句划分到所述第一疾病标志。可选的,在所述根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分之前,所述方法还包括:判断所述多组待处理子句是否存在符合预设规则的待处理子句;若是,则去除所述符合预设规则的待处理子句,得到去除所述符合预设规则的待处理子句的多组待处理子句;则,所述根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,得到多组归类子句,包括:根据所述疾病和疾病相关信息之间的映射关系,对所述去除所述符合预设规则的待处理子句的多组待处理子句进行合并和/或拆分,得到多组归类子句。可选的,所述符合预设规则的待处理子句包括:包含预设关键字的待处理子句和/或以“否定”两字开头的待处理子句。可选的,在所述按照标点符号和/或所述语句中标注的疾病标志,对所述多个语句进行划分之前,所述方法还包括:对所述病历文本进行数据预处理;其中,所述数据预处理包括以下至少一种:将所述病历文本中的中文输入法状态下的标点符号替换为英文输入法状态下的标点符号、去除所述病历文本中的非标点符号以及将中文数字替换为阿拉伯数字。第二方面,本申请提供了一种文本处理装置,利用映射关系获取装置预先通过统计获取疾病和疾病相关信息之间的映射关系;所述文本处理装置包括:获取单元,用于获取病历文本,所述病历文本中包括多个语句;划分单元,用于按照标点符号和/或所述语句中标注的疾病标志,对所述多个语句进行划分,得到多组待处理子句;处理单元,用于根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,得到多组归类子句,其中,一组归类子句对应一种疾病,不同组归类子句对应的疾病不同。可选的,若对所述多组待处理子句进行拆分,则所述处理单元包括:第一分词子单元,用于对所述多组待处理子句中的每组待处理子句进行分词,得到多个分词结果;第一确定子单元,用于在所述每组待处理子句的多个分词结果中,确定属于疾病或疾病相关信息的分词结果;第一判断子单元,用于针对所述每组待定处理子句,若该组待处理子句包括多个待处理子句,则判断该组待处理子句中属于疾病或疾病相关信息的分词结果是否对应同一种疾病;若否,则按照疾病,对所述多个待处理子句进行拆分。可选的,若对所述多组待处理子句进行合并,则所述处理单元包括:第二分词子单元,用于对所述多组待处理子句中的每组待处理子句进行分词,得到多个分词结果;第二确定子单元,用于在所述每组待处理子句的多个分词结果中,确定属于疾病或疾病相关信息的分词结果;第三确定子单元,用于根据所述疾病和疾病相关信息之间的映射关系,以及所述每组待处理子句中属于疾病或疾病相关信息的分词结果,确定所述每组待处理子句对应的疾病;合并子单元,用于将对应同一种疾病的多组待处理子句合并为一组归类子句。可选的,所述映射关系获取装置包括:信息数据获取单元,用于获取统计疾病数据和统计疾病相关信息数据;匹配概率确定单元,用于根据所述统计疾病数据和所述统计疾病相关信息数据,确定疾病与疾病相关信息之间的匹配概率;映射关系建立单元,用于根据所述匹配概率,建立所述疾病与所述疾病相关信息之间的映射关系。可选的,若按照所述语句中标注的疾病标志,对所述多个语句进行划分,则所述划分单元包括:第三分词子单元,用于对所述多个语句进行分词,得到多个分词结果;第四确定子单元,用于确定所述多个分词结果中属于疾病的分词结果;标注子单元,用于利用疾病标志对所述属于疾病的分词结果进行标注;划分子单元,用于根据所述疾病标志对所述多个语句进行划分,得到多组待处理子句。可选的,若所述疾病标志包括相邻的第一疾病标志和第二疾病标志,且所述第一疾病标志位于所述第二疾病标志之前,则所述划分子单元,还用于将所述第一疾病标志和所述第二疾病标志之间的语句划分到所述第一疾病标志。可选的,所述装置还包括:判断单元,用于判断所述多组待处理子句是否存在符合预设规则的待处理子句;若是,则去除所述符合预设规则的待处理子句,得到去除所述符合预设规则的待处理子句的多组待处理子句;则,所述处理单元,还用于根据所述疾病和疾病相关信息之间的映射关系,对所述去除所述符合预设规则的待处理子句的多组待处理子句进行合并和/或拆分,得到多组归类子句。可选的,所述符合预设规则的待处理子句包括:包含预设关键字的待处理子句和/或以“否定”两字开头的待处理子句。可选的,所述装置还包括:预处理单元,用于对所述病历文本进行数据预处理;其中,所述数据预处理包括以下至少一种:将所述病历文本中的中文输入法状态下的标点符号替换为英文输入法状态下的标点符号、去除所述病历文本中的非标点符号以及将中文数字替换为阿拉伯数字。本申请实施例中,可以预先通过统计获取疾病和疾病相关信息之间的映射关系;然后,获取病历文本中的多个语句,并按照标点符号和/或所述语句中标注的疾病标志,对所述多个语句进行划分,得到多组待处理子句;接着,可以根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,得到多组归类子句。由于本申请中预先获取到的疾病和疾病相关信息之间的映射关系,可以反映出哪些疾病和哪些疾病相关信息是真正相对应的。因此,本申请在得到病历文本的多组待处理子句后,可以根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行归类,使得对应同一种疾病的多组待处理子句可以归为一组归类子句,且不同组归类子句对应的疾病不同。从而可以从病历文本中,准确地获取到疾病与其对应的疾病相关信息,进而可以实现对病历文本进行有效地分析、处理。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本申请提供的一种示例性应用场景的框架示意图;图2为本申请提供的一种文本处理方法的流程示意图;图3为本申请提供的一种文本处理方法的流程示意图;图4为本申请提供的一种文本处理装置的结构框图。具体实施方式为了使本
技术领域
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。现有的获取疾病相关信息技术是基于支持度和置信度来获取的,在该现有技术中,当病历文本中多个疾病和多个疾病相关信息同时出现的概率较大时,由于这些疾病和疾病相关信息之间映射关系的支持度和置信度都相同,因此,无法区分出哪些疾病和哪些疾病相关信息是真正相对应的,从而导致基于支持度和置信度从病历文本中获取疾病和疾病相关信息的现有技术并不准确。故此,本申请提供了一种文本处理方法,可以预先通过统计获取疾病和疾病相关信息之间的映射关系,由于所述疾病和疾病相关信息之间的映射关系,可以反映出哪些疾病和哪些疾病相关信息是真正相对应的。因此,本申请可以先将病历文本中的多个语句,划分为多组待处理子句;然后,可以根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行归类,使得对应同一种疾病的多组待处理子句可以归为一组归类子句,且不同组归类子句对应的疾病不同。从而可以从病历文本中,准确地获取到疾病与其对应的疾病相关信息,进而可以实现对病历文本进行有效地分析、处理。举例说明,在一种示例性的场景中,本申请实施例可以应用到如图1所示的网络系统中。在该网络系统中,用户可以通过终端200与服务器100进行交互,以使用服务器100提供的文本处理方法,对用户通过终端200输入的病历文本进行处理。具体地,用户可以通过键盘等输入设备将病历文本输入至终端200,终端200可以响应于该用户的触发操作向服务器100发送该病历文本。服务器100响应于接收到的触发指令,可以获取该病历文本,其中,该病历文本中可以包括多个语句。然后,服务器100可以按照标点符号和/或所述语句中标注的疾病标志,对所述多个语句进行划分,得到多组待处理子句。由于服务器100预先通过统计获取了疾病和疾病相关信息之间的映射关系,因此,服务器100可以根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,得到多组归类子句。再后,服务器100可以将所述多组归类子句向终端200发送,以使得终端200向用户展示所述多组归类子。需要注意的是,上述应用场景仅是为了便于理解本申请而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。示例性方法实施例接下来,将结合附图说明本申请实施例提供的文本处理方法。参见图2,该图为本申请实施例提供的一种文本处理方法的流程示意图。需要说明的是,在本实施例中,可以预先通过统计获取疾病和疾病相关信息之间的映射关系,而对于如何获取疾病和疾病相关信息之间的映射关系,将在后面详细说明。本实施例提供的文本处理方法包括如下步骤:S201:获取病历文本。本实施例中的病历文本可以是电子病历,该病历文本中可以包括多个语句。通常来说,相邻的两个语句之间可以利用句号、分号、感叹号或者问号等标点符号进行区分,并且一个语句中还可以包括多个子句,而同一个语句中的多个子句之间可以利用逗号、顿号等标点符号进行区分。需要说明的是,该病历文本中的多个语句可以反映患者的基本信息(比如主诉、现病史、既往病史等)、进行过的检查和检验、采用过的手术和药品等医疗信息。S202:按照标点符号和/或所述语句中标注的疾病标志,对所述多个语句进行划分,得到多组待处理子句。本实施例中,S202有多种实现方式,可以对病历文本中的多个语句进行划分。接下来,将对S202的多种实现方式进行详细介绍:在一种实现方式中,在获取到病历文本后,可以按照标点符号对该病历文本中的多个语句进行划分,其中,该标点符号可以为句号,还可以包括逗号、分号等。比如,假设该标点符号为句号时,可以将句号之前的内容划分为一组待处理子句,并且将句号之后的内容划分为另一组待处理子句。例如,假设标点符号包括句号和分号,病历文本中的多个语句为“高血压病史50余年,血压最高200/100mmHg,目前口服安博诺150mg、压氏达2.5mgqd控制血压;高脂血症病史10余年,一直服用他汀类药物,目前口服立普妥20mgqn。”,则可以利用句号和分号,将该病历文本中的多个语句划分为“高血压病史50余年,血压最高200/100mmHg,目前口服安博诺150mg、压氏达2.5mgqd控制血压”和“高脂血症病史10余年,一直服用他汀类药物,目前口服立普妥20mgqn”这两组待处理子句。在一种实现方式中,在获取到病历文本中的多个语句后,可以按照语句中标注的疾病标志对该多个语句进行划分。其中,该疾病标志可以为预先设置的标志,比如可以是disease。下面将具体介绍如何按照语句中标注的疾病标志对该多个语句进行划分,得到多组多组待处理子句。按照语句中标注的疾病标志对该多个语句进行划分的具体方法可以包括以下步骤:步骤1:对所述多个语句进行分词,得到多个分词结果。例如,在获取到病历文本“30年前患有白内障。15年前行白内障手术。肠易激综合症7年,胃溃疡病史10余年。”后,可以对该病历文本中的语句进行分词,所得到的多个分词结果可以分别为“30年”、“前”、“患有”、“白内障”、“15年”、“前”、“行”、“白内障手术”、“肠易激综合症”、“7年”、“胃溃疡病”、“史”以及“10余年”。步骤2:确定所述多个分词结果中属于疾病的分词结果。在得到多个分词结果后,可以根据疾病,确定该多个分词结果中属于疾病的分词结果。继续步骤1中的例子,可以将分词结果“白内障”、“肠易激综合症”以及“胃溃疡病”确定为属于疾病的分词结果。步骤3:利用疾病标志对所述属于疾病的分词结果进行标注。继续步骤2中的例子,假设疾病标志为disease,在确定出属于疾病的分词结果后,可以利用disease对该病历文本中的分词结果“白内障”、“肠易激综合症”以及“胃溃疡病”进行标注。标注后的病历文本为:“30年前患有白内障/disease。15年前行白内障手术。肠易激综合症/disease7年,胃溃疡病/disease史10余年。”。步骤4:根据所述疾病标志对所述多个语句进行划分,得到多组待处理子句。在对属于疾病的分词结果进行标注后,可以根据疾病标志对病历文本中的多个语句进行划分。例如,假设该多个语句中存在相邻的两个疾病标志,分别为第一疾病标志和第二疾病标志,且该第一疾病标志位于该第二疾病标志之前,则可以将所述第一疾病标志和所述第二疾病标志之间的语句划分到所述第一疾病标志中,从而可以得到两组待处理子句。继续步骤3中的例子,在利用疾病标志对属于疾病的分词结果进行标注后,可以根据“白内障”对应的疾病标志“disease”、“肠易激综合症”对应的疾病标志“disease”以及“胃溃疡病”对应的疾病标志“disease”,对该病历文本中的语句“30年前患有白内障。15年前行白内障手术。肠易激综合症7年,胃溃疡病史10余年。”进行划分,从而得到“30年前患有白内障。15年前行白内障手术。”、“肠易激综合症7年,”以及“胃溃疡病史10余年。”这三组待处理子句。需要说明的是,在按照语句中标注的疾病标志对多个语句进行划分的过程中,若存在并列关系的语句,比如“高血压、糖尿病10年”,则可以按照语句中的疾病标志,将该并列关系的语句划分为多组待处理子句。例如,可以按照疾病标志,将该语句“高血压/disease、糖尿病/disease10年”划分为“高血压10年”和“糖尿病10年”这两组待处理子句。在一种实现方式中,在获取到病历文本中的多个语句后,还可以按照标点符号和语句中标注的疾病标志,对该多个语句进行划分。需要说明的是,在该实现方式中,可以先按照标点符号对多个语句进行划分,得到划分后的多组待处理子句,再按照语句中标注的疾病标志,对该划分后的多组待处理子句进行划分;也可以先按照语句中标注的疾病标志对多个语句进行划分,得到划分后的多组待处理子句,再按照标点符号,对该划分后的多组待处理子句进行划分。在本实施例中,不对划分方式的先后执行顺序进行限定。S203:根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,得到多组归类子句,其中,一组归类子句对应一种疾病,不同组归类子句对应的疾病不同。在本实施例中,由于疾病和疾病相关信息之间的映射关系,可以反映出哪些疾病和哪些疾病相关信息是具有关联关系的,比如当高血压(即疾病)和药物安博诺(即疾病相关信息)之间具有映射关系时,该映射关系可以反映高血压和安博诺是具有关联关系的,即,安博诺是用来治疗高血压的药物。因此,可以根据疾病(或疾病相关信息)以及疾病和疾病相关信息之间的映射关系,确定该疾病(或该疾病相关信息)对应的疾病相关信息(或疾病)。需要说明的是,一组归类子句中可以包括一组待处理子句,也可以包括多组待处理子句。在得到多组待处理子句后,可以先根据疾病和疾病相关信息之间的映射关系,确定每一组待处理子句中的内容对应的疾病。若多组待处理子句中的内容均对应同一种疾病,则可以对该多组待处理子句进行合并为一组归类子句。若一组待处理子句中的内容分别对应不同的疾病,则可以对该组待处理子句进行拆分,得到至少两组待处理子句,当这两组待处理子句中的任意一组待处理子句对应的疾病(或该两组待处理子句分别对应的疾病),与其它组待处理子句对应的疾病均不同时,则可以将该组待处理子句作为一组归类子句。接下来,将分别详细介绍如何对多组待处理子句进行合并、拆分。若需要对所述多组待处理子句进行拆分,则S203中的“所述根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分”的步骤,可以包括以下步骤:S203A:对所述多组待处理子句中的每组待处理子句进行分词,得到多个分词结果。例如,若一组待处理子句为“胃溃疡病史10余年,30年前行白内障手术。”,则可以对该组待处理子句进行分词,所得到的多个分词结果分别为“胃溃疡”、“病史”、“10余年”、“30年”、“前”、“行”以及“白内障手术”。S203B:在所述每组待处理子句的多个分词结果中,确定属于疾病或疾病相关信息的分词结果。在得到多个分词结果后,可以根据疾病,确定该多个分词结果中属于疾病的分词结果。继续S203A中的例子,可以将分词结果“胃溃疡”确定为属于疾病的分词结果,以及将分词结果“白内障手术”确定为属于疾病相关信息的分词结果。S203C:针对所述每组待定处理子句,若该组待处理子句包括多个待处理子句,则判断该组待处理子句中属于疾病或疾病相关信息的分词结果是否对应同一种疾病;若否,则按照疾病,对所述多个待处理子句进行拆分。在该组待处理子句的多个分词结果中,确定出属于疾病或疾病相关信息的分词结果后,可以先判断该组待处理子句中是否包括多个待处理子句;若是,则可以根据疾病和疾病相关信息之间的映射关系,确定属于疾病相关信息的分词结果对应的疾病。接着,继续判断该组待处理子句中属于疾病或疾病相关信息的分词结果是否对应同一种疾病。若否,则说明该组待处理子句中的多个待处理子句分别对应不同的疾病,因此,可以按照疾病,对该多个待处理子句进行拆分;若是,则说明该组待处理子句中的多个待处理子句对应同一种疾病,不需要对该多个待处理子句进行拆分。继续S203B中的例子,由于该组待处理子句包括两个待处理子句,所以,在确定分词结果“胃溃疡”为属于疾病的分词结果,以及分词结果“白内障手术”为属于疾病相关信息的分词结果后,可以根据疾病和疾病相关信息之间的映射关系,确定分词结果“白内障手术”对应的疾病为白内障。由于分词结果“胃溃疡”对应的疾病为胃溃疡,而分词结果“白内障手术”对应的疾病为白内障,因而可以确定分词结果“胃溃疡”和分词结果“白内障手术”对应不同的疾病。因此,可以按照疾病,将该组待处理子句拆分为“胃溃疡病史10余年”和“30年前行白内障手术”。若需要对所述多组待处理子句进行合并,则S203中的“所述根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分”的步骤,可以包括以下步骤:步骤S203a:对所述多组待处理子句中的每组待处理子句进行分词,得到多个分词结果。例如,假设该多组待处理子句包括两组待处理子句,这两组待处理子句分别为第一组待处理子句“30年前患有白内障”和第二组待处理子句“15年前行白内障手术”。接着,可以分别对第一组待处理子句和第二组待处理子句进行分词,得到第一组待处理子句的多个分词结果:“30年”、“前”、“患有”以及“白内障”,和第二组待处理子句的多个分词结果:“15年”、“前”、“行”以及“白内障手术”。步骤S203b:在所述每组待处理子句的多个分词结果中,确定属于疾病或疾病相关信息的分词结果。在得到多个分词结果后,可以根据疾病,确定该多个分词结果中属于疾病的分词结果。继续S203a中的例子,可以将第一组待处理子句中的分词结果“白内障”确定为属于疾病的分词结果,以及将第二组待处理子句中的分词结果“白内障手术”确定为属于疾病相关信息的分词结果。步骤S203c:根据所述疾病和疾病相关信息之间的映射关系,以及所述每组待处理子句中属于疾病或疾病相关信息的分词结果,确定所述每组待处理子句对应的疾病。继续S203b中的例子,在确定第一组待处理子句中的分词结果“白内障”为属于疾病的分词结果,以及第二组待处理子句中的分词结果“白内障手术”为属于疾病相关信息的分词结果后,可以根据疾病和疾病相关信息之间的映射关系,确定分词结果“白内障”和分词结果“白内障手术”对应的疾病均为白内障。步骤S203d:将对应同一种疾病的多组待处理子句合并为一组归类子句。继续S203c中的例子,由于第一组待处理子句中的分词结果“白内障”和第二组待处理子句中的分词结果“白内障手术”对应的疾病均为白内障因此,可以将第一组待处理子句和第二组待处理子合并为一组归类子句,且该组归类子句对应疾病“白内障”。需要说明的是,当需要对多组待处理子句进行合并和拆分时,可以先对该多组待处理子句进行拆分,得到拆分后的多组待处理子句,接着,再对该拆分后的多组待处理子句进行合并。接下来,将对如何获取疾病和疾病相关信息之间的映射关进行详细介绍。在本实施例中,上述“预先通过统计获取疾病和疾病相关信息之间的映射关系”的步骤可以包括以下步骤:步骤(1):获取统计疾病数据和统计疾病相关信息数据。在本实施例中,统计疾病数据可以是在某一个区域(比如某一个医院)的一段时间内,诊断出患有同一种疾病的患者的数量,比如在同济医院心内科中,在一年内共诊断出患有冠心病的患者的人数为100人次,则统计疾病数据可以是100。统计疾病相关信息数据可以是根据统计疾病数据对应的所有患者的病历文本,统计得到的疾病的症状及其数量、所采用的手术及其数量、所采用的药品及其数量、所进行的检查及其数量以及所进行的检验及其数量等疾病相关信息数据。步骤(2):根据所述统计疾病数据和所述统计疾病相关信息数据,确定疾病与疾病相关信息之间的匹配概率。需要说明的是,疾病与疾病相关信息之间的匹配概率可以是疾病与疾病相关信息之间具有关联的概率。若该匹配概率越大,则说明该疾病与该疾病相关信息之间的关联程度越高,即患者在患有该疾病的情况下,该患者发生该疾病相关信息的概率越大,反之,则说明该疾病与该疾病相关信息之间的关联程度越低,即患者在患有该疾病的情况下,该患者发生该疾病相关信息的概率越小。具体地,在获取到统计疾病数据和统计疾病相关信息数据之后,例如,可以将统计疾病相关信息数据与统计疾病数据之比作为疾病与疾病相关信息之间的匹配概率,即可以利用如下公式(1)计算疾病与疾病相关信息之间的匹配概率:其中,P疾病-某key表示疾病与某疾病相关信息之间的匹配概率;key表示该疾病对应的疾病相关信息,比如该疾病的症状、所采用的手术和药品、所进行的检查和检验等;B表示患有该疾病的患者的总人数,即统计疾病数据;A表示在患有该疾病的患者中,发生了该疾病相关信息的患者的人数,即统计疾病相关信息数据。举例来说,假设在某医院心内科中,诊断患有冠心病(即疾病)的患者的总人数为100人次(即统计疾病数据为100),其中,在这100个患者中,出现胸痛症状(即疾病相关信息)的患者有98人次,出现胸闷症状(即疾病相关信息)的患者有95人次,出现反酸(即疾病相关信息)的患者有3人次。则可以利用上述公式(1)得到如表1所示的冠心病分别与胸痛症状、胸闷症状、反酸之间的匹配概率。表1步骤(3):根据所述匹配概率,建立所述疾病与所述疾病相关信息之间的映射关系。在确定出疾病与疾病相关信息之间的匹配概率之后,可以有多种方式确定需要建立该疾病与该疾病相关信息之间的映射关系。例如,在一种实现方式中,可以判断疾病与疾病相关信息之间的匹配概率是否大于阈值;若是,则说明该疾病与该疾病相关信息之间的关联程度满足预设条件,可以建立该疾病与该疾病相关信息之间的映射关系;若否,则说明该疾病与该疾病相关信息之间的关联程度不满足预设条件,不可以建立该疾病与该疾病相关信息之间的映射关系。继续步骤(2)中的例子,假设阈值为90%,由于冠心病与胸痛之间的匹配概率以及冠心病与胸闷之间的匹配概率均大于90%,因此,可以建立冠心病与胸痛、胸闷之间的映射关系。而由于冠心病与反酸之间的匹配概率小于90%,因此,不可以建立冠心病与反酸之间的映射关系。又例如,在一种实现方式中,可以将疾病与各个疾病相关信息之间的匹配概率由高到低进行排名,并根据该排名确定可以与该疾病建立映射关系的疾病相关信息。比如,可以将该排名中排名名次为前十位的疾病相关信息,确定为可以与该疾病建立映射关系的疾病相关信息。可见,在本申请实施例中,可以预先通过统计获取疾病和疾病相关信息之间的映射关系;然后,获取病历文本中的多个语句,并按照标点符号和/或所述语句中标注的疾病标志,对所述多个语句进行划分,得到多组待处理子句;接着,可以根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,得到多组归类子句。由于本申请中预先获取到的疾病和疾病相关信息之间的映射关系,可以反映出哪些疾病和哪些疾病相关信息是真正相对应的。因此,本申请在得到病历文本的多组待处理子句后,可以根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行归类,使得对应同一种疾病的多组待处理子句可以归为一组归类子句,且不同组归类子句对应的疾病不同。从而可以从病历文本中,准确地获取到疾病与其对应的疾病相关信息,进而可以实现对病历文本进行有效地分析、处理。由于医疗人员在通过键盘等输入设备向终端200输入病历文本的过程中,可能会错误输入非标点符号,比如@、&等非标点符号。因此,在本申请实施例的一种实施方式中,在S202之前,还可以包括:对所述病历文本进行数据预处理。例如,该数据预处理可以包括:将所述病历文本中的中文输入法状态下的标点符号替换为英文输入法状态下的标点符号,比如,可以将中文输入法状态下的逗号“,”,替换为英文输入法状态下的逗号“,”。又例如,该数据预处理还可以包括:去除所述病历文本中的非标点符号,比如,可以将#、¥、@、&等非标点符号从病历文本中去除。再例如,该数据预处理还可以包括:将中文数字替换为阿拉伯数字,比如,可以将“五十余年”替换为“50余年”。还例如,该数据预处理可以包括:增加所述病例文本中缺少的单位名词,比如,可以将“2011头颅MRI提示轻度脑白质脱髓鞘变性”替换为“2011年头颅MRI提示轻度脑白质脱髓鞘变性”。可见,在本实施例中,在对病历文本中的多个语句进行划分之前,通过对病历文本进行数据预处理,可以将该病历文本中的字符进行统一,并且还可以将用户错误输入的字符从该病历文本中去除,从而便于对该病历文本的后续处理。由于医疗人员在输入病历文本时,可能还会输入一些非疾病相关信息,例如患者的预防接种史、过敏史等信息。而这些非疾病相关信息在对病历文本进行文本处理的过程中,由于不能够归类到疾病中,因而会导致增加文本处理过程中的计算量。因此,在本申请实施例的一种实施方式中,在S203之前,还可以包括以下步骤:判断所述多组待处理子句是否存在符合预设规则的待处理子句;若是,则去除所述符合预设规则的待处理子句,得到去除所述符合预设规则的待处理子句的多组待处理子句。相应地,S203可以包括:根据所述疾病和疾病相关信息之间的映射关系,对所述去除所述符合预设规则的待处理子句的多组待处理子句进行合并和/或拆分,得到多组归类子句。本实施例的一种实现方式,符合预设规则的待处理子句可以包括:包含预设关键字的待处理子句。例如,当预设关键字为“预防接种史”这五个字时,在得到的多组待处理子句中,若存在包括“预防接种史”这五个字的一组待处理子句,则可以将包括“预防接种史”这五个字的该组待处理子句认为是预防接种史,并将该组待处理子句从该多组待处理子句中去除,得到去除了包括“预防接种史”这五个字的该组待处理子句的多组待处理子句。又例如,当预设关键字为“过敏”这两字时,在得到的多组待处理子句中,若存在包括“过敏”这两字的一组待处理子句,则可以将包括“过敏”这两个字的该组待处理子句认为是过敏史,并将该组待处理子句从该多组待处理子句中去除。本实施例的一种实现方式,符合预设规则的待处理子句还可以包括:以“否定”两字开头的待处理子句。例如,在得到的多组待处理子句中,若存在一组待处理子句“否认输血史”,则可以将该组待处理子句认为是否定项,并将该组待处理子句从该多组待处理子句中去除,得到去除了以“否定”两字开头的待处理子句的多组待处理子句。可见,在本实施例中,在对多组待处理子句进行合并和/或拆分之前,通过去除符合预设规则的待处理子句,得到去除该符合预设规则的待处理子句的多组待处理子句。以使得可以将非疾病相关信息从病历文本中去除,从而减少了文本处理过程中对于病历文本的计算量。示例性场景实施例为了使本领域技术人员更全面地理解本申请的技术方案,下面将基于上述实施例提供的一种文本处理方法,结合具体应用场景介绍如何对获取到的病历文本进行处理。在该应用场景中,医生可以利用键盘向电脑(即终端200)输入患者的病历文本,并通过点击该电脑一显示页面中预设的按键,将该病历文本由该电脑向服务器100发送,并由服务器100对该病历文本进行文本处理。其中,该病历文本为:“肠易激综合征七年,胃溃疡病史十余年,三十年前行白内障手术、胃切除术;慢性萎缩性胃炎病史十余年,慢性萎缩性胃炎期间长期使用曲美布汀对症;高血压病史二十余年,血压最高达180/90mmHg,目前口服苯磺酸氨氯地平片2.5mgbid替米沙坦片40mgQD,自诉血压控制不稳定;反复心动过速诊断心肌缺血,给予心元胶囊治疗。恶心、咳嗽二十年;脑膜瘤病史二十年;颈椎病病史二十年;腰椎间盘突出三十年,并未治疗;2011头颅MRI提示轻度脑白质脱髓鞘变性。否认肝炎史、疟疾史、结核史,否认精神疾病病史;否认输血史,既往红霉素、青霉素及氯霉素过敏(臀部皮疹),预防接种史不详。”,且对该病历文本中的多个语句进行划分时,所依据的标点符号为逗号、分号和句号。参见图3,示出了本申请场景实施例提供的一种文本处理方法的流程示意图。需要说明的是,在本实施例中,可以预先通过统计获取疾病和疾病相关信息之间的映射关系,而获取该映射关系的具体方式与上述方法实施例中的步骤“预先通过统计获取疾病和疾病相关信息之间的映射关系”相同,请参见上述方法实施例中的相关内容,在此不再赘述。本实施例提供的文本处理方法包括如下步骤:S301:获取该病历文本。需要说明的是,S301与上述方法实施例中的S201相同,请参见上述方法实施例中的相关介绍,在此不再赘述。S302:对该病历文本进行数据预处理。在本实施例中,该数据预处理可以包括将该病历文本中的中文数字替换为阿拉伯数字,还可以包括增加所述病例文本中缺少的单位名词。具体地,经过数据预处理后的病历文本为:“肠易激综合征7年,胃溃疡病史10余年,30年前行白内障手术、胃切除术;慢性萎缩性胃炎病史10余年,慢性萎缩性胃炎期间长期使用曲美布汀对症;高血压病史20余年,血压最高达180/90mmHg,目前口服苯磺酸氨氯地平片2.5mgbid替米沙坦片40mgQD,自诉血压控制不稳定;反复心动过速诊断心肌缺血,给予心元胶囊治疗。恶心、咳嗽20年;脑膜瘤病史20年;颈椎病病史20年;腰椎间盘突出30年,并未治疗;2011年头颅MRI提示轻度脑白质脱髓鞘变性。否认肝炎史、疟疾史、结核史,否认精神疾病病史;否认输血史,既往红霉素、青霉素及氯霉素过敏(臀部皮疹),预防接种史不详。”S303:按照逗号、分号和句号,对该经过数据预处理后的病历文本中的多个语句进行划分,得到如表1所示的多组待处理子句。需要说明的是,S303与上述方法实施例中的S202相似,请参见上述方法实施例中的相关介绍,在此不再赘述。表1肠易激综合征7年胃溃疡病史10余年30年前行白内障手术、胃切除术慢性萎缩性胃炎病史10余年慢性萎缩性胃炎期间长期使用曲美布汀对症高血压病史20余年血压最高达180/90mmHg目前口服苯磺酸氨氯地平片2.5mgbid替米沙坦片40mgQD自诉血压控制不稳定反复心动过速诊断心肌缺血给予心元胶囊治疗恶心、咳嗽20年脑膜瘤病史20年颈椎病病史20年腰椎间盘突出30年并未治疗2011年头颅MRI提示轻度脑白质脱髓鞘变性否认肝炎史、疟疾史、结核史否认精神疾病病史否认输血史既往红霉素、青霉素及氯霉素过敏(臀部皮疹)预防接种史不详S304:按照语句中标注的疾病标志,对表1所示的多组待处理子句进行划分,得到如表2所示的多组待处理子句。需要说明的是,S304与上述方法实施例中的S202相似,请参见上述方法实施例中的相关介绍,在此不再赘述。表2肠易激综合征7年胃溃疡病史10余年30年前行白内障手术30年前行胃切除术慢性萎缩性胃炎病史10余年慢性萎缩性胃炎期间长期使用曲美布汀对症高血压病史20余年血压最高达180/90mmHg目前口服苯磺酸氨氯地平片2.5mgbid替米沙坦片40mgQD自诉血压控制不稳定反复心动过速诊断心肌缺血给予心元胶囊治疗恶心20年咳嗽20年脑膜瘤病史20年颈椎病病史20年腰椎间盘突出30年并未治疗2011年头颅MRI提示轻度脑白质脱髓鞘变性否认肝炎史、疟疾史、结核史否认精神疾病病史否认输血史既往红霉素、青霉素及氯霉素过敏(臀部皮疹)预防接种史不详S305:判断表2所示的多组待处理子句中是否存在符合预设规则的待处理子句;若是,则执行S306,若否,则执行S307。在本实施例中,符合预设规则的待处理子句可以包括:包含预设关键字的待处理子句和以“否定”两字开头的待处理子句。其中,该预设关键字可以为“预防接种史”这五字,以及“过敏”这两字。S306:去除该符合预设规则的待处理子句,得到去除该符合预设规则的待处理子句的多组待处理子句,即如表3所示的多组待处理子句。表3肠易激综合征7年胃溃疡病史10余年30年前行白内障手术30年前行胃切除术慢性萎缩性胃炎病史10余年慢性萎缩性胃炎期间长期使用曲美布汀对症高血压病史20余年血压最高达180/90mmHg目前口服苯磺酸氨氯地平片2.5mgbid替米沙坦片40mgQD自诉血压控制不稳定反复心动过速诊断心肌缺血给予心元胶囊治疗恶心20年咳嗽20年脑膜瘤病史20年颈椎病病史20年腰椎间盘突出30年并未治疗2011年头颅MRI提示轻度脑白质脱髓鞘变性S307:根据所述疾病和疾病相关信息之间的映射关系,对表3所示的多组待处理子句进行合并,得到如表4所示的多组归类子句,其中,一组归类子句对应一种疾病,不同组归类子句对应的疾病不同。需要说明的是,S306与上述方法实施例中的S203相似,请参见上述方法实施例中的相关介绍,在此不再赘述。其中,由于无法根据恶心、咳嗽确定出疾病,因此,可以将“恶心20年”和“咳嗽20年”这两组待处理子句归为异常症状。另外,由于无法根据轻度脑白质脱髓鞘变性确定出疾病,因此,可以将“2011年头颅MRI提示轻度脑白质脱髓鞘变性”这一组待处理子句归为异常检查。还有,由于无法根据手术确定出疾病,因此,可以将“30年前行白内障手术”和“30年前行胃切除术”这两组待处理子句归为手术。表4示例性装置实施例基于以上实施例提供的一种文本处理方法,本申请实施例还提供了一种文本处理装置,下面结合附图来详细说明其工作原理。参见图4,该图为本申请实施例提供的一种文本处理装置的结构框图。本实施例提供的一种文本处理装置,先利用映射关系获取装置预先通过统计获取疾病和疾病相关信息之间的映射关系;所述文本处理装置包括:获取单元401,用于获取病历文本,所述病历文本中包括多个语句;划分单元402,用于按照标点符号和/或所述语句中标注的疾病标志,对所述多个语句进行划分,得到多组待处理子句;处理单元403,用于根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,得到多组归类子句,其中,一组归类子句对应一种疾病,不同组归类子句对应的疾病不同。可选的,若对所述多组待处理子句进行拆分,则所述处理单元403包括:第一分词子单元,用于对所述多组待处理子句中的每组待处理子句进行分词,得到多个分词结果;第一确定子单元,用于在所述每组待处理子句的多个分词结果中,确定属于疾病或疾病相关信息的分词结果;第一判断子单元,用于针对所述每组待定处理子句,若该组待处理子句包括多个待处理子句,则判断该组待处理子句中属于疾病或疾病相关信息的分词结果是否对应同一种疾病;若否,则按照疾病,对所述多个待处理子句进行拆分。可选的,若对所述多组待处理子句进行合并,则所述处理单元403包括:第二分词子单元,用于对所述多组待处理子句中的每组待处理子句进行分词,得到多个分词结果;第二确定子单元,用于在所述每组待处理子句的多个分词结果中,确定属于疾病或疾病相关信息的分词结果;第三确定子单元,用于根据所述疾病和疾病相关信息之间的映射关系,以及所述每组待处理子句中属于疾病或疾病相关信息的分词结果,确定所述每组待处理子句对应的疾病;合并子单元,用于将对应同一种疾病的多组待处理子句合并为一组归类子句。可选的,所述映射关系获取装置包括:信息数据获取单元,用于获取统计疾病数据和统计疾病相关信息数据;匹配概率确定单元,用于根据所述统计疾病数据和所述统计疾病相关信息数据,确定疾病与疾病相关信息之间的匹配概率;映射关系建立单元,用于根据所述匹配概率,建立所述疾病与所述疾病相关信息之间的映射关系。可选的,若按照所述语句中标注的疾病标志,对所述多个语句进行划分,则所述划分单元402包括:第三分词子单元,用于对所述多个语句进行分词,得到多个分词结果;第四确定子单元,用于确定所述多个分词结果中属于疾病的分词结果;标注子单元,用于利用疾病标志对所述属于疾病的分词结果进行标注;划分子单元,用于根据所述疾病标志对所述多个语句进行划分,得到多组待处理子句。可选的,若所述疾病标志包括相邻的第一疾病标志和第二疾病标志,且所述第一疾病标志位于所述第二疾病标志之前,则所述划分子单元,还用于将所述第一疾病标志和所述第二疾病标志之间的语句划分到所述第一疾病标志。可选的,所述装置还包括:判断单元,用于判断所述多组待处理子句是否存在符合预设规则的待处理子句;若是,则去除所述符合预设规则的待处理子句,得到去除所述符合预设规则的待处理子句的多组待处理子句;则,所述处理单元403,还用于根据所述疾病和疾病相关信息之间的映射关系,对所述去除所述符合预设规则的待处理子句的多组待处理子句进行合并和/或拆分,得到多组归类子句。可选的,所述符合预设规则的待处理子句包括:包含预设关键字的待处理子句和/或以“否定”两字开头的待处理子句。可选的,所述装置还包括:预处理单元,用于对所述病历文本进行数据预处理;其中,所述数据预处理包括以下至少一种:将所述病历文本中的中文输入法状态下的标点符号替换为英文输入法状态下的标点符号、去除所述病历文本中的非标点符号以及将中文数字替换为阿拉伯数字。当介绍本申请的各种实施例的元件时,冠词“一”、“一个”、“这个”和“所述”都意图表示有一个或多个元件。词语“包括”、“包含”和“具有”都是包括性的并意味着除了列出的元件之外,还可以有其它元件。需要说明的是,本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元及模块可以是或者也可以不是物理上分开的。另外,还可以根据实际的需要选择其中的部分或者全部单元和模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。以上所述仅是本申请的具体实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1