1.一种文本处理方法,其特征在于,预先通过统计获取疾病和疾病相关信息之间的映射关系;
所述方法包括:
获取病历文本,所述病历文本中包括多个语句;
按照标点符号和/或所述语句中标注的疾病标志,对所述多个语句进行划分,得到多组待处理子句;
根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,得到多组归类子句,其中,一组归类子句对应一种疾病,不同组归类子句对应的疾病不同。
2.根据权利要求1所述的方法,其特征在于,若对所述多组待处理子句进行拆分,则所述根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,包括:
对所述多组待处理子句中的每组待处理子句进行分词,得到多个分词结果;
在所述每组待处理子句的多个分词结果中,确定属于疾病或疾病相关信息的分词结果;
针对所述每组待定处理子句,若该组待处理子句包括多个待处理子句,则判断该组待处理子句中属于疾病或疾病相关信息的分词结果是否对应同一种疾病;
若否,则按照疾病,对所述多个待处理子句进行拆分。
3.根据权利要求1所述的方法,其特征在于,若对所述多组待处理子句进行合并,则所述根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,包括:
对所述多组待处理子句中的每组待处理子句进行分词,得到多个分词结果;
在所述每组待处理子句的多个分词结果中,确定属于疾病或疾病相关信息的分词结果;
根据所述疾病和疾病相关信息之间的映射关系,以及所述每组待处理子句中属于疾病或疾病相关信息的分词结果,确定所述每组待处理子句对应的疾病;
将对应同一种疾病的多组待处理子句合并为一组归类子句。
4.根据权利要求1所述的方法,其特征在于,所述预先通过统计获取疾病和疾病相关信息之间的映射关系,包括:
获取统计疾病数据和统计疾病相关信息数据;
根据所述统计疾病数据和所述统计疾病相关信息数据,确定疾病与疾病相关信息之间的匹配概率;
根据所述匹配概率,建立所述疾病与所述疾病相关信息之间的映射关系。
5.根据权利要求1所述的方法,其特征在于,若按照所述语句中标注的疾病标志,对所述多个语句进行划分,则所述按照标点符号和/或所述语句中标注的疾病标志,对所述多个语句进行划分,得到多组待处理子句,包括:
对所述多个语句进行分词,得到多个分词结果;
确定所述多个分词结果中属于疾病的分词结果;
利用疾病标志对所述属于疾病的分词结果进行标注;
根据所述疾病标志对所述多个语句进行划分,得到多组待处理子句。
6.根据权利要求5所述的方法,其特征在于,若所述疾病标志包括相邻的第一疾病标志和第二疾病标志,且所述第一疾病标志位于所述第二疾病标志之前,则所述根据所述疾病标志对所述多个语句进行划分,包括:
将所述第一疾病标志和所述第二疾病标志之间的语句划分到所述第一疾病标志。
7.根据权利要求1所述的方法,其特征在于,在所述根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分之前,所述方法还包括:
判断所述多组待处理子句是否存在符合预设规则的待处理子句;
若是,则去除所述符合预设规则的待处理子句,得到去除所述符合预设规则的待处理子句的多组待处理子句;
则,所述根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,得到多组归类子句,包括:
根据所述疾病和疾病相关信息之间的映射关系,对所述去除所述符合预设规则的待处理子句的多组待处理子句进行合并和/或拆分,得到多组归类子句。
8.根据权利要求7所述的方法,其特征在于,所述符合预设规则的待处理子句包括:包含预设关键字的待处理子句和/或以“否定”两字开头的待处理子句。
9.根据权利要求1至8中任一所述的方法,其特征在于,在所述按照标点符号和/或所述语句中标注的疾病标志,对所述多个语句进行划分之前,所述方法还包括:
对所述病历文本进行数据预处理;
其中,所述数据预处理包括以下至少一种:将所述病历文本中的中文输入法状态下的标点符号替换为英文输入法状态下的标点符号、去除所述病历文本中的非标点符号以及将中文数字替换为阿拉伯数字。
10.一种文本处理装置,其特征在于,预先通过统计获取疾病和疾病相关信息之间的映射关系;
所述文本处理装置包括:
获取单元,用于获取病历文本,所述病历文本中包括多个语句;
划分单元,用于按照标点符号和/或所述语句中标注的疾病标志,对所述多个语句进行划分,得到多组待处理子句;
处理单元,用于根据所述疾病和疾病相关信息之间的映射关系,对所述多组待处理子句进行合并和/或拆分,得到多组归类子句,其中,一组归类子句对应一种疾病,不同组归类子句对应的疾病不同。