一种中文疾病诊断信息的自然语言处理方法及系统的制作方法_3

文档序号:9376047阅读:来源:国知局
0,判断预处理后的中文疾病诊断信息字符串是否包含符号;如果包含符 号,则执行步骤S31 ;如果未包含符号,则执行步骤S32。
[0100] 步骤S31,将预处理后的中文疾病诊断信息字符串中每相邻两个符号之间的字符 作为整体与本体词典中的本体进行匹配;若匹配成功,则执行步骤S311 ;若匹配失败,则执 行步骤S312。
[0101] 步骤S311,将该相邻两个符号之间的字符切分出来作为第一类型子字符串。
[0102] 步骤S312,该相邻两个符号及其之间的字符确定为暂不切分字符串,然后执行步 骤 S33〇
[0103] 步骤S31、步骤S311、步骤S312依据的处理规则是:将相邻符号之间的全部字符作 为整体与本体进行匹配,只有匹配时才切分,否则暂时不予切分。
[0104] 例如表5所示对"重度关节炎,并积血;A型胸腺瘤;冠心病"的切分,其中,"重度 关节炎,并积血"、"A型胸腺瘤"和"冠心病"均为符号之间的全部字符,并且可以查找到相 匹配的本体,因此,分别被切分出来。
[0105] 表 5
[0106]
[0107] 步骤S32,采用机械分词法将预处理后的中文疾病诊断信息字符串与本体词典中 的本体进行匹配;若预处理后的中文疾病诊断信息字符串中的所有字符均能够与本体匹 配,则执行步骤S321 ;若预处理后的中文疾病诊断信息字符串中存在未能与本体匹配的单 个字符或多个连续的字符,则执行步骤S322。
[0108] 步骤S321,依据所匹配的本体将预处理后的中文疾病诊断信息字符串中的字符切 分出来作为第一类型子字符串。
[0109] 步骤S322,判断未能与本体匹配的单个字符或多个连续的字符是否是疾病程度术 语、疾病并发术语或发病部位术语,如果是疾病程度术语、疾病并发术语或发病部位术语, 则执行步骤S3221 ;如果不是疾病程度术语、疾病并发术语或发病部位术语,则执行步骤 S3222。
[0110] 步骤S32、步骤S321、步骤S322依据的处理规则是:采用机械分词法将预处理后的 中文疾病诊断信息字符串中的字符与本体进行匹配,只有全部字符都能查找到相匹配的本 体时才切分,否则暂时不予切分。
[0111] 例如表6所示为对"高血压冠心病"的切分,采用机械分词法可分别查找到"高血 压"和"冠心病"相匹配的本体,因此,分别被切分出来。
[0112] 表 6
[0113]
[0114] 步骤S32采用的机械分词法可以是正向最大匹配型,逆向最大匹配型,或最少切 分型。具体的切分过程,本实施例不再赘述。
[0115] 步骤S3221,根据未能与本体匹配的单个字符或多个连续的字符在预处理后的中 文疾病诊断信息字符串中的位置,将未能与本体匹配的单个字符或多个连续的字符与其之 前或之后能够与本体匹配的单个字符或多个连续的字符合并切分出来作为第二类型子字 符串,并将其余的能够与本体匹配的单个字符或多个连续的字符切分出来作为第一类型子 字符串。
[0116] 步骤S3222,将预处理后的中文疾病诊断信息字符串整体切分出来作为第二类型 子字符串。
[0117] 步骤S3221、步骤S3222依据的处理规则是:如果未能与本体匹配的单个字符或多 个连续的字符为疾病程度术语、疾病并发术语或发病部位术语,则执行切分,并且切分时是 将其与其之前或之后的字符合并切分出来。
[0118] 例如表7所示为对"前列腺增生伴急性尿潴留糖尿病"的切分,采用机械分词法可 分别查找到"前列腺增生"、"急性尿潴留"和"糖尿病"相匹配的本体,其中的"伴"为疾病并 发术语,因此,将"前列腺增生"与"急性尿潴留"合并切分出来,"糖尿病"单独切分出来。
[0119] 表 7
[0120]
[0121] 例如表8所示为对"前列腺增生急性肾性贫血"的切分,采用机械分词法可分别查 找到"前列腺增生"和"肾性贫血"相匹配的本体,其中的"急性"为疾病程度术语,因此,将 "前列腺增生"单独切分出来,将"急性"和"肾性贫血"合并切分出来。
[0122] 表 8
[0123]
[0124] 例如表9所示为对"亚急性支气管炎前列腺增生"的切分,采用机械分词法可分别 查找到"支气管炎"和"前列腺增生"相匹配的本体,其中的"亚急性"为疾病程度术语,且 "亚急性"在预处理后的中文疾病诊断信息字符串中的位置为开头,因此,将"亚急性"和"支 气管炎"合并切分出来,将"前列腺增生"单独切分出来。
[0125] 表 9
[0126]
[0127] 例如表10所示为对"支气管炎前列腺癌晚期"的切分,采用机械分词法可分别查 找到"支气管炎"和"前列腺癌"相匹配的本体,其中的"晚期"为疾病程度术语,且"晚期" 在预处理后的中文疾病诊断信息字符串中的位置为末尾,因此,将"支气管炎"单独切分出 来,将"前列腺癌"和"晚期"合并切分出来。
[0128] 表 10
[0129]
[0130] 步骤S33,判断暂不切分字符串中是否包含预设的特殊符号;如果暂不切分字符 串中包含特殊符号,则执行步骤S331 ;如果暂不切分字符串中不包含特殊符号,则执行步 骤 S333。
[0131] 步骤S331,查找暂不切分字符串所属的字符模型,并根据该所属的字符模型对应 的切分规则对暂不切分字符串进行切分;其中,字符模型由一预先建立的字符模型库提供, 且字符模型具有一一对应的切分规则。
[0132] 步骤332,将切分出来的字符与本体词典中的本体进行匹配,若匹配成功,则将该 切分出来的字符确定为第一类型子字符串,若匹配失败,则将该切分出来的字符确定为第 二类型子字符串;
[0133] 步骤S333,将暂不切分字符串直接确定为第二类型子字符串。
[0134] 步骤S33、步骤S331、步骤332、步骤S333依据的处理规则是:当暂不切分字符串 中包含预设的特殊符号时,根据暂不切分字符串所属的字符模型进行切分,否则直接切分 出来;而且将基于字符模型切分出的字符再次与本体进行匹配,将其中能够与本体直接匹 配的作为第一类型子字符串,不能够直接匹配的作为第二类型子字符串。
[0135] 例如预设的特殊符号可以包括但不限于逗号、顿号、句号、冒号、加号、分号、斜杠 线等等。
[0136] 例如以下为字符模型库中的部分字符模型及其切分规则:
[0137] (1)字符模型:XABY型,A为数字,B为逗号、顿号或句号;
[0138] 切分规则:分别将X和Y切分出来;
[0139] (2)字符模型:CDE型,且C、E之一为汉字,D为冒号;
[0140] 切分规则:将C、E中的汉字切分出来;
[0141] (3)字符模型:FGH型,且F、H均为汉字,G为加号;
[0142] 切分规则:将FGH作为整体切分出来;
[0143] (4)字符模型:IJK型,且I、K均为汉字,J为分号、句号、问号、叹号,
[0144] 切分规则:将I和K分别切分出来;
[0145] (5)字符模型:LOP型,且L、P均均为汉字,0为冒号;
[0146] 切分规则:将LOP作为整体切分出来;
[0147] (6)字符模型:STU型,且S和/或U为单个汉字,T为斜杠线;
[0148] 切分规则:将STU作为整体切分出来。
[0149] 例如对"腹痛:? "进行切分,经查找字符模型库可知属于⑶E型,则将"腹痛"单 独切分出来。
[0150] 例如对"先天性心脏病:室间隔缺损"进行切分,经查找字符模型库可知属于LOP 型,则将"先天性心脏病:室间隔缺损"整体切分出来。
[0151] 例如对"支/衣原体感染"进行切分,经查找字符模型库可知属于STU型,则将"支 /衣原体感染"整体切分出来。
[0152] 例如对"腹痛;前列腺炎"进行切分,经查找字符模型库可知属于IJK型,则将其切 分为"腹痛"和"前列腺炎"。
[0153] 例如对"1、颈椎病2、腰椎间盘膨出3、孕24+3周4、子宫脱垂,II度;5、支/衣原 体感染"进行切分,经查找字符模型库可知该字符串涉及多种字符模型,最终切分出的字符 分别为"颈椎病"、"腰椎间盘膨出"、"孕24+3周"、"子宫脱垂,II度"、"支/衣原体感染",将 这些切分出的字符继续与本体进行匹配,其中的"颈椎病"、"腰椎间盘膨出"能够与本体直 接匹配,则作为第一类型子字符串,而"孕24+3周"、"子宫脱垂,II度"、"支/衣原体感染" 不能够与本体直接匹配,则作为第二类型子字符串。
[0154] 实施例二
[0155] 参见图4所示,为本发明示例性方法中步骤S24的一实施方式示例。
[0156] 如图4所示,查找第二类型子字符串相匹配的本体的过程可以包括:
[0157] 步骤S40,对第二类型子字符串和本体词典中的每个本体进行第一维度的解析,得 到第二类型子字符串的若干第一维度解析结果,以及每个本体的若干第一维度解析结果;
[0158] 该步骤将第二类型子字符串和本体分别作为解析对象,可选地,对解析对象进行 第一维度的解析可以包括但不限于:
[0159] (1)确定解析对象中开头部分的字母,如果其中开头部分不是字母,则该项解析结 果为空;
[0160] (2)确定解析对象中包含的疾病程度术语,如果其中不包含疾病程度术语,则该项 解析结果为空;
[0161] (3)确定解析对象中逗号后的字符,如果其中不包含逗号,则该项解析结果为空;
[0162] (4)确定解析对象中括号内的字符,如果其中不包含括号,则该项解析结果为空; 以及,
[0163] (5)确定解析对象中除开头部分的字母、疾病程度术语、逗号后的字符、括号内的 字符以外的字符(以下简称本体中的剩余字符),一般为解析对象的核心词干。
[0164] 当解析对象为第二类型子字符串时,其各个第一维度解析结果可以包括但不限 于:第二类型
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1