一种中文疾病诊断信息的自然语言处理方法及系统的制作方法_2

文档序号:9376047阅读:来源:国知局
信息,也是计算机不能顺畅地识别中文疾病诊断信息的重要原因。
[0048] 为此,本发明提供了一种中文疾病诊断信息的自然语言处理方法,基于该方法对 中文疾病诊断信息进行的自然语言处理过程大致包括如下过程:
[0049] 首先,输入中文疾病诊断信息字符串;
[0050] 然后,对中文疾病诊断信息字符串进行预处理;
[0051] 其次,参照预先建立的本体词典、疾病程度术语词典、疾病并发术语词典、发病部 位术语词典,将预处理后的中文疾病诊断信息切分成具有独立语义的两类子字符串:第一 类型子字符串和第二类型子字符串;其中,第一类型子字符串和第二类型子字符串的区别 是:第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型子字符串不 能够与所述本体词典中的本体直接匹配。
[0052] 再次,对第二类型子字符串进行预设维度的解析,根据解析结果查找第二类型子 字符串相匹配的本体,或查找与第二类型子字符串达到预设匹配条件的本体。
[0053] 最后,输出第一类型子字符串相匹配的本体,以及输出第二类型子字符串相匹配 的本体或与第二类型子字符串达到预设匹配条件的本体。
[0054] 本发明中,"具有独立语义"是指切分出的这两类子字符串所表示的医疗信息不受 其之前或之后的字符所影响,仅通过子字符串内部的各个字符即可确定其完整的医学专业 概念。例如,"急性肾性贫血"不能被切分为"急性"和"肾性贫血",因为仅"肾性贫血"具有 独立意义,而"急性"不是一个具有独立意义的医学专业概念,因此切分结果应该为"急性肾 性贫血",只有将这两者结合在一起才能表示这一医疗信息,因此"急性肾性贫血"就是具有 独立语义的。
[0055] 本发明中,预先建立的本体词典包括若干本体,本体为标准术语或扩充术语。国际 疾病分类ICD版本中规定的疾病名称,可根据国际疾病分类ICD确定标准术语;扩充术语为 与标准术语具有同义关系的词语或具有属种关系的词语。
[0056] 本发明中,预先建立的疾病程度术语词典包括若干疾病程度术语,疾病程度术语 是用于描述疾病急慢性程度或疾病严重程度或病理类型的词语。
[0057] 本发明中,预先建立的疾病并发术语词典包括若干疾病并发术语,疾病并发术语 是用于描述至少两种疾病并发出现的词语。
[0058] 本发明中,预先建立的发病部位术语词典包括若干发病部位术语,发病部位术语 是用于描述疾病发病部位的词语,即解剖术语。
[0059] 本发明考虑到单纯地依据医疗领域的通用标准很有可能将具有关联关系的多个 字符分别进行识别从而导致识别错误的问题,所以将中文疾病诊断信息切分成具有独立语 义的子字符串,以有效避免上述问题的出现。
[0060] 另外,本发明充分考虑了中文疾病诊断信息中可能出现的各种不被识别的符号、 数字和汉字,所以在切分过程中参照了本体词典、疾病程度术语词典、疾病并发术语词典、 发病部位术语词典,通过与这些词典中的术语进行匹配,尽可能多得识别出现有技术单纯 地依据医疗领域的通用标准所不能识别出的带有符号、数字和汉字的字符串;而对于利用 这些词典也无法识别的带有符号、数字和汉字字符串,本发明基于预设的维度对其进行解 析,然后查找与其解析结果相匹配的本体,最终实现对所有带有符号、数字和汉字的字符串 识别。
[0061] 本发明充分考虑了医疗从业人员输入的中文疾病诊断信息属于自然语言、格式复 杂多样、没有统一标准等特点,能够将带符号、数字和汉字的中文疾病诊断信息字符串识别 成为为符合医疗领域通用标准的术语,克服了现有技术无法顺利实现对中文疾病诊断信息 进行自然与演化处理这一问题,提升了中文疾病诊断信息的识别成功率,为有效利用中文 疾病诊断信息提供了便利。
[0062] 在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方 式。
[0063] 应用场景总览
[0064] 首先参考图1,其示出了本发明的实施方式可以在其中实施的应用场景。
[0065] 图1中所示的场景包括医疗信息化平台100和中文疾病诊断信息的自然语言处理 系统200。医疗信息化平台100可以是装载于医生所用的台式电脑、笔记本电脑、平板电脑、 个人数字助理等设备中的软件。中文疾病诊断信息的自然语言处理系统200可以是运行于 医院信息服务器中的软件等。医疗信息化平台100和中文疾病诊断信息的自然语言处理系 统200之间例如可以通过医院局域网等进行通信连接。
[0066] 医疗从业人员(例如医生)在医疗信息化平台100中输入中文疾病诊断信息(例 如疾病诊断结果等)之后,这些中文疾病诊断信息被传输至中文疾病诊断信息的自然语言 处理系统200,由中文疾病诊断信息的自然语言处理系统200对其进行识别,最后输出识别 结果。
[0067] 示例件方法
[0068] 下面结合图1的应用场景,参考图2来描述根据本发明示例性实施方式的用于中 文疾病诊断信息的自然语言处理方法。需要注意的是,上述应用场景仅是为了便于理解本 发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施 方式可以应用于适用的任何场景。
[0069] 例如,参见图2所示,为本发明一实施方式的中文疾病诊断信息的自然语言处理 方法,包括:
[0070] 步骤S21,输入中文疾病诊断信息字符串。
[0071] 步骤S22,对中文疾病诊断信息字符串进行预处理,得到预处理后的中文疾病诊断 信息字符串。
[0072] 该步骤的目的是将中文疾病诊断信息字符串中的字符转换成统一的编码格式,以 便后续处理。
[0073] 可选地,该步骤可以按照如下具体方式实施:对中文疾病诊断信息字符串中的非 汉字进行格式归一化处理(例如,将中文疾病诊断信息字符串中的符号全部转换为半角格 式或全部转换为全角格式,将其中的英文字母全部转换为大写格式或小写格式);并删除 中文疾病诊断信息字符串中的非医学术语。其中非医学术语由一预先建立的非医学术语词 典提供,且非医学术语为起备注作用的词语或描述性语句(例如"待查、原因、温馨提示、建 议、如病情加重请随时就诊"等)。
[0074] 步骤S23,基于预先建立的本体词典、疾病程度术语词典、疾病并发术语词典、发病 部位术语词典,将预处理后的中文疾病诊断信息字符串切分成第一类型子字符串和第二类 型子字符串。
[0075] 其中,第一类型子字符串和第二类型子字符串具有独立语义,即所表示的医疗信 息不受其之前或之后的字符影响,且第一类型子字符串能够与本体词典中的本体直接匹 配,第二类型子字符串不能够与本体词典中的本体直接匹配。
[0076] 本体词典包括若干本体,本体为标准术语或扩充术语;国际疾病分类ICD版本中 规定的疾病名称;扩充术语为与标准术语具有同义关系的词语或具有属种关系的词语。如 表1所示为本体词典包括的部分标准术语和扩充术语。
[0077]表 1
[0078]
[0079] 疾病程度术语词典包括若干疾病程度术语,疾病程度术语是用于描述疾病急慢性 程度或疾病严重程度或病理类型或临床分期等的词语。如表2所示为疾病程度术语词典包 括的部分疾病程度术语。
[0080] 表 2
[0081]
[0082] 疾病并发术语词典包括若干佚炳开及不话,佚病并发术语是用于描述至少两种疾 病并发出现的词语。如表3所示为疾病并发术语词典包括的部分疾病并发术语。
[0083] 表 3
[0084]
[0085] 发病部位术语词典包括若干发病部位术语,发病部位术语是用于描述疾病发病部 位的词语。如表4所示为发病部位术语词典包括的部分发病部位术语。
[0086] 表 4
[0087]
[0088] 该步骤的目的是将中文疾病1;多1^丨1曰起、WTTP乂具有独立语义的子字符串(第一类 型子字符串或第二类型子字符串),以有效避免将具有关联关系的多个字符分别进行识别 从而导致识别错误的问题。
[0089] 下文将以实施例一详细介绍步骤S23的【具体实施方式】。
[0090] 步骤S24,对第二类型子字符串和本体词典中的每个本体进行预设维度的解析,得 到第二类型子字符串的解析结果,以及本体词典中每个本体的解析结果;并通过将第二类 型子字符串的解析结果与本体词典中每个本体的解析结果进行匹配,查找第二类型子字符 串相匹配的本体,或查找与所述第二类型子字符串达到预设匹配条件的一个或多个本体。
[0091] 该步骤的目的是对于利用预先建立的各种词典也无法识别的符号、数字和汉字, 基于预设的维度对其进行解析,然后查找与其解析结果相匹配的本体,最终实现对所有符 号、数字和汉字的识别。
[0092] 下文将以实施例二详细介绍步骤S24的【具体实施方式】。
[0093] 步骤S25,输出第一类型子字符串相匹配的本体、第二类型子字符串相匹配的本体 或与第二类型子字符串达到预设匹配条件的一个或多个本体。
[0094] 其中,第一类型子字符串相匹配的本体和第二类型子字符串相匹配的本体是本发 明示例性方法的精确匹配结果,而与第二类型子字符串达到预设匹配条件的一个或多个本 体是本发明示例性方法的模糊匹配结果。
[0095] 考虑到扩充术语并非是符合医疗领域通用标准的术语,而标准术语才是符合医疗 领域通用标准的术语,为了便于后续能方便、有效地利用上述自然语言处理结果,可选地, 该步骤可以按照如下规则执行:判断判断所述第一类型子字符串相匹配的本体、所述第二 类型子字符串相匹配的本体、与所述第二类型子字符串达到预设匹配条件的本体是标准诊 疗术语还是扩充诊疗术语;如果是标准诊疗术语,则直接输出该标准诊疗术语;如果是扩 充诊疗术语,则输出与该扩充诊疗术语具有同义关系或从属关系的标准诊疗术语。
[0096] 实施例一
[0097] 参见图3所示,为本发明示例性方法中步骤S23的一实施方式示例。
[0098] 如图3所示,对中文疾病诊断信息的切分过程可以包括:
[0099] 步骤S3
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1