一种中文疾病诊断信息的自然语言处理方法及系统的制作方法

文档序号:9376047阅读:526来源:国知局
一种中文疾病诊断信息的自然语言处理方法及系统的制作方法
【技术领域】
[0001] 本发明的实施方式涉及医疗信息化领域,更具体地,本发明的实施方式涉及一种 中文疾病诊断信息的自然语言处理方法及系统。
【背景技术】
[0002] 本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的 描述不因为包括在本部分中就承认是现有技术。
[0003] 随着信息技术的快速发展,我国越来越多的医院正加速建设医疗信息化平台,以 提高医院的服务水平与核心竞争力。医疗信息化平台的使用有助于提升医生的工作效率, 给患者提供很好的体验,为提高医疗服务质量提供很大帮助。
[0004] 依托医疗信息化平台,医疗从业人员可在计算机中直接输入疾病诊断结果等医疗 信息,为共享医疗信息和查阅医疗信息提供了极大方便。

【发明内容】

[0005] 实际临床作业中每天会产生大量的病案信息,医疗从业人员会将这些病案信息以 中文疾病诊断信息的形式输入医疗信息化平台中,研究和利用中文疾病诊断信息对于医疗 信息化发展具有非常重要的意义。由于每天都会有海量的中文疾病诊断信息输入,仅靠人 工力量识别这些信息然后再进行研究和利用几乎是不可能的,必须借助计算机对其识别和 利用。
[0006] 但是由于输入的中文疾病诊断信息属于自然语言,格式复杂多样,没有统一的标 准,例如,采用多种语言混合表达、使用不规范语法、录入有误信息、采用缩略语或俗称代替 标准术语、文字中夹杂符号等杂乱信息等等,就使得计算机识别中文疾病诊断信息具有相 当大的难度。
[0007] 为了提高计算机对中文疾病诊断信息的识别成功率,非常需要一种中文疾病诊断 信息的自然语言处理方法,以便识别和利用输入至医疗信息化平台中的中文疾病诊断信 息。
[0008] 在本上下文中,本发明的实施方式期望提供一种中文疾病诊断信息的自然语言处 理方法及系统。
[0009] 在本发明实施方式的第一方面中,提供了一种中文疾病诊断信息的自然语言处理 方法,包括:
[0010] 步骤1,输入中文疾病诊断信息字符串;
[0011] 步骤2,对所述中文疾病诊断信息字符串进行预处理,得到预处理后的中文疾病诊 断信息字符串;
[0012] 步骤3,基于预先建立的本体词典、疾病程度术语词典、疾病并发术语词典、发病部 位术语词典,将所述预处理后的中文疾病诊断信息字符串切分成若干第一类型子字符串和 第二类型子字符串;
[0013] 其中,所述第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二 类型子字符串不能够与所述本体词典中的本体直接匹配;
[0014] 所述本体词典包括若干本体,所述本体为标准术语或扩充术语;所述国际疾病分 类ICD版本中规定的疾病名称;所述扩充术语为与所述标准术语具有同义关系的词语或具 有属种关系的词语;
[0015] 所述疾病程度术语词典包括若干疾病程度术语,所述疾病程度术语是用于描述疾 病急慢性程度或疾病严重程度或病理类型或临床分期的词语;
[0016] 所述疾病并发术语词典包括若干疾病并发术语,所述疾病并发术语是用于描述至 少两种疾病并发出现的词语;
[0017] 所述发病部位术语词典包括若干发病部位术语,所述发病部位术语是用于描述疾 病发病部位的词语;
[0018] 步骤4,对所述第二类型子字符串和所述本体词典中的每个本体进行预设维度的 解析,得到所述第二类型子字符串的解析结果,以及所述本体词典中每个本体的解析结果; 并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结果进行 匹配,查找所述第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串达到预 设匹配条件的一个或多个本体;
[0019] 步骤5,输出所述第一类型子字符串相匹配的本体,以及输出所述第二类型子字符 串相匹配的本体或与所述第二类型子字符串达到预设匹配条件的一个或多个本体。
[0020] 在本发明实施方式的第二方面中,提供了一种中文疾病诊断信息的自然语言处理 系统,包括:
[0021] 词典数据库,用于提供本体词典、疾病程度术语词典、疾病并发术语词典和发病部 位术语词典;其中,
[0022] 所述本体词典包括若干本体,所述本体为标准术语或扩充术语;所述国际疾病分 类ICD版本中规定的疾病名称;所述扩充术语为与所述标准术语具有同义关系的词语或具 有属种关系的词语;
[0023] 所述疾病程度术语词典包括若干疾病程度术语,所述疾病程度术语是用于描述疾 病急慢性程度或疾病严重程度或病理类型或临床分期的词语;
[0024] 所述疾病并发术语词典包括若干疾病并发术语,所述疾病并发术语是用于描述至 少两种疾病并发出现的词语;
[0025] 所述发病部位术语词典包括若干发病部位术语,所述发病部位术语是用于描述疾 病发病部位的词语;
[0026] 输入模块,用于输入中文疾病诊断信息字符串;
[0027] 预处理模块,用于对所述中文疾病诊断信息字符串进行预处理,得到预处理后的 中文疾病诊断信息字符串;
[0028] 切分模块,用于基于所述本体词典、疾病程度术语词典、疾病并发术语词典、发病 部位术语词典,将所述预处理后的中文疾病诊断信息字符串切分成第一类型子字符串和第 二类型子字符串;其中,
[0029] 所述第一类型子字符串能够与所述本体词典中的本体直接匹配,所述第二类型子 字符串不能够与所述本体词典中的本体直接匹配;
[0030] 匹配模块,用于对所述第二类型子字符串和所述本体词典中的每个本体进行预设 维度的解析,得到所述第二类型子字符串的解析结果,以及所述本体词典中每个本体的解 析结果;并通过将所述第二类型子字符串的解析结果与所述本体词典中每个本体的解析结 果进行匹配,查找所述第二类型子字符串相匹配的本体,或查找与所述第二类型子字符串 达到预设匹配条件的一个或多个本体;
[0031] 输出模块,用于输出所述第一类型子字符串相匹配的本体,以及输出所述第二类 型子字符串相匹配的本体或与所述第二类型子字符串达到预设匹配条件的一个或多个本 体。
[0032] 本发明实施方式提供的中文疾病诊断信息的自然语言处理方法及系统,充分考虑 了医疗从业人员输入的中文疾病诊断信息字符串属于自然语言、格式复杂多样、没有统一 标准等特点,利用预先建立的多种词典对中文疾病诊断信息字符串进行切分和匹配,以此 将中文疾病诊断信息字符串识别成为符合医疗领域通用标准的术语。本发明在对中文疾病 诊断信息字符串切分之后,将能够与本体直接匹配的第一类型子字符串直接作为最终的识 别结果,而对于不能够与本体直接匹配的第二类型子字符串,则通过解析查找与其相匹配 或达到预设匹配条件的一个或多个本体作为最终输出的结果,即,本发明对中文疾病诊断 信息字符串进行自然语言处理之后所输出的结果均为符合医疗领域通用标准的术语。本发 明克服了现有技术无法顺利实现对中文疾病诊断信息进行自然与演化处理的问题,提升了 中文疾病诊断信息的识别成功率,为有效利用中文疾病诊断信息提供了便利。
【附图说明】
[0033] 通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目 的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若 干实施方式,其中:
[0034] 图1示意性地示出了本发明实施方式的应用场景;
[0035] 图2示意性地示出了本发明示例性的中文疾病诊断信息的自然语言处理方法流 程图;
[0036] 图3示意性地示出了本发明示例性方法中切分中文疾病诊断信息的流程图;
[0037] 图4示意性地示出了本发明示例性方法中查找第二类型子字符串相匹配的本体 的流程图;
[0038] 图5示意性地示出了本发明示例性的中文疾病诊断信息的自然语言处理系统模 块框图。
[0039] 在附图中,相同或对应的标号表不相同或对应的部分。
【具体实施方式】
[0040] 下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这 些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何 方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能 够将本公开的范围完整地传达给本领域的技术人员。
[0041] 本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、 方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软 件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
[0042] 根据本发明的实施方式,提出了一种中文疾病诊断信息的自然语言处理方法及系 统。
[0043] 在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何 命名都仅用于区分,而不具有任何限制含义。
[0044] 下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
[0045] 发明概沐
[0046] 本发明人发现,医疗从业人员在医疗信息化平台中输入的中文疾病诊断信息格式 复杂多样,没有统一的标准,经常会出现采用多种语言混合表达、使用不规范语法、录入有 误信息、采用缩略语或俗称代替标准术语、文字中夹杂符号等杂乱信息等等情况,导致计算 机不能顺畅地实现对中文疾病诊断信息进行自然语言化处理。
[0047] 更进一步的,本发明人发现,医疗从业人员输入的中文疾病诊断信息中经常会夹 杂一些即便基于医疗领域通用标准也不能够识别出的信息,例如夹杂在汉字中的符号、数 字或不能识别的汉字等,这些符号或数字有的可能是用于形容疾病的严重程度(如"糖尿 病I型"、"糖尿病II型"),也有的可能表示对疾病诊断结果还需进一步确诊(如"肝癌,晚 期? "),这些不能识别的汉字可能是疾病名称的俗称、简称或英文缩略语(如"冠状动脉粥 样硬化性心脏病"的俗称为"冠心病")等等。总之,由于夹杂了一些基于医疗领域通用标 准所不能识别出的
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1