一种药品信息的自然语言处理方法及系统的制作方法

文档序号:9349928阅读:305来源:国知局
一种药品信息的自然语言处理方法及系统的制作方法
【技术领域】
[0001] 本发明的实施方式涉及医疗信息化领域,更具体地,本发明的实施方式涉及一种 药品信息的自然语言处理方法及系统。
【背景技术】
[0002] 本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的 描述不因为包括在本部分中就承认是现有技术。
[0003] 随着信息技术的快速发展,我国医药行业正加速医疗信息化建设。医疗信息化建 设有助于提升医疗处理效率,给患者提供很好的体验,为提高医疗服务质量提供很大帮助。
[0004] 药品信息管理是医疗信息化建设的重要组成部分,规范、准确的药品信息是管理 药品信息的基础保障。

【发明内容】

[0005] 实际临床作业中每天会产生大量的病案信息,这些病案信息中有很多医疗从业人 员为治疗患者的疾病而输入的药品信息,研究和利用药品信息对于医疗信息化发展具有非 常重要的意义。由于每天都会有海量的药品信息输入,仅靠人工力量识别这些药品信息然 后再进行研究和利用几乎是不可能的,必须借助计算机对其识别和利用。
[0006] 但是由于医疗从业人员输入的药品信息属于自然语言,格式复杂多样,没有统一 的标准,例如,采用多种语言混合表达、使用不规范语法、录入有误信息、采用缩略语或俗称 代替标准术语、文字中夹杂无关符号等杂乱信息等等,就使得计算机识别药品信息具有相 当大的难度。
[0007] 为了提高计算机对药品信息的识别成功率,非常需要一种药品信息的自然语言处 理方法,以便识别和利用输入至医疗信息化平台中的药品信息。
[0008] 在本发明实施方式的第一方面中,提供了一种药品信息的自然语言处理方法,包 括:
[0009]步骤1,输入药品信息字符串;
[0010] 步骤2,对所述药品信息字符串进行预处理,得到预处理药品信息字符串;
[0011] 步骤3,基于预设的规格词典和包装规格词典,从所述预处理药品信息字符串中切 分出规格字符串和包装规格字符串;其中,所述规格词典包括若干表示药品的规格单位的 词条;所述包装规格词典包括若干表示药品的包装规格单位的词条;所述规格字符串表示 药品的规格信息;所述包装规格字符串表示药品的包装规格信息;
[0012] 步骤4,基于预设的词典集,从所述预处理药品信息字符串的剩余字符中切分出若 干第一类型子字符串和/或第二类型子字符串;其中,所述词典集包括若干表示药品的通 用名称、商品名称、产品名称、给药途径、剂型、生产厂家、包材的词条;所述第一类型子字符 串能够与所述词典集中的词条直接匹配,所述第二类型子字符串不能够与所述词典集中的 词条直接匹配;
[0013] 步骤5,对所述第二类型子字符串和所述词典集中的词条进行解析,得到第二类型 子字符串的解析结果,以及对词典集中每个词条的解析结果;并通过将第二类型子字符串 的解析结果与词典集中每个词条的解析结果进行匹配,查找第二类型子字符串相匹配的一 个或多个词条;
[0014] 步骤6,输出所述规格字符串、所述包装规格字符串及其对应的词条属性,以及输 出所述第一类型子字符串、所述第二类型子字符串相匹配的词条及其对应的词条属性;所 述词条属性与所述词条所属的词典一一对应,所述词典具有预先设定的词条属性。
[0015] 相应的,本发明提供一种药品信息的自然语言处理系统,包括:
[0016] 词典数据库,提供预设的规格词典、包装规格词典和词典集;
[0017] 输入模块,用于输入药品信息字符串;
[0018] 预处理模块,用于对所述药品信息字符串进行预处理,得到预处理药品信息字符 串;
[0019] 第一切分模块,用于基于所述规格词典和包装规格词典,从所述预处理药品信息 字符串中切分出规格字符串和包装规格字符串;其中,所述规格词典包括若干表示药品的 规格单位的词条;所述包装规格词典包括若干表示药品的包装规格单位的词条;所述规格 字符串表示药品的规格信息;所述包装规格字符串表示药品的包装规格信息;
[0020] 第二切分模块,用于基于所述词典集,从所述预处理药品信息字符串的剩余字符 中切分出若干第一类型子字符串和/或第二类型子字符串;其中,所述词典集包括若干表 示药品的通用名称、商品名称、产品名称、给药途径、剂型、生产厂家、包材的词条;所述第一 类型子字符串能够与所述词典集中的词条直接匹配,所述第二类型子字符串不能够与所述 词典集中的词条直接匹配;
[0021] 匹配模块,用于对所述第二类型子字符串和所述词典集中的词条进行解析,得到 第二类型子字符串的解析结果,以及对词典集中每个词条的解析结果;并通过将第二类型 子字符串的解析结果与词典集中每个词条的解析结果进行匹配,查找第二类型子字符串相 匹配的一个或多个词条;
[0022] 输出模块,用于输出所述规格字符串、所述包装规格字符串及其对应的词条属性, 以及输出所述第一类型子字符串、所述第二类型子字符串相匹配的词条及其对应的词条属 性;所述词条属性与所述词条所属的词典一一对应,所述词典具有预先设定的词条属性。
[0023] 借助于上述技术方案,本发明充分考虑了医疗从业人员输入的药品信息属于自然 语言、格式复杂多样、没有统一标准等特点,利用预先建立的多种词典对药品信息字符串进 行切分和匹配,将药品信息分类识别出来,并以医疗领域的标准形式分类输出精确匹配的 词条,对于没有精确匹配的词条的字符,采用模糊匹配的方式对其进行识别,并以模糊匹配 出的词条作为识别结果,最后将识别结果以医疗领域的标准形式分类输出模糊匹配的词 条。通过上述技术手段,本发明可实现对带符号、数字和汉字的药品信息字符串的识别,并 克服了现有技术无法顺利实现对药品信息进行自然与演化处理的问题,提升了药品信息的 识别成功率,为有效利用药品信息提供了便利。
【附图说明】
[0024] 通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目 的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若 干实施方式,其中:
[0025] 图1示意性地示出了本发明实施方式的适用场景;
[0026] 图2示意性地示出了本发明示例性方法的流程;
[0027] 图3示意性地示出了本发明示例性方法中切分第一类型子字符串、第二类型子字 符串的过程;
[0028] 图4示意性地示出了本发明示例性方法中对第二类型子字符串进行模糊匹配的 过程;
[0029] 图5示意性地示出了本发明示例性系统的结构框图。
[0030] 在附图中,相同或对应的标号表不相同或对应的部分。
【具体实施方式】
[0031] 下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这 些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何 方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能 够将本公开的范围完整地传达给本领域的技术人员。
[0032] 本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、 方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软 件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
[0033] 根据本发明的实施方式,提出了一种药品信息的自然语言处理方法及系统。
[0034]此外,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分, 而不具有任何限制含义。
[0035] 下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
[0036]发明概沐
[0037] 本发明人发现,医疗从业人员在医疗信息化平台中输入的药品信息格式复杂多 样,没有统一的标准,经常会出现采用多种语言混合表达、使用不规范语法、录入有误信息、 采用缩略语或俗称代替标准术语、文字中夹杂符号等杂乱信息等等情况,导致计算机不能 顺畅地实现对药品信息进行自然语言化处理。
[0038] 本发明充分考虑了药品信息的以上特点,利用预先建立的多种词典对药品信息字 符串进行切分和匹配,将药品信息分类识别出来,并以医疗领域的标准形式分类输出精确 匹配的词条,对于没有精确匹配的词条的字符,采用模糊匹配的方式对其进行识别,并以模 糊匹配出的词条作为识别结果,最后将识别结果以医疗领域的标准形式分类输出模糊匹配 的词条。通过上述技术手段,本发明可实现对带符号、数字和汉字的药品信息字符串的识 另IJ,并克服了现有技术无法顺利实现对药品信息进行自然与演化处理的问题,提升了药品 信息的识别成功率,为有效利用药品信息提供了便利。
[0039]应用场景总览
[0040]首先参考图1,其示出了本发明的实施方式可以在其中实施的应用场景。
[0041]图1中所示的场景包括医疗信息化平台100和药品信息的自然语言处理系统200。 医疗信息化平台100可以是装载于医生所用的台式电脑、笔记本电脑、平板电脑、个人数字 助理等设备中的软件。药品信息的自然语言处理系统200可以是运行于医院信息服务器中 的软件等。医疗信息化平台100和药品信息的自然语言处理系统200之间例如可以通过医 院局域网等进行通信连接。
[0042] 医疗从业人员(例如医生)在医疗信息化平台100中输入药品信息之后,药品信 息被传输至药品信息的自然语言处理系统200,由药品信息的自然语言处理系统200对其 进行识别,最后输出识别结果。
[0043] 示例件方法
[0044] 本示例性方法介绍本发明的一种示例性的药品信息的自然语言处理方法。该示例 性方法用于对医疗从业人员输入的药品信息进行自然语言处理,识别并输出多个不同信息 类型的词条。
[0045] 在介绍该示例性方法之前,通过表1至表18介绍该示例性实施方式需要调用的各 种词典。
[0046] (1)规格词典
[0047] 规格词典包括若干表示药品的规格单位的词条,本发明中,规格词典是用于从药 品信息字符串中切分出规格字符串,规格字符串表示药品的规格信息。
[0048] 以下为一种示例性的规格词典:
[0049] 规格词典包括标准规格表和规格同义词表。
[0050] 标准规格表包括若干标准装量规格单位和标准成分规格单位。
[0051] 标准装量规格单位,表示药品最小制剂单位的重量或装量,如一片药有多重,一瓶 注射液装了多少毫升药。
[0052] 标准成分规格单位,表示药品最小制剂单位中含有效成分的剂量或效价。
[0053] 标准装量规格单位和标准成分规格单位均来自于国家食品药品监督管理总局 (China Food and Drug Administration,CFDA)对各种药品公布的【规格】信息。
[0054] 表1表示了标准规格表包括的部分标准装量规格单位和标准成分规格单位。
[0055]表1
[0056]
[0057] 规格同义词表包括若干装量规格单位同义词和成分规格单位同义词。
[0058] 装量规格单位同义词是标准装量规格单位的别名、俗称、英文缩写、错别字等。
[0059] 成分规格单位同义词是标准成分规格单位的别名、俗称、英文缩写、错别字等。
[0060] 规格同义词表记录了装量规格单位同义词与标准装量规格单位之间的对应关系, 以及成分规格单位同义词与标准成分规格单位之间的对应关系。
[0061] 表2表示了规格同义词表包括的部分装量规格单位同义词、成分规格单位同义 词,以及对应的标准装量规格单位和标准成分规格单位。
[0062]表2
[0063]
[0064] 需要说明的是,在实施本发明时,可以根据实际情况采用包含其他类型词条的规 格词典,以达到切分出规格字符串的目的,本发明对规格词典所包含的词条的类型或来源 不作具体限定,即以上说明仅为本发明的具体实施例而已,并不用于限定本发明的保护范 围,凡在本发明的精神和原则之内,采用包含其它类型或来源的词条的规格词典均应包含 在本发明的保护范围之内。
[0065] (2)包装规格词典
[00
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1