一种药品信息的自然语言处理方法及系统的制作方法_3

文档序号:9349928阅读:来源:国知局
应关系。
[0174] 表 16
[0175]
[0176] 需要说明的是,在实施本发明时,可以根据实际情况采用包含其他类型词条的生 产厂家词典,以达到切分出词条属性为"生产厂家"的词条的目的,本发明对生产厂家词典 所包含的词条的类型或来源不作具体限定,即以上说明仅为本发明的具体实施例而已,并 不用于限定本发明的保护范围,凡在本发明的精神和原则之内,采用包含其它类型或来源 的词条的生产厂家词典均应包含在本发明的保护范围之内。
[0177] (9)包材词典
[0178] 包材词典包括若干表示药品的包材的词条,本发明中,本发明中,包材词典是用于 切分词条属性为"包材"的词条。
[0179] 以下为一种示例性的包材词典:
[0180] 包材词典包括标准包材表、包材同义词表。
[0181] 标准包材表包括若干标准包材名称,这些标准包材名称来自于CFDA公布的药品 包材或者药品说明书中有关包材的信息。
[0182] 表17所示为标准包材表包括的部分标准包材名称。
[0183] 表 17
[0184]
[0185] 包材同义词表包括若干包材名称同义词。
[0186] 包材名称同义词是标准包材名称的别名、俗称或英文缩写等。
[0187] 包材同义词表准确记录了包材名称同义词与标准包材名称之间的对应关系。
[0188] 表18所示为包材同义词表包括的部分包材名称同义词、标准包材名称、以及二者 之间的同义关系。
[0189] 表 18
[0190]
[0191] 需要说明的是,在实施本发明时,可以根据实际情况采用包含其他类型词条的包 材词典,以达到切分出词条属性为"包材"的词条的目的,本发明对包材词典所包含的词条 的类型或来源不作具体限定,即以上说明仅为本发明的具体实施例而已,并不用于限定本 发明的保护范围,凡在本发明的精神和原则之内,采用包含其它类型或来源的词条的包材 词典均应包含在本发明的保护范围之内。
[0192] 下面结合图1的应用场景,参考表1至表18以及图2来描述根据本发明一种不例 性实施方式的药品信息的自然语言处理方法。需要注意的是,图1的应用场景仅是为了便 于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发 明的实施方式可以应用于适用的任何场景。
[0193] 参见图2所示,为本发明示例性方法的药品信息的自然语言处理方法,包括:
[0194]步骤S11,输入药品信息字符串。
[0195] 步骤S12,对药品信息字符串进行预处理,得到预处理药品信息字符串。
[0196] 该步骤的目的是将药品信息字符串中的字符转换成统一的编码格式,以便后续处 理。
[0197] 可选地,该步骤可以按照如下具体方式实施:对药品信息字符串中的非汉字进行 格式归一化处理(例如,将药品信息字符串中的符号全部转换为半角格式或全部转换为全 角格式,将其中的英文字母全部转换为大写格式或小写格式);并根据一预先建立的无关 字符词典删除药品信息字符串中的无关字符,例如删除□ ▲鲁★等无关字符。
[0198] 步骤S13,基于规格词典和包装规格词典,从预处理药品信息字符串中切分出规格 字符串和包装规格字符串。
[0199] 具体地,该步骤可以包括如下步骤:
[0200] 步骤S131,判断所述预处理药品信息字符串中是否存在数字;如果存在数字,则 执行步骤S132;如果不存在数字,则直接跳转到步骤S14。
[0201] 步骤S132,将数字之后紧邻的字符串与规格词典和包装规格词典中的词条进行匹 配,如果匹配成功的词条是来自于规格词典,则将该数字及其之后紧邻的能够与规格词典 中的词条相匹配的字符串切分出来作为规格字符串;如果匹配成功的词条是来自于包装规 格词典,则将该数字及其之后紧邻的能够与包装规格词典中的词条相匹配的字符串切分出 来作为包装规格字符串。
[0202] 例如,预处理药品信息字符串为"膦甲酸钠乳膏I扶适灵0. 15g",首先判断出存在 数字字符"〇. 15",然后将字符"g"与规格词典和包装规格词典进行匹配,确定其与规格同 义词表中的装量规格单位同义词"g"相匹配,因此将"〇. 15g"从该预处理药品信息字符串 中切分出来作为规格字符串。
[0203] 步骤S14,基于词典集,从所述预处理药品信息字符串的剩余字符中切分出第一类 型子字符串和/或第二类型子字符串。
[0204] 其中,词典集包括若干词条。对所述预处理药品信息字符串的剩余字符切分出的 第一类型子字符串、第二类型子字符串具有独立语义,即所表示的信息不受其之前或之后 的字符影响,且第一类型子字符串能够与词典集中的词条直接匹配,第二类型子字符串不 能够与词典集中的词条直接匹配。
[0205] 词典集中的词条来自于通用名称词典、商品名称词典、产品名称词典、给药途径词 典、剂型词典、生产厂家词典、包材词典,或者说,词典集由通用名称词典、商品名称词典、产 品名称词典、给药途径词典、剂型词典、生产厂家词典、包材词典组成。
[0206] 由于第一类型子字符串能够与词典集中的词条直接匹配,因此第一类型子字符串 可能是以下各项中的任意一项:标准通用名称、通用名称同义词、标准商品名称、商品名称 同义词、标准产品名称、产品名称同义词、标准药途径、给药途径同义词、标准剂型术语、剂 型同义词、标准生产厂家名称、生产厂家名称同义词、标准包材名称、包材名称同义词。
[0207] 该步骤的目的是将药品信息切分成具有独立语义的子字符串,以有效避免将具有 关联关系的多个字符分别进行识别从而导致识别错误的问题。
[0208] 下文将以实施例一详细介绍步骤S14的【具体实施方式】。
[0209] 步骤S15,对第二类型子字符串和词典集中的词条进行解析,得到第二类型子字符 串的解析结果,以及对词典集中每个词条的解析结果;并通过将第二类型子字符串的解析 结果与词典集中每个词条的解析结果进行匹配,查找第二类型子字符串相匹配的一个或多 个词条。
[0210] 本步骤的目的是对第二类型子字符串进行模糊匹配。具体来说,对于第二类型子 字符串,基于预设的若干维度对其进行解析,然后将第二类型子字符串的解析结果与词典 集中每个词条的解析结果进行匹配,若匹配成功,则将这类词条确定为第二类型子字符串 相匹配的词条,最终实现对药品信息中所有字符的识别。
[0211] 下文将以实施例二详细介绍步骤S15(对第二类型子字符串进行模糊匹配)的具 体实施方式。
[0212] 步骤S16,输出规格字符串、包装规格字符串及其词条属性,以及输出第一类型子 字符串、第二类型子字符串相匹配的词条及其词条属性。其中,词条属性与词条所属的词典 一一对应,各个词典具有预先设定的词条属性。
[0213] 如表19表示词条属性及词典类型之间的对应关系。
[0214] 表 19
[0215]
[0216] 根据表1至表18可知,各个词典中的词条分为两种类型,分别是标准型和同义词 型,表20表示了各个词典中的标准型词条和同义词型词条。
[0217] 表 20
[0218]
[0220] 考虑到同义词型词条并非是医疗领域通用的药品术语,而标准型词条才是医疗领 域通用的药品术语,为了便于后续能方便、有效地利用上述自然语言处理结果,可选地,该 步骤可以按照如下规则执行:判断第一类型子字符串、第二类型子字符串相匹配的词条是 标准型词条还是同义词型词条;如果第一类型子字符串、第二类型子字符串相匹配的词条 为标准型词条,则直接输出该标准型词条;如果第一类型子字符串、第二类型子字符串相 匹配的本体为同义词型词条,则输出与该同义词型词条具有同义关系(别名、俗称、英文缩 写、错别字、曾用名等)的标准型词条。
[0221] 可选地,本发明示例性方法还可以输出第一类型子字符串、第二类型子字符串。例 如,后续可以通过分析第一类型子字符串、第二类型子字符串以及原始的药品信息字符串 的语义,判断对药品信息字符串进行自然语言处理时字符串的切分准确程度。
[0222] 需要说明的是,"第一类型子字符串"是能够与词典集中的词条直接匹配的字符组 合,可以直接输出,属于本发明示例性方法的精确匹配结果,而"第二类型子字符串"是不能 够与词典集中的词条直接匹配的字符组合,需要进行模糊匹配,输出模糊匹配的结果。
[0223] 本发明示例性方法的药品信息的自然语言处理方法,充分考虑了医疗从业人员输 入的药品信息的各种特点(如采用多种语言混合表达、使用不规范语法、录入有误信息、采 用缩略语或俗称代替标准术语、文字中夹杂无关符号等杂乱信息等),利用预先建立的多种 词典对药品信息字符串进行切分和匹配,将药品信息分类识别出来,并以医疗领域的标准 形式分类输出精确匹配的词条,对于没有直接匹配的词条的字符,采用模糊匹配的方式对 其进行识别,并以模糊匹配出的词条作为识别结果,最后将识别结果以医疗领域的标准形 式分类输出模糊匹配的词条。通过上述技术手段,本发明可实现对带符号、数字和汉字的药 品信息字符串的识别,并克服了现有技术无法顺利实现对药品信息进行自然与演化处理的 问题,提升了药品信息的识别成功率,为有效利用药品信息提供了便利。
[0224] 实施例一
[0225] 参见图3所示,为本发明示例性方法中步骤S14的一实施方式示例。
[0226] 如图3所示,基于词典集,将所述预处理药品信息字符串的剩余字符切分成第一 类型子字符串和/或第二类型子字符串的过程可以包括:
[0227] 步骤S20,判断所述预处理药品信息字符串的剩余字符中是否包含符号;如果包 含符号,则执行步骤S21 ;如果未包含符号,则执行步骤S22。
[0228] 步骤S21,将所述预处理药品信息字符串的剩余字符中每相邻两个符号之间的字 符作为整体与词典集中的词条进行匹配;若匹配成功,则执行步骤S211 ;若匹配失败,则执 行步骤S212。
[0229] 步骤S211,将该相邻两个符号之间的字符切分出来作为第一类型子字符串。
[0230] 步骤S212,将该相邻两个符号及其之间的字符确定为暂不切分字符串,然后执行 步骤S23。
[0231 ] 步骤S21、步骤S211、步骤S212依据的处理规则是:将相邻符号之间的全部字符作 为整体与词典集中的词条进行匹配,只有匹配时才切分,否则暂时不予切分。
[0232] 例如表21所示对"(立普妥)阿托伐他汀钙片(片剂)"的切分,其中,"立普妥"、 "阿托伐他汀钙片"、"片剂"均为符号之间的全部字符,并且可以查找到相匹配的词条,因 此,分别被切分出来。
[0233] 表 21
[0234]
[0235] 步骤S22,采用机械分词法将所述预处理药品信息字符串的剩余字符与词典集中 的词条进行匹配;若预处理药品信息字符串中剩余的所有字符均能够与词条匹配,则执行 步骤S221 ;若所述预处理药品信息字符串的剩余字符中存在未能与词条匹配的单个字符 或多个连续的字符,则执行步骤S222。
[0236] 步骤S221,依据所匹配的词条将所述预处理药品信息字符串的剩余字符切分出来 作为第一类型子字符串。
[0237] 步骤S222,将所述预处理药品信息字符串的剩余字符整体切分出来作为第二类型 子字符串。
[0238] 步骤S22、步骤S221、步骤S222依据的处理规则是:采用机械分词法将所述预处理 药品信息字符串的剩余字符与词条进行匹配,只有全部字符都能查找到相匹配的词条时才 切分,否则暂时不予切分。
[0239] 例如对"诺和龙瑞格列奈片"进行切分,其中"诺和龙"、"瑞格列奈片"均能查找到 相匹配的词条,即全部字符都能查找到相匹配的词条,因此对其予以切分,切分结果为"诺 和龙"和"瑞格列奈片"。
[0240] 步骤S22采用的机械分词法可以是正向最大匹配型,逆向最大匹配型,或最少切 分型。具体的切分过程,本实施例不再赘述。
[0241] 步骤S23,判断暂不切分字符串中是否包含预设的特殊符号;如果暂不切分字符 串中包含特殊符号,则执行步骤S231;如果
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1