一种药品信息的自然语言处理方法及系统的制作方法_6

文档序号:9349928阅读:来源:国知局
符串; 若所述预处理药品信息字符串的剩余字符中相邻两个符号之间的字符作为整体与所 述词典集中的词条匹配失败,将该相邻两个符号及其之间的字符确定为暂不切分字符串; 如果所述预处理药品信息字符串的剩余字符中未包含符号,则采用机械分词法将所述 预处理药品信息字符串的剩余字符与所述词典集中的词条进行匹配; 若所述预处理药品信息字符串中剩余的所有字符均能够与词条匹配,则依据所匹配的 词条将所述预处理药品信息字符串的剩余字符切分出来作为第一类型子字符串; 若所述预处理药品信息字符串的剩余字符中存在未能与词条匹配的单个字符或多个 连续的字符,则将所述预处理药品信息字符串的剩余字符整体切分出来作为第二类型子字 符串; 判断所述暂不切分字符串中是否包含预设的特殊符号; 如果所述暂不切分字符串中包含预设的特殊符号,则查找所述暂不切分字符串所属的 字符模型,并根据该所属的字符模型对应的切分规则对所述暂不切分字符串进行切分,并 将切分出来的字符与所述词典集中的词条进行匹配; 若对所述暂不切分字符串切分出来的字符与所述词典集中的词条匹配成功,则将该切 分出来的字符确定为第一类型子字符串; 若对所述暂不切分字符串切分出来的字符与所述词典集中的词条匹配失败,则将该切 分出来的字符确定为第二类型子字符串; 如果所述暂不切分字符串中未包含预设的特殊符号,则将所述暂不切分字符串直接确 定为第二类型子字符串。6. 根据权利要求5所述的药品信息的自然语言处理方法,其中,所述机械分词法为正 向最大匹配型,或逆向最大匹配型,或最少切分型。7. 根据权利要求1所述的药品信息的自然语言处理方法,其中,所述步骤5包括: 对所述第二类型子字符串和所述词典集中的每个词条进行预设维度的解析,得到所述 第二类型子字符串的各个维度的解析结果,以及所述词典集中每个词条的各个维度的解析 结果; 按照如下公式计算所述第二类型子字符串与每个词条的相似度:其中,M表示相似度; t表示第二类型子字符串的各个维度的解析结果; q表示第二类型子字符串; t in q表示第二类型子字符串的各个维度; d表示词条; tf(t in d)表示在相同的维度上,第二类型子字符串的解析结果与词条的解析结果相 匹配的频次;其中,T表示词典集中词条的总数,T(t)表示各个维度的解析结果均 与第二类型子字符串的各个维度的解析结果相匹配的词条的总数; t. getBoostO表示各个维度的预设权值; norm(t, d)表示词条的长度归一化因子; 根据所述第二类型子字符串与各个词条的相似度,确定一个或多个词条作为所述第二 类型子字符串相匹配的词条。8. 根据权利要求7所述的药品信息的自然语言处理方法,其中,所述第二类型子字符 串\所述词条的各个维度的解析结果包括: 所述第二类型子字符串\所述词条的每个汉字; 所述第二类型子字符串\所述词条的每个汉字的声母; 所述第二类型子字符串\所述词条的每个汉字的韵母; 所述第二类型子字符串\所述词条的首字符; 所述第二类型子字符串\所述词条的首字符的拼音;以及, 所述第二类型子字符串\所述词条中的非汉字字符。9. 根据权利要求7所述的药品信息的自然语言处理方法,其中,所述根据所述第二类 型子字符串与各个词条的相似度,确定一个或多个词条作为所述第二类型子字符串相匹配 的词条的步骤,包括: 按照与所述第二类型子字符串的相似度的大小对全部词条排序,并将其中排序靠前的 预设数量的词条确定为第二类型子字符串相匹配的词条; 或者, 将与所述第二类型子字符串的相似度达到预设阈值的一个或多个词条,确定为所述第 二类型子字符串相匹配的词条。10. 根据权利要求7所述的药品信息的自然语言处理方法,其中,所述步骤5还包括: 输出所述第二类型子字符串与其相匹配的各个词条的相似度。11. 根据权利要求7所述的药品信息的自然语言处理方法,其中,所述步骤5还包括: 输出所述第二类型子字符串与其相匹配的各个词条的总置信度;其中,所述总置信度 的计算过程如下: 确定所述第二类型子字符串中的每个汉字; 按照如下公式计算所述第二类型子字符串与其相匹配的各个词条的余弦置信度:其中,N表示余弦置信度; V表示第二类型子字符串及其相匹配的词条所包含的汉字总数; Q表示第二类型子字符串; d'表示与第二类型子字符串相匹配的词条; Wtu表示每个汉字在第二类型子字符串中出现的频次; Wd\ ,表示每个汉字在第二类型子字符串相匹配的词条中出现的频次; j表示第二类型子字符串及其相匹配的词条所包含的汉字的序号; 按照如下公式计算所述第二类型子字符串与其相匹配的各个词条的总置信度: S = MXa+NXb 其中,S表示总置信度; a表示相似度M对应的预设权值; b表示余弦置信度N对应的预设权值,且b = 1-a。12. 根据权利要求2所述的药品信息的自然语言处理方法,其中,所述步骤6包括: 判断所述第一类型子字符串、所述第二类型子字符串相匹配的词条是标准型词条还是 同义词型词条; 如果所述第一类型子字符串、所述第二类型子字符串相匹配的词条是标准型词条,则 直接输出该标准型词条; 如果所述第一类型子字符串、所述第二类型子字符串相匹配的词条是同义词型词条, 则输出与该同义词型词条具有同义关系的标准型词条; 其中,所述标准型词条是如下类型的词条:标准通用名称、标准商品名称、标准产品名 称、标准给药途径术语、标准剂型术语、标准生产厂家名称、标准包材名称; 所述同义词型词条是如下类型的词条:通用名称同义词、商品名称同义词、产品名称同 义词、给药途径同义词、剂型同义词、生产厂家名称同义词、包材名称同义词。13. 根据权利要求1所述的药品信息的自然语言处理方法,其中,所述步骤6还包括: 输出所述第一类型子字符串和/或所述第二类型子字符串。14. 一种药品信息的自然语言处理系统,包括: 词典数据库,提供预设的规格词典、包装规格词典和词典集; 输入模块,用于输入药品信息字符串; 预处理模块,用于对所述药品信息字符串进行预处理,得到预处理药品信息字符串; 第一切分模块,用于基于所述规格词典和包装规格词典,从所述预处理药品信息字符 串中切分出规格字符串和包装规格字符串;其中,所述规格词典包括若干表示药品的规格 单位的词条;所述包装规格词典包括若干表示药品的包装规格单位的词条;所述规格字符 串表示药品的规格信息;所述包装规格字符串表示药品的包装规格信息; 第二切分模块,用于基于所述词典集,从所述预处理药品信息字符串的剩余字符中切 分出若干第一类型子字符串和/或第二类型子字符串;其中,所述词典集由多个词典组成, 所述多个词典包括若干表示药品的通用名称、商品名称、产品名称、给药途径、剂型、生产厂 家、包材的词条;所述第一类型子字符串能够与所述词典集中的词条直接匹配,所述第二类 型子字符串不能够与所述词典集中的词条直接匹配; 匹配模块,用于对所述第二类型子字符串和所述词典集中的词条进行解析,得到第二 类型子字符串的解析结果,以及对词典集中每个词条的解析结果;并通过将第二类型子字 符串的解析结果与词典集中每个词条的解析结果进行匹配,查找第二类型子字符串相匹配 的一个或多个词条; 输出模块,用于输出所述规格字符串、所述包装规格字符串及其对应的词条属性,以及 输出所述第一类型子字符串、所述第二类型子字符串相匹配的词条及其对应的词条属性; 其中,所述词条属性与所述词条所属的词典一一对应,所述词典具有预先设定的词条属性。15.根据权利要求14所述的药品信息的自然语言处理系统,其中, 所述规格词典包括如下类型的词条:标准装量规格单位、标准成分规格单位、装量规格 单位同义词、成分规格单位同义词; 所述标准装量规格单位为药品最小制剂单位的重量或装量; 所述标准成分规格单位为药品最小制剂单位中含有效成分的剂量或效价; 所述装量规格单位同义词是所述标准装量规格单位的别名、俗称、英文缩写或错别 字; 所述成分规格单位同义词是所述标准成分规格单位的别名、俗称、英文缩写或错别 字; 所述包装规格词典包括如下类型的词条:标准制剂最小单位、标准包装规格单位、制剂 最小单位同义词、包装规格单位同义词; 所述标准制剂最小单位为药品的最小制剂单位; 所述标准包装规格单位为药品的最小包装单位; 所述制剂最小单位同义词是所述标准制剂最小单位的别名、俗称、英文缩写或错别 字; 所述包装规格单位同义词是所述标准包装规格单位的别名、俗称、英文缩写或错别 字; 所述词典集包括通用名称词典、商品名称词典、产品名称词典、给药途径词典、剂型词 典、生产厂家词典、包材词典; 所述通用名称词典包括如下类型的词条:标准通用名称、通用名称同义词; 所述标准通用名称是中国药品通用名称; 所述通用名称同义词是标准通用名称的别名、俗称、英文缩写或错别字; 所述商品名称词典包括如下类型的词条:标准商品名称、商品名称同义词; 所述标准商品名称是国家食品药品监督管理总局CFDA对药品公布的商品名信息以及 生产厂家官方文件、药品说明书中的商品名信息; 所述商品名称同义词是所述标准商品名称的别名、俗称、英文缩写或错别字; 所述产品名称词典包括如下类型的词条:标准产品名称、产品名称同义词; 所述标准产品名称是CFDA公布的药品产品名称信息; 所述产品名称同义词是标准产品名称的别名、俗称、英文缩写或错别字; 所述给药途径词典包括如下类型的词条:标准给药途径术语、给药途径同义词; 所述标准给药途径术语是药品的解剖学、治疗学及化学分类系统ATC中规定的给药途 径; 所述给药途径同义词是所述标准给药途径术语的别名、俗称、英文缩写或错别字; 所述剂型词典包括如下类型的词条:标准剂型术语、剂型同义词; 所述标准剂型术语包括:根据《中国药典》的制剂通则对CFDA公布的药品注册剂型进 行化处理后的药品剂型,以及,在国家医保目录中但无法在CFDA查询到相关注册信息的、 按照国家医保目录剂型确定的医保剂型; 所述剂型同义词是与所述标准剂型术语的别名、俗称、英文缩写、错别字或子类型; 所述生产厂家词典包括如下类型的词条:标准生产厂家名称、生产厂家名称同义词; 所述标准生产厂家名称是CFDA公布的药品生产企业信息、生产厂商的中文信息或英 文信息; 所述生产厂家名称同义词是所述标准生产厂家名称的缩略语或英文名称、曾用名; 所述包材词典包括如下类型的词条:标准包材名称、包材名称同义词; 所述标准包材名称是CFDA公布的药品包材; 所述包材名称同义词是所述标准包材名称的别名、俗称或英文缩写; 所述规格字符串、所述包装规格字符串对应的词条属性分别为规格、包装规格; 所述第一类型子字符串、第二类型子字符串相匹配的词条属于通用名称词典时,对应 的词条属性为通用名称; 所述第一类型子字符串、第二类型子字符串相匹配的词条属于商品名称词典时,对应 的词条属性为商品名称; 所述第一类型子字符串、第二类型子字符串相匹配的词条属于产品名称词典时,对应 的词条属性为产品名称; 所述第一类型子字符串、第二类型子字符串相匹配的词条属于给药途径词典时,对应 的词条属性为给药途径; 所述第一类型子字符串、第二类型子字符串相匹配的词条属于剂型词典时,对应的词 条属性为剂型; 所述第一类型子字符串、第二类型子字符串相匹配的词条属于生产厂家词典时,对应 的词条属性为生产厂家; 所述第一类型子字符串、第二类型子字符串相匹配的词条属于包材词典时,对应的词 条属性为包材。
【专利摘要】本发明的实施方式提供了一种药品信息的自然语言处理方法及系统。该药品信息的自然语言处理方法包括:输入药品信息字符串并进行预处理;切分规格字符串和包装规格字符串;基于预先建立的词典集,切分第一类型子字符串和/或第二类型子字符串;对第二类型子字符串以及词条进行解析;将第二类型子字符串的解析结果与词典集中每个词条的解析结果进行匹配,查找第二类型子字符串相匹配的一个或多个词条;输出规格字符串、包装规格字符串及其对应的词条属性,以及输出第一类型子字符串、第二类型子字符串相匹配的词条及其对应的词条属性。本发明实现了对药品信息字符串的识别,提升了药品信息的识别成功率,为有效利用和管理药品信息提供了便利。
【IPC分类】G06F19/00, G06F17/27
【公开号】CN105068994
【申请号】CN201510496389
【发明人】陈志永, 朱华玲
【申请人】易保互联医疗信息科技(北京)有限公司
【公开日】2015年11月18日
【申请日】2015年8月13日
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1