一种药品信息的自然语言处理方法及系统的制作方法_5

文档序号:9349928阅读:来源:国知局
例性系统一
[0343] 以下结合图1的应用场景,参考图5,介绍本发明的一种示例性系统,该示例性系 统与示例性方法相对应。
[0344]图5所示为本发明一种示例性的药品信息的自然语言处理系统的框图,如图5所 示,该药品信息的自然语言处理系统包括:
[0345] 词典数据库401,提供规格词典、包装规格词典和词典集。其中,规格词典、包装规 格词典和词典集的具体信息请参考示例性方法,此处不再赘述。
[0346] 输入模块402,用于输入药品信息字符串。
[0347] 预处理模块403,用于对药品信息字符串进行预处理,得到预处理药品信息字符 串;
[0348] 第一切分模块404,用于基于规格词典和包装规格词典,从预处理药品信息字符串 中切分出规格字符串和包装规格字符串。其中,规格字符串表示药品的规格信息;包装规格 字符串表示药品的包装规格信息。
[0349] 第二切分模块405,用于基于词典集,从预处理药品信息字符串的剩余字符中切分 出若干第一类型子字符串和/或第二类型子字符串。其中,第一类型子字符串能够与词典 集中的词条直接匹配,第二类型子字符串不能够与词典集中的词条直接匹配;
[0350] 模糊匹配模块406,用于基于若干预设的维度,对第二类型子字符串,以及词典集 中的词条进行解析,得到第二类型子字符串的解析结果,以及对词典集中每个词条的解析 结果;并通过将第二类型子字符串的解析结果与词典集中每个词条的解析结果进行匹配, 查找第二类型子字符串相匹配的一个或多个词条。
[0351] 输出模块407,用于输出规格字符串、包装规格字符串及其对应的词条属性,以及 输出第一类型子字符串、第二类型子字符串相匹配的词条及其对应的词条属性。
[0352] 其中,词条的词条属性划分可参考示例性方法,此处不再赘述。
[0353] 以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详 细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保 护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本 发明的保护范围之内。
[0354] 本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块 (illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结 合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明 性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功 能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员 可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为 超出本发明实施例保护的范围。
[0355] 本发明实施例中所描述的各种说明性的逻辑块,或单元,或装置都可以通过通用 处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装 置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功 能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制 器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和 微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类 似的配置来实现。
[0356] 本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软 件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存 储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、⑶-ROM或本领域中其它任意形式的存储 媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信 息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储 媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以 设置于用户终端中的不同的部件中。
[0357]在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软 件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的 媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电 脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以 是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但 不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它 任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处 理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例 如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双 绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义 的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、 软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的 组合也可以包含在电脑可读媒介中。
【主权项】
1. 一种药品信息的自然语言处理方法,包括: 步骤1,输入药品信息字符串; 步骤2,对所述药品信息字符串进行预处理,得到预处理药品信息字符串; 步骤3,基于预设的规格词典和包装规格词典,从所述预处理药品信息字符串中切分出 规格字符串和包装规格字符串;其中,所述规格词典包括若干表示药品的规格单位的词条; 所述包装规格词典包括若干表示药品的包装规格单位的词条;所述规格字符串表示药品的 规格信息;所述包装规格字符串表示药品的包装规格信息; 步骤4,基于预设的词典集,从所述预处理药品信息字符串的剩余字符中切分出若干第 一类型子字符串和/或第二类型子字符串;其中,所述词典集由多个词典组成,所述多个词 典包括若干表示药品的通用名称、商品名称、产品名称、给药途径、剂型、生产厂家、包材的 词条;所述第一类型子字符串能够与所述词典集中的词条直接匹配,所述第二类型子字符 串不能够与所述词典集中的词条直接匹配; 步骤5,对所述第二类型子字符串和所述词典集中的词条进行解析,得到第二类型子字 符串的解析结果,以及对词典集中每个词条的解析结果;并通过将第二类型子字符串的解 析结果与词典集中每个词条的解析结果进行匹配,查找第二类型子字符串相匹配的一个或 多个词条; 步骤6,输出所述规格字符串、所述包装规格字符串及其对应的词条属性,以及输出所 述第一类型子字符串、所述第二类型子字符串相匹配的词条及其对应的词条属性;所述词 条属性与所述词条所属的词典一一对应,所述词典具有预先设定的词条属性。2. 根据权利要求1所述的药品信息的自然语言处理方法,其中, 所述规格词典包括如下类型的词条:标准装量规格单位、标准成分规格单位、装量规格 单位同义词、成分规格单位同义词; 所述标准装量规格单位为药品最小制剂单位的重量或装量; 所述标准成分规格单位为药品最小制剂单位中含有效成分的剂量或效价; 所述装量规格单位同义词是所述标准装量规格单位的别名、俗称、英文缩写或错别 字; 所述成分规格单位同义词是所述标准成分规格单位的别名、俗称、英文缩写或错别 字; 所述包装规格词典包括如下类型的词条:标准制剂最小单位、标准包装规格单位、制剂 最小单位同义词、包装规格单位同义词; 所述标准制剂最小单位为药品的最小制剂单位; 所述标准包装规格单位为药品的最小包装单位; 所述制剂最小单位同义词是所述标准制剂最小单位的别名、俗称、英文缩写或错别 字; 所述包装规格单位同义词是所述标准包装规格单位的别名、俗称、英文缩写或错别 字; 所述词典集包括通用名称词典、商品名称词典、产品名称词典、给药途径词典、剂型词 典、生产厂家词典、包材词典; 所述通用名称词典包括如下类型的词条:标准通用名称、通用名称同义词; 所述标准通用名称是中国药品通用名称; 所述通用名称同义词是标准通用名称的别名、俗称、英文缩写或错别字; 所述商品名称词典包括如下类型的词条:标准商品名称、商品名称同义词; 所述标准商品名称是国家食品药品监督管理总局CFDA对药品公布的商品名信息以及 生产厂家官方文件、药品说明书中的商品名信息; 所述商品名称同义词是所述标准商品名称的别名、俗称、英文缩写或错别字; 所述产品名称词典包括如下类型的词条:标准产品名称、产品名称同义词; 所述标准产品名称是CFDA公布的药品产品名称信息; 所述产品名称同义词是标准产品名称的别名、俗称、英文缩写或错别字; 所述给药途径词典包括如下类型的词条:标准给药途径术语、给药途径同义词; 所述标准给药途径术语是药品的解剖学、治疗学及化学分类系统ATC中规定的给药途 径; 所述给药途径同义词是所述标准给药途径术语的别名、俗称、英文缩写或错别字; 所述剂型词典包括如下类型的词条:标准剂型术语、剂型同义词; 所述标准剂型术语包括:根据《中国药典》的制剂通则对CFDA公布的药品注册剂型进 行化处理后的药品剂型,以及,在国家医保目录中但无法在CFDA查询到相关注册信息的、 按照国家医保目录剂型确定的医保剂型; 所述剂型同义词是与所述标准剂型术语的别名、俗称、英文缩写、错别字或子类型; 所述生产厂家词典包括如下类型的词条:标准生产厂家名称、生产厂家名称同义词; 所述标准生产厂家名称是CFDA公布的药品生产企业信息、生产厂商的中文信息或英 文信息; 所述生产厂家名称同义词是所述标准生产厂家名称的缩略语或英文名称、曾用名; 所述包材词典包括如下类型的词条:标准包材名称、包材名称同义词; 所述标准包材名称是CFDA公布的药品包材; 所述包材名称同义词是所述标准包材名称的别名、俗称或英文缩写; 所述规格字符串、所述包装规格字符串对应的词条属性分别为规格、包装规格; 所述第一类型子字符串、第二类型子字符串相匹配的词条属于通用名称词典时,对应 的词条属性为通用名称; 所述第一类型子字符串、第二类型子字符串相匹配的词条属于商品名称词典时,对应 的词条属性为商品名称; 所述第一类型子字符串、第二类型子字符串相匹配的词条属于产品名称词典时,对应 的词条属性为产品名称; 所述第一类型子字符串、第二类型子字符串相匹配的词条属于给药途径词典时,对应 的词条属性为给药途径; 所述第一类型子字符串、第二类型子字符串相匹配的词条属于剂型词典时,对应的词 条属性为剂型; 所述第一类型子字符串、第二类型子字符串相匹配的词条属于生产厂家词典时,对应 的词条属性为生产厂家; 所述第一类型子字符串、第二类型子字符串相匹配的词条属于包材词典时,对应的词 条属性为包材。3. 根据权利要求1所述的药品信息的自然语言处理方法,其中,所述步骤2包括: 对所述药品信息字符串中的非汉字进行格式归一化处理,并删除所述药品信息字符串 中的无关字符,得到所述预处理药品信息字符串; 其中,所述无关字符由一预先建立的无关字符词典提供。4. 根据权利要求1所述的药品信息的自然语言处理方法,其中,所述步骤3包括: 判断所述预处理药品信息字符串中是否存在数字; 如果所述预处理药品信息字符串中存在数字,将该数字之后紧邻的字符串与所述规格 词典和所述包装规格词典中的词条进行匹配; 若匹配成功的词条是来自于所述规格词典,则将该数字及其之后紧邻的能够与所述规 格词典中的词条相匹配的字符串切分出来作为所述规格字符串; 若匹配成功的词条是来自于所述包装规格词典,则将该数字及其之后紧邻的能够与所 述包装规格词典中的词条相匹配的字符串切分出来作为所述包装规格字符串; 如果所述预处理药品信息字符串中不存在数字,则直接执行所述步骤4。5. 根据权利要求1所述的药品信息的自然语言处理方法,其中,所述步骤4包括: 判断所述预处理药品信息字符串的剩余字符中是否包含符号; 如果所述预处理药品信息字符串的剩余字符中包含符号,则将所述预处理药品信息 字符串的剩余字符中每相邻两个符号之间的字符作为整体与所述词典集中的词条进行匹 配; 若所述预处理药品信息字符串的剩余字符中相邻两个符号之间的字符作为整体与所 述词典集中的词条匹配成功,则将该相邻两个符号之间的字符切分出来作为第一类型子字
当前第5页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1