一种基于网络爬虫的药品信息库构建方法与流程

文档序号：12465765阅读：1296来源：国知局

本发明涉及药品信息数据库的构建方法，尤其是一种基于网络爬虫的药品信息库构建方法。

技术背景

药品是一种特殊商品，对质量安全有极高要求，各国都实行严格监管，以保障其有效性和安全性。药品是分为处方药和非处方药两大类。药品的种类非常复杂性，截止2016-12-19日，国家食品药品监督管理总局CFDA网站公布国产药品有164899种，国产药品的商品名称有7014种；进口药品3996种，进口药品商品名称有5190种；药品生成企业为8586家，药品经营企业为140616家，由此可见，药品的种类复杂、品种繁多。

药品查询时发现同一种药品通用名称的可能有多个厂家，如“感冒清”的生产厂家多达417家。进一步，分析发现非处方药OCT感冒清热颗粒有多达14种，价格范围从8.6元到25元不等。这些药品的治疗感冒的类别也不尽相同，例如按照中医来说，分为治疗风寒型感冒、风热型感冒和暑热型等；按照西医分为病毒性感冒和细菌性感冒。

选择合适的药品是建立在全面的药品信息数据库的基础之上，而目前尚未有类似的药品信息数据库。因此，可以采用网络爬虫来构建药品信息库，并及时更新药品数据，实现药品信息资源共享。

技术实现要素：

针对缺乏全局的药品信息数据库的情况，本发明提供一种基于网络爬虫的药品信息库构建方法。首先在服务器后台定时抓取CFDA网站中，分析抓取其中的药品信息，并到对应的企业网站中去抓取该药品的说明书。进一步利用OCR模块来识别药品说明书的相关信息；并将识别出来的结果存储到数据库中。该方法提供了知识库的专业性，解决知识库不能够提供基于图像检索的问题。

按照本发明所提供的设计方案，一种基于网络爬虫的药品信息库构建方法，具体包含以下步骤：

步骤1.在服务器后台定时抓取CFDA网站中的企业信息查询页面中的药品栏目。

步骤2.分析并抓取药品栏目下的信息各种信息，获得药品类别的各种汇总信息，如国产药品数量、国产药品商品名数量、进口药品数量、进口药品商品名数量、药品注册补充备案情况公示数量、药品生产企业数量等。

步骤3.网络爬虫进一步到药品类别的子栏目中获取到具体信息，如在国产药品栏目中，获得各种的药品信息，并对每一种的药品名称信息、药品本位码，药品批准号及生产企业存储到数据库中。

步骤4.根据药品生产企业的信息，查找到每一个生产企业的官方网站，并从其网站的提取其生产的药品类别，并根据药品进一步获取到药品的产品说明书，将产品说明书按照命名规则保存到服务器中。

步骤5.采用微软的OCR来分析药品说明书，按照CFDA给出各种药品标准的规格来提取其中的关键词及对应的描述文字信息。

步骤6.将这些描述信息按照生产企业+药品通用名称+产品批准号为关键词存储到数据库中；将药品本位码也作为关键词存储到数据库中。

步骤7.周期抓取CFDA网站中的药品监管动态栏目中的新药信息发布。

步骤8.如果有新药发布则到国家食品药品监督管理总局药品评审中心网站（http://www.cde.org.cn/index.jsp）的信息公开栏目的收审情况子栏目中的受理品种目录浏览检索分析最新的药品名称及其生产企业。

步骤9.到对应的企业网站中抓取新的药品的说明书，采用OCR进行文字识别，并将结果进行保存。

进一步，步骤1中，所述服务器后台定时CFDA网站中的企业信息查询页面中的药品栏目，具体为：在第一次构建药品信息数据库时，利用网络爬虫抓取CFDA网站（http://www.sfda.gov.cn/）的药品栏目获取药品信息的全局数据。以后的数据更新则主要通过步骤6的分析来实施。

进一步，步骤2中，所述的分析并抓取药品栏目下的信息各种信息，获得药品类别的各种汇总信息，具体是国产药品数量等汇总数据存储起来用于数据分析的计数器来使用。

进一步，在步骤3中，所述的网络爬虫进一步到药品类别的子栏目中获取到具体信息，具体为：到国产药品子栏目、国产药品商品名子栏目、进口药品子栏目、进口药品商品名子栏目、药品注册补充备案情况公示子栏目、药品生产企业子栏目等进行数据深度挖掘。

进一步，在步骤4中，所述的将产品说明书按照命名规则保存到服务器中，具体为：按照生产企业+药品通用名称+批准文号为文件名称，说明书转换为pdf格式到服务器中。

优先地，所述的说明书转换为pdf格式到服务器中，按照每一个药品生产企业名称单独建立一个子目录，对应的pdf文档存储到其中。

进一步，在步骤5中，所述的采用微软的OCR来分析药品说明书，具体为：在完成初次药品信息采集之后，使用微软OCR提供 API来分析药品说明书。

进一步，在步骤7中，所述的周期抓取CFDA网站中的药品监管动态栏目中的新药信息发布，具体为：CFDA每个月会发布一份格式如“2016年11月总局批准20件药品上市 (2016-12-19)”的通知，定时在每月的10日之后，在每个周六来抓相关的数据，如果已经获取到发布信息，则在下一个月再抓取数据。

本发明的有益效果：本发明针对现有的药品说明书分散于各家药品生产企业，没有统一的数据信息库来存储分析利用，利用网络爬虫来根据CFDA发布的权威药品信息情况，到各个生产厂家将相应的药品信息挖掘汇总到数据库中，并根据新药发布的情况来定期更新药品数据库信息，从而为后期充分发掘利用药品信息提供了统一的具体的数据支撑。

附图说明

图1.本发明实施例提供的流程图。

具体实施方式

为了使本发明的目的、技术方案即优点更加清楚明白，以下结合附图及实施例，对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例，参考图1所示，一种基于网络爬虫的药品信息库构建方法，其特征在于，包括：

步骤101. 在服务器后台定时抓取CFDA网站中的企业信息查询页面中的药品栏目。

步骤102. 分析抓取其中的国产药品、国产药品商品名、进口药品、进口药品商品名、药品注册补充备案情况公示、药品生产企业等。

步骤103. 网络爬虫进一步到药品类别的子栏目中获取到具体信息。

步骤104. 如果CFDA药品数据分析，采用网络爬虫到药品生产企业中网站中下载药品的说明书。

步骤105. 采用微软的OCR模块来识别药品说明书，按照药品名称、成份、性状、作用类别、适应症、规格、用法用量、不良反应、禁忌、注意事项、药物相互作用、药理作用、存储、包装、有效期、执行标准、批准文号、说明书修订日期、生产企业等进行提取。

步骤106. 将识别的文字结果存储到数据库中，数据库的关键字生产企业+药品名称+批准文号；同时将药品本位码也作为关键词。

步骤107. 定时抓取CFDA药品监管动态，数据分析中发现有新的药品，则采用网络爬虫到药品生产企业中网站中抓取药品的说明书。

步骤108. 采用OCR识别说明书的文字信息，将识别的药品信息更新存储到数据库中。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：雷方元;戴青云;赵慧民;蔡君;魏文国;罗建桢
技术所有人：广东技术师范学院
我是此专利的发明人

上一篇：一种利用Docker容器进行虚拟内存数据库存储的实现方法与流程
上一篇：一种双相不锈钢相含量的测定方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。