一种基于PDF格式的保险产品关键信息解析方法、装置及系统与流程

文档序号:17442835发布日期:2019-04-17 05:01阅读:163来源:国知局
一种基于PDF格式的保险产品关键信息解析方法、装置及系统与流程

本发明涉及信息抽取领域,具体为一种基于pdf格式的保险产品关键信息解析方法、装置及系统。



背景技术:

信息抽取是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起,这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。信息抽取技术并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,则由系统设计时定下的领域范围而定。

近年来,保险行业的发展十分迅速,各类保险产品层出不穷,作为保险产业开发人员或者要对该领域作出系统调查时,需要对现有的保险产品进行整理分析。有相关数据统计,市面上每天新生成的保险产品在5万份左右,如果完全采用人工解析,耗费的人力成本将是巨大的。

针对保险产品的信息抽取对于整个保险行业的发展规划来说是非常有用的,能够让产品设计人员、行业调查者乃至普通消费者对于保险行业的现状及其发展趋势有一个比较全面的了解。网络上的保险产品主要分布于保监会及各大保险公司门户网站,以pdf格式保存,如果能对这些保险产品进行信息抽取,无疑是有益的。



技术实现要素:

基于此,有必要针对上述问题,提供一种基于pdf格式的保险产品关键信息解析方法。

本发明实施例是这样实现的,一种基于pdf格式的保险产品关键信息解析方法,包括以下步骤:

利用网络爬虫捉取指定网站的保险产品pdf文件;

自动解析所述pdf文件;

将解析结果发送给人工工作台以进行人工校对,接收人工工作台的校对结果;

将校对结果入库保存。

此外,本发明实施例还提供了一种基于pdf格式的保险产品关键信息解析装置,包括:

保险产品捉取模块,用于利用网络爬虫捉取指定网站的最新的保险产品pdf文件;

nlp解析服务器,用于自动解析所述pdf文件;

人工校对模块,用于将解析结果发送给人工工作台以进行人工校对,接收人工工作台的校对结果;

数据库模块,用于将校对结果入库保存。

同时,本发明实施例还提供了一种基于pdf格式的保险产品关键信息解析系统,包括:

如上任一实施例所述的装置以及人工工作台。

本发明实施例提供的一种基于pdf格式的保险产品关键信息解析方法,利用网络爬虫捉取指定网站的pdf格式的保险产品,对所述pdf格式的保险产品进行自动解析后再进行校对,最后的将校对结果存入数据库,需要时直接从数据库中调取。采用该方法对所述pdf格式的保险产品进行解析,可以定时或定量从指定网站上捉取相应的pdf格式的保险产品,根据保险产品的更新或者变更及时更新数据库,并且极大地节约了人力成本,提高了效率。

附图说明

图1为本发明实施例提供的一种基于pdf格式的保险产品关键信息解析方法应用环境示意图;

图2为本发明实施例提供的一种基于pdf格式的保险产品关键信息解析方法流程示意图;

图3为本发明实施例提供的一种基于pdf格式的保险产品关键信息解析装置结构示意图;

图4为本发明实施例提供的一种基于pdf格式的保险产品关键信息解析系统结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图1-3及实施例,对本发明进行进一步详细说明。应当理解,此处所述的具体实施例仅仅用于解释本发明,并不用于限定本发明。

本发明实施例提供的一种基于pdf格式的保险产品关键信息解析方法,利用网络爬虫捉取指定网站的pdf格式的保险产品,对所述pdf格式的保险产品进行自动解析后再进行校对,最后的将校对结果存入数据库,需要时直接从数据库中调取。采用该方法对所述pdf格式的保险产品进行解析,可以定时或定量从指定网站上捉取相应的pdf格式的保险产品,根据保险产品的更新或者变更及时更新数据库,并且极大地节约了人力成本,提高了效率。

如图1所示,本发明的一个实施例给出了本发明一种基于pdf格式的保险产品关键信息解析方法的应用环境,包括信息解析和存储部分101,保险公司官网服务器102以及intenetr网络103。

在本发明实施例中,所述信息解析和存储部分101通过internet网络103进入到所述保险公司官网服务器102,全量或者定时、定时提取所述保险公司官网服务器102上存储的pdf格式的保险产品并对其进行解析校对,将解析校对后的文件入库保存,需要时从数据库中提取即可。

该方法基于现有网络架构,不需要额外开发新硬件设备,组成简单,易于实现。

如图2所示,本发明一个实施例中,一种基于pdf格式的保险产品关键信息解析方法,包括:

步骤s201,利用网络爬虫捉取指定网站的保险产品pdf文件;

步骤s202,自动解析所述pdf文件;

步骤s203,将解析结果发送给人工工作台以进行人工校对,接收人工工作台的校对结果;

步骤s204,将校对结果入库保存。

在本发明一个实施例中,所述指定网站包括保监会官网、各保险公司官网。中国保险监督管理委员会、中国保险行业协会以及各大保险公司官方网站上存有大量的保险产品的信息,利用网络爬虫,采取定期或者定量的方式捉取网站上的保险产品pdf文件,可以快速而全面地获取相关保险产品信息,为保险产品的设计及保险行业的发展规划提供重要数据来源。

在本发明一个实施例中,所述网络爬虫包括授权爬虫和非授权爬虫。授权爬虫和非授权爬虫其区别在于其权限的不同,根据需要选择授权爬虫或者非授权爬虫,可以更全面地收集所需信息,扩大初始信息来源,丰富了数据库,使调查收集更为全面合理。

在本发明一个实施例中,所述自动解析采用的是汉语言处理工具hanlp。hanlp(hanlanguageproccessing)是由一系列模型与算法组成的java工具包,目标是普及自然语言处理在生产环境中的应用。不仅仅是分词,而是提供词法分析、句法分析、语义理解等完备的功能,hanlp具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。hanlp完全开源,包括词典,不依赖其他jar,底层采用了一系列高速的数据结构,如双数组trie树、dawg、ahocorasickdoublearraytrie等,这些基础件都是开源的。官方模型训练自2014人民日报语料库,也可以使用内置的工具训练自己的模型。利用hanlp对所述保险产品pdf文件进行自动解析,可以极大地提高工作效率。

在本发明一个实施中,人工校对占全部解析工作量的10%以内。依靠hanlp的强大功能完成了解析工作的绝大部分内容,但是自动解析仍然难免存在错漏,因此需要对解析后的结果进行校对,更正其中的错漏信息,使经过整个解析流程后得到的解析数据是真实准确的;特别地,针对于保险产品,其中涉及的时间、金额、人员等信息显得优为重要,校对过程保证了信息的准确可靠,是必要的环节。采用该方法对所述保险产品pdf文件进行解析,能将校对的工作量控制在10%以内,极大地提高了工作效率,节约了人力成本。

在本发明一个实施例中,自动解析所述pdf文件可以是全文解析也可以特定信息抽取。例如收集整理的目的在于比较不同保险产品时,可能更关注保险条款中与时间、金额、保险范围、免责条款等相关的信息,在自动解析程序中准确定位此类信息可以进一步提高解析的效率,获取真正需要的信息,同时也是系统本身智能化发展的方向;而对于如保险公司或者保险产品设计人员,他们对于保险文件的全部内容都比较关注,此时可以定义全文解析。

在本发明一个实施例中,所述将校对结果入库保存可以直接保存实体文本也可以采用数字信息的形式进行保存。保存实体文本可以方便查阅、核对,但需要一定的物理空间,且需要人员管理;数字文本可以保存于非易失性存储介质,如硬盘、光盘、u盘中,便于转移携带,且存储时间长。此是实施人员可以按需要选择的,本发明对不作过多限制。

本发明实施例提供的一种基于pdf格式的保险产品关键信息解析方法,利用网络爬虫捉取指定网站的pdf格式的保险产品,对所述pdf格式的保险产品进行自动解析后再进行校对,最后的将校对结果存入数据库,需要时直接从数据库中调取。采用该方法对所述pdf格式的保险产品进行解析,可以定时或定量从指定网站上捉取相应的pdf格式的保险产品,根据保险产品的更新或者变更及时更新数据库,并且极大地节约了人力成本,提高了效率。

本发明的另一个实施例提供了一种基于pdf格式的保险产品关键信息解析装置,如图3所示,包括:

保险产品捉取模块301,用于利用网络爬虫捉取指定网站的保险产品pdf文件;

nlp解析服务器302,用于自动解析所述pdf文件;

人工校对模块303,用于将解析结果发送给人工工作台以进行人工校对,接收人工工作台的校对结果;

数据库模块304,用于将校对结果入库保存。

在本发明实施例中,各模块可以集中设置于同一设备上,也可以采用分布式设计,将不同的功能模块分置于多台设备当中,相应的,多台设备可以同一地点存放也可以多地点设置;多台设备之间通过无线或者有线的方式进行通信;当数据库采用实体文档的形式保存校对结果时,所述数据库还应当设置电子文档转换设置,如打印机等,将文档转化为实体文件进行保存;又如扫描仪等,需要提取数据时将实体文档转化为电子文档。

本发明实施例提供了一种基于pdf格式的保险产品关键信息解析装置,设置有保险产品捉取模块301,用于利用网络爬虫捉取指定网站的保险产品pdf文件;nlp解析服务器302,用于自动解析所述pdf文件;校对模块303,用于校对解析结果;数据库模块304,用于将校对结果入库保存。采用该装置对所述pdf格式的保险产品进行解析,可以定时或定量从指定网站上捉取相应的pdf格式的保险产品,根据保险产品的更新或者变更及时更新数据库,并且极大地节约了人力成本,提高了效率。

此外,本发明实施例还提供了一种基于pdf格式的保险产品关键信息解析系统300,如图4所述,包括保险产品捉取模块301,nlp解析服务器302,人工校对模块303,数据库模块304以及人工工作台305。

在本发明实施例中,所述pdf格式的保险产品来源于各个保险公司官网服务器,保险产品捉取模块301利用网络爬虫从指定的一个或多个保险公司官网服务器中定期或者定量抓取所述pdf格式的保险产品,nlp解析服务器302利用汉语言处理工具hanlp对所述pdf格式的保险产品进行自动解析,人工校对模块303将解析结果传送到人工工作台305进行人工校对,校对的结果由数据库模块304保存备用。

采用该系统对所述pdf格式的保险产品进行解析,可以定时或定量从指定网站上捉取相应的pdf格式的保险产品,根据保险产品的更新或者变更及时更新数据库,并且极大地节约了人力成本,提高了效率。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1