一种动态抽取信息的方法和系统、存储介质与流程

文档序号:16532977发布日期:2019-01-05 10:55阅读:193来源:国知局
一种动态抽取信息的方法和系统、存储介质与流程

本发明实施例涉及信息处理技术领域,尤其涉及一种动态抽取信息的方法和系统、存储介质。



背景技术:

随着科学技术的发展,计算机的应用越发广泛。在现有技术中,对文本中的信息可以借助计算机进行处理。但是,计算机仅是作为某种工具,用于存储文本中的信息等。

也就是说,在现有技术中,当需要对文本中的信息进行提取时,只能通过人工的方式进行提取,然后结合计算机,将人工提取出的信息在计算机上进行整合。

因此,现有技术中存在由于人工对信息进行抽取,造成的出错率高,效率低等技术弊端。



技术实现要素:

为解决上述技术问题,本发明实施例提供了一种动态抽取信息的方法和系统、存储介质。

根据本发明实施例的一个方面,本发明实施例提供了一种动态抽取信息的方法,所述方法包括:

对获取到的目标文本进行解析,得到所述目标文本对应的目标名称;

从预设信息抽取规则中选取与所述目标名称相对应的目标信息抽取规则;

根据所述目标信息抽取规则从所述目标文本中提取结构化信息。

通过本实施例提供的:在对目标文本进行解析后,得到目标名称,根据目标名称从预设信息抽取规则中选取目标信息抽取规则,根据目标信息抽取规则从目标文本中提取结构化信息的技术方案,避免了现有技术中通过人工的方式对结构化信息进行抽取时,造成的出错率高,效率低等技术弊端,实现了高效且精准的对结构化信息进行抽取的技术效果。

进一步地,所述方法还包括:

对接收到的目标图形文件进行扫描,得到所述目标文本。

通过本实施例提供的:对目标图像文件进行扫描,从而得到目标文件的技术方案,实现了通过简单快捷的方式得到目标文本的技术效果,从而实现了加速获取结构化信息的技术效果。

进一步地,所述方法还包括:

根据所述目标名称确定所述目标文本对应的目标文件类型;

将所述目标文本保存至所述目标文件类型对应的目录。

通过本实施例提供的:在根据目标名称确定目标文本对应的目标文件类型后,将目标文本保存至目标文件类型对应的目录的技术方案,实现了对目标文本的自动化归档,提高了文件整理效率,节约了时间和成本。

进一步地,所述从预设信息抽取规则中选取与所述目标名称相对应的目标信息抽取规则,具体包括:

根据所述目标名称确定所述目标文本对应的目标文件类型;

根据所述目标文件类型从所述预设信息抽取规则中选取所述目标信息抽取规则。

通过本实施例提供的:根据目标名称确定目标文件类型,以便根据目标文件类型选取目标信息抽取规则的技术方案,实现了快速确定目标信息抽取规则的技术效果,从而进一步实现了得到结构化信息的高效性和准确性的技术效果。

进一步地,所述方法还包括:

对采集到的每种文件类型均配置与其对应的信息抽取规则,得到所述预设信息抽取规则。

通过本实施例提供的:通过采集多种文件类型,并对每种文件类型配置相应的信息抽取规则,得到多种信息抽取规则,即得到预设信息抽取规则的技术方案,实现了预设信息抽取规则的多样性的技术效果。

根据本发明实施例的另一个方面,本发明实施例提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如上所述的方法。

根据本发明实施例的另一个方面,本发明实施例提供了一种动态抽取信息的系统,所述系统包括:解析模块、选取模块和提取模块,其中,

所述解析模块用于:对获取到的目标文本进行解析,得到所述目标文本对应的目标名称;

所述选取模块用于:从预设信息抽取规则中选取与所述目标名称相对应的目标信息抽取规则;

所述提取模块用于:根据所述目标信息抽取规则从所述目标文本中提取结构化信息。

通过本实施例提供的技术方案,避免了现有技术中通过人工的方式对结构化信息进行抽取时,造成的出错率高,效率低等技术弊端,实现了高效且精准的对结构化信息进行抽取的技术效果。

进一步地,所述系统还包括:扫描模块,其中,

所述扫描模块用于:对接收到的目标图形文件进行扫描,得到所述目标文本。

通过本实施例提供的技术方案,实现了通过简单快捷的方式得到目标文本的技术效果,从而实现了加速获取结构化信息的技术效果。

进一步地,所述系统还包括:确定模块和保存模块,其中,

所述确定模块用于:根据所述目标名称确定所述目标文本对应的目标文件类型;

所述保存模块用于:将所述目标文本保存至所述目标文件类型对应的目录。

通过本实施例提供的技术方案,实现了对目标文本的自动化归档,提高了文件整理效率,节约了时间和成本。

进一步地,所述系统还包括:配置模块,其中,

所述配置模块用于:对采集到的每种文件类型均配置与其对应的信息抽取规则,得到所述预设信息抽取规则。

通过本实施例提供的技术方案,实现了预设信息抽取规则的多样性的技术效果。

进一步地,所述选取模块具体用于:

根据所述目标名称确定所述目标文本对应的目标文件类型;

根据所述目标文件类型从所述预设信息抽取规则中选取所述目标信息抽取规则。

通过本实施例提供的技术方案,实现了快速确定目标信息抽取规则的技术效果,从而进一步实现了得到结构化信息的高效性和准确性的技术效果。

附图说明

图1为本发明实施例提供的一种动态抽取信息的方法的流程示意图;

图2为本发明实施例提供的一种动态抽取信息的系统的结构示意图。

具体实施方式

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统以及方法的详细说明,以免不必要的细节妨碍本发明的描述。

本发明实施例提供了一种动态抽取信息的方法和系统、存储介质。

根据本发明实施例的一个方面,本发明实施例提供了一种动态抽取信息的方法。

第一实施例:

请参阅图1,图1为本发明实施例提供的一种动态抽取信息的方法的流程示意图。

如图1所示,该方法包括:

s100:对获取到的目标文本进行解析,得到目标文本对应的目标名称。

不同的文本对应的名称是不相同的。当某文本与另一文本的名称相同时,则称该两个文本为同一类型的文本。

在获取到某文本(即目标文本a)后,对目标文本a进行解析,以便得到与目标文件a对应的目标名称a。

具体地,可通过文字匹配、关键字匹配等方式确定目标文本对应的目标名称。如:

对目标文本a进行解析后,确定目标文本a中包含“商标注册申请受理通知书”字样,则根据该字样确定该目标文本a对应的目标名称即为“商标注册申请受理通知书”。

s200:从预设信息抽取规则中选取与目标名称相对应的目标信息抽取规则。

不同的文本对应的名称不同,不同的名称对应的信息抽取规则也并不相同。如:

当目标名称为“商标注册申请受理通知书”时,则其对应的目标信息抽取规则包括:申请日期抽取规则,申请号抽取规则等。

s300:根据目标信息抽取规则从目标文本中提取结构化信息。

当目标文本对应的目标名称为“商标注册申请受理通知书”时,则根据目标信息抽取规则从目标文本中提取结构化信息包括:

申请日:2017年x月x日;

申请号:22xxxx91;

发文编号:tmzc22xxxxxxxxsl01;

通知书名称:商标注册申请受理通知书;

通知书内容:根据《商标法》和《商标法实施条例》有关规定,此商标的注册申请我局已受理。类别:第xx类。

通过本实施例提供的:在对目标文本进行解析后,得到目标名称,根据目标名称从预设信息抽取规则中选取目标信息抽取规则,根据目标信息抽取规则从目标文本中提取结构化信息的技术方案,避免了现有技术中通过人工的方式对结构化信息进行抽取时,造成的出错率高,效率低等技术弊端,实现了高效且精准的对结构化信息进行抽取的技术效果。

第二实施例:

本实施例以第一实施例为基础。在本实施例中,该方法还包括:

对接收到的目标图形文件进行扫描,得到目标文本。

通过本实施例提供的:对目标图像文件进行扫描,从而得到目标文件的技术方案,实现了通过简单快捷的方式得到目标文本的技术效果,从而实现了加速获取结构化信息的技术效果。

第三实施例:

本实施例以第一或第二实施例为基础。在本实施例中,该方法还包括:

根据目标名称确定目标文本对应的目标文件类型。

不同的名称对应不同的文件类型。

根据某文本的名称确定该文本对应的文件类型。

将目标文本保存至目标文件类型对应的目录。

当确定某文本的名称为“商标注册申请受理通知书”时,则可确定该文本对应的文件类型为“通知书”类型的文件,则将该文本保存至通知书对应的目录中。

可以理解的时,对文件类型的划分可以是从大的范围上进行的划分。如:可以将“通知书”划分为同一种文件类型,即不管是“商标注册申请受理通知书”,还是“专利申请受理通知书”均为同一种文件类型,即“通知书”类型。

但是,也可以根据实际需求对文件类型从小的范围上进行划分。如:“商标注册申请受理通知书”为一种文件类型,“专利申请受理通知书”为另一种文件类型。

即,文件类型的划分可根据实际需求进行划分,上述示例只是用以说明文件类型划分的可行性,而不能理解为对文件类型划分的保护范围限定。

通过本实施例提供的:在根据目标名称确定目标文本对应的目标文件类型后,将目标文本保存至目标文件类型对应的目录的技术方案,实现了对目标文本的自动化归档,提高了文件整理效率,节约了时间和成本。

第四实施例:

本实施例以第一至第三任一实施例为基础。在本实施例中,s200具体包括:

根据目标名称确定目标文本对应的目标文件类型。

当此实施例(即第四实施例)为以第三实施例的实施例时,由于在第三实施例中已经包括根据目标名称确定目标文本对应的目标文件类型的步骤,则此步骤不再执行。

根据目标文件类型从预设信息抽取规则中选取目标信息抽取规则。

通过本实施例提供的:根据目标名称确定目标文件类型,以便根据目标文件类型选取目标信息抽取规则的技术方案,实现了快速确定目标信息抽取规则的技术效果,从而进一步实现了得到结构化信息的高效性和准确性的技术效果。

第五实施例:

本实施例以第一至第四任一实施例为基础。在本实施例中,该方法还包括:

对采集到的每种文件类型均配置与其对应的信息抽取规则,得到预设信息抽取规则。

通过本实施例提供的:通过采集多种文件类型,并对每种文件类型配置相应的信息抽取规则,得到多种信息抽取规则,即得到预设信息抽取规则的技术方案,实现了预设信息抽取规则的多样性的技术效果。

根据本发明实施例的另一个方面,本发明实施例提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如上第一实施例至第五实施例中的任一实施例所述的方法。

根据本发明实施例的另一个方面,本发明实施例提供了与上述方法相对应的一种动态抽取信息的系统。

请参阅图2,图2为本发明实施例提供的一种动态抽取信息的系统的结构示意图。

如图2所示,该系统包括:解析模块、选取模块和提取模块,其中,

解析模块用于:对获取到的目标文本进行解析,得到目标文本对应的目标名称;

选取模块用于:从预设信息抽取规则中选取与目标名称相对应的目标信息抽取规则;

提取模块用于:根据目标信息抽取规则从目标文本中提取结构化信息。

通过本实施例提供的技术方案,避免了现有技术中通过人工的方式对结构化信息进行抽取时,造成的出错率高,效率低等技术弊端,实现了高效且精准的对结构化信息进行抽取的技术效果。

在一种可能实现的技术方案中,该系统还包括:扫描模块,其中,

扫描模块用于:对接收到的目标图形文件进行扫描,得到目标文本。

通过本实施例提供的技术方案,实现了通过简单快捷的方式得到目标文本的技术效果,从而实现了加速获取结构化信息的技术效果。

在一种可能实现的技术方案中,该系统还包括:确定模块和保存模块,其中,

确定模块用于:根据目标名称确定目标文本对应的目标文件类型;

保存模块用于:将目标文本保存至目标文件类型对应的目录。

通过本实施例提供的技术方案,实现了对目标文本的自动化归档,提高了文件整理效率,节约了时间和成本。

在一种可能实现的技术方案中,该系统还包括:配置模块,其中,

配置模块用于:对采集到的每种文件类型均配置与其对应的信息抽取规则,得到预设信息抽取规则。

通过本实施例提供的技术方案,实现了预设信息抽取规则的多样性的技术效果。

在一种可能实现的技术方案中,选取模块具体用于:

根据所述目标名称确定所述目标文本对应的目标文件类型;

根据所述目标文件类型从所述预设信息抽取规则中选取所述目标信息抽取规则。

通过本实施例提供的技术方案,实现了快速确定目标信息抽取规则的技术效果,从而进一步实现了得到结构化信息的高效性和准确性的技术效果。

读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

还应理解,在本发明各实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。

以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1