Word信息批量抓取方法、装置及服务器与流程

文档序号:33459995发布日期:2023-03-15 03:30阅读:36来源:国知局
Word信息批量抓取方法、装置及服务器与流程
word信息批量抓取方法、装置及服务器
技术领域
1.本发明涉及大数据处理领域,特别涉及一种word信息批量抓取方法、装置及服务器。


背景技术:

2.在大数据时代,各个行业都面临着对大规模数据集处理的问题,其中,数据表单常用于对各类信息进行归纳整理。
3.在利用数据表单对信息进行归纳处理过程中,常见的对某一数据库进行信息归纳。然而,对于复杂文件下的数据库无法实现精准的信息获取,如文件中存在多个相似表格等,无法更精确地找到目标信息。在该情况下,需要后期人工逐页查询并手工录入信息,当文件数量较大时,效率较低且正确率无法保证。
4.由此,在各工作场景中,尤其是文件数据较多的情况下,急需对相关技术中的信息获取方式进行改进,以达到实施的预期效果,本技术主要针对word文件中信息导入表单的场景进行信息获取方法的改进。


技术实现要素:

5.本发明提供了一种word信息批量抓取方法、装置及服务器,用于解决相关技术中word文件批量信息抓取时存在的效率低问题。所述技术方案如下:
6.一方面,提供了一种word信息批量抓取方法,所述word信息批量抓取方法适用于化合物信息归纳场景,所述方法包括:
7.根据化合物的待抓取信息定义数据库的字段,所述化合物的待抓取信息来源于统计化合物的word文件;
8.根据所述数据库的字段定义临时数据表单,所述临时数据表单的每行对应一份word文件中抓取到的化合物相关信息,所述临时数据表单的表头为所述数据库的字段;
9.根据关联信息将各word文件中抓取到的化合物相关信息存储至所述临时数据表单中,所述关联信息用于表示所述word文件的抓取路径;
10.将所述临时数据表单中的化合物相关信息导入至所述数据库中。
11.另一方面,提供了一种word信息批量抓取装置,所述word信息批量抓取装置适用于化合物信息归纳场景,所述装置包括:
12.字段定义模块,用于根据化合物的待抓取信息定义数据库的字段,所述化合物的待抓取信息来源于统计化合物的word文件;
13.表单定义模块,用于根据所述数据库的字段定义临时数据表单,所述临时数据表单的每行对应一份word文件中抓取到的化合物相关信息,所述临时数据表单的表头为所述数据库的字段;
14.信息抓取模块,用于根据关联信息将各word文件中抓取到的化合物相关信息存储至所述临时数据表单中,所述关联信息用于表示所述word文件的抓取路径;
15.信息导入模块,用于将所述临时数据表单中的化合物相关信息导入至所述数据库中。
16.另一方面,提供了一种服务器,所述服务器包括处理器和存储器;所述存储器存储有至少一条指令,所述至少一条指令用于被所述处理器执行以实现如上述方面所述的word信息批量抓取方法。
17.另一方面,提供了一种计算机可读存储介质,所述存储介质存储有至少一条指令,所述至少一条指令用于被处理器执行以实现如上述方面所述的word信息批量抓取方法。
18.另一方面,还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述方面所述的word信息批量抓取方法。
19.本发明带来的有益效果:
20.本发明中,提供了一种word信息批量抓取方法,适用于化合物信息归纳场景。该方法中,根据化合物的待抓取信息定义数据库的字段,并根据数据库的字段定义临时数据表单,进一步根据关联信息将各word文件中抓取到的化合物相关信息存储至临时数据表单中,最终将临时数据表单中的化合物相关信息导入至数据库中;与相关技术中化合物信息人工逐页录入的方式相比,极大的提高了信息导入表单效率,解决了实际工作场景的需求。
附图说明
21.图1示出了本发明一示例性实施例提供的word信息批量抓取方法的流程图;
22.图2示出了本发明另一示例性实施例提供的word信息批量抓取方法的流程图;
23.图3示出了本发明一示例性实施例提供的word信息批量抓取装置的结构框图;
24.图4示出了本发明一示例性实施例提供的服务器的结构方框图。
具体实施方式
25.为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
26.在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
27.本发明提供的一种word信息批量抓取方法可应用至一种计算机系统,该计算机系统包括终端和服务器,其中,终端与服务器之间通过通信网络进行数据通信,可选的,通信网络可以是有线网络也可以是无线网络,且该通信网络可以是局域网、城域网以及广域网中的至少一种。
28.终端用于存储word文件,或终端安装有数据处理系统用于采集存储word文件,并将已存储的word文件或实时操作数据发送至服务器,可选的,终端可以是智能手机、平板电脑、膝上便携式笔记本电脑等移动装置,也可以是台式电脑、投影式电脑等固定装置,本发明对此不做限定。
29.服务器可以实现为一台服务器,也可以实现为一组服务器构成的服务器集群,其可以是物理服务器,也可以实现为云服务器。在一种可能的实施方式中,服务器是终端内数
据处理系统的后台服务器,用于实现word信息批量抓取方法。
30.在一个示例中,服务器存储有终端录入发送的word文件,根据数据库的字段定义临时数据表单,当接收到数据库建立或更新指令时,服务器根据关联信息将各word文件中抓取到的化合物相关信息存储至临时数据表单中,进一步的,服务器将临时数据表单中的化合物相关信息导入至数据库中。
31.在其他可能的实施方式中,上述word信息批量抓取方法也可以实现成为终端功能的部分或全部,而无需借助服务器,本发明对此不作限定。
32.为了方便表述,下述各个实施例以word信息批量抓取方法由服务器执行为例进行说明。
33.实施例1
34.请参考图1,其示出了本发明一示例性实施例提供的word信息批量抓取方法的流程图。该方法适用于化合物信息归纳场景,该方法包括:
35.步骤101,根据化合物的待抓取信息定义数据库的字段。
36.其中,化合物的待抓取信息来源于统计化合物的word文件。
37.在一种可能的实施方式中,根据需要统计的化合物的待抓取信息来定义数据库包含的字段,从而配置字段类型,这些字段是固定的。
38.在一个示例中,对于每一份word文件,需要查找且定义好的字段为,am no方法号、compound name化合物名称、method type方法类型、matrix name、矩阵derivatization衍生化、column色谱柱、mobile phase/carry gas流动相/载气、gradient梯度信息、diluent溶剂、loq灵敏度信息、conc.of std(std浓度)、conc.of sample样品浓度,和note(指代为质谱离子参数)。
39.其中,数据库每列对应一个字段,数据库每行对应一份word文件中提取到的一个化合物的相关信息。
40.步骤102,根据数据库的字段定义临时数据表单。
41.其中,临时数据表单的每行对应一份word文件中抓取到的化合物相关信息,临时数据表单的表头为数据库的字段。
42.步骤103,根据关联信息将各word文件中抓取到的化合物相关信息存储至临时数据表单中。
43.其中,关联信息用于表示word文件的抓取路径。
44.在一种可能的实施方式中,步骤103包括内容一至三。
45.内容一、根据各字段在word文件中的抓取路径建立化合物的待抓取信息与对应字段之间的关联关系。如,字段“compound name”的抓取路径为word文件中表格的第一行第一列记载的文本信息,又如,字段“method type”的抓取路径为word文件的标题和简介。
46.内容二、根据关联关系指示的抓取路径从word文件中抓取各字段对应的化合物相关信息。
47.内容三、将化合物相关信息存储至临时数据表单中。
48.进一步的,内容一之前还包括抓取路径的归纳方法。
49.对历史word文件的化合物信息抓取进行采集,获取各字段在历史word文件中的抓取位置;根据各字段在历史word文件中的抓取位置,归纳出各字段在word文件中的抓取路
径。
50.步骤104,将临时数据表单中的化合物相关信息导入至数据库中。
51.综上所述,本方法中,提供了一种word信息批量抓取方法,适用于化合物信息归纳场景。该方法中,根据化合物的待抓取信息定义数据库的字段,并根据数据库的字段定义临时数据表单,进一步根据关联信息将各word文件中抓取到的化合物相关信息存储至临时数据表单中,最终将临时数据表单中的化合物相关信息导入至数据库中;与相关技术中化合物信息人工逐页录入的方式相比,极大的提高了信息导入表单效率,解决了实际工作场景的需求。
52.实施例2
53.请参考图2,其示出了本发明另一示例性实施例提供的word信息批量抓取方法的流程图。该方法包括:
54.步骤201,根据化合物的待抓取信息定义数据库的字段。
55.步骤202,根据数据库的字段定义临时数据表单。
56.步骤203,根据各字段在word文件中的上下文内容和位置关系,得到各字段的抓取规则。
57.步骤204,根据关联关系从word文件中抓取各字段对应的初始化合物相关信息。
58.步骤205,根据抓取规则从化合物相关信息筛选出各字段最终对应的化合物相关信息。
59.步骤206,将各字段最终对应的化合物相关信息存储至临时数据表单中。
60.步骤207,将临时数据表单中的化合物相关信息导入至数据库中。
61.在本技术实施例中,分析不同word文件的共性和差异,依托总结得到的各个字段在word文件中的上下文内容和位置关系,通过设置复杂的判断条件和正则表达式建立一条数据提取的抓取规则,实现根据每个字段制定相应的抓取规则来缩小搜索范围,更精确地找到目标信息。
62.请参考图3,其示出了本发明一示例性实施例提供的word信息批量抓取装置的结构框图,word信息批量抓取装置适用于化合物信息归纳场景,该装置包括:
63.字段定义模块301,用于根据化合物的待抓取信息定义数据库的字段,所述化合物的待抓取信息来源于统计化合物的word文件;
64.表单定义模块302,用于根据所述数据库的字段定义临时数据表单,所述临时数据表单的每行对应一份word文件中抓取到的化合物相关信息,所述临时数据表单的表头为所述数据库的字段;
65.信息抓取模块303,用于根据关联信息将各word文件中抓取到的化合物相关信息存储至所述临时数据表单中,所述关联信息用于表示所述word文件的抓取路径;
66.信息导入模块304,用于将所述临时数据表单中的化合物相关信息导入至所述数据库中。
67.可选的,所述信息抓取模块303,包括:
68.第一抓取单元,用于根据各字段在所述word文件中的抓取路径建立所述化合物的待抓取信息与对应字段之间的关联关系;
69.第二抓取单元,用于根据所述关联关系指示的抓取路径从所述word文件中抓取所
述各字段对应的化合物相关信息;
70.第三抓取单元,用于将所述化合物相关信息存储至所述临时数据表单中。
71.可选的,所述第一抓取单元之前,所述装置还包括:
72.第一抓取模块,用于对历史word文件的化合物信息抓取进行采集,获取各字段在所述历史word文件中的抓取位置;
73.第二抓取模块,用于根据各字段在所述历史word文件中的抓取位置,归纳出各字段在所述word文件中的抓取路径。
74.可选的,所述信息导入模块304之前,所述装置还包括:
75.第三抓取模块,用于根据所述各字段在所述word文件中的上下文内容和位置关系,得到所述各字段的抓取规则;
76.第四抓取模块,用于所述根据关联信息将各word文件中抓取到的化合物相关信息存储至所述临时数据表单中,包括:
77.第五抓取模块,用于根据所述关联关系从所述word文件中抓取各字段对应的初始化合物相关信息;
78.第六抓取模块,用于根据所述抓取规则从所述化合物相关信息筛选出各字段最终对应的化合物相关信息;
79.第七抓取模块,用于将各字段最终对应的化合物相关信息存储至所述临时数据表单中。
80.可选的,所述抓取规则表现为判断条件和正则表达式。
81.请参考图4,其示出了本发明一个实施例提供的服务器400的结构示意图。该服务器400可用于实施于上述实施例中提供的word信息批量抓取方法。具体来讲:
82.服务器400包括中央处理单元(cpu)401、包括随机存取存储器(ram)402和只读存储器(rom)403的系统存储器404,以及连接系统存储器404和中央处理单元401的系统总线405。服务器400还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(i/o系统)406,和用于存储操作系统413、应用程序414和其他程序模块415的大容量存储设备407。
83.基本输入/输出系统406包括有用于显示信息的显示器408和用于用户输入信息的诸如鼠标、键盘之类的输入设备409。其中显示器408和输入设备409都通过连接到系统总线405的输入输出控制器410连接到中央处理单元401。基本输入/输出系统406还可以包括输入输出控制器410以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器410还提供输出到显示屏、打印机或其他类型的输出设备。
84.大容量存储设备407通过连接到系统总线405的大容量存储控制器(未示出)连接到中央处理单元401。大容量存储设备407及其相关联的计算机可读介质为服务器400提供非易失性存储。也就是说,大容量存储设备407可以包括诸如硬盘或者cd-rom驱动器之类的计算机可读介质(未示出)。
85.不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、eprom、eeprom、闪存或其他固态存储其技术,cd-rom、dvd或其他光学存储、磁带盒、磁
带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器404和大容量存储设备407可以统称为存储器。
86.根据本发明的各种实施例,服务器400还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器400可以通过连接在系统总线405上的网络接口单元411连接到网络412,或者说,也可以使用网络接口单元411来连接到其他类型的网络或远程计算机系统(未示出)。
87.存储器还包括一个或者一个以上的程序,一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于实现上述服务器侧的word信息批量抓取方法的指令。
88.所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集经配置以由一个或者一个以上处理器执行,以实现上述word信息批量抓取方法中各个步骤的功能。
89.本发明还提供一种计算机可读存储介质,该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述各个实施例提供的word信息批量抓取方法。
90.可选地,该计算机可读存储介质可以包括:只读存储器(rom,read only memory)、随机存取记忆体(ram,random access memory)、固态硬盘(ssd,solid state drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(reram,resistance random access memory)和动态随机存取存储器(dram,dynamic random access memory)。
91.上述本发明序号仅仅为了描述,不代表实施例的优劣。
92.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
93.以上所述仅为本发明的可选实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1