开标记录信息的抽取方法、装置、电子设备和存储介质与流程

文档序号:33358245发布日期:2023-03-07 19:52阅读:33来源:国知局
开标记录信息的抽取方法、装置、电子设备和存储介质与流程

1.本技术涉及开标记录技术领域,尤其是涉及一种开标记录信息的抽取方法、装置、电子设备和存储介质。


背景技术:

2.开标记录是指在投标人提交投标文件后,招标人依据招标文件规定的时间和地点,开启投标人提交的投标文件,公开宣布投标人的名称、投标价格及其他主要内容的行为。多种投标方的数据通过数据接口上报或转载时,由于各站点规定的数据格式不同,导致站点之间数据不一致。如此一来,从这些站点获取到的数据就不够准确,不能直接进行保存和上传,需要人工核对,工作量大,并且容易出错。


技术实现要素:

3.本技术的目的在于提供一种开标记录信息的抽取方法、装置、电子设备和存储介质,提升了开标记录数据抽取的准确性,降低了人工成本。
4.第一方面,本发明提供一种开标记录信息的抽取方法,方法包括:获取开标记录公告数据;对开标记录公告数据进行预处理,得到目标开标数据;基于预先设置的关键词词库对目标开标数据进行信息抽取处理,得到开标记录信息;其中,开标记录信息用于表征开标记录过程中的关键信息。
5.在可选的实施方式中,对开标记录公告数据进行预处理,得到目标开标数据,包括:对开标记录公告数据进行格式统一处理,得到目标格式对应的开标数据;其中,开标记录公告数据的数据格式至少包括pdf格式、html格式和json格式;对目标格式对应的开标数据中所包含的预设字段进行清洗剔除,基于预设的符号保留规则对开标数据中的第一符号进行保留处理,并对开标数据中的第二符号进行符号格式统一处理,得到目标开标数据。
6.在可选的实施方式中,基于预先设置的关键词词库对目标开标数据进行信息抽取处理,得到开标记录信息,包括:确定目标开标数据中所包含的数据类型;其中,目标开标数据包括文本数据和/或表格数据;对目标开标数据的文本数据进行文本第一抽取处理,基于预先设置的关键词词库对目标开标数据的表格数据进行第二抽取处理,得到开标记录信息。
7.在可选的实施方式中,对目标开标数据的文本数据进行文本第一抽取处理,包括:基于预设的标注数据对初始命名实体识别模型进行训练,得到预先训练好的命名实体识别模型;基于预先训练好的命名实体识别模型和预设的正则表达式规则对目标开标数据中的文本数据进行文本抽取,确定目标开标信息;其中,目标开标信息至少包括投标单位、投标金额和开标时间中的一种或多种。
8.在可选的实施方式中,基于预先设置的关键词词库对目标开标数据的表格数据进行第二抽取处理,得到开标记录信息,包括:基于预先设置的关键词词库,对表格数据所包含的表头信息进行定位处理;基于表头信息确定目标查找位置,并对目标查找位置所在行
列的文本数据进行文本第一抽取处理,得到开标记录信息;其中,开标记录信息至少包括投标单位、投标金额、投标时间。
9.在可选的实施方式中,方法还包括:基于预设的非投标单位关键词词库对开标记录信息中的非投标单位进行清洗处理,得到排除预设过滤数据后的数据信息;预设过滤数据至少包括错误数据和非投标单位数据;对数据信息进行去重处理,得到去重后的开标记录信息;对去重后的开标记录信息进行投标金额、投标单位与投标金额的对应关系以及开标时间进行准确性验证,得到目标开标记录信息。
10.在可选的实施方式中,方法还包括:基于正则表达式对目标开标记录信息中的投标金额和投标时间进行处理,得到标准格式的目标开标记录信息。
11.第二方面,本发明提供一种开标记录信息的抽取装置,装置包括:数据获取模块,用于获取开标记录公告数据;预处理模块,用于对开标记录公告数据进行预处理,得到目标开标数据;抽取处理模块,用于基于预先设置的关键词词库对目标开标数据进行信息抽取处理,得到开标记录信息;其中,开标记录信息用于表征开标记录过程中的关键信息。
12.第三方面,本发明提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现前述实施方式任一项的开标记录信息的抽取方法。
13.第四方面,本发明提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现前述实施方式任一项的开标记录信息的抽取方法。
14.本技术提供的开标记录信息的抽取方法、装置、电子设备和存储介质,该方法首先获取开标记录公告数据,然后对开标记录公告数据进行预处理,得到目标开标数据,最后对目标开标数据进行信息抽取处理,得到开标记录信息;其中,开标记录信息用于表征开标记录过程中的关键信息。该方法通过基于预先设置的关键词词库对目标开标数据进行抽取处理,可以更加符合数据抽取的标准,从而可以自动对开标记录公告数据进行抽取处理,得到用于表征开标记录过程中的关键信息的开标记录信息,提升了开标记录数据抽取的准确性,降低了人工成本。
附图说明
15.为了更清楚地说明本技术具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本技术的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
16.图1为本技术实施例提供的一种开标记录信息的抽取方法的流程图;
17.图2为本技术实施例提供的一种具体的开标记录信息的抽取方法的示意图;
18.图3为本技术实施例提供的一种开标记录信息的抽取装置的结构图;
19.图4为本技术实施例提供的一种电子设备的结构图。
具体实施方式
20.为使本技术实施例的目的、技术方案和优点更加清楚,下面将结合本技术实施例
中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本技术实施例的组件可以以各种不同的配置来布置和设计。
21.因此,以下对在附图中提供的本技术的实施例的详细描述并非旨在限制要求保护的本技术的范围,而是仅仅表示本技术的选定实施例。基于本技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
22.应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
23.本技术实施例提供了一种开标记录信息的抽取方法,参见图1所示,该方法主要包括以下步骤:
24.步骤s102,获取开标记录公告数据。
25.开标记录是指在投标人提交投标文件后,招标人依据招标文件规定的时间和地点,开启投标人提交的投标文件,公开宣布投标人的名称、投标价格及其他主要内容的行为。
26.开标记录公告数据中包括大量上述行为中有价值的信息,诸如项目名称、采购单位名称、所属地区、开标时间、开标地点、投标单位、投标报价等。
27.在一种实施方式中,可以通过数据爬虫的方式获取上述开标记录公告数据。
28.步骤s104,对开标记录公告数据进行预处理,得到目标开标数据。
29.由于获取到的开标记录公告数据的格式可能包括多种,开标记录公告数据中的关键信息也具备不同形式,因此为了便于后续抽取处理,上述预处理可以为对多种不同来源的开标记录公告数据进行统一格式的处理。
30.步骤s106,基于预先设置的关键词词库对目标开标数据进行信息抽取处理,得到开标记录信息;其中,开标记录信息用于表征开标记录过程中的关键信息。
31.预先设置的关键词词库中包括有开标记录中所应用到的关键词信息,通过预先设置该关键词词库,可以对已进行格式统一后的目标开标数据进行关键信息的抽取,从而可以得到开标记录信息,诸如项目名称、采购单位名称、所属地区、开标时间、开标地点、投标单位、投标报价等。
32.本技术实施例提供的开标记录信息的抽取方法,通过基于预先设置的关键词词库对目标开标数据进行抽取处理,可以更加符合数据抽取的标准,从而可以自动对开标记录公告数据进行抽取处理,得到用于表征开标记录过程中的关键信息的开标记录信息,提升了开标记录数据抽取的准确性,降低了人工成本。
33.为便于理解,以下对本技术实施例所提供的开标记录信息的抽取方法的实施方式进行详细说明。
34.由于网络爬虫方式获得数据来源复杂多样,为便于后续信息抽取及数据保存或上传,在一可选的实施方式中,上述对开标记录公告数据进行预处理,得到目标开标数据,在具体实施时,可以包括以下步骤1.1)和步骤1.2):
35.步骤1.1),对开标记录公告数据进行格式统一处理,得到目标格式对应的开标数据;其中,开标记录公告数据的数据格式至少包括pdf格式、html格式和json格式;
36.步骤1.2),对目标格式对应的开标数据中所包含的预设字段进行清洗剔除,基于预设的符号保留规则对开标数据中的第一符号进行保留处理,并对开标数据中的第二符号进行符号格式统一处理,得到目标开标数据。
37.针对上述步骤1.1),可以将开标记录公告数据的数据格式(例如pdf格式、html格式或json格式等)转换为统一的格式,诸如,可以均转换为html格式,从而便于后续的处理。
38.针对上述步骤1.2),预设字段为开标数据中的无用字段,也即对统计开标记录行为没有贡献的字段。在一种实施方式中,清洗剔除可以包括清洗html的页头、页尾、script等。
39.因开标记录中的金额和日期格式多种多样,会保留部分符号,用以后期抽取,因此,在一种实施方式中,预设的符号保留规则可以为:对标点符号选择性保留,保留符号诸如可以包括以下示例:
40.‘
,’英文状态下的逗号,应用于金额236,693,99.00;
41.‘
e’,大写英文e应用于金额1.2345e4转换后为12345元;
42.‘‑’
应用于日期2020-09-03;
43.‘
:’应用于日期2020:09:03。
44.上述对开标数据中的第二符号进行符号格式统一处理,在实际应用中,诸如可以为将文本中的无关符号统一替换成固定字符,如:\t\r\n空格等。
45.进一步,在将数据格式进行统一处理后,可以对统一格式的目标开标数据进行信息抽取处理,以便对获取的大批量的网络数据进行整理,得到投标单位、投标金额、投标时间等。因此在一种实施方式中,上述基于预先设置的关键词词库对目标开标数据进行信息抽取处理,得到开标记录信息,在具体实施时,可以包括以下步骤2.1)和步骤2.2):
46.步骤2.1),确定目标开标数据中所包含的数据类型;其中,目标开标数据包括文本数据和/或表格数据;
47.步骤2.2),对目标开标数据的文本数据进行文本第一抽取处理,基于预先设置的关键词词库对目标开标数据的表格数据进行第二抽取处理,得到开标记录信息。
48.针对上述步骤2.1),为便于处理,上述通过预处理进行格式统一后的目标开标数据可以包括文本数据、表格数据以及既包括文本数据又包括表格数据三种格式。其中,文本数据为仅包括文本信息对应的数据,表格数据为包括表格格式以及表格格式中所包括的文本信息对应的数据,既包括文本数据又包括表格数据为既包括文本信息,同时也包括包含文本信息的表格格式对应的数据。
49.针对上述步骤2.2),在对文本数据进行处理时,也即对目标开标数据的文本数据进行文本第一抽取处理,在具体实施时,可以进一步包括以下步骤3.1)和步骤3.2):
50.步骤3.1),基于预设的标注数据对初始命名实体识别模型进行训练,得到预先训练好的命名实体识别模型。
51.步骤3.2)基于预先训练好的命名实体识别模型和预设的正则表达式规则对目标开标数据中的文本数据进行文本抽取,确定目标开标信息;其中,目标开标信息至少包括投标单位、投标金额和开标时间中的一种或多种。
52.针对上述步骤3.1),预设的标注数据诸如可以包括项目名称、采购单位名称、所属地区、开标时间、开标地点、投标单位、投标报价等数据,基于nlp中的ner(命名实体识别)技
术进行训练,得到可以直接抽取文本中的投标单位、投标金额、开标时间等数据。在一种实施方式中,可以训练多个模型,每个模型用于抽取一种数据,也可以训练一个模型,通过一个模型抽取上述多种数据。
53.针对上述步骤3.2),可以利用多条正则表达式规则进行抽取,抽取规则如:指定关键词投标人名称开头,以公司名称后缀词典中的内容结尾。通过这种方式,可以采用多条正则表达式分别对多种关键词信息进行抽取,从而可以提取相应的目标开标数据中的诸如投标单位、投标金额、开标时间等信息。
54.针对上述步骤2.2),在对表格数据进行处理时,也即基于预先设置的关键词词库对目标开标数据的表格数据进行第二抽取处理,得到开标记录信息,在具体实施时,可以包括以下步骤4.1)和步骤4.2):
55.步骤4.1),基于预先设置的关键词词库,对表格数据所包含的表头信息进行定位处理;
56.步骤4.2),基于表头信息确定目标查找位置,并对目标查找位置所在行列的文本数据进行文本第一抽取处理,得到开标记录信息;其中,开标记录信息至少包括投标单位、投标金额、投标时间。
57.针对上述步骤4.1),可以根据投标单位关键词词库中的内容,对表格的表头进行准确定位,两者一致或有包含关系;如:关键词,投标单位等等。
58.针对上述步骤4.2),所述目标查找位置为表头信息所在的行或者所在列,在确定目标查找位置后,可以对关键词投标单位名称(也即表头信息)所在的行和列的所有数据,遍历内容,统计行列中是以公司名称后缀词典中结尾的次数,如若表头信息为金额信息,则可以采用统计数字次数的方式确定。;
59.进一步,在得到上述开标记录信息后,为进一步提升信息抽取的准确性,上述方法还包括:
60.步骤5.1),基于预设的非投标单位关键词词库对开标记录信息中的投标单位进行清洗处理,得到排除预设过滤数据后的数据信息;预设过滤数据至少包括错误数据和非投标单位数据;
61.步骤5.2),对所述数据信息进行去重处理,得到去重后的开标记录信息;
62.步骤5.3),对去重后的开标记录信息进行投标金额、投标单位与投标金额的对应关系以及开标时间进行准确性验证,得到目标开标记录信息。
63.上述非投标单位至少可以包括招标单位、代理机构等其他机构信息,错误数据至少可以包括格式错误数据、乱码数据、残缺数据等等。通过对错误数据和非投标单位数据进行过滤,可以使得得到的数据信息更便于处理;并且,通过对错误数据和非投标单位数据清洗处理后再进行去重处理,可以使得最终得到的目标开标记录信息更加准确。
64.在一种示例中,针对投标单位的公司名称验证,可以采用公司尾缀词进行判断,根据非投标单位关键词词库,排除非投标单位(如:招标单位、代理机构等)等;多个公司的特殊情况,如:联合体牵头人xxx公司和联合体成员xxx公司,有关键词,根据关键词进行切割;无关键词通过ner模型再次抽取;
65.对抽取到的投标公司名称,进行去重,最终确定所有投标公司。
66.对投标金额的准确性验证可以包括特殊金额验证(9653536e6)、投标金额大于100
亿或小于100元等规则验证、排除非投标金额(如:证书编号、联系电话)等;
67.对投标公司与投标金额对应关系的准确性验证,可以以投标企业为关键词,遍历抽取到的投标金额,对下文固定窗口以内的文本进行金额验证。验证抽取结果的准确性,最终与投标公司形成对应关系。
68.此外,为了使得得到的开标记录信息更加便于处理、存储、上传等,在一可选的实施方式中,上述方法还包括:基于正则表达式对目标开标记录信息中的投标金额和投标时间进行处理,得到标准格式的目标开标记录信息。
69.例如,针对投标金额,还可以转换为数字,统一单位为万元,比如投标金额为"9190485.81元",转换为"919.048581万元"。
70.针对开标时间,如果预先获取的开标时间格式包括多种时,例如以三种格式为例,2022/06/03、2022:06:03、2022年6月3日,则可以通过正则表达式的规则统一为标准格式:2022-06-03。在实际应用中,还可以统一为其他格式,此处仅作示例,不作具体限定。
71.综上,本技术实施例还提供了一种具体的开标记录信息的抽取方法,参见图2所示,该方法首先获取开标记录文本数据,通过对开标记录文本数据进行数据清洗后得到多个字段:字段1-字段n,针对每个字段,可以通过正则表达式、命名实体识别模型和关键词词库进行数据抽取,其中,字段可以包括投标单位、投标金额、项目名称、开标时间等。抽取过后对字段进行验证,当验证正确时,将处理后的字段,整条自动化入库存储;如果验证不正确,则重新执行数据清洗的步骤。
72.通过创建投标单位关键词词库、非投标单位关键词词库、投标金额关键词词库、公司名称尾缀词词库等词库,对抽取结果进行有效的校验,保留正确结果,排除错误信息。同时利用多种信息抽取方法的融合,提升信息抽取的准确率。
73.基于上述方法实施例,本技术实施例还提供一种开标记录信息的抽取装置,参见图3所示,该装置主要包括以下内容:
74.数据获取模块32,用于获取开标记录公告数据;
75.预处理模块34,用于对开标记录公告数据进行预处理,得到目标开标数据;
76.抽取处理模块36,用于基于预先设置的关键词词库对目标开标数据进行信息抽取处理,得到开标记录信息;其中,开标记录信息用于表征开标记录过程中的关键信息。
77.本技术实施例提供的开标记录信息的抽取装置,通过基于预先设置的关键词词库对目标开标数据进行抽取处理,可以更加符合数据抽取的标准,从而可以自动对开标记录公告数据进行抽取处理,得到用于表征开标记录过程中的关键信息的开标记录信息,提升了开标记录数据抽取的准确性,降低了人工成本。
78.在一些实施方式中,上述预处理模块34,还用于:对开标记录公告数据进行格式统一处理,得到目标格式对应的开标数据;其中,开标记录公告数据的数据格式至少包括pdf格式、html格式和json格式;对目标格式对应的开标数据中所包含的预设字段进行清洗剔除,基于预设的符号保留规则对开标数据中的第一符号进行保留处理,并对开标数据中的第二符号进行符号格式统一处理,得到目标开标数据。
79.在一些实施方式中,上述抽取处理模块36,还用于:确定目标开标数据中所包含的数据类型;其中,目标开标数据包括文本数据和/或表格数据;对目标开标数据的文本数据进行文本第一抽取处理,基于预先设置的关键词词库对目标开标数据的表格数据进行第二
抽取处理,得到开标记录信息。
80.在一些实施方式中,上述抽取处理模块36,还用于:基于预设的标注数据对初始命名实体识别模型进行训练,得到预先训练好的命名实体识别模型;基于预先训练好的命名实体识别模型和预设的正则表达式规则对目标开标数据中的文本数据进行文本抽取,确定目标开标信息;其中,目标开标信息至少包括投标单位、投标金额和开标时间中的一种或多种。
81.在一些实施方式中,上述抽取处理模块36,还用于:基于预先设置的关键词词库,对表格数据所包含的表头信息进行定位处理;基于表头信息确定目标查找位置,并对目标查找位置所在行列的文本数据进行文本第一抽取处理,得到开标记录信息;其中,开标记录信息至少包括投标单位、投标金额、投标时间。
82.在一些实施方式中,上述装置还包括去重验证模块,用于:基于预设的非投标单位关键词词库对开标记录信息中的投标单位进行去重处理,得到去重后的开标记录信息;对去重后的开标记录信息进行投标金额、投标单位与投标金额的对应关系以及开标时间进行准确性验证,得到目标开标记录信息。
83.在一些实施方式中,上述装置还包括格式处理模块,用于:基于正则表达式对目标开标记录信息中的投标金额和投标时间进行处理,得到标准格式的目标开标记录信息。
84.本技术实施例提供的开标记录信息的抽取装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,开标记录信息的抽取装置的实施例部分未提及之处,可参考前述开标记录信息的抽取方法实施例中相应内容。
85.本技术实施例还提供了一种电子设备,如图4所示,为该电子设备的结构示意图,其中,该电子设备100包括处理器41和存储器40,该存储器40存储有能够被该处理器41执行的计算机可执行指令,该处理器41执行该计算机可执行指令以实现上述任一项开标记录信息的抽取方法。
86.在图4示出的实施方式中,该电子设备还包括总线42和通信接口43,其中,处理器41、通信接口43和存储器40通过总线42连接。
87.其中,存储器40可能包含高速随机存取存储器(ram,random access memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口43(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线42可以是isa(industry standard architecture,工业标准体系结构)总线、pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。所述总线42可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
88.处理器41可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器41中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器41可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processor,简称dsp)、专用集成电路(application specific integrated circuit,简称
asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器41读取存储器中的信息,结合其硬件完成前述实施例的开标记录信息的抽取方法的步骤。
89.本技术实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,该计算机可执行指令促使处理器实现上述开标记录信息的抽取方法,具体实现可参见前述方法实施例,在此不再赘述。
90.本技术实施例所提供的开标记录信息的抽取方法、装置、电子设备和存储介质的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
91.除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本技术的范围。
92.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
93.在本技术的描述中,需要说明的是,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
94.最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1