一种基于pdfplumber的PDF商务文件文本关键词提取方法及设备与流程

文档序号:36638470发布日期:2024-01-06 23:24阅读:24来源:国知局
本发明涉及文本处理,尤其涉及一种基于pdfplumber的pdf商务文件文本关键词提取方法、装置、设备及存储介质。
背景技术
::1、商务文件通常包括以下内容:企业简介及资质、法人代表委托书、法人及代理人身份证明、企业业绩等。其中最先关注的是企业简介及资质,包括名称、招标编号、营业执照等基本信息。2、pdf(portable document format,便携式文档格式)是由adobe systems公司在21世纪末发展出来的用于文件交换的一种文件格式,因为其出色的跨平台性和能保留文件原有格式以及兼容多种开放标准,使得它成为在互联网上进行电子文档发行和数字化信息传播的理想文档格式。本技术要处理的就是pdf商务文件。3、pdfplumber是一个可以处理pdf格式信息的库。可以查找关于每个文本字符、矩阵、和行的详细信息,也可以对表格进行提取并进行可视化调试。在机器生成而不是扫描的pdf上效果最好。基于pdfminer.six构建。本库最重要的应用是提取页面上的文本和表格。4、关键文本信息提取是指从一段文本(通常较长)中自动提取文本中关键信息的过程,通常来说关键信息是指该文本涉及的主要对象和对象的独特属性等信息。5、由于pdf文件内部没有包含其显示版面上的物理结构和内容的逻辑结构,因此采用程序解析pdf文档提取信息的方式比较困难。目前,与本发明相接近的现有技术通常直接使用pdfplumber的识别结果作为提取结果,优化较少;且没有针对商务投标文件做专门的关键信息模式匹配。因此,存在以下几种缺点:6、效率低:除非pdf中的文字排布非常规整,pdfplumber的提取结果才能直接使用。而商务文件中每页的文字排布往往无规律性,导致使用pdfplumber的同类技术提取出的文字格式混乱,夹杂了许多空格、换行。我们对这些混乱做了优化,使得结果规整,能够更有效地用到之后模式对比的步骤中。7、误差大:即使去除了格式混乱,直接用pdfplumber作为提取器提取,结果中的部分文字会识别错误。我们对提取结果做了后处理,精简检索某一项信息时的关键字,提高最终识别结果的鲁棒性。8、功能少:由于pdf文件内部没有包含其显示版面上的物理结构和内容的逻辑结构,因此采用程序解析pdf文档提取信息的方式比较困难。目前,市面上暂无专门提取pdf商务投标文件中关键信息的软件;关键文本信息的提取依然通常采用人工提取的方式,显然有时间、人力成本高昂的缺点。技术实现思路1、本发明提供一种基于pdfplumber的pdf商务文件文本关键词提取方法、装置、设备及存储介质,旨在克服现有的提取商务文件中项目基本信息关键词以及表格关键词方法的不足,需要结合多页pdf的提取结果整合出完整信息,并且对pdfplumber的提取结果进行优化,提高准确率及提取效率。2、为此,本发明的目的在于提出一种基于pdfplumber的pdf商务文件文本关键词提取方法,包括:3、选定pdf商务文件,以页为单位,通过pdfplumber提取pdf商务文件每一页中的所有文本;4、对通过pdfplumber的提取的pdf商务文件每一页中的所有文本进行优化;5、根据项目基本信息关键词提取功能或表格关键词提取功能,在优化后的pdf商务文件每一页中的所有文本中提取信息关键词或表格关键词。6、其中,选定pdf商务文件,以页为单位,通过pdfplumber提取pdf商务文件每一页中的所有文本,包括:7、以手动或pdfplumber程序自动选择,选定pdf商务文件;8、通过pdfplumber程序打开并读取pdf商务文件,得到pdf商务文件的pdf类(class);处理得到pdf商务文件的所有文本。9、其中,pdfplumber程序包括pdfplumber库,其顶级pdfplogur.pdf类,表示单个pdf,并具有两个属性:10、.metadata属性,表示元数据键/值对的字典,取自pdf的“info”值,包括“creationdate”、“moddate”和“producer”;11、.pages属性,表示一个列表,包含每个加载页面的一个pdfplumber.page实例。12、其中,对通过pdfplumber的提取的pdf商务文件每一页中的所有文本进行优化,包括:13、使用python中的str.replace()函数,去除pdf商务文件每一页中的所有文本中多余的换行和空格;14、处理pdf商务文件每一页中的所有文本中中none的情况,得到连贯的字符串content。15、其中,根据项目基本信息关键词提取功能或表格关键词提取功能,在优化后的pdf商务文件每一页中的所有文本中提取信息关键词或表格关键词,包括:16、对于提取项目基本信息关键词,根据pdf商务文件中的信息文本的结构特点,编写正则表达式;17、对于提取表格名称关键词,在得到规范化的整页文本提取结果,即连贯的字符串content,通过程序循环,在pdf商务文件中的每页比对文本content和可能存在的待提取表格名称并进行提取。18、其中,正则表达式具有模糊匹配功能,即可以匹配不同写法、但表示同一意思的关键词,以增强整个提取程序的提取成功率;19、在得到规范化的整页文本提取结果后,通过pdfplumber程序循环提取每页中的项目基本信息关键词,将关键词整合。20、其中,根据pdf商务文件中的信息文本的结构特点,编写正则表达式,包括:21、针对每一项需要的项目基本信息,解析对应的编写好的特定正则表达式;将整页文本内容,即优化过的连贯字符串content与之做匹配;22、如果匹配成功,即此页文本内容中包含设定的关键词,对关键词进行提取记录;23、通过pdfplumber程序将全部关键词进行整合,完成整个项目基本信息关键词的提取。24、此外,本发明的目的还在于提出一种基于pdfplumber的pdf商务文件文本关键词提取装置,包括:25、文本提取模块,用于选定pdf商务文件,以页为单位,通过pdfplumber提取pdf商务文件每一页中的所有文本;26、文本优化模块,用于对通过pdfplumber的提取的pdf商务文件每一页中的所有文本进行优化;27、关键词提取模块,用于根据项目基本信息关键词提取功能或表格关键词提取功能,在优化后的pdf商务文件每一页中的所有文本中提取信息关键词或表格关键词。28、本发明的目的还在于提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现如前述技术方案任一的方法。29、本发明的目的还在于提出一种非临时性计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如前述技术方案的方法。30、区别于现有技术,本发明提供的基于pdfplumber的pdf商务文件文本关键词提取方法,通过逐页扫描pdf商务文件,用pdfplumber做提取操作;对直接提取出的结果做处理,使得文字串规范化;根据项目基本信息关键词提取功能或表格关键词提取功能,做不同处理。前者的关键步骤是创建正则表达式,再用正则表达式与本页提取结果做模式匹配;后者的关键步骤是根据提取结果与欲提取表格的关键词做匹配,从而判断是否需要进行提取表格动作,或提取表格后检查表格合法性。通过本发明,能够克服现有的提取商务文件中项目基本信息关键词以及表格关键词方法的不足,需要结合多页pdf的提取结果整合出完整信息,并且对pdfplumber的提取结果进行优化,提高准确率及提取效率。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1