包括用于自动化文档处理的技术的AI增强的审计平台的制作方法

文档序号:37602586发布日期:2024-04-18 12:46阅读:541来源:国知局
包括用于自动化文档处理的技术的AI增强的审计平台的制作方法

本发明一般而言涉及文档处理,并且更具体而言,涉及包括用于自动化文档处理的技术的ai增强的审计平台。


背景技术:

1、ai增强的审计平台受益于自动化文档处理技术,包括自动化文档分类和聚类、自动化签名检测和验证,以及从pdf文档和其它文档格式的自动化信息提取。


技术实现思路

1、用于文档分类的已知技术没有适当地充分利用上下文数据来指导文档分类,尤其是在审计过程的上下文中。如本文所述,可以有效且高效地充分利用审计过程中可用的上下文数据,以便提高在ai增强的审计平台中使用的文档分类和聚类的准确性和效率。

2、在一些实施例中,一种用于自动化文档处理的系统可以被配置为执行自动化文档分类(例如,根据不同文档类型对文档进行分类)和/或文档捆绑(document bundling)。如本文所述,作为审计审查过程的一部分,系统可以应用ai方法的集合以结合多页文档分类ml模型充分利用上下文数据来准确地确定文档包(document bundle)的组成,诸如由ai增强的审计平台接收到的文档包。

3、例如出于保证目的,文档处理常常要求核实签名(或缩写)出现在特定区域中或与文档中的特定主题相关联。单个文档或文档包中可以存在多于一个部分、多于一个主题和/或多于一个签名。用于签名检测的已知技术要求手动审查和核实,这是低效且不准确的并且不允许大规模处理文档。

4、在一些实施例中,一种用于自动化文档处理的系统可以被配置为执行自动化签名检测,包括通过应用学习签名可能出现在给定文档类型上的何处的ai模型。在文档摄取和处理期间,系统可以验证正被处理的文档实际上在文档内的预期/所需位置处具有签名。本文提供的系统和方法可以被用于自动处理文档以确定所述文档是否提供具有所需且足够的签名的证据,以满足货物运输、货物接收、合同协定等的担保准则。

5、以pdf格式、图像格式和其它格式存储的文档可以包含大量信息,并且提取所述信息可以是ai驱动的保证过程和ai增强的审计平台执行的其它任务的重要组成部分。例如,ai驱动的保证过程可以依赖于pdf中所存储的数据的自动化提取,使得作为审计过程的一部分,发票和/或其它信息(例如,证据信息)可以得到充分考虑、正确理解和应用。文档的高效处理可以使审计过程能够详尽地考虑所有可用的证据(例如,文档)数据,而不是简单地考虑其一小部分样本。

6、在一些实施例中,本文描述的文档处理和信息提取系统充分利用(a)使用语义和形态分析的自然语言处理与(b)基于模糊匹配的弱标记以及基于文本和计算机视觉的深度学习的独特组合。被配置为从pdf中提取信息的组合模型可以提供nlp、文本和计算机视觉的集合。

7、在一些实施例中,提供了第一系统,该第一系统用于确定文档包的组成,该第一系统包括一个或多个处理器,该一个或多个处理器被配置为使得第一系统:接收包括文档包的第一输入数据;从文档包中提取包括文档包的一个或多个文档的实质内容的第一信息;从文档包中提取包括与文档包的一个或多个文档相关联的元数据的第二信息;基于第一信息和第二信息生成表示文档包的组成的输出数据。

8、在第一系统的一些实施例中,表示文档包的组成的输出数据表示文档包中的页面边界之间的一个或多个勾勒。

9、在第一系统的一些实施例中,生成输出数据还基于从与文档包相关联的实体的erp系统获得的信息。

10、在第一系统的一些实施例中,元数据包括以下各项中的一项或多项:文件名、文件扩展名、文件创建者、文件日期以及关于用于获取数据的自动化处理流程的信息。

11、在第一系统的一些实施例中,提取第一信息包括应用嵌入式对象类型检测。

12、在第一系统的一些实施例中,生成输出数据包括将页面相似性评估模型应用于文档包的多个页面。

13、在一些实施例中,提供了第一非暂态计算机可读存储介质,该第一非暂态计算机可读存储介质存储用于确定文档包的组成的指令,该指令被配置为由系统的一个或多个处理器执行以使系统:接收包括文档包的第一输入数据;从文档包中提取包括文档包的一个或多个文档的实质内容的第一信息;从文档包中提取包括与文档包的一个或多个文档相关联的元数据的第二信息;基于第一信息和第二信息生成表示文档包的组成的输出数据。

14、在一些实施例中,提供了第一方法,该第一方法用于确定文档包的组成,其中第一方法由包括一个或多个处理器的系统执行,第一方法包括:接收包括文档包的第一输入数据;从文档包中提取包括文档包的一个或多个文档的实质内容的第一信息;从文档包中提取包括与文档包的一个或多个文档相关联的元数据的第二信息;基于第一信息和第二信息生成表示文档包的组成的输出数据。

15、在一些实施例中,提供了第二系统,该第二系统用于验证文档中的签名,该第二系统包括一个或多个处理器,该一个或多个处理器被配置为使得第二系统:接收包括一个或多个签名的电子文档;将一个或多个签名提取模型应用于电子文档,以便为电子文档中的一个或多个签名中的每个签名生成表示相应签名的空间位置和相应签名的置信度水平的数据;基于表示空间位置和置信度水平的数据来确定电子文档是否满足签名准则的集合。

16、在第二系统的一些实施例中,一个或多个签名提取模型包括被配置为识别签名而不管空间位置的第一签名提取模型。

17、在第二系统的一些实施例中,一个或多个签名提取模型包括被配置为基于文档内空间位置来识别签名的第二签名提取模型。

18、在第二系统的一些实施例中,应用第二签名提取模型包括:基于电子文档的结构、格式和类型中的一个或多个确定电子文档内的预测的空间位置;以及从预测的空间位置提取签名。

19、在第二系统的一些实施例中,确定电子文档是否满足签名准则的集合包括确定签名是否出现在电子文档中所需的空间位置处。

20、在第二系统的一些实施例中,确定电子文档是否满足签名准则的集合包括确定置信度水平超过预定义阈值。

21、在第二系统的一些实施例中,确定电子文档是否满足签名准则的集合包括确定签名是否出现在电子文档中与从电子文档提取的上下文数据所需的空间接近度内。

22、在第二系统的一些实施例中,确定电子文档是否满足签名准则的集合包括生成指示从电子文档提取的签名与从电子文档提取的上下文数据之间的关联水平的关联分数。

23、在第二系统的一些实施例中,该系统被配置为至少部分地基于从电子文档中提取的上下文数据来确定签名准则的集合,其中上下文数据指示以下各项中的一项或多项:文档类型、文档结构,以及文档格式。

24、在一些实施例中,提供了第二非暂态计算机可读存储介质,该第二非暂态计算机可读存储介质存储用于验证文档中的签名的指令,该指令被配置为由系统的一个或多个处理器执行以使该系统:接收包括一个或多个签名的电子文档;将一个或多个签名提取模型应用于电子文档,以便为电子文档中的一个或多个签名中的每个签名生成表示相应签名的空间位置和相应签名的置信度水平的数据;基于表示空间位置和置信度水平的数据来确定电子文档是否满足签名准则的集合。

25、在一些实施例中,提供了第二方法,该第二方法用于验证文档中的签名,其中该第二方法由包括一个或多个处理器的系统执行,该第二方法包括:接收包括一个或多个签名的电子文档;将一个或多个签名提取模型应用于电子文档,以便为电子文档中的一个或多个签名中的每个签名生成表示相应签名的空间位置和相应签名的置信度水平的数据;基于表示空间位置和置信度水平的数据来确定电子文档是否满足签名准则的集合。

26、在一些实施例中,提供了第三系统,该第三系统用于从文档中提取信息,该第三系统包括一个或多个处理器,该一个或多个处理器被配置为使得第三系统:接收包括多个电子文档的数据集;将数据转换处理步骤的集合应用于多个电子文档以生成包括基于多个电子文档生成的结构化数据的经处理数据集,其中应用数据转换处理步骤的集合包括应用一个或多个基于深度学习的光学字符识别(ocr)模型;以及将基于知识的建模处理步骤的集合应用于结构化数据,其中应用基于知识的建模处理步骤的集合包括:接收指示结构化数据的多个数据标签的用户输入;以及应用基于结构化数据和多个数据标签的基于知识的深度学习模型;以及生成从多个电子文档提取的输出数据。

27、在第三系统的一些实施例中,应用数据转换处理步骤的集合包括在应用一个或多个基于深度学习的ocr模型之前应用自动化朝向校正处理步骤。

28、在第三系统的一些实施例中,应用数据转换处理步骤的集合包括在应用一个或多个基于深度学习的ocr模型之前应用去噪函数。

29、在第三系统的一些实施例中,应用一个或多个基于深度学习的ocr模型包括:应用文本检测模型;以及应用文本识别模型。

30、在第三系统的一些实施例中,应用数据转换处理步骤的集合包括,在应用一个或多个基于深度学习的ocr模型之后,应用图像级特征工程处理步骤以生成结构化数据。

31、在第三系统的一些实施例中,应用数据转换处理步骤的集合包括应用使用词法来解析单词之间的结构关系的后处理方法。

32、在第三系统的一些实施例中,应用基于知识的建模处理步骤的集合包括,在接收指示多个数据标签的用户输入之前,将一个或多个特征工程处理步骤应用于结构化数据以生成

33、在第三系统的一些实施例中,应用一个或多个特征工程处理步骤包括基于词法来预测词组。

34、在第三系统的一些实施例中,应用基于知识的建模处理步骤的集合包括接收指定用户定义的特征工程的用户输入。

35、在第三系统的一些实施例中,应用基于知识的建模处理步骤的集合包括应用模糊匹配,其中该系统被配置为考虑足以用于标记目的的部分匹配,以在逐单词的基础上自动标记文档。

36、在第三系统的一些实施例中,应用基于知识的建模处理步骤的集合包括在训练过程期间自动校正一个或多个文本识别错误。

37、在第三系统的一些实施例中,基于知识的深度学习模型包括被配置为加速基于知识的深度学习模型的收敛的损失函数。

38、在第三系统的一些实施例中,基于知识的深度学习模型包括使用自然语言处理(nlp)嵌入的一层或多层,使得模型学习内容信息和相关位置信息两者。

39、在第三系统的一些实施例中,使用自适应馈送方法来训练基于知识的深度学习模型。

40、在第三系统的一些实施例中,基于知识的深度学习模型包括应用合并嵌入和特征工程的输入层。

41、在第三系统的一些实施例中,基于知识的深度学习模型包括被配置用于变化批量尺寸的输入层。

42、在第三系统的一些实施例中,基于知识的深度学习模型包括应用滑动窗口的输入层。

43、在第三系统的一些实施例中,基于知识的深度学习模型包括部署在输入层与预测层之间的一个或多个全密集层。

44、在第三系统的一些实施例中,基于知识的深度学习模型包括生成一个或多个度量以呈现给用户的预测层。

45、在一些实施例中,提供了第三非暂态计算机可读存储介质,该第三非暂态计算机可读存储介质存储用于从文档中提取信息的指令,该指令被配置为由系统的一个或多个处理器执行以使该系统:接收包括多个电子文档的数据集;将数据转换处理步骤的集合应用于多个电子文档以生成包括基于多个电子文档生成的结构化数据的经处理数据集,其中应用数据转换处理步骤的集合包括应用一个或多个基于深度学习的光学字符识别(ocr)模型;以及将基于知识的建模处理步骤的集合应用于结构化数据,其中应用基于知识的建模处理步骤的集合包括:接收指示结构化数据的多个数据标签的用户输入;以及应用基于结构化数据和多个数据标签的基于知识的深度学习模型;以及生成从多个电子文档提取的输出数据。

46、在一些实施例中,提供了第三方法,该第三方法用于从文档中提取信息,其中该第三方法由包括一个或多个处理器的系统执行,该第三方法包括:接收包括多个电子文档的数据集;将数据转换处理步骤的集合应用于多个电子文档以生成包括基于多个电子文档生成的结构化数据的经处理数据集,其中应用数据转换处理步骤的集合包括应用一个或多个基于深度学习的光学字符识别(ocr)模型;以及将基于知识的建模处理步骤的集合应用于结构化数据,其中应用基于知识的建模处理步骤的集合包括:接收指示结构化数据的多个数据标签的用户输入;以及应用基于结构化数据和多个数据标签的基于知识的深度学习模型;以及生成从多个电子文档提取的输出数据。

47、在一些实施例中,提供了第四系统,该第四系统用于确定文档包的组成,该第四系统包括一个或多个处理器,该一个或多个处理器被配置为使得第一系统:接收包括文档包的数据;从文档包中提取包括文档包的一个或多个文档的实质内容的第一信息;从文档包中提取包括与文档包的一个或多个文档相关联的元数据的第二信息;基于第一信息和第二信息生成表示文档包的组成的输出数据。

48、在一些实施例中,提供了第四非暂态计算机可读存储介质,该第四非暂态计算机可读存储介质存储用于确定文档包的组成的指令,该指令被配置为由系统的一个或多个处理器执行以使系统:接收包括文档包的数据;从文档包中提取包括文档包的一个或多个文档的实质内容的第一信息;从文档包中提取包括与文档包的一个或多个文档相关联的元数据的第二信息;基于第一信息和第二信息生成表示文档包的组成的输出数据。

49、在一些实施例中,提供了第四方法,该第四方法用于确定文档包的组成,其中第四方法由包括一个或多个处理器的系统执行,该第四方法包括:接收包括文档包的数据;从文档包中提取包括文档包的一个或多个文档的实质内容的第一信息;从文档包中提取包括与文档包的一个或多个文档相关联的元数据的第二信息;基于第一信息和第二信息生成表示文档包的组成的输出数据。

50、在一些实施例中,提供了第五系统,该第五系统用于验证文档中的签名,该第五系统包括一个或多个处理器,该一个或多个处理器被配置为使得第五系统:接收包括一个或多个签名的电子文档;将一个或多个签名提取模型应用于电子文档,以便为电子文档中的一个或多个签名中的每个签名生成表示相应签名的空间位置和相应签名的置信度水平的数据;基于表示空间位置和置信度水平的数据来确定电子文档是否满足签名准则的集合。

51、在一些实施例中,提供了第五非暂态计算机可读存储介质,该第五非暂态计算机可读存储介质存储用于验证文档中的签名的指令,该指令被配置为由系统的一个或多个处理器执行以使系统:接收包括一个或多个签名的电子文档;将一个或多个签名提取模型应用于电子文档,以便为电子文档中的一个或多个签名中的每个签名生成表示相应签名的空间位置和相应签名的置信度水平的数据;基于表示空间位置和置信度水平的数据来确定电子文档是否满足签名准则的集合。

52、在一些实施例中,提供了第五方法,该第五方法用于验证文档中的签名,其中第五方法由包括一个或多个处理器的系统执行,该第五方法包括:接收包括一个或多个签名的电子文档;将一个或多个签名提取模型应用于电子文档,以便为电子文档中的一个或多个签名中的每个签名生成表示相应签名的空间位置和相应签名的置信度水平的数据;基于表示空间位置和置信度水平的数据来确定电子文档是否满足签名准则的集合。

53、在一些实施例中,提供了第六系统,该第六系统用于从文档中提取信息,该系统包括一个或多个处理器,该一个或多个处理器被配置为使得系统:接收包括多个电子文档的数据集;将数据转换处理步骤的集合应用于多个电子文档以生成包括基于多个电子文档生成的结构化数据的经处理数据集,其中应用数据转换处理步骤的集合包括应用一个或多个基于深度学习的光学字符识别(ocr)模型;以及将基于知识的建模处理步骤的集合应用于结构化数据,其中应用基于知识的建模处理步骤的集合包括:接收指示结构化数据的多个数据标签的用户输入;以及应用基于结构化数据和由一个或多个用户输入指示的多个数据标签训练的基于知识的深度学习模型;以及通过深度学习模型生成从多个电子文档提取的输出数据。

54、在一些实施例中,提供了第六非暂态计算机可读存储介质,该第六非暂态计算机可读存储介质存储用于从文档中提取信息的指令,该指令被配置为由系统的一个或多个处理器执行以使系统:接收包括多个电子文档的数据集;将数据转换处理步骤的集合应用于多个电子文档以生成包括基于多个电子文档生成的结构化数据的经处理数据集,其中应用数据转换处理步骤的集合包括应用一个或多个基于深度学习的光学字符识别(ocr)模型;以及将基于知识的建模处理步骤的集合应用于结构化数据,其中应用基于知识的建模处理步骤的集合包括:应用基于结构化数据和由一个或多个用户输入指示的多个数据标签训练的基于知识的深度学习模型;以及通过深度学习模型生成从多个电子文档提取的输出数据。

55、在一些实施例中,提供了第六方法,该第六方法用于从文档中提取信息,其中该第六方法由包括一个或多个处理器的系统执行,该第六方法包括:接收包括多个电子文档的数据集;将数据转换处理步骤的集合应用于多个电子文档以生成包括基于多个电子文档生成的结构化数据的经处理数据集,其中应用数据转换处理步骤的集合包括应用一个或多个基于深度学习的光学字符识别(ocr)模型;以及将基于知识的建模处理步骤的集合应用于结构化数据,其中应用基于知识的建模处理步骤的集合包括:应用基于结构化数据和由一个或多个用户输入指示的多个数据标签训练的基于知识的深度学习模型;以及通过深度学习模型生成从多个电子文档提取的输出数据。

56、在一些实施例中,上述系统、方法或非暂态计算机可读存储介质中的任何一个或多个的特征、特点或方面中的任何一个或多个可以全部或部分地彼此组合和/或与本文的任何其它实施例或公开内容的特征、特征或方面中的任何一个或多个(全部或部分地)组合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1