基于电子文档的自动生成报告数据的方法和系统与流程

文档序号:16637209发布日期:2019-01-16 07:08阅读:375来源:国知局
基于电子文档的自动生成报告数据的方法和系统与流程

本申请要求2016年3月13日提交的美国临时申请62/307,497的权益。该申请也是2016年11月28日提交的正在申请中的美国专利申请15/361,934的部分继续申请。上述多个申请的内容在此引入作为参考。

本公开总体上涉及数据分析,特别涉及基于非结构数据分析的报告生成。



背景技术:

随着商业逐渐对与运营有关的数据管理方面的技术依赖,合理地维护和报告数据的合适的系统已成为成功的关键因素。尤其对于大型企业而言,每天使用的商业数据量可能是巨大的。因而,靠人工审查和报告此类数据是不切实际的。除了正常的销售数据外,应用增值税的国家/地区的企业还会收集和使用更多数据,因此需要额外的报告。

增值税(vat)是一项基础广泛的消费税,该税种是根据商品和服务的增加值进行评估。特定的vat适用于在特定社区内购买或出售的大多数商品和服务。当一个人在国外旅行购物并需要缴纳vat时,该人可能有权得到该次购买的随后税费退还。在特定情况下,同样可以退还其他适用于购买的税费。此外,卖方可以为购买在某些地点和特定情况下销售的产品提供折扣。购物价格的这种退税可以通过退税实体建立的以下程序进行返还(reclaim)。

许多国家的法律法规赋予海外旅游者补偿或退还某项税种的权利,例如是为海外商品和/或服务而支付的vat。由于此类法律法规因不同国家而异,因此确定有权获得的实际vat退税通常要求退税的要求者拥有大量海外税法领域的知识。此外,旅行者在无权获得退税的情况下可能还在继续申请退还vat,从而花费时间和精力而徒劳无功。此外,是否可以获得vat退税可能还因购买的类型和合格vat票据是否存在而有所不同。

申请退税的一个程序是要亲自接近机场的海关官员,填写表格,并提交访问期间产生的费用对应的原始收据。此程序应在登记入住或登机到下一个目的地之前执行。此外,特别是对于在国外购买的商品,要求退税的程序可能要求付款人向海关官员展示未使用过的商品,以验证出口货物是否与付款人所支付vat的货物相符。

由于旅行者不熟悉要求退税的具体法律和法规,旅行者尽管在没有资格的情况下也可能提交退税申请。如果旅行者最终得知他或她无权获得退税,则该程序还会不必要地浪费时间。因此,提供一种克服现有技术缺陷的解决方案是有利的,该方案通过提供有效的方式来电子化地处理vat退税,优选地通过因特网来处理。

寻求退税,特别是寻求vat退税的客户所面临的挑战可能会使其气馁并且无法跟进从而获得退税。当客户是企业的员工时,这个问题更加复杂,因为客户没有直接从退税中受益。此外,员工可以提交不相关的或重复的信息,这些信息对于寻求退税是不必要的。过滤这些不必要的信息可能是耗时的,成本高昂的并且受到很大程度的人为错误的影响。

此外,企业的员工在国外购物时必须保留支付vat的交易记录,既用于会计目的,也用于寻求返还。基于此类记录的人工报告是劳动密集型的,并且存在人为错误。此外,现有基于这种记录自动报告的解决方案通常需要人手输入数据,这同样存在人为错误。

因此,提供一种克服现有技术缺陷的解决方案将是有益的。



技术实现要素:

以下是本公开的若干示例实施例的概述。为了方便读者对这些实施例提供基本的理解,而提供的本概述并不完全限定本发明的范围。该概述不是所有预期实施例的广泛概述,并且既不旨在标识所有实施例的关键或重要元素,也不旨在描绘任何或所有方面的范围。其唯一目的是以简化形式呈现一个或多个实施例的一些概念,作为稍后呈现的更详细描述的序言。为方便起见,本文可使用术语“一些实施例”来指代本发明的单个实施例或多个实施例。

本公开的某些的实施例包括一种基于电子文档生成报告数据的方法。所述方法包括:分析电子文档以确定交易中的至少一个交易参数,其中所述电子文档至少包括部分地非结构化的数据;创建用于交易的模板,其中所述模板为机构化的数据集,该数据集包括所确定的至少一个交易参数;基于所创建的模板,获取多个报告要求;并基于所创建的模板和所获取的报告要求,生成合格的报告数据。

本公开的某些的实施例还包括非暂时性计算机可读介质,其上存储有可用于使处理电路执行步骤的指令,该步骤包括:分析电子文档以确定交易中的至少一个交易参数,其中所述电子文档至少包括部分地非结构化的数据;创建用于交易的模板,其中所述模板为机构化的数据集,该数据集包括所确定的至少一个交易参数;基于所创建的模板,获取多个报告要求;并基于所创建的模板和所获取的报告要求,生成合格的报告数据。

本公开的某些的实施例还包括一种基于电子文档生成报告数据的系统。该系统包括:处理电路;存储器,该存储器包括处理电路执行时配置该系统的指令:分析电子文档以确定交易中的至少一个交易参数,其中所述电子文档至少包括部分地非结构化的数据;创建用于交易的模板,其中所述模板为机构化的数据集,该数据集包括所确定的至少一个交易参数;基于所创建的模板,获取多个报告要求;并基于所创建的模板和所获取的报告要求,生成合格的报告数据。

附图说明

由说明书总结的权利要求中特别指出并清楚地要求保护本文所公开的主题。通过以下结合附图的详细描述,所公开的实施例的前述和其他目的、特征和优点将显而易见。

图1是用以描述多个公开实施例的网络图。

图2是根据一个实施例的数据完整性管理器的示意图。

图3是根据一个实施例的说明一种自动生成报告数据方法的流程图。

图4是根据一个实施例的说明一种基于至少一个电子文档生成数据集的流程图。

具体实施方式

要重点注意,本文公开的实施例仅是本文创新教导的许多有利用途的示例。一般来说,在本申请的说明书中所作的陈述,无必要限制任何要保护的多个实施例。此外,一些陈述可能适用于某些发明特征而不适用于其他特征。通常,除非另有说明,否则单数元素可以是复数,反之不失一般性地亦然。在附图中,在若干视图中,相同的标号表示相同的零件。

各种公开的实施例包括基于电子文档自动生成报告数据的方法和系统。在一个实施例中,基于电子文档创建数据集。至少一个电子文档至少部分地是非结构化的。创建交易属性的模板。报告的要求基于模板获得。基于模板和报告要求,确定电子文档中所包含的交易是否合格,如果是,则生成合格的报告数据。合格的报告数据可以包括例如完整的增值税(vat)返还表,至少一个交易电子证明文档,或上述两者。生成的合格报告数据可以发送到例如报告授权服务器。

图1示出了一个示例的网络示意图100来描述各种公开的实施例。在示例性的网络示意图100中,报告生成器120、企业系统130、数据库140、多个网络源150-1到150-n(以下仅单个地及统称地描述为网络源150,仅出于简洁的意图)通过网络110通信地连接起来。网络110可以是但不限于无线网络、蜂窝网络或者有线网络、局域网(lan)、广域网(wan)、城域网(man)、因特网、万维网(www)等类似的网络及其组合。

企业系统130与企业相联系,可存储与企业或企业代表发生的采购相关的数据及企业本身的相关的数据。所述企业可以是但不限于,其员工可能在海外采购需要缴纳vat的商品或服务的企业。企业系统130可以是但不限于服务器、数据库、企业资源计划系统、客户关系管理系统、或其他存储相关数据的系统。

存储在企业系统130中的数据可以包括但不限于电子文档(例如,显示如发票扫描件、文本文档、电子表格文档等的图像文件)。包含在各个电子文档中的数据可以是结构化的,半结构化的,非结构化的或其组合。结构化或半结构化的数据可能以不能被报告生成器120识别的格式存储,因而只能以非结构化数据的方式来处理。

数据库140至少存储了印证交易的数据。这样的数据可包括但不限于包含交易相关的电子证明文档。所述电子证明文档可包括但不限于发票、收据及其他类似的票据。

网络源150至少存储了数据报告的要求(例如是vat退税的报告和申领)。所述要求可以如规则的方式存储。网络源150还可存储用作生成报告的数据,所述报告不限于可填写的报告表格(如,可填写的vat返还申请表)。不同的网络源150可存储不同的报告要求及表格(如,针对不同国家的报告要求和表格)。作为一个非限制性例子,网络源140-1可存储针对法国的vat报告监管要求。而在另一个非限制性例子,网络源140-8可存储vat返还表格,该表格用于针对意大利的vat返还报告。

在一个实施例中,报告生成器120被配置为生成基于交易参数的模板,该交易参数通过机器视觉在电子文档中识别出来。在一个进一步的实施例中,报告生成器120被配置为对比所述模板和至少一个报告要求,以确定该模板中的数据所代表的交易是否合格(如,针对vat返还)。在进一步的实施例中,报告生成器120被配置为当确认该交易合格时,基于模板生成合格的报告数据。所生成的合格的报告数据可包括但不限于电子文档(如,包括完整的vat返还表格的电子文档)、交易印证数据(如,包括和该交易相关的收据、发票的电子文档)、或者上述两者。合格的报告数据可传送至诸如报告机关(例如,合适的税务机关)。

在一个实施例中,报告生成器120被配置为基于包括至少部分非结构化数据(如非结构化数据、半结构化数据、或具有未知结构的结构化数据)的电子文档来生成数据集。为此,报告生成器120还可进一步被配置为使用光学字符识别(ocr)或其他影像处理来确定电子文档中的数据。

在一个实施例中,报告生成器120被配置为分析所创建的数据集以确定与交易相关的交易参数在电子文档中得到指示。在另一个实施例中,报告生成器120可被配置为基于数据集是否满足至少一条预先确定的约束,来确定所创建的数据集是否适用于返还。

在一个实施例中,报告生成器120被配置为基于所创建的数据集来创建模板。该模板为包括被识别的交易参数的结构化的数据集。所创建的模板用作潜在的报告模板。

应当注意的是,为了简化的目的而不限制公开的实施例,上述的关于图1的实施例中仅涉及一个企业系统130。在不脱离本公开的范围的情况下,可以同等地利用多个企业系统。

图2是根据一个实施例的报告生成器120的示例示意图。报告生成器120包括连接于存储器215的处理电路410,存储器220,光学字符识别(ocr)处理器230以及网络界面240。在一个实施例中,报告生成器120的组件可通过总线250通信地连接起来。

处理电路210可通过一个或多个硬件逻辑组件和电路来实现。例如但不限于,可用来说明的硬件逻辑组件类型包括、可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上的系统(soc)、通用微处理器、微控制器、数字信号处理器(dsp)或其他类似的装置,或者是其他可执行计算或处理信息的硬件逻辑组件。

存储器215可以是易失性的(例如,ram等)、非易失性的(例如,rom、闪存等),或其结合。在一个配置中,执行一个或多个本公开实施例的计算机可读指令可存储在存储器220中。

在另一个实施例中,存储器215被配置为存储软件。所述软件应广义地解释为任何类型的指令,无论是软件、固件、中间件、微代码、硬件描述语言等。指令可包括代码(如,源代码格式、二进制代码格式、可执行代码格式或任何其他合适的代码格式)。当一个或多个处理电路210执行所述指令时,处理电路210执行此处描述的各种步骤。特别地,所述指令被执行时,处理电路210执行基于电子文档自动生成报告数据的步骤,如在此描述的这样。

存储器220可以是磁性存储器、光学存储器等,并且可以例如是由闪存或其他存储器技术,cd-rom、数字通用盘(dvd)或任何其他介质的方式实现,可用于存储所需信息。

ocr处理器230可包括但不限于,特征和/或图形识别单元(ru)235,该图形识别单元被配置为识别非结构化数据集形式的图形,特征或上述两者。特别地,在一个实施例中,光学字符识别(ocr)处理器230被配置为在非结构化数据中至少识别字符。所识别的字符可用作创建验证数据集,该数据集包括验证交易所需要的数据。

网络界面240允许报告生成器120与企业系统130、数据库140、网络源150或他们的结合进行通信,用以如检索数据、存储数据等。

应当理解,此处所描述的实施例并不限于图2中所示出的特定结构,并且在不脱离所公开实施例的范围的情况下可以同等地使用其他结构。

图3示出了根据一个实施例的一种基于电子文档的生成报告数据的方法的示例性的流程图300。在一个实施例中,所述方法可被报告生成器120所执行。

步骤s310,创建基于包括交易相关信息的电子文档的数据集。所述电子文档可包括但不限于非结构化数据、半结构化数据、未曾预料或未经审核的结构化数据、或上述的结合。在一个实施例中,步骤s310还包括,使用光学字符识别(ocr)来分析电子文档以确定电子文档的数据,识别数据中的关键字段,识别数据中的值,或上述的结合。以下根据图4对基于电子文档创建数据集作进一步的说明。

步骤s320,分析所创建的数据集。在一个实施例中,分析所述数据集可包括但不限于,确定交易参数,例如但不限于,确定至少一个团体标识符(如,消费者企业标识符、商家企业标识符、或上述两者)、交易相关的信息(如,日期、时间、价格、售出商品或服务的类型等)、或上述两者。在另一个实施例中,分析所述数据集还可包括基于所述数据集识别该交易。

可选的步骤s330,基于所述分析,该步骤确定所创建的数据集是否适合用于报告,如是,则继续执行步骤s340,否则,程序中断。在一个实施例中,步骤s330可包括确定所创建的数据集是否满足至少一个事先确定的约束。例如,若数据集满足至少一个事先确定的约束,则该数据集适合用于报告。事先所确定的约束可包括但不限于,验证过程中对信息类型的要求、准确性的要求、或上述两者的结合。例如,若电子文档中不包括交易中厂商企业的国家或交易的价格的话,就不能顺利地报告。在确定交易是否适用于报告的过程中,通过使用只满足最低要求的报告可降低计算资源的使用。

在另一个实施例中,步骤s330还可包括基于所创建的数据集确定至少一个约束。在进一步的实施例中,确定至少一个约束可包括搜索基于所创建的数据集的至少一个数据库(如,使用所创建的数据集中指出的厂商企业的位置)。在进一步的实施例中,步骤s330还可包括,分析至少一个电子文档的报告要求(如,一张vat返还表),以确定所述至少一个约束。所述分析还可包括在每一个汇报要求的电子文档上执行ocr或其他影像处理。例如,基于一张具有字段“价格”,“已采购商品”和“位置”的vat返还表的分析,所述至少一个约束可要求包括,价格,至少一项商品或服务以及位置的数据集符合条件。

在另一个实施例中,当确定该数据不适用于报告时,附加数据,替换数据或上述两者可从至少一个数据源中检索到并包含于所创建的数据集中。作为一个非限制性例子,若在某个国家中实施了一项采购,在该国采购需要厂商企业的名称以进行vat返还,但发票上并未包含该厂商企业的名称,则该厂商的名称可以基于发票上的其他信息从政府的数据库中提取。在进一步的实施例中,当执行检索替代信息时,将继续执行步骤s340。在另一个实施例中,当执行检索替代信息时,需确定带有替代信息的所创建的数据集是否合适,如是,则继续执行步骤s340,否则,程序中断。

步骤s340中,创建基于所分析数据集的模板。该模板可以是但不限于,包括多个字段的数据结构。该字段可包括经识别的交易参数。该字段可以事先定义。

由于所创建的模板的结构化的属性,从电子文档中创建模板允许更快地处理。例如,相比于没有结构化的数据集,排队和处理操作在结构化的数据集中可以更有效地执行。进一步,从电子文档中将信息组织为结构化的数据集,存储包含在电子文档中的信息的存储器的数量可大大地减少。通常为图像的电子文档,在包含相同信息的情况下,比数据集需要更多的存储空间。例如,表征1000,000张图像的电子文档的数据集可以数据记录的形式存储在文本文档中。这样文本文档的大小将远远小于1000,000张图片的大小。

步骤s350,基于所述模板获取多个报告要求。在一个实施例中,步骤s350可包括至少选择一个数据源,从该数据源中可获取所述报告要求。在进一步的实施例中,该选择可基于所述模板。作为一个非限制性例子,基于在欧洲的采购的vat返还,交易中的卖方必须在欧洲组织的白名单上。因而,选定并查询存储有白名单的网络源。在进一步的实施例中,所述至少一个报告要求可包括一条或多条规则,该规则用于确定潜在的报告参数。作为一个非限制性例子,所述至少一个报告要求可包括一条基于一个或多个交易参数来计算vat返还的数量的规则。

在另一个实施例中,步骤s350包括从至少一个数据源中检索至少一个报告要求(例如,监管机构建立的有关vat返还要求的数据库)。在进一步的实施例中,所述至少一个报告要求可以基于所述模板的至少一个部分来进行检索。每一个潜在的报告要求参数可以是请求或其他方式报告的参数。作为一个非限制性例子,若在所述模板中的“位置”这个字段中指示的位置是法国,则可从法国税务机关的服务器上获取报告的要求。

还在另一个实施例中,步骤s350可包括从至少一个报告电子文档中进行检索,所述报告电子文档例如但不限于,包含vat返还请求表格的电子文档。在进一步的实施例中,步骤s350包括通过机器影像分析所检索的至少一个报告电子文档,以确定至少一个报告要求。

步骤s360,基于所获取的报告要求和所创建的模板,决定模板中所指出的交易是否合格,如果合格,继续执行步骤s370;否则,程序中断。在一个实施例中,步骤s360包括用所述模板中的数据与报告要求中的数据进行对比。若每项报告要求都满足,则该交易是合格的。作为一个非限制性例子,一项基于德国税务机关的报告要求的交易,若该模板中包含位置“德国”,并且所采购的商品属于事先所确定的符合vat返还规定的产品列表中,并且该采购这的国别不是“德国”,则该项交易是合格的。

步骤s370,当交易被确定为合格时,则生成合格的报告数据。在一个实施例中,步骤s370包括生成包含满足所获取的报告要求的数据的电子报告文档。在进一步的实施例中,步骤s370也可包括检索即将完成的电子文档。作为一个非限制性例子,步骤s370可包括,使用包括一张空白的vat返还表格和所创建的模板,生成一张完整的vat返还表格。所检索的电子文档(如,该空白的vat返还表格)可以进行结构化处理以插入详细的信息。可基于所述的结构来完成所检索的电子文档。

在另一个实施例中,步骤s370还可包括,获取至少一个与交易相关的电子印证文档。在进一步的实施例中,步骤s370还包括,使用所述模板的数据,查询至少一个存储有交易相关信息的数据源。作为一个非限制性例子,包括采购收据的电子文档可以从交易的厂商的服务器中,通过使用所述模板中的交易标识符来查询到。

图4是根据一个实施例示出的一种基于电子文档创建数据集的示例性流程图s310。

步骤s410,获取电子文档。获取所述电子文档可包括但不限于,从消费者企业系统中接收电子文档(如接收扫描图像)或检索所述电子文档(如从消费器企业系统、厂商企业系统或数据库中检索电子文档)。

步骤s420,分析所述电子文档。所述分析可包括但不限于,使用光学字符识别(ocr)来确定所述电子文档中的字符。

步骤s430,基于所述分析,识别电子文档中的关键字段和值。所述关键字段可包括但不限于厂商的名称及地址、日期、货币、出售的商品或服务、交易标识符、发票号码等。电子文档中可能包括一些非必要的细节,这些细节将不作为关键值。例如,厂商的标志可能不是必须的,那么就不是一个关键值。在一个实施例中,可以事先定义关键字段的列表,与所述关键字段相匹配数据段被提取。然后,执行清理步骤以保证信息被准确地呈现。例如,若ocr识别出来的数据为“1211212005”,则清理步骤将此数据转换为12/12/2005。在另一个例子中,若名称被识别为“mo$den”,则该名称将被转换为“mosden”。清理步骤将使用外部信息源,如字典、日历等。

在进一步的实施例中,检查所提取的数据段是否完整。例如,若厂商的名称可以识别但地址缺失了,那么该厂商的地址的关键字段就是不完整的。此时将尝试补充完整该缺失的关键字段值。该尝试可包括,查询外部系统和数据库,与先前分析的发票信息相关联,或上述两者的结合。外部系统和数据库的例子包括,公司地址,通用产品编码(upc),包裹投递和跟踪系统,等等。在一个实施例中,步骤s340得出事先定义的关键字段及其相应值的完整组合。

步骤s440,生成结构化的数据集。所生成的数据集包括经识别的关键字段及值。

这里公开的各种实施例可以实现为硬件、固件、软件或其任何组合。此外,软件优选地实现为有形地体现在程序存储单元或由部分或某些设备和/或设备组合组成的计算机可读介质上的应用程序。应用程序可以上载到包括任何合适架构的机器并由其执行。优选地,该机器在具有诸如一个或多个中央处理单元(“cpu”),存储器和输入/输出接口的硬件的计算机平台上实现。计算机平台还可以包括操作系统和微指令代码。这里描述的各种过程和功能可以是微指令代码的一部分或者应用程序的一部分,或者它们的任何组合,其可以由cpu执行,无论是否明确地示出了这样的计算机或处理器。另外,各种其他外围单元可以连接到计算机平台,例如附加数据存储单元和打印单元。此外,非暂时性计算机可读介质是除了暂时传播信号之外的任何计算机可读介质。

应当理解,本文中使用诸如“第一”、“第二”等名称对元件的任何引用一般不限制这些元件的数量或顺序。相反,这些名称在本文中通常用作区分元素的两个或更多个的元素或实例的便利方法。因此,对第一和第二元件的引用并不意味着在那里仅可以采用两个元件,或者第一元件必须以某种方式在第二元件之前。而且,除非另有说明,否则一组元件包括一个或多个元件。

如本文所使用的,短语“至少一个”后跟项目列表意味着可以单独使用任何列出的项目,或者可以利用所列项目中的两个或更多个的任何组合。例如,如果系统被描述为包括“a、b和c中的至少一个”,则系统可以包括仅a;仅b;仅c;a和b组合;b和c组合;a和c组合;或a、b和c组合使用。

本文引用的所有示例和条件语言旨在用于教学目的以帮助读者理解所公开实施例的原理和发明人为进一步领域而提供的概念,并且应被解释为不限于这些具体引用的示例和条件。此外,这里叙述所公开实施例的原理,方面和实施例的所有陈述以及其具体示例旨在包含其结构和功能等同物。另外,这些等同物旨在包括当前已知的等同物以及将来开发的等效物,即,开发的执行相同功能的任何元件,而不管结构如何。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1