基于神经网络的发票公示方法和系统与流程

文档序号:17863934发布日期:2019-06-11 23:03阅读:132来源:国知局
基于神经网络的发票公示方法和系统与流程
本发明涉及计算机
技术领域
,特别涉及一种基于神经网络的发票公示方法和系统。
背景技术
:税务或其他部门在特定情况下需要进行发票公示。发票信息包含了用户/企业的大量信息,如购方、销方、涉税金额、日期、商品明细信息等,其中购方或销方的详细信息又可包括纳税人识别号、地址、电话、开户行及账号等。不管基于何种技术进行发票公示,都可能存在用户敏感信息被泄漏的问题。此外,在多场景化应用中,用户出于保护隐私或商业秘密的原因并不希望透露过多的信息,如地址、商品明细、金额等。因此,现有的发票公示方法不仅容易导致用户/企业的隐私泄露,导致潜在的安全隐患,且不利于发票合理化公示和应用。技术实现要素:本发明的目的是提供一种基于神经网络的发票公示方法和系统,以避免发票公示时的隐私泄露,以利于发票合理化公示和应用。本发明一方面提出一种基于神经网络的发票公示方法,包括:步骤1:选择发票样本,基于所述发票样本训练神经网络模型;步骤2:根据所述神经网络模型识别待公示发票的发票类型;以及步骤3:根据所述发票类型隐藏所述待公示发票的敏感信息,并公示所述待公示发票的非敏感信息。优选地,所述发票样本包括发票图像和发票类型。优选地,所述基于所述发票样本训练神经网络模型包括:以所述发票图像作为输入,以所述发票类型作为标签,对所述神经网络模型进行训练。优选地,所述步骤2包括:步骤201:获取所述待公示发票的发票图像;步骤202:识别所述发票图像中的文字信息,根据所述文字信息确定所述待公示发票的发票类型作为初始发票类型;步骤203:以所述待公示发票的发票图像作为输入,根据所述神经网络模型识别所述待公示发票的发票类型作为校正发票类型;步骤204:判断所述初始发票类型与所述校正发票类型是否一致,如果一致,则以所述初始发票类型或所述校正发票类型作为所述待公示发票的发票类型;如果不一致,则输出预设提示信息。优选地,所述步骤202包括:利用光学字符识别方法识别所述发票图像中的文字信息;将所述文字信息与预设关键词进行对比,如果所述文字信息包含预设关键词,则以所述预设关键词对应的发票类型作为所述初始发票类型。优选地,所述根据所述发票类型隐藏所述待公示发票的敏感信息包括:步骤301:建立敏感信息模板,所述敏感信息模板包括发票类型、所述发票类型对应的敏感信息、以及敏感信息所在区域;步骤302:根据所述待公示发票的发票类型,通过所述敏感信息模板确定待公示发票的敏感信息所在区域;步骤303:对所述敏感信息所在区域进行隐藏处理。本发明另一方面提出一种基于神经网络的发票公示系统,包括:存储器,存储有计算机可执行指令;处理器,所述处理器运行所述存储器中的计算机可执行指令,执行以下步骤:步骤1:选择发票样本,基于所述发票样本训练神经网络模型;步骤2:根据所述神经网络模型识别待公示发票的发票类型;以及步骤3:根据所述发票类型隐藏所述待公示发票的敏感信息,并公示所述待公示发票的非敏感信息。优选地,所述发票样本包括发票图像和发票类型。优选地,所述基于所述发票样本训练神经网络模型包括:以所述发票图像作为输入,以所述发票类型作为标签,对所述神经网络模型进行训练。优选地,所述步骤2包括:步骤201:获取所述待公示发票的发票图像;步骤202:识别所述发票图像中的文字信息,根据所述文字信息确定所述待公示发票的发票类型作为初始发票类型;步骤203:以所述待公示发票的发票图像作为输入,根据所述神经网络模型识别所述待公示发票的发票类型作为校正发票类型;步骤204:判断所述初始发票类型与所述校正发票类型是否一致,如果一致,则以所述初始发票类型或所述校正发票类型作为所述待公示发票的发票类型;如果不一致,则输出预设提示信息。优选地,所述步骤202包括:利用光学字符识别方法识别所述发票图像中的文字信息;将所述文字信息与预设关键词进行对比,如果所述文字信息包含预设关键词,则以所述预设关键词对应的发票类型作为所述初始发票类型。优选地,所述根据所述发票类型隐藏所述待公示发票的敏感信息包括:步骤301:建立敏感信息模板,所述敏感信息模板包括发票类型、所述发票类型对应的敏感信息、以及敏感信息所在区域;步骤302:根据所述待公示发票的发票类型,通过所述敏感信息模板确定待公示发票的敏感信息所在区域;步骤303:对所述敏感信息所在区域进行隐藏处理。本发明的有益效果在于:建立神经网络模型,并根据发票样本大数据对模型进行训练,得到优化的、用于识别发票类型的神经网络模型;利用神经网络模型识别发票类型,有效提高了识别的准确性;并根据发票类型对敏感信息进行隐藏,从而保证用户的隐私不被泄露。本发明既可允许大众查询发票信息,又能保护用户隐私,提高了发票公示的安全性。本发明的方法和系统具有其它的特性和优点,这些特性和优点从并入本文中的附图和随后的具体实施方式中将是显而易见的,或者将在并入本文中的附图和随后的具体实施方式中进行详细陈述,这些附图和具体实施方式共同用于解释本发明的特定原理。附图说明通过结合附图对本发明示例性实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显,其中,在本发明示例性实施例中,相同的附图标记通常代表相同部件。图1显示根据本发明示例性实施例的基于神经网络的发票公示方法的流程图;图2显示根据本发明示例性实施例的发票图像的示例;图3显示本发明示例性实施例的发票照片。具体实施方式下面将参照附图更详细地描述本发明。虽然附图中显示了本发明的优选实施例,然而应该理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。图1显示根据本发明示例性实施例的基于神经网络的发票公示方法的流程图,包括:步骤1:选择发票样本,基于发票样本训练神经网络模型;步骤2:根据神经网络模型识别待公示发票的发票类型;以及步骤3:根据发票类型隐藏待公示发票的敏感信息,并公示待公示发票的非敏感信息。本发明实施例根据发票样本大数据对神经网络模型进行训练,得到优化的、用于识别发票类型的神经网络模型;利用神经网络模型识别发票类型,有效提高了识别的准确性;并根据发票类型对敏感信息进行隐藏,从而保证用户的隐私不被泄露。本发明既可允许大众查询发票信息,又能保护用户隐私,提高了发票公示的安全性。以下参考图1详细描述本发明的示例性实施例。如图1所示,根据本发明示例性实施例的基于神经网络的发票公示方法,具体包括以下步骤:步骤1:选择发票样本,基于所述发票样本训练神经网络模型。发票样本包括发票图像及其对应的发票类型。其中,发票类型可以包括:增值税发票、机动车销售发票、出租车发票以及其它各种票据、收据等。表1显示了发票样本1-4的具体信息。表1发票样本示例发票样本发票图像发票类型样本1original-05d0000046fd118d.jpg增值税发票样本2original-05d0000123fd166d.jpg机动车销售发票样本3original-05d0000003fd123d.jpg机动车销售发票样本4original-05d0000103fd137d.jpg出租车发票………………在表1中,发票图像是后缀为jpg的图片名称所表示的图像,发票类型可以由用户手动输入,也可以在用户上传发票图片时由系统自动生成。例如,用户在增值税系统上传发票图像,那么对应的发票类型可以为增值税发票。图2显示了一个发票图像的示例。在获取到足够多的发票样本后,可以基于这些发票样本训练神经网络模型。具体地,可以获取发票图像对应的像素值矩阵,将像素值矩阵作为神经网络模型的输入,发票类型作为标签,对神经网络模型进行训练。发票图像的像素值矩阵可以包括发票图像中每一个像素点对应的像素值,例如发票图像为1000*800的图像,那么发票图像对应的像素值矩阵可以为1000*800的矩阵。像素值可以有多种表现方式,例如可以为灰度值,也可以为色彩空间的grb值、yuv值等。步骤2:根据神经网络模型识别待公示发票的发票类型。步骤2具体包括以下步骤:步骤201:获取待公示发票的发票图像。待公示发票的发票图像可存储于服务器,预先由待公示发票所有人上传或者由开票单位上传。发票图像可以是发票的照片、发票的视频中的一帧或多帧图像等。此外,发票的照片、视频中一般都存在一些干扰信息,例如,照片、视频中不仅包含发票的信息,还包含周围环境信息。图3显示了一张发票照片,发票照片中除了包含发票,还包含工作人员的部分图像。由于外界环境信息可能会对确定敏感信息所在区域产生影响,因此需要先将发票图像从原始发票照片、视频图像帧中提取出来。在本发明实施例中,可以通过图像识别方法识别发票照片、视频帧中的矩形区域,提取矩形区域内的部分作为发票图像。步骤202:识别所述发票图像中的文字信息,根据所述文字信息确定所述待公示发票的发票类型作为初始发票类型。可以利用ocr(opticalcharacterrecognition,光学字符识别)技术识别发票图像中的文字信息。ocr技术可以采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并可通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工。通过ocr技术可以识别发票图像中的文字信息,进而根据发票图像中的文字信息确定发票的类型。可选的,可以将发票图像中的文字信息与预设关键词进行对比,如果所述文字信息包含预设关键词,则确认待公示发票的发票类型为所述预设关键词对应的发票类型,并将其作为初始发票类型。例如,对于机动车发票来说,预设关键词可以为“机动车”,当发票图像中的文字信息包含“机动车”时,可以认为待公示发票的发票类型为机动车发票。可以事先设定对应于各种发票类型的预设关键词,以供对比使用。步骤203:以待公示发票的发票图像作为输入,根据神经网络模型识别待公示发票的发票类型作为校正发票类型。由于ocr技术存在一定的误识率和失败率,因此识别发票图像中的文字信息可能失败。此外,发票经常会出现模糊、污损、文字被印章遮挡等情况,所以通过文字信息不一定能够正确确定发票类型。因此,可以在通过ocr技术对发票类型进行识别以后,再通过神经网络模型对发票类型进行进一步识别。具体地,以待公示发票的发票图像作为输入,根据神经网络模型即可识别待公示发票的发票类型,将其作为校正发票类型。步骤204:判断初始发票类型与校正发票类型是否一致,如果一致,则以初始发票类型或校正发票类型作为待公示发票的发票类型。如果初始发票类型与校正发票类型一致,说明发票类型就是利用ocr技术确定的发票类型或利用神经网络模型确定的发票类型;如果不一致,则可以输出警示信息,例如“利用ocr技术确定的发票类型和利用神经网络模型确定的发票类型不一致,请进行核对”,由工作人员确认发票的类型,或者以神经网络模型确定的发票类型为准。步骤3:根据发票类型隐藏待公示发票的敏感信息,并公示待公示发票的非敏感信息。其中,根据发票类型隐藏待公示发票的敏感信息具体包括以下步骤:步骤301:建立敏感信息模板,敏感信息模板包括发票类型、该发票类型对应的敏感信息、以及敏感信息所在区域。敏感信息是发票中不宜被公开的信息,例如用户的姓名、地址、商品名称、金额等,除了敏感信息以外的普通信息如开票日期等可以进行公示。敏感信息的界定,是根据业务场景的具体需求可个性化确定。例如,在某些场景中商品名称是隐私数据;而某些场景中,金额、地址等信息可能是隐私数据。在本发明实施例中,预先建立敏感信息模板,敏感信息模板包括发票类型、该发票类型所对应的敏感信息、以及该敏感信息所在区域在发票图像中的位置。例如,敏感信息模板1所包含的信息为:发票类型为增值税专用发票,增值税专用发票所对应的敏感信息为地址和电话,这条敏感信息所在区域在发票图像中的位置为发票图像高度方向上的20%-25%,发票图像长度方向上的10%-40%。因此,将“发票图像高度方向上的20%-25%、发票图像长度方向上的10%-40%”记录为敏感信息所在区域。可以预先针对各类发票建立敏感信息模板。步骤302:根据待公示发票的发票类型,通过敏感信息模板确定待公示发票的敏感信息所在区域。在步骤2中已经确定了待公示发票的发票类型,因此在本步骤中,通过敏感信息模板即可确定待公示发票的敏感信息所在区域。步骤303:对敏感信息所在区域进行隐藏处理。可以通过模糊化或者颜色(例如黑色或白色)遮挡对敏感信息所在区域进行隐藏处理。待公示发票中除了敏感信息以外的其他信息属于非敏感信息,可以进行公示。公示形式可根据本方法的应用场景来确定,例如可通过手机客户端、网页或其他形式进行公示。本发明实施例还提供一种基于神经网络的发票公示系统,其特征在于,包括:存储器,存储有计算机可执行指令;处理器,所述处理器运行所述存储器中的计算机可执行指令,执行以下步骤:步骤1:选择发票样本,基于所述发票样本训练神经网络模型;步骤2:根据所述神经网络模型识别待公示发票的发票类型;以及步骤3:根据所述发票类型隐藏所述待公示发票的敏感信息,并公示所述待公示发票的非敏感信息。所述发票样本包括发票图像和发票类型。在一个示例中,所述基于所述发票样本训练神经网络模型包括:以所述发票图像作为输入,以所述发票类型作为标签,对所述神经网络模型进行训练。在一个示例中,所述步骤2包括:步骤201:获取所述待公示发票的发票图像;步骤202:识别所述发票图像中的文字信息,根据所述文字信息确定所述待公示发票的发票类型作为初始发票类型;步骤203:以所述待公示发票的发票图像作为输入,根据所述神经网络模型识别所述待公示发票的发票类型作为校正发票类型;步骤204:判断所述初始发票类型与所述校正发票类型是否一致,如果一致,则以所述初始发票类型或所述校正发票类型作为所述待公示发票的发票类型;如果不一致,则输出预设提示信息。在一个示例中,所述步骤202包括:利用光学字符识别方法识别所述发票图像中的文字信息;将所述文字信息与预设关键词进行对比,如果所述文字信息包含预设关键词,则以所述预设关键词对应的发票类型作为所述初始发票类型。在一个示例中,所述根据所述发票类型隐藏所述待公示发票的敏感信息包括:步骤301:建立敏感信息模板,所述敏感信息模板包括发票类型、所述发票类型对应的敏感信息、以及敏感信息所在区域;步骤302:根据所述待公示发票的发票类型,通过所述敏感信息模板确定待公示发票的敏感信息所在区域;步骤303:对所述敏感信息所在区域进行隐藏处理。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程发票公示设备的处理器以产生一个机器,使得通过计算机或其他可编程发票公示设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程发票公示设备以特定方式楼层的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程发票公示设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本
技术领域
的普通技术人员来说许多修改和变更都是显而易见的。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1