一种基于视频对象识别的业务审核方法、装置及设备与流程

文档序号：25307786发布日期：2021-06-04 14:54阅读：75来源：国知局

1.本说明书实施例涉及人工智能技术领域，特别涉及一种基于视频对象识别的业务审核方法、装置及设备。

背景技术：

2.在实际应用中，往往存在有一些执行较为严格，且要求较高的线下业务，例如，银行为客户所办理的一些涉及较大资金的业务，或涉及用户身份信息登记或调整的业务。这些业务对于准确性的要求较高，在与客户交接完毕后可能还需要对业务流程进行二次审核。为了保证这类业务的执行过程无误，可以利用摄像设备拍摄业务执行的全过程。在业务执行完毕后，通过对所拍摄的流程视频进行二次审核，判断其是否符合预设的业务流程规范，从而确定业务是否正常执行。
3.目前在通过视频审核业务时，往往是由校对人员通过观看视频来判断是否符合业务的执行要求。但是，随着业务类型和业务数量的不断增多，对于校对人员的要求也越来越高，校对人员往往需要花费较多的时间来判断视频内容是否符合对应的审核规则，从而使得人工对业务流程进行质检的方式需要额外消耗较多的时间，大大影响了业务审核的效率，进而延长了业务处理的流程。因此，目前亟需一种能够快速准确地基于业务视频对业务进行审核的方法。

技术实现要素：

4.本说明书实施例的目的是提供一种基于视频对象识别的业务审核方法、装置及设备，以解决如何快速准确地基于业务对应的视频对业务进行审核的问题。
5.为解决上述技术问题，本说明书实施例提供一种基于视频对象识别的业务审核方法，包括：获取业务流程视频；所述业务流程视频录制有待审核业务的执行过程；确定所述业务流程视频中的人脸数量；识别所述业务流程视频中的证件类型和证件数量；在所述人脸数量、证件类型和证件数量均符合所述待审核业务的业务执行条件的情况下，判定所述待审核业务为正常业务。
6.本说明书实施例还提出一种基于视频对象识别的业务审核装置，包括：业务流程视频获取模块，用于获取业务流程视频；所述业务流程视频录制有待审核业务的执行过程；人脸数量确定模块，用于确定所述业务流程视频中的人脸数量；证件识别模块，用于识别所述业务流程视频中的证件类型和证件数量；正常业务判定模块，用于在所述人脸数量、证件类型和证件数量均符合所述待审核业务的业务执行条件的情况下，判定所述待审核业务为正常业务。
7.本说明书实施例还提出一种基于视频对象识别的业务审核设备，包括存储器和处理器；所述存储器，用于存储计算机程序指令；所述处理器，用于执行所述计算机程序指令以实现以下步骤：获取业务流程视频；所述业务流程视频录制有待审核业务的执行过程；确定所述业务流程视频中的人脸数量；识别所述业务流程视频中的证件类型和证件数量；在
所述人脸数量、证件类型和证件数量均符合所述待审核业务的业务执行条件的情况下，判定所述待审核业务为正常业务。
8.由以上本说明书实施例提供的技术方案可见，本说明书实施例在获取到业务流程视频后，识别出所述业务流程视频对应的人脸数量、证件数量和证件类型，进而利用所述人脸数量、证件数量和证件类型与待审核业务对应的业务执行条件进行比对，从而判断该业务是否为正常业务。上述方法的执行过程无需人工审核，缩短了审核流程，减少了业务审核所需要的时间。直接对人脸和证件进行识别的方式也保证了识别的准确性，进而提高了业务处理的效率。
附图说明
9.为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
10.图1为本说明书实施例一种基于视频对象识别的业务审核方法的流程图；
11.图2为本说明书实施例一种证件检测模型的结构图；
12.图3为本说明书实施例一种利用证件检测模型识别证件的流程图；
13.图4为本说明书实施例一种基于视频对象识别的业务审核装置的模块图；
14.图5为本说明书实施例一种基于视频对象识别的业务审核设备的设备图。
具体实施方式
15.下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。
16.为了解决上述技术问题，本说明书实施例提出了一种基于视频对象识别的业务审核方法。所述基于视频对象识别的业务审核方法的执行主体为基于视频对象识别的业务审核设备。所述基于视频对象识别的业务审核设备包括但不限于服务器、工控机、pc机等。如图1所示，所述基于视频对象识别的业务审核方法可以包括以下具体实施步骤。
17.s110：获取业务流程视频；所述业务流程视频录制有待审核业务的执行过程。
18.业务流程视频可以是在业务执行过程中所摄制的视频。针对一些较为重要的业务，为了保证能够在业务执行完毕后对业务进行审核，往往需要对业务执行的过程进行录制，从而能够根据所录制的视频判断业务在执行的过程中是否符合对应的业务规范。
19.由于业务流程视频所涉及的一般是线下业务，而线下业务往往涉及业务办理客户和业务操作人员，首先可以判断业务流程视频中是否包含有上述人员。此外，由于业务办理过程中一般会涉及到一些证件，因此，可以要求将业务所涉及的证件展示给摄像设备，从而使得摄像设备也可以拍摄到相应的证件信息，进而在审核时可以判断视频中是否包含有上述证件。
20.具体的在拍摄所述业务流程视频时，例如可以将摄像设备放置在业务办理客户和
业务操作人员的侧面，从而能够同时将这些人员拍摄至视频中。相应的，摄像设备与用户之间的距离也可以根据实际应用情况进行调整，在此不再赘述。
21.待审核业务即为业务流程视频所对应的业务。所述待审核业务对应有固定的执行流程，例如在更改用户信息时，可能会需要获取到用户的身份证、户口本等证件，同时还需要保证是用户到场进行修改。在对该类业务进行审核时，可以判断用户是否在场，以及在办理的过程中是否利用到了身份证、户口本等证件，进而根据待审核业务的执行流程完成对该业务的审核。
22.s120：确定所述业务流程视频中的人脸数量。
23.在获取到所述业务流程视频后，可以识别所述业务流程视频所对应的人脸数量。由于业务执行一般具有特定的人数，例如一般业务需要至少一名客户和至少一名操作人员在场，因此通过识别所述业务流程视频中的人脸数量是否大于二，来判断该业务在执行时是否符合业务执行的要求。
24.具体的识别过程可以是利用人脸检测模型提取出视频中符合人脸识别条件的特征后，判断视频中的人脸数量。所述人脸检测模型可以是预先训练得到的用于识别人脸的模型。具体的训练所述人脸预测模型的过程可以基于实际情况进行调整，在此不再赘述。
25.在一些实施方式中，为了提高人脸识别的便利性，可以在识别之前先基于预设截取间隔从所述业务流程视频中提取目标视频帧。由于业务流程视频也是由较多帧的图像所构成的，相邻的帧之间往往差异性较小，因此通过提取目标视频帧的方式不仅减少了分析所需要的工作量，也保证了识别结果的准确性。
26.所述预设截取间隔可以用于限定获取目标视频帧的方式，假设所录制的视频为每秒15帧，可以设置预设截取间隔为5帧，即每5帧截取一张目标视频帧，每秒截取3张目标视频帧，用于识别相应的人脸数量。通过提取目标视频帧的方式能够大大介绍所需要分析的图片数量，提高了方法执行的效率。
27.在一些实施方式中，由于背景的干扰以及模型自身识别的问题，可能会出现错误识别的情况。这些错误识别的结果可能会与实际业务执行的结果不符，从而影响判断过程。因此，还需要根据目标视频帧的识别结果从中确定错误识别的人脸误检视频帧。
28.为了完成识别，在提取目标视频帧时，对于不同的目标视频帧可以设置相应的时序标记，这些时序标记可以对应于不同的目标视频帧在业务流程视频中的出现顺序。获取到对应于各个目标视频帧的人脸数量识别结果之后，可以根据各个目标视频帧对应的时序标记，确定其中连续且对应有同样的人脸数量的目标视频帧的数量是否小于最小连续阈值，若小于，则判断这些目标视频帧为人脸误检视频帧。
29.由于在实际应用中，即使拍摄的背景存在干扰，例如其他人员经过，这个人员也会在视频中存在一定时间，因此若视频中连续的某几帧图像对应的人脸数量与邻近的其他帧对应的人脸数量不同，且这几帧图像持续时间较短，则很大概率是错误识别到的人脸数量。
30.在确定人脸误检视频帧后，可以从业务流程视频中提出所述人脸误检视频帧，再利用剔除后的业务流程视频确定相应的人脸数量。通过上述实施方式，保障了对于图像的识别结果的准确性，进而确保业务审核的准确性。
31.s130：识别所述业务流程视频中的证件类型和证件数量。
32.在获取到所述业务流程视频后，可以识别所述业务流程视频所对应的证件类型和
证件数量。由于有些业务在执行时需要利用特定的证件，因此可以分析视频中是否展示由相应的证件。对应于证件的特征可以包括证件类型和证件数量。所述证件类型包括身份证、工作证、执业证、投保单中的至少一种。所述证件数量可以根据实际应用的情况进行设置。
33.在一些实施方式中，识别证件类型和证件数量之前，也可以采取从业务流程视频中提取目标视频帧，再分析目标视频帧所对应的证件类型和证件数量的方式来进行识别。具体的对目标视频帧的介绍可以参照步骤s120中的说明，在此不再赘述。
34.相应的，在这些目标视频帧中存在对业务类型或业务数量进行错误识别的视频帧时，也可以根据各个目标视频帧对应的时序标记和所识别出的证件数量、证件类型，确定证件误检视频帧，再根据剔除证件误检视频帧后的目标视频帧确定所述业务流程视频对应的证件数量和证件类型。确定所述证件误检视频帧的方式可以是在连续且对应有同样的证件类型或证件数量的目标视频帧的数量小于最小连续阈值的情况下，确定所述目标视频帧为证件误检视频帧。具体的对于确定证件误检视频帧以及剔除证件误检视频帧的说明也可以参照步骤s120中的叙述，在此不再赘述。
35.在一些实施方式中，除了视频背景中突然出现的人员以及偶然识别到的错误结果之外，也可以出现对目标视频帧中的一些特征进行错误识别的情况。例如，所述业务流程视频在拍摄时同时也获取到了员工桌上的工牌，而在对业务流程视频进行识别时，始终将该工牌识别为某一类证件。而由于实际在执行业务时，操作人员或客户不可能会长时间地将某一证件展示给摄像设备，因此，可以通过分析所识别的证件出现在视频帧中的比例是否大于某一比例来确定是否出现此类误识别的情况。
36.具体的，可以是在对应于特定证件类型的目标视频帧占全部目标视频帧的比例大于最大持续比例的情况下，确定所述特征证件类型为误检证件类型，其中，所述误检证件类型不作为对应于所述业务流程视频的证件类型。所述最大持续比例可以根据实际情况进行设置，例如可以设定为业务流程视频全长的80％。具体的执行过程可以根据实际应用的情况进行调整，在此不做赘述。
37.在一些实施方式中，识别所述目标视频帧中的证件类型和证件数量，可以是利用证件检测模型来识别所述目标视频帧中的证件类型和证件数量。所述证件检测模型可以是预先训练得到的用于对目标视频帧中符合证件的特征进行识别的模型，从而实现方便准确地确定目标视频帧中的证件类型和证件位置。
38.具体的，可以基于图2所对应的结构对证件检测模型进行训练。如图2所示，首先，可以获取样本图像(oringinal image)，所述样本图像对应有样本图像标注；所述样本图像标注用于指示证件类型和证件位置。执行步骤d51，对所述样本图像进行滤波后得到锐化后的样本图像(filtered image)。具体的例如可以是使用opencv中filter2d函数使用3*3的卷积核对图片进行滤波。
39.之后，可以执行步骤d52，利用证件检测模型中的resnet网络从所述锐化后的样本图像中提取样本图像特征。针对复杂场景，所使用的resnet网络为resnet101，使用深层的网络提取特征。再执行步骤d53，基于所述样本图像特征，利用证件检测模型中的特征空间金字塔(fpn,feature pyramid network)获取多尺度特征。
40.接着，可以执行步骤d54，通过所述证件检测模型对所述多尺度特征进行回归预测，得到预测证件类别和预测证件位置。具体的，可以引入anchor
‑
free模块，使用基于无锚
点(anchor
‑
free)的方式对多尺度特征进行分类和回归预测。anchor
‑
free在训练时无需人为设计固定的几个anchor对特征图进行卷积，而是动态地选择最合适的特征层级对目标进行分类和定位预测，从而提高预测的效果。
41.最终，执行步骤d55，利用所述预测证件类别和预测证件位置计算损失函数。根据预测出的类别和位置与ground truth的差异，分别计算分类loss和回归loss。其中，分类loss(focal loss)可表示为回归loss(iou loss)可表示为用于监督学习的总loss可表示为其中，代表筛选的有效区域，是区域内的像素数。
42.基于图2中所展示的，计算得到损失函数后，根据所述损失函数对证件检测模型进行调整，并重复上述步骤直至所述证件检测模型训练完毕，从而完成了模型的训练。
43.在所述证件检测模型训练完毕后，可以利用所述证件检测模型识别所述业务流程视频的证件类型和证件数量。如图3所示，识别的具体过程可以如下所示。
44.首先，在获取视频帧后，执行步骤s131，对所述目标视频帧进行预处理；所述预处理包括图像锐化、去噪中的至少一种，以提高视频帧的图像质量，保证所输入的视频帧与训练时一致。利用锐化后的视频帧，执行步骤s132,利用所述证件检测模型从所述目标视频帧中提取图像特征；所述图像特征包括证件类型和证件位置。具体的，可以是每张视频帧的类别(class)、位置(x,y,width,height)以及对应的置信度conf。
45.之后，可以执行步骤s133，根据所有目标视频帧中的图像特征剔除重复检测到的图像特征，并根据剔除后的目标视频帧，确定对应于所述业务流程视频的证件类型和证件数量。具体的执行过程可以如图3中所示，结合步骤s134中所获取的各个视频帧的时序列表，使用nsm(non maximum suppression，非极大值抑制)，遍历图片中所有的定位到的目标，去除检测到的重复的目标框。
46.在一些实施方式中，还可以结合之前时序部分的介绍，移除不符合时序的视频帧，以提高识别的准确性。具体的实施方式可以参照之前的叙述，在此不再赘述。
47.需要说明的是，实际执行的过程中，确定人脸数量和识别证件类型、证件数量可以是由不同的模块所执行的，即这两个步骤并不存在固定的执行顺序，可以是先识别人脸，再识别证件，也可以先识别证件，再识别人脸，或者也可以同时对这两者进行识别。实际应用中对此并不做限制。
48.s140：在所述人脸数量、证件类型和证件数量均符合所述待审核业务的业务执行条件的情况下，判定所述待审核业务为正常业务。
49.在获取到所述业务流程视频所对应的人脸数量、证件类型和证件数量后，可以将所述人脸数量、证件类型和证件数量作为对应于所述待审核业务的业务识别结果。相应的，所述待审核业务可以预先设置有业务执行条件。所述业务执行条件可以用于限定所述待审核业务在执行过程中所需到场的人员数量、以及所需展示的证件等信息。例如，所述业务执行条件可以是业务执行过程的人脸数量不小于二，且需要展示身份证和执业证。相应的，在根据所述业务执行条件对业务进行审核时，可以判断所述待审核业务的业务识别结果的人
脸数量是否不小于二，以及是否识别到了身份证和执业证。
50.在确定业务识别结果满足业务执行条件的相关要求的情况下，可以判定所述待审核业务为正常业务，即表明所述待审核业务的执行流程不存在问题。
51.若所述人脸数量或证件类型或证件数量不符合所述待审核业务的业务执行条件，则可以判定所述待审核业务为异常业务。异常业务表明所述待审核业务的执行过程存在异常，并不符合正常的业务执行流程，具体的可以是业务在执行时不满足人数的要求，或业务处理的过程中并未利用到某一证件。在确定异常业务后，可以将所述异常业务后，可以将所述异常业务推送至相应的管理人员进行处理。具体的处理过程可以基于实际应用的情况进行设置，在此不再赘述。
52.通过上述实施例的介绍可以看出，上述方法在获取到业务流程视频后，识别出所述业务流程视频对应的人脸数量、证件数量和证件类型，进而利用所述人脸数量、证件数量和证件类型与待审核业务对应的业务执行条件进行比对，从而判断该业务是否为正常业务。上述方法的执行过程无需人工审核，缩短了审核流程，减少了业务审核所需要的时间。直接对人脸和证件进行识别的方式也保证了识别的准确性，进而提高了业务处理的效率。
53.根据上述基于视频对象识别的业务审核方法，介绍本说明书实施例一种基于视频对象识别的业务审核装置。如图4所示，所述基于视频对象识别的业务审核装置可以包括以下模块。
54.业务流程视频获取模块410，用于获取业务流程视频；所述业务流程视频录制有待审核业务的执行过程。
55.人脸数量确定模块420，用于确定所述业务流程视频中的人脸数量。
56.证件识别模块430，用于识别所述业务流程视频中的证件类型和证件数量。
57.正常业务判定模块440，用于在所述人脸数量、证件类型和证件数量均符合所述待审核业务的业务执行条件的情况下，判定所述待审核业务为正常业务。
58.根据上述基于视频对象识别的业务审核方法，介绍本说明书实施例一种基于视频对象识别的业务审核装置。如图5所示，所述基于视频对象识别的业务审核设备可以包括存储器和处理器。
59.在本实施例中，所述存储器可以按任何适当的方式实现。例如，所述存储器可以为只读存储器、机械硬盘、固态硬盘、或u盘等。所述存储器可以用于存储计算机程序指令。
60.在本实施例中，所述处理器可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(application specific integrated circuit，asic)、可编程逻辑控制器和嵌入微控制器的形式等等。所述处理器可以执行所述计算机程序指令实现以下步骤：获取业务流程视频；所述业务流程视频录制有待审核业务的执行过程；确定所述业务流程视频中的人脸数量；识别所述业务流程视频中的证件类型和证件数量；在所述人脸数量、证件类型和证件数量均符合所述待审核业务的业务执行条件的情况下，判定所述待审核业务为正常业务。
61.在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。
设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(programmable logic device,pld)(例如现场可编程门阵列(field programmable gate array，fpga))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(hardware description language，hdl)，而hdl也并非仅有一种，而是有许多种，如abel(advanced boolean expression language)、ahdl(altera hardware description language)、confluence、cupl(cornell university programming language)、hdcal、jhdl(java hardware description language)、lava、lola、myhdl、palasm、rhdl(ruby hardware description language)等，目前最普遍使用的是vhdl(very
‑
high
‑
speed integrated circuit hardware description language)与verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。
62.上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
63.通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的第一硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
64.本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
65.本说明书可用于众多第一或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
66.本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块
可以位于包括存储设备在内的本地和远程计算机存储介质中。
67.虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许明;姜璐;钟华
技术所有人：中国工商银行股份有限公司
我是此专利的发明人

上一篇：一种机械加工用车削打磨一体机的制作方法
上一篇：一种新型压力机移动工作台升降式定位装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。