测试AI视频测试通话数据的方法、装置、设备和存储介质与流程

文档序号：24938939发布日期：2021-05-04 11:31阅读：121来源：国知局

本发明涉及数据处理领域，特别涉及一种测试ai视频测试通话数据的方法、装置、设备和存储介质。

背景技术：

ai视频面审机器人是一种全新的技术，解决了传统人工面审环节所带来的高昂成本的问题，也解决了传统人工面审环节难以提供一个完全标准化的服务，整体存在风控标准主观性强、服务参差不齐、线下网点覆盖率低等问题。目前，ai视频面审机器人还存在有声画不同步的技术问题，若不对ai视频面审机器人的通话数据进行检测，直接将ai视频面审机器人投入使用，会造成客户使用体验效果差的技术问题。

技术实现要素：

本发明的主要目的为提供一种测试ai视频测试通话数据的方法、装置、设备和存储介质，旨在解决ai视频面审机器人声画不同步的技术问题。

本发明提供了一种测试ai视频测试通话数据的方法，包括：

获取终端的ai视频测试通话数据；

解析所述ai视频测试通话数据中音频数据得到所述终端播放音频的第一时刻，以及解析所述ai视频测试通话数据中视频数据得到所述终端播放视频的第二时刻；

判断所述第一时刻和所述第二时刻之间的第一误差是否在预设范围内；

若所述第一误差在预设范围内，则检测所述音频数据中的有声的第一时间段，以及所述视频数据中虚拟形象的预设动态形象出现的第二时间段；

判断所述第一时间段和第二时间段之间的第二误差是否在预设的误差范围内；

若所述第二误差在预设的误差范围内，则判定所述ai视频测试通话数据合格。

进一步地，所述获取终端的多个ai视频测试通话数据的步骤之前，还包括：

获取所述终端的通信请求；

基于所述通信请求对所述终端进行远程鉴权；

若所述远程鉴权结果指示所述终端具有通话的权限，则建立所述终端与ai面审机器人之间的通讯连接。

进一步地，所述判断所述第一时刻和所述第二时刻之间的第一误差是否在预设范围内的步骤之后，还包括：

若不在预设的范围内，则根据所述第一误差调整所述视频数据和/或所述音频数据的发送时间，以使所述视频数据和/或所述音频数据的播放时间同步。

进一步地，所述检测所述音频数据中的有声的第一时间段，以及所述视频数据中虚拟形象的预设动态形象出现的第二时间段的步骤，包括：

获取所述音频数据中有声的所述第一时间段，以及获取所述视频数据显示的动态形象出现的所述第二时间段；

按照时间顺序，分别提取所述第一时间段的多个声音特征，以及所述第二时间段的多个动态特征；

以时间顺序，查找多个所述声音特征与多个所述动态特征连续匹配的特征，其中连续匹配的特征对应的特征为声音与画面相对应的特征。

进一步地，所述获取所述音频数据中有声的所述第一时间段的步骤，包括：

将所述音频数据进行二进制处理，得到所述音频数据的二进制信息；

将所述二进制信息转化为文本格式，得到所述音频数据的音频文本；

检测所述音频文本中有声格式的文字，以及所述有声格式的文字在文本出现的位置；

根据所述有声格式的文字以及在文本出现的位置得到所述第一时间段。

进一步地，所述获取所述视频数据显示的动态形象出现的所述第二时间段的步骤，包括：

获取所述视频数据中所述虚拟形象的设定位置的图像部分；

将所述视频数据中每一帧的所述设定位置的图像部分进行三值化处理，得到所述视频数据中每一帧的暂时图像；

获取每一帧暂时图像与相邻帧暂时图像的相似情况；

按照时间顺序，将由相似变为不相似的一帧图片视为所述动态形象的起始点，将由不相似变为相似的一帧图片视为所述动态形象的结束点，从而得到所述第二时间段。

本发明还提供了一种ai视频面审机器人的测试装置，包括：

获取模块，用于获取终端的ai视频测试通话数据；

解析模块，用于解析所述ai视频测试通话数据中音频数据得到所述终端播放音频的第一时刻，以及解析所述ai视频测试通话数据中视频数据得到所述终端播放视频的第二时刻；

第一判断模块，用于判断所述第一时刻和所述第二时刻之间的第一误差是否在预设范围内；

检测模块，用于若所述第一误差在预设范围内，则检测所述音频数据中的有声的第一时间段，以及所述视频数据中虚拟形象的预设动态形象出现的第二时间段；

第二判断模块，用于判断所述第一时间段和第二时间段之间的第二误差是否在预设的误差范围内；

判定模块，用于若所述第二误差在预设的误差范围内，则判定所述ai视频测试通话数据合格。

进一步地，所述ai视频面审机器人的测试装置，还包括：

通信请求获取模块，用于获取所述终端的通信请求；

鉴权模块，用于基于所述通信请求对所述终端进行远程鉴权；

建立模块，用于若所述远程鉴权结果指示所述终端具有通话的权限，则建立所述终端与ai面审机器人之间的通讯连接。

本发明还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本发明的有益效果：通过检测终端播放音频的第一时刻和终端播放视频的第二时刻，检测因数据传输所带来的第一误差，以判断是否是数据传输所造成声画不同步的原因，若不是则再检测所述视频数据中虚拟形象的预设动态形象出现的第二时间段，与所述音频数据中的有声的第一时间段之间的第二误差，并根据测试结果可以对ai视频面审机器人进行调整，使ai视频面审机器人可以与大多数客户进行正常的对话，提高了ai视频面审机器人与客户的交互效果。

附图说明

图1是本发明一实施例的一种测试ai视频测试通话数据的方法的流程示意图；

图2是本发明一实施例的一种测试ai视频测试通话数据的装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后等)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变，所述的连接可以是直接连接，也可以是间接连接。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，a和b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。

另外，在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

参照图1，本发明提出一种测试ai视频测试通话数据的方法，包括：

s1：获取终端的ai视频测试通话数据；

s2：解析所述ai视频测试通话数据中音频数据得到所述终端播放音频的第一时刻，以及解析所述ai视频测试通话数据中视频数据得到所述终端播放视频的第二时刻；

s3：判断所述第一时刻和所述第二时刻之间的第一误差是否在预设范围内；

s4：若所述第一误差在预设范围内，则检测所述音频数据中的有声的第一时间段，以及所述视频数据中虚拟形象的预设动态形象出现的第二时间段；

s5：判断所述第一时间段和第二时间段之间的第二误差是否在预设的误差范围内；

s6：若在所述第二误差预设的误差范围内，则判定所述ai视频测试通话数据合格。

如上述步骤s1所述，获取终端的ai视频测试通话数据。其中，ai视频面审机器人优选设置在云服务器端，即用户只需要上传语音和视频数据，无需占据终端更多的内存，终端只需要加载云服务器中的ai视频面审机器人发送过来的视频和音频，另外，云服务器获取终端的ai视频测试通话数据可以包括客户的视频画面以及客户的音频数据，然获取这些数据对检测声画不同步并无实际上的帮助，故而优选为不包括，只需要获取到终端播放ai视频面审机器人传递的音频数据和视频数据即可。获取的方式可以是由终端进行获取，由终端记录播放视频和音频的时间，也可以由第三方程序或者装置进行记录，然后由终端或第三方程序、装置传递给云服务器。另外获取数据的主体可以是ai视频面审机器人进行获取，也可以是由第三方程序进行获取，第三方程序可以是云服务器中的一个节点，以便于数据的获取、处理分析等。

如上述步骤s2所述，解析所述ai视频测试通话数据中音频数据得到所述终端播放音频的第一时刻，以及解析所述ai视频测试通话数据中视频数据得到所述终端播放视频的第二时刻。具体地，可以在音频数据和视频数据中设置时间戳，通过时间戳来记录音频和视频分别播放的时刻，后续只需要检测时间戳就可以获取到第一时刻和第二时刻，当然，也可以对视频数据和音频数据进行分析，计算其视频数据和音频数据的误差时间，从而得到直接得到第一误差。

如上述步骤s3所述，判断第一时刻和第二时刻的第一误差是否在预设范围内，判断的方法可以是检测第一时刻中终端播放音频的时间与终端播放视频的时间是否可以对应上，其第一误差为多少，预设范围的值可以自行设定，优选设定为客户感觉不到的时间范围，即人体凭借自身感官感受不到的误差范围。

如上述步骤s4所述，若所述第一误差在预设范围内，则则检测所述音频数据中的有声的第一时间段，以及所述视频数据中虚拟形象的预设动态形象出现的第二时间段。若第一时刻和第二时刻的第一误差在预设范围内，则说明发送至终端的时间并无问题，即云服务器与终端之间的数据传输没有问题，但是ai视频面审机器人在处理客户回答的问题时，实时生成的音频数据与视频数据对应不上，即在终端显示的ai面审机器人的音频和视频可能会存在“虚拟人物的嘴型在动，但是并无声音”，也有可能“嘴型不动，而有声音”等两种声画不同步的现象，给予了客户不好的体验，因此，可以针对其虚拟形象的预设动态形象出现的第二时间段，以及音频数据中的有声的第一时间段进行检测，检测第二误差的大小，即错乱的时间大小，以此进行判断。

如上述步骤s5-s6所述，判断所述第一时间段和第二时间段之间的第二误差是否在预设的误差范围内。该预设的误差范围为事先设定的值，可以根据人体感受不到的误差范围进行设定，当在这个误差范围内时，可以判断该ai视频测试通话数据合格。进一步地，若需要判断ai视频面审机器人合格，可以以一份ai视频测试通话数据进行判定，也可以进行多次的测试，根据多份ai视频测试通话数据进行判定。完成了对ai视频测试通话数据的测试，进而实现对ai视频面审机器人的测试，根据测试结果可以对云服务器端的ai视频面审机器人进行调整，使ai视频面审机器人可以与大多数客户进行正常的对话，以减少人工面审的人力资源。

在一个实施例中，所述云服务器获取终端的多个ai视频测试通话数据的步骤s1之前，还包括：

s001：获取所述终端的通信请求；

s002：基于所述通信请求对所述终端进行远程鉴权；

s003：若所述远程鉴权结果指示所述终端具有通话的权限，则建立所述终端与ai面审机器人之间的通讯连接。

如上述步骤s001-s003所述，实现了对ai视频面审机器人的保护。即，需要先进行远程鉴权，该远程鉴权可以由ai视频面审机器人进行处理，也可以由云服务器的其他设备进行处理。为了便于理解，本实施例以ai视频面审机器人进行处理为例进行说明。ai视频面审机器人在获取到终端发送的通信请求时，基于通信请求对终端对应的客户进行远程鉴权，得到远程鉴权结果，通信请求为客户通过其自身的账号信息访问ai视频面审机器人所得到的，通信请求中携带有终端所在的网络环境(网络安全与网速)，该通信请求可以在客户发起与以ai视频面审机器人进行通话时产生得到。可以理解的是，ai视频面审机器人在获取到某个终端的通信请求时，可以提取到其对应的账号信息(例如，手机号码、社交账号等个人属性信息)和网络环境，以对通过该账号的客户进行鉴权处理，在鉴权成功的前提下，与终端才建立通讯连接，反之，则会在鉴权失败的情况下，拒绝终端的通信请求，确保访问的安全性，即实现了对ai视频面审机器人和客户账号的保护。

在一个实施例中，所述判断所述第一时刻和所述第二时刻之间的第一误差是否在预设范围内的步骤s3之后，还包括：

s401：若不在预设的范围内，则根据所述第一误差调整所述视频数据和/或所述音频数据的发送时间，以使所述视频数据和/或所述音频数据的播放时间同步。

如上述步骤s401所述，实现了对视频数据和音频数据的播放时间的调整。即若第一时刻和第二时刻之间存在第一误差，会导致声画不同步，而导致声画不同步的原因往往是因为网速或者是终端播放音频和视频之间存在一定的时差而引起的，与ai视频面审机器人的关系并不大，因此，可以根据第一时刻和第二时刻之间的第一误差进行调整播放时间，或者当终端设置为接收到视频数据和/或音频数据时直接进行播放的状态时，可以调整所述视频数据和/或所述音频数据的发送时间，以使终端接收所述视频数据和所述音频数据的时间误差在预设范围内或者没有第一误差。进而排除掉因终端网络或者其他因素导致播放音频数据和视频数据的时间不一致的情况，排除掉非ai视频面审机器人的问题，使后续对ai视频面审机器人进行更好检测。

在一个实施例中，所述检测所述音频数据中的有声的第一时间段，以及所述视频数据中虚拟形象的预设动态形象出现的第二时间段的步骤s4，包括：

s411：获取所述音频数据中有声的所述第一时间段，以及获取所述视频数据显示的动态形象出现的所述第二时间段；

s412：按照时间顺序，分别提取所述第一时间段的多个声音特征，以及所述第二时间段的多个动态特征；

s413：以时间顺序，查找多个所述声音特征与多个所述动态特征连续匹配的特征，其中连续匹配的特征对应的特征为声音与画面相对应的特征。

如上述步骤s411-s413所述，实现了对音频数据和视频数据播放进程的检测，即先检测出第一时间段和第二时间段，然后基于其连续匹配的特征，即在ai视频面审机器人生成对应的视频数据和音频数据时，其也会设定音频数据中的声音与视频数据中的动态表情之间的对应关系，找出第一时间段中与第二时间段中相适配的时间点，即检测出音频数据的播放进度是快于还是慢于视频数据的播放进度，具体地比较方法，直接判断所述第一时间段的多个声音特征中，与多个动态特征未匹配的声音特征位于多个声音特征中的前端部分，还是后端部分，如果是前端部分，则说明音频数据的播放进度慢于视频数据的播放进度，如何是后端部分，则说明音频数据的播放进度快于视频数据的播放进度。

在一个实施例中，所述获取所述音频数据中有声的所述第一时间段的步骤s411，包括：

s41101：将所述音频数据进行二进制处理，得到所述音频数据的二进制信息；

s41102：将所述二进制信息转化为文本格式，得到所述音频数据的音频文本；

s41103：检测所述音频文本中有声格式的文字，以及所述有声格式的文字在文本出现的位置；

s41104：根据所述有声格式的文字以及在文本出现的位置得到所述第一时间段。

如上述步骤s41101-s41104所述，可以将音频数据(一般为pcm格式的文件)进行二进制分析，格式是16000hz采样，16bit量化。分析后看到设定的表示符号(一般为00)表示静音符号。而其他的符号表示有声格式，由于终端播放音频数据的速度是设定的，故而在文本格式中的各个符号所在的位置也可以说明播放的时间点，即可以根据非静音符号得到了第一时间段，将其以文本格式的情况进行分析还可以转换为excel文件，以便于后续做数据分析，判断出问题产生的原因。

在一个实施例中，所述获取所述视频数据显示的动态形象出现的所述第二时间段的步骤s411，包括：

s41111：获取所述视频数据中所述虚拟形象的设定位置的图像部分；

s41112：将所述视频数据中每一帧的所述设定位置的图像部分进行三值化处理，得到所述视频数据中每一帧的暂时图像；

s41113：获取每一帧暂时图像与相邻帧暂时图像的相似情况；

s41114：按照时间顺序，将由相似变为不相似的一帧图片视为所述动态形象的起始点，将由不相似变为相似的一帧图片视为所述动态形象的结束点，从而得到所述第二时间段。

如上述步骤s41111-s41114所述，实现了第二时间段的获取，即先获取到视频数据中所述虚拟形象的设定位置的图像部分。其中该设定位置为ai视频面审机器人设定的虚拟形象变化的部分，一般为嘴唇，也可以是表情，头，虚拟形象的位置等，而无需检测其余不动的图像，优化了计算机的运算，将该设定位置处的部分进行三值化处理，得到视频数据中每一帧的暂时图像，将其进行三值化处理是为了得到对应的数字化的图像，以便于后续进行计算，例如可以比较每帧暂时图片中每个像素点的数值，比较每一帧暂时图像与相邻帧暂时图像的相似情况，当然第一帧和最后一帧无法进行比较，可以视第一帧为静默动态表情，随着视频的播放，当某一帧图像的前一帧与当前帧的图像不相似时，可以认为是动态形象的起始点，即对应的音频数据应当开始有声音，当由都不相似变为相似的一帧图片开始，则可以认为所述动态形象的结束点，从而得到第二时间段。

本发明的有益效果：通过检测终端播放音频的第一时刻和终端播放视频的第二时刻，检测因数据传输所带来的第一误差，以判断是否是数据传输所造成声画不同步的原因，若不是则再检测所述视频数据中虚拟形象的预设动态形象出现的第二时间段，与所述音频数据中的有声的第一时间段之间的第二误差，根据测试结果可以对ai视频面审机器人进行调整，使ai视频面审机器人可以与大多数客户进行正常的对话，提高了ai视频面审机器人与客户的交互效果。

参照图2，本发明还提供了一种ai视频面审机器人的测试装置，包括：

获取模块10，用于获取终端的ai视频测试通话数据；

解析模块20，用于解析所述ai视频测试通话数据中音频数据得到所述终端播放音频的第一时刻，以及解析所述ai视频测试通话数据中视频数据得到所述终端播放视频的第二时刻；

第一判断模块30，用于判断所述第一时刻和所述第二时刻之间的第一误差是否在预设范围内；

检测模块40，用于若所述第一误差在预设范围内，则检测所述音频数据中的有声的第一时间段，以及所述视频数据中虚拟形象的预设动态形象出现的第二时间段；

第二判断模块50，用于判断所述第一时间段和第二时间段之间的第二误差是否在预设的误差范围内；

判定模块60，用于若所述第二误差在预设的误差范围内，则判定所述ai视频测试通话数据合格。

在一个实施例中，所述ai视频面审机器人的测试装置，还包括：

通信请求获取模块，用于获取所述终端的通信请求；

鉴权模块，用于基于所述通信请求对所述终端进行远程鉴权；

建立模块，用于若所述远程鉴权结果指示所述终端具有通话的权限，则建立所述终端与ai面审机器人之间的通讯连接。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储各种通话数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时可以实现上述任一实施例所述的测试ai视频测试通话数据的方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时可以实现上述任一实施例所述的测试ai视频测试通话数据的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram一多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余强
技术所有人：平安普惠企业管理有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。