结合音频分析和视频分析的欺诈识别方法、装置及存储介质与流程

文档序号:14475779阅读:235来源:国知局
结合音频分析和视频分析的欺诈识别方法、装置及存储介质与流程

本发明涉及计算机信息处理技术领域,尤其涉及一种结合音频分析和视频分析的欺诈识别方法、装置及计算机可读存储介质。



背景技术:

目前,欺诈识别一般通过面审的方式实现,极度依赖分析人员的经验和判断,耗费大量的时间和人力,分析结果往往不准确客观。也有利用专业的仪器设备,通过检测呼吸、脉搏、血压、皮肤电阻等一系列指标判断被测试人员有无欺诈嫌疑,但此类仪器设备通常价格昂贵且容易对被测试人员的人权构成侵犯。



技术实现要素:

为解决现有技术存在的不足,本发明提供一种结合音频分析和视频分析的欺诈识别方法、装置及计算机可读存储介质,通过分析待识别对象的音视频数据,客观、准确地判断待识别对象是否存在欺诈嫌疑。

为实现上述目的,本发明提供一种结合音频分析和视频分析的欺诈识别方法,应用于电子装置,该方法包括:

样本准备步骤:收集人物音视频样本,对音视频样本进行切割,得到音视频片段,为每个音视频片段分配一个欺诈标注,对每个音视频片段进行解码和预处理,得到每个音视频片段的音频片段和视频片段;

特征提取步骤:从每个音频片段中提取语音特征,从每个视频片段中提取表情特征;

模型训练步骤:以各音频片段的语音特征和欺诈标注为样本数据,对第一支持向量机进行训练,得到语音分析模型;以各视频片段的表情特征和欺诈标注为样本数据,对第二支持向量机进行训练,得到表情分析模型;

模型应用步骤:采集待识别对象的音视频数据,利用所述语音分析模型和表情分析模型对该音视频数据进行分析,输出该待识别对象的音频欺诈概率p1和视频欺诈概率p2;及

加权计算步骤:根据所述语音分析模型和表情分析模型的权重将p1、p2加权计算,得到该待识别对象的欺诈识别结果。

优选地,所述特征提取步骤中提取语音特征包括:

第一特征提取步骤:从每个音频片段中提取低阶音频特征;

第二特征提取步骤:从各低阶语音特征中提取动态回归系数,得到每个音频片段的动态音频特征;

第三特征提取步骤:利用统计函数从所述低阶音频特征及动态音频特征中提取各音频片段的高阶音频特征;及

筛选步骤:利用特征筛选算法从各音频片段的高阶音频特征中筛选出高阶音频特征子集,将高阶音频特征子集作为各音频片段的语音特征。

优选地,所述低阶音频特征包括梅尔频率倒谱系数、音高和过零率。

优选地,所述特征提取步骤中提取表情特征包括:

低阶特征提取步骤:从每个视频片段中提取低阶动作特征;

高阶特征构造步骤:统计每个视频片段中各低阶动作特征出现的次数及持续的时长,根据统计结果构造各视频片段的高阶动作特征;及

筛选步骤:利用特征筛选算法从各视频片段的高阶动作特征中筛选出高阶动作特征子集,将高阶动作特征子集作为各视频片段的表情特征。

优选地,所述低阶动作特征包括头部朝向、眼球朝向和面部动作单元(actionunit,au)。

优选地,所述模型应用步骤还包括以下步骤:

对待识别对象的音视频数据进行解码和预处理,得到该待识别对象的音频数据和视频数据;

从该待识别对象的音频数据中提取语音特征,从该待识别对象的视频数据中提取表情特征。

本发明还提供一种电子装置,该电子装置包括存储器和处理器,所述存储器中包括欺诈识别程序。该电子装置直接或间接地与摄像装置相连接,摄像装置将采集的音视频数据传送至电子装置。该电子装置的处理器执行存储器中的欺诈识别程序时,实现以下步骤:

样本准备步骤:收集人物音视频样本,对音视频样本进行切割,得到音视频片段,为每个音视频片段分配一个欺诈标注,对每个音视频片段进行解码和预处理,得到每个音视频片段的音频片段和视频片段;

特征提取步骤:从每个音频片段中提取语音特征,从每个视频片段中提取表情特征;

模型训练步骤:以各音频片段的语音特征和欺诈标注为样本数据,对第一支持向量机进行训练,得到语音分析模型;以各视频片段的表情特征和欺诈标注为样本数据,对第二支持向量机进行训练,得到表情分析模型;

模型应用步骤:采集待识别对象的音视频数据,利用所述语音分析模型和表情分析模型对该音视频数据进行分析,输出该待识别对象的音频欺诈概率p1和视频欺诈概率p2;及

加权计算步骤:根据所述语音分析模型和表情分析模型的权重将p1、p2加权计算,得到该待识别对象的欺诈识别结果。

优选地,所述特征提取步骤中提取语音特征包括:

第一特征提取步骤:从每个音频片段中提取低阶音频特征;

第二特征提取步骤:从各低阶语音特征中提取动态回归系数,得到每个音频片段的动态音频特征;

第三特征提取步骤:利用统计函数从所述低阶音频特征及动态音频特征中提取各音频片段的高阶音频特征;及

筛选步骤:利用特征筛选算法从各音频片段的高阶音频特征中筛选出高阶音频特征子集,将高阶音频特征子集作为各音频片段的语音特征。

优选地,所述低阶音频特征包括梅尔频率倒谱系数、音高和过零率。

优选地,所述特征提取步骤中提取表情特征包括:

低阶特征提取步骤:从每个视频片段中提取低阶动作特征;

高阶特征构造步骤:统计每个视频片段中各低阶动作特征出现的次数及持续的时长,根据统计结果构造各视频片段的高阶动作特征;及

筛选步骤:利用特征筛选算法从各视频片段的高阶动作特征中筛选出高阶动作特征子集,将高阶动作特征子集作为各视频片段的表情特征。

优选地,所述低阶动作特征包括头部朝向、眼球朝向和面部au。

优选地,所述模型应用步骤还包括以下步骤:

对待识别对象的音视频数据进行解码和预处理,得到该待识别对象的音频数据和视频数据;

从该待识别对象的音频数据中提取语音特征,从该待识别对象的视频数据中提取表情特征。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括欺诈识别程序,所述欺诈识别程序被处理器执行时,实现如上所述的结合音频分析和视频分析的欺诈识别方法中的任意步骤。

本发明提供的结合音频分析和视频分析的欺诈识别方法、装置及计算机可读存储介质,通过提取音视频样本音频片段的语音特征和视频片段的表情特征,结合对应的欺诈标注,对支持向量机进行训练,得到语音分析模型和表情分析模型。之后,将训练好的模型应用于实时的欺诈识别环节:采集待识别对象的音视频数据,提取该音视频数据的语音特征和表情特征,将该语音特征和表情特征分别输入训练得到的语音分析模型和表情分析模型,输出该待识别对象的音频欺诈概率p1和视频欺诈概率p2,将p1、p2加权融合,得到该待识别对象的欺诈识别结果。利用本发明,可以客观、准确地识别人物是否存在欺诈嫌疑。

附图说明

图1为本发明电子装置第一较佳实施例的应用环境图。

图2为本发明电子装置第二较佳实施例的应用环境图。

图3为图1、图2中欺诈识别程序的程序模块图。

图4为本发明结合音频分析和视频分析的欺诈识别方法较佳实施例的流程图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

下面将参考若干具体实施例来描述本发明的原理和精神。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

参照图1所示,为本发明电子装置第一较佳实施例的应用环境图。在该实施例中,摄像装置3通过网络2连接电子装置1,摄像装置3采集人物的音视频数据,通过网络2传送至电子装置1,电子装置1利用本发明提供的欺诈识别程序10分析所述音视频数据,得到人物的欺诈识别结果。

电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有存储和运算功能的终端设备。

该电子装置1包括存储器11、处理器12、网络接口13及通信总线14。

摄像装置3安装于特定场所,如办公场所、监控区域等,用于采集人物的音视频数据,然后通过网络2将所述音视频数据传输至存储器11。网络接口13可以包括标准的有线接口、无线接口(如wi-fi接口)。通信总线14用于实现这些组件之间的连接通信。

存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置1的外部存储器11,例如所述电子装置1上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。

在本实施例中,所述存储器11存储所述欺诈识别程序10的程序代码、摄像装置3采集的音视频数据,以及处理器12执行欺诈识别程序10的程序代码应用到的其他数据以及最后输出的数据等。

处理器12在一些实施例中可以是一中央处理器(centralprocessingunit,cpu),微处理器或其他数据处理芯片。

图1仅示出了具有组件11-14的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。

可选地,该电子装置1还可以包括用户接口,用户接口可以包括输入单元比如键盘(keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等,可选地用户接口还可以包括标准的有线接口、无线接口。

可选地,该电子装置1还可以包括显示器。显示器在一些实施例中可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode,有机发光二极管)触摸器等。显示器用于显示电子装置1处理的信息以及可视化的用户界面。

可选地,该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,所述触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,所述触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。用户,例如心理咨询师、信贷面审人员等,可以通过触摸启动欺诈识别程序10。

该电子装置1还可以包括射频(radiofrequency,rf)电路、传感器和音频电路等等,在此不再赘述。

参照图2所示,为本发明电子装置第二较佳实施例的应用环境图。用户通过终端3实现欺诈识别过程,终端3的摄像装置30采集待识别对象的音视频数据,并通过网络2传送至所述电子装置1,电子装置1的处理器12执行存储器11存储的欺诈识别程序10的程序代码,对音视频数据的音频数据和视频数据进行分析,输出该待识别对象的音频欺诈概率p1和视频欺诈概率p2,将p1、p2加权计算,得到该待识别对象的欺诈识别结果,供待识别对象或审查人员等参考。

图2中电子装置1的组件,例如图中示出的存储器11、处理器12、网络接口13及通信总线14,以及图中未示出的组件,请参照关于图1的介绍。

所述终端3可以为智能手机、平板电脑、便携计算机、桌上型计算机等具有存储和运算功能的终端设备。

图1、图2中的欺诈识别程序10,在被处理器12执行时,实现以下步骤:

样本准备步骤:收集人物音视频样本,对音视频样本进行切割,得到音视频片段,为每个音视频片段分配一个欺诈标注,对每个音视频片段进行解码和预处理,得到每个音视频片段的音频片段和视频片段;

特征提取步骤:从每个音频片段中提取语音特征,从每个视频片段中提取表情特征;

模型训练步骤:以各音频片段的语音特征和欺诈标注为样本数据,对第一支持向量机进行训练,得到语音分析模型;以各视频片段的表情特征和欺诈标注为样本数据,对第二支持向量机进行训练,得到表情分析模型;

模型应用步骤:采集待识别对象的音视频数据,利用所述语音分析模型和表情分析模型对该音视频数据进行分析,输出该待识别对象的音频欺诈概率p1和视频欺诈概率p2;及

加权计算步骤:根据所述语音分析模型和表情分析模型的权重将p1、p2加权计算,得到该待识别对象的欺诈识别结果。

关于上述步骤的详细介绍,请参照下述图3关于欺诈识别程序10的程序模块图及图4关于结合音频分析和视频分析的欺诈识别方法较佳实施例的流程图的说明。

参照图3所示,为图1、图2中欺诈识别程序10的程序模块图。在本实施例中,欺诈识别程序10被分割为多个模块,该多个模块被存储于存储器11中,并由处理器12执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

所述欺诈识别程序10可以被分割为:获取模块110、提取模块120、训练模块130、模型应用模块140和加权计算模块150。

获取模块110,用于获取人物的音视频并对其进行解码和预处理,得到对应的音频部分和视频部分。所述音视频可以是通过图1的摄像装置3或图2的摄像装置30采集的,也可以是从网络信息或音视频资料库中选取的明显存在欺诈行为的音视频和无欺诈行为的音视频。以情绪为单位对用于训练支持向量机的音视频样本进行切割,得到音视频片段,为每个音视频片段分配一个欺诈标注,所述欺诈标注表示该音视频片段中的人物有无欺诈嫌疑,例如1表示有欺诈嫌疑,0表示无欺诈嫌疑。对音视频进行解码和预处理,得到对应的音频部分和视频部分。

提取模块120,用于提取所述音频部分的语音特征和视频部分的表情特征。提取模块120从获取模块110得到的每个音频部分提取语音特征,从获取模块110得到的每个视频部分提取表情特征。

提取模块120提取一个音频部分的语音特征时,先从该音频部分提取梅尔频率倒谱系数、音高、过零率等低阶音频特征,再从这些低阶音频特征中提取动态回归系数,得到该音频部分的动态音频特征,然后利用统计函数从所述低阶音频特征和动态音频特征中提取高阶音频特征,最后用特征筛选算法从高阶音频特征中筛选出高阶音频特征子集,将该高阶音频特征子集作为该音频部分的语音特征。

在本实施例中,可以使用opensmile软件来提取音频部分的梅尔频率倒谱系数、音高、过零率等低阶音频特征。所述动态回归系数用来表示低阶音频特征的重要程度。例如,将某个音频部分的某个低阶音频特征(比如音高特征)以一个波形文件表示,则该波形文件用多元线性回归的方式可以表示为:

y=β0+β1x1+β2x2+…+βkxk

其中,k为该低阶音频特征在该音频部分的数目,βj(j=1,2,…,k)为该低阶音频特征的动态回归系数。

所述统计函数包括用来提取低阶音频特征和动态音频特征的最大值、最小值、峰度、偏度等的函数,提取模块120将利用统计函数提取到的数据进行组合、变换,得到高阶音频特征。各音频部分提取到的高阶音频特征的数量往往非常大,但通常只有少部分高阶音频特征会对欺诈识别的结果产生显著影响,所以,我们用特征筛选算法来减少高阶音频特征的数量,提高欺诈识别速度。在本实施例中,所述特征筛选算法可以是序列前向选择(sequentialforwardselection,sfs)算法、序列后向选择(sequentialbackwardselection,sbs)算法、双向搜索(bidirectionalsearch,bds)算法、过滤特征选择(filterfeatureselection)算法,也可以是其他特征筛选算法。

类似地,提取模块120提取一个视频部分的表情特征时,先从该视频部分提取头部朝向、眼球朝向和面部动作单元(actionunit,au)等低阶动作特征,再统计各低阶动作特征在该视频部分出现的次数和持续的时长,根据统计结果构造该视频部分的高阶动作特征,然后用特征筛选算法从高阶动作特征中筛选出高阶动作特征子集,将该高阶动作特征子集作为该视频部分的表情特征。

训练模块130,用于训练支持向量机,得到语音分析模型和表情分析模型。以提取模块120提取的音视频样本的各音频部分的语音特征和获取模块110分配的欺诈标注为样本数据,对第一支持向量机进行训练,得到语音分析模型;以提取模块120提取的音视频样本的各视频部分的表情特征和获取模块110分配的欺诈标注为样本数据,对第二支持向量机进行训练,得到表情分析模型。

模型应用模块140,用于分析待识别对象的音视频数据,得到待识别对象的音频欺诈概率和视频欺诈概率。将提取模块120提取的待识别对象的音视频的音频部分的语音特征输入训练模块130训练得到的语音分析模型,输出该待识别对象的音频欺诈概率p1;将待识别对象视频部分的表情特征输入训练好的表情分析模型,输出该待识别对象的视频欺诈概率p2。

加权计算模块150,用于将待识别对象的音频欺诈概率p1和视频欺诈概率p2加权计算,得到该待识别对象的欺诈识别结果。训练模块130利用样本数据训练支持向量机得到语音分析模型和表情分析模型时,可以统计出两个模型的准确率,以此计算语音分析模型和表情分析模型的权重,计算待识别对象最终的欺诈概率。

例如,假设语音分析模型的准确率为85%,表情分析模型的准确率为95%,计算语音分析模型和表情分析模型的权重可以表示如下:

p(audio)=a=0.85

p(video)=b=0.95

其中,p(audio)表示语音分析模型的准确率,p(video)表示表情分析模型的准确率,w(audio)表示语音分析模型的权重,w(video)表示表情分析模型的权重。

假设待识别对象的音视频数据经过语音分析模型、表情分析模型分析,得到该待识别对象的音频欺诈概率为0.8,视频欺诈概率为0.7,则根据w(audio)和w(video)进行加权融合计算,最终得到该待识别对象的欺诈概率为:

p=(0.85/1.8)*0.8+(0.95/1.8)*0.7

参照图4所示,为本发明结合音频分析和视频分析的欺诈识别方法较佳实施例的流程图。利用图1或图2所示的架构,启动电子装置1,处理器12执行存储器11中存储的欺诈识别程序10,实现如下步骤:

步骤s10,利用获取模块110收集人物音视频样本,以情绪为单位对音视频样本进行切割,得到音视频片段,为每个音视频片段分配一个欺诈标注。所述音视频样本可以是通过图1的摄像装置3或图2的摄像装置30获取的,也可以是从网络信息或音视频资料库中选取的明显存在欺诈行为的音视频和无欺诈行为的正常音视频。

步骤s20,利用获取模块110对每个音视频片段进行解码和预处理,得到每个音视频片段的音频片段和视频片段。每个音视频片段的欺诈标注仍作为对应音频片段和视频片段的欺诈标注。

步骤s30,利用提取模块120从每个音频片段和视频片段中分别提取语音特征和表情特征。语音特征和表情特征的具体提取方法请参照上述提取模块120的详细介绍。

步骤s40,根据每个音频片段的语音特征和欺诈标注训练第一支持向量机,得到语音分析模型,根据每个视频片段的表情特征和欺诈标注训练第二支持向量机,得到表情分析模型。利用训练模块130,以每个音频片段的语音特征和欺诈标注为样本数据,对第一支持向量机进行训练,得到语音分析模型;以每个视频片段的表情特征和欺诈标注为样本数据,对第二支持向量机进行训练,得到表情分析模型。

步骤s50,利用获取模块110采集待识别对象的音视频数据,对该音视频数据进行解码和预处理,得到该待识别对象的音频数据和视频数据。所述音视频数据通过图1的摄像装置3或图2的摄像装置30实时获取。

步骤s60,利用提取模块120提取所述待识别对象的音频数据的语音特征和视频数据的表情特征。语音特征和表情特征的具体提取方法请参照上述提取模块120的详细介绍。

步骤s70,将该待识别对象的音频数据的语音特征和视频数据的表情特征分别输入所述语音分析模型和表情分析模型,得到该待识别对象的音频欺诈概率和视频欺诈概率。利用模型应用模块140,将提取模块120提取到的待识别对象的音频数据的语音特征输入所述语音分析模型,输出该待分析对象的音频欺诈概率p1;将提取模块120提取到的该待识别对象的视频数据的表情特征输入所述表情分析模型,输出该待识别对象的视频欺诈概率p2。

步骤s80,根据所述语音分析模型和表情分析模型的权重将p1、p2加权计算,得到待识别对象的欺诈识别结果。语音分析模型和表情分析模型的权重的确定方法和p1、p2加权计算的具体过程请参照上述加权计算模块150的详细介绍。

此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是硬盘、多媒体卡、sd卡、闪存卡、smc、只读存储器(rom)、可擦除可编程只读存储器(eprom)、便携式紧致盘只读存储器(cd-rom)、usb存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括音视频样本及欺诈识别程序10,所述欺诈识别程序10被处理器执行时实现如下操作:。

样本准备步骤:收集人物音视频样本,对音视频样本进行切割,得到音视频片段,为每个音视频片段分配一个欺诈标注,对每个音视频片段进行解码和预处理,得到每个音视频片段的音频片段和视频片段;

特征提取步骤:从每个音频片段中提取语音特征,从每个视频片段中提取表情特征;

模型训练步骤:以各音频片段的语音特征和欺诈标注为样本数据,对第一支持向量机进行训练,得到语音分析模型;以各视频片段的表情特征和欺诈标注为样本数据,对第二支持向量机进行训练,得到表情分析模型;

模型应用步骤:采集待识别对象的音视频数据,利用所述语音分析模型和表情分析模型对该音视频数据进行分析,输出该待识别对象的音频欺诈概率p1和视频欺诈概率p2;及

加权计算步骤:根据所述语音分析模型和表情分析模型的权重将p1、p2加权计算,得到该待识别对象的欺诈识别结果。

本发明之计算机可读存储介质的具体实施方式与上述结合音频分析和视频分析的欺诈识别方法以及电子装置1的具体实施方式大致相同,在此不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1