1.本技术涉及互联网技术领域,尤其涉及一种数据处理方法以及设备。
背景技术:2.在对音频敏感关键词的检测上,目前主要是通过人工检测以及利用技术进行机器鉴别,但在现有技术中,人工检测的方式主要依靠人耳进行辨别,基于人工审核识别的方法,在互联网产品海量的音视频环境下,需要花费大量的人工成本和时间成本,效率低下,长时间听音频容易造成听觉疲劳导致误判现象。利用技术进行机器鉴别主要有两个方案,第一个是将音频进行音转文(语音识别)后再进行关键词的检索和匹配判断,判断输入音频是否包含敏感关键词内容,从而判断音频是否为恶意音频,该方法需要大量的时间和计算资源。第二个是从关键词唤醒的方案出发,一般是训练一个指定关键词的声学模型,采用该方案一般只能针对特定的关键词,可扩展性较差。
技术实现要素:3.本技术实施例提供一种数据处理方法以及设备,可以提高对音频文件中关键词的检测效率和准确率,增强可扩展性。
4.本技术实施例一方面提供了一种数据处理方法,可包括:
5.对目标音频文件进行音频过滤,生成有效音频文件;
6.提取有效音频文件的声学特征向量;
7.对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分;
8.通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果,检索结果用于表示是否命中关键词检索库中的关键词;
9.根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。
10.在一种可行的实施方式中,上述数据处理方法还包括:
11.确定至少一个关键词,将至少一个关键词进行拼音转换生成每个关键词对应的拼音序列;
12.将至少一个关键词和关键词对应的拼音序列存储入关键词检索库。
13.在一种可行的实施方式中,对目标音频文件进行音频过滤之前,还包括:
14.采用第一网络模型对待处理音频文件进行检测,确定待处理音频文件的音频类型;
15.若待处理音频文件为纯人声音频,则将待处理文件确定为目标音频文件,并执行对目标音频文件进行音频过滤的步骤;
16.若待处理音频文件为人声伴奏音频,则采用第二网络模型对待处理音频文件进行伴奏分离处理,将去除伴奏后的干声音频文件作为目标音频文件,并执行对目标音频文件进行音频过滤的步骤。
17.在一种可行的实施方式中,对目标音频文件进行音频过滤,生成有效音频文件,包括:
18.通过语音端点检测技术确定目标音频文件中的非有效片段,对目标音频文件中的非有效片段进行剪切后得到至少一个有效片段;
19.将至少一个有效片段进行拼接,得到有效音频文件。
20.在一种可行的实施方式中,对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分,包括:
21.将声学特征向量输入卷积神经网络,生成目标音频文件对应的第一特征向量;
22.将第一特征向量输入深度前馈序列记忆网络,生成目标音频文件对应的第二特征向量;
23.通过线性预测层对第二特征进行解码生成至少一个类别向量,每个类别向量具有置信度得分;
24.根据至少一个类别向量生成目标音频文件对应的至少一个拼音序列,并基于拼音序列对应的类别向量的置信度得分得到拼音序列对应的置信度得分;
25.采用连接性时序分类器对至少一个拼音序列进行重复字母识别,并去除重复字母生成去重拼音序列,将置信度得分最大的去重拼音序列作为目标音频文件对应的目标拼音序列。
26.在一种可行的实施方式中,通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果,包括:
27.将关键词检索库中关键词对应的拼音序列与目标拼音序列进行对比;
28.若目标拼音序列中存在关键词对应的拼音序列,生成目标音频文件的检索结果为命中关键词;
29.若目标拼音序列中不存在关键词对应的拼音序列,生成目标音频文件的检索结果为未命中关键词。
30.在一种可行的实施方式中,根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析,包括:
31.若检索结果为命中关键词且置信度得分大于或等于得分阈值,将待处理音频文件确定为非正常音频;
32.若检索结果为命中关键词且置信度得分小于得分阈值,将待处理音频文件确定为疑似正常音频;
33.若检索结果为未命中关键词,将待处理音频文件确定为正常音频。
34.本技术实施例一方面提供了一种数据处理设备,可包括:
35.音频过滤单元,用于对目标音频文件进行音频过滤,生成有效音频文件;
36.特征提取单元,用于提取有效音频文件的声学特征向量;
37.拼音序列生成单元,用于对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分;
38.信息检索单元,用于通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果,检索结果用于表示是否命中关键词检索库中的关键词;
39.结果分析单元,用于根据置信度得分和检索结果对待处理音频文件是否为正常音
频进行分析。
40.在一种可行的实施方式中,上述数据处理设备还包括:
41.检索库生成单元,用于确定至少一个关键词,将至少一个关键词进行拼音转换生成每个关键词对应的拼音序列;
42.将至少一个关键词和关键词对应的拼音序列存储入关键词检索库。
43.在一种可行的实施方式中,上述数据处理设备还包括:
44.音频检测单元,用于采用第一网络模型对待处理音频文件进行检测,确定待处理音频文件的音频类型;
45.若待处理音频文件为纯人声音频,则将待处理文件确定为目标音频文件,并执行对目标音频文件进行音频过滤的步骤;
46.若待处理音频文件为人声伴奏音频,则采用第二网络模型对待处理音频文件进行伴奏分离处理,将去除伴奏后的干声音频文件作为目标音频文件,并执行对目标音频文件进行音频过滤的步骤。
47.在一种可行的实施方式中,音频过滤单元具体用于:
48.通过语音端点检测技术确定目标音频文件中的非有效片段,对目标音频文件中的非有效片段进行剪切后得到至少一个有效片段;
49.将至少一个有效片段进行拼接,得到有效音频文件。
50.在一种可行的实施方式中,拼音序列生成单元具体用于:
51.将声学特征向量输入卷积神经网络,生成目标音频文件对应的第一特征向量;
52.将第一特征向量输入深度前馈序列记忆网络,生成目标音频文件对应的第二特征向量;
53.通过线性预测层对第二特征进行解码生成至少一个类别向量,每个类别向量具有置信度得分;
54.根据至少一个类别向量生成目标音频文件对应的至少一个拼音序列,并基于拼音序列对应的类别向量的置信度得分得到拼音序列对应的置信度得分;
55.采用连接性时序分类器对至少一个拼音序列进行重复字母识别,并去除重复字母生成去重拼音序列,将置信度得分最大的去重拼音序列作为目标音频文件对应的目标拼音序列。
56.在一种可行的实施方式中,信息检索单元具体用于:
57.将关键词检索库中关键词对应的拼音序列与目标拼音序列进行对比;
58.若目标拼音序列中存在关键词对应的拼音序列,生成目标音频文件的检索结果为命中关键词;
59.若目标拼音序列中不存在关键词对应的拼音序列,生成目标音频文件的检索结果为未命中关键词。
60.在一种可行的实施方式中,结果分析单元具体用于:
61.若检索结果为命中关键词且置信度得分大于或等于得分阈值,将待处理音频文件确定为非正常音频;
62.若检索结果为命中关键词且置信度得分小于得分阈值,将待处理音频文件确定为疑似正常音频;
63.若检索结果为未命中关键词,将待处理音频文件确定为正常音频。
64.本技术实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。
65.本技术实施例一方面提供了一种计算机设备,包括处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的方法步骤。
66.本技术实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的方法步骤。
67.在本技术实施例中,通过对目标音频文件进行音频过滤,生成有效音频文件,进一步提取有效音频文件的声学特征向量,并对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分,进一步的,通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果,检索结果用于表示是否命中关键词检索库中的关键词,最后根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。采用上述方法,避免了人工审核效率低下以及听觉疲劳导致误判的问题,且检索对象可针对任意关键词,提高了音频文件依据关键词进行视频检测的应用范围。
附图说明
68.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
69.图1是本技术实施例提供的一种数据处理的系统架构图;
70.图2是本技术实施例提供的一种数据处理方法的流程示意图;
71.图3是本技术实施例提供的一种数据处理方法的流程示意图;
72.图4a是本技术实施例提供的一种数据处理方法的举例示意图;
73.图4b是本技术实施例提供的一种字母和字符去重的举例示意图;
74.图4c是本技术实施例提供的一种音频分析的举例示意图;
75.图5是本技术实施例提供的一种数据处理设备的结构示意图;
76.图6是本技术实施例提供的一种计算机设备的结构示意图。
具体实施方式
77.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
78.请参见图1,是本发明实施例提供的一种数据处理的系统架构图。服务器10f通过交换机10e和通信总线10d与用户终端集群建立连接,用户终端集群可包括:用户终端10a、用户终端10b...用户终端10c。数据库10g中存储了关键词检索库,关键词检索库中包括多
个关键词和关键词对应的拼音序列,数据库10g中还存储了用于提取声学特征向量和对声学特征向量进行解码识别的网络模型,服务器10f对目标音频文件进行音频过滤,生成有效音频文件,进一步采用数据库10g中的网络模型提取有效音频文件的声学特征向量,并对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分,进一步的,服务器10f通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果,检索结果用于表示是否命中关键词检索库中的关键词,最后服务器10f根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。
79.本技术实施例涉及的用户终端包括:平板电脑、智能手机、个人电脑(pc)、笔记本电脑、掌上电脑等终端设备。
80.请参见图2,为本技术实施例提供了一种数据处理方法的流程示意图。如图2所示,本技术实施例的方法可以应用于数据处理设备,具体包括以下步骤s101
‑
步骤s105。
81.s101,对目标音频文件进行音频过滤,生成有效音频文件。
82.具体的,本实施例提供的数据处理方法可以应用于数据处理设备,数据处理设备获取待处理音频文件,数据处理设备可以是图1中的服务器10f,待处理音频文件是待进行原创性检测的音频文件,音频文件的格式包括但不限于mp3、midi、wma等,待处理音频文件也可以是从视频文件中提取的音频文件。进一步的,数据处理设备对待处理音频文件进行预处理生成目标音频文件,其中预处理包括对音频文件的转码、采样率、编码格式等进行统一,格式转换,音频通道的归一化处理,以及编码调制等,例如将mp3、midi或者wma等格式的音频文件统一转码成wav格式,使用pcm16bit小端对音频文件进行编码,将音频文件的采样率调整为16k,将双通道音频归一化为单通道音频。
83.进一步的,数据处理设备对目标音频文件进行音频过滤,生成有效音频文件。可以理解的是,音频过滤是为了减小静音片段和噪声片段对检测结果的影响,具体的,对目标音频文件进行音频端点检测,计算目标音频文件的音频信号的幅度、能量、过零率和基频等信息,进而进行有效语音的判断和检测,去除静音片段和噪声片段,截取有效的语音片段作为有效音频文件。
84.s102,提取有效音频文件的声学特征向量。
85.具体的,数据处理设备提取有效音频文件的声学特征向量,例如,通过傅里叶变换提取有效音频文件的声学特征向量。
86.s103,对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分。
87.具体的,数据处理设备采用声学模型对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分。声学模型可以是cnn
‑
dfsmn
‑
ctc模型,cnn
‑
dfsmn
‑
ctc模型可以由卷积神经网络(convolutional neural networks,cnn)、深度前馈序列记忆网络(deep feed
‑
forward sequential memory network,dfsmn)和连接性时序分类器(connectionist temporal classification,ctc)组成,其中,声学模型可以串联多个cnn,dfsmn由多个dfsmn单元组成,dfsmn单元由隐藏层(或称relu层)、投射层和记忆模块,其中记忆模块之间通过跳转连接方式连接。对声学特征向量进行解码识别可以得到多个拼音序列以及每个拼音序列的概率,概率可以直接作为或进一步转化为置信度得分,进而将置信度得分最大的拼音序列确定为目标拼音序列。
88.s104,通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果。
89.具体的,关键词检索库存储有关键词以及关键词对应的拼音序列,数据处理设备将关键词检索库中关键词的拼音序列与目标拼音序列进行对比,以检测目标拼音序列是否包含关键词的拼音序列。若目标拼音序列存在关键词对应的拼音序列,则确定目标音频文件的检索结果为命中关键词,当若目标拼音序列中不存在任何关键词对应的拼音序列,则确定目标音频文件的检索结果为未命中关键词。针对多个关键词的情况,可以设定阈值,当目标拼音序列中存在的关键词数量达到阈值时,即可确定目标音频文件的检索结果为命中关键词,需要说明的是,根据命中关键词在关键词检索库中的类别,可以确定命中的关键词类别。另外,关键词检索库中的关键词可以增加和删除。
90.s105,根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。
91.具体的,数据处理设备根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。当检索结果为命中关键词且置信度得分大于或等于得分阈值时,将待处理音频文件确定为非正常音频;当检索结果为命中关键词且置信度得分小于得分阈值时,将待处理音频文件确定为疑似正常音频,进一步地,可以对待处理音频文件进行复审处理,复审处理可以通过人工检测;当检索结果为未命中关键词时,将待处理音频文件确定为正常音频。需要说明的是,得分阈值可以是本领域技术人员根据检测经验预先设定的任意数值,本技术并不做具体限定。
92.在本技术实施例中,通过对目标音频文件进行音频过滤,生成有效音频文件,进一步提取有效音频文件的声学特征向量,并对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分,进一步的,通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果,检索结果用于表示是否命中关键词检索库中的关键词,最后根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。采用上述方法,避免了人工审核效率低下以及听觉疲劳导致误判的问题,且检索对象可针对任意关键词,提高了音频文件依据关键词进行视频检测的应用范围。
93.请参见图3,为本技术实施例提供了一种数据处理方法的流程示意图。如图3所示,本技术实施例的方法可以包括以下步骤s201
‑
步骤s207。
94.s201,确定至少一个关键词,将至少一个关键词进行拼音转换生成每个关键词对应的拼音序列;将至少一个关键词和每个关键词对应的拼音序列的集合确定为关键词检索库。
95.具体的,数据处理设备获取多个关键词,关键词一般是敏感性的词语,例如不符合网络规范的用语、是危害用户财产安全的词语等。将至少一个关键词进行拼音转换生成每个关键词对应的拼音序列,每个关键词对应一个拼音序列,将至少一个关键词和每个关键词对应的拼音序列的集合确定为关键词检索库。需要说明的是,可以对关键词检索库中的关键词进行分类,每个类别下可以对应多个关键词,在对待处理音频文件进行关键词检索后确定包含敏感词,则可以进一步确定该音频文件的敏感词类别。
96.s202,获取待处理音频文件,采用第一网络模型对待处理音频文件进行检测,确定待处理音频文件的音频类型。
97.具体的,数据处理设备获取待处理音频文件,进一步采用第一网络模型对待处理
音频文件进行检测,确定待处理音频文件的音频类型。可以理解的是,音频类型包括纯伴奏音频、纯人声音频和人声伴奏音频,纯伴奏音频中只包括伴奏,纯人声音频中只包括人声,人声伴奏音频包括伴奏和人声,大部分的歌曲为人声伴奏音频。
98.若待处理音频文件为纯伴奏音频,则不执行步骤s203;若待处理音频文件为纯人声音频,则执行步骤s203对待处理音频文件进行预处理生成目标音频文件;若待处理音频文件为人声伴奏音频,则采用第二网络模型对待处理音频文件进行伴奏分离处理,并按照步骤s203对伴奏分离处理后的待处理音频文件进行预处理生成目标音频文件。其中第二网络模型可以具体为u
‑
net神经网络框架,u
‑
net神经网络框架是通过对大量的音频文件进行训练后得到的,训练完成的u
‑
net神经网络框架可以学习到纯人声和纯伴奏的掩膜。在对音频文件进行伴奏分离处理时,u
‑
net神经网络框架将掩膜与输入音频在时频谱上进行乘积计算,从而得到去除伴奏后的纯人声音频。
99.s203,对待处理音频文件进行预处理生成目标音频文件。
100.具体的,数据处理设备确定待处理音频文件的音频类型后,对待处理音频文件进行预处理生成目标音频文件,具体过程如下:
101.数据处理设备将待处理音频文件的文件格式转换为预设文件格式,预设文件格式包括但不限于mp3、midi、wma等,进一步将待处理音频文件的音频通道进行归一化,具体的,将双通道音频归一化为单通道音频,进一步对待处理音频文件进行脉码编码调制,具体的,使用pcm16bit小端对音频文件进行编码,将格式转化、音频通道归一化和编码调制后的待处理音频文件确定为目标音频文件。
102.s204,通过语音端点检测确定目标音频文件中的非有效片段,对非有效片段进行剪切,生成至少一个有效片段;将至少一个有效片段进行拼接,生成有效音频文件,通过傅里叶变换提取有效音频文件的声学特征向量。
103.具体的,非有效片段包括静音片段和噪声片段,数据处理设备对音频进行音频端点检测,计算目标音频文件的音频信号的幅度、能量、过零率和基频等信息,进而确定目标音频文件中的非有效片段。进一步地,对目标音频文件中的非有效片段进行剪切,以生成至少一个有效片段。有效片段为去除非有效片段后的音频片段,将至少一个有效片段进行拼接,生成有效音频文件。需要说明的是,对有效片段的拼接可以按照音频片段的时间顺序执行。进一步地,对有效音频文件进行短时傅里叶变换处理,提取有效音频文件的声学特征向量,声学特征向量包括梅尔对数倒谱、fbank、mfcc等一种或多种特征。
104.s205,对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分。
105.具体的,数据处理设备采用声学模型对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分,声学模型可以是cnn
‑
dfsmn
‑
ctc模型,cnn
‑
dfsmn
‑
ctc模型由卷积神经网络(convolutional neural networks,cnn)、深度前馈序列记忆网络(deep feed
‑
forward sequential memory network,dfsmn)和连接性时序分类器(connectionist temporal classification,ctc)组成。
106.请参见图4a,本技术实施例提供了一种数据处理方法的举例示意图,如图4a所示,将声学特征向量输入卷积神经网络cnn,高层次抽象特征学习后,生成目标音频文件对应的第一特征向量,第一特征向量为局部特征,上述卷积神经网络可以为多个串联的卷积神经
网络。
107.进一步的,将第一特征向量输入dfsmn,生成目标音频文件对应的第二特征向量,dfsmn由多个dfsmn单元组成,dfsmn单元由隐藏层(或称relu层)、投射层和记忆模块,其中记忆模块之间通过跳转连接方式连接。对于一个dfsmn单元,其各部分的输出表达式如下:
[0108][0109][0110][0111]
其中,和表示隐藏层和投射层的输出,表示第n个记忆模块的输出,和分别表示第n个记忆模块的后向序列和前向序列,和的大小控制模型对历史信息和未来信息的上下相关信息的建模,控制模型的时延大小;w
n
,为隐藏层和投射层之间转换系数;分别为记忆模块中对历史和未来的时序信息进行建模的初始向量;s1,s2分别表示前向和后向滤波器的步长,步长设置用于消除相邻帧之间的冗余信息,从而加快模型的训练。
[0112]
通过在两个隐藏层之间加入矩阵低秩分解的投射层,并在投射层上增加记忆模块,将记忆模块的输出作为下一个隐藏层的输入,且在记忆模块之间添加跳转连接,从而实现对音频的上下文信息进行建模,可以克服网络深度造成的梯度消失问题。
[0113]
需要说明的是,dfsmn中的跳转连接可以是相邻记忆模块之间的连接,也可以是不相邻记忆模块之间的连接。跳转连接的具体实现方式可以是线性变换,也可以是非线性变换。
[0114]
通过dfsmn生成第二特征向量,进一步的,通过dnn全连接层和线性预测层对第二特征向量进行解码,生成至少一个类别向量,类别向量为一个多维向量,每个类别向量的各个维度携带有置信度得分,每个类别向量的维度携带。
[0115]
根据至少一个类别向量生成目标音频文件对应的至少一个拼音序列和每个拼音序列对应的置信度得分。具体的,根据至少一个类别向量生成多个拼音序列的路径和该路径对应的置信度得分,每条路径对应一个拼音序列,路径的置信度得分为拼音序列的置信度得分,路径的置信度得分为路径中各个类别向量的置信度得分通过权重系数加权得到,例如,第二特征向量解码生成3个10维的类别向量,根据上述类别向量可以生成10*10*10条路径,每条路径对应一个拼音序列和置信度得分。
[0116]
进一步的,采用ctc对至少一个拼音序列进行重复字母识别,并去除重复字母生成去重拼音序列,将置信度得分最大的去重拼音序列作为目标音频文件对应的目标拼音序列。需要说明的是,ctc中引入了空白字符∈,例如,语音识别中的停顿即表示为∈,ctc的去重涉及重复字母和空白字符。请参见图4b,为本技术实施例提供了一种字母和字符去重的举例示意图,如图4b所示,未去重前的拼音序列(包含空白字符)为“hhe∈∈lll∈llo”,去重后的拼音序列(包含空白字符)为“he∈l∈lo”,最后去除空白字符的拼音序列为
“
hello”。
[0117]
s206,通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果。
[0118]
具体的,关键词检索库存储有关键词以及关键词对应的拼音序列,数据处理设备将关键词检索库中关键词的拼音序列与目标拼音序列进行对比,以检测目标拼音序列是否包含关键词的拼音序列。若目标拼音序列存在关键词对应的拼音序列,则确定目标音频文件的检索结果为命中关键词,当若目标拼音序列中不存在任何关键词对应的拼音序列,则确定目标音频文件的检索结果为未命中关键词。同时,针对多个关键词的情况,可以设定阈值,当目标拼音序列中存在的关键词数量达到阈值时,即可确定目标音频文件的检索结果为命中关键词,需要说明的是,根据命中关键词在关键词检索库中的类别,可以确定命中的关键词类别。另外,关键词检索库中的关键词可以增加和删除。
[0119]
s207,根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。
[0120]
具体的,数据处理设备根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。请参见图4c,本技术实施例提供了一种音频分析的举例示意图,如图4c所示,对拼音序列进行检索生成检索结果,当检索结果为命中关键词且置信度得分大于或等于得分阈值时,将待处理音频文件确定为非正常音频,得分阈值为预先设定,当检索结果为命中关键词且置信度得分小于得分阈值时,将待处理音频文件确定为疑似正常音频,对待处理音频文件进行复审处理,复审处理可以通过人工检测;当检索结果为未命中关键词时,将待处理音频文件确定为正常音频。
[0121]
在本技术实施例中,通过对目标音频文件进行音频过滤,生成有效音频文件,进一步提取有效音频文件的声学特征向量,并对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分,进一步的,通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果,检索结果用于表示是否命中关键词检索库中的关键词,最后根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。采用上述方法,避免了人工审核效率低下以及听觉疲劳导致误判的问题,且检索对象可针对任意关键词,提高了音频文件依据关键词进行视频检测的应用范围。
[0122]
请参见图5,为本技术实施例提供了一种数据处理设备的结构示意图。数据处理设备可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理设备为一个应用软件;该设备可以用于执行本技术实施例提供的方法中的相应步骤。如图5所示,本技术实施例的数据处理设备1可以包括:音频过滤单元11、特征提取单元12、拼音序列生成单元13、信息检索单元14、结果分析单元15。
[0123]
音频过滤单元11,用于对目标音频文件进行音频过滤,生成有效音频文件;
[0124]
特征提取单元12,用于提取有效音频文件的声学特征向量;
[0125]
拼音序列生成单元13,用于对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分;
[0126]
信息检索单元14,用于通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果,检索结果用于表示是否命中关键词检索库中的关键词;
[0127]
结果分析单元15,用于根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。
[0128]
请参见图5,本技术实施例的数据处理设备1可以还包括:检索库生成单元16;
[0129]
检索库生成单元16,用于确定至少一个关键词,将至少一个关键词进行拼音转换生成每个关键词对应的拼音序列;
[0130]
将至少一个关键词和关键词对应的拼音序列存储入关键词检索库。
[0131]
请参见图5,本技术实施例的数据处理设备1可以还包括:音频检测单元17;
[0132]
音频检测单元17,用于采用第一网络模型对待处理音频文件进行检测,确定待处理音频文件的音频类型;
[0133]
若待处理音频文件为纯人声音频,则将待处理文件确定为目标音频文件,并执行对目标音频文件进行音频过滤的步骤;
[0134]
若待处理音频文件为人声伴奏音频,则采用第二网络模型对待处理音频文件进行伴奏分离处理,将去除伴奏后的干声音频文件作为目标音频文件,并执行对目标音频文件进行音频过滤的步骤。
[0135]
在一种可行的实施方式中,音频过滤单元11具体用于:
[0136]
通过语音端点检测技术确定目标音频文件中的非有效片段,对目标音频文件中的非有效片段进行剪切后得到至少一个有效片段;
[0137]
将至少一个有效片段进行拼接,得到有效音频文件。
[0138]
在一种可行的实施方式中,拼音序列生成单元13具体用于:
[0139]
将声学特征向量输入卷积神经网络,生成目标音频文件对应的第一特征向量;
[0140]
将第一特征向量输入深度前馈序列记忆网络,生成目标音频文件对应的第二特征向量;
[0141]
通过线性预测层对第二特征进行解码生成至少一个类别向量,每个类别向量具有置信度得分;
[0142]
根据至少一个类别向量生成目标音频文件对应的至少一个拼音序列,并基于拼音序列对应的类别向量的置信度得分得到拼音序列对应的置信度得分;
[0143]
采用连接性时序分类器对至少一个拼音序列进行重复字母识别,并去除重复字母生成去重拼音序列,将置信度得分最大的去重拼音序列作为目标音频文件对应的目标拼音序列。
[0144]
在一种可行的实施方式中,信息检索单元14具体用于:
[0145]
将关键词检索库中关键词对应的拼音序列与目标拼音序列进行对比;
[0146]
若目标拼音序列中存在关键词对应的拼音序列,生成目标音频文件的检索结果为命中关键词;
[0147]
若目标拼音序列中不存在关键词对应的拼音序列,生成目标音频文件的检索结果为未命中关键词。
[0148]
在一种可行的实施方式中,结果分析单元15具体用于:
[0149]
若检索结果为命中关键词且置信度得分大于或等于得分阈值,将待处理音频文件确定为非正常音频;
[0150]
若检索结果为命中关键词且置信度得分小于得分阈值,将待处理音频文件确定为疑似正常音频;
[0151]
若检索结果为未命中关键词,将待处理音频文件确定为正常音频。
[0152]
在本技术实施例中,通过对目标音频文件进行音频过滤,生成有效音频文件,进一步提取有效音频文件的声学特征向量,并对声学特征向量进行解码识别,生成目标音频文件对应的目标拼音序列和目标拼音序列对应的置信度得分,进一步的,通过关键词检索库对目标拼音序列进行检索,生成目标音频文件的检索结果,检索结果用于表示是否命中关键词检索库中的关键词,最后根据置信度得分和检索结果对待处理音频文件是否为正常音频进行分析。采用上述方法,避免了人工审核效率低下以及听觉疲劳导致误判的问题,且检索对象可针对任意关键词,提高了音频文件依据关键词进行视频检测的应用范围。
[0153]
请参见图6,为本技术实施例提供了一种计算机设备的结构示意图。如图6所示,所述计算机设备1000可以包括:至少一个处理器1001,例如cpu,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(display),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi
‑
fi接口)。存储器1005可以是随机存取存储器(random access memory,ram),也可以是非易失性存储器(non
‑
volatile memory,nvm),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理应用程序。
[0154]
在图6所示的计算机设备1000中,网络接口1004可提供网络通讯功能,用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的数据处理应用程序,以实现上述图2
‑
图4c任一个所对应实施例中对所述数据处理方法的描述,在此不再赘述。
[0155]
应当理解,本技术实施例中所描述的计算机设备1000可执行前文图2
‑
图4c任一个所对应实施例中对所述数据处理方法的描述,也可执行前文图5所对应实施例中对所述数据处理设备的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
[0156]
此外,这里需要指出的是:本技术实施例还提供了一种计算机可读存储介质,且所述计算机可读存储介质中存储有前文提及的数据处理设备所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图2
‑
图4c任一个所对应实施例中对所述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本技术所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本技术方法实施例的描述。作为示例,程序指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
[0157]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、nvm或ram等。
[0158]
以上所揭露的仅为本技术较佳实施例而已,当然不能以此来限定本技术之权利范
围,因此依本技术权利要求所作的等同变化,仍属本技术所涵盖的范围。