一种融合CNNs与相位算法的音频分类检索方法与流程

文档序号:17222059发布日期:2019-03-27 12:04阅读:235来源:国知局
本发明属于数据分类
技术领域
:,尤其是一种音频数据分类检索方法。
背景技术
::随着网络存储技术的发展与数据科学时代的到来,人们越来越多地习惯于使用云存储技术保存和管理数据而不再将数据存储于本地设备的硬盘中,在人们对音频数据存储与传输的需求日益增加的情况下,如何高效地对音频数据进行分类与检索,并且在传输过程中保证用于音频检索的录音时间地点等用户隐私信息的安全,已经成为当前音频处理领域的一个研究热点。传统音频分类检索技术主要依赖于人工标注描述音频特征信息的关键词。这种方法在当前海量音频数据环境下显得十分繁琐,为了提升音频分类效率,孙文静等人使用svm构建了音频自动分类系统;辛欣等人提出了一种基于潜在概率语义(plsa)模型和k近邻分类器的音频分类算法来达到目的;choi等人将卷积循环神经网络运用到了音乐分类中,证明了卷积神经网络对音频特征的提取归纳非常有效。尽管人们对音频自动化分类和标注提出了有效的解决方案,但是在云存储环境下,仍然存在用户隐私易于泄露的问题。技术实现要素:针对上述问题,本发明提供了一种融合cnns与相位算法的音频分类检索方法,该方法包括以下步骤:步骤1:cnns-pw模拟用户上传音频流程是用户完成录入语音或歌曲后,将录入的音频就近上传到内容分发网络(cdn),通过cdn上传到云存储服务器,云存储服务端的深度学习系统根据训练结果对用户上传的音频数据进行分类,并将分类信息和用户信息以水印的形式嵌入到音频内容中。步骤2:cnns-pw模拟用户下载音频流程是用户对所需音频向cdn进行网络请求,cdn通过中心平台的负载均衡,内容分发调度等功能模块进行处理,让用户就近获取所需音频,客户端在完成音频获取后进行本地密钥的检测,核对无误后对音频的水印信息进行解码,并根据水印中的分类信息和录音时间地点等用户信息对音频进行分类展示以便检索。为了在提升可隐写信息容量的同时保证音频水印的鲁棒性和透明性,本文在水印算法的嵌入过程中添加压缩水印步骤,改进相位水印嵌入过程如图2所示。在提取过程中添加解压水印步骤,改进相位水印提取过程如图3所示。其中的融合cnns与相位算法的音频分类检索方法采用的相位算法执行的步骤为:步骤1:将音频信号s[i],(0≤i≤i-1),分割成n等长大小的音频片段sn[i]0≤n≤n-1)。步骤2:将k点(k=i/n)的离散傅里叶变换(dft)应用于第n段,建立一个相位矩阵φn(ωk)和振幅矩阵an(ωk),(0≤k≤k-1)。步骤3:计算并存储两个相邻音频片段间的相位差:δφn+1(ωk)=φn+1(ωk)-φn(ωk)步骤4:以φdata=π/2和φdata=-π/2代表“0”和“1”,表示二进制数据集合为:φ′0=φ′data步骤5:对n>0,根据相位差重构相位矩阵:步骤6:使用新的相位矩阵φ′n(ωk)和原始幅度矩阵an(ωk)进行逆离散傅里叶变换(idft)重构声音信号,检测水印时先对信号进行同步,然后检测相位,并把该相位和两个特定点上的参考相位相比较得到“0”和“1”。将相位算法步骤2中的dft和步骤6中的idft分别替换为fft和逆快速傅里叶变换(ifft)。采用fft可以简化水印算法运算,提升算法的运算速度和实用性,并且由于cnns-pw以fft处理后的频域数据作为cnns模型学习的依据,统一cnns自动分类与水印隐写分类信息的音频信号处理算法有助于提升cnns-pw的整体运行效率,因此作出此项改进。根据权利要求1所述的一种融合cnns与相位算法的音频分类检索方法,对音频训练集进行处理,包含以下步骤:步骤1:在输入卷积神经网络进行训练前,本文方法通过将音频数据的声道由立体声转换为单声道,降低信息冗余。并通过fft将时域数据转换到频域,使数据更加简单和紧凑,生成频谱。步骤2:频谱以x轴表示时间,y轴表示频率,其中顶部为最高频率,底部为最低频率。频谱以灰度显示频率的缩放幅度,其中白色为最大值,黑色为最小值。步骤3:将频谱切分为128x128像素切片后输入神经网络模型,以此更加拟合人类的学习和认知规律。有益效果:本发明所述方法可以高效地对音频数据进行分类与检索,并且在传输过程中保证用于音频检索的录音时间地点等用户隐私信息的安全;提升算法的运算速度和实用性;提高了效率。附图说明图1是本发明方法框图。图2是改进相位水印嵌入过程图。图3是改进相位水印提取过程图。图4是卷积神经网络典型结构图。图5是曲风分类准确率折线图图6是类型分类准确率折线图。图7是情感分类准确率折线图。图8是相位水印编码流程图。图9是相位水印嵌入过程图。图10是相位水印提取过程图。图11是音频分类cnns模型结构图。图12是音频上传流程图。图13是音频下载流程图。具体实施方式为了使本发明的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示进一步阐述本发明。实验环境:python:2.7.15matlab:r2016b客户端环境:系统:macossierra10.12.6、配置:cpu2.9ghzintelcorei7、内存16gb2133mhzlpddr3服务器环境:系统:centos7.264位、配置:cpu1核、内存2gb、带宽1mbps实验支持:云服务:又拍云(内容分发网络)、腾讯云(云存储服务器)音频数据源:网易云音乐(采样率:44100hz;声道:立体声;位深度:32;源格式:mp3320kbpscbr)定位支持:百度地图开放平台(拾取坐标系统)实验设计本文实验模拟了用户应用云存储音频的完整过程,实验的架构设计如图1所示。一种融合cnns与水印隐写技术的音频数据分类检索方法,其特征在于,包括以下步骤:步骤1:cnns-pw模拟用户上传音频流程,如图12所示;是用户完成录入语音或歌曲后,将录入的音频就近上传到内容分发网络(cdn),通过cdn上传到云存储服务器,云存储服务端的深度学习系统根据训练结果对用户上传的音频数据进行分类,并将分类信息和用户信息以水印的形式嵌入到音频内容中,如图9所示。相位水印的编码流程如图8所示。步骤2:cnns-pw模拟用户下载音频流程,如图13所示;是用户对所需音频向cdn进行网络请求,cdn通过中心平台的负载均衡,内容分发调度等功能模块进行处理,让用户就近获取所需音频,客户端在完成音频获取后进行本地密钥的检测,核对无误后对音频的水印信息进行解码如图10所示;并根据水印中的分类信息和录音时间地点等用户信息对音频进行分类展示,如图11所示,以便检索。一种融合cnns与相位算法的音频分类检索方法采用的相位算法执行的步骤为:步骤1:将音频信号sn[i],(0≤i≤i-1),分割成n等长大小的音频片段sn[i](0≤n≤n-1)。步骤2:将k点(k=i/n)的离散傅里叶变换(dft)应用于第n段,建立一个相位矩阵φn(ωk)和振幅矩阵an(ωk),(0≤k≤k-1)。步骤3:计算并存储两个相邻音频片段间的相位差:δφn+1(ωk)=φn+1(ωk)-φn(ωk)步骤4:以φdata=π/2和φdata=-π/2代表“0”和“1”,表示二进制数据集合为:φ′0=φ′data步骤5:对n>0,根据相位差重构相位矩阵:步骤6:使用新的相位矩阵φ′n(ωk)和原始幅度矩阵an(ωk)进行逆离散傅里叶变换(idft)重构声音信号,检测水印时先对信号进行同步,然后检测相位,并把该相位和两个特定点上的参考相位相比较得到“0”和“1”。cnns-pw对相位水印算法的改进如下:为了在提升可隐写信息容量的同时保证音频水印的鲁棒性和透明性,本文在水印算法的嵌入过程中添加压缩水印步骤,改进相位水印嵌入过程如图2所示。在提取过程中添加解压水印步骤,改进相位水印提取过程如图3所示。将相位算法步骤2中的dft和步骤6中的idft分别替换为fft和逆快速傅里叶变换(ifft)。采用fft可以简化水印算法运算,提升算法的运算速度和实用性,并且由于cnns-pw以fft处理后的频域数据作为cnns模型学习的依据,统一cnns自动分类与水印隐写分类信息的音频信号处理算法有助于提升cnns-pw的整体运行效率,因此作出此项改进。融合cnns与相位算法的音频分类检索方法对音频训练集进行处理,包含以下步骤:步骤1:在输入卷积神经网络进行训练前,本文方法通过将音频数据的声道由立体声转换为单声道,降低信息冗余。并通过fft将时域数据转换到频域,使数据更加简单和紧凑,生成频谱。步骤2:频谱以x轴表示时间,y轴表示频率,其中顶部为最高频率,底部为最低频率。频谱以灰度显示频率的缩放幅度,其中白色为最大值,黑色为最小值。步骤3:将频谱切分为128x128像素切片后输入神经网络模型,如图4所示,以此更加拟合人类的学习和认知规律。实验结果及分析:(1)分类模型对比实验本文实验训练集为每个分类100个同类型音频文件,所用分类模型见表1。table1classificationmodelabbreviationandfullname表1分类模型简称及全称曲风分类训练集共分为5类:说唱、电子、民谣、古典、摇滚,每种分类随机挑选5个训练集之外的音频进行曲风分类实验,共进行25组实验。部分曲风分类结果见表2至表6。25组曲风分类实验总准确率如图5所示。table2longjingrap-nightthreemiles(bpm:100.00)genreclassificationresults表2龙井说唱-夜三里(bpm:100.00)曲风分类结果table3xumengyuan–heartbeat(bpm:159.99)genreclassificationresults表3徐梦圆–heartbeat(bpm:159.99)曲风分类结果table4songdongye-zebra,zebra(bpm:132.05)genreclassificationresults表4宋冬野-斑马,斑马(bpm:132.05)曲风分类结果table5liyundi-chopin:nocturne,op.9,no.2(bpm:101.69)genreclassificationresults表5李云迪-肖邦:夜曲,op.9,no.2(bpm:101.69)曲风分类结果table6twistedsister-iwannarock(bpm:106.39)genreclassificationresults表6twistedsister-iwannarock(bpm:106.39)曲风分类结果类型分类训练集共分为2类:语音、歌曲,每种分类随机挑选10个训练集之外的音频进行类型分类实验,共进行20组实验。部分类型分类结果见表7至表8。20组类型分类实验总准确率如图6所示。table7bbconeminuteshortnewstypeclassificationresults表7bbc一分钟短新闻类型分类结果table8songdongye-zebra,zebratypeclassificationresults表8宋冬野-斑马,斑马类型分类结果情感分类训练集共分为2类:欢快、伤感,每种分类随机挑选10个训练集之外的音频进行情感分类实验,共进行20组实验。部分情感分类结果见表9至表10。20组情感分类实验总准确率如图7所示。table9pharrellwilliams-happysentimentclassificationresults表9pharrellwilliams-happy情感分类结果table10songdongye-zebra,zebrasentimentclassificationresults表10宋冬野-斑马,斑马情感分类结果通过图5的数据可以看出,cnns模型对比svm、knn、randomforest、gradientboosting、extra-trees模型对于音频曲风分类具有更高的准确率。通过图5、图6、图7中的数据可以看出,cnns模型可以较高准确率地完成音频风格、类型和情感分类的任务。分析表2-表10中的概率分布(%)相关数据可知,cnns模型可以更加拟合人类的学习和认知规律地对音频分类的概率分布做出分析。深度学习模型cnns可以有效地对音乐音频进行自动化分类以及做出合理的概率分布分析。(2)水印鲁棒性实验本文实验测试水印质量采用误码率ber(biterrorratio)和归一化相关系数nc(normalizedcross-correlation)来衡量水印算法的鲁棒性。ber用来度量提取的水印和原始水印之间的差别,这个值介于0与1之间,ber值越接近于0,水印的鲁棒性越好。nc用来衡量提取的水印与原始水印之间的相似程度,这个值的范围也在0-1之间,且该值越接近于1表示水印算法的鲁棒性越好。本文假设w表示服务端嵌入音频载体中的水印信息,w′表示本地设备中提取出的水印信息,归一化关系系数可表示为:误比特率定义式是提取的水印信息错误比特数和原水印总比特数之间的比值,可表示为:水印载体音频:宋冬野-斑马,斑马(持续时间:4:13.414;采样率:44100hz;声道:立体声;位深度:32;源格式:mp3320kbpscbr)水印信息:text:music/folk/sad/june29_2018/12:50pm/iphonex/120.786323,40.62623采用传统相位算法与融合lzw和字典压缩算法的改进相位算法,提取到的水印ber值和nc值见表11。table11watermarkrobustnessdatasheet表11水印鲁棒性数据表信息解码:音频分类:类型:歌曲/曲风:民谣/情感:伤感录音时间:2018年6月29日星期五/下午12点50分录音设备:iphonex录音地点:辽宁省,葫芦岛市,兴城市,兴海北街北200米,辽宁工程技术大学-行政楼分析实验结果可知,相位水印算法可以完成分类检索方法中隐写信息的任务,并且在融合lzw压缩和字典压缩算法后,水印质量有所提升。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1