基于卷积神经网络的声波图像转声音方法与流程

文档序号:14008337阅读:709来源:国知局

本发明涉及图像处理技术领域,尤其涉及基于卷积神经网络的声波图像转声音方法。



背景技术:

目前任何一段声音可输出为声波图形,但声波图形由于其复杂性不能直接被识别为原来对应的声音;也就是还没有一个完整的系统和技术可以完成声波图形(比如纹身在身上)到声音的转换。

目前信息载体的识别,以识别二维码为主,但二维码在美观性和可设计性方面不足,而声波图形同样可以作为信息载体,通过图形识别输出图形对应的声音等信息,在美观性和可设计性方面有优势。

目前的图像检索系统一般都是使用传统的特征提取技术比如sift,gist等,但是这样的技术存在一定的检索错误率,并且当数据量很大时运算时间很长。

针对相关技术中的问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明要解决的技术问题是克服现有的技术缺陷,提供基于卷积神经网络的声波图像转声音方法,可以有效解决背景技术中的问题。

为解决上述技术问题,本发明采用的一个技术方案是;

基于卷积神经网络的声波图像转声音方法,包括以下步骤:

s1对待检测图片a进行特征提取:对包含声波信息的待检测图片a进行预处理后,通过改进的卷积神经网络对待检测图片a进行特征提取出特征向量a1;

s2相似度计算:设定阈值,将特征数据库中所有与步骤s1中特征向量a1距离小于所述阈值的特征向量分别与步骤s1中特征向量a1进行对比,选择与步骤s1中特征向量a1距离最近的特征向量b1;

s3查找索引结果:根据步骤s2相似度计算中所述特征向量b1在图片和声音数据库中检索出特征向量b1所对应的图片b以及图片b所对应的声音c,并输出所述声音c。

进一步的,在步骤s1中,所述改进的卷积神经网络是在卷积神经网络结构中添加若干隐含层。

进一步的,在步骤s2和s3中,所述图片和声音数据库中各图片进行预处理后,所述特征数据库对图片和声音数据库中每一张图片以deeplearning深度学习方式抽取的特征向量进行存储。

进一步的,所述对待检测图片a以及图片和声音数据库中各图片的预处理方法包括:图像降噪和/或图像增强。

本发明的有益效果:本发明基于卷积神经网络的声波图像转声音方法,实现了对声波图形的的特征提取和识别,并输出声波图形相对应的声音信号,同时在相似度计算上通过设定阈值,提高了计算效率,在图片和声音数据库中利用深度学习方式提取图片特征,使得对图像有更精准的描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是基于卷积神经网络的声波图像转声音方法的过程示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,根据本发明所述的基于卷积神经网络的声波图像转声音方法,包基于卷积神经网络的声波图像转声音方法,包括以下步骤:

s1对待检测图片a进行特征提取:对包含声波信息的待检测图片a进行预处理后,通过改进的卷积神经网络对待检测图片a进行特征提取出特征向量a1;

s2相似度计算:设定阈值,将特征数据库中所有与步骤s1中特征向量a1距离小于所述阈值的特征向量分别与步骤s1中特征向量a1进行对比,选择与步骤s1中特征向量a1距离最近的特征向量b1;

s3查找索引结果:根据步骤s2相似度计算中所述特征向量b1在图片和声音数据库中检索出特征向量b1所对应的图片b以及图片b所对应的声音c,并输出所述声音c。

本实施例中,在步骤s1中,所述改进的卷积神经网络是在卷积神经网络结构中添加若干隐含层。

本实施例中,在步骤s2和s3中,所述图片和声音数据库中各图片进行预处理后,所述特征数据库对图片和声音数据库中每一张图片以deeplearning深度学习方式抽取的特征向量进行存储。

本实施例中,所述对待检测图片a以及图片和声音数据库中各图片的预处理方法包括:图像降噪和/或图像增强。

具体实施中,在图片和声音数据库图片进行特征提取过程中,采用深度学习方式相比于传统的图像特征(比如sift,gist等等),对图像的描述更加精准;在步骤s2中设定的阈值为3,通过采用lsh/局部敏感度哈希来完成相似度计算,大大降低了计算量,保证整个相似图片匹配时间在毫秒级;卷积神经网络中添加若干隐含层,使得卷积神经网络输出压缩成为低维度(几百维)且只含有0或者1的特征向量。

综上所述,借助于本发明的上述技术方案,本发明基于卷积神经网络的声波图像转声音方法,实现了对声波图形的的特征提取和识别,并输出声波图形相对应的声音信号,同时在相似度计算上通过设定阈值,提高了计算效率,在图片和声音数据库中利用深度学习方式提取图片特征,使得对图像有更精准的描述。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。



技术特征:

技术总结
本发明公开了基于卷积神经网络的声波图像转声音方法,属于图像处理技术领域,其中该方法包括对待检测图片进行特征提取、相似度计算和查找索引结果,本发明基于卷积神经网络的声波图像转声音方法,实现了对声波图形的特征提取和识别,并输出声波图形相对应的声音信号,同时在相似度计算上通过设定阈值,提高了计算效率,在图片和声音数据库中利用深度学习方式提取图片特征,使得对图像有更精准的描述。

技术研发人员:赵胜男;李生晖
受保护的技术使用者:赵胜男
技术研发日:2017.10.12
技术公布日:2018.03.23
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1