基于卷积神经网络的声波图像转声音方法与流程

文档序号：14008337阅读：709来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及图像处理技术领域，尤其涉及基于卷积神经网络的声波图像转声音方法。

背景技术：

目前任何一段声音可输出为声波图形，但声波图形由于其复杂性不能直接被识别为原来对应的声音；也就是还没有一个完整的系统和技术可以完成声波图形（比如纹身在身上）到声音的转换。

目前信息载体的识别，以识别二维码为主，但二维码在美观性和可设计性方面不足，而声波图形同样可以作为信息载体，通过图形识别输出图形对应的声音等信息，在美观性和可设计性方面有优势。

目前的图像检索系统一般都是使用传统的特征提取技术比如sift，gist等，但是这样的技术存在一定的检索错误率，并且当数据量很大时运算时间很长。

针对相关技术中的问题，目前尚未提出有效的解决方案。

技术实现要素：

本发明要解决的技术问题是克服现有的技术缺陷，提供基于卷积神经网络的声波图像转声音方法，可以有效解决背景技术中的问题。

为解决上述技术问题，本发明采用的一个技术方案是；

基于卷积神经网络的声波图像转声音方法，包括以下步骤：

s1对待检测图片a进行特征提取：对包含声波信息的待检测图片a进行预处理后，通过改进的卷积神经网络对待检测图片a进行特征提取出特征向量a1；

s2相似度计算：设定阈值，将特征数据库中所有与步骤s1中特征向量a1距离小于所述阈值的特征向量分别与步骤s1中特征向量a1进行对比，选择与步骤s1中特征向量a1距离最近的特征向量b1；

s3查找索引结果：根据步骤s2相似度计算中所述特征向量b1在图片和声音数据库中检索出特征向量b1所对应的图片b以及图片b所对应的声音c,并输出所述声音c。

进一步的，在步骤s1中，所述改进的卷积神经网络是在卷积神经网络结构中添加若干隐含层。

进一步的，在步骤s2和s3中，所述图片和声音数据库中各图片进行预处理后，所述特征数据库对图片和声音数据库中每一张图片以deeplearning深度学习方式抽取的特征向量进行存储。

进一步的，所述对待检测图片a以及图片和声音数据库中各图片的预处理方法包括：图像降噪和/或图像增强。

本发明的有益效果：本发明基于卷积神经网络的声波图像转声音方法，实现了对声波图形的的特征提取和识别，并输出声波图形相对应的声音信号，同时在相似度计算上通过设定阈值，提高了计算效率，在图片和声音数据库中利用深度学习方式提取图片特征，使得对图像有更精准的描述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是基于卷积神经网络的声波图像转声音方法的过程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，根据本发明所述的基于卷积神经网络的声波图像转声音方法，包基于卷积神经网络的声波图像转声音方法，包括以下步骤：

s1对待检测图片a进行特征提取：对包含声波信息的待检测图片a进行预处理后，通过改进的卷积神经网络对待检测图片a进行特征提取出特征向量a1；

本实施例中，在步骤s1中，所述改进的卷积神经网络是在卷积神经网络结构中添加若干隐含层。

本实施例中，在步骤s2和s3中，所述图片和声音数据库中各图片进行预处理后，所述特征数据库对图片和声音数据库中每一张图片以deeplearning深度学习方式抽取的特征向量进行存储。

本实施例中，所述对待检测图片a以及图片和声音数据库中各图片的预处理方法包括：图像降噪和/或图像增强。

具体实施中，在图片和声音数据库图片进行特征提取过程中，采用深度学习方式相比于传统的图像特征（比如sift,gist等等），对图像的描述更加精准；在步骤s2中设定的阈值为3，通过采用lsh/局部敏感度哈希来完成相似度计算，大大降低了计算量，保证整个相似图片匹配时间在毫秒级；卷积神经网络中添加若干隐含层，使得卷积神经网络输出压缩成为低维度（几百维）且只含有0或者1的特征向量。

综上所述，借助于本发明的上述技术方案，本发明基于卷积神经网络的声波图像转声音方法，实现了对声波图形的的特征提取和识别，并输出声波图形相对应的声音信号，同时在相似度计算上通过设定阈值，提高了计算效率，在图片和声音数据库中利用深度学习方式提取图片特征，使得对图像有更精准的描述。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：

技术总结
本发明公开了基于卷积神经网络的声波图像转声音方法，属于图像处理技术领域，其中该方法包括对待检测图片进行特征提取、相似度计算和查找索引结果，本发明基于卷积神经网络的声波图像转声音方法，实现了对声波图形的特征提取和识别，并输出声波图形相对应的声音信号，同时在相似度计算上通过设定阈值，提高了计算效率，在图片和声音数据库中利用深度学习方式提取图片特征，使得对图像有更精准的描述。

技术研发人员：赵胜男;李生晖
受保护的技术使用者：赵胜男
技术研发日：2017.10.12
技术公布日：2018.03.23

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵胜男;李生晖
技术所有人：赵胜男
我是此专利的发明人

上一篇：对地勘资料智能分析的大数据系统的制作方法
上一篇：一种识别核心产品词的方法和系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。