一种基于环境声音的场景识别方法及装置及移动终端的制作方法

文档序号：2825378阅读：592来源：国知局

一种基于环境声音的场景识别方法及装置及移动终端的制作方法
【专利摘要】本发明提供了一种基于环境声音的场景识别方法及装置及移动终端，所述装置包括：声音采集模块、预处理模块、特征提取模块、场景识别模块、数据库；声音采集模块用于采集声音信号并传输到所述预处理模块；预处理模块用于将所述声音信号处理为频域信号并传输至所述特征提取模块；特征提取模块用于从所述频域信号中提取声音特征信息；数据库用于存储不同场景的声音样本模型权重值；识别控制模块用于在预设模型下输入所述声音特征信息将模型输出结果与所述场景声音样本模型权重值进行匹配，并确定所述声音特征信息对应的场景。本发明依靠背景声音信息作为场景的特征来实现定位，使移动终端在保持低能耗的状态下快速准确的识别当前所在的场景。
【专利说明】一种基于环境声音的场景识别方法及装置及移动终端
【技术领域】
[0001]本发明涉及智能终端【技术领域】，尤其涉及基于环境声音的场景识别方法及装置及移动终端。
【背景技术】
[0002]声音识别技术广泛应用于通讯系统，例如，在移动通信系统中应用声音识别检测技术，可以提高系统的流量处理能力。此外，声音识别技术被越来越多的应用到语音识别的领域，并且技术已经相当成熟，如IBM语音识别输入系统ViaVoice，微软语音识别系统SpeechSDK 等等。
[0003]随着智能手机在日常生活中越来越常见，语音识别也很好的被运用到智能手机中，iphone就发布了一个语音识别的应用Google Mobile App0该语音搜索的另外一个改进是可以选择口音了，Google都可以顺利识别不同地域性的发音。
[0004]由于智能手机的流行，定位技术也是智能手机应用的一大热点，目前，场景识别问题可以利用已经被广泛研究过的基于天线的定位技术(例如WIFI，GSM和GPS)来解决。对于室外定位而言，GPS已经提供了非常理想的识别精度。但是，对于室内定位，当前尚未出现一个理想且全面的定位解决方案。受制于建筑物内部的拓扑和强烈的电磁干扰等因素，天线信号的强度往往会不规则的变化，从而使得感知设备无法进行合理的位置推测。研究发现WIFI信号在一天的不同时间段内波动很大，并且其强度的变化并不均匀，况且我们不能保证WIFI信号在所有环境中都存在。另一方面，基站的信号在不同时间上则显得更加稳定。但是由于其部署的不够密集，其在定位上也遇到了许多困难。另外，这类定位方法往往对基础设施的完善有极高的要求。但是对于发展中区域而言，这样的成本无疑太高了。基于GPS，GSM, WIFI信号的定位，在室内环境中不能工作，或者存在较大的定位误差，不能区分地理位置上比较近的室内场所。

【发明内容】

[0005]本发明要解决的技术问题是提供一种基于环境声音的场景识别方法及装置及移动终端，解决移动终端无法识别当前所在的场景的问题。
[0006]为了解决上述技术问题，本发明提供了一种基于环境声音的场景识别装置，所述装置包括:声音采集模块、预处理模块、特征提取模块、场景识别模块、数据库；
[0007]所述声音采集模块，用于采集声音信号并传输到所述预处理模块；
[0008]所述预处理模块，用于将所述声音信号处理为频域信号并传输至所述特征提取模块；
[0009]所述特征提取模块，用于从所述频域信号中提取声音特征信息；
[0010]所述数据库，用于存储不同场景的声音样本模型权重值；
[0011]所述识别控制模块，用于在预设模型下输入所述声音特征信息将模型输出结果与所述场景声音样本模型权重值进行匹配，并确定所述声音特征信息对应的场景。[0012]进一步地，上述装置还可以具有以下特点:
[0013]所述场景是指不同声音环境下的空间场景。
[0014]进一步地，上述装置还可以具有以下特点:
[0015]所述声音采集模块、所述预处理模块、所述特征提取模块、所述场景识别模块、所述数据库均位于移动终端。
[0016]进一步地，上述装置还可以具有以下特点:
[0017]所述声音采集模块、所述预处理模块、所述特征提取模块、所述场景识别模块均位于移动终端中，所述数据库位于服务端设备。
[0018]进一步地，上述装置还可以具有以下特点:
[0019]所述声音采集模块、所述预处理模块、所述特征提取模块均位于移动终端中，所述场景识别模块和所述数据库位于服务端设备；
[0020]所述移动终端还包括场景识别控制模块，用于接收声音特征信息并发送至所述服务端设备，还用于接收所述场景识别模块输出的识别结果。
[0021]为了解决上述技术问题，本发明还提供了一种移动终端，包括声音采集模块、预处理模块、特征提取模块、场景识别模块、数据库；
[0022]所述声音采集模块，用于采集声音信号并传输到所述预处理模块；
[0023]所述预处理模块，用于将所述声音信号处理为频域信号并传输至所述特征提取模块；
[0024]所述特征提取模块，用于从所述频域信号中提取声音特征信息；
[0025]所述数据库，用于存储不同场景的声音样本模型权重值；
[0026]所述场景识别模块，用于接收所述声音特征信息，在预设模型下输入所述声音特征信息将模型输出结果与所述场景声音样本模型权重值进行匹配，并确定所述声音特征信息对应的场景。
[0027]为了解决上述技术问题，本发明还提供了一种移动终端，包括声音采集模块、预处理模块、特征提取模块、场景识别模块；
[0028]所述声音采集模块，用于采集声音信号并传输到所述预处理模块；
[0029]所述预处理模块，用于将所述声音信号处理为频域信号并传输至所述特征提取模块；
[0030]所述特征提取模块，用于从所述频域信号中提取声音特征信息；
[0031]所述场景识别模块，用于接收所述声音特征信息，还用于从服务端设备接收场景的声音样本模型权重值，在预设模型下输入所述声音特征信息将模型输出结果与所述场景声音样本模型权重值进行匹配，并确定所述声音特征信息对应的场景。
[0032]为了解决上述技术问题，本发明还提供了一种移动终端，包括声音采集模块、预处理模块、特征提取模块、识别控制模块；
[0033]所述声音采集模块，用于采集声音信号并传输到所述预处理模块；
[0034]所述预处理模块，用于将所述声音信号处理为频域信号并传输至所述特征提取模块；
[0035]所述特征提取模块，用于从所述频域信号中提取声音特征信息；
[0036]所述识别控制模块，用于接收所述声音特征信息，将所述声音特征信息发送至服务端设备，并接收服务端设备返回的场景识别结果。
[0037]为了解决上述技术问题，本发明还提供了一种基于环境声音的场景识别方法，包括:米集声音信号；
[0038]将所述声音信号处理为频域信号；
[0039]从所述频域信号中提取声音特征信息；
[0040]在预设模型下输入所述声音特征信息将模型输出结果与场景声音样本模型权重值进行匹配，并确定所述声音特征信息对应的场景。
[0041]进一步地，上述方法还可以具有以下特点:
[0042]所述场景是指不同声音环境下的空间场景。
[0043]本发明依靠背景声音信息作为场景的特征来实现定位，使移动终端在保持低能耗的状态下快速准确的识别当前所在的场景。本发明的场景定位可以与天线位置定位互补并且共同提闻精度的，提闻移动终端性能。
【专利附图】

【附图说明】
[0044]图1是现有技术中声音识别的处理流程示意图；
[0045]图2是实施例中基于环境声音的场景识别装置的结构示意图；
[0046]图3是实施例一中场景识别装置的结构示意图；
[0047]图4是实施例二中场景识别装置的结构示意图；
[0048]图5是实施例三中场景识别装置的结构示意图；
[0049]图6是具体实施例中特征向量提取过程示意图；
[0050]图7是具体实施例中场景分类识别模型结构示意图。
【具体实施方式】
[0051]图1是现有技术中声音识别的处理流程示意图，对声音进行分割以及特征提取后通过分类器对声音进行识别。
[0052]基于环境声音的场景识别方法包括:米集声音信号；将所述声音信号处理为频域信号；从所述频域信号中提取声音特征信息；在预设模型下输入所述声音特征信息将模型输出结果与场景声音样本模型权重值进行匹配，并确定所述声音特征信息对应的场景。
[0053]所述场景是指不同声音环境下的空间场景，例如场景是指以下中的一种:食堂、教室、实验室、宿舍、楼道、羽毛球场、乒乓球场、电梯、会议室、操场和街道。
[0054]如图2所示，本方案中基于环境声音的场景识别装置包括:声音采集模块(201)、预处理模块(202)、特征提取模块(203)、场景识别模块(204)、数据库(205)。
[0055]声音米集模块(201),用于米集声音信号并传输到所述预处理模块(202)；
[0056]预处理模块(202)，用于将所述声音信号处理为频域信号并传输至所述特征提取模块(203)；
[0057]特征提取模块(203)，用于从所述频域信号中提取声音特征信息；
[0058]数据库(205)，用于存储不同场景的声音样本模型权重值；
[0059]识别控制模块(204)，用于在预设模型下输入所述声音特征信息将模型输出结果与所述场景声音样本模型权重值进行匹配，并确定所述声音特征信息对应的场景。[0060]预处理模块(202)对采集到的声音信号进行采样，设定采样频率为8000Hz，采集样本长度为15s，再对段声音样本进行分帧操作，每个帧包含256个采样点，即每段帧长为 32ms。这样，原始音频就会变成468个长度为32ms的帧。分帧操作的目的在于任何一段声音样本都会随机出现一些或大或小的突发声音，突发声音没有规律可言，并不是能够代表场景特征的声音，会导致声音波形出现较大的毛刺，从而影响声音识别的准确率，时长越短的音频波形表现的越发平稳。但是，帧长过短也会导致运算成本的增加，即计算能耗和耗时的增加。本方案采用了 32ms做为每一帧的长度，达到了精确度和计算成本的平衡。
[0061]特征提取模块(203)中提取的声音特征可以是梅尔倒谱系数(MFCC)，例如13维的 MFCC系数。例如，从每段15s声音样本都可以提取出468组13维的特征向量。在计算出每一帧的特征向量后，必须要对这468组特征向量进行算术平均。上述将每段声音样本分成长度为32ms的帧是为了消除声音样本中的毛刺，但是只对每段音频分帧还是不能起到消除毛刺的作用。所以，本方案在对每帧音频提取特征向量后，必须把这468组特征向量进行算术平均，从而得到唯一一组13维特征向量。这样的一组特征向量降低了样本中的毛刺带来的影响，正确的表示了该段场景的特征。
[0062]本方案中的预设模型可以是神经网络等分类模型。
[0063]本方案使用了一个模式分类领域的算法。该算法分为两个部分，训练部分和识别部分。在训练部分，该算法使用一定规模的训练集，生成若干个我们称之为中间矩阵数据集合。在识别部分，使用这些矩阵与从声音样本中提取的特征向量进行运算，从而获得最终结果，即识别结果。在开发的过程中，所述算法的训练部分不需要写入手机系统，不需要每次识别都进行运算，这样可以很大程度地减少运算时间。所述识别算法使用的训练集采集于每个需要识别的场景，每个场景需要收集160到200段声音样本，并对每段声音样本提取特征向量，把这些声音样本的特征向量统一作为参数传给算法的训练部分，最终得到中间矩阵。这些中间矩阵存储于数据库中，供所述算法的识别部分调用。由于场景识别的准确率需要不断提高，同时需要识别的场景要不断进行更新，所以，本方案中的分类识别算法所需要的中间矩阵就需要不断的更新。随着场景的更新，该技术就会拥有更强大的时效性和可用性。
[0064]如图3所示，实施例一中声音采集模块(201)、预处理模块(202)、特征提取模块 (203),场景识别模块(204)、数据库(205)均位于移动终端内。
[0065]如图4所示，实施例二中声音采集模块(201)、预处理模块(202)、特征提取模块 (203)、场景识别模块(204)均位于移动终端内，数据库(205)位于服务端设备。
[0066]如图5所示，实施例三中声音采集模块(201)、预处理模块(202)、特征提取模块 (203)均位于移动终端，场景识别模块(204)、数据库(205)位于服务端设备。移动终端还包括场景识别控制模块(206)，用于接收声音特征信息并发送至服务端设备，还用于接收所述场景识别模块(204)输出的识别结果。
[0067]下面通过具体实施例进行详细说明。
[0068]本发明是基于Android系统开发，选用了一台智能手机作为试验机，识别过程包括以下步骤:
[0069]步骤I，声音采集过程
[0070]由智能手机中的麦克风进行声音采集集工作，采样率为8000Hz，采样编码为16bit,每段声音样本的时长都是15s。
[0071]步骤2，场景识别过程
[0072]在预处理过程中，对音频进行分帧处理并将信号从时域信号转换为频域信号。实验发现当帧长为256，即时长为32ms时，可以得到最高的识别正确率。同时，在每段音频的开始，都会出现若干个坏点，所以删去每段音频最开始的一些采样点，保证留下的音频采样点都能显示出该段音频的特征。为了节省更多的硬件空间，可以每分出一个帧，就把它作为参数传给特征提取函数进行计算。这样，只需要存储从每个帧提取的特征向量，而不需要浪费控件用于存储每个帧的音频。
[0073]提取特征的步骤包括:
[0074]步骤2.1，执行快速傅里叶变换，将时域信号变换成频域信号。
【权利要求】
1.一种基于环境声音的场景识别装置，其特征在于，所述装置包括:声音采集模块、预处理模块、特征提取模块、场景识别模块、数据库；所述声音采集模块，用于采集声音信号并传输到所述预处理模块；所述预处理模块，用于将所述声音信号处理为频域信号并传输至所述特征提取模块；所述特征提取模块，用于从所述频域信号中提取声音特征信息；所述数据库，用于存储不同场景的声音样本模型权重值；所述识别控制模块，用于在预设模型下输入所述声音特征信息将模型输出结果与所述场景声音样本模型权重值进行匹配，并确定所述声音特征信息对应的场景。
2.如权利要求1所述的装置，其特征在于，所述场景是指不同声音环境下的空间场景。
3.如权利要求1所述的装置，其特征在于，所述声音采集模块、所述预处理模块、所述特征提取模块、所述场景识别模块、所述数据库均位于移动终端。
4.如权利要求1所述的装置，其特征在于，所述声音采集模块、所述预处理模块、所述特征提取模块、所述场景识别模块均位于移动终端中，所述数据库位于服务端设备。
5.如权利要求1所述的装置，其特征在于，所述声音采集模块、所述预处理模块、所述特征提取模块均位于移动终端中，所述场景识别模块和所述数据库位于服务端设备；所述移动终端还包括场景识别控制模块，用于接收声音特征信息并发送至所述服务端设备，还用于接收所述场景识别模块输出的识别结果。
6.一种移动终端，其特征在于，包括声音采集模块、预处理模块、特征提取模块、场景识别模块、数据库；所述声音采集模块，用于采集声音信号并传输到所述预处理模块；所述预处理模块，用于将所述声音信号处理为频域信号并传输至所述特征提取模块；所述特征提取模块，用于从所述频域信号中提取声音特征信息；所述数据库，用于存储不同场景的声音样本模型权重值；所述场景识别模块，用于接收所述声音特征信息，在预设模型下输入所述声音特征信息将模型输出结果与所述场景声音样本模型权重值进行匹配，并确定所述声音特征信息对应的场景。
7.一种移动终端，其特征在于，包括声音采集模块、预处理模块、特征提取模块、场景识别模块；所述声音采集模块，用于采集声音信号并传输到所述预处理模块；所述预处理模块，用于将所述声音信号处理为频域信号并传输至所述特征提取模块；所述特征提取模块，用于从所述频域信号中提取声音特征信息；所述场景识别模块，用于接收所述声音特征信息，还用于从服务端设备接收场景的声音样本模型权重值，在预设模型下输入所述声音特征信息将模型输出结果与所述场景声音样本模型权重值进行匹配，并确定所述声音特征信息对应的场景。
8.一种移动终端，其特征在于，包括声音采集模块、预处理模块、特征提取模块、识别控制模块；所述声音采集模块，用于采集声音信号并传输到所述预处理模块；所述预处理模块，用于将所述声音信号处理为频域信号并传输至所述特征提取模块；所述特征提取模块，用于从所述频域信号中提取声音特征信息；所述识别控制模块，用于接收所述声音特征信息，将所述声音特征信息发送至服务端设备，并接收服务端设备返回的场景识别结果。
9.一种基于环境声音的场景识别方法，其特征在于，米集声音信号；将所述声音信号处理为频域信号；从所述频域信号中提取声音特征信息；在预设模型下输入所述声音特征信息将模型输出结果与场景声音样本模型权重值进行匹配，并确定所述声音特征信息对应的场景。
10.如权利要求9所述的方法，其特征在于，所述场景是指不同声音环境下的空间场景。
【文档编号】G10L25/84GK103456301SQ201210167980
【公开日】2013年12月18日申请日期:2012年5月28日优先权日:2012年5月28日
【发明者】薛涛, 杜军朝, 刘惠, 刘悦韡, 陈文靖申请人:中兴通讯股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：薛涛;杜军朝;刘惠;刘悦韡;陈文靖
技术所有人：中兴通讯股份有限公司
我是此专利的发明人

上一篇：空中虚拟电子乐鼓的制作方法
上一篇：一种语音自动充值方法及系统的制作方法