一种快速检测单频提示音的方法及系统的制作方法

文档序号：8413623阅读：3413来源：国知局

一种快速检测单频提示音的方法及系统的制作方法
【技术领域】
[0001] 本发明涉及语音识别技术领域，尤其涉及一种快速检测单频提示音的方法及系统。
【背景技术】
[0002] 当前，带有语音转写功能的app在智能手机上如雨后春笋般出现，人们越来习惯使用语音输入获取自己想要的信息。一个典型的语音信息获取一般包含这些步骤：
[0003] 1.用户点击触屏按钮O伴随着单频提示音，系统开始录音;
[0004] 2.当用户语音输入完毕，或者再次点击按钮，或者系统检测到静音自动停止，同时将语音送往云端（或者本地）进行语音识别；
[0005] 3.拿到识别结果并进行后续处理（智能对话部分，在此不详细赘述）；
[0006] 4.最终用户获得期望的信息结果。
[0007] 很多语音助手类app应用，或者具有自动转写功能的app应用里，当按下开始说话按键后，通常会有个提示说话音，此声音一般为几个（通常不多于3)单频声音的结合。这些声音很容易在录入的声音开头（由于智能手机录音的机制，这种提示音被录入的几率很大），被识别为语音（如一些app应用语音输入时，其经常会在第一个字前面插入一些"啊俄"等插入词），从而影响语音转写的正确率。在1中，一般播放提示音和录音是同时进行，这样，在语音开头很容易出现完整的或者部分提示音。这部分开头的提示音对识别过程有两个不利的因素：
[0008] a.语音识别作为模式识别的一种，是对某种模式进行建模，初始的提示音会与声学模型中各种模型进行匹配，找到其中最像的模型，因此，在提示音阶段，很容易被误识别为一些哼哼哈哈这样的文字，从而影响识别率；
[0009] b.提示音的特征与声学模型的静音模型相差比较大，在识别解码过程中很容易识别成为语音，从而增加插入错误。
[0010] 现有应用针对这种提示音的去除并没有很好的办法，一般是直接去掉语音前面的 N帧语音（一般提示音的长度是已知的），但是这样做会存在一个风险：由于一般录音线程是单独启动，很多时候不是100%的概率可以录入全部提示音，或者只有一部分提示音，这样就有可能将正常的语音或者语音前面的静音切掉，这对语音识别系统是灾难性的。
[0011] 对此单频类提示音必须检测出并去除掉。本发明针对此种应用场景，提出一种快速检测单频提示音的方法及系统。

【发明内容】

[0012] 本发明所要解决的技术问题是针对现有技术的不足，提供一种快速检测单频提示音的方法及系统。
[0013] 本发明解决上述技术问题的技术方案如下：一种快速检测单频提示音的方法，包括如下步骤：
[0014] 步骤1，确定参考单频信号，根据参考单频信号确定搜索频率范围为Pmin至P max，所述参考单频频率在该范围内；
[0015] 步骤2,根据参考单频信号的长度截取相应长度的待检测信号；
[0016] 步骤3,根据搜索频率范围计算待检测信号的自相关函数Ck;
[0017] 步骤4,在待检测信号的每帧信号的自相关函数Ck上，搜索预定数量的最大候选值；
[0018] 步骤5,设定一个代价损失函数，根据步骤4中搜索的最大候选值利用动态规划获得一条平滑的基频曲线；
[0019] 步骤6,将所述基频曲线与目标单频信号的基频曲线进行比对，如果一致，则初步判定所述待检测信号为提示音，否则判断不是提示音，结束处理流程。
[0020] 本发明的有益效果是：本发明根据单频信号本质上是一种周期性信号的特性，通过计算每帧信号的自相关函数，由于自相关函数的局部极值点可能是周期函数的频率点，因此在每帧信号的自相关函数C k上，搜索预定数量的最大候选值，进而通过代价损失函数找到一条平滑的基频曲线，通过获得的基频曲线与参考单频信号的基频曲线进行对比，实现对待测信号中是否存在提示音的精准检测。
[0021] 在上述技术方案的基础上，本发明还可以做如下改进。
[0022] 进一步，还包括步骤6中当获得的基频曲线与目标单频信号的基频曲线一致时，进行如下进一步操作：
[0023] 计算每桢待检测信号对应到单频信号附近的子带能量以及每桢信号的全带能量，并在时间轴分别将其累加得到待检测信号的子带能量E sub和全带能量E all;
[0024] 计算待检测信号子带能量Esub和全带能量E all的比值；
[0025] 如果子带能量Esub和全带能量E all的比值大于设定的阈值，则判定所述待检测信号为提示音，去掉该段待检测信号，否则判定所述待检测信号不是提示音，结束处理流程。
[0026] 采用上述进一步方案的有益效果：由于待检测的语音信号前面可能只包含部分单频信号，或者根本没有录入单频信号，假如某个人声音的基频频率与待检测的单频信号的频率很接近，存在被误检测为提示音的风险，从而将正常语音删除，引起不必要的识别错误。为了避免这种错误的发生，求取每桢待检测语音信号的全带能量，以及对应单频点周围的子带能量，并将其分别累加，得到总的语音能量和单频点子带能量。当单频点子带能量与每帧信号全带能量的比值大于一个阈值时（例如〇. 7)，则可以确定所检测的语音信号的该频点为提示音信号。
[0027] 进一步，步骤3中计算自相关函数Ck的计算公式为：
[0028]
【主权项】
1. 一种快速检测单频提示音的方法，其特征在于，包括如下步骤：步骤1，确定参考单频信号，根据参考单频信号确定搜索频率范围为Pmin至P _，所述参考单频频率在该范围内；步骤2,根据参考单频信号的长度截取相应长度的待检测信号；步骤3,根据搜索频率范围计算待检测信号的自相关函数Ck; 步骤4,在待检测信号的每帧信号的自相关函数Ck上，搜索预定数量的最大候选值；步骤5,设定一个代价损失函数，根据步骤4中搜索的最大候选值利用动态规划获得一条平滑的基频曲线；步骤6,将所述基频曲线与目标单频信号的基频曲线进行比对，如果一致，则初步判定所述待检测信号为提示音，否则判断不是提示音，结束处理流程。
2. 根据权利要求1所述一种快速检测单频提示音的方法，其特征在于，还包括步骤6中当获得的基频曲线

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：苏牧;
技术所有人：北京云知声信息技术有限公司;
我是此专利的发明人