双模的音乐检测方法

文档序号:7974570阅读:408来源:国知局

专利名称::双模的音乐检测方法
技术领域
:本发明涉及语音识别,特别涉及移动通信中的双模的音乐检测方法。
背景技术
:随着手机使用领域的扩大和利用手机听音乐的服务的活跃,通过手机来传送音乐的要求也越来越多。但是移动通信系统中用的语音编解码器,这对音乐信号会产生损伤。而很多对音乐信号处理的方法,又会损伤语音信号。这就要求对语音和音乐信号的处理需要采取不同的途径,这样就需要实现对语音和音乐信号进行区分的音乐信号检测方法。要求区分语音和音乐信号的应用不光适用于移动通信领域,在其他很多方面都有着类似的需求。而业务的不同对音乐信号检测方法也有不同的要求。比如有的就是长时间的传送语音或者音乐,这就要求音乐信号检测方法对音乐有较高的检测率,而有的业务就是音乐和语音信号在短时间内互相交替,这就要求音乐信号检测方法能够快速的跟上语音和音乐的交替。在移动通信系统中,目前一些语音编解码器采用了音乐检测方法,比如SMV算法。但是这个算法的检测率很低,平均检测率只有70%,这样使得在很多情况下,需要区分音乐和语音来做不同的处理,这样,音乐检测方法的低检测率会反而带来坏的影响。而且,在包括SMV算法在内的很多音乐检测方法,都只采用一种模式的音乐检测方法,不能够适用各种不同的要求。现有技术都是采用一种模式的音乐检测方法,不能适应当前众多的系统的不同要求,应用场合受到较大的限制。而且大部分音乐检测方法检测率偏低,比如应用范围较广的SMV算法中的音乐检测方法,对音乐的检测率只有70%。SMV算法的音乐检测方法是设定一个音乐连续性参数,如果音乐连续性参数大于阈值,则对此参数进行累积。同时判断输入信号的非音乐参数,如果非音乐参数大于阈值,则对音乐连续性参数进行衰减。同时SMV算法的音乐检测方法只有一种模式,不能调整。
发明内容本发明的目的是提供一种双模的音乐检测方法。按照本发明的一方面,一种双模的音乐检测方法,包括步骤在参数调整单元中设置参数;至少一个模式单元根据设置的参数进行工作。按照本发明的另一方面,一种双模的音乐检测装置,包括参数调整单元,用于确定需要选择的模式;多个模式单元,根据参数调整单元确定的模式工作。本发明可广泛应用于不同需要的场合。其中模式l是具有高检测率的音乐检测方法,音乐信号的识别率为94.5%。图l是本发明的简要框图2是本发明的模式1的框图3是本发明的模式2的框图4是本发明的简要流程图5是本发明的模式1的流程图6是本发明的模式2的流程图。具体实施例方式本发明的构成如图l所示,包括一个参数调整单元101,模式l单元102,模式2单元103。如图1所示,首先根据音乐检测装置应用的不同场合,确定需要选择的模式,然后根据选定的模式,本音乐检测装置会在参数调整单元101设置相应的参数,以使得音乐检测装置按照选定的模式工作。参数调整单元101就是根据需求进行参数调整,以确定本发明的音乐检测装置是按照以高检测率为优先级还是快速跟踪音乐和语音的变化为优先级的。根据参数设定的结果,如果是高检测率为优先级的,将按模式l单元102的方式进行工作。如果是以快速反应为优先级的,将按模式2单元103的方式进行工作。本发明在模式l单元的是以高检测率为优先级的。模式1是以SMV算法的音乐检测为基础,提出了增大语音特征参数的阈值V—flag,同时增大音乐持续性参数的阈值M一continmflag的改变。SMV算法的音乐检测是通过检测音乐特征参数,如果音乐特征参数大于其阈值M—flag,则累加音乐持续性参数,同时检测语音特征参数,如果语音特征参数大于其阈值V—flag,则对音乐持续性参数衰减。最后判断音乐持续性参数是否大于其阈值M一continue—flag来判断输出的指示为音乐还是语音。由于采用一个参数来进行识别的话,会存在识别不准确的问题,这点在SMV算法的音乐检测方法上很突出,SMV算法的音乐检测方法的识别率只有70%。为了改善这一问题,本发明的模式l的基本思想就是尽量减少语音和音乐特征的重复,拉大他们之间的差距。于是提出了增大语音特征参数的阈值V—flag,以使得音乐持续性参数得到较大的积累,拉开音乐和语音的重合区间,同时考虑到增大语音特征参数的阈值V—flag,即使在输入为语音的情况下,音乐持续性参数的值也维持在较高的范围,所以增大了音乐持续性参数的阈值Mjontinue_flag。模式1的框图如图2所示,当音频信号输入时,音乐特征计算单元220和语音特征计算单元260开始计算信号的音乐特征和语音特征,然后在音乐特征参数比较单元230比较音乐特征参数和设定的阈值M_flag,如果大于阈值M_flag,在更新音乐持续性参数单元240对音乐持续性参数进行累加,如果小于阈值V_nag,保持音乐持续性参数不变。语音特征参数在语音特征参数比较单元270比较语音特征参数和设定的阈值V_flag,如果大于阈值V一flag,在更新音乐持续性参数单元240对音乐持续性参数衰减,如果小于阈值V一flag,则保持音乐持续性参数不变。最后,在音乐持续性参数判断单元250比较音乐持续性参数和阈值M—continue—flag,如果大于阈值NLcontinue—flag,输出判断为音乐,如果小于阈值M—continue—flag,输出判断为语音。本发明在模式2单元是以快速跟踪音乐和语音的变化为优先级的。本发明在模式2单元提出了在音乐持续性参数小于阈值M—continue—flag时加大音乐持续性的累积步长,以及在音乐持续性参数大于阈值M—continue一flag,对音乐持续性参数限幅的方法来保证本发明的模式2单元能快速跟踪音乐和语音的变化。模式2的框图如图3所示,当音频信号输入时,音乐特征计算单元320和语音特征计算单元350开始计算信号的音乐特征和语音特征,然后在音乐特征参数比较单元330比较音乐特征参数和设定的阈值M—flag,如果大于阈值l^flag,在更新音乐持续性参数单元340对音乐持续性参数进行累加步长341判断,并对音乐持续性参数进行累加342,然后在对音乐持续性参数执行限幅343。如果音乐特征参数小于阈值M一flag,则保持音乐持续性参数不变。语音特征参数在语音特征参数比较单元360比较语音特征参数和设定的阈值V—flag,如果大于阈值V—flag,在更新音乐持续性参数单元340对音乐持续性参数衰减,如果小于阈值V—flag,则保持音乐持续性参数不变。最后,在音乐持续性参数判断单元380比较音乐持续性参数和阈值JLcontinue—flag,如果大于阈值M—continue—flag,输出判断为音乐,如果小于阈值Mjontinue一flag,输出判断为语音下面参照图示对本发明的具体实施方式进行举例说明。从图l可以看出,本发明有三个模块构成。图4是本发明的流程图,从图4可以看出,本发明首先根据输入的参数进行模式选择410,确定当前应用场合是模式1还是模式2。然后根据选择的模式调整参数420,接下来就是根据所选择的参数进行判别,执行模式1判别430,或模式2判别440,最终输出判别结果450。图2是模式1的框图。图5是模式1的流程图。下面结合图2和图5介绍一下模式1的工作方式。从图5中可以看到,输入的信号510首先要计算音乐特征参数520。然后根据得到的音乐特征参数,比较其和阈值N_flag的大小530。如果音乐特征参数小于阈值M_flag,则保持音乐持续性参数不变,并开始计算语音特征参数550。如果音乐特征参数大于阈值M_flag,则对音乐持续性参数累加540。然后计算语音特征参数550。根据得到的语音特征参数,比较其和阈值V一flag的大小560。本发明针对原有方法的不足,提高了语音特征的阈值V_flag的值,由原来的V_flag=0.8提高到V_flag=1-2。如果语音特征参数小于阈值V_flag,则保持音乐持续性参数不变。如果语音特征参数大于阈值V_flag,则对音乐持续性参数衰减570。然后,比较当前的音乐持续性参数和阈值M_continue_flag。本发明针对原有技术的不足,在提高V—flag的同时,提高了M_continue_flag的值,由原来的JLcontinue—flag=300提高为M_continue_flag=400-440。如果音乐持续性参数大于阈值M_continue_flag,则判别输出为音乐。如果音乐持续性参数小于阈值M_continue_flag,则判别输出为语音图3是模式2的框图。图6是模式2的流程图。下面结合图3和图6介绍一下模式2的工作方式。从图6中可以看到,输入的信号601首先要计算音乐特征参数602。然后根据得到的音乐特征参数,比较其和阈值M_flag的大小603。如果音乐特征参数小于阈值M_flag,则保持音乐持续性参数不变,并开始计算语音特征参数607。如果音乐特征参数大于阈值M_flag,则先判断对音乐持续性参数累加的步长604。为了加快音乐持续性参数的累加速度,更快得跟踪音乐信号的变化,本发明设定如果音乐持续性参数小于阈值M—continue—flag,则其累加步长为180-220。如果大于阈值NLcontinue—flag,则其累加步长为l,最大不超过5。根据得到的累加步长,对音乐持续性参数累加605。累加完毕后,为了使得音乐持续性参数在语音信号到来时能及时衰减到阈值M—continue—flag以下,本发明提出要对音乐持续性参数限幅606,限幅操作是在累加之后判断音乐持续性参数是否大与限幅值(420),如果大于则被限幅于420。然后计算语音特征参数607。根据得到的语音特征参数,比较其和阈值V—flag的大小608。如果语音特征参数小于阈值V—flag,则保持音乐持续性参数不变.如果语音特征参数大于阈值V—flag,则对音乐持续性参数衰减609。然后,比较当前的音乐持续性参数和阈值Mjontinmflag。如果音乐持续性参数大于阈值M^ontimnflag,则判别输出为音乐。如果音乐持续性参数小于阈值Mjontinue—flag,则判别输出为语音。表l是本发明的检测率</column></row><row><column>音乐类型</column><column>检测率</column></row><row><column>Classical</column><column>92.94%</column></row><row><column>Electronic</column><column>95.04%</column></row><row><column>jazz_blues</column><column>93.2%</column></row><row><column>metal_punk</column><column>96.02%</column></row><row><column>rock_pop</column><column>95.87%</column></row><row><column>World</column><column>93.89%</column></row><row><column>语音</column><column>88.889&表2是未采用本发明的检测率<table><row><column>音乐类型</column><column>检测率</column></row><row><column></column><column>Classical</column><column>89.63%</column></row><row><column></column><column>Electronic</column><column>55.79%</column></row><row><column></column><column>jazz—blues</column><column>84.75%</column></row><row><column></column><column>metal—punk</column><column>42.87%</column></row><row><column></column><column>rock—pop</column><column>69.01%</column></row><row><column></column><column>World</column><column>82.38%</column></row><row><column></column><column>语音</column><column>99.2%</column></row><table>模式2是一种快速跟踪音乐和语音转换的音乐检测方法。权利要求1.一种双模的音乐检测方法,包括步骤在参数调整单元中设置参数;至少一个模式单元根据设置的参数进行工作。2.根据权利要求l所述的方法,其特征在于模式单元l工作在高检测率状态,模式单元2工作在快速跟踪音乐和语音的变化状态。3.根据权利要求2所述的方法,其特征在于所述模式单元l工作在高检测率状态包括步骤计算信号的音乐特征和语音特征;将音乐特征参数与设定的阈值M—flag进行比较,如果大于阈值M_flag,则对音乐持续性参数进行累加;将语音特征参数与设定的阈值V—flag进行比较,如果大于阈值V—flag,则对音乐持续性参数进行衰减;将音乐持续性参数与阈值M一continue—flag进行比较,如果大于阈值M—continue—flag,则判断输出为音乐,如果小于阈值M—continue_flag,则判断输出为语音。4.根据权利要求3所述的方法,其特征在于所述阈值V一flag为r2。5.根据权利要求3所述的方法,其特征在于所述阈值JLcontinmflag为400440。6.根据权利要求2所述的方法,其特征在于所述模式单元2工作在快速跟踪音乐和语音的变化状态包括步骤计算信号的音乐特征和语音特征;将音乐特征参数与设定的阈值M—flag进行比较,如果大于阈值M一flag,判断音乐持续性参数累加步长,并对音乐持续性参数进行累加,然后,对音乐持续性参数限幅;将语音特征参数与设定的阈值V_flag进行比较,如果大于阈值V_flag,则对音乐持续性参数进行衰减;将音乐持续性参数与阈值M—continue—flag进行比较,如果大于阈值M—continue—flag,则判断输出为音乐,如果小于阈值M—continue—flag,则判断输出为语音。7.根据权利要求6所述的方法,其特征在于如果音乐持续性参数小于阈值M—continue_flag,则累加步长为180220。8.根据权利要求6所述的方法,其特征在于如果音乐持续性参数大于阈值M—continue_flag,则累加步长为不超过5。9.一种双模的音乐检测装置,包括参数调整单元,用于确定需要选择的模式;多个模式单元,根据参数调整单元确定的模式工作。10.根据权利要求9所述的装置,其特征在于模式单元l工作在高检测率状态,模式单元2工作在快速跟踪音乐和语音的变化状态。11.根据权利要求10所述的装置,其特征在于所述模式单元l包括-音乐特征计算单元,用于计算信号的音乐特征;音乐特征参数比较单元,将音乐特征参数与设定的阈值kLflag进行比较;语音特征计算单元,计算信号的语音特征;语音特征参数比较单元,将语音特征参数与设定的阈值V—flag进行比较;更新音乐持续性参数单元,如果音乐特征参数大于设定的阈值M_flag,则对音乐持续参数进行累加,如果语音特征参数大于设定的阈值V—flag,则对音乐持续性参数进行衰减;音乐参数持续性参数判断单元,将音乐持续性参数与阈值M—continue—flag进行比较,如果大于阈值M—continue—flag,则判断输出为音乐,如果小于阈值M一continue一flag,则判断输出为语音。12.根据权利要求ll所述的装置,其特征在于所述阈值V—flag为12。13.根据权利要求ll所述的装置,其特征在于所述阈值M—contimje_flag为400440。14.根据权利要求10所述的装置,其特征在于所述模式单元2包括音乐特征计算单元,计算信号的音乐特征;音乐特征参数比较单元,将音乐特征参数与设定的阈值M_flag进行比较;语音特征计算单元,计算信号的语音特征;语音参数特征比较单元,将语音特征参数与设定的阈值V_flag进行比较;更新音乐持续性参数单元,如果音乐特征参数大于阈值M_flag,判断音乐持续性参数累加步长,并对音乐持续性参数进行累加,然后,对音乐持续性参数限幅,如果语音特征参数大于阈值V_flag,则对音乐持续性参数进行衰减;音乐持续性参数判断单元,将音乐持续性参数与阈值M_continue_flag进行比较,如果大于阈值M_continue—flag,则判断输出为音乐,如果小于阈值M_continue_flag,则判断输出为语音。15.根据权利要求14所述的装置,其特征在于如果音乐持续性参数小于阈值M_continue_flag,则累加步长为180220。16.根据权利要求14所述的装置,其特征在于如果音乐持续性参数大亍阈值M_continue_flag,则累加步长为不超过5。全文摘要一种双模的音乐检测方法,包括步骤在参数调整单元中设置参数;至少一个模式单元根据设置的参数进行工作。本发明可广泛应用于不同需要的场合。其中模式1是具有高检测率的音乐检测方法,音乐信号的识别率为94.5%。文档编号H04M1/725GK101202992SQ20061016570公开日2008年6月18日申请日期2006年12月12日优先权日2006年12月12日发明者川张,王立众,胡洪涛申请人:北京三星通信技术研究有限公司;三星电子株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1