基于语音识别技术的广播保障方法与流程

文档序号:15187762发布日期:2018-08-17 19:30阅读:116来源:国知局

本发明涉及违规广播监测技术领域,具体涉及基于语音识别技术的广播保障方法。



背景技术:

“黑广播”,就是未经广播电视管理部门和无线电管理机构批准、擅自设置并利用广播频率向社会进行播音宣传的广播电台(违规广播)。2013年国家开始对药品广告进行了严格管理,通过建立黑广播大范围播放违规广告的现象越来越严重。擅自设置的黑广播电台使用的都是质量低劣、功率大的发射机,存在严重的安全隐患,主要表现在以下几个方面:

1.黑广播主要播放虚假医药广告,具有很强的诱惑性,欺骗听众购买非法销售药品。并且黑广播广告内容低俗,容易对未成年人造成不利影响;

2.黑广播强占频率资源,容易干扰正常广播的播出,同时黑广播发射设备质量低劣,容易干扰民航通信,使飞机与管制员无法建立联系,威胁民航安全;

3.黑广播设备一般设置在居民小区内,发射功率较大,容易污染周边的电磁环境,损害居民身体健康。

2015年6月,建立的打击治理电信网络新型违法犯罪工作部际联席会议,第一次会议上,决定从2015年11月1日至2016年4月30日在全国范围内开展打击治理电信网络新型违法犯罪专项行动,并明确将黑广播违法犯罪活动作为重点打击对象之一。2016年4月9日晚的新闻联播节目,专门播报了针对黑广播的专项行动。报道称自2016年2月15日打击黑广播专项行动开展以来,全国公安机关与相关部门捣毁黑广播窝点435个,查扣黑广播设备567台,查处违法犯罪人员188名。

黑广播之所以屡禁不止,因为背后有着庞大的利益链条。而一套黑广播发送设备的价格才几万元,相比之下,非常便宜,而且可以远程操控、无人值守,方便犯罪分子逃脱。巨大的收益与低廉的成本代价造成了目前黑广播屡禁不止的现象。

在黑广播的查处过程中,广播频点的发现困难。目前,黑广播频点的发现主要还是依靠人工逐个对频点监听实现的,消耗了工作人员大量的时间和精力,或者由听众、航空部门(黑电台有时会干扰民航通信)等发现并举报,传达到无线电管理部门,造成了黑广播查处的被动和滞后。因此,根据“黑广播”播放内容确认其类型和对应频道,对打击黑广播犯罪、保障广播安全、维护空中电磁环境具有重大意义。

由于广播音频时段过长,一般是连续十几个小时甚至是24小时不间断播放;并且广播音频内容丰富,往往包含大量对语音识别无效的音乐部分。因此,在语音识别之前,需要采用科学的方法实现对广播音频的分割与分类,得到满足语音识别条件的语音音频数据,来提升语音识别系统效率。因此,本发明在广播监测业务流程自动化的基础上,率先提供一种先分割、分类再合并的音频处理方法通过内容识别与检索来解决“黑广播”识别问题。



技术实现要素:

针对上述现有技术,本发明目的在于提供基于语音识别技术的广播保障方法,通过频段扫描,发现广播频段中的信号频点,并依次对相应信号进行中频监测和录音监听,得到信号音频数据,然后对音频数据进行切割、分类,提取语音音频数据,通过语音识别技术将广播语音转换为文本,根据关键词库检索识别后的文本,根据检索结果判断该信号是否为“黑广播”,重复此过程实现了业务流程和“黑广播”发现的自动化,提升了“黑广播”发现效率。

为达到上述目的,本发明采用的技术方案如下:

基于语音识别技术的广播保障方法,包括步骤,如图1:

步骤1、获取广播频段内具有信号的所有广播频率;

步骤2、对具有信号的广播频率依次进行中频测量与录音监听,获得音频数据;

步骤3、对获取的音频数据进行切割,然后对切割后的音频数据段进行分类,获得语音音频数据段、音乐音频数据段和静音音频数据段;

步骤4、对语音音频数据段进行合并,得到连续的语音音频数据;

步骤5、将连续的语音音频数据通过语音识别系统转换成文本,再对文本进行黑广播关键词检索,从而判断出广播类型和对应频率;

步骤6、对上述5个步骤进行轮询,实现实时自动监测。

上述方法中,所述的步骤3,其步骤包括

步骤3.1、采用端点检测分割方法,设置门限值与静音段长度完成音频数据切割,并剔除其中的静音音频数据段;

步骤3.2、根据切割后音频段的语音有效段比例和静音比例,求出分类因子值;

步骤3.3、根据分类因子值,判断出切割后音频段的类型完成音频数据分类。

上述方法中,所述的步骤3.1,其短时平均能量E取为

其中,En表示第n帧的短时平均能量,xn(m)表示音频帧的第m个采样点的值,N表示一帧内采样点的个数;短时平均能量En可以用来判断静音帧。如果某一帧的En小于阈值,则认为该帧是静音帧,否则是非静音帧;同时,短时平均能量En是区分音乐和静音的有效特征;语音中含有比音乐中更多的静音部分,因而,语音的短时平均能量与门限的交叉部分要比音乐中的多很多。

上述方法中,所述的步骤3.1,对整段音频数据进行查找,找出满足信号强度和时间长度要求的音频段,对整段音频进行分帧加窗,求短时平均能量E及短时平均能量均值Ea,并计算出查找音频段的短时平均能量均值Eaver。本发明将信号强度低于0.2、时间长度大于0.3秒作为要求条件。

图2所示为满足要求条件的音频段查找结果,原音频类型包括无背景音乐的语音音频、带背景音乐的语音音频和音乐音频(普通音乐音频与强音乐音频)。所述的步骤3.1,根据无背景音乐的语音音频、带背景音乐的语音音频和音乐音频三种音频类型设置门限值,具体包括

无背景音乐的语音音频,仅含背景噪声的语音,满足条件的音频段即可视为静音段,该音频段的短时平均能量均值Eaver过小,为避免低门限值过低对分类方法产生的影响,其低门限值取max(Eaver,Ea/4);

带背景音乐的语音音频,整段语音信号的强度相对于增加了幅度的无背景音乐语音音频,短时平均能量增大,由于背景音乐强度有高有低,所查找的音频段的短时平均能量均值Eaver,即可看作静音段短时平均能量做了小额的提升,其低门限值取Eaver;

音乐音频,一般是连续的,没有静音段。若能查找到满足条件的音频段,则其短时平均能量均值Eaver较大,分割时会把音频段中能量较低的部分划分到低门限以下,为避免门限值过大对分割分类造成的影响,其低门限值取min(Eaver,Ea/3);连续且强度较高的音乐信号强度整体偏高,不存在静音段,无法找到满足条件的音频段,音乐段不需要进行分割和语音识别,不用处理。

上述方法中,所述的步骤3.1,

其低门限值设置为

Tmin=min(max(Eaver,Ea/4),Ea/3);

高门限值设置为

Tmax=2×Tmin;

静音段长度为0.2秒,基于语言特征设置,高于0.2秒存在分割段过长问题,降低分类灵敏度,低于0.2秒分割过于细碎。

上述方法中,所述的步骤3.2,

其语音有效段比例Rvs定义为

Rvs=Cvs/t

其中,Cvs表示该段音频语音有效段总数,t表示该段音频时长,指仅端点帧短时能量小于阈值中间帧均大于阈值且长度大于0.2秒的语音段,语音有效段比例,指每秒钟的语音有效段数,它与广播每秒播报的字数有关,在广播中,一般来说,字与字之间的短时能量值会远远低于阈值,而发音过程中的能量值会大于阈值,语音有效段较多,而音乐是连续的,短时能量连续且较大,语音有效段很少,因此,可以采用语音有效段比例来进行音频的分类;

其静音比例Rs

Rs=M/N

其中,M表示片段中静音帧的数目,N表示片段中帧的总数,如果一帧的短时能量小于阈值,则把这帧定义为静音帧,否则为非静音帧,静音比例,指的是一个音频段中静音帧占总帧数的比例;一般来说,语音中存在大量的停顿,而音乐较为连续,因此语音的静音比例会比音乐高。

上述方法中,判断所分割音频段的类型包括音乐音频段和语音音频段。

上述方法中,所述的步骤3.2,本发明率先采用语音有效段比例和静音比例两个参数设置分类因子值,其分类因子值fac,定义为

语音有效段比例Rvs的阀值,本发明选取2/3×Tmax。静音比例Rs的阈值,本发明选取2/3×Ea;通过分类因子值fac大小判断所分割音频段的类型;当Rs≥0.3且Rvs≥0.5时,认为该段为语音音频段,分类因子设置为2(大于1即可);当Rs≥0.3且Rvs<0.5时,认为该段是音乐音频段,分类因子设为0(小于1即可)。本发明分类因子值fac临界值取1,即当fac≥1时,该段为语音音频段,否则,为音乐音频段。

上述方法中,其中音乐音频段的音频数据不保存。

与现有技术相比,本发明的效果:

采用频段扫描发现信号点,并自动对信号点进行中频测量和录音监听,首次将语音识别技术应用于广播音频内容识别,将音频转文本后进行关键词匹配,来发现黑广播频点,实现了广播保障的自动化运行。

采用频段扫描、中频测量和音频识别依次轮询,提高了广播保障系统的自动化程度,实现了全天候监测,被动处理变为主动发现,并提高了对黑广播的查处效率。

提供了音频分割、音频分类再语音合并的音频处理方法,显著地并实质地,提升被识别语音音频与语音识别系统的兼容性和匹配度,进一步获得更好的黑广播识别效果。

附图说明

图1为本发明的流程示意图;

图2为本发明的音频段查找结果示意图;

图3为本发明基于端点检测分割分类方法流程图;

图4为本发明帧位置介绍示意图;

图5为本发明语音音频流处理结果示意图;

图6为本发明语音音频流处理结果;

图7为本发明音乐音频流处理结果示意图;

图8为本发明语音开头音频流处理结果示意图;

图9为本发明语音开头音频流处理结果;

图10为本发明音乐开头音频流处理结果示意图;

图11为本发明音乐开头音频流处理结果;

图12为本发明关键词库使用过程示意图。

具体实施方式

下面结合附图对本发明做进一步说明:

实施例1

本实施例利用EM100数字接收机、HE600接收天线及普通PC机搭建硬件平台,实现了调频广播的自动保障功能。通过对广播段(87.5MHz-108MHz)进行频段扫描发现信号,创建频率列表(信号列表);遍历频率列表,依次对各频点进行中频测量、录音监听任务,采集音频数据;对音频数据进行音频分析,即采用语音识别技术将语音转为文本,根据关键词库,对文本进行关键词检索,判断是否包含黑广播或可疑广播关键词,最终判断信号的类型。

在系统验证过程中,平均每晚发现的黑广播或可疑广播数量为12个,其中真正是黑广播的一般为10个。该系统在西华大学老图书馆大致能发现80%的黑广播。

其中:

1.创建频率列表

采用本申请人已公开的专利《一种信号检测方法》(申请号:CN201510496912.7)。

2.音频分割与分类采用以下方式流程实施:

选择将语音段的长度分割到30秒左右。如果直接将音频分割为30秒的长度,会造成部分音乐与语音分割到同一段,干扰音频段的分类,必然造成语音数据的丢失或音乐的识别。本发明在进行音频分割时,先进行精细分割(门限值L取较小值),分类后再进行语音段的合并,得到满足需求、长度适当的语音段。本发明采用的是语音预处理中经常采用的汉宁窗,窗长(帧长)16ms,帧移5ms。也就是当语音信号采样率为16kHz时,窗长256,帧移80。

算法流程如图3:

1)对音频进行归一化处理;

2)对归一化的信号进行滤波;

3)从音频流起始位置开始,查找信号强度大于0.2且长度大于0.3秒的语音段。若存在,记录该音频段的起止位置,进入步骤4,不存在,该段音频为音乐或噪声,结束流程;

4)分帧,加窗,求短时平均能量E短时平均能量均值Ea;

5)由步骤3中起止位置求静音段短时平均能量均值Eaver,求门限值Tmin、Tmax;

6)基于双门限分割方法对音频流进行精细分割;

7)求分割后各音频段语音有效段比例Rvs与静音比例Rs,求分类因子fac值;

8)根据fac值,判断各音频段类型,采用相邻合并,最终长度30s左右的原则对分割后的语音音频进行合并。

其中,短时平均能量为:En表示第n帧的短时平均能量,xn(m)表示音频帧的第m个采样点的值,N表示一帧内采样点的个数。

步骤6)中双门限分割方法对音频流分割具体流程:

对广播音频文件进行归一化、滤波、分帧加窗后,求的音频段的短时能量E和门限值Tmin、Tmax,然后根据双门限分割方法对音频文件进行分割。本发明要求两音频段之间的静音段时长为0.2秒。

假设音频的帧长度为length,X0与X3表示音频段起始和终止位置,短时能量小于Tmin,X1与X2表示音频段第一个和最后一个短时能量大于Tmax的帧的位置,如图4。

a)从音频起始位置开始,查找第n帧,短时能量满足En<Tmax且第n+1帧满足En+1>Tmax,则帧n+1记为X1;向前查找第一个短时能量小于Tmin的帧,记为语句起始点X0,若查找不到,将第1帧记为该音频段起始点;

b)由X1向后查找第m帧,短时能量满足Em>Tmax且m+1帧满足Em+1<Tmax,则帧m+1记为X2,X2向后查找第n帧,满足En<Tmax且Tn+1>Tmax,若tn-tm>0.2(tm、tn为m、n的时间,静音段长度大于0.2秒)、tm-tX1>5(该段音频长度大于5秒)、[n,m]间存在短时能量低于Tmin的帧,或tn-tm>0.5(静音段长度大于0.5秒)、[n,m]间存在短时能量低于Tmin的帧,则m帧后的第一个能量低于Tmin的帧,即为该段音频的终止位置X3,n为新音频段的X1,n前的第一个短时能量低于Tmin的帧,即为新音频段的起始位置X0;

c)判断是否到音频尾部,若不到,则返回步骤2,否则,进入步骤4;

d)若tlength-tX1<5(剩余部分长度小于5秒),合并到前一句,若tlength-tX1>5(剩余部分长度大于5秒),设为新的一段。

步骤8)中音频段分类与合并具体流程:

假设音频段数量为N,正在处理的音频段序号为i。本发明中,若分类因子fac>1为语音段,否则为音乐段。音频段分类与合并的具体步骤如下:

a)判断第1段音频类型及长度,此时i=1。若音频段为语音段、且长度大于20秒,i=i+1,跳出步骤1;若音频段为语音段、且长度小于20秒且第i+1段是语音段,则两段合并,循环步骤1;若音频段为语音段、且长度小于20秒而第i+1段是音乐段,i=i+1,跳出步骤1;若起始音频段为音乐段,i=i+1,跳出步骤1;

b)判断第i段音频类型及长度。若该段为语音段、且长度大于20秒,i=i+1,跳到步骤5;若该段为语音段、且长度小于20秒,跳到步骤3;若该段为音乐段,跳到步骤4;

c)判断第i段前后两段类型,若前后均为语音段,合并到长度小于20秒的段,若均大于20秒,合并到较短的段,跳到步骤2;若前后仅有一段是语音段,两段合并,跳到步骤2;若前后均为音乐段,i=i+1,跳到步骤5;

d)若i-1段为音乐段,两段合并,跳到步骤5;若i-1段为语音段,跳到步骤5;

e)如果i<N,返回步骤2,否则(此时i=N),跳到步骤6;

f)判断该段类型与长度。若该段为语音段、长度小于20秒且i-1段是语音段,两段合并,结束流程;若为音乐段、且i-1段是音乐段,两段合并,结束流程。

音频分割分类方法验证:

本实例采用了是录制好的广播音频数据进行测试,音频格式为wav,采样率为16KHz。由于方法在音频分割与分类过程中,采用了先精细化分割,然后分类,最后合并的方式。图5、图7、图8、图10中包括了3个部分:上部是音频信号的原始波形,中部是精细分割结果,下部是语音段分类合并结果,也就是最终的处理结果。

一段音频包含内容的情况大概有4种:纯净语音音频,带背景音乐的语音音频,纯音乐音频,同时含有语音与音乐的音频文件。

纯净的语音音频,采用端点检测方法很简单的就完成了分割与分类,若方法能实现带背景音乐的语音音频切割,就必然能够实现纯净语音音频的切割,因此这里不再对纯净语音音频进行验证。

带背景音乐的语音音频,可以看作是带有较强背景噪声的语音音频,是语音切割与分类的难点,广播音频中包含了大量的该类型音频。图5是调频广播103.7中的一段180秒的音频文件,经过人工监听,确认该段音频是带有背景音乐的语音信号。方法将该段音频分为7段,音频类型均为语音,具体结果见图6。

纯音乐,一般情况下在查找静音段的过程中就能将其剔除,但有时音乐中也会出现中间有一部分能量很低的情况,如图7,该段音频包含了两段音乐。处理后,并没有对音频进行切割,整段判定为音乐段。

同时含有语音与音乐的音频文件是验证方法中的核心。正常广播中,经常出现音乐与语音的交替播出,如音乐电台播放音乐的前后都会有相应的介绍或者广告,因此在检验方法有效性时,对该类型的音频做了重点的验证。

同时包含语音与音乐的音频段,可以分为两种情况:以语音开头音频段、以音乐开头音频段。图8是调频103.7的广播音频,该段音频以语音段开头,音频包含了两部分音乐段。本方法最终将其分为九段,具体结果如图9所示。图10是调频90.5的广播音频,该段音频以音乐开头,之后是一段语音。本方法最终将其分为八段,具体结果如图11所示。经过人工监听,本方法的分割结果是正确的,良好的区分开了音乐与语音部分,语音部分切割后的时长满足要求。

音频分割分类方法验证结论:

通过动态门限值改进端点检测分割方法,找到音频中的噪声段,判断噪声段的长短,完成了音频段的分割。采用语音有效段比例和静音比例作为分类参数,良好的完成了语音段与音乐段的分类,分类正确度达到90%以上。采用先精细分割、分类后合并的思路,有效避免了语音部分与音乐部分切割到同一部分。方法有效的降低了分割分类过程中的误差,提升了音频数据和识别引擎的利用效率。得到了满足语音识别条件的音频文件,为语音识别、关键词检索及黑广播的查找提供了条件。

3.关键词库的建立与在线匹配

关键词库是广播内容检索的基础条件之一,关键词库的合理性、有效性直接影响着黑广播的查找结果。关键词库的使用方法。主要用于对语音识别后的文本进行关键词检索,判断广播类型,如图12。

关键词库要能实现正常广播语音与黑广播语音的区分,也就要求关键词仅出现在黑广播中而正常广播不出现或者很难出现。黑广播关键词的设置,对所有黑广播来说要有一定的普遍性和共性,同时也要结合各种类型黑广播自身的特点。

普遍性和共性,是指关键词经常在黑广播中出现,且存在于不同类型的黑广播中,对大多数黑广播有效,如对话方式、人物介绍、药品介绍、治疗状况介绍等等。关键词主要包括:专家、听众、药材、中药、国药、药品、原价、厂家、直销、康复、治好、疗程、治病、健康、退药、退款、胶囊、口服液、热线、活动、名额、报名、订购、用药、长白山(药品产地)等。

同时,不同类型的黑广播语音又有各种的特点,部分关键词的设置是由这个特性来决定的。风湿骨病药品广告中会出现大量描绘行动不便、腰腿疼痛的词语,如胳膊、行动、腰腿等。心脑血管疾病与高血脂高血压药品广告语音较为类似,设置的关键词主要包括脑血管、细胞、损伤、脑神经、癫痫、高血脂、高血压等。男科疾病药品主要是描述性爱的过程的语音,目前经常说的黑广播内容露骨涉黄、播“黄段子”等就是这个原因,播报男科疾病药品广告的黑广播占了整个黑广播的90%以上,因此这类广播的关键词是黑广播关键词设置的重点。设置的关键词主要有:性生活、性爱、阴茎、勃起、海绵体、男科疾病、夫妻生活、抽插、硬度、阳痿、早泄、男性、男子、患者、性功能、障碍、摩擦、神经等。

由于部分关键词在黑广播中经常出现,但正常广播中偶尔也会用的,故本发明在监测发现黑广播时,会将相应的音频保存下来,以备工作人员最后的验证。并将可能在正常广播中出现的关键词设置为可疑,方便观察。如电话、报名、活动、报名、听众、健康等。

技术的进步只是选用标准的参考,但是出于改良发明,或者成本考量,仅仅从实用性的技术方案选择。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1