违规用语检测方法及装置与流程

文档序号:17185976发布日期:2019-03-22 21:21阅读:392来源:国知局
违规用语检测方法及装置与流程

本申请涉及违规识别领域,具体而言,涉及一种违规用语检测方法及装置。



背景技术:

相关技术中对音频文件中的违规用语进行检测时,只是将音频文件与违规文字或违规音频进行对比,不能精准的定位违规用语具体出现的时间,不便于监管人员进行违规用语盘查。

针对相关技术中违规用语检测的定位不精准的问题,目前尚未提出有效的解决方案。



技术实现要素:

本申请的主要目的在于提供一种违规用语检测方法及装置,以解决相关技术中违规用语检测的定位不精准的问题。

为了实现上述目的,根据本申请的第一方面,本申请实施例提供了一种违规用语检测方法,所述方法包括:接收初始音频文件,从所述初始音频文件中提取目标音频文件;对所述目标音频文件进行语音识别,得到目标文字;根据预设违规词文字库,对所述目标文字中的违规文字进行标注;根据所述目标文字中违规文字的标注位置,在所述目标音频文件的相对位置处进行违规音频标注。

结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述接收初始音频文件,从所述初始音频文件中提取目标音频文件包括:判断所述初始音频文件中是否包含有目标人员的音频信息;如果判定所述初始音频文件中包含有目标人员的音频信息,则提取所述目标人员的音频信息,得到目标音频文件。

结合第一方面,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述对目标音频文件进行语音识别,得到目标文字包括:对语音识别得到的文字进行语义分析;根据所述语义分析的结果确定目标文字。

结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述根据预设违规词文字库,对所述目标文字中的违规文字进行标注包括:查找所述目标文字中是否包含有所述预设违规词文字库中的违规文字;如果所述目标文字中包含有预设违规词文字库中的违规文字,则在所述目标文字中的对应位置处进行违规文字标注。

结合第一方面,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述根据目标文字中违规文字的标注位置,在所述目标音频文件的相对位置处进行违规音频标注包括:确定所述目标文字与所述目标音频文件的时间对应关系;根据所述目标文字中违规文字的标注位置和所述时间对应关系,得到所述目标音频文件中违规音频的相对位置并进行标注。

为了实现上述目的,根据本申请的第二方面,本申请实施例提供了一种违规用语检测装置,包括:目标音频文件获取单元,用于接收初始音频文件,从所述初始音频文件中提取目标音频文件;语音识别单元,用于对所述目标音频文件获取单元获取得到的目标音频文件进行语音识别,得到目标文字;违规文字标注单元,用于根据预设违规词文字库,对所述语音识别单元得到的目标文字中的违规文字进行标注;违规音频标注单元,用于根据所述目标文字中违规文字的标注位置,在所述目标音频文件的相对位置处进行违规音频标注。

结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中,所述目标音频文件获取单元包括:目标音频判断模块,用于判断所述初始音频文件中是否包含有目标人员的音频信息;目标音频提取模块,用于如果判定所述初始音频文件中包含有目标人员的音频信息,则提取所述目标人员的音频信息,得到目标音频文件。

结合第二方面,本申请实施例提供了第二方面的第二种可能的实施方式,其中,所述语音识别单元包括:语义分析模块,用于对语音识别得到的文字进行语义分析;目标文字确定模块,用于根据所述语义分析的结果确定目标文字。

结合第二方面,本申请实施例提供了第二方面的第三种可能的实施方式,其中,所述违规文字标注单元包括:违规文字查找模块,用于查找所述目标文字中是否包含有所述预设违规词文字库中的违规文字;文字标注模块,用于如果所述目标文字中包含有预设违规词文字库中的违规文字,则在所述目标文字中的对应位置处进行违规文字标注。

结合第二方面,本申请实施例提供了第二方面的第四种可能的实施方式,其中,所述违规音频标注单元包括:对应关系确定模块,用于确定所述目标文字与所述目标音频文件的时间对应关系;音频标注模块,用于根据所述目标文字中违规文字的标注位置和所述时间对应关系,得到所述目标音频文件中违规音频的相对位置并进行标注。

在本申请实施例中,采用对目标音频文件进行语音识别,得到目标文字的方式,通过对目标文字中的违规文字进行标注,达到了根据目标文字中违规文字的标注位置,在目标音频文件的相对位置处进行违规音频标注的目的,从而实现了精准定位违规用语出现的时间的技术效果,进而解决了相关技术中违规用语检测的定位不精准的问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1是根据本申请实施例一提供的一种违规用语检测方法的流程图;

图2是本申请图1中步骤s101的详细流程图;

图3是本申请图1中步骤s102的详细流程图;

图4是本申请图1中步骤s103的详细流程图;

图5是本申请图1中步骤s104的详细流程图;以及

图6是根据本申请提供的一种违规用语检测装置的示意图;

图7是本申请图6中目标音频文件获取单元10的详细示意图;

图8是本申请图6中语音识别单元20的详细示意图;

图9是本申请图6中违规文字标注单元30的详细示意图;以及

图10是本申请图6中违规音频标注单元40的详细示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中,术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例,并非用于限定所指示的装置、元件或组成部分必须具有特定方位,或以特定方位进行构造和操作。

并且,上述部分术语除了可以用于表示方位或位置关系以外,还可能用于表示其他含义,例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言,可以根据具体情况理解这些术语在本申请中的具体含义。

此外,术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如,可以是固定连接,可拆卸连接,或整体式构造;可以是机械连接,或电连接;可以是直接相连,或者是通过中间媒介间接相连,又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

考虑到:相关技术中对音频文件中的违规用语进行检测时,只是将音频文件与违规文字或违规音频进行对比,不能精准的定位违规用语具体出现的时间,不便于监管人员进行违规用语盘查,因此本申请提供了一种违规用语检测方法及装置。

如图1所示,该方法包括如下的步骤s101至步骤s104:

步骤s101,接收初始音频文件,从所述初始音频文件中提取目标音频文件;

优选的,所述初始音频文件可以为两个用户之间电话沟通的录音文件,通过预设声纹数据库,可以从所述录音文件中识别出哪些音频属于哪个用户,对于系统需要进行违规用语检测的用户,有针对性的提取该用户的所有音频,生成所述目标音频文件。

步骤s102,对所述目标音频文件进行语音识别,得到目标文字;

优选的,所述语音识别方法包括但不限于:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法,通过语音识别技术,将所述目标音频文件转化为文字信息,即所述目标文字。

具体的,基于语音学和声学的方法:

该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。

通常认为常用语言中有有限个不同的语音基元,而且可以通过其语音信号的频域或时域特性来区分。这样该方法分为两步实现:

第一步,分段和标号;

把语音信号按时间分成离散的段,每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号

第二步,得到词序列;

根据第一步所得语音标号序列得到一个语音基元网格,从词典得到有效的词序列,也可结合句子的文法和语义同时进行。

具体的,模板匹配的方法:

模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中,要经过四个步骤:特征提取、模板训练、模板分类、判决。常用的技术有三种:动态时间规整(dtw)、隐马尔可夫(hmm)理论、矢量量化(vq)技术。

1、动态时间规整(dtw)

语音信号的端点检测是进行语音识别中的一个基本步骤,它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置,从语音信号中排除无声段。在早期,进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。60年代日本学者itakura提出了动态时间规整算法(dtw:dynamictimewarping)。算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。在这一过程中,未知单词的时间轴要不均匀地扭曲或弯折,以使其特征与模型特征对正。

2、隐马尔可夫法(hmm)

隐马尔可夫法(hmm)是70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。hmm方法现已成为语音识别的主流技术,目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于hmm模型的。hmm是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程:一个是用具有有限状态数的markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。可见hmm合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。

3、矢量量化(vq)

矢量量化(vectorquantization)是一种重要的信号压缩方法。与hmm相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形的k个样点的每一帧,或有k个参数的每一参数帧,构成k维空间中的一个矢量,然后对矢量进行量化。量化时,将k维无限空间划分为m个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量,实现最大可能的平均信噪比。

核心思想可以这样理解:如果一个码书是为某一特定的信源而优化设计的,那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真,也就是说编码器本身存在区分能力。

在实际的应用过程中,人们还研究了多种降低复杂度的方法,这些方法大致可以分为两类:无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化。

具体的,神经网络的方法:

利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络(ann)本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强的分类能力和输入-输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。

由于ann不能很好的描述语音信号的时间动态特性,所以常把ann与传统识别方法结合,分别利用各自优点来进行语音识别。

步骤s103,根据预设违规词文字库,对所述目标文字中的违规文字进行标注;

优选的,预先将可能出现的违规文字和词语建立文字数据库,将上述步骤中得到的所述目标文字与所述文字数据库中的违规文字和词语进行比对,如果能够比对成功,则判定所述目标文字中存在违规用语,在所述目标文字中将比对成功的违规用语进行标注。

步骤s104,根据所述目标文字中违规文字的标注位置,在所述目标音频文件的相对位置处进行违规音频标注。

优选的,通过上述语音识别方法,在将所述目标音频文件转化为目标文字的过程中,能够得到每个目标文字在所述目标音频文件中的播放位置(即播放时间),根据违规文字在目标文字中所处的位置,得知对应的违规音频在目标音频文件中的位置,对所述违规音频进行标注。

实施例一:

在坐席客服人员与用户的电话沟通过程中,首先接收电话沟通的音频文件,即所述初始音频文件,通过预设声纹数据库中存储的该坐席客服人员的声纹特征或该用户的声纹特征,将该坐席客服人员的音频从初始音频文件中提取出来,生成所述目标音频文件;然后,对所述目标音频文件进行语音识别处理,得到该坐席客服人员所说话语的文字,即所述目标文字,将所述目标文字通过预设违规词文字库进行查询匹配,如果匹配成功,则判定该目标文字中含有违规用语,在所述目标文字中进行标注;最后,通过语音识别过程可知每个目标文字在目标音频文件中的播放位置(即播放时间),根据违规用语在目标文字中的标注位置,得到违规音频在目标音频文件中的相对位置,并进行标注。

从以上的描述中,可以看出,本发明实现了如下技术效果:

在本申请实施例中,采用对目标音频文件进行语音识别,得到目标文字的方式,通过对目标文字中的违规文字进行标注,达到了根据目标文字中违规文字的标注位置,在目标音频文件的相对位置处进行违规音频标注的目的,从而实现了精准定位违规用语出现的时间的技术效果,进而解决了相关技术中违规用语检测的定位不精准的问题。

根据本发明实施例,作为本申请实施例中的优选,如图2所示,所述接收初始音频文件,从所述初始音频文件中提取目标音频文件包括如下的步骤s201至步骤s202:

步骤s201,判断所述初始音频文件中是否包含有目标人员的音频信息;

优选的,所述初始音频文件可以为两个用户之间电话沟通的录音文件,通过预设声纹数据库,可以从所述录音文件中识别出哪些音频属于哪个用户。

步骤s202,如果判定所述初始音频文件中包含有目标人员的音频信息,则提取所述目标人员的音频信息,得到目标音频文件。

优选的,对于系统需要进行违规用语检测的用户,有针对性的提取该用户的所有音频,生成所述目标音频文件。

根据本发明实施例,作为本申请实施例中的优选,如图3所示,所述对目标音频文件进行语音识别,得到目标文字包括如下的步骤s301至步骤s302:

步骤s301,对语音识别得到的文字进行语义分析;

优选的,所述语音识别方法包括但不限于:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。

步骤s302,根据所述语义分析的结果确定目标文字。

优选的,通过语音识别技术,将所述目标音频文件转化为文字信息,即所述目标文字。

根据本发明实施例,作为本申请实施例中的优选,如图4所示,所述根据预设违规词文字库,对所述目标文字中的违规文字进行标注包括如下的步骤s401至步骤s402:

步骤s401,查找所述目标文字中是否包含有所述预设违规词文字库中的违规文字;

优选的,预先将可能出现的违规文字和词语建立文字数据库,将上述步骤中得到的所述目标文字与所述文字数据库中的违规文字和词语进行比对。

步骤s402,如果所述目标文字中包含有预设违规词文字库中的违规文字,则在所述目标文字中的对应位置处进行违规文字标注。

优选的,如果能够比对成功,则判定所述目标文字中存在违规用语,在所述目标文字中将比对成功的违规用语进行标注。

根据本发明实施例,作为本申请实施例中的优选,如图5所示,所述根据目标文字中违规文字的标注位置,在所述目标音频文件的相对位置处进行违规音频标注包括如下的步骤s501至步骤s502:

步骤s501,确定所述目标文字与所述目标音频文件的时间对应关系;

优选的,通过上述语音识别方法,在将所述目标音频文件转化为目标文字的过程中,能够得到每个目标文字在所述目标音频文件中的播放位置(即播放时间)。

步骤s502,根据所述目标文字中违规文字的标注位置和所述时间对应关系,得到所述目标音频文件中违规音频的相对位置并进行标注。

优选的,根据违规文字在目标文字中所处的位置,得知对应的违规音频在目标音频文件中的位置,对所述违规音频进行标注。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例,还提供了一种用于实施上述违规用语检测方法的装置,如图6所示,该装置包括:目标音频文件获取单元10,用于接收初始音频文件,从所述初始音频文件中提取目标音频文件;语音识别单元20,用于对所述目标音频文件获取单元获取得到的目标音频文件进行语音识别,得到目标文字;违规文字标注单元30,用于根据预设违规词文字库,对所述语音识别单元得到的目标文字中的违规文字进行标注;违规音频标注单元40,用于根据所述目标文字中违规文字的标注位置,在所述目标音频文件的相对位置处进行违规音频标注。

根据本申请实施例所述的目标音频文件获取单元10用于接收初始音频文件,从所述初始音频文件中提取目标音频文件,优选的,所述初始音频文件可以为两个用户之间电话沟通的录音文件,通过预设声纹数据库,可以从所述录音文件中识别出哪些音频属于哪个用户,对于系统需要进行违规用语检测的用户,有针对性的提取该用户的所有音频,生成所述目标音频文件。

根据本申请实施例所述的语音识别单元20用于对所述目标音频文件获取单元获取得到的目标音频文件进行语音识别,得到目标文字,优选的,所述语音识别方法包括但不限于:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法,通过语音识别技术,将所述目标音频文件转化为文字信息,即所述目标文字。

根据本申请实施例所述的违规文字标注单元30用于根据预设违规词文字库,对所述语音识别单元得到的目标文字中的违规文字进行标注,优选的,预先将可能出现的违规文字和词语建立文字数据库,将上述步骤中得到的所述目标文字与所述文字数据库中的违规文字和词语进行比对,如果能够比对成功,则判定所述目标文字中存在违规用语,在所述目标文字中将比对成功的违规用语进行标注。

根据本申请实施例所述的违规音频标注单元40用于根据所述目标文字中违规文字的标注位置,在所述目标音频文件的相对位置处进行违规音频标注,优选的,通过上述语音识别方法,在将所述目标音频文件转化为目标文字的过程中,能够得到每个目标文字在所述目标音频文件中的播放位置(即播放时间),根据违规文字在目标文字中所处的位置,得知对应的违规音频在目标音频文件中的位置,对所述违规音频进行标注。

根据本发明实施例,作为本申请实施例中的优选,如图7所示,所述目标音频文件获取单元10包括:目标音频判断模块11,用于判断所述初始音频文件中是否包含有目标人员的音频信息;目标音频提取模块12,用于如果判定所述初始音频文件中包含有目标人员的音频信息,则提取所述目标人员的音频信息,得到目标音频文件。

根据本申请实施例所述的目标音频判断模块11用于判断所述初始音频文件中是否包含有目标人员的音频信息,优选的,所述初始音频文件可以为两个用户之间电话沟通的录音文件,通过预设声纹数据库,可以从所述录音文件中识别出哪些音频属于哪个用户。

根据本申请实施例所述的目标音频提取模块12用于如果判定所述初始音频文件中包含有目标人员的音频信息,则提取所述目标人员的音频信息,得到目标音频文件,优选的,对于系统需要进行违规用语检测的用户,有针对性的提取该用户的所有音频,生成所述目标音频文件。

根据本发明实施例,作为本申请实施例中的优选,如图8所示,所述语音识别单元20包括:语义分析模块21,用于对语音识别得到的文字进行语义分析;目标文字确定模块22,用于根据所述语义分析的结果确定目标文字。

根据本申请实施例所述的语义分析模块21用于对语音识别得到的文字进行语义分析,优选的,所述语音识别方法包括但不限于:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法。

根据本申请实施例所述的目标文字确定模块22用于根据所述语义分析的结果确定目标文字,优选的,通过语音识别技术,将所述目标音频文件转化为文字信息,即所述目标文字。

根据本发明实施例,作为本申请实施例中的优选,如图9所示,所述违规文字标注单元30包括:违规文字查找模块31,用于查找所述目标文字中是否包含有所述预设违规词文字库中的违规文字;文字标注模块32,用于如果所述目标文字中包含有预设违规词文字库中的违规文字,则在所述目标文字中的对应位置处进行违规文字标注。

根据本申请实施例所述的违规文字查找模块31用于查找所述目标文字中是否包含有所述预设违规词文字库中的违规文字,优选的,预先将可能出现的违规文字和词语建立文字数据库,将上述步骤中得到的所述目标文字与所述文字数据库中的违规文字和词语进行比对。

根据本申请实施例所述的文字标注模块32用于如果所述目标文字中包含有预设违规词文字库中的违规文字,则在所述目标文字中的对应位置处进行违规文字标注,优选的,如果能够比对成功,则判定所述目标文字中存在违规用语,在所述目标文字中将比对成功的违规用语进行标注。

根据本发明实施例,作为本申请实施例中的优选,如图10所示,所述违规音频标注单元40包括:对应关系确定模块41,用于确定所述目标文字与所述目标音频文件的时间对应关系;音频标注模块42,用于根据所述目标文字中违规文字的标注位置和所述时间对应关系,得到所述目标音频文件中违规音频的相对位置并进行标注。

根据本申请实施例所述的对应关系确定模块41用于确定所述目标文字与所述目标音频文件的时间对应关系,优选的,通过上述语音识别方法,在将所述目标音频文件转化为目标文字的过程中,能够得到每个目标文字在所述目标音频文件中的播放位置(即播放时间)。

根据本申请实施例所述的音频标注模块42用于根据所述目标文字中违规文字的标注位置和所述时间对应关系,得到所述目标音频文件中违规音频的相对位置并进行标注,优选的,根据违规文字在目标文字中所处的位置,得知对应的违规音频在目标音频文件中的位置,对所述违规音频进行标注。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1