一种基于fasttest模型的识别纠错及训练方法与流程

文档序号：21279434发布日期：2020-06-26 23:30阅读：769来源：国知局

本发明涉及语音分类领域，尤其涉及一种基于fasttest模型的识别纠错及训练方法。

背景技术：

目前，在语音质检的场景中，大部分的厂商均不支持双声道来存储，而单声道存储涉及到声纹分离的工作。如果仅仅通过听录音进行质检，不仅费时费力，而且会遗漏掉badcase，不及时处理这类问题，很容易对公司未来的收益造成隐患。而声纹识别将一段录音拆分成qa（question，问题；answer，答案）的方式，并通过asr语音识别转化为文字的形式，大幅度降低单通电话的质检时间，不仅提高了效率并且大大增加了badcase的召回率。

此外，由于目前大部分的厂商的客服都不是固定的，人员流动大，基于声纹库进行识别分类，不仅维护困难，而且成本较大。而基于聚类方法进行无监督识别，又容易受到噪声、人的情绪干扰，使得准确率低下，难以符合预期达到商用的效果。

技术实现要素：

本发明要解决的技术问题，在于提供一种基于fasttest模型的识别纠错及训练方法，对声纹识别的二聚类结果通过fasttest模型再进行二分类，提高说话人的分类准确率。

为实现上述目的，本发明采用下述技术方案：

第一方面，本发明提供一种基于fasttest模型的识别纠错方法，所述方法包括：

获取待识别的语音对话流；将所述待识别的语音对话流输入声纹识别模型中进行二聚类获得第一聚类音频和第二聚类音频，其中，所述第一聚类音频为带有第一初始标签的音频集合，所述第二聚类音频为带有第二初始标签的音频集合；将所述第一聚类音频输入asr模型中进行语音识别获得所述第一聚类音频的第一语音识别结果，将所述第二聚类音频输入asr模型中进行语音识别获得所述第二聚类音频的第二语音识别结果，其中，所述第一语音识别结果为第一聚类音频的文本集合，所述第二语音识别结果为第二聚类音频的文本集合；将所述第一语音识别结果输入fasttest模型进行二分类判断，获得所述第一语音识别结果的第一最终标签，将所述第二语音识别结果输入fasttest模型进行二分类判断，获得所述第二语音识别结果的第二最终标签。

在上述方案中，所述方法还包括：

将所述第一语音识别结果中的每一个文本分别输入fasttest模型进行二分类获得所述第一语音识别结果中每一个文本的标签，将每一个文本的标签与第一最终标签进行比对，其中某个文本的标签与第一最终标签不一致时，通过人工设定的阈值判断是否更改该文本的标签。

在上述方案中，所述方法还包括：

将所述第二语音识别结果中的每一个文本分别输入fasttest模型进行二分类获得所述第二语音识别结果中每一个文本的标签，将每一个文本的标签与第二最终标签进行比对，其中某个文本的标签与第二最终标签不一致时，通过人工设定的阈值判断是否更改该文本的标签。

在上述方案中，获取待识别的语音对话流之后，将所述待识别的语音对话流转换为wav格式。

第二方面，本发明提供一种fasttest模型的训练方法，应用于fasttest模型，所述训练方法包括：

获取两个不同说话人的语音段；

将所述两个不同说话人的语音段进行预处理获得预处理后的语音段；

对所述预处理后的语音段按照说话人进行标记，获得带有标签的语音段；

将所述带有标签的语音段输入fasttest模型进行训练。

在上述方案中，将所述两个不同说话人的语音段进行预处理包括：去停用词和进行分词。

本发明的有益效果是：

1、本发明提供一种基于fasttest模型的识别纠错方法，首先将对话语音通过声纹识别分割成聚类音频，再将聚类音频输入asr中获得聚类音频的识别文本，通过识别文本输入fasttest模型进行二分类判断获得最终的聚类音频的标签，既无需声纹数据库、声纹注册，也不用再去对声纹进行标注，降低了系统开销和人工成本；

2、在聚类音频标签的基础上，本发明通过对文本集合中的每一个文本单独进行二分类判断，避免因声纹识别模型误切分造成的音频分类错误；

3、本发明融合了多模型进行分类判断及纠错，鲁棒性更强，准确率更高。

附图说明

图1为本发明提供的一种基于fasttest模型的识别纠错方法的流程示意图；

图2为本发明提供的一种fasttest模型的训练方法的流程示意图。

具体实施方式

下面通过具体实施例，并结合附图，对本发明的技术方案作进一步的具体描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图，详细说明本发明中各实施例提供的技术方案。

第一方面，本发明实施例提供一种基于fasttest模型的识别纠错方法，如附图1所示，所述方法包括：

s101,获取待识别的语音对话流；

一般性地，获取待识别的语音对话流之后，将所述待识别的语音对话流转换为wav格式。

s102，将所述待识别的语音对话流输入声纹识别模型中进行二聚类获得第一聚类音频和第二聚类音频；

其中，所述第一聚类音频为带有第一初始标签的音频集合，所述第二聚类音频为带有第二初始标签的音频集合。

一般性地，将wav格式的语音对话流输入声纹识别模型后，将同一说话人的音频进行聚类获得同一说话人的音频集合，并且对同一说话人的音频集合进行标注。在本发明中，语音对话流一般为两个不同说话人之间的对话，获得的音频集合分别为第一聚类音频和第二聚类音频，第一聚类音频对应第一说话人音频集合，第二聚类音频对应第二说话人音频集合。分别对第一聚类音频和第二聚类音频进行打标，第一聚类音频打标为第一初始标签，第二聚类音频打标为第二初始标签。

s103，将所述第一聚类音频输入asr（automaticspeechrecognition，自动语音识别）模型中进行语音识别获得所述第一聚类音频的第一语音识别结果，将所述第二聚类音频输入asr模型中进行语音识别获得所述第二聚类音频的第二语音识别结果；

其中，所述第一语音识别结果为第一聚类音频的文本集合，所述第二语音识别结果为第二聚类音频的文本集合。

s104，将所述第一语音识别结果输入fasttest模型进行二分类判断，获得所述第一语音识别结果的第一最终标签，将所述第二语音识别结果输入fasttest模型进行二分类判断，获得所述第二语音识别结果的第二最终标签。

在一个示例中，所述方法还包括：

第二方面，本发明实施例提供一种fasttest模型的训练方法，应用于fasttest模型，如附图2所示，所述训练方法包括：

s201，获取两个不同说话人的语音段；

s202，将所述两个不同说话人的语音段进行预处理获得预处理后的语音段；

在一个示例中，将所述两个不同说话人的语音段进行预处理包括：去停用词和进行分词。

s203，对所述预处理后的语音段按照说话人进行标记，获得带有标签的语音段；

s204，将所述带有标签的语音段输入fasttest模型进行训练。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，这些均属于本发明的保护范围之内。

当前第1页1 2

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王磊
技术所有人：浙江百应科技有限公司
我是此专利的发明人

上一篇：介电体多层膜镜的制作方法
下一篇：一种物证内窥成像自动化云台的制作方法

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！