语音识别方法及装置与流程

文档序号：20497817发布日期：2020-04-21 22:32阅读：156来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本申请涉及语音识别领域，具体涉及一种语音识别方法及装置。

背景技术：

现有技术中语音质检的主要目的在于根据电话双方的通话内容判断有无违规行为，不同的企业对于违规的定义都不相同，现有技术很难满足语音质检的个性化、可配置化以及高准确性的要求。

技术实现要素：

针对现有技术中的问题，本申请提供一种语音识别方法及装置，能够个性化、可配置化的进行语音识别，并能提升语音识别的准确性。

为了解决上述问题中的至少一个，本申请提供以下技术方案：

第一方面，本申请提供一种语音识别方法，包括：

获取目标音频文件；

根据预设策略集中各策略对应的质检规则，得到所述目标音频文件对应的质检分数；

根据所述质检分数和预设质检阈值，确定所述目标音频文件的质检结果。

进一步地，所述根据预设策略集中各策略对应的质检规则，得到所述目标音频文件对应的质检分数，包括：

判断所述目标音频文件是否匹配所述质检规则中的预设关键词模板，若匹配，则获取对应的第一变动分值；

根据所述质检规则的预设基本分值和所述第一变动分值，得到第一质检分数。

进一步地，所述根据预设策略集中各策略对应的质检规则，得到所述目标音频文件对应的质检分数，还包括：

判断所述目标音频文件是否匹配所述质检规则中的预设正则模板，若匹配，则获取对应的第二变动分值；

根据所述质检规则的预设基本分值和所述第二变动分值，得到第二质检分数。

进一步地，所述根据预设策略集中各策略对应的质检规则，得到所述目标音频文件对应的质检分数，还包括：

根据预先添加标签的样本数据对预设nlp模型进行模型训练；

根据经过所述模型训练后的nlp模型和所述目标音频文件，得到第三变动分值；

根据所述质检规则的预设基本分值和所述第三变动分值，得到第三质检分数。

第二方面，本申请提供一种语音识别装置，包括：

目标音频文件获取模块，用于获取目标音频文件；

策略集质检模块，用于根据预设策略集中各策略对应的质检规则，得到所述目标音频文件对应的质检分数；

质检结果确定模块，用于根据所述质检分数和预设质检阈值，确定所述目标音频文件的质检结果。

进一步地，所述策略集质检模块包括：

关键词模板质检单元，用于判断所述目标音频文件是否匹配所述质检规则中的预设关键词模板，若匹配，则获取对应的第一变动分值；

第一质检分数确定单元，用于根据所述质检规则的预设基本分值和所述第一变动分值，得到第一质检分数。

进一步地，所述策略集质检模块还包括：

正则模板质检单元，用于判断所述目标音频文件是否匹配所述质检规则中的预设正则模板，若匹配，则获取对应的第二变动分值；

第二质检分数确定单元，用于根据所述质检规则的预设基本分值和所述第二变动分值，得到第二质检分数。

进一步地，所述策略集质检模块还包括：

nlp模型训练单元，用于根据预先添加标签的样本数据对预设nlp模型进行模型训练；

nlp模型质检单元，用于根据经过所述模型训练后的nlp模型和所述目标音频文件，得到第三变动分值；

第三质检分数确定单元，用于根据所述质检规则的预设基本分值和所述第三变动分值，得到第三质检分数。

第三方面，本申请提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的语音识别方法的步骤。

第四方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的语音识别方法的步骤。

由上述技术方案可知，本申请提供一种语音识别方法及装置，通过获取目标音频文件；根据预设策略集中各策略对应的质检规则，得到所述目标音频文件对应的质检分数；根据所述质检分数和预设质检阈值，确定所述目标音频文件的质检结果，能够个性化、可配置化的进行语音识别，并能提升语音识别的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中的语音识别方法的流程示意图之一；

图2为本申请实施例中的语音识别方法的流程示意图之二；

图3为本申请实施例中的语音识别方法的流程示意图之三；

图4为本申请实施例中的语音识别方法的流程示意图之四；

图5为本申请实施例中的语音识别装置的结构图之一；

图6为本申请实施例中的语音识别装置的结构图之二；

图7为本申请实施例中的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

考虑到现有技术中语音质检的主要目的在于根据电话双方的通话内容判断有无违规行为，不同的企业对于违规的定义都不相同，现有技术很难满足语音质检的个性化、可配置化以及高准确性的要求的问题，本申请提供一种语音识别方法及装置，通过获取目标音频文件；根据预设策略集中各策略对应的质检规则，得到所述目标音频文件对应的质检分数；根据所述质检分数和预设质检阈值，确定所述目标音频文件的质检结果，能够个性化、可配置化的进行语音识别，并能提升语音识别的准确性。

为了能够个性化、可配置化的进行语音识别，并能提升语音识别的准确性，本申请提供一种语音识别方法的实施例，参见图1，所述语音识别方法具体包含有如下内容：

步骤s101：获取目标音频文件。

步骤s102：根据预设策略集中各策略对应的质检规则，得到所述目标音频文件对应的质检分数。

可以理解的是，可以通过预先新建策略集，以及对应的，用户设定质检阈值，该质检阈值用于判定质检结果，根据定义值来取得三个区间，分别代表预警(warning)、复核(review)、通过(pass)。用户还可以定义基础分值，基础分值相当于默认值，表示用户新建策略集默认分为基础分值所设定的值。

可选地，所述策略集可以由多个策略组成，所述策略由多条质检规则组成，所述质检规则可以由多条规则条件组成，所述规则条件由模板组成，所述模板包括但不限于：nlp模板、关键词模板、正则模板，一个策略集包含多个策略，用户可在策略集下创建多个策略。

步骤s103：根据所述质检分数和预设质检阈值，确定所述目标音频文件的质检结果。

可选地，一个策略可以添加多个质检规则，通过设定属性配置，条件配置来添加质检规则。

具体地，通过选择规则类型来选择模板，可供选择的模板至少包括三种：正则模板、关键词模板、nlp模板(即下述nlp模型)。角色的设定与策略和策略集的角色是保持一致的。关键词分类与标签是对应模板下的分类与标签。质检分数是确定命中关键词标签之后质检分数的变动值，如质检分数设定为-5，那每命中一个关键词标签则分数减5，未命中则不变，默认值为0，也就是说从0分开始加分或减分，最后得出的分数可为负数，同时用户可限制分数的上下限，使分数限制在用户所需要的区间范围内。

这样使所有的由目标音频文件转换得到的录音对话文本都可以根据用户自定义的规则来查找是否有命中的标签，再根据用户设定的分数，去加或减分，得出当前段对话的分数，因为用户可能对不同部分录音对话文本有着不同要求，所以每个要求对应着不同规则，每个规则又有不同的质检分数，所以需要策略层把所有规则加在一起来确定更大范围录音对话文本的质检分数。同理，不同策略需要策略集这一层来进行综合。最后确定录音对话的合规性。

可选地，根据客户的需要来自定义命中条件，最后得出质检分数还有质检结果(通过，复核，预警)，根据用户自定义分数区间来确定结果是通过(pass)还是复核(review)还是预警(warning)。

例如，客户设定0-50分是预警(不合格)，50-75分是复核，75-100是通过。

在预警状态就意味着此段录音对话至少符合品质违规、业务违规、负面风险、话术流程、施压话术中一个，质检员则根据客户公司需要做出处理。

在复核状态就是表明需要人工复检，就是人工检查此段对话的违规性。

在通过状态表明此对话没有违规，是合格的。

从上述描述可知，本申请实施例提供的语音识别方法，能够通过获取目标音频文件；根据预设策略集中各策略对应的质检规则，得到所述目标音频文件对应的质检分数；根据所述质检分数和预设质检阈值，确定所述目标音频文件的质检结果，能够个性化、可配置化的进行语音识别，并能提升语音识别的准确性。

为了能够根据用户自定义的关键词来进行语音质检，以满足用户的个性化需求，在本申请的语音识别方法的一实施例中，参见图2，还可以具体包含如下内容：

步骤s201：判断所述目标音频文件是否匹配所述质检规则中的预设关键词模板，若匹配，则获取对应的第一变动分值。

步骤s202：根据所述质检规则的预设基本分值和所述第一变动分值，得到第一质检分数。

可选地，客户可根据自己需要手动添加关键词，如“你好”，“方便吗”等。多个关键词标签可组成一个关键词分类，由于是基于多种场景下所以录音文件分为通话双方，一方为坐席(也称电催员)，另一方称为客户，关键词模板可选择角色，分为三个角色(坐席、客户、坐席\客户)，用户可指定该标签应用于哪个角色的对话中。

为了能够根据用户自定义的正则匹配规则来进行语音质检，以满足用户的个性化需求，在本申请的语音识别方法的一实施例中，参见图3，还可以具体包含如下内容：

步骤s301：判断所述目标音频文件是否匹配所述质检规则中的预设正则模板，若匹配，则获取对应的第二变动分值。

步骤s302：根据所述质检规则的预设基本分值和所述第二变动分值，得到第二质检分数。

可选地，用户可根据正则表达式生成正则模板的标签。

为了能够根据用户选定训练数据后训练得到的nlp模型来进行语音质检，以满足用户的个性化需求，在本申请的语音识别方法的一实施例中，参见图4，还可以具体包含如下内容：

步骤s401：根据预先添加标签的样本数据对预设nlp模型进行模型训练。

步骤s402：根据经过所述模型训练后的nlp模型和所述目标音频文件，得到第三变动分值。

步骤s403：根据所述质检规则的预设基本分值和所述第三变动分值，得到第三质检分数。

可选地，所述nlp模板的标签依靠人工来打标签，根据业务经验去打标签，之后先将有标签的样本集作为训练集进行训练。将模型训练好后，将录音文本作为输入得出命中结果。

具体的，所述标签至少包括以下类型：

品质违规维度有“侮辱辱骂”标签、“威胁恐吓”标签；业务违规维度有“承诺消除不良”标签、“承诺减免”标签、“承诺可继续使用信用卡”标签、“承诺可继续借款”标签、“承诺可以分期”标签、“法律应用错误”标签、“无效通时”标签、“私收现金风险”标签、“催收名义违规”标签、“冒充公检法”标签、“告知第三方债务人欠款金额”标签、“告知第三方债务人身份证号”标签、“告知第三方债务人其他信息”标签、“催收第三方”标签；负面风险维度有“挑衅公务人员”标签、“引导债务人或第三方投诉”标签、“引导客户实施违规行为”标签、“信息来源说明不当”标签、“对债权方负面评价”标签；话术流程维度有“核实对方身份”标签、“描述借款信息”标签、“表明自己身份”标签、“询问欠款原因”标签、“约定下次沟通时间”标签、“询问筹款状态”标签、“约定还款时间”标签、“要求限时还款”标签、“核实预留信息”标签、“询问最新信息”标签、“询问工作单位”标签、“确认朋友电话”标签、“询问紧急联系人信息”标签；施压话术维度有“个人信息”标签、“诉讼处置”标签、“仲裁处置”标签、“社交影响”标签、“生活影响”标签、“工作影响”标签。

为了能够个性化、可配置化的进行语音识别，并能提升语音识别的准确性，本申请提供一种用于实现所述语音识别方法的全部或部分内容的语音识别装置的实施例，参见图5，所述语音识别装置具体包含有如下内容：

目标音频文件获取模块10，用于获取目标音频文件。

策略集质检模块20，用于根据预设策略集中各策略对应的质检规则，得到所述目标音频文件对应的质检分数。

质检结果确定模块30，用于根据所述质检分数和预设质检阈值，确定所述目标音频文件的质检结果。

从上述描述可知，本申请实施例提供的语音识别装置，能够通过获取目标音频文件；根据预设策略集中各策略对应的质检规则，得到所述目标音频文件对应的质检分数；根据所述质检分数和预设质检阈值，确定所述目标音频文件的质检结果，能够个性化、可配置化的进行语音识别，并能提升语音识别的准确性。

为了能够根据用户自定义的关键词、用户自定义的正则匹配规则以及用户选定训练数据后训练得到的nlp模型来进行语音质检，以满足用户的个性化需求，在本申请的语音识别装置的一实施例中，参见图6，所述策略集质检模块20包括：

关键词模板质检单元21，用于判断所述目标音频文件是否匹配所述质检规则中的预设关键词模板，若匹配，则获取对应的第一变动分值。

第一质检分数确定单元22，用于根据所述质检规则的预设基本分值和所述第一变动分值，得到第一质检分数。

正则模板质检单元23，用于判断所述目标音频文件是否匹配所述质检规则中的预设正则模板，若匹配，则获取对应的第二变动分值。

第二质检分数确定单元24，用于根据所述质检规则的预设基本分值和所述第二变动分值，得到第二质检分数。

nlp模型训练单元25，用于根据预先添加标签的样本数据对预设nlp模型进行模型训练。

nlp模型质检单元26，用于根据经过所述模型训练后的nlp模型和所述目标音频文件，得到第三变动分值。

第三质检分数确定单元27，用于根据所述质检规则的预设基本分值和所述第三变动分值，得到第三质检分数。

从硬件层面来说，为了能够个性化、可配置化的进行语音识别，并能提升语音识别的准确性，本申请提供一种用于实现所述语音识别方法中的全部或部分内容的电子设备的实施例，所述电子设备具体包含有如下内容：

处理器(processor)、存储器(memory)、通信接口(communicationsinterface)和总线；其中，所述处理器、存储器、通信接口通过所述总线完成相互间的通信；所述通信接口用于实现语音识别装置与核心业务系统、用户终端以及相关数据库等相关设备之间的信息传输；该逻辑控制器可以是台式计算机、平板电脑及移动终端等，本实施例不限于此。在本实施例中，该逻辑控制器可以参照实施例中的语音识别方法的实施例，以及语音识别装置的实施例进行实施，其内容被合并于此，重复之处不再赘述。

可以理解的是，所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(pda)、车载设备、智能穿戴设备等。其中，所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。

在实际应用中，语音识别方法的部分可以在如上述内容所述的电子设备侧执行，也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力，以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成，所述客户端设备还可以包括处理器。

上述的客户端设备可以具有通信模块(即通信单元)，可以与远程的服务器进行通信连接，实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器，其他的实施场景中也可以包括中间平台的服务器，例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备，也可以包括多个服务器组成的服务器集群，或者分布式装置的服务器结构。

图7为本申请实施例的电子设备9600的系统构成的示意框图。如图7所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图7是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

一实施例中，语音识别方法功能可以被集成到中央处理器9100中。其中，中央处理器9100可以被配置为进行如下控制：

步骤s101：获取目标音频文件。

步骤s102：根据预设策略集中各策略对应的质检规则，得到所述目标音频文件对应的质检分数。

步骤s103：根据所述质检分数和预设质检阈值，确定所述目标音频文件的质检结果。

从上述描述可知，本申请实施例提供的电子设备，通过获取目标音频文件；根据预设策略集中各策略对应的质检规则，得到所述目标音频文件对应的质检分数；根据所述质检分数和预设质检阈值，确定所述目标音频文件的质检结果，能够个性化、可配置化的进行语音识别，并能提升语音识别的准确性。

在另一个实施方式中，语音识别装置可以与中央处理器9100分开配置，例如可以将语音识别装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现语音识别方法功能。

如图7所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图7中所示的所有部件；此外，电子设备9600还可以包括图7中没有示出的部件，可以参考现有技术。

如图7所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为lcd显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(rom)、随机存取存储器(ram)、sim卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为eprom等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的语音识别方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的语音识别方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

步骤s101：获取目标音频文件。

步骤s102：根据预设策略集中各策略对应的质检规则，得到所述目标音频文件对应的质检分数。

步骤s103：根据所述质检分数和预设质检阈值，确定所述目标音频文件的质检结果。

从上述描述可知，本申请实施例提供的计算机可读存储介质，通过获取目标音频文件；根据预设策略集中各策略对应的质检规则，得到所述目标音频文件对应的质检分数；根据所述质检分数和预设质检阈值，确定所述目标音频文件的质检结果，能够个性化、可配置化的进行语音识别，并能提升语音识别的准确性。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：崔晶晶;左琦
技术所有人：集奥聚合(北京)人工智能科技有限公司
我是此专利的发明人

上一篇：一种高强度钢低温超高周疲劳寿命预测方法与流程
上一篇：隔热密封的容器的制作方法