语种识别方法、装置、电子设备和介质与流程

文档序号：31721915发布日期：2022-10-04 23:30阅读：169来源：国知局

技术简介：
本专利针对控制设备中控制命令语种识别准确率低的问题，提出通过结合唤醒词与控制命令的语种关联权重函数，利用混合语言模型和端点检测技术，提升识别准确率。方法包括获取唤醒词和控制命令的语种得分，基于时间关联性计算权重系数，最终融合得分确定目标语种，有效提高多语种环境下的识别可靠性。
关键词：语种识别,权重函数

1.本公开涉及语音识别技术领域，尤其涉及一种语种识别方法、装置、电子设备和介质。

背景技术：

2.语种识别是通过计算机识别出语音数据所属语言种类的过程。在工作和日常生活中，多语种混说的现象越来越常见，而这给语种识别带了困难。尤其是在远场语音交互过程中，用户通过特定的唤醒词将设备成功唤醒后，再根据相应的控制命令与设备进行识别交互。
3.现有技术中，语种识别主要分为三个过程，首先根据语音信号进行特征提取，然后建立语种识别模型，最后是对测试语音进行语种判决。传统的语种识别系统包括基于隐式马尔可夫模型(hidden markov model，hmm)等机器学习的语种识别、基于音素识别器的语种识别以及基于底层声学特征的语种识别等。但是，现有技术中的语种识别局限于声学的研究和建模的不足，导致语种识别的准确率有待提高。

技术实现要素：

4.为了解决上述技术或者至少部分地解决上述技术问题，本公开提供了一种语种识别方法、装置、电子设备和介质，可以对目标控制设备的控制命令对应的音频数据进行语种识别，且语种识别的准确率较高。
5.为了实现上述目的，本公开实施例提供的技术方案如下：
6.第一方面，本公开提供了一种语种识别方法，该方法包括：
7.获取第一音频数据分别属于不同的候选语种的第一得分，以及第二音频数据分别属于不同的候选语种的第二得分，所述第一音频数据为目标控制设备的唤醒词对应的音频数据，所述第二音频数据为所述目标控制设备的控制命令对应的音频数据；
8.根据所述第一音频数据和所述第二音频数据的语种关联权重函数、所述第一得分以及所述第二得分，确定所述第二音频数据分别属于不同的候选语种的目标得分；
9.基于所述目标得分确定所述第二音频数据对应的目标语种。
10.作为本公开实施例一种可选的实施方式，所述根据所述第一音频数据和所述第二音频数据的语种关联权重函数、所述第一得分以及所述第二得分，确定所述第二音频数据分别属于不同的候选语种的目标得分，包括：
11.根据所述第一音频数据对应的结束时间、所述第二音频数据对应的起始时间以及所述语种关联权重函数，确定所述第一音频数据和所述第二音频数据的语种关联权重系数；
12.基于所述语种关联权重系数、所述第一得分以及所述第二得分，确定所述第二音频数据分别属于不同的候选语种的目标得分。
13.作为本公开实施例一种可选的实施方式，所述根据所述第一音频数据对应的结束
时间、所述第二音频数据对应的起始时间以及所述语种关联权重函数，确定所述第一音频数据和所述第二音频数据的语种关联权重系数之前，还包括：
14.基于端点检测方法，确定所述第一音频数据对应的结束时间和所述第二音频数据对应的起始时间。
15.作为本公开实施例一种可选的实施方式，所述基于所述语种关联权重系数、所述第一得分以及所述第二得分，确定所述第二音频数据分别属于不同的候选语种的目标得分，包括：
16.将所述第一得分与所述语种关联权重系数相乘，得到对应的乘积；
17.将所述乘积与所述第二得分相加，得到所述第二音频数据分别属于不同的候选语种的目标得分。
18.作为本公开实施例一种可选的实施方式，所述获取第一音频数据分别属于不同的候选语种的第一得分，包括：
19.对所述第一音频数据进行预处理，得到处理后的音频信号；
20.对所述音频信号进行特征提取，得到对应的第一梅尔频率倒谱系数特征；
21.将所述第一梅尔频率倒谱系数特征输入至混合语言语种识别模型中，得到所述第一音频数据分别属于不同的候选语种的第一得分。
22.作为本公开实施例一种可选的实施方式，所述混合语言语种识别模型通过以下方式训练得到：
23.获取训练集样本，所述训练集样本中包含多个不同语种的音频样本；
24.对所述音频样本进行特征提取，得到对应的第二梅尔频率倒谱系数特征；
25.将所述第二梅尔频率倒谱系数特征输入至混合语言语种识别模型中进行训练，直到所述混合语言语种识别模型收敛。
26.作为本公开实施例一种可选的实施方式，所述根据所述第一音频数据和所述第二音频数据的语种关联权重函数、所述第一得分以及所述第二得分，确定所述第二音频数据分别属于不同的候选语种的目标得分之前，还包括：
27.确定权重预测阶数和权重预测系数；
28.基于所述权重预测阶数和所述权重预测系数，确定所述第一音频数据和所述第二音频数据的语种关联权重函数。
29.第二方面，本公开提供了一种语种识别装置，该装置包括：
30.预测得分确定模块，用于获取第一音频数据分别属于不同的候选语种的第一得分，以及第二音频数据分别属于不同的候选语种的第二得分，所述第一音频数据为目标控制设备的唤醒词对应的音频数据，所述第二音频数据为所述目标控制设备的控制命令对应的音频数据；
31.目标得分确定模块，用于根据所述第一音频数据和所述第二音频数据的语种关联权重函数、所述第一得分以及所述第二得分，确定所述第二音频数据分别属于不同的候选语种的目标得分；
32.目标语种确定模块，用于基于所述目标得分确定所述第二音频数据对应的目标语种。
33.作为本公开实施例一种可选的实施方式，所述目标得分确定模块，包括：
34.系数确定单元，用于根据所述第一音频数据对应的结束时间、所述第二音频数据对应的起始时间以及所述语种关联权重函数，确定所述第一音频数据和所述第二音频数据的语种关联权重系数；
35.得分确定单元，用于基于所述语种关联权重系数、所述第一得分以及所述第二得分，确定所述第二音频数据分别属于不同的候选语种的目标得分。
36.作为本公开实施例一种可选的实施方式，所述装置还包括：时间确定模块，用于：
37.在根据所述第一音频数据对应的结束时间、所述第二音频数据对应的起始时间以及所述语种关联权重函数，确定所述第一音频数据和所述第二音频数据的语种关联权重系数之前，基于端点检测方法，确定所述第一音频数据对应的结束时间和所述第二音频数据对应的起始时间。
38.作为本公开实施例一种可选的实施方式，所述得分确定单元，具体用于：
39.将所述第一得分与所述语种关联权重系数相乘，得到对应的乘积；
40.将所述乘积与所述第二得分相加，得到所述第二音频数据分别属于不同的候选语种的目标得分。
41.作为本公开实施例一种可选的实施方式，所述预测得分确定模块，包括：
42.第一得分确定单元，用于：
43.对所述第一音频数据进行预处理，得到处理后的音频信号；
44.对所述音频信号进行特征提取，得到对应的第一梅尔频率倒谱系数特征；
45.将所述第一梅尔频率倒谱系数特征输入至混合语言语种识别模型中，得到所述第一音频数据分别属于不同的候选语种的第一得分；
46.第二得分确定单元，用于：
47.获取第二音频数据分别属于不同的候选语种的第二得分。
48.作为本公开实施例一种可选的实施方式，所述混合语言语种识别模型通过以下方式训练得到：
49.获取训练集样本，所述训练集样本中包含多个不同语种的音频样本；
50.对所述音频样本进行特征提取，得到对应的第二梅尔频率倒谱系数特征；
51.将所述第二梅尔频率倒谱系数特征输入至混合语言语种识别模型中进行训练，直到所述混合语言语种识别模型收敛。
52.作为本公开实施例一种可选的实施方式，所述装置还包括：函数确定模块，用于：
53.在根据所述第一音频数据和所述第二音频数据的语种关联权重函数、所述第一得分以及所述第二得分，确定所述第二音频数据分别属于不同的候选语种的目标得分之前，确定权重预测阶数和权重预测系数；
54.基于所述权重预测阶数和所述权重预测系数，确定所述第一音频数据和所述第二音频数据的语种关联权重函数。
55.第三方面，本公开还提供了一种电子设备，包括：
56.一个或多个处理器；
57.存储装置，用于存储一个或多个程序，
58.当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本公开实施例中的任一种所述的语种识别方法。
59.第四方面，本公开还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本公开实施例中的任一种所述的语种识别方法。
60.本公开实施例提供的技术方案与现有技术相比具有如下优点：首先获取第一音频数据分别属于不同的候选语种的第一得分，以及第二音频数据分别属于不同的候选语种的第二得分，第一音频数据为目标控制设备的唤醒词对应的音频数据，第二音频数据为目标控制设备的控制命令对应的音频数据，然后根据第一音频数据和第二音频数据的语种关联权重函数、第一得分以及第二得分，确定第二音频数据分别属于不同的候选语种的目标得分，最后基于目标得分确定第二音频数据对应的目标语种，通过上述方法能够对目标控制设备的控制命令对应的音频数据进行语种识别，且语种识别的准确率较高，有利于提高用户的使用体验。
附图说明
61.此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
62.为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。
63.图1为本公开实施例中一种语种识别方法的应用场景示意图；
64.图2a为根据本公开一个或多个实施例的电子设备的硬件配置框图；
65.图2b为根据本公开一个或多个实施例的电子设备的软件配置示意图；
66.图2c为根据本公开一个或多个实施例的控制设备中包含的应用程序的图标控件界面显示示意图；
67.图3a为本公开实施例提供的一种语种识别方法的流程示意图；
68.图3b为本公开实施例提供的一种语种识别方法的原理示意图；
69.图4a为本公开实施例提供的另一种语种识别方法的流程示意图；
70.图4b为本公开实施例提供的另一种语种识别方法的原理示意图；
71.图4c为本公开实施例提供的一种第一音频数据和第二音频数据之间无时间差的示意图；
72.图4d为本公开实施例提供的一种第一音频数据和第二音频数据之间有时间差的示意图；
73.图5a为本公开实施例提供的又一种语种识别方法的流程示意图；
74.图5b为本公开实施例提供的确定第一音频数据对应的结束时间的原理示意图；
75.图5c为本公开实施例提供的基于短时平均幅度和过零率的端点检测方法的示意图；
76.图6a为本公开实施例提供的一种确定第一得分的原理示意图；
77.图6b为本公开实施例提供的混合语言语种识别模型的训练过程示意图；
78.图7a为本公开实施例中一种确定语种关联权重函数的原理结示意图；
79.图7b为本公开实施例中一种语种关联权重函数的示意图；
80.图8a是本公开实施例提供的一种语种识别装置的结构示意图；
81.图8b是本公开实施例语种识别装置中目标得分确定模块的结构示意图；
82.图9是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
83.为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。
84.在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。
85.本公开中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述对象的特定顺序。例如，第一得分和第二得分等是用于区别不同的得分，而不是用于描述得分的特定顺序。
86.随着科技的不断发展，各种控制设备不断趋于智能化，能够和用户进行语音交互，为人们的生活带来了极大的便利。语种识别是通过分析控制设备获取到的音频，根据该音频的特征判定其所属语言种类的过程。自动语种识别的发展，在一定程度上解决了大规模跨语言语音识别的问题，一方面面向使用不同语种的交互对象，使得双方对不属于自己本土的语种有了初步的判别，另一方面面向需要使用相同语种的交互对象，控制设备或双方需要通过语种种类的接口，进行相应语种的语音合成播报和显示反馈。随着智能语音的不断发展，人们对各种语音交互场景的需求越来越多，要求也越来越高，自动语种识别的准确率在交互中显得愈发的重要。因此，语种识别有很重要的研究价值。尤其是在用户与控制设备的远场语音交互过程中，通过与控制设备的唤醒词所对应的音频数据能够将该控制设备成功唤醒，然后下发控制命令，以实现相应的功能。
87.现有技术中，对控制设备的控制命令对应的音频数据进行语种识别，通常是通过传统的语种识别系统进行识别，但是，该方法局限于声学的研究和建模的不足，导致语种识别的准确率有待提高，在语种识别不准确的情况下，会降低用户的使用体验。
88.由上可知，现有的语种识别方法准确率不高，因此，需要一种识别准确率较高的语种识别方法。
89.图1为本公开实施例中一种语种识别方法的应用场景示意图。如图1所示，假设在智能家居场景中的控制设备包括智能音箱100、智能洗衣机101和智能显示设备102，假设要对某个控制设备的控制命令对应的音频数据进行语种识别，可以先获取该控制设备的唤醒词对应的音频数据分别属于不同的候选语种的第一得分，以及该控制设备的控制命令对应的音频数据分别属于不同的候选语种的第二得分，然后根据唤醒词对应的音频数据和控制命令对应的音频数据的语种关联权重函数、第一得分以及第二得分，确定控制命令对应的音频数据分别属于不同的候选语种的目标得分，最后基于目标得分，将目标得分中分数最高的目标得分对应的候选语种确定为该控制设备的控制命令对应的音频数据所属的目标语种。
90.上述过程中，将唤醒词的音频数据对应的第一得分和唤醒词对应的音频数据和控制命令对应的音频数据的语种关联权重函数这两个参数增加到语种识别的过程中，由于唤
醒词通常易于识别且唤醒词和控制命令之间的语种具有关联性，因此，能够有效提高语种识别的准确率。
91.需要说明的是：智能家居场景是其中的一个应用场景，本实施例对此不做具体限制。智能家居场景中可以包含多种控制设备，图1只是进行示例性说明，不对控制设备的种类和个数进行具体限制。
92.本公开实施例提供的语种识别方法，可以基于电子设备或者电子设备中的功能模块或者功能实体实现。
93.其中，电子设备可以为个人计算机(personal computer，pc)、服务器、手机、平板电脑、笔记本电脑、大型计算机等，本公开实施例对此不作具体限定。
94.示例性的，图2a为根据本公开一个或多个实施例的电子设备的硬件配置框图。如图2a所示，电子设备包括：调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口280中的至少一种。其中，控制器250包括中央处理器，视频处理器，音频处理器，图形处理器，ram，rom，用于输入/输出的第一接口至第n接口。显示器260可为液晶显示器、oled显示器、触控显示器以及投影显示器中的至少一种，还可以为一种投影装置和投影屏幕。调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及epg音视频数据信号。通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。电子设备可以通过通信器220与服务器203或者本地控制设备205建立控制信号和数据信号的发送和接收。检测器230用于采集外部环境或与外部交互的信号。控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。用户接口280可用于接收控制装置(如：红外遥控器等)的控制信号。
95.在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制电子设备的工作和响应用户的操作。控制器250控制电子设备的整体操作。用户可在显示器260上显示的图形用户界面(gui)输入用户命令，则用户输入接口通过图形用户界面(gui)接收用户输入命令。或者，用户可通过输入特定的声音或手势进行输入用户命令，则用户输入接口通过传感器识别出声音或手势，来接收用户输入命令。
96.在一些实施例中，“用户界面”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面常用的表现形式是图形用户界面(graphic user interface，简称gui)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的一个图标、窗口和控件等界面元素，其中控件可以包括图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、widget等可视的界面元素中的至少一种。
97.图2b为根据本公开一个或多个实施例的电子设备的软件配置示意图，如图2b所示，将系统分为四层，从上至下分别为应用程序(applications)层(简称“应用层”)，应用程序框架(application framework)层(简称“框架层”)，安卓运行时(android runtime)和系统库层(简称“系统运行库层”)，以及内核层。
98.在一些实施例中，应用程序层中运行有至少一个应用程序，这些应用程序可以是
操作系统自带的窗口(window)程序、系统设置程序或时钟程序等；也可以是第三方开发者所开发的应用程序。在具体实施时，应用程序层中的应用程序包括但不限于以上举例。
99.在一些实施例中，系统运行库层为上层即框架层提供支撑，当框架层被使用时，安卓操作系统会运行系统运行库层中包含的c/c++库以实现框架层要实现的功能。
100.在一些实施例中，内核层是硬件和软件之间的层，至少包含以下驱动中的至少一种：音频驱动、显示驱动、蓝牙驱动、摄像头驱动、wifi驱动、usb驱动、hdmi驱动、传感器驱动(如指纹传感器，温度传感器，压力传感器等)、以及电源驱动等。
101.图2c为根据本公开一个或多个实施例的控制设备(主要为智能播放设备，例如智能电视、数字影院系统或者影音服务器等)中包含的应用程序的图标控件界面显示示意图，如图2c中所示，应用程序层包含至少一个应用程序可以在显示器中显示对应的图标控件，如：直播电视应用程序图标控件、视频点播vod应用程序图标控件、媒体中心应用程序图标控件、应用程序中心图标控件、游戏应用图标控件等。直播电视应用程序，可以通过不同的信号源提供直播电视。视频点播vod应用程序，可以提供来自不同存储源的视频。不同于直播电视应用程序，视频点播提供来自某些存储源的视频显示。媒体中心应用程序，可以提供各种多媒体内容播放的应用程序。应用程序中心，可以提供储存各种应用程序。
102.本技术实施例提供的语种识别方法可以基于上述电子设备实现。
103.本公开实施例提供的语种识别过程，首先获取第一音频数据分别属于不同的候选语种的第一得分，以及第二音频数据分别属于不同的候选语种的第二得分，第一音频数据为目标控制设备的唤醒词对应的音频数据，第二音频数据为目标控制设备的控制命令对应的音频数据，然后根据第一音频数据和第二音频数据的语种关联权重函数、第一得分以及第二得分，确定第二音频数据分别属于不同的候选语种的目标得分，最后基于目标得分确定第二音频数据对应的目标语种，通过上述方法能够对目标控制设备的控制命令对应的音频数据进行语种识别，且语种识别的准确率较高，有利于提高用户的使用体验。
104.为了更加详细的说明本方案，以下将以示例性的方式结合图3a进行说明，可以理解的是，图3a中所涉及的步骤在实际实现时可以包括更多的步骤，或者更少的步骤，并且这些步骤之间的顺序也可以不同，以能够实现本技术实施例中提供的语种识别方法为准。
105.图3a为本公开实施例提供的一种语种识别方法的流程示意图，图3b为本公开实施例提供的一种语种识别方法的原理示意图。本实施例可适用于对控制设备的控制命令所对应的音频数据进行语种识别的情况。本实施例方法可由语种识别装置来执行，该装置可采用硬件/或软件的方式来实现，并可配置于电子设备中。
106.如图3a所示，该方法具体包括如下步骤：
107.s310，获取第一音频数据分别属于不同的候选语种的第一得分，以及第二音频数据分别属于不同的候选语种的第二得分。
108.其中，第一音频数据为目标控制设备的唤醒词对应的音频数据。唤醒词可以为目标控制设备的标识信息，例如控制设备的名称。第二音频数据为所述目标控制设备的控制命令对应的音频数据。控制命令可以为用户对目标控制设备的控制意图，即：希望目标控制设备做的事情，例如：播放xx的音乐、播放xx电视剧或者打开xx控制设备的开关等。目标控制设备可以为能够与用户进行语音交互的任意控制设备。候选语种可以为任意的语种，例如可以为中文、英文或者德文等不同国家的语种，还可以为普通话、方言等语种。第一得分
用于衡量第一音频数据属于某种候选语种的可能性大小。第二得分用于衡量第二音频数据属于某种候选语种的可能性大小。第一得分的个数与候选语种的个数相同。优选的，第二得分的个数与第一得分的个数相同，且第一得分对应的候选语种与第二得分对应的候选语种也相同。
109.为了对目标控制设备的控制命令对应的音频数据进行语种识别，本实施例中先获取第一音频数据分别属于不同的候选语种的第一得分，以及第二音频数据分别属于不同的候选语种的第二得分，具体可以通过相应的语种识别方法得到第一得分和第二得分，例如，利用循环神经网络实现语种识别、朴素贝叶斯分类法或者多类别逻辑回归法等，本实施例对语种识别方法不做具体限定。
110.s320，根据第一音频数据和第二音频数据的语种关联权重函数、第一得分以及第二得分，确定第二音频数据分别属于不同的候选语种的目标得分。
111.其中，语种关联权重函数可以为预先设定好的表征第一音频数据和第二音频数据的语种关联关系的表达式，还可以视具体情况而定，本实施例对此不做具体限定。
112.在得到第一得分和第一得分之后，通过相应的加权求和方法，对第一音频数据属于某个候选语种的第一得分、第二音频数据属于同一候选语种的第二得分以及语种关联权重函数进行加权求和，能够确定第二音频数据分别属于不同的候选语种的目标得分，该目标得分与第一得分和第二得分有关。
113.示例性的，假设第一音频数据属于候选语种1的第一得分为a1，第二音频数据属于候选语种1的第二得分为b1；第一音频数据属于候选语种2的第一得分为a2，第二音频数据属于候选语种2的第二得分为b2；第一音频数据属于候选语种3的第一得分为a3，第二音频数据属于候选语种3的第二得分为b3，那么根据语种关联权重函数、第一得分以及对应的第二得分，能够计算出第二音频数据属于候选语种1的目标得分为c1，第二音频数据属于候选语种2的目标得分为c2以及第二音频数据属于候选语种3的目标得分为c3。
114.s330，基于目标得分确定第二音频数据对应的目标语种。
115.其中，目标语种为第二音频数据所属的语种。
116.由于第一得分和第二得分与不同的候选语种对应，第一得分和第二得分可能有多个，那么目标得分可能也有多个。因此，在得到目标得分之后，目标得分中分数最高的目标得分对应的候选语种则为第二音频数据所对应的目标语种。
117.示例性的，假设第二音频数据属于候选语种1的目标得分为c1，第二音频数据属于候选语种2的目标得分为c2以及第二音频数据属于候选语种3的目标得分为c3，比较c1、c2和c3的大小，假设c3最大，则c3对应的候选语种3则为第二音频数据所对应的目标语种。
118.本实施例中，通过上述s310-s330，能够对目标控制设备的控制命令对应的音频数据进行语种识别，由于唤醒词通常易于识别且唤醒词和控制命令之间的语种具有关联性，因此，能够有效提高语种识别的准确率以及用户的使用体验。
119.图4a为本公开实施例提供的另一种语种识别方法的流程示意图，图4b为本公开实施例提供的另一种语种识别方法的原理示意图。本实施例是在上述实施例的基础上进一步扩展与优化。可选的，本实施例主要对确定第二音频数据分别属于不同的候选语种的目标得分的过程进行说明。
120.如图4a所示，该方法具体包括如下步骤：
121.s410，获取第一音频数据分别属于不同的候选语种的第一得分，以及第二音频数据分别属于不同的候选语种的第二得分。
122.s420，根据第一音频数据对应的结束时间、第二音频数据对应的起始时间以及语种关联权重函数，确定第一音频数据和第二音频数据的语种关联权重系数。
123.其中，结束时间可以理解为第一音频数据的语音信号结束时刻。起始时间可以理解为第二音频数据的语音信号开始时刻。
124.通常情况下，根据用户在语言表达时的客观习惯，唤醒词和控制命令所使用的语种具有一定的关联度，语种关联权重函数即用来表征该关联度。用户和控制设备进行语音交互时，唤醒词和控制命令之间的时间间隔(也称时间差)通常比较短，这种关联度随着两者之间时间间隔的变长会降低，并在达到控制设备唤醒之后的阈值时间而降到最低，因此，语种关联权重函数与唤醒词和控制命令之间的时间间隔有关。阈值时间可以为设定好的数值，也可以视具体情况而定，本实施例对此不做限定。
125.由于语种关联权重函数是与唤醒词和控制命令之间的时间间隔有关的函数，因此根据第一音频数据对应的结束时间和第二音频数据对应的起始时间，能够确定出二者的时间间隔，将该时间间隔代入语种关联权重函数中，就能够确定出第一音频数据和第二音频数据的语种关联权重系数。
126.s430，基于语种关联权重系数、第一得分以及第二得分，确定第二音频数据分别属于不同的候选语种的目标得分。
127.在得到第一音频数据和第二音频数据的语种关联权重系数之后，基于该语种关联权重系数、第一得分以及对应的第二得分，就能够计算出第二音频数据分别属于不同的候选语种的目标得分。
128.需要说明的是：通常情况下第一得分、第二得分以及目标得分是针对同一候选语种而言，即：基于同一候选语种的第一得分、第二得分以及语种关联权重系数，确定第二音频数据属于同一候选语种的目标得分。
129.s440，基于所述目标得分确定所述第二音频数据对应的目标语种。
130.本实施例中，通过上述方法确定目标得分简单高效，有利于后续确定第二音频数据对应的目标语种。
131.在一些实施例中，可选的，所述基于所述语种关联权重系数、所述第一得分以及所述第二得分，确定所述第二音频数据分别属于不同的候选语种的目标得分，包括：
132.将所述第一得分与所述语种关联权重系数相乘，得到对应的乘积；
133.将所述乘积与所述第二得分相加，得到所述第二音频数据分别属于不同的候选语种的目标得分。
134.示例性的，假设第一音频数据属于候选语种1的第一得分为a1，第二音频数据属于候选语种1的第二得分为b1，语种关联权重系数为a，那么根据上述方法可以确定第二音频数据属于候选语种1的目标得分y1为：
135.y1＝a1*a+b1
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
136.本实施例中，通过上述方法能够将唤醒词对应的语种和控制命令对应的语种关联起来，有利于提高语种识别的准确率。
137.示例性的，图4c为本公开实施例提供的一种第一音频数据和第二音频数据之间无
时间差的示意图。如图4c所示：第一音频数据和第二音频数据之间没有时间差，也即：第一音频数据和第二音频数据的语种关联权重系数较大。
138.示例性的，图4d为本公开实施例提供的一种第一音频数据和第二音频数据之间有时间差的示意图。如图4d所示：第一音频数据和第二音频数据之间有时间差，并且随着时间差的增大，第一音频数据和第二音频数据的语种关联权重系数会减小。
139.图5a为本公开实施例提供的又一种语种识别方法的流程示意图。本实施例是在上述实施例的基础上进一步扩展与优化。可选的，本实施例主要对确定第一音频数据对应的结束时间和第二音频数据对应的起始时间的过程进行说明。
140.如图5a所示，该方法具体包括如下步骤：
141.s510，获取第一音频数据分别属于不同的候选语种的第一得分，以及第二音频数据分别属于不同的候选语种的第二得分。
142.s520，基于端点检测方法，确定第一音频数据对应的结束时间和第二音频数据对应的起始时间。
143.其中，端点检测方法能够区分语音信号的开始时间和结束时间。
144.端点检测方法可以有多种，本实施例主要对基于短时平均幅度和过零率的双门限端点检测方法进行说明，其过程如下所示：
145.1、对待检测语音信号进行预处理，其中预处理可以包括：量化、采样、预滤波、预加重以及分帧加窗处理等，该预处理过程为常用的信号处理方法，此处不再赘述；
146.2、绘制该待检测语音信号对应的短时平均幅度曲线图和过零率曲线图，并给短时平均幅度设置高门限值(ah)和低门限值(a
l
)，给过零率设置高门限值(bh)和低门限值(b
l
)，如果短时平均幅度或者过零率任意一个超过了对应的高门限值，则判断该段音频信号是语音部分，并根据超过了对应的高门限值时所对应的时间能够确定待检测语音信号的初始起始位置和初始结束位置；
147.3、在确定的初始起始位置和初始结束位置所在的端点分别向前后两侧逐帧计算，如果短时平均幅度和过零率任意一个超过了对应的低门限值，则判断该帧信号仍为语音信号，其它帧信号判断为无声段，端点检测完成，能够确定待检测语音信号的起始位置和结束位置。
148.基于上述端点检测方法，将第一音频数据和第二音频数据分别作为待检测语音信号，能够确定出第一音频数据对应的结束时间和第二音频数据对应的起始时间。
149.s530，根据第一音频数据对应的结束时间、第二音频数据对应的起始时间以及语种关联权重函数，确定第一音频数据和第二音频数据的语种关联权重系数。
150.s540，基于语种关联权重系数、第一得分以及第二得分，确定第二音频数据分别属于不同的候选语种的目标得分。
151.s550，基于所述目标得分确定所述第二音频数据对应的目标语种。
152.示例性的，图5b为本公开实施例提供的确定第一音频数据对应的结束时间的原理示意图，图5b对应的步骤已经在上述实施例中描述过，为了避免重复，此处不再赘述。
153.示例性的，图5c为本公开实施例提供的基于短时平均幅度和过零率的端点检测方法的示意图，如图5c所示，通过上述端点检测方法，可以确定待检测语音信号对应的初始起始位置为h1，初始结束位置为h2，待检测语音信号的起始位置为h3，结束位置为h4。
154.在一些实施例中，可选的，所述获取第一音频数据分别属于不同的候选语种的第一得分，包括：
155.对所述第一音频数据进行预处理，得到处理后的音频信号；
156.对所述音频信号进行特征提取，得到对应的第一梅尔频率倒谱系数特征；
157.将所述第一梅尔频率倒谱系数特征输入至混合语言语种识别模型中，得到所述第一音频数据分别属于不同的候选语种的第一得分。
158.其中，混合语言语种识别模型可以为能够识别不同语种的唤醒词的高斯混合语言唤醒语种识别模型，该模型能够计算出第一音频数据分别属于不同的候选语种的似然得分，即第一得分。
159.具体的，对所述第一音频数据进行预处理，即：对第一音频数据进行量化、采样、预滤波、预加重以及分帧加窗等处理，得到处理后的音频信号；对该音频信号进行特征提取，即：首先对该音频信号进行快速傅里叶变换得到对应的频谱信号，接着将该频谱信号通过梅尔(mel)滤波器组得到mel频谱，最后对mel频谱进行倒谱分析，就得到了对应的第一梅尔频率倒谱系数(mel frequency cepstrum coefficient，mfcc)特征；将该第一mfcc特征输入至混合语言语种识别模型中，能够得到第一音频数据分别属于不同的候选语种的第一得分。
160.示例性的，图6a为本公开实施例提供的一种确定第一得分的原理示意图，图6a对应的步骤已经在上述实施例中描述过，为了避免重复，此处不再赘述。
161.本实施例中，通过上述方法能够确定出第一音频数据分别属于不同的候选语种的第一得分，便于后续确定目标得分。
162.在一些实施例中，可选的，所述获取第二音频数据分别属于不同的候选语种的第二得分，包括：
163.对所述第一音频数据进行预处理，得到处理后的目标音频信号；
164.将目标音频信号输入至预设语种识别模型中，得到第二音频数据分别属于不同的候选语种的第二得分。
165.其中，预设语种识别模型可以为支持向量机(support vector machine，svm)多分类置信度打分模型，也可以为其他模型，本实施例对此不做限定。
166.本实施例中，通过上述方法能够确定出第二音频数据分别属于不同的候选语种的第二得分，便于后续确定目标得分。
167.在一些实施例中，可选的，所述混合语言语种识别模型通过以下方式训练得到：
168.获取训练集样本，所述训练集样本中包含多个不同语种的音频样本；
169.对所述音频样本进行特征提取，得到对应的第二梅尔频率倒谱系数特征；
170.将所述第二梅尔频率倒谱系数特征输入至混合语言语种识别模型中进行训练，直到所述混合语言语种识别模型收敛。
171.其中，训练集样本可以理解为预先收集的大量针对不同控制设备的唤醒词所对应的不同语种的音频样本，例如某个控制设备的唤醒词所对应的汉语音频样本、英语音频样本以及德语音频样本等，其中汉语音频样本可以包括普通话音频样本以及方言音频样本等。
172.获取训练集样本，对训练集样本中包含的多个不同语种的音频样本进行预处理和
特征提取(上述实施例中已经描述过)，能够得到每个音频样本分别对应的第二mfcc特征，将第二mfcc特征输入至混合语言语种识别模型中进行训练，直到模型的精度符合要求，则确定混合语言语种识别模型收敛。
173.图6b为本公开实施例提供的混合语言语种识别模型的训练过程示意图，如图6b所示，图中以音频样本1、音频样本2和音频样本3为例进行说明，且这3个音频样本分别属于不同的语种，但是音频样本可以包括多个，本实施例对此不做限定。对音频样本1进行特征提取后得到特征1，对音频样本2进行特征提取后得到特征2以及对音频样本3进行特征提取后得到特征3，具体的模型训练过程已经在上述实施例中描述过，为了避免重复，此处不再赘述。
174.本实施例中，通过上述方法训练混合语言语种识别模型，由于唤醒词简单且包含的特征较少，因此上述模型训练过程快速且高效。
175.在一些实施例中，可选的，所述根据所述第一音频数据和所述第二音频数据的语种关联权重函数、所述第一得分以及所述第二得分，确定所述第二音频数据分别属于不同的候选语种的目标得分之前，还包括：
176.确定权重预测阶数和权重预测系数；
177.基于所述权重预测阶数和所述权重预测系数，确定所述第一音频数据和所述第二音频数据的语种关联权重函数。
178.其中，权重预测阶数的值越大，语种关联权重函数越准确，相应的，随着权重预测阶数的增加，计算量也会增加，因此权重预测阶数需要为一个合适的数值，通常情况下，可以基于仿真实验方法确定。
179.具体的，通过相应的仿真实验方法确定权重预测阶数和权重预测系数，然后基于权重预测阶数和权重预测系数，能够确定出第一音频数据和第二音频数据的语种关联权重函数。
180.示例性的，语种关联权重函数可以通过下式表示：
[0181][0182]
其中，ai表示权重预测系数，n表示权重预测阶数(即最高阶数)，t表示自变量(即时间差)，y(t)表示语种关联权重函数，n为正整数。
[0183]
示例性的，图7a为本公开实施例中一种确定语种关联权重函数的原理结示意图，图7a对应的步骤已经在上述实施例中描述过，为了避免重复，此处不再赘述。
[0184]
本实施例中，通过上述方法确定语种关联权重函数，能够很好的表征第一音频数据和第二音频数据的语种关联关系，有利于后续的语种识别过程。
[0185]
示例性的，图7b为本公开实施例中一种语种关联权重函数的示意图。以权重预测阶数为1，第二样本对应的起始时间和第一样本对应的结束时间之间的时间差为0秒时，关联权重系数为b，第二样本对应的起始时间和第一样本对应的结束时间之间的时间差为a秒时，关联权重系数为c为例，可以绘制出语种关联权重函数y(t)，如图7b中的1阶对应的直线；若权重预测阶数为多阶，绘制出的语种关联权重函数y(t)如图7b中的多阶对应的曲线所示。
[0186]
其中，第一样本为某控制设备的唤醒词的音频样本，第二样本为该控制设备的控
制命令的音频样本。
[0187]
图8a是本公开实施例提供的一种语种识别装置的结构示意图，该装置配置于电子设备中，可实现本技术任意实施例所述的语种识别方法。该装置具体包括如下：
[0188]
预测得分确定模块801，用于获取第一音频数据分别属于不同的候选语种的第一得分，以及第二音频数据分别属于不同的候选语种的第二得分，所述第一音频数据为目标控制设备的唤醒词对应的音频数据，所述第二音频数据为所述目标控制设备的控制命令对应的音频数据；
[0189]
目标得分确定模块802，用于根据所述第一音频数据和所述第二音频数据的语种关联权重函数、所述第一得分以及所述第二得分，确定所述第二音频数据分别属于不同的候选语种的目标得分；
[0190]
目标语种确定模块803，用于基于所述目标得分确定所述第二音频数据对应的目标语种。
[0191]
图8b是本公开实施例语种识别装置中目标得分确定模块的结构示意图，如图8b所示，目标得分确定模块802包括：
[0192]
系数确定单元8021，用于根据所述第一音频数据对应的结束时间、所述第二音频数据对应的起始时间以及所述语种关联权重函数，确定所述第一音频数据和所述第二音频数据的语种关联权重系数；
[0193]
得分确定单元8022，用于基于所述语种关联权重系数、所述第一得分以及所述第二得分，确定所述第二音频数据分别属于不同的候选语种的目标得分。
[0194]
作为本公开实施例一种可选的实施方式，所述装置还包括：时间确定模块，用于：
[0195]
在根据所述第一音频数据对应的结束时间、所述第二音频数据对应的起始时间以及所述语种关联权重函数，确定所述第一音频数据和所述第二音频数据的语种关联权重系数之前，基于端点检测方法，确定所述第一音频数据对应的结束时间和所述第二音频数据对应的起始时间。
[0196]
作为本公开实施例一种可选的实施方式，所述得分确定单元8022，具体用于：
[0197]
将所述第一得分与所述语种关联权重系数相乘，得到对应的乘积；
[0198]
将所述乘积与所述第二得分相加，得到所述第二音频数据分别属于不同的候选语种的目标得分。
[0199]
作为本公开实施例一种可选的实施方式，所述预测得分确定模块801，包括：
[0200]
第一得分确定单元，用于：
[0201]
对所述第一音频数据进行预处理，得到处理后的音频信号；
[0202]
对所述音频信号进行特征提取，得到对应的第一梅尔频率倒谱系数特征；
[0203]
将所述第一梅尔频率倒谱系数特征输入至混合语言语种识别模型中，得到所述第一音频数据分别属于不同的候选语种的第一得分；
[0204]
第二得分确定单元，用于：
[0205]
获取第二音频数据分别属于不同的候选语种的第二得分。
[0206]
作为本公开实施例一种可选的实施方式，所述混合语言语种识别模型通过以下方式训练得到：
[0207]
获取训练集样本，所述训练集样本中包含多个不同语种的音频样本；
[0208]
对所述音频样本进行特征提取，得到对应的第二梅尔频率倒谱系数特征；
[0209]
将所述第二梅尔频率倒谱系数特征输入至混合语言语种识别模型中进行训练，直到所述混合语言语种识别模型收敛。
[0210]
作为本公开实施例一种可选的实施方式，所述装置还包括：函数确定模块，用于：
[0211]
在根据所述第一音频数据和所述第二音频数据的语种关联权重函数、所述第一得分以及所述第二得分，确定所述第二音频数据分别属于不同的候选语种的目标得分之前，确定权重预测阶数和权重预测系数；
[0212]
基于所述权重预测阶数和所述权重预测系数，确定所述第一音频数据和所述第二音频数据的语种关联权重函数。
[0213]
本公开实施例所提供的语种识别装置可执行本公开任意实施例所提供的语种识别方法，具备执行方法相应的功能模块和有益效果，为避免重复，这里不再赘述。
[0214]
本公开实施例提供一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本公开实施例中的任一种所述的语种识别方法。
[0215]
图9是本公开实施例提供的一种电子设备的结构示意图。如图9所示，该电子设备包括处理器910和存储装置920；电子设备中处理器910的数量可以是一个或多个，图9中以一个处理器910为例；电子设备中的处理器910和存储装置920可以通过总线或其他方式连接，图9中以通过总线连接为例。
[0216]
存储装置920作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本公开实施例中的语种识别方法对应的程序指令/模块。处理器910通过运行存储在存储装置920中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现本公开实施例所提供的语种识别方法。
[0217]
存储装置920可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储装置920可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置920可进一步包括相对于处理器910远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
[0218]
本实施例提供的一种电子设备可用于执行上述任意实施例提供的语种识别方法，具备相应的功能和有益效果。
[0219]
本公开实施例提供一种计算机可读存储介质，该计算机可读存储介质上存储计算机程序，该计算机程序被处理器执行时实现上述语种识别方法执行的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。
[0220]
其中，该计算机可读存储介质可以为只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等。
[0221]
为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述在一些实施例中讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应
用，从而使得本领域技术人员更好的使用实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：丁晓鹏
技术所有人：海信视像科技股份有限公司
我是此专利的发明人

上一篇：一种矿井瓦斯巷道安全通风装置的制作方法
下一篇：一种输液管滴速夹控制装置