口语等级的评估方法、装置、存储介质及电子设备与流程

文档序号：19225682发布日期：2019-11-26 02:31阅读：232来源：国知局

本申请涉及在线教育领域，尤其涉及一种口语等级的评估方法、装置、存储介质及电子设备。

背景技术：

随着互联网的发展，在线教育收到越来越多人的欢迎，在线教育科研不限时间和地点灵活的学习，便于学习者充分提升自身的技能。相对于传统的使用固定教室更移动便捷化，在画面、音频更具视觉化和更具吸引力。

在现有评估用户的口语等级的方法是：用户在某个设定的场景下与测试者进行多轮对话，对话结束后根据对话情况来判断用户的口语等级，但是这种通过测试题和对话来评测的方法无法准确的评估口语等级，测试过程在时间上存在较大的滞后性，评估过程的主观性较高，如何及时客观的评估用户的口语等级是目标亟待解决的问题。

技术实现要素：

本申请实施例提供了的口语等级的评估方法、装置、存储介质及终端，可以解决无法及时客观评估用户的口语等级的问题。所述技术方案如下：

第一方面，本申请实施例提供了一种口语等级的评估方法，所述方法包括：

获取用户基于测试文本生成的待评测语音数据；解析所述待评测语音数据的口语评测参数，基于口语等级评估模型对所述口语评估参数进行评估得到口语等级评估结果。

在一种可能的设计中，基于口语等级评估模型对口语评估参数进行评估得到所述用户的口语等级评估结果，包括：

根据口语评估参数生成口语评估向量；

将口语评估向量输入到所述口语等级评估模型中得到评估值；

在预设的多个评估值区间中确定所述评估值所在的评估值区间；

确定所述评估值所在的评估值区间对应的口语等级。

第二方面，本申请实施例提供了一种口语等级的评估装置，所述口语等级的评估装置包括：

获取单元，用于获取用户根据测试文本产生的待评测语音数据；

采集单元，用于解析所述待评测语音数据的口语评估参数；

评估单元，用于基于口语等级评估模型对所述口语评估参数进行评估得到所述用户的口语等级。

第三方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

获取用户根据测试文本产生的待评测语音数据，解析待评测语音数据的口语评估参数，基于口语等级评估模型对口语评估参数进行评估得到用户的口语等级。本申请一方面利用机器学习模型对待评测语音数据进行口语等级的评测，避免人工方式评估口语等级方式造成的不准确的情况；另一方面本申请实施例使用统一的测试文本对用户的口语等级进行评估，避免因测试文本的差异性造成的评估结果不准确的问题。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构图；

图2是本申请实施例提供的口语等级的评估方法的流程示意图；

图3是本申请实施例提供的口语等级的评估方法的另一流程示意图；

图4是本申请实施例提供的口语等级的评估方法的另一流程示意图；

图5是本申请实施例提供的一种装置的结构示意图；

图6是本申请实施例提供的一种装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

图1示出了可以应用于本申请的口语等级的评估方法或口语等级的评估装置的示例性系统架构100。

如图1所示，系统架构100可以包括第一终端设备100、第一网络101、服务器102、第二网络103和第二终端设备104。第一网络104用于在第一终端设备101和服务器102之间提供通信链路的介质，第二网络103用于在第二终端设备104和服务器102之间提供通信链路的介质。第一网络101和第二网络103可以包括各种类型的有线通信链路或无线通信链路，例如：有线通信链路包括光纤、双绞线或同轴电缆的，无线通信链路包括蓝牙通信链路、无线保真(wireless-fidelity，wi-fi)通信链路或微波通信链路等。

第一终端设备100通过第一网络101、服务器102、第二网络103和第二终端设备104之间进行通信，第一终端设备100向服务器102发送消息，服务器102将消息转发给第二终端设备104，第二终端设备104将消息发送给服务器102，服务器102将消息转发给第二终端设备100，由此实现第一终端设备100和第二终端设备104之间的通信，第一终端设备100和第二终端设备104之间交互的消息类型包括控制数据和业务数据。

其中，在本申请中，第一终端设备100为学生上课的终端，第二终端设备104为教师上课的终端；或第一终端设备100为教师上课的终端，第二终端设备104为学生上课的终端。例如：业务数据为视频流，第一终端设备100通摄像头采集学生上课过程中的第一视频流，第二终端设备通过摄像头104采集教师上课过程中的第二视频流，第一终端设备100将第一视频流发送给服务器102，服务器102将第一视频流转发给第二终端设备104，第二终端设备104在界面上显示第一视频流和第二视频流；第二终端设备104将第二视频流发送给服务器102，服务器102将第二视频流转发给第一终端设备100，第一终端设备100显示第一视频流和第二视频流。

其中，本申请的上课方式可以是一对一或一对多，即一个教师对应一个学生或一个教师对应多个学生。相应的，在一对一的教学方式中，一个用于教师上课的终端和一个用于学生上课的终端之间进行通信；在一对多的教学方式中，一个用于教师上课的终端和多个用于学生上课的终端之间进行通信。

第一终端设备100和第二终端设备104上可以安装有各种通信客户端应用，例如：视频录制应用、视频播放应用、语音交互应用、搜索类应用、及时通信工具、邮箱客户端、社交平台软件等。

第一终端设备100和第二终端设备104可以是硬件，也可以是软件。当终端设备101～103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携式计算机和台式计算机等等。当第一终端设备100和第二终端设备104为软件时，可以是安装上上述所列举的电子设备中。其可以实现呈多个软件或软件模块(例如：用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不作具体限定。

当第一终端设备100和第二终端设备104为硬件时，其上还可以安装有显示设备和摄像头，显示设备显示可以是各种能实现显示功能的设备，摄像头用于采集视频流；例如：显示设备可以是阴极射线管显示器(cathoderaytubedisplay，简称cr)、发光二极管显示器(light-emittingdiodedisplay，简称led)、电子墨水屏、液晶显示屏(liquidcrystaldisplay，简称lcd)、等离子显示面板(plasmadisplaypanel，简称pdp)等。用户可以利用第一终端设备100和第二终端设备104上的显示设备，来查看显示的文字、图片、视频等信息。

需要说明的是，本申请实施例提供的口语等级的评估方法一般由服务器102执行，相应的，口语等级的评估装置一般设置于服务器102或终端设备中。例如：服务器102在终端设备101上显示测试文本，学生根据屏幕上显示的测试文本进行朗读，终端设备采集学生朗读测试文本生成的待评测语音数据，将待评测语音数据发送给服务器进行口语等级的评估。

服务器102可以是提供各种服务的服务器，服务器102可以是硬件，也可以是软件。当服务器105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器102为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块，在此不做具体限定。

应理解，图1中的终端设备、网络和服务器的数目仅是示意性的。根据实现需要，可以是任意数量的终端设备、网络和服务器。

下面将结合附图2-附图6，对本申请实施例提供的口语等级的评估方法进行详细介绍。其中，本申请实施例中的口语等级的评估装置可以是图2-图6所示的服务器。

请参见图2，为本申请实施例提供了一种口语等级的评估方法的流程示意图。如图2所示，本申请实施例的所述方法可以包括以下步骤：

s201、获取用户根据测试文本生成的待评测语音数据。

其中，待评测语音数据是用户朗读电子设备上预存储或预配置的测试文本生成的，电子设备采集用户朗读测试文本生成的待评测语音数据。用户朗读电子设备上显示的测试文本后，电子设备通过音频采集装置将用户发出的语音转换为模拟形式的语音信号，其中，音频采集装置可以是单个麦克风，也可以是多个麦克风组成的麦克风阵列。然后，电子设备将模拟形式的语音信号经过预处理后得到数字形式的待评测语音数据，预处理过程包括但不限于滤波、放大、采样、模式转换和格式转换。

在一个或多个实施例中，电子设备上还显示有触发按钮，触发按钮用于触发进行口语等级测试，电子设备接收到触发按钮上发生的触发操作时，在显示屏上显示测试材料，电子设备在检测到触发操作的同时调用音频采集装置进行录音。电子设备再次到在触发按钮上检测到触发操作，停止录音。

例如：电子设备在用户界面上显示英文文章和触发按钮，用户在作好测试准确后，点击用户界面上的触发按钮，电子设备检测到触发按钮上的单击触摸操作时，电子设备开启麦克风进行录音，电子设备采集用户朗读测试文本时生成的待评测语音数据，电子设备再次检测到触发按钮上发生的单击操作时，停止录音操作。

在一个或多个实施例中，测试文本和口语等级有关，用户评估自身的能力后可以选择某个口语等级的测试文本进行测试，电子设备根据用户的选择指令显示相应的测试文本。

例如：电子设备预存储或预配置有4个口语等级，4个口语等级为分别为一级、二级、三级和四级，口语等级越高其对应的测试材料的难度越高，难度可以从测试文本的单词数、词汇量和涉及领域等方面来评估。用户a评估自身能力后选择口语等级为二级的测试文本，电子设备接收到测试a发出的选择口语等级为二级的测试文本的选择指令后，显示口语等级为二级的测试文本。电子设备采集用户朗读测试文本后生成的待评测语音数据。

s202、解析待评测语音数据的口语评估参数。

其中，口语评估参数用于评估待语音数据的口语相关的属性，口语评估参数包括口音匹配度、流利度信息和准确度信息中的一种或多种。口音匹配度表示当前口音和标准口音之间的匹配程度，例如：口音匹配度可以使用预设的标准口音模板数据和待评测语音数据之间的相似度来衡量；流利度表示用户在单位时间内朗读的单词数量，例如：流利度可以使用单词数/分钟来表示；或根据测试文本中包含的总单词数和朗读该测试文本所花费的时长来衡量；准确度表示用户朗读的预设数量的单词中发音正确的单词的比例，例如：准确度可以使用百分比来表示。

s203、基于口语等级评估模型对口语评估参数进行评估得到口语等级。

其中，口语等级评估模型是一种机器学习模型，口语等级评估模型基于机器学习算法利用训练样本训练出来的，本申请实施例使用监督学习的方法训练口语等级学习模型，训练样本集合中每个训练样本带有口语等级标签，口语等级标签用于表示训练样本的口语等级。训练样本集合中的训练样本可以是声学特征，声学特征包括但不限于振幅、相位和幅度，训练样本也可以是语音数据。本申请实施例预先设置有多个口语等级，口语等级越高表示用户的口语水平越高，反之口语等级越低表示用户的口语水平越差。

在一个或多个实施例中，电子设备预存储或预配置有多个口语等级评估模型，不同的口语等级评估模型是使用不同的训练样本集合训练出来的，不同的训练样本集合中的训练样本对应不同的口语等级，即不同的口语等级评估模型对应不同的口语等级，电子设备预存储或预存储的口语等级的数量和口语等级评估模型的数量相等。通过不同口语等级的训练样本进行训练得到不同的口语等级评估模型，根据用户选择的口语等级确定口语等级评估模型，以便测试其是否满足该口语等级的测试要求，能提高测试口语等级的准确度。

例如：电子设备预存储或预配置有3个口语等级评估模型，分别为口语等级评估模型1、口语等级评估模型2和口语等级评估模型3。口语等级评估模型1是使用训练样本集合1训练出来的，训练样本集合1中仅包括口语等级为一级的训练样本；口语等级评估模型2是使用训练样本集合2训练出来的，训练样本集合2仅包括口语等级为二级的训练样本；口语等级评估模型3是使用训练样本3训练出来的，训练样本集合2仅包括口语等级为三级的训练样本。

在一个或多个实施例中，电子设备预存储或预配置有多个口语等级评估模型，不同的口语等级评估模型是使用不同的训练样本集合训练出来的，不同的训练样本集合中的训练样本对应不同的年龄段，集不同的口语等级评估模型对应不同的年龄段，年龄段的划分可以根据实际需要来定，本申请实施例不作限制。通过对不同年龄段的训练样本进行训练得到不同的口语等级评估模型，根据用户的年龄选择相应的口语等级评估模型确定其口语等级，提高测试口语等级的准确度。

例如：电子设备将6岁以下的测试组规定为幼儿组，7岁～16岁规定为少年组，16岁以上规定为成人组。电子设备预存储或预配置有3个口语等级评估模型，分别为口语等级评估模型1、口语等级评估模型2和口语等级评估模型3。口语等级评估模型1是使用训练样本集合1训练出来的，训练样本集合1仅包含幼儿组的训练样本；口语等级评估模型2是使用训练样本集合2训练出来的，训练样本集合仅包含少年组的训练样本；口语等级评估模型3是使用训练样本集合3训练出来的，训练样本集合3仅包含成人组的训练样本。

本申请实施例的方案在执行时，获取用户根据测试文本产生的待评测语音数据，解析待评测语音数据的口语评估参数，基于口语等级评估模型对口语评估参数进行评估得到用户的口语等级。本申请一方面利用机器学习模型对待评测语音数据进行口语等级的评测，避免人工方式评估口语等级方式造成的不准确的情况；另一方面本申请实施例使用统一的测试文本对用户的口语等级进行评估，避免因测试文本的差异性造成的评估结果不准确的问题。

请参见图3，为本申请实施例提供了一种口语等级的评估方法的流程示意图。本实施例以口语等级的评估方法应用于电子设备中来举例说明，电子设备可以是服务器或终端设备。该口语等级的评估方法可以包括以下步骤：

s301、基于训练样本集合进行模型训练得到口语等级评估模型。

其中，训练样本集合中包括多个训练样本，训练样本可以是语音数据，也可以是语音数据提取的声学特征。训练样本集合中每个训练样本携带有表示口语等级和口语评估参数的标签，即每个训练样本的口语等级和口语评估参数是已知的。口语评估参数包括：口音匹配度、流利度和准确度中的一种或多种。口音匹配度表示当前口音和标准口音之间的匹配程度，流利度表示用户在单位时间内朗读的单词数量，准确度表示用户朗读的预设数量的单词中发音正确的单词的数量占比情况。

在一个或多个实施例中，电子设备基于机器学习算法对训练样本集合进行训练得到口语等级评估模型，机器学习算法是基于监督学习的算法，机器学习算法的类型包括但不限于：支持向量机算法、贝叶斯算法、k邻近算法或k均值算法。

在一个或多个实施例中，电子设备预存储或预配置有多个口语等级评估模型，多个口语等级评估模型各自由不同的训练样本集合训练出来的，不同的训练样本集合对应不同口语等级，即不同的口语等级评估模型对应不同的口语等级，电子设备根据用户选择的口语等级选择相应的口语等级评估模型进行评估，以判断用户的待评测语音数据是否符合该口语等级的测试要求。

例如：电子设备预存储或预配置有4个口语等级评估模型，4个口语等级评估模型分别为：口语等级评估模型1、口语等级评估模型2、口语等级评估模型3和口语等级评估模型4，口语等级评估模型1由训练样本集合1训练出来的，口语等级评估模型2是由训练样本集合2训练出来的，口语等级评估模型3是由训练样本集合3训练出来的，口语等级评估模型4是有训练样本集合4训练出来的。训练样本集合1中包括多个训练样本，每个训练样本的口语等级为二级，即每个训练样本携带表示口语等级为一级的标签；训练样本集合2中包括多个训练样本，每个训练样本的口语等级为二级，即每个训练样本携带表示口语等级为二级的标签；训练样本集合3包括多个训练样本，每个训练样本的口语等级为三级，即每个训练样本携带表示口语等级为三级的标签；训练样本集合4包括多个训练样本，每个训练样本的训练样本为四级，即每个训练样本携带表示口语等级为四级的标签。

在一个或多个实施例中，提取待评测语音数据的声学特征的方法可以是预处理、加窗、傅里叶变化和mfcc提取，将最后得到的mfcc(melfrequencycepstrumcoefficient，梅尔频谱倒谱系数)特征作为声学特征。预处理过程包括高通滤波，电子设备使用高通滤波器对语音数据进行高通滤波，高通滤波器的滤波性能表达式可以是：h(z)＝1-a×z^-1，a是修正系数，可以取0.95～0.97之间的数值。加窗用于平滑信号的边缘，例如：使用汉明窗对预处理后是进行加窗处理，汉明窗表示为其中，n为整数，n＝0、1、2、…、m，m为傅里叶变换的点数。mfcc提取从傅里叶变换后的信号提取mfcc特征。例如：使用公式其中f为傅里叶变化后的频点。

s302、显示测试文本和测试触发控件。

其中，测试文本是用户进行口语等级测试以依据的文本，对于不同的用户来说，测试文本都是相同的，可以避免测试文本的差异造成评估口语等级不准确的问题。电子设备在显示屏上显示用户界面，用户界面上包括测试文本和测试触发控件，测试触发控件用于触发口语等级测试，例如：触发测试触发控件为用户界面上设置一个虚拟按钮。用户在准确好口语等级评估时，对测试触发控件进行触发，电子设备检测到测试触发控件上发生的触发操作时，开始采集用户根据测试文本生成的待评测语音数据。

s303、检测到测试触发控件上的预设触发操作时，采集用户基于测试文本生成的待评测语音数据。

其中，预设触发操作的类型可以根据实际需要来确定，预设触发操作可以是单击操作、双击操作或滑动操作等触摸操作。

例如：测试触发控件为一个虚拟按钮，电子设备检测到虚拟按钮上发生的单击操作，开始启动麦克风采集待评测语音数据。

s304、基于预设的参考环境噪声数据对待评测语音数据进行滤除噪声处理。

其中，电子设备预存储或预配置有参考环境噪声数据，参考环境噪声数据是预先采集到的噪声数据，该噪声数据包括内部噪声数据和外部噪声数据，内部噪声数据是由于电子设备内部的元器件产生的噪声数据，外部噪声数据则是外部的干扰源产生的噪声数据。电子设备分析采集到的参考环境噪声数据的声学特征，以及存储该声学特征。电子设备可以将参考环境噪声数据和待评测语音数据之间进行差分运算的方式进行滤除噪声处理。

s305、基于口语等级评估模型对口语评估参数进行处理得到分值。

其中，电子设备预存储或预配置有预先训练的口语等级评估模型，电子设备解析待评测语音数据的口语评估参数，口语评估参数包括口音匹配度、流利度和准确度中的一种或多种，电子设备根据口语评估参数生成声学特征，将声学特征输入到口语等级评估模型中得到一个分值。

在一个或多个实施例中，基于用户选择的口语等级的方案中，

s306、判断分值是否大于阈值。

其中，电子设备预存储或预配置有阈值，阈值的大小可以根据实际需求来定。

s307、显示测试不通过的提示信息。

其中，该提示信息表示用户未达到测试文本关联的口语等级。

s308、将测试文本关联的口语等级作为用户的口语等级。

电子设备对口语等级评估模型输出的分值和阈值进行比较，如果分值大于阈值，则确定用户满足选择的口语等级，电子设备可以提示用户选择更高等级的口语等级继续进行测试；如果分值小于或等于阈值，则确定用户不满足选择的口语等级，电子设备可以提示用户选择更低等级的口语等级继续进行测试。

例如：用户选择口语等级4进行测试，电子设备将用户的待评测语音数据输入到口语等级评估模型，得到输出的分值为60，电子设备预存储或预配置的阈值为80，电子设备判断分值60小于阈值80，不满足等级4的测试条件，电子设备显示测试不通过的提示信息。

又例如：用户选择口语等级2进行测试，电子设备将用户的待评测语音数据输入到口语等级评估模型，得到输出的分值为85分，电子设备预存储或预配置的阈值为80，电子设备判断分值85大于阈值80，满足等级2的测试条件，电子设备显示测试通过的提示信息。

在一个或多个实施例中，其中，电子设备预存储或预配置有多个取值区间，多个取值区间不相互重叠，多个取值区间各自关联一个口语等级，电子设备确定s305中口语等级评估模型输出的分值位于多个取值区间中的哪个取值区间。

例如：电子设备预存储或预配置有4个取值区间，4个取值区间分别为取值区间1、取值区间2、取值区间3和取值区间4；取值区间1对应口语等级为一级，取值区间2对应口语等级为二级，取值区间3对应口语等级为三级，取值区间4对应口语等级为四级。电子设备根据s305输出的分值确定该分值位于取值区间3。

其中，电子设备将分值所在的取值区间关联的口语等级作为用户的口语等级。

例如：电子设备根据s306确定口语等级评估模型输出的分值位于取值区间3，取值区间3关联口语等级为三级。

其中，电子设备从教师资源池中确定空闲状态的教师。教师资源池包括预先注册的多个教师，教师资源池中的教师的状态分为空闲状态和占用状态，空闲状态表示教师未分配给用户，占用状态表示教师已分配给用户。教师资源池中的每个教师关联有教学等级，教学等级表示教师的教学能力，教学等级越高表示教师的能力越强。教学等级的划分可与与口语等级的划分方式相同，即教学等级的数量和口语等级的数量相同。

例如：电子设备预先划分为4个教师等级，分别为一级、二级、三级和四级，相应的，口语等级也划分为一级、二级、三级和四级。

其中，电子设备在空闲状态的教师中选择一个教学等级与用户的口语等级匹配的教师。

例如：电子设备确定教师资源池中空闲状态的教师为：教师1、教师2、教师3和教师4，教师1的等级为一级，教师2的等级为二级，教师3的等级为三级，教师4的等级为四级。电子设备确定的口语等级为二级，电子设备从空闲状态的教师中选择教师2分配给该用户。

在一个或多个实施例中，在空闲状态的教师中与用户的口语等级匹配的教师的数量为多个时，在多个教师中选择排课时长最短的教师分配给该用户。

实施本申请的实施例，获取用户根据测试文本产生的待评测语音数据，解析待评测语音数据的口语评估参数，基于口语等级评估模型对口语评估参数进行评估得到口语等级。本申请一方面利用机器学习模型对待评测语音数据进行口语等级的评测，避免人工方式评估口语等级方式造成的主观因素不准确的情况，另一方面使用统一的测试文本对用户的口语等级进行评估，避免因文本的差异性造成的评估结果不准确的问题。

参见图4，为本申请实施例提供的口语等级评估方法的另一流程示意图，在本申请实施例中，所述方法包括：

s401、训练多个口语等级评估模型。

其中，电子设备预存储或预配置有多个口语等级评估模型，多个口语等级评估模型各自由不同的训练样本集合训练出来的，不同的训练样本集合对应不同年龄段的训练样本，年龄段表示一个年龄区间，本申请实施例对年龄段的划分可以根据实际需要来定。口语等级评估模型是一种机器学习模型，是基于监督学习的方式对训练样本集合进行训练得到的，口语等级评估模型用于评估用户的口语等级，根据用户输入的待评测语音数据输出相应的口语等级。

例如：电子设备预存储或预配置有3个口语等级评估模型，3个口语等级评估模型分别为：口语等级评估模型1、口语等级评估模型2和口语等级评估模型3，口语等级评估模型1由训练样本集合1训练出来的，口语等级评估模型2是由训练样本集合2训练出来的，口语等级评估模型3是由训练样本集合3训练出来的。电子设备预先设置有3个年龄段，分别为6周岁的幼儿组，6周岁～14周岁的少年组和14周岁以上的成人组。训练样本集合1中包括幼儿组的多个训练样本，即训练样本集合1中的训练样本的用户年龄都在6周岁以下；训练样本集合2中包括少年组的多个训练样本，即训练样本集合2中的训练样本的用户年龄都在6周岁～14周岁之间；训练样本集合3包括成人组的多个训练样本，训练样本集合3中的训练样本的用户年龄都在14周岁以上。

s402、显示测试文本。

其中，测试文本是用户进行口语等级评估所朗读的文本。

在一个或多个实施例中，测试文本可以与口语等级有关，不同的口语等级对应不同难度的测试文本。每个口语等级对应一个测试文本集合，测试文本集合中包括难度相同的测试文本，测试文本的难度可以从单词数量、字汇量和所属领域来评估。

例如：电子设备预存储或预配置有4个口语等级，4个口语等级为等级1、等级2、等级3和等级4。测试文本集合1关联等级1，测试文本集合2关联等级2，测试文本集合3关联等级3，测试文本集合4关联等级4。电子设备接收到用户选择等级3的选择指令，从等级3关联的测试文本集合3中随机选择一个测试文本进行显示。

在一个或多个实施例中，测试文本也可以是统一的，所有的用户都使用相同难度的测试文本。电子设备设置有一个测试文本集合，测试文本集合中包括难度相同的测试文本。电子设备接收到用户选择某个口语等级的选择指令后，电子设备从该口语等级关联的测试文本集合中随机选择一个测试文本进行显示。

s403、获取用户根据测试文本生成的待评测语音数据。

其中，用户根据显示的测试文本进行朗读，电子设备的音频采集装置采集用户朗读该测试文本时发出的语音信号，采集后进行处理后的数字的待评测语音数据。

s404、基于预设的参考环境噪音数据对所述待评测语音数据进行滤除噪声处理。

其中，电子设备预存储或预配置有参考环境噪声数据，参考环境噪声数据电子设备预先在当前语音通道中采集的一段预设时长的噪声数据，噪声数据可能来自外部的，也可能来自电子设备内部。参考环境噪声数据的参数是已知的，参考环境噪声数据的参数包括：振幅、相位和频率中的一种或多种。电子设备可以使用差分的方式基于预设的参考环境噪声数据对待评测语音数据进行滤除噪声处理，减轻待评测语音数据中的噪声数据的干扰。

s405、根据用户的年龄从多个口语等级评估模型中选择一个口语等级评估模型。

其中，电子设备获取用户的年龄，电子设备获取用户的年龄的方式可以是根据用户输入的年龄确定，或根据用户的登录信息确定，登录信息包括用户的年龄；或根据预存储或预配置的年龄估测模型对待评测语音数据进行评估得到用户的年龄，年龄估测模型也是基于监督的机器学习算法训练得到的，年龄估测模型用于评估用户的年龄。电子设备预存储或预配置有s401中训练出来的多个口语等级评估模型，不同的口语等级评估模型对应不同的年龄段，电子设备确定用户年龄所属的年龄段，然后根据该年龄段确定关联的口语等级评估模型。

s406、解析待评测语音数据的口语评估参数。

其中，口语评估参数包括口音匹配度、流利度和准确度中的一种或多种。

s407、根据口语评估参数生成特征向量。

其中，特征向量中的参数包括口音匹配度、流利度和准确度中的一种或多种。

s408、将声学特征输入到选择的口语等级评估模型中得到分值。

其中，口语等级评估模型中输出的结果为一个分值，分值的大小在预设范围内。

s409、在预设的多个取值区间中确定分值所在的取值区间。

其中，电子设备预存储或预配置有多个取值区间，多个取值区间不相互重叠，多个取值区间各自关联一个口语等级，电子设备确定s305中口语等级评估模型输出的分值位于多个取值区间中的哪个取值区间。

s410、确定教师资源池中空闲状态的教师。

其中，教师资源池包括预先注册的多个教师，教师资源池中的教师的状态分为空闲状态和占用状态，空闲状态表示教师未分配给用户，占用状态表示教师已分配给用户。教师资源池中的每个教师关联有教学等级，教学等级表示教师的教学能力，教学等级越高表示教师的能力越强。教学等级的划分可以包括多个。

s411、在空闲状态的教师中选择一个教学等级与用户的口语等级匹配的教师。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图5，其示出了本申请一个示例性实施例提供的口语等级的评估装置的结构示意图。以下简称装置5，装置5可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。装置5包括视频获取单元501、采集单元502和评估单元503。

获取单元501，用于获取用户根据测试文本产生的待评测语音数据。

采集单元502，用于解析所述待评测语音数据的口语评估参数。

评估单元503，用于基于口语等级评估模型对所述口语评估参数进行评估得到所述用户的口语等级。

在一个或多个实施例中，评估单元502具体用于：

基于所述口语等级评估模型对所述口语评估参数进行处理得到分值；

在预设的多个取值区间中确定所述分值所在的取值区间；

将所述分值所在取值区间关联的口语等级作为所述用户的口语等级。

在一个或多个实施例中，装置5还包括：训练单元，用于基于训练样本集合进行模型训练得到所述口语等级评估模型；其中，所述训练样本集合中每个训练样本携带口语等级标签和口语评估参数标签，训练样本集合包括多个口语等级的训练样本。

在一个或多个实施例中，评估单元503具体用于：

确定与所述测试文本关联的口语等级；

基于所述测试文本关联的口语等级从预设的多个口语等级评估模型中选择一个口语等级评估模型；

基于选择的口语等级评估模型对所述口语评估参数进行处理得到分值；

在所述分值大于预设阈值时，将所述测试文本关联的口语等级作为所述用户的口语等级。

在一个或多个实施例中，训练单元还用于：基于多个训练样本集合分别进行训练得到多个口语等级评估模型；其中，不同的训练样本集合包括不同口语等级的训练样本。

在一个或多个实施例中，获取单元501具体用于：显示测试文本和测试触发控件；

检测到所述测试触发控件上预设触发操作时，采集所述用户基于所述测试文本生成的待评测语音数据；

基于预设的参考环境噪声数据对所述待评测语音数据进行滤除噪声处理。

在一个或多个实施例中，装置5还包括：

匹配单元，用于从教师资源池中确定空闲状态的教师；其中，每个教师关联有教学等级；

在所述空闲状态的教师中选择一个教学等级与所述用户的口语等级匹配的教师。

需要说明的是，上述实施例提供的装置5在执行口语等级的评估方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的口语等级的评估方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请的装置5获取用户根据测试文本产生的待评测语音数据，解析待评测语音数据的口语评估参数，基于口语等级评估模型对口语评估参数进行评估得到用户的口语等级。本申请一方面利用机器学习模型对待评测语音数据进行口语等级的评测，避免人工方式评估口语等级方式造成的不准确的情况；另一方面本申请实施例使用统一的测试文本对用户的口语等级进行评估，避免因测试文本的差异性造成的评估结果不准确的问题。

本申请实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图2-图6所示实施例的方法步骤，具体执行过程可以参见图2-图6所示实施例的具体说明，在此不进行赘述。

本申请还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如上各个实施例所述的口语等级的评估方法。

图6为本申请实施例提供的一种口语等级的评估装置结构示意图，以下简称装置6，装置6可以集成于前述的服务器或终端设备，如图6所示，该装置包括：存储器602、处理器601、输入装置603、输出装置604和通信接口。

存储器602可以是独立的物理单元，与处理器601、输入装置803和输出装置604可以通过总线连接。存储器602、处理器601、输入装置603和输出装置604也可以集成在一起，通过硬件实现等。

存储器602用于存储实现以上方法实施例，或者装置实施例各个模块的程序，处理器601调用该程序，执行以上方法实施例的操作。

输入装置602包括但不限于键盘、鼠标、触摸面板、摄像头和麦克风；输出装置包括但限于显示屏。

通信接口用于收发各种类型的消息，通信接口包括但不限于无线接口或有线接口。

可选地，当上述实施例的分布式任务调度方法中的部分或全部通过软件实现时，装置也可以只包括处理器。用于存储程序的存储器位于装置之外，处理器通过电路/电线与存储器连接，用于读取并执行存储器中存储的程序。

处理器可以是中央处理器(centralprocessingunit，cpu)，网络处理器(networkprocessor，np)或者cpu和np的组合。

处理器还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specificintegratedcircuit，asic)，可编程逻辑器件(programmablelogicdevice，pld)或其组合。上述pld可以是复杂可编程逻辑器件(complexprogrammablelogicdevice，cpld)，现场可编程逻辑门阵列(field-programmablegatearray，fpga)，通用阵列逻辑(genericarraylogic，gal)或其任意组合。

存储器可以包括易失性存储器(volatilememory)，例如存取存储器(random-accessmemory，ram)；存储器也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flashmemory)，硬盘(harddiskdrive，hdd)或固态硬盘(solid-statedrive，ssd)；存储器还可以包括上述种类的存储器的组合。

其中，处理器601调用存储器602中的程序代码用于执行以下步骤：

获取用户根据测试文本产生的待评测语音数据；

解析所述待评测语音数据的口语评估参数；

基于口语等级评估模型对所述口语评估参数进行评估得到所述用户的口语等级。

在一个或多个实施例中，处理器601执行所述基于口语等级评估模型对所述口语评估参数进行评估得到所述用户的口语等级，包括：

基于所述口语等级评估模型对所述口语评估参数进行处理得到分值；

在预设的多个取值区间中确定所述分值所在的取值区间；

将所述分值所在取值区间关联的口语等级作为所述用户的口语等级。

在一个或多个实施例中，处理器601还用于执行：

所述口语等级评估模型基于训练样本集合进行模型训练得到；其中，所述训练样本集合包括多个口语等级的训练样本，所述训练样本携带有口语等级标签和口语评估参数标签。

在一个或多个实施例中，处理器601执行所述基于口语等级评估模型对所述口语评估参数进行评估得到口语等级，包括：

确定与所述测试文本关联的口语等级；

基于所述测试文本关联的口语等级从预设的多个口语等级评估模型中选择一个口语等级评估模型；

基于选择的口语等级评估模型对所述口语评估参数进行处理得到分值；

在所述分值大于预设阈值时，将所述测试文本关联的口语等级作为所述用户的口语等级。

在一个或多个实施例中，处理器601还用于执行：

基于多个训练样本集合分别进行训练得到多个口语等级评估模型；其中，不同的训练样本集合包括不同口语等级的训练样本。

在一个或多个实施例中，处理器601执行所述采集用户基于测试文本生成的待评测语音数据，包括：

在显示器上显示测试文本和测试触发控件；

检测到所述测试触发控件上预设触发操作时，采集所述用户基于所述测试文本生成的待评测语音数据；

基于预设的参考环境噪声数据对所述待评测语音数据进行滤除噪声处理。

在一个或多个实施例中，处理器601还用于执行：

从教师资源池中确定空闲状态的教师；其中，每个教师关联有教学等级；

在所述空闲状态的教师中选择一个教学等级与所述用户的口语等级匹配的教师。

本申请实施例还提供了一种计算机存储介质，存储有计算机程序，该计算机程序用于执行上述实施例提供的口语等级的评估方法。

本申请实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例提供的口语等级的评估方法。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：底波拉·道格代尔;钱坤;刘学梁;许晓秋
技术所有人：北京大米科技有限公司
我是此专利的发明人

上一篇：一种包装纸罐的制作方法
上一篇：作物田间表型高通量监测系统及监测方法与流程