基于语音识别的考试作弊识别方法、装置及计算机设备与流程

文档序号：24722375发布日期：2021-04-16 15:19阅读：261来源：国知局

1.本发明涉及人工智能技术领域，属于智慧城市中基于语音识别对考试作弊进行判断的应用场景，尤其涉及一种基于语音识别的考试作弊识别方法、装置及计算机设备。

背景技术：

2.越来越多的选拔、评定流程均采用考试方式进行，以确保选拔或评定的公平性，例如公务员选拔、四六级考试评定、驾照考试评定等。为避免考生在考试过程中出现作弊行为而影响考试的公平性，考场内会安排监考人员进行监考，然而监考人员无法每时每刻对每一考生进行监控，导致监考效果不理想。传统技术方法中均是采用视频监控方式辅助监考人员进行监考，分析视频以确定作弊考生的具体位置，然而通过分析监控视频仅能在事后对考生是否存在作弊行为进行判断，进行作弊行为判断的实时性无法得到保证，并且监控视频仅能通过图像分析考生的肢体动作是否具有作弊行为，若考生之间相互交流而肢体动作较小，则无法通过得到的监控视频准确识别考生的作弊行为。因此，现有技术方法存在无法对考生之间的交流作弊行为进行实时、准确判断的问题。

技术实现要素：

3.本发明实施例提供了一种基于语音识别的考试作弊识别方法、装置及计算机设备，旨在解决现有技术方法中所存在的无法对考生之间的交流作弊行为进行实时、准确判断的问题。
4.第一方面，本发明实施例提供了一种基于语音识别的考试作弊识别方法，其包括：
5.获取所述语音采集终端采集得到的与每一考生对应的基本语音信息，根据预置的提取规则从每一基本语音信息包含的多段语句发音中获取与每一段语句发音对应的语音特征参数；
6.根据预设的降维数值对每一所述语音特征参数进行降维处理得到特征向量矩阵及与每一所述语句发音对应的降维特征参数；
7.根据每一所述语句发音的降维特征参数及预置的模型训练规则对初始化的声纹验证模型进行迭代训练得到训练后的声纹验证模型；
8.若接收到来自任一所述语音采集终端的待分析语音信息，根据所述提取规则及所述特征向量矩阵获取与所述待分析语音信息对应的目标降维特征参数；
9.根据预置的评分阈值及所述声纹验证模型验证所述目标降维特征参数与所述待分析语音信息对应考生的降维特征参数是否一致得到声纹验证结果；
10.根据预存的语音识别模型对所述待分析语音信息进行语音识别得到与所述待分析语音信息对应的目标文本信息；
11.根据预置的文本判断模型对所述目标文本信息是否包含作弊词汇进行判断得到文本判断结果；
12.若所述声纹验证结果为不一致或所述文本判断结果为包含作弊词汇，则判定存在
作弊行为并发出报警提示信息。
13.第二方面，本发明实施例提供了一种基于语音识别的考试作弊识别装置，其包括：
14.语音特征参数获取单元，用于获取所述语音采集终端采集得到的与每一考生对应的基本语音信息，根据预置的提取规则从每一基本语音信息包含的多段语句发音中获取与每一段语句发音对应的语音特征参数；
15.降维处理单元，用于根据预设的降维数值对每一所述语音特征参数进行降维处理得到特征向量矩阵及与每一所述语句发音对应的降维特征参数；
16.模型训练单元，用于根据每一所述语句发音的降维特征参数及预置的模型训练规则对初始化的声纹验证模型进行迭代训练得到训练后的声纹验证模型；
17.目标降维特征参数获取单元，用于若接收到来自任一所述语音采集终端的待分析语音信息，根据所述提取规则及所述特征向量矩阵获取与所述待分析语音信息对应的目标降维特征参数；
18.声纹验证结果获取单元，用于根据预置的评分阈值及所述声纹验证模型验证所述目标降维特征参数与所述待分析语音信息对应考生的降维特征参数是否一致得到声纹验证结果；
19.目标文本信息获取单元，用于根据预存的语音识别模型对所述待分析语音信息进行语音识别得到与所述待分析语音信息对应的目标文本信息；
20.文本判断结果获取单元，用于根据预置的文本判断模型对所述目标文本信息是否包含作弊词汇进行判断得到文本判断结果；
21.提示信息发送单元，用于若所述声纹验证结果为不一致或所述文本判断结果为包含作弊词汇，则判定存在作弊行为并发出报警提示信息。
22.第三方面，本发明实施例又提供了一种计算机设备，其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述第一方面所述的基于语音识别的考试作弊识别方法。
23.第四方面，本发明实施例还提供了一种计算机可读存储介质，其中所述计算机可读存储介质存储有计算机程序，所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于语音识别的考试作弊识别方法。
24.本发明实施例提供了一种基于语音识别的考试作弊识别方法、装置及计算机设备。从每一考生的基本语音信息中获取每一语句发音的语音特征参数并进行降维得到降维特征参数，根据降维特征参数对初始化声纹验证模型进行训练，使用声纹验证模型对待分析语音信息的目标降维特征参数是否与相应考生的降维特征参数一致进行验证，对待分析语音信息进行语音识别得到的目标文本信息中是否包含作弊词汇进行判断，若声纹验证结果为不一致或文本判断结果为包含作弊词汇，则判定存在作弊行为并发送报警提示信息。通过上述方法，可基于语音识别对考生的待识别语音信息进行识别，以实现对考生之间的交流作弊行为进行实时、准确判断。
附图说明
25.为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普
通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
26.图1为本发明实施例提供的基于语音识别的考试作弊识别方法的流程示意图；
27.图2为本发明实施例提供的基于语音识别的考试作弊识别方法的应用场景示意图；
28.图3为本发明实施例提供的基于语音识别的考试作弊识别方法的子流程示意图；
29.图4为本发明实施例提供的基于语音识别的考试作弊识别方法的另一子流程示意图；
30.图5为本发明实施例提供的基于语音识别的考试作弊识别方法的另一子流程示意图；
31.图6为本发明实施例提供的基于语音识别的考试作弊识别方法的另一子流程示意图；
32.图7为本发明实施例提供的基于语音识别的考试作弊识别方法的另一子流程示意图；
33.图8为本发明实施例提供的基于语音识别的考试作弊识别方法的另一子流程示意图；
34.图9为本发明实施例提供的基于语音识别的考试作弊识别装置的示意性框图；
35.图10为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
36.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
37.应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
38.还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。
39.还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。
40.请参阅图1及图2，图1是本发明实施例提供的基于语音识别的考试作弊识别方法的流程示意图，图2为本发明实施例提供的基于语音识别的考试作弊识别方法的应用场景示意图，该基于语音识别的考试作弊识别方法应用于用户终端10中，该方法通过安装于用户终端10中的应用软件进行执行，用户终端10与每一考生的语音采集终端20通过网络连接以进行数据信息的传输，用户终端10即是用于执行基于语音识别的考试作弊识别方法以实现对考生是否存在考试作弊行为进行判断的终端设备，如台式电脑、笔记本电脑、平板电脑或手机等终端设备，语音采集终端20即是用于对考生发出的语音信息进行实时采集的终端，如麦克风等，则考试现场每一考生均对应佩戴一台语音采集终端20或每一考生的考试
桌面上均对应配置一台语音采集终端20。如图1所示，该方法包括步骤s110～s180。
41.s110、获取所述语音采集终端采集得到的与每一考生对应的基本语音信息，根据预置的提取规则从每一基本语音信息包含的多段语句发音中获取与每一段语句发音对应的语音特征参数。
42.获取所述语音采集终端采集得到的与每一考生对应的基本语音信息，根据预置的提取规则从每一基本语音信息包含的多段语句发音中获取与每一段语句发音对应的语音特征参数。考生在进入答题界面时，需要对考试协议、考场须知等内容进行阅读，这一阅读过程在考试开考之前完成，每一考生在阅读上述内容的过程中，则可通过与每一考生对应的语音采集终端采集得到对应的基本语音信息，每一考生的基本语音信息中包含多段语句发音。每一段语音发音即对应一个考生所讲的一句话，可根据提取规则从每一段语句发音中获取对应的语音特征参数，语音特征参数即可对一段语句发音的音频特征进行量化表示，其中语音特征参数包括一个语句发音的音频系数信息及感知系数信息，音频系数信息可以是该语句发音对应的梅尔频率倒谱系数(mel frequency cepstrum coefficient,mfcc)，感知系数信息可以是该语句发音对应的感知线性预测系数(linear prediction coefficient，lpc)。提取规则包括频谱转换规则、音频系数提取规则及感知系数提取规则。可根据频谱转换规则对每一语句发音进行频谱转换，并根据音频系数提取规则对进行频谱转换后得到的音频频谱进行分析得到音频系数信息，根据感知系数提取规则对音频频谱进行分析得到感知系数信息。
43.在一实施例中，如图3所示，步骤s110包括子步骤s111、s112、s113和s114。
44.s111、对每一所述语句发音进行分帧处理得到对应的多帧音频信息。
45.语句发音在计算机中以包含音轨的声谱图进行表示，声谱图中包含很多帧，每一帧即对应一个时间单元，则可从语句发音的声谱图中获取得到每一帧音频信息，每一帧音频信息即对应声谱图中一个时间单元内所包含的音频信息。
46.s112、根据所述频谱转换规则将每一所述语句发音对应的多帧音频信息转换为音频频谱。
47.可根据频谱转换规则对每一语句发音包含的多帧音频信息进行快速傅里叶变换(fast fourier transform，fft)然后旋转90度，得到与每一语句发音对应的音频频谱，在音频频谱中的频谱表示频率与能量的关系。
48.s113、根据所述音频系数提取规则获取每一所述音频频谱对应的音频系数信息。
49.通过音频系数提取规则即可从每一音频频谱中提取得到音频系数信息，具体的，音频系数提取规则包括频率转换公式及逆变换计算公式。
50.在一实施例中，如图4所示，步骤s113包括子步骤s1131和s1132。
51.s1131、根据所述频率转换公式将每一所述音频频谱转换为对应的非线性音频频谱；s1132、根据所述逆变换计算公式对每一所述非线性音频频谱进行逆变换得到与每一所述非线性音频频谱对应的多个音频系数作为每一所述音频频谱的音频系数信息。
52.根据频率转换公式将以线性方式表示的音频频谱转换为非线性音频频谱，人的听觉系统是一个特殊的非线性系统，它响应不同频率信号的灵敏度是不同的，为模拟人类听觉系统对音频信号灵敏度进行感知的特点，可通过非线性音频频谱模拟人类听觉系统对音频信号的表征，并进一步从中获取符合人类听觉系统的特征。音频频谱及非线性音频频谱
均可采用频谱曲线进行表示，则频谱曲线由多个连续的频谱值所组成。
53.具体的，频率转换公式可采用公式(1)进行表示：
54.mel(f)＝2959
×
log(1+f/700)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)；
55.其中mel(f)为转换后非线性音频频谱的频谱值，f为音频音频的频率值。
56.可根据逆变换计算公式对每一非线性音频频谱进行逆变换，具体的，对所得到的一个非线性音频频谱取对数后进行离散余弦变换(discrete cosine transform，dct)，取进行离散余弦变换的第2个至第13个系数进行组合以得到与该非线性音频频谱对应的音频系数，获取每一非线性音频频率对应的音频系数即可得到与每一所述音频频谱的音频系数信息。
57.s114、根据所述感知系数提取规则获取每一所述音频频谱对应的感知系数信息。
58.通过感知系数提取规则即可从每一音频频谱中提取得到感知系数信息，具体的，感知系数提取规则包括频率数组及反变换计算公式。
59.在一实施例中，如图5所示，步骤s114包括子步骤s1141和s1142。
60.s1141、根据所述频率数组所包含的多个频率值对每一所述音频频谱进行滤波，得到每一所述音频频谱对应的频带能量向量。
61.具体的，频率数组中包含多个频率值，可根据多个频率值分别对一个音频频谱进行等响曲线滤波，得到该音频频谱与每一频率值对应的频带能量向量。
62.例如，针对人体发声频率段，可选取15个频率值组合成为频率数组，则频率数组可表示为{250，350，450，570，700，840，1000，1170，1370，1600，1850，2150，2500，2900，3400}。
63.s1142、对每一所述音频频谱对应的频带能量向量进行压缩后根据所述反变换计算公式进行反变换得到每一所述音频频谱的感知系数信息。
64.对每一音频频率的频带能量向量进行立方根计算以压缩频带能量向量，并根据反变换计算公式对进行压缩计算后的频带能量向量进行快速傅里叶反变换(inverse fastfouriertransform，ifft)得到每一音频频谱对应的多个系数值，从中获取部分靠前的系数值作为每一音频频谱的感知系数信息。
65.例如，可对进行压缩计算后的频带能量向量做30个点的快速傅里叶反变换，得到30个点对应的系数值，获取取值前15个系数值作为相应音频频谱的感知系数信息。
66.将同一音频频谱的音频系数信息及感知系数信息进行组合，即可得到该音频频谱的语音特征参数。
67.s120、根据预设的降维数值对每一所述语音特征参数进行降维处理得到特征向量矩阵及与每一所述语句发音对应的降维特征参数。
68.所得到的每一语音特征参数中均包含多个维度对应的多个参数值，语音特征参数中部分维度的多个参数值过于集中，则这部分参数值无法对多个语句发音在该参数值对应维度上的差别进行清晰体现，也即是这部分参数值难以突出体现相应语句发音在该参数值对应维度上的特征，为提高语音特征参数对语句发音的特征进行表示的突出性，可对每一语音特征参数进行降维处理，去掉无法突出体现多个语句发音差别值的维度，得到降维特征参数，通过对降维特征参数进行分析，可实现对每一语句发音的特征进行更准确地分析。每一语音特征参数进行降维处理后得到一个降维特征参数，降维特征参数中所包含的维度数量小于语音特征参数中包含的维度数量。
69.在一实施例中，如图6所示，步骤s120包括子步骤s121、s122、s123和s124。
70.s121、将所有所述语音特征参数整合为一个参数矩阵并计算所述参数矩阵的协方差矩阵。
71.每一语音特征参数中均包含相同维度的多个参数值，则可对语音特征参数进行整合得到参数矩阵，具体的，语音特征参数的数量可表示为m，语音特征参数中的维度数可表示为n，则组合得到的参数矩阵为x
m
×
n
，则该参数矩阵可表示为m行n列的一个矩阵，参数矩阵中的包含的数值即为每一语音特征参数所包含的参数值。可计算得到参数矩阵的协方差矩阵，具体计算可采用公式(2)进行表示：
[0072][0073]
其中为参数矩阵x各维度的参数值的均值所组成的均值向量，t为转制符号，所得到的协方差矩阵即可表示为s
n
×
n
。
[0074]
s122、求解所述协方差矩阵的协方差特征值及与每一所述协方差特征值对应的协方差特征向量。
[0075]
协方差举证表示了多个语音特征参数在n个维度空间中个方向上的特征分布，通过对协方差矩阵进行求解，即可从n个维度空间中确定一些特定的方向，多个语音特征参数的特征集中分布在所确定的特定方向上，特征值的大小即反映了多个语音特征参数在该特征值对应方向上的特征差异，删除特征值较小的方向对应的维度，保留主要方向对应的维度，即可达到对语音特征参数进行降维的目的。可采用正交三角分解算法(qr分解算法)、jocobi迭代算法、奇异值分解算法(svd算法)等数学计算方法求解协方差矩阵的n个协方差特征值及对应的n个协方差特征向量，一个协方差特征值对应一个协方差特征向量。
[0076]
s123、根据选择所述协方差特征值最大且与所述降维数值相等的多个协方差特征值对应的协方差特征向量组合得到特征向量矩阵；s124、将所述参数矩阵与所述特征向量矩阵相乘，得到与每一所述语句发音对应的降维特征参数。
[0077]
对所得到的多个协方差特征值从大到小进行排序，并根据排序结果选择其中与降维数值相等的多个协方差特征值对应的协方差特征向量进行组合，得到特征向量矩阵。
[0078]
例如，降维数值为k(k<n)，每一协方差特征向量为一个n行1列的向量，从n个协方差特征向量中选择k个进行组合，得到特征向量矩阵可表示为w
n
×
k
；
[0079]
将参数矩阵与所得到的特征向量矩阵相乘，即可根据矩阵计算结果获取每一语句发音对应的降维特征参数。计算过程可表示为z
m
×
k
＝x
m
×
n
w
n
×
k
，矩阵计算结果为一个m行k列的矩阵z
m
×
k
，获取矩阵z
m
×
k
中每一行的参数值即可得到每一所述语句发音的降维特征参数，其中，第i行的k个参数值即对应所输入的第i个语音特征参数的降维特征参数，降维特征参数中包含k个维度的参数值。
[0080]
s130、根据每一所述语句发音的降维特征参数及预置的模型训练规则对初始化的声纹验证模型进行迭代训练得到训练后的声纹验证模型。
[0081]
根据每一所述语句发音的降维特征参数及预置的模型训练规则对初始化的声纹验证模型进行迭代训练得到训练后的声纹验证模型。其中所述模型训练规则包括损失值计算公式、梯度计算公式及损失阈值。在使用声纹验证模型之前，可对预存的初始化声纹验证模型进行训练，使用训练后的声纹验证模型进行声纹验证以提高验证的准确性，模型训练
规则即为对初始化声纹验证模型进行训练的具体规则。
[0082]
在一实施例中，如图7所示，步骤s130包括子步骤s131、s132、s133、s134、s135、s136和s137。
[0083]
s131、从所述降维特征参数中随机选择同一考生的两个降维特征参数作为正样本；s132、从所述降维特征参数中随机选择不同考生的两个降维特征参数作为负样本。
[0084]
可使用所得到的每一语句发音的降维特征参数作为样本数据对初始化声纹验证模型进行训练，可从降维特征参数获取同一考生的两段语句发音对应的两个降维特征参数作为正样本，从降维特征参数中获取不同考生的两段语音发音对应的两个降维特征参数作为负样本，则可从降维特征参数中选择得到多个正样本及多个负样本，使用一个正样本或一个负样本即可对初始化声纹验证模型进行一次训练。
[0085]
s133、将所述正样本或所述负样本输入所述声纹验证模型以获取对应的模型输出信息。
[0086]
声纹验证模型即为基于人工智能所构建得到的神经网络模型，声纹验证模型由一个输入层、多个中间层及一个输出层组成，输入层包含多个输入节点，输入节点的数量与两个降维特征参数所包含的维度总数相等，如一个降维特征参数包含k个维度的参数值，则输入层包含2k个输入节点，输出层包含两个输出节点，输入层与中间层之间、中间层与其他相邻的中间层之间、中间层与输出层之间均通过关联公式进行关联，每一关联公式中均包含相应参数，对声纹验证模型进行训练的过程即为对关联公式中参数的参数值进行调整。将正样本或负样本所包含的两个降维特征参数输入声纹验证模型进行计算后得到模型输出信息，模型输出信息即包含两个输出节点的输出节点值，其中，第一个输出节点的输出节点值即为两个降维特征参数相一致的预测概率值，第二个输出节点的输出节点值即为两个降维特征参数不相一致的预测概率值，每一输出节点值的取值范围均为[0，1]。
[0087]
s134、根据所述损失值计算公式对所述模型输出信息进行计算以得到损失值；
[0088]
可根据损失值计算公式计算得到与模型输出信息对应的损失值。具体的，若将正样本输入声纹验证模型，则对应的损失值计算公式可表示为：若将负样本输入声纹验证模型，则对应的损失值计算公式可表示为：其中，f1为模型输出信息中第一个输出节点的输出节点值，f2为模型输出信息中第二个输出节点的输出节点值。
[0089]
s135、判断所述损失值是否小于所述损失阈值；s136、若所述损失值不小于所述损失阈值，根据所述梯度计算公式、所述损失值计算得到所述初始化声纹验证模型中每一参数的更新值以更新所述参数的参数值，并返回执行所述将所述正样本或所述负样本输入所述声纹验证模型以获取对应的模型输出信息的步骤；s137、若所述损失值小于所述损失阈值，将所述声纹验证模型确定为训练后的声纹验证模型。
[0090]
对损失值是否小于损失阈值进行判断，若损失值小于损失阈值，则表明当前得到的声纹验证模型可满足使用需求，将当前得到的声纹验证模型确定为训练后的声纹验证模型；若损失值不小于损失阈值，则表明当前得到的声纹验证模型还无法满足使用需求，需要对声纹验证模型中参数的参数值进行调整，并基于已调整参数值的声纹验证模型再次计算
得到新的损失值，并重复判断新的损失值是否小于损失阈值，直至得到的声纹验证模型满足使用需求。可根据梯度计算公式计算得到声纹验证模型中每一参数的更新值以更新每一参数原始的参数值。具体的，将声纹验证模型中一个参数对一个正样本或一个负样本进行计算所得到的计算值输入梯度计算公式，并结合上述计算得到的损失值，即可计算得到与该参数对应的更新值，这一计算过程也即为梯度下降计算。
[0091]
具体的，梯度计算公式可表示为：
[0092]
其中，为计算得到的参数r的更新值，ω
r
为参数r的原始参数值，η为梯度计算公式中预置的学习率，为基于损失值及参数r对应的计算值对该参数r的偏导值(这一计算过程中需使用参数对应的计算值)。
[0093]
s140、若接收到来自任一所述语音采集终端的待分析语音信息，根据所述提取规则及所述特征向量矩阵获取与所述待分析语音信息对应的目标降维特征参数。
[0094]
若接收到来自任一所述语音采集终端的待分析语音信息，根据所述提取规则及所述特征向量矩阵获取与所述待分析语音信息对应的目标降维特征参数。对初始化的声纹验证模型进行训练的过程可在开考前完成，则开考后，通过每一语音采集终端对每一考生周边的说话声进行采集，若接收到来自任一语音采集终端的待分析语音信息，则可根据提取规则及特征向量矩阵获取待分析语音信息对应的目标降维特征参数。具体的，根据提取规则从待分析语音信息中获取得到目标语音特征参数，获取目标语音特征参数的具体方法与获取一段语句发音对应的语音特征参数的具体方法相同，在此不作赘述；将目标语音特征参数与特征向量矩阵相乘即可得到与待分析语音信息对应的目标降维特征参数。
[0095]
s150、根据预置的评分阈值及所述声纹验证模型验证所述目标降维特征参数与所述待分析语音信息对应考生的降维特征参数是否一致得到声纹验证结果。
[0096]
可根据预置的评分阈值及声纹验证模型对目标降维特征参数是否与相应考生的降维特征参数相一致进行验证，得到声纹验证结果。具体的，根据待分析语音信息对应的语音采集终端，获取与该语音采集终端对应的一个考生的任意一个降维特征参数，将目标降维特征参数与降维特征参数进行组合后输入声纹验证模型得到对应的输出信息，基于输出信息即可计算得到对应的验证评分，判断验证评分是否大于评分阈值，若大于则声纹验证结果为一致；若验证评分不大于评分阈值则声纹验证结果为不一致。
[0097]
在一实施例中，如图8所示，步骤s150包括子步骤s151、s152和s153。
[0098]
s151、将所述目标降维特征参数与所述待分析语音信息对应考生的任意一条降维特征参数输入所述声纹验证模型得到对应的输出信息；
[0099]
目标降维特征参数及对应考生的一条降维特征参数均包含k个维度的参数值，则对目标降维特征参数及一条降维特征参数进行组合后得到2k个维度的参数值并输入训练后的声纹验证模型，经声纹验证模型中关联公式的计算得到输出信息，输出信息包括两个输出节点的输出节点值。
[0100]
s152、根据所述输出信息计算得到与所述目标降维特征参数对应的验证评分；s153、判断所述验证评分是否大于评分阈值得到所述目标降维特征参数与所述降维特征参数是否一致的声纹验证结果。
[0101]
具体的，可通过公式p＝10
×
10(f1
‑
f2)计算得到与目标降维特征参数对应的验证评分，其中，f1为输出信息中第一个输出节点的输出节点值，f2为输出信息中第二个输出节点的输出节点值。判断验证评分是否大于评分阈值即可得到是否一致的声纹验证结果。
[0102]
例如，可设置评分阈值为50，若验证评分大于50则得到声纹验证结果为一致，否则得到声纹验证结果为不一致。
[0103]
s160、根据预存的语音识别模型对所述待分析语音信息进行语音识别得到与所述待分析语音信息对应的目标文本信息。
[0104]
可根据语音识别模型对待分析语音信息进行识别，得到对应的目标文本信息，其中，语音识别模型包括声学模型、语音特征词典及语义解析模型。首先根据所述语音识别模型中的声学模型对所述待分析语音信息进行切分得到所述待分析语音信息中所包含的多个音素。待分析语音信息由多个字符发音的音素而组成，一个字符的音素包括该字符发音的频率和音色。声学模型中包含所有字符发音的音素，通过将待分析语音信息与声学模型中所有的音素进行匹配，即可对待分析语音信息中单个字符的音素进行切分，通过切分最终得到待分析语音信息中所包含的多个音素。
[0105]
其次，根据所述语音识别模型中的语音特征词典对所述音素进行匹配以将所述音素转换为拼音信息。语音特征词典中包含所有字符拼音对应的音素信息，通过将所得到的音素与字符拼音对应的音素信息进行匹配，即可将单个字符的音素转换为语音特征词典中与该音素相匹配的字符拼音，以实现将语音信息中所包含的所有音素转换为拼音信息。
[0106]
最后，根据所述语音识别模型中的语义解析模型对所述拼音信息进行语义解析以得到与所述待分析语音信息对应的目标文本信息。语义解析模型中包含拼音信息与文字信息之间所对应的映射关系，通过语义解析模型中所包含的映射关系即可对所得到的拼音信息进行语义解析以将拼音信息转换为对应的目标文本信息。
[0107]
s170、根据预置的文本判断模型对所述目标文本信息是否包含作弊词汇进行判断得到文本判断结果。
[0108]
根据预置的文本判断模型对所述目标文本信息是否包含作弊词汇进行判断得到文本判断结果。具体的，文本判断模型中包含多个作弊关键字及文本判断神经网络，首先可判断目标文本信息中是否存在与作弊关键字对应的文字信息，若存在，则文本判断结果为包含作弊词汇，例如作弊关键字可以是“怎么做”、“告诉”、“觉得”等。若目标文本信息中不存在与作弊关键字对应的文字信息，则可将目标文本信息转换为文本编码，并将文本编码输入文本判断神经网络进行识别，以得到文本判断神经网络的输出结果，对输出结果进行判断即可得到目标文本信息是否具有作弊倾向，若判断得到目标文本信息具有作弊倾向，则文本判断结果为包含作弊词汇；若判断得到目标文本信息不具有作弊倾向，则文本判断结果为不包含作弊词汇。
[0109]
具体的，则可根据预存的转换词典对目标文本信息进行转换，获取目标文本信息中每一字符对应的编码值并进行组合得到文本编码，所得到的文本编码将该目标文本信息的特征采用数值序列的方式进行表示，文本判断神经网络的结构与声纹验证模型的组成结构相类似，将目标文本信息的文本编码输入文本判断神经网络得到相应输出结果，输出结果可采用数值进行表示，判断输出结果是否大于预置的作弊分数值，若大于则判断得到目标文本信息具有作弊倾向；若输出结果不大于预置的作弊分数值，则判断得到目标文本信
息不具有作弊倾向。
[0110]
s180、若所述声纹验证结果为不一致或所述文本判断结果为包含作弊词汇，则判定存在作弊行为并发出报警提示信息。
[0111]
若所述声纹验证结果为不一致或所述文本判断结果为包含作弊词汇，则判定存在作弊行为并发出报警提示信息。若声纹验证结果为不一致，则表明当前考生对应的语音采集终端中有其他考生发出声音，也即当前考生正在被动与其他考生进行交流，判定存在作弊行为并发出报警提示信息，以提示用户终端的使用者及时对作弊行为进行处理。若文本判断结果为包含作弊词汇，则表明当前考生正在主动与其他考生进行交流，判定存在作弊行为并发出报警提示信息，以提示用户终端的使用者及时对作弊行为进行处理。
[0112]
本申请中的技术方法可应用于智慧政务/智慧教育等包含对基于语音识别对考试作弊进行判断的应用场景中，从而推动智慧城市的建设。
[0113]
在本发明实施例所提供的基于语音识别的考试作弊识别方法中，从每一考生的基本语音信息中获取每一语句发音的语音特征参数并进行降维得到降维特征参数，根据降维特征参数对初始化声纹验证模型进行训练，使用声纹验证模型对待分析语音信息的目标降维特征参数是否与相应考生的降维特征参数一致进行验证，对待分析语音信息进行语音识别得到的目标文本信息中是否包含作弊词汇进行判断，若声纹验证结果为不一致或文本判断结果为包含作弊词汇，则判定存在作弊行为并发送报警提示信息。通过上述方法，可基于语音识别对考生的待识别语音信息进行识别，以实现对考生之间的交流作弊行为进行实时、准确判断。
[0114]
本发明实施例还提供一种基于语音识别的考试作弊识别装置，该基于语音识别的考试作弊识别装置用于执行前述基于语音识别的考试作弊识别方法的任一实施例。具体地，请参阅图9，图9是本发明实施例提供的基于语音识别的考试作弊识别装置的示意性框图。该基于语音识别的考试作弊识别装置可配置于用户终端10中。
[0115]
如图9所示，基于语音识别的考试作弊识别装置100包括语音特征参数获取单元110、降维处理单元120、模型训练单元130、目标降维特征参数获取单元140、声纹验证结果获取单元150、目标文本信息获取单元160、文本判断结果获取单元170和提示信息发送单元180。
[0116]
语音特征参数获取单元110，用于获取所述语音采集终端采集得到的与每一考生对应的基本语音信息，根据预置的提取规则从每一基本语音信息包含的多段语句发音中获取与每一段语句发音对应的语音特征参数。
[0117]
在一实施例中，所述语音特征参数获取单元110包括子单元：音频信息获取单元、音频信息转换单元、音频系数信息获取单元和感知系数信息获取单元。
[0118]
音频信息获取单元，用于对每一所述语句发音进行分帧处理得到对应的多帧音频信息；音频信息转换单元，用于根据所述频谱转换规则将每一所述语句发音对应的多帧音频信息转换为音频频谱；音频系数信息获取单元，用于根据所述音频系数提取规则获取每一所述音频频谱对应的音频系数信息；感知系数信息获取单元，用于根据所述感知系数提取规则获取每一所述音频频谱对应的感知系数信息。
[0119]
在一实施例中，所述音频系数信息获取单元包括子单元：频率转换单元和逆变换处理单元。
[0120]
频率转换单元，用于根据所述频率转换公式将每一所述音频频谱转换为对应的非线性音频频谱；逆变换处理单元，用于根据所述逆变换计算公式对每一所述非线性音频频谱进行逆变换得到与每一所述非线性音频频谱对应的多个音频系数作为每一所述音频频谱的音频系数信息。
[0121]
在一实施例中，所述感知系数信息获取单元包括子单元：频带能量向量获取单元和反变换处理单元。
[0122]
频带能量向量获取单元，用于根据所述频率数组所包含的多个频率值对每一所述音频频谱进行滤波，得到每一所述音频频谱对应的频带能量向量；反变换处理单元，用于对每一所述音频频谱对应的频带能量向量进行压缩后根据所述反变换计算公式进行反变换得到每一所述音频频谱的感知系数信息。
[0123]
降维处理单元120，用于根据预设的降维数值对每一所述语音特征参数进行降维处理得到特征向量矩阵及与每一所述语句发音对应的降维特征参数。
[0124]
在一实施例中，所述降维处理单元120包括子单元：协方差矩阵获取单元、协方差矩阵求解单元、特征向量矩阵获取单元和矩阵计算单元。
[0125]
协方差矩阵获取单元，用于将所有所述语音特征参数整合为一个参数矩阵并计算所述参数矩阵的协方差矩阵；协方差矩阵求解单元，用于求解所述协方差矩阵的协方差特征值及与每一所述协方差特征值对应的协方差特征向量；特征向量矩阵获取单元，用于根据选择所述协方差特征值最大且与所述降维数值相等的多个协方差特征值对应的协方差特征向量组合得到特征向量矩阵；矩阵计算单元，用于将所述参数矩阵与所述特征向量矩阵相乘，得到与每一所述语句发音对应的降维特征参数。
[0126]
模型训练单元130，用于根据每一所述语句发音的降维特征参数及预置的模型训练规则对初始化的声纹验证模型进行迭代训练得到训练后的声纹验证模型。
[0127]
在一实施例中，所述模型训练单元130包括子单元：正样本获取单元、负样本获取单元、模型输出信息获取单元、损失值计算单元、损失值判断单元、参数值更新单元和声纹验证模型确定单元。
[0128]
正样本获取单元，用于从所述降维特征参数中随机选择同一考生的两个降维特征参数作为正样本；负样本获取单元，用于从所述降维特征参数中随机选择不同考生的两个降维特征参数作为负样本；模型输出信息获取单元，用于将所述正样本或所述负样本输入所述声纹验证模型以获取对应的模型输出信息；损失值计算单元，用于根据所述损失值计算公式对所述模型输出信息进行计算以得到损失值；损失值判断单元，用于判断所述损失值是否小于所述损失阈值；参数值更新单元，用于若所述损失值不小于所述损失阈值，根据所述梯度计算公式、所述损失值计算得到所述初始化声纹验证模型中每一参数的更新值以更新所述参数的参数值，并返回执行所述将所述正样本或所述负样本输入所述声纹验证模型以获取对应的模型输出信息的步骤；声纹验证模型确定单元，用于若所述损失值小于所述损失阈值，将所述声纹验证模型确定为训练后的声纹验证模型。
[0129]
目标降维特征参数获取单元140，用于若接收到来自任一所述语音采集终端的待分析语音信息，根据所述提取规则及所述特征向量矩阵获取与所述待分析语音信息对应的目标降维特征参数。
[0130]
声纹验证结果获取单元150，用于根据预置的评分阈值及所述声纹验证模型验证
所述目标降维特征参数与所述待分析语音信息对应考生的降维特征参数是否一致得到声纹验证结果。
[0131]
在一实施例中，所述声纹验证结果获取单元150包括子单元：输出信息获取单元、验证评分获取单元和验证评分判断单元。
[0132]
输出信息获取单元，用于将所述目标降维特征参数与所述待分析语音信息对应考生的任意一条降维特征参数输入所述声纹验证模型得到对应的输出信息；验证评分获取单元，用于根据所述输出信息计算得到与所述目标降维特征参数对应的验证评分；验证评分判断单元，用于判断所述验证评分是否大于评分阈值得到所述目标降维特征参数与所述降维特征参数是否一致的声纹验证结果。
[0133]
目标文本信息获取单元160，用于根据预存的语音识别模型对所述待分析语音信息进行语音识别得到与所述待分析语音信息对应的目标文本信息。
[0134]
文本判断结果获取单元170，用于根据预置的文本判断模型对所述目标文本信息是否包含作弊词汇进行判断得到文本判断结果。
[0135]
提示信息发送单元180，用于若所述声纹验证结果为不一致或所述文本判断结果为包含作弊词汇，则判定存在作弊行为并发出报警提示信息。
[0136]
在本发明实施例所提供的基于语音识别的考试作弊识别装置应用上述基于语音识别的考试作弊识别方法，从每一考生的基本语音信息中获取每一语句发音的语音特征参数并进行降维得到降维特征参数，根据降维特征参数对初始化声纹验证模型进行训练，使用声纹验证模型对待分析语音信息的目标降维特征参数是否与相应考生的降维特征参数一致进行验证，对待分析语音信息进行语音识别得到的目标文本信息中是否包含作弊词汇进行判断，若声纹验证结果为不一致或文本判断结果为包含作弊词汇，则判定存在作弊行为并发送报警提示信息。通过上述方法，可基于语音识别对考生的待识别语音信息进行识别，以实现对考生之间的交流作弊行为进行实时、准确判断。
[0137]
上述基于语音识别的考试作弊识别装置可以实现为计算机程序的形式，该计算机程序可以在如图10所示的计算机设备上运行。
[0138]
请参阅图10，图10是本发明实施例提供的计算机设备的示意性框图。该计算机设备可以是用于执行基于语音识别的考试作弊识别方法以对基于语音识别对考试作弊进行判断的用户终端10。
[0139]
参阅图10，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。
[0140]
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行基于语音识别的考试作弊识别方法。
[0141]
该处理器502用于提供计算和控制能力，支撑整个计算机设备500的运行。
[0142]
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行基于语音识别的考试作弊识别方法。
[0143]
该网络接口505用于进行网络通信，如提供数据信息的传输等。本领域技术人员可以理解，图10中示出的结构，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示
更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。
[0144]
其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现上述的基于语音识别的考试作弊识别方法中对应的功能。
[0145]
本领域技术人员可以理解，图10中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定，在其他实施例中，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。例如，在一些实施例中，计算机设备可以仅包括存储器及处理器，在这样的实施例中，存储器及处理器的结构及功能与图10所示实施例一致，在此不再赘述。
[0146]
应当理解，在本发明实施例中，处理器502可以是中央处理单元(central processing unit，cpu)，该处理器502还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field
‑
programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0147]
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序，其中计算机程序被处理器执行时实现上述的基于语音识别的考试作弊识别方法中所包含的步骤。
[0148]
所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的设备、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0149]
在本发明所提供的几个实施例中，应该理解到，所揭露的设备、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为逻辑功能划分，实际实现时可以有另外的划分方式，也可以将具有相同功能的单元集合成一个单元，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。
[0150]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
[0151]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0152]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的计算机可读存储介质包括：u盘、移动硬盘、只读存储器(rom，read
‑
only memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0153]
以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：苏雪琦;王健宗;程宁
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人

上一篇：一种双泵循环型研磨机的制作方法
上一篇：一种制动软管试验自动夹紧装置的制作方法