一种听障儿童发音水平测试方法、设备及存储介质

文档序号：33278502发布日期：2023-02-24 20:19阅读：46来源：国知局

1.本发明属于特殊教育技术领域。更具体地，涉及一种听障儿童发音水平测试方法、设备及存储介质。

背景技术：

2.教育评价作为一种评教手段在整个教育活动过程中占据着重要的位置，可以对听障儿童的学习效果和教师的教学质量进行判断，得出听障儿童知识掌握的情况。然而，传统的教育评价仅通过报告得到较为笼统的测验分数或能力值，并对其进行排序，不仅无法详细的获取听障儿童的认知结构和知识掌握的情况信息，而且也没有对学习信息进行更深入的分析和挖掘，使得不能帮助教师更加针对性的指导听障儿童。
3.目前一些关于教育评价的相关研究主要集中在线上教育平台，除了能够记录学习者的海量历史学习数据还能记录下学习者的一些学习习惯数据如鼠标移动轨迹、点击次数等，线上平台海量且丰富的数据驱动着知识追踪领域不断创新；但是针对线下课堂进行知识追踪建模的研究还是非常少的，尤其是在特殊教育领域几乎是零开展。
4.对听障儿童课堂学习数据进行知识追踪建模既能实现技术的落地应用也能解决一些现实困境。其中，图神经网络知识追踪(gkt)是知识追踪领域里一个全新方向，这个模型是图神经网络在知识追踪方向的突破性应用，其完全舍弃了以往rnn或者是transformer这样的线性模型，整个更新知识状态的操作都是在图上完成，充分利用到了图神经网络中信息传递的机制。不过gkt仍然属于比较初始的模型，在现实应用中可在初始gkt上模型上做出一些改进。
5.专利申请号为cn201810274088.4的发明专利公开了一种基于模糊综合评价的听障儿童元音评估方法。其主要技术方案为使用三维电磁发音记录获得多个正常人和听障儿童阅读语料时的基本声学参数u1、舌位声学参数u2、唇舌运动参数u3建立模糊综合评价数据库，以及建立模糊综合数据库的一级评价指标和二级评价指标；将听障儿童的二级评价指标的每个特征参数到正常人的特征参数的距离作为顺序作为隶属函数，设置六个得分等级，建立判断矩阵；再通过嫡权评价指标每个特征参数到正常人的一级评价指标的特征参数的距离标准差作为一级评价指标的权重，最终利用m(
·
+)算子，得到听障儿童的发音得分。上述方案作为一种传统领域的听障儿童发音评估方法，需要重新采集实验所需特定数据，并且需要人工建立数据库和指标，使得听障儿童的发音得分完全受实验时所采集数据和评估标准的等硬性指标来决定；其次，大量的最接近真实水平语训和课堂发音历史记录无法得到应用；此外，单一的评分也无法反应出听障儿童长期的发音水平的变化。

技术实现要素：

6.针对以上现有技术的至少一个缺陷或改进需求，本发明提供了一种听障儿童发音水平测试方法、设备及存储介质，通过对听障儿童学习过程中的学习数据进行个性化建模实现对听障儿童现有发音水平进行预测，同时也提高了知识追踪模型的个性化能力和时间
动态特性。
7.为了实现上述目的，按照本发明的第一个方面，本发明采用了如下技术方案。
8.一种听障儿童发音水平测试方法，该方法包括：
9.采集听障儿童的训练过程中一段时间内的发音数据集，并按训练时间顺序进行排序，然后将所述发音数据集按所述顺序依次进行预处理；
10.将所述预处理后的发音数据集按所述顺序依次全部输入到聚类模型中进行聚类得到多组聚类簇，再将所述多组聚类簇分别输入到图神经网络知识追踪模型中进行单独训练后得到多组知识追踪模型；
11.所述多组知识追踪模型接收新采集的听障儿童的发音数据依次进行所述预处理和所述聚类后，输出测试结果。
12.进一步的，所述发音数据集包括音频数据和/或视频数据。
13.进一步的，所述预处理：
14.s1：记录听障儿童的id、记录发音正误并标记知识点；
15.s2：根据所述发音正误及知识点得到相关特征并进行特征筛选得到聚类所需的特征项数据；
16.进一步的，所述聚类所需的特征项数据包括回答问题正确率、尝试次数、回答响应时间及寻求提示次数特征。
17.进一步的，所述记录发音正误是将所述发音数据集与标准发音数据集进行对比，以单个发音为一条记录，正确发音标记为1、错误发音标记为0。
18.进一步的，所述知识点为所有汉语拼音的单独发音；
19.所述标记知识点为给每个所述单独发音按所述顺序进行编号。
20.进一步的，所述聚类为：
21.根据所述聚类所需的特征项数据对所述发音数据集进行切割，再依据所述顺序对每个切割后的所述发音数据附上时间戳；
22.取所有特征项的平均值作为聚类的特征值，再使用标准化对特征项的平均值做无量纲化处理后生成带权重的网络图，再进而得到带有时间戳的矩阵；
23.依据所述矩阵在每个时间点生成聚类簇，并在下一个时间点将新数据输入后调整聚类簇，最终得到当前时刻的多组聚类簇。
24.进一步的，所述聚类模型的目标函数包括时间平滑的惩罚项。
25.按照本发明的第二个方面，还提供了一种听障儿童发音水平测试设备，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述计算机程序被所述处理单元执行时，使得所述处理单元执行上述任一项所述方法的步骤。
26.按照本发明的第三个方面，还提供了一种存储介质，其存储有可由访问认证设备执行的计算机程序，当所述计算机程序在访问认证设备上运行时，使得所述访问认证设备执行上述任一项所述方法的步骤。
27.总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：
28.(1)本发明的一种听障儿童发音水平测试方法、设备及存储介质，在使用知识追踪模型的基础上，对听障儿童进行了进化聚类处理，使听障儿童的发音得分不会完全受实验
时采集数据和评估标准的硬性指标决定，可以避免传统测评的目标性、主观性等弊端，给教师的工作提供便利和参考价值，同时也比单独使用知识追踪模型的测试结果更准确可靠。
29.(2)本发明的一种听障儿童发音水平测试方法、设备及存储介质，使用聚类使聚类的结果随着数据特征值的变化在不同的时刻做出调整变化并避免相邻时刻的聚类结果相差较大，使对于任意时刻新进入的儿童都能将其聚类到与其表现相似的学习者簇中，而对于此类儿童，尽管未能有其历史学习数据来训练知识追踪模型也能输出一个较准确的测试结果。
30.(3)本发明的一种听障儿童发音水平测试方法、设备及存储介质，使用图神经网络能够很好的挖掘不同试题之间的关联关系，在更新知识状态的过程中，能将包含相关知识点的试题掌握状态都得到更新，在不需要额外去分析试题之间的隐含联系的前提下，可以很好的反映出听障儿童长期的发音水平的变化。
31.(4)本发明的一种听障儿童发音水平测试方法、设备及存储介质，利用听障儿童在课堂中连续一段时间内的发声数据作为听障儿童的学习数据，使真实水平语训和课堂发音历史记录也能很好的得到应用，不仅不增加听障儿童额外负担，而且可以获得更多的真实可靠的听障儿童发音数据。
附图说明
32.为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
33.图1为本发明提供的一种听障儿童发音水平测试方法、设备及存储介质的方法流程示意图；
34.图2为本发明提供的一种听障儿童发音水平测试方法、设备及存储介质的聚类流程示意图；
35.图3为本发明提供的一种听障儿童发音水平测试方法、设备及存储介质的图神经网络知识追踪模型的示意图。
具体实施方式
36.为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
37.图1为本发明提供的一种听障儿童发音水平测试方法、设备及存储介质的方法流程示意图，解决了听障儿童的发音得分完全受实验时采集数据和评估标准的硬性指标来决定、真实水平语训和课堂发音历史记录无法得到应用、以及单一的评分无法反映出听障儿童长期的发音水平变化的问题，该方法包括：
38.采集听障儿童的训练过程中一段时间内的发音数据集，并按训练时间顺序进行排序，然后将发音数据集按顺序依次进行预处理。
39.将预处理后的发音数据集按顺序依次全部输入到聚类模型中进行聚类得到多组
聚类簇，再将多组聚类簇分别输入到图神经网络知识追踪模型中进行单独训练后得到多组知识追踪模型。
40.将新采集的听障儿童的发音数据输入到多组知识追踪模型中输出当前听障儿童的发音水平及测试结果评估参数。
41.首先使用摄像机和录音笔获取听障儿童的训练过程中的原始数据，筛选出原始数据中听障儿童主动发音的片段，将采集到的发音数据集按照训练时间的先后顺序保存。
42.具体而言，在听障儿童训练课堂上，提前在教室内架上摄像机并放置录音笔，在听障儿童进行训练时采集听障儿童的主动说话和发音，连续记录一段时间内的多个听障儿童课堂视频，将视频数据以每个听障儿童为单位进行素材剪切，并与音频数据的发音一一对应，按课堂时间为先后顺序对素材进行剪切，然后按时间先后顺序以每个听障儿童的每节课作为一个单独文件对视频进行保存。
43.需要说明的是，为解决录像过程可能存在的收音不清楚的情况，在架设摄像机的同时使用录音笔记录每节课的音频记录。作为本发明的一个实施例，在网络环境下使用科大讯飞录音笔，可自动将语音文件转换成文本文件，并保存成单个文件。
44.然后将发音数据集按顺序依次进行预处理。具体的预处理步骤是：针对听障儿童在现实课堂训练是产生的一系列发音数据集，首先记录听障儿童的id、记录发音正误并标记知识点；然后根据发音正误及知识点得到相关特征并进行特征筛选得到聚类所需的特征项数据。
45.首先明确知识点为所有汉语拼音的单独发音；标记知识点是给每个单独发音按顺序进行编号。记录发音正误是将发音数据集与标准发音数据集进行对比，以单个发音为一条记录，正确发音标记为1、错误发音标记为0。
46.针对发音数据集，按照训练顺序记录下发音词汇和发音正误，并标记整个发音过程中所包含的知识点，此处所有拼音表中的每个拼音为一个知识点。
47.选取词汇发音或单个拼音发音作为一道习题记录，记录每道习题所包含的知识点、对应的听障儿童编号、以及拼音发音正误。在所有发音数据集中，若为单个拼音发音，则直接记录发音正误，正确记录为1错误记录为0，此时一条问题记录只包含一个知识点；若为词语发音，则在记录词语发音正误的同时要标记出一个词语所包含的所有知识点，此时一条问题记录包含多个知识点。
48.根据发音正误及知识点记录每个习题记录的尝试次数和寻求提示次数。一个发音片段时间作为一次回答问题的响应时间，根据历史数据计算出该听障儿童从数据采集到当前时刻回答问题的总数量，并计算出当前时刻学生作答的正确率。此时一条数据记录包括上述的所有特征标记。从而获得听障儿童的回答问题数量、正确率、尝试次数、回答响应时间和使用提示的次数等特征，然后进行特征筛选得到数据集中的回答问题正确率、尝试次数、回答响应时间及寻求提示次数这四个维度的特征，作为聚类所需的特征项数据。
49.将预处理后的发音数据集按顺序依次全部输入到聚类模型中进行聚类得到多组聚类簇。
50.具体而言，根据聚类所需的特征项数据对发音数据集进行切割，再依据训练顺序对每个切割后的发音数据附上时间戳；取所有特征项的平均值作为聚类的特征值，再使用标准化对特征项的平均值做无量纲化处理后生成带权重的网络图，进一步得到带有时间戳
的相似矩阵；最后依据相似矩阵在每个时间点生成聚类簇，并在下一个时间点将新数据输入后调整聚类簇，最终得到当前时刻的多组聚类簇。
51.作为本发明的一个实施例，聚类模型是一个进化louvain聚类模型，其用于根据学习者的学习数据，在每一个时间点上对学习者进行动态的聚类，得到不同知识水平的学生群体。
52.在静态louvain聚类的基础上融入了进化聚类的框架，对其在时间序列上进行扩展。通过向静态聚类的目标函数增加时间平滑的惩罚项，从而避免相邻时刻的聚类结果相差较大，进而能在每一时刻都得到质量较高的聚类簇。将预处理数据按时间戳载入到进化louvain模型中，对于t时刻的聚类，选取学习者在t时刻之前的平均表现作为当前时刻学习者聚类的特征值，输出当前时刻的聚类簇，在每一时刻得到当前时刻的聚类簇直到最后作答序列载入后输出最终聚类结果。
53.在某一时间下，仅当前时间戳下所在的数据可见，取听障儿童当前时间之前所有的特征项表现的平均值作为当前时刻学习者进行聚类的特征值，再进行无量纲化处理，并生成带时间戳的相似矩阵，同时初始化一个带权重的网络。
54.作为本发明的进一步改进，还输入了时间平滑方程的参数，避免相邻时刻的聚类结果相差较大，进而能在每一时刻都得到质量较高的聚类簇。使用louvain算法对整个社区模块度进行度量，并选择能使模块度增益最大的邻居节点加入当前聚类簇，重复这一过程，直到每一个节点的社区归属都不在发生变化，进化louvain聚类输出当前时刻的聚类结果。
55.值得说明的是，louvain算法的优化目标为最大化整个数据的模块度，一个无向图g＝(v，e)中的一个分区c的模块化q的定义模块度的计算为：
[0056][0057]
其中，m为图中边的总数量，di表示所有指向节点i的连边权重之和，dj同理，表示所有指向节点j的连边权重之和。a
ij
表示节点i和节点j之间的连边权重，ci是顶点i的社区，如果u＝v，则δ(u，v)函数定义为1，否则定义为0。在算法开始，每个节点都是一个独立的社区，社区内的连边权重为0。
[0058]
算法遍历数据中的所有节点，针对每个节点遍历该节点的所有邻居节点，衡量把该节点加入其邻居节点所在的社区前后所带来的模块度的收益(前后图的模块度之差)。模块度之差计算公式为：
[0059][0060]
其中，是社区c内顶点i的度，∑total是社区c的事件边总数。选择对应最大收益的邻居节点，加入其所在的社区。这一过程重复进行，直到每一个节点的社区归属都不在发生变化。
[0061]
图2为本发明提供的一种听障儿童发音水平测试方法、设备及存储介质的聚类流程示意图。在知识追踪数据集中，由于能够在每次t时刻将潜在的数千个新样本合并数据集，所以针对此类在线数据集，需要保证每个时刻都能取得高质量的聚类结果为解决上述问题，在静态的louvain聚类上实现演化聚类框架，对其在时间序列上进行扩展。通过向静
态聚类的目标函数增加时间平滑的惩罚项，从而避免相邻时刻的聚类结果相差较大。该聚类框架具有平滑性、一致性和受噪音干扰小等优点。应用于静态louvain聚类的时间平滑方程为：
[0062][0063]
使用这种方法，聚类簇不会随着时间的推移受到新点的很大影响，因为过去的分区点被优先于它们之上。这种方法提供了一种在新信息可用时缓慢调整模块化的方法。以类似于演化半径测量的方式，使用用户定义的参数α来调整时间t的网络快照与之前时间t-1的网络历史之间的比率。
[0064]
将得到的多组聚类簇分别输入到图神经网络知识追踪模型中进行单独训练后得到多组知识追踪模型；也就是将听障儿童进行聚类，在单独的知识追踪基础上实现了个性化的知识追踪，从而使听障儿童的知识水平的预测准确率在原有基础上有了一定的提升。
[0065]
具体而言，也就是按照聚类结果对将所有的听障儿童按簇划分，并将完整的数据集按照听障儿童的分类进行分割，对于分割好的数据集分别输入进图神经网络知识追踪模型中，即可训练出多组个性化的知识追踪模型。
[0066]
当获得新的发音测验数据时，多组知识追踪模型接收新采集的听障儿童的发音数据依次进行预处理和聚类后，输出测试结果，也就是当前听障儿童的发音水平和在测试集习题上的正误表现，及测试结果评估参数。测试结果评估参数为模型的预测结果与真实结果之间的偏差。
[0067]
图3为本发明提供的一种听障儿童发音水平测试方法、设备及存储介质的图神经网络知识追踪模型的示意图，在图神经网络知识追踪模型中，将v表示试题，e表示试题之间的关联，图结构表示为g＝(v，e)。模型主要包括图的聚合、图的更新以及模型输出三个主要步骤。在图更新阶段，学习者每次答题的结果受其当前知识状态的影响，这个知识状态会随着时间不断更新，当学习者答对了某一试题后，此时学习者不仅在当前试题上的知识状态得到更新，对于此试题包含的多个知识点上的掌握状态也会发声改变具体变现为包含这些知识点的试题上学习者的掌握状态也能更新。
[0068]
由于在每个时间步，模型都会得到学习者的一个新的交互信息，那么学习者状态需要更新，同时受影响节点也会将影响传播到邻居节点。假设交互的试题为i，受到影响的所有邻居节点为ni，则对于节点它的状态更新公式为：
[0069][0070]
其中，表示节点i的初始状态，x
t
表示学习者的反应，e
mbx
∈r
2n
×
exe
表示包含试题和学习者反应的嵌入矩阵，节点i的临时状态为对于节点j∈ni，其状态变化公式为：
[0071][0072]
此时，e
mbx
∈rn×
exe
为试题嵌入矩阵，这里采用拼接的方式将不同节点的信息放置在一起。
[0073]
根据已经聚合的特征和知识图架构来更新整个知识的结构图，整个图的更新细分为图的空间更新和时间维度上的更新。
[0074]
空间更新包括对节点的更新和其邻居节点的更新，对于节点i，唯一的输入是
使用简单的多层感知机来处理数据，公式为：
[0075][0076]
对于邻居节点，不仅有其本身的隐藏状态还有从节点i聚合到的需要设计一个能融合两个输入的处理方式。
[0077]ai，j
表示试题i和试题j之间的关系，此处假定具有相同知识点的试题之间具有边连接，如果有边连接，那么值大于0，否则为0。计算矩阵a，使用试题-知识点矩阵连接矩阵q计算为：a＝qqt，使用归一化地方法对矩阵a进行处理，把数据变成(0，1)之间的小数为：
[0078][0079]
使用多层感知机来对拼接的隐藏状态进行处理，然后使用涉及两个节点的邻接矩阵的值作为其权重，得到节点的邻居节点的状态更新公式为：
[0080][0081]
在时间维度的更新参考dkt和dkvmn使用门更新和gru更新，公式为：
[0082]et
＝sigmoid(w
ect+1
+be)
[0083]
α
t
＝tanh(w
αct+1
+b
α
)
[0084][0085][0086]
其中，we和w
α
为权重矩阵，be和b
α
为各自的偏执。
[0087]
最后是模型的输出，即为预测学习者在未来对试题的反应，预测要得到一个0到1之间的值，这个值越高表示学习者答对这道题的概率越大，预测结果p的计算方式为：
[0088][0089]
其中，w
out
表示每个节点的公共权重矩阵，bk表示节点k的偏置项。
[0090]
对于能够覆盖到的节点的数据，我们能够根据标签容易的计算出模型这部分的损失。在图神经网络中采用拉普拉斯正则化，使得有标签的这部分信息能够惠及到整个图的学习过程中，公式为：
[0091]
l
lap
＝∑
i，j a
i，j
||f(xi)-f(xj)||2＝f(x)
t
δf(x)
[0092]
则最终构成的损失函数表示为l＝l0+αl
lap
。其中α表示为权重因子，x表示节点特征，δ＝d-a，a表示图的邻接矩阵，d表示度矩阵，f(x)表示可微分的神经网络。
[0093]
对于某个听障儿童的当前知识水平，将其输入所在组的知识追踪模型中测试即可。作为本发明的一个实施例，对整个预处理数据集按照聚类进行分组，运用分组好的预处理数据分别训练出多组图神经网络知识追踪模型。模型训练一次共进行50个epoch，batch-size设置为128。根据图神经网络知识追踪的输出，可以得到当前时刻的下一时刻儿童在所有试题上的知识状态。同时模型默认选取最后一个时刻的输入的数据集作为测试集，每个epoch结束会计算出本次训练的loss、auc、acc参数，所有训练结束模型会自动给出最佳的epoch并进行测试，测试完毕会同样会输出上述参数。
[0094]
本发明针对所有经过预处理得到的数据，选取相关特征使用进化聚类对听障儿童进行聚类，按照得到的不同聚类簇分别输入到知识追踪模型进行多组建模。使用模型对听障儿童现阶段拼音发音水平进行预测，以预测结果作为现阶段听障儿童的知识水平。本发
access memory，ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0103]
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通进程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(read-only memory，rom)、随机存取器(random access memory，ram)、磁盘或光盘等。
[0104]
以上所述者，仅为本公开的示例性实施例，不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰，皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后，将容易想到本公开的其实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的范围和精神由权利要求限定。
[0105]
以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。
[0106]
本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：廖盛斌方安妮
技术所有人：华中师范大学
我是此专利的发明人

上一篇：一种用于5G基站的调节结构的制作方法
上一篇：一种适用于阀门的清洗装置的制作方法