一种朗读数据的处理系统及方法与流程

文档序号:32307796发布日期:2022-11-23 10:34阅读:68来源:国知局
一种朗读数据的处理系统及方法与流程

1.本发明涉及信息数据管理技术领域,具体为一种朗读数据的处理系统及方法。


背景技术:

2.随着计算机互联网技术的发展,智能终端设备已经进入了课堂。如在朗读课堂通过朗读平板进行朗读训练,朗读教室主要分为教学区、学习区以及展示区,教学区硬件包括小舞台、教学大屏、麦克风,以小舞台、教学大屏等智能设备,辅助语文、英语教学和测评或特色课程等。学习区硬件包括朗读平板、耳麦,终端互联打造智能课堂,实现听说读、al测评、趣味配音、名家示范等教学功能,还有特色实时耳返和降噪技术,给学生及时的声音反馈,让朗读声临其境。展示区硬件包括班级留声墙,多媒体互动展示功能墙,可由老师选择优秀作品上墙,展示学生朗读教学成果,包括作品榜、朗读领航榜。
3.目前朗读教室的训练方式通常是,学生通过朗读平板对朗读音频进行录音,并发送至老师进行审阅,老师根据学生录制的音频对学生情况进行判断,并对学生提出针对性修改意见,达到对学生语言能力、普通话正确、流利程度训练的目的,但是由于学生众多,老师逐个对学生朗读音频进行审阅,工作量较大,且通过老师对学生朗读情况进行判断,存在一定的误差率,为此我们提出一种朗读数据的处理系统及方法以解决上述提出的问题。


技术实现要素:

4.针对现有技术的不足,本发明提供了一种朗读数据的处理系统及方法,包括:音频流处理、文本流处理、数据差异分析、权重双流判断和分发处理。在朗读教室、任何网络状态下中,学生群体通过平板朗读,通过该发明的装置对朗读内容进行原音频、音频文本比较分析,在经过权重判断,最终得出朗读数据,然后分发处理至老师和学生端。学生根据数据可对当前朗读内容的反馈能进行发音和认识的纠正,以及朗读节奏与表达方式,老师可根据数据快速查阅全班学生的朗读情况,提高老师上课的效率和简易性,极大地提升教学效率,解决了上述背景技术中提出的问题。
5.为实现以上目的,本发明通过以下技术方案予以实现:一种朗读数据的处理系统及方法,包括音频流处理、文本流处理、数据差异分析、权重双流判断、分发处理;
6.所述音频流处理;朗读音频经过系统dsp解码,将时域信号转换为频域信号进行分析;
7.所述文本流处理:根据预存储的音频字典,由这四个部分完成的特征提取、声学模型、语言模型和字典;
8.所述数据差异分析包括音频流结果对比、文本流结果对比;
9.所述权重双流判断:音频流处理的结果反应语速、语调的正确表达,文本流处理的结果反应词汇的正确率;
10.所述分发处理:朗读数据补充原有学生音频标签,利用udp组播方式在局域网中进行组播传送,精准分发到各个学生平板的软件接收后展示。
11.优选的,所述音频流处理具体为:朗读音频经过系统dsp解码,将时域信号转换为频域信号进行分析,基于长短期记忆神经网络(lstm)的语音特征识别模型将频谱数据输入到lstm得到一个输出,输出向量经过softmax函数进行转换,输出情绪分类标签向量,得到正确的信号流供下一模块分析使用。
12.优选的,所述文本流处理具体为:根据预存储的音频字典,由这四个部分完成的特征提取、声学模型、语言模型和字典,特征提取工作:将朗读音频信号从时域转换到频域,为声学模型提供合适的特征向量;声学模型中再根据声学特征性计算每一个特征向量在声学特征上的得分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示。
13.优选的,所述音频流结果对比:采用音频的“短时能量”来判断两个音频的相似程度,具体做法如下:
14.a、解码音频到wav格式:输出wav格式音频流;
15.b、获取音频参数和数据:每16位读取一次带符号数作为一次采样点的采样结果;
16.c、归一化处理原始数据:获取所有采样点最大数值max_value(绝对值最大值),通过max_value对所有采样点数据做归一化处理。
17.d、对音频数据做高通滤波,过滤掉低频信号的干扰:设计高通滤波器过滤低频干扰。
18.e、求得该音频的短时能量分布:语音信号和噪音信号的主要区别在于他们的能量。
19.f、短时能量可以有效地判断信号幅度的大小,并可以用于进行有声/无声的判断。
20.优选的,所述文本流结果对比具体为:采用simhash算法,将高维的特征向量映射成低维的特征向量,通过两个向量的hamming distance(汉明距离)来确定朗读文章和朗读文本是否存在不相似的地方和数量。
21.g、分词:对需要比较的文本进行分词,提取特征向量。并对特征向量,进行权重(weight)设置;
22.h、hash:通过hash函数计算各个特征向量的hash值。hash值为二进制数01组成的n-bit签名;
23.i、加权:在hash值的基础上,给所有特征向量进行加权,即w=hash*weight,且遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘;
24.j、合并:将上述各个特征向量的加权结果累加,变成只有一个序列串。
25.拿前两个特征向量举例;
26.k、降维:对于n-bit签名的累加结果,如果大于0则置1,否则置0,从而得到该语句的simhash值,最后我们便可以根据不同语句simhash的海明距离来判断它们的相似度;
27.l、计算:通过simhash签名值,计算汉明距离,随后输出相似值,用作朗读发音数据的做下一个模块的输入。
28.优选的,所述权重双流判断具体为:音频流处理的结果反应语速、语调的正确表达,文本流处理的结果反应词汇的正确率。反应学生朗读内容的语速、语调和词汇表达是否符合ai系统内置的文章,继而判断是否正确表达、咬字清晰。
29.优选的,朗读数据补充原有学生音频标签,利用udp组播方式在局域网中进行组播
传送,精准分发到各个学生平板的软件接收后展示。
30.本发明提供了一种朗读数据的处理系统及方法,具备以下有益效果:
31.1、该朗读数据的处理系统及方法,通过对朗读内容进行原音频、音频文本比较分析,在经过权重判断,最终得出朗读数据,然后分发处理至老师和学生端,学生根据数据可对当前朗读内容的反馈能进行发音和认识的纠正,以及朗读节奏与表达方式,老师可根据数据快速查阅全班学生的朗读情况,提高老师上课的效率和简易性,极大地提升教学效率,可直接辅助老师在语言表达上的针对性教学,使学生得到朗读反馈,间接提升学生对朗读作品的语言能力,和对普通话正确、流利的表达能力。
附图说明
32.图1为本发明人-数据流示意图;
33.图2为本发明环境拓扑的示意图;
34.图3为本发明硬件拓扑的示意图;
35.图4为本发明文本流处理得出发音正确的示意图;
36.图5为本发明拆分指示的示意图;
37.图6为本发明策略匹配和趋势判断的示意图;
38.图7为本发明系统流程的示意图;
39.图8为本发明技术方法拓扑的示意图。
具体实施方式
40.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
41.请参阅图1-3,本发明提供一种技术方案:一种朗读数据的处理系统及方法,其特征在于:包括音频流处理、文本流处理、数据差异分析、权重双流判断、分发处理;
42.音频流处理;朗读音频经过系统dsp解码,将时域信号转换为频域信号进行分析;
43.文本流处理:根据预存储的音频字典,由这四个部分完成的特征提取、声学模型、语言模型和字典;
44.数据差异分析包括音频流结果对比、文本流结果对比;
45.权重双流判断:音频流处理的结果反应语速、语调的正确表达,文本流处理的结果反应词汇的正确率;
46.分发处理:朗读数据补充原有学生音频标签,利用udp组播方式在局域网中进行组播传送,精准分发到各个学生平板的软件接收后展示。
47.音频流处理具体为:朗读音频经过系统dsp解码,将时域信号转换为频域信号进行分析,基于长短期记忆神经网络(lstm)的语音特征识别模型将频谱数据输入到lstm得到一个输出,输出向量经过softmax函数进行转换,输出情绪分类标签向量,得到正确的信号流供下一模块分析使用。
48.文本流处理具体为:根据预存储的音频字典,由这四个部分完成的特征提取、声学模型、语言模型和字典,特征提取工作:将朗读音频信号从时域转换到频域,为声学模型提供合适的特征向量;声学模型中再根据声学特征性计算每一个特征向量在声学特征上的得
分;而语言模型则根据语言学相关的理论,计算该声音信号对应可能词组序列的概率;最后根据已有的字典,对词组序列进行解码,得到最后可能的文本表示。
49.请参阅图4,音频流结果对比:采用音频的“短时能量”来判断两个音频的相似程度,具体做法如下:
50.a、解码音频到wav格式:输出wav格式音频流;
51.b、获取音频参数和数据:每16位读取一次带符号数作为一次采样点的采样结果;
52.c、归一化处理原始数据:获取所有采样点最大数值max_value(绝对值最大值),通过max_value对所有采样点数据做归一化处理。因为音频各个采样点对应的幅值分布会比较广,所以需要通过归一化处理,将信号转换为同意的标准模式,将所有采样点的数据幅值调整到[-1,1]之间,归一化过程如下:
[0053]
x_t(i)=frac{x(i)}{|max(x(i))|}
[0054]
其中,x(i)为第i个采样点原始数据的幅值(-32768,32767)。x_t(i)为第i个采样点数据归一化后的幅值(-1,1);
[0055]
d、对音频数据做高通滤波,过滤掉低频信号的干扰:设计高通滤波器过滤低频干扰。由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,语音信号从嘴唇辐射后,高频端大约在800hz以上有6db/倍频的衰减,因此,在对于语音信号进行分析之前,一般要对语音信号加以提升(预加重)。预加重的目的是为了提升高频部分,弱化低频,使信号频谱变得平坦,以便后续进行频谱分析和声道参数的分析。在音频处理中,存在一种一阶的高通滤波器,以预加重的方式滤除掉50hz的低频干扰。这里运用一个6db/倍频的一阶高通滤波器:
[0056]
y(n)=1.0*x(n)-u*(n-1)
[0057]
其中x(n)为原始音频数据序列,y(n)为通过滤波器预加重后的数据序列,u为预加重系数。它的范围可取在0.9-1.0之间。这里根据音频处理方向公开的经验取u=0.9375;
[0058]
e、求得该音频的短时能量分布:语音信号和噪音信号的主要区别在于他们的能量。语音段的能量比噪音段的大,语音段的能量是噪音段能量和语音声波能量的和,所以在噪音比较小的情况下,计算输入信号的短时能量就能通过设置阈值把语音段和背景噪音段区分开。短时能量可以看做是语音信号的平均经过了一个线性滤波器的输出;
[0059]
f、短时能量可以有效地判断信号幅度的大小,并可以用于进行有声/无声的判断。语音信号的能量随着时间变化会比较明显,其短时能量分析给出了反应这些幅度变化的一个合适的描述方式。这就为我们做音频相似度对比提供了很好的依据。
[0060][0061]
也可以简写成:
[0062]
因此,可以得出,这里的语音短时能量就相当于,每一帧中所有语音信号的平方和。语音短时能量是一个比较简单的语音时域特征,也是一个语音学中经常使用的特征。比较朗读和原文章两个音频在频谱上的相似度,用作朗读发音数据的做下一个模块的输入;
[0063]
请参阅图1,文本流结果对比具体为:采用simhash算法,将高维的特征向量映射成低维的特征向量,通过两个向量的hamming distance(汉明距离)来确定朗读文章和朗读文本是否存在不相似的地方和数量。
[0064]
g、分词:对需要比较的文本进行分词,提取特征向量。并对特征向量,进行权重(weight)设置;
[0065]
h、hash:通过hash函数计算各个特征向量的hash值。hash值为二进制数01组成的n-bit签名;
[0066]
i、加权:在hash值的基础上,给所有特征向量进行加权,即w=hash*weight,且遇到1则hash值和权值正相乘,遇到0则hash值和权值负相乘;
[0067]
j、合并:将上述各个特征向量的加权结果累加,变成只有一个序列串。
[0068]
拿前两个特征向量举例;
[0069]
k、降维:对于n-bit签名的累加结果,如果大于0则置1,否则置0,从而得到该语句的simhash值,最后我们便可以根据不同语句simhash的海明距离来判断它们的相似度;
[0070]
l、计算:通过simhash签名值,计算汉明距离,随后输出相似值,用作朗读发音数据的做下一个模块的输入。
[0071]
请参阅图5与6,权重双流判断具体为:音频流处理的结果反应语速、语调的正确表达,文本流处理的结果反应词汇的正确率。反应学生朗读内容的语速、语调和词汇表达是否符合ai系统内置的文章,继而判断是否正确表达、咬字清晰。将单人源音频作为数据a,将处理的音频作为数据b,将处理的文本作为数据c,而ai系统内置的文章音频样本作为d,文本样本作为e。
[0072]
将各个数据按照样本拆分10段,使用介质学习到一种模式knn模型(knn的原理就是当预测一个新的值x的时候,根据它距离最近的k个点是什么类别来判断x属于哪个类别),然后用它预测新的数据,将音频流和文本流输出的结果作为特征,拆分的数据为真实值。利用系统不断进行线性回归模型的学习,求欧式距离&距离排序求取结果索引,利用样本中10个近邻,并对样本中邻居属性的平均值进行赋值,从而获得样本的属性属性。再从预制存储结果里匹配相关的朗读训练调整策略。
[0073]
请参阅图7与8,分发处理具体为:朗读数据补充原有学生音频标签,利用udp组播方式在局域网中进行组播传送,精准分发到各个学生平板的软件接收后展示。(数据包括:学生语速、语调的变化趋势、词汇表达正确率,以及将在语速、语调的调整策略,词汇表达错误的原因)本系统汇总权重结果、情感分数合发音分数后形成表格利用udp组播方式分发到老师端供老师辅助教学。(数据包括:学生语速、语调的变化趋势、词汇表达正确率,以及将在语速、语调的调整策略,词汇表达错误的原因,且还包括学生的累计朗读趋势)。
[0074]
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性,此外,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些
要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0075]
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1