一种数据自适应降采样方法、装置、设备及介质与流程

文档序号:32011284发布日期:2022-11-02 18:15阅读:87来源:国知局
一种数据自适应降采样方法、装置、设备及介质与流程

1.本技术涉及音频数据压缩技术领域,特别是涉及一种数据自适应降采样方法、装置、设备及介质。


背景技术:

2.对于语音数据通信来说,只有约40%的时间属于以语音为主体的有用信号,而60%左右的语音间隙属于无用的背景噪声信息。对于语音间隙的背景噪声而言,如果采用与语音信号一样高的码率进行传输势必造成网络带宽的巨大浪费;而完全不传输背景噪声又会造成接收端的听觉上不连续,会让人感觉很不舒服,当背景噪声较强时尤为明显,甚至会影响人们对于语音信息的正常理解。并且语音信息在停顿或者端点的地方如果也按同样的无损压缩势必会影响整个语音信息的压缩传输。


技术实现要素:

3.本技术的目的是提供一种数据自适应降采样方法、装置、设备及介质,用于先检测出语音数据的端点处,在端点处设置较少的观测值,按较大的压缩比压缩,而在其他地方则设置较多的观测值,按较小的压缩比压缩。
4.为解决上述技术问题,本技术提供一种数据自适应降采样方法,包括:
5.获取音频数据;
6.将音频数据按照端点检测时间窗长度进行划分,得到端点检测帧序列,端点检测时间窗用于判断所述音频数据是否有端点,并统计端点检测次数,所述端点包括语音起点和终点;
7.获取端点检测帧序列中各端点检测帧的短时能量、短时过零率以及短时信息熵;
8.根据短时能量、短时过零率以及短时信息熵确定端点检测时间窗的信度,信度为表征音频数据是否端点检测的信度;
9.判断信度是否大于预设信度;
10.若是,则输出端点检测时间节点和端点检测次数。
11.根据所述检测时间节点和所述端点检测次数按一定的带宽进行有损音频压缩,一直迭代直到失真大于一定的值,记录此时的带宽,输出最终压缩音频数据。
12.优选地,将音频数据按照端点检测时间窗长度进行划分,得到端点检测帧序列包括:
13.获取音频数据长度;
14.将音频数据长度除以端点检测时间窗长度,得到划分值;
15.将划分值取整,根据取整后的划分值划分音频数据,得到端点检测帧序列。
16.优选地,根据端点检测帧序列确定端点检测时间窗的信度包括:
17.对端点检测帧序列中的各端点检测列初始化;
18.根据初始化后的所述端点检测列获取所述短时能量、所述短时过零率以及所述短
时信息熵并更新各所述端点检测列;
19.根据更新后的各端点检测列确定信度。
20.优选地,当信度大于预设信度时,在输出端点检测时间节点和端点检测次数之前,还包括:
21.判断端点检测帧序列中的端点检测变量的个数是否为1;
22.若是,则进入输出端点检测时间节点和端点检测次数的步骤;
23.若否,则融合多个端点检测变量对应的端点检测时间节点。
24.优选地,在输出端点检测时间节点和端点检测次数之后,还包括:
25.判断划分值个端点检测时间窗是否全部输出端点检测时间节点和端点检测次数;
26.若是,则结束;
27.若否,则返回至获取音频数据的步骤。
28.优选地,端点检测时间窗为多个且互不重叠。
29.优选地,所述根据所述检测时间节点和所述端点检测次数按一定的带宽进行有损音频压缩,一直迭代直到失真大于一定的值,记录此时的带宽包括根据所述时间节点按预设的帧数向前向后进行有损音频压缩,若失真小于一定的值,则增加帧数向前向后进行有损音频压缩,一直迭代直到失真大于一定的值,记录此时的带宽,记录此时的带宽,重复所有端点的压缩直到压缩完成,输出最终压缩音频数据。
30.为解决上述技术问题,本技术还提供了一种数据自适应降采样装置,包括:
31.第一获取模块,用于获取音频数据;
32.划分模块,用于将音频数据按照端点检测时间窗长度进行划分,得到端点检测帧序列,端点检测时间窗用于判断所述音频数据是否有端点,并统计端点检测次数;
33.第二获取模块,用于获取端点检测帧序列中各端点检测列的短时能量、短时过零率以及短时信息熵;
34.确定模块,用于根据短时能量、短时过零率以及短时信息熵确定端点检测时间窗的信度,信度为表征音频数据是否有端点的信度;
35.判断模块,用于判断信度是否大于预设信度;
36.若是,则进入输出模块,用于输出端点检测时间节点和端点检测次数。
37.压缩模块,用于根据所述检测时间节点和所述端点检测次数按一定的带宽进行有损音频压缩,一直迭代直到失真大于一定的值,记录此时的带宽,输出最终压缩音频数据。
38.为解决上述技术问题,本技术还提供了一种数据自适应降采样设备,包括:
39.存储器,用于存储计算机程序;
40.处理器,用于指向计算机程序,实现数据自适应降采样方法的步骤。
41.为解决上述技术问题,本技术还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,实现上述全部数据自适应降采样方法的步骤。
42.本技术所提供的一种数据自适应降采样方法,包括:获取音频数据;将音频数据按照端点检测时间窗长度进行划分,得到端点检测帧序列,端点检测时间窗用于判断音频数据是否端点检测,并统计端点检测次数;获取端点检测帧序列中各端点检测列的短时能量、短时过零率以及短时信息熵;根据短时能量、短时过零率以及短时信息熵确定端点检测时
间窗的信度,信度为表征音频数据是否端点检测的信度;判断信度是否大于预设信度;若是,则输出端点检测时间节点和端点检测次数。由于对音频数据只进行了一次划分,全部的音频数据均用于得出表征音频数据在音频过程中的信度。先检测出语音数据的端点处,在端点处设置较少的观测值,按较大的压缩比压缩,而在其他地方则设置较多的观测值,按较小的压缩比压缩。能够实现在端口处附近有损压缩而其他处进行无损压缩,更多的保留了原音频数据的完整性,提升了压缩传输效率。
43.本技术还提供了一种数据自适应降采样装置,效果同上。
附图说明
44.为了更清楚地说明本技术实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
45.图1为本技术实施例所提供的一种数据自适应降采样方法的流程图;
46.图2为本技术实施例所提供的一种数据自适应降采样装置结构图;
47.图3为本技术实施例所提供的一种数据自适应降采样设备结构图。
具体实施方式
48.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本技术保护范围。
49.本技术的核心是提供一种数据自适应降采样方法及系统,先检测出语音数据的端点处,在端点处设置较少的观测值,按较大的压缩比压缩,而在其他地方则设置较多的观测值,按较小的压缩比压缩。能够实现在端口处附近有损压缩而其他处进行无损压缩,更多的保留了原音频数据的完整性,提升了压缩传输效率。
50.为了使本技术领域的人员更好地理解本技术方案,下面结合附图和具体实施方式对本技术作进一步的详细说明。
51.图1为本技术实施例所提供的一种数据自适应降采样方法的流程图。如图1所示,该数据自适应降采样方法,该方法包括:
52.s10:获取音频数据。
53.获取音频数据,并得出音频数据的长度,其中,采样频率记为,单位为赫兹(hz)。获取音频数据的采样时间记为s,单位为秒(s),则音频数据的长度可以通过以下公式计算:
54.l=f
·s55.其中,对于长度为l的音频数据可以表示为
56.其中,表示第k帧短时能量、表示第k帧短时过零率、表示第k帧短时信息熵;表示第k帧背景噪声的短时能量、表示第k帧背景噪声的短时过零率、表示第k帧背景噪声的短时信息熵。音频数据为按照时间序列获取的数据。需要说明的是,音频数据是一种随着采集的时间不同,采集到的数据也不同,会随着时间变化而变化的时间序列数据。
57.s11:将音频数据按照端点检测时间窗长度进行划分,得到端点检测帧序列。
58.其中,端点检测时间窗用于判断音频数据是否端点检测,并统计端点检测次数。
59.其中,将音频数据按照端点检测时间窗长度进行划分,得到端点检测帧序列包括:
60.获取音频数据长度;
61.将音频数据长度除以端点检测时间窗长度,得到划分值;
62.将划分值取整,根据取整后的划分值划分音频数据,得到端点检测帧序列。
63.设定端点检测时间窗长度为d,则将音频数据根据端点检测时间窗长度划分出的端点检测时间窗的个数以如下公式进行计算:
64.m=roundup(l/d)
65.其中,roundup(x)表示向上取整函数,用于得到整数的计算结果,即取不小于x的最大整数,m为端点检测时间窗的个数,也为划分值。此时对于第n个端点检测时间窗,存在长度为d的音频数据,表示为:
66.其中cd∈c
l

67.需要说明的是,在本实施例中所提及的端点检测时间窗为多个且互不重叠(互斥)。端点检测时间窗即根据指定的单位长度来框住时间序列进行数据采样,从而计算框内的数据。相当于一个长度指定的滑块在刻度尺上面滑动,每滑动一个单位即可反馈滑块内的数据。设定时间窗的目的是利用设定长度的时间窗将时间序列数据进行切段,依次判断,向上取整即代表多余的时间序列是也视为一个端点检测。其中即将多个帧序列构建为随机有限集。
68.s12:获取端点检测帧序列中各端点检测列的短时能量、短时过零率以及短时信息熵。
69.s13:根据短时能量、短时过零率以及短时信息熵确定端点检测时间窗的信度。
70.信度为表征音频数据是否端点检测的信度。每个采样滑窗内的音频数据存在端点检测与非端点检测两种情况,音频端点检测变量可以建模为随机有限集,一个时间窗可以视作一个帧序列,即可以理解为,一个端点检测时间窗的长度与帧序列中帧的数量相同。对于第n个端点检测时间窗中的音频数据,对于k时刻采样点的音频端点检测变量可以表示为离散有限集变量,记为:{φ,1}k。其中φ表示空集,即非端点检测,1表示端点检测。则此时对于第n个端点检测时间窗中的音频数据建模为:
71.gn={{φ,1}1,{φ,1}2,{φ,1}3,l,{φ,1}k}
72.对上述数据建模成离散有限集。
73.s14:判断信度是否大于预设信度。
74.若是,则进入步骤s15:输出端点检测时间节点和端点检测次数。
75.s16:根据端点检测时间节点进行降采样。
76.由于上述已经得到了端点检测次数,即可统计并收集获取端点检测次数,以及在相应的判断时间窗中确定其端点检测时间节点,最后输出即可。输出的形式可以为“端点检测时间节点为14:29”,“端点检测次数共计24次”等,上述提及的输出形式仅为众多实施例中的一种,不对输出方式进行限定,可以根据具体实施场景确定其实施方式。
77.本技术所提供的一种数据自适应降采样方法,包括:获取音频数据;将音频数据按
照端点检测时间窗长度进行划分,得到端点检测帧序列,端点检测时间窗用于判断音频数据是否端点检测,并统计端点检测次数;根据端点检测帧序列确定端点检测时间窗的信度,信度为表征音频数据是否端点检测的信度;判断信度是否大于预设信度;若是,则输出端点检测时间节点和端点检测次数。由于对音频数据只进行了一次划分,全部的音频数据均用于得出表征音频数据在音频过程中的信度。此时降低了输出的端点检测次数和端点检测时间节点的偏差,得出精确的端点检测,然后根据语音数据的端点处,在端点处设置较少的观测值,按较大的压缩比压缩,而在其他地方则设置较多的观测值,按较小的压缩比压缩。能够实现在端口处附近有损压缩而其他处进行无损压缩,更多的保留了原音频数据的完整性,提升了压缩传输效率。
78.在上述实施例的基础上,作为一种更优的实施例,根据端点检测帧序列确定端点检测时间窗的信度包括:
79.对端点检测帧序列中的各端点检测列初始化;
80.根据初始化后的端点检测列获取短时能量、短时过零率以及短时信息熵并更新各端点检测列;
81.根据更新后的各端点检测列确定信度。
82.对于第n个端点检测时间窗对应的端点检测帧序列可以由上述记载内容可记为gn={parn(1),parn(2),parn(3),l,parn(d)},则端点检测帧序列中的一个帧可以表示为parn(i),其中i∈(1,d),根据如下公式进行计算:
83.parn(i)=(w,x
t
,h(x
t
))
84.其中,为短时能量,x
t
为在端点检测时间窗中第t个短时过零率对应的全局短时过零率,h(x
t
)为短时过零率音频数据的信号幅值,则对于第n个端点检测时间窗x
t
可根据如下公式进行计算:
85.x
t
=(n-1)
·
d+1+t
86.需要说明的是,每个帧的短时能量为该端点检测时间窗短时能量的平均值。例如:端点检测时间窗短时能量为1,且在该端点检测时间窗总含有q个帧,则每个帧的短时能量为1/q。
87.其中,对于第n个端点检测时间窗中的端点检测帧序列进行初始化,按照以下公式进行计算:
[0088][0089]mn
(i)=x
t
[0090]hn
(i)=h(x
t
)
[0091]
其中,wn(i)为第i个帧的短时能量;mn(i)为第i个帧的短时过零率;hn(i)为第i个帧的短时信息熵。
[0092]
需要说明的是,在本实施例中根据以下公式计算端点检测的检测概率pd:
[0093]
[0094]
其中,为sigmoid函数,h(x
t
)为x
t
短时过零率音频数据的信号幅值,h为预设信度。
[0095]
需要说明的是,短时信息熵vn可以按照以下公式进行计算:
[0096][0097]
则,更新后的端点检测列的滤波端点检测信度和滤波端点检测时间根据如下公式计算:
[0098][0099][0100]
其中,k为h(x
t
)低于预设信度h的系数。则,最终得到更新后的信度通过以下公式得出:
[0101][0102]
其中,为更新后的信度。
[0103]
在上述实施例的基础上,作为一种更优的实施例,当信度大于预设信度时,在输出端点检测时间节点和端点检测次数之前,还包括:
[0104]
判断端点检测帧序列中的端点检测变量的个数是否为1;
[0105]
若是,则进入输出端点检测时间节点和端点检测次数的步骤;
[0106]
若否,则融合多个端点检测变量对应的端点检测时间节点。
[0107]
根据上述实施例的记载可得,对于第n个端点检测时间窗,若有多个端点检测变量,则将各端点检测变量对应的端点检测时间根据以下公式进行融合:
[0108][0109]
其中,s为端点检测变量的个数,为端点检测时间节点。
[0110]
在上述实施例的基础上,作为一种更优的实施例,在输出端点检测时间节点和端点检测次数之后,还包括:
[0111]
判断划分值个端点检测时间窗是否全部输出端点检测时间节点和端点检测次数;
[0112]
若是,则结束;
[0113]
若否,则返回至获取音频数据的步骤。
[0114]
为了使得得到的数据更加精确,需要将全部端点检测时间窗都遍历一遍,以此实现得到数据更加准确,提升音频数据使用体验感。
[0115]
在上述实施例的基础上,作为一种更优的实施例,在获取音频数据之后,在将音频数据按照端点检测时间窗长度进行划分,得到端点检测帧序列之前,还包括:
[0116]
对音频数据进行卡尔曼滤波处理。以便于去除杂乱波的干扰。此外,需要说明的是,还可以使用列滤波的方式避免杂乱波的干扰。
[0117]
在上述实施例中,对于数据自适应降采样方法进行了详细描述,本技术还提供数
processing unit,cpu);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器31可以集成有图像处理器(graphics processing unit,gpu),gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器31还可以包括人工智能(artificial intelligence,ai)处理器,该ai处理器用于处理有关机器学习的计算操作。
[0133]
存储器30可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器30还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器30至少用于存储以下计算机程序,其中,该计算机程序被处理器31加载并执行之后,能够实现前述任意一个实施例公开的数据自适应降采样方法的相关步骤。另外,存储器30所存储的资源还可以包括操作系统和数据等,存储方式可以是短暂存储或者永久存储。其中,操作系统可以包括windows、unix、linux等。数据可以包括但不限于数据自适应降采样方法等。
[0134]
在一些实施例中,数据自适应降采样设备还可包括有显示屏、输入输出接口、通信接口、电源以及通信总线。
[0135]
本领域技术人员可以理解,图3中示出的结构并不构成对数据自适应降采样设备的限定,可以包括比图示更多或更少的组件。
[0136]
本技术实施例提供的数据自适应降采样设备,包括存储器30和处理器31,处理器31在执行存储器30存储的程序时,能够实现数据自适应降采样方法。
[0137]
最后,本技术还提供一种计算机可读存储介质对应的实施例。计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述方法实施例中记载的步骤。
[0138]
可以理解的是,如果上述实施例中的方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-only memory),rom、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0139]
以上对本技术所提供的一种数据自适应降采样方法、装置、设备及介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以对本技术进行若干改进和修饰,这些改进和修饰也落入本技术权利要求的保护范围内。
[0140]
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那
些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1