一种基于Swin-Transformer的语音语义信号传输方法

文档序号：35285157发布日期：2023-09-01 05:36阅读：49来源：国知局

本发明属于语义通信领域，尤其是涉及一种基于swin-transformer网络结构的语音去噪解码方法。

背景技术：

1、随着无线通信智能化应用需求的快速提升，未来通信网络将从单纯追求高传输速率的架构转变为万物智联的全新架构。语义通信被认为是一种有前景的技术，有望成为未来万物智联网络的新型基础范式，与传统通信传输比特符号不同的是，语义通信传输的是信息的含义，其核心是“达意通讯”或“内容通讯”，让计算机可以理解人类信号中更深层次的信息，是一种真正意义上的人工智能通信方式。

2、语义通信具有高准确率、低带宽、应用场景灵活多变等特点，目前已经成为一个研究热点。而语音信号本身含有大量的语义信息，现有的语义传输方法大多从时域或频域的角度出发，在接受端恢复原始的语音信号，但是受噪声、干扰的影响较强，很难满足实际需求。

技术实现思路

1、本发明的目的是针对上述问题，提供一种基于swin-transformer网络架构的语音语义信号传输方法。

2、为达到上述目的，本发明采用了下列技术方案：

3、一种基于swin-trasformer的语音语义通信传输方法，该方法包括以下步骤：

4、s1.对语音信号进行数据预处理；先将输入的语音信号进行数据归一化操作，然后经过分帧加窗，帧移后得到若干段等长的语音信号帧，再将每一帧的数据进行拼接得到一个由语音帧组成的二维矩阵，作为整个网络的输入形式；

5、s2.将预处理后的语音信号通过语义编码器，自动提取语音信号中的语义信号；

6、s3.将语义信号通过物理信道以模拟现实生活中的噪声干扰；

7、s4.将带有噪声干扰的语义信号通过语义解码器；将带有噪声的信号分别经过卷积层和transformer-based decoder层，重新构建其浅层特征和深层特征，最后经过keepfeat layer实现多重维度语义信息的融合；

8、s5.对经过语义解码器的信号进行信号重建，以恢复出原始的语音信号。

9、本发明有益效果实现如下：

10、本发明的优点在于：

11、1、对于原始的语音信号无需作过多的预处理操作，以时域信号直接作为系统输入，减少了计算的成本，这对于注重时时传输的智能通信系统来说是极为重要的。

12、2、通过对时域信号进行特征重建，本发明可以在不增加传输数据量的前提下，实现接收端原始时域信号的精确恢复。

13、3、在接收端创新性地引入了swin-transformer网络，利用多头注意力机制可以充分提取到所传信号的语义特征，以便于后续的重构

14、4、相较于其他地语义通信系统，我们的系统可以胜任更为复杂多变的信道环境，抗噪能力十分出色，在极低信噪比下依然可以表现出良好的性能。

技术特征：

1.一种基于swin-transformer的语音语义信号传输方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种基于swin-transformer的语音语义信号传输方法，其特征在于步骤s1中数据预处理实现如下：

3.根据权利要求2所述的一种基于swin-transformer的语音语义信号传输方法，其特征在于步骤s2具体实现过程描述为：

4.根据权利要求3所述的一种基于swin-transformer的语音语义信号传输方法，其特征在于语义编码器采用二维卷积神经网络，通过矩阵卷积、平移的操作获取样本点数据特征的相关性；所述的二维卷积神经网络由两层二维卷积神经网络组成，第一层的输出通道数为32，卷积核大小为3×3，步长为2，padding为1；第二层的输出通道数为1，卷积核大小为1×1，步长为1，padding为0。

5.根据权利要求3所述的一种基于swin-transformer的语音语义信号传输方法，其特征在于步骤s3具体实现过程描述为：

6.根据权利要求3所述的一种基于swin-transformer的语音语义信号传输方法，其特征在于步骤s4具体实现过程描述为：

7.根据权利要求6所述的一种基于swin-transformer的语音语义信号传输方法，其特征在于深层特征提取模块采用3×3的二维卷积pconv(·)，将原本的c×f×l的语义信号变为pc×pf×pl，最后，将三维矩阵展平成一个二维向量spe作为后续transformer-baseddecoder的输入，其中以上的过程表示为：

8.根据权利要求7所述的一种基于swin-transformer的语音语义信号传输方法，其特征在于步骤s5具体实现描述为：

9.根据权利要求8所述的一种基于swin-transformer的语音语义信号传输方法，其特征在于信号重建器rγ是由upsample layer和last layer组成的；upsample layer的基本组成单元包括前后两个二维卷积以及中间的上采样操作；其中前后两个二维卷积是为了固定特征，增加整体网络的泛化性；而中间的上采样操作则采用了interpolate，主要是通过调整scale-factor的大小来控制目标尺寸的大小，上述过程表示为：

10.根据权利要求9所述的一种基于swin-transformer的语音语义信号传输方法，其特征在于所述的二维卷积具体结构参数如下：

技术总结
本发明公开了一种基于Swin‑Trasformer的语音语义通信传输方法，本发明包括以下步骤：1.对语音信号进行数据预处理；2.将预处理后的语音信号通过语义编码器，自动提取语音信号中的语义信号；3.将语义信号通过物理信道以模拟现实生活中的噪声干扰；4.将带有噪声干扰的语义信号通过语义解码器；将带有噪声的信号分别经过卷积层和Transformer‑basedDecoder层，重新构建其浅层特征和深层特征，最后经过KeepfeatLayer实现多重维度语义信息的融合；5.对经过语义解码器的信号进行信号重建，以恢复出原始的语音信号。本发明以时域信号直接作为系统输入，减少了计算的成本，这对于注重时时传输的智能通信系统来说是极为重要的。

技术研发人员：周子良,郑仕链,赵知劲,陈杰
受保护的技术使用者：杭州电子科技大学
技术研发日：
技术公布日：2024/1/14

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周子良郑仕链赵知劲陈杰
技术所有人：杭州电子科技大学
我是此专利的发明人