语义通信视频传输方法及相关设备

文档序号：33464146发布日期：2023-03-15 05:58阅读：111来源：国知局

1.本技术涉及通信技术领域，尤其涉及一种语义通信视频传输方法及相关设备。

背景技术：

2.语义通信(semantic communications)近年来成为了推动信息与通信技术发展的一个新的方向，同时也是人工智能领域创新的热点。信源信道联合编码(joint source-channel coding，jscc)是信息论和编码理论中的一个经典课题。传统jscc对信源编码和信道编码联合设计，寻求端到端的优化提升，但是多年来限制于实际通信架构，没有得到很好的发展。
3.通常，基于神经网络的信源信道联合编码(deep jscc)利用深层神经网络，提取信源特征直接将其映射到连续的信道符号上。该方法在端到端的图像传输系统上取得了超过传统分离式信源信道编码系统的性能。但是，该方法目前没有在视频传输场景上得到应用。此外，deep jscc不能感知信源分布，且无法实现变长编码传输，对于高分辨率图像/视频源，其性能严重退化。

技术实现要素：

4.有鉴于此，本技术的目的在于提出一种语义通信视频传输方法及相关设备，用以解决或部分解决上述技术问题。
5.基于上述目的，本技术提供了一种语义通信视频传输方法，包括：
6.获取待传输视频的当前帧，并根据所述待传输视频的当前帧，得到当前帧语义特征；
7.根据所述当前帧语义特征，得到信道带宽成本；
8.根据所述当前帧语义特征和所述信道带宽成本，得到信道输入序列，并将所述信道输入序列输入信道进行传输。
9.可选地，所述根据所述待传输视频的当前帧，得到当前帧语义特征，包括：
10.获取所述待传输视频的参考帧，并根据所述待传输视频的参考帧和所述待传输视频的当前帧，得到上下文语义特征；
11.根据所述上下文语义特征和所述待传输视频的当前帧，得到所述当前帧语义特征。
12.可选地，所述根据所述当前帧语义特征和所述信道带宽成本，得到信道输入序列，包括：
13.获取参考帧特征图，并根据所述参考帧特征图和所述当前帧语义特征，得到上下文码字；
14.根据所述上下文码字特征、所述当前帧语义特征和所述信道带宽成本，得到所述信道输入序列。
15.可选地，通过以下公式得到所述当前帧语义特征：
[0016][0017]
其中，为所述上下文语义特征，x
t
为所述待传输视频的当前帧，ga为上下文分析变换网络。
[0018]
可选地，通过以下公式得到所述信道输入序列：
[0019][0020]
其中，为所述上下文码字特征，y
t
为所述当前帧语义特征，fe为编码函数。
[0021]
可选地，所述根据所述当前帧语义特征，得到信道带宽成本，包括：
[0022]
基于预先训练的熵估计神经网络，根据所述当前帧语义特征，得到所述信道带宽成本。
[0023]
可选地，通过以下公式得到所述上下文语义特征：
[0024][0025]
其中，为所述待传输视频的参考帧，为上下文语义特征的提取网络。
[0026]
基于上述目的，本技术提供了一种语义通信视频传输装置，包括：
[0027]
获取模块，被配置为获取待传输视频的当前帧；
[0028]
分析模块，被配置为根据所述待传输视频的当前帧，得到当前帧语义特征；
[0029]
熵估计模块，被配置为根据所述当前帧语义特征，得到信道带宽成本；
[0030]
编码模块，被配置为根据所述当前帧语义特征和所述信道带宽成本，得到信道输入序列；
[0031]
传输模块，被配置为将所述信道输入序列输入信道进行传输。
[0032]
基于上述目的，本技术提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如上任意一项实施例所述的方法。
[0033]
基于上述目的，本技术提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，其特征在于，所述计算机指令用于使计算机执行如上任意一项实施例所述的方法。
[0034]
从上面所述可以看出，本技术提供的一种语义通信视频传输方法及相关设备，通过自适应地为语义特征图分配信道带宽，来提高信道传输的编码增益。
附图说明
[0035]
为了更清楚地说明本技术或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0036]
图1示出了根据本技术实施例的示例性一种语义通信视频传输方法100的流程图。
[0037]
图2示出了根据本技术实施例的用于实现方法100的框架200的示意图。
[0038]
图3示出了根据本技术实施例的实验对比结果的示意图。
[0039]
图4示出了根据本技术实施例的示例性一种语义通信视频传输装置的示意图。
[0040]
图5示出了根据本技术实施例的示例性一种电子设备的示意图。
具体实施方式
[0041]
为使本技术的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本技术进一步详细说明。
[0042]
需要说明的是，除非另外定义，本技术实施例使用的技术术语或者科学术语应当为本技术所属领域内具有一般技能的人士所理解的通常意义。本技术实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。
[0043]
如背景技术所述，随着信源维度的增加，如大尺寸图像，jscc的性能迅速下降。因此，亟需一种性能更加优越的方法，以实现兼具高效性和鲁棒性的端到端的视频传输。
[0044]
有鉴于此，本技术提出了一种语义通信视频传输方法及相关设备，该方法基于一种深度视频语义传输框架(deep video semantic transmission，dvst)来实现，可在一定的感知质量指标或计算机视觉任务性能指标下最小化端到端传输率失真性能，提高视频传输效率。
[0045]
图1示出了根据本技术实施例的示例性一种语义通信视频传输方法100的流程图。方法100可以包括如下步骤。
[0046]
在步骤s101，获取待传输视频的当前帧，并根据所述待传输视频的当前帧，得到当前帧语义特征。
[0047]
在一些实施例中，所述根据所述待传输视频的当前帧，得到当前帧语义特征，可以进一步包括：获取所述待传输视频的参考帧，并根据所述待传输视频的参考帧和所述待传输视频的当前帧，得到上下文语义特征；根据所述上下文语义特征和所述待传输视频的当前帧，得到所述当前帧语义特征。
[0048]
图2示出了根据本技术实施例的用于实现方法100的框架200的示意图。如图2所示，为了高效地编码待传输视频的当前帧x
t
，发送端采用了发送端语义上下文信息生成网络(tx context generation)，包括用于提取语义特征的上下文语义特征提取网络和用于提取码字的上下文码字特征提取网络、解析变换网络(analysis transform)和深度jscc编码网络(deep jscc encoder)，将通过编码网络生成的信道输入序列通过无线通信信道(wireless channel)进行传输；相应地，接收端采用了接收端语义上下文信息生成网络(rx context generation)、合成变换网络(synthesis transform)和深度jscc解码网络(deep jscc decoder)。
[0049]
在发送端，解析变换网络将像素域的信源视频帧转换为语义特征域的特征图。框架200包括熵模型(entropy model)和码率控制模块(rate allocation)，该熵模型和该码率控制模块的组合为熵估计神经网络。
[0050]
该熵估计神经网络用于为语义特征图(semantic feature map)中的每一个特征
分配信道带宽(allocated channel bandwidth costs)，从而得到语义特征图的信道带宽成本，以便之后进行深度jscc中的变长编码。对于视频源，其内容中存在时空相关性，因此，采用的语义上下文信息生成网络可作为时空先验。这使得非线性变换和深度jscc模块具有时空自适应性，从而提高视频传输系统的频谱效率。
[0051]
如图2所示，当前帧x
t
的非线性变换中的ga和gs网络分别以上下文语义特征和作为输入，两端深度jscc中的fe和fd网络分别以上下文码字特征和作为输入。y
t
为当前帧语义特征，s
t
信道输入序列，为含噪声信号，为重构的特征图。框架200的主要链路(primary link)为：
[0052][0053]
框架200使用人工神经网络(ann)来实现上述主要链路中除信道传递网络w(
·
|v)外的每个函数。在上下文信息方面，发射机(tx)上下文语义特征和上下文码字特征分别从待传输视频的参考帧(即待传输视频的上一帧)和参考帧特征图中获得，它们是在发送端上通过模拟dvst过程得到的而非通过无线信道，即：
[0054][0055]
其中，码字s
t-1
由上述框架200的主要链路公式中替换时间步长t-1得到。在接收端，含噪声信号重构为再得到重构当前帧接收器(rx)上下文和分别从参考重构帧和参考解码特征图得到，它们是在t-1时刻从接收端缓冲器中取出记录而直接获得的。和为上一帧的上下文语义特征和上下文码字特征。
[0056]
具体地，在发送端，对于待传输视频t时刻的当前帧x
t
，解析变换网络提取当前帧语义特征y
t
作为一个低维的隐表征，其中，y
t
也可以成为语义特征图，之后再经过深度jscc编码网络。考虑到视频信源帧间的高度相关性，将上下文分析变换网络ga(
·
)表示为：
[0057]
其中
[0058]
为上下文语义特征提取网络，ga(
·
)为上下文分析变换网络。x
t
为待传输视频的当前帧。之后，将当前帧语义特征y
t
输入深度jscc编码网络fe(
·
)，生成的信道输入序列s
t
为：
[0059]
其中
[0060]
γe(
·
)为深度jscc编码网络生成上下文的网络。为了给x
t
的编码提供更丰富、相关的信息，上下文位于更高维的语义特征域，上下文位于深度jscc的码字空间。
[0061]
然后，通过无线通信信道直接将码字序列s
t
发送。
[0062]
对于上下文分析变换网络ga(
·
)，使用神经网络自动学习x
t
和之间的相关性，这样就避免了采用传统的视频残差编码来消除冗余与传统视频编码基于残差和帧间预测的结构不同，该方案效率更高。
[0063]
在这里，上下文来自于参考帧上下文分析转换可以选择性地从x
t
和
中提取语义特征来生成语义特征图，从而使语义特征图更准确地表征当前帧相对于上一帧的变化。
[0064]
对于上下文深度jscc编码网络fe(
·
)(fe(
·
)也为编码函数)，使用一个神经网络来自动学习y
t
和之间的相关性。请注意，上下文码字特征来自于重构的参考帧特征图因此，上下文深度jscc编码网络也可以自适应地生成信道输入码字。fe(
·
)会根据当前帧与参考帧的相关度调整当前帧的带宽开销，从而提高视频传输效率。
[0065]
在步骤s103，根据所述当前帧语义特征，得到信道带宽成本。
[0066]
为了提高dvst的编码增益，需要实现一种可变长传输机制，从而使语义特征映射y
t
的每个特征y
t,i
都能根据其熵值来决定传输带宽开销(此处带宽开销即最终送到信道上的码字的维度)。为此，需要熵估计神经网络中的熵模型来估计y
t
的熵分布，并据此由码率控制模块来确定传输y
t
的每一个特征y
t,i
的信道带宽k
t,i
，从而得到总的信道带宽成本熵模型中的潜在表示y
t
建模为拉普拉斯分布，其分布的参数由熵估计神经网络学习得到。
[0067]
这样，基于熵估计神经网络的输出概率分布分配的信道带宽k
t,i
如下：
[0068][0069]
其中，比例因子η
t
表示y
t,i
的熵与信道符号数的比例，r
t,i
表示每个特征的熵值，是每个特征y
t,i
量化后的结果、为z
t
量化后的结果，其中，z
t
指特征图经过超先验编码网络的结果，中t,《i指可以取t为任意小于i的值。
[0070]
根据上述熵模型，推导出传输语义特征y
t
的主链路总的信道带宽成本为：
[0071][0072]
在步骤s105，根据所述当前帧语义特征和所述信道带宽成本，得到信道输入序列，并将所述信道输入序列输入信道进行传输。
[0073]
在一些实施例中，所述根据所述当前帧语义特征和所述信道带宽成本，得到信道输入序列，可以进一步包括：获取参考帧特征图，并根据所述参考帧特征图和所述当前帧语义特征，得到上下文码字；根据所述上下文码字、所述当前帧语义特征和所述信道带宽成本，得到所述信道输入序列。
[0074]
如图2所示，将潜在表示y
t
输入上下文深度jscc编码fe(
·
)，生成的信道输入序列s
t
为：
[0075]
其中
[0076]
其中，γe(
·
)为上下文码字特征提取网络。为了给x
t
的编码提供更丰富、相关的信息，上下文语义特征位于更高维的语义特征域，上下文码字特征位于深度jscc的码字空间。
[0077]
将生成的信道输入序列输入信道传输给接收端，接收端将接收到的含噪声信号进行解码操作。
[0078]
接收端包括一个上下文深度jscc解码网络fd(
·
)，即fd为解码函数，将含噪声信号重构为即：
[0079]
其中
[0080]
γd(
·
)为深度jscc解码网络生成上下文的网络。然后把作为输入执行上下文合成变换网络gs(
·
)来重构当前帧，即：
[0081]
其中
[0082]
表示为合成变换生成上下文的网络。
[0083]
本技术实施例的技术效果通过以下实验数据进行说明。
[0084]
对于本技术的技术效果测试，我们使用了分辨率为1080p的uvg数据集(uvg dataset)来评估dvst的性能。uvg数据集是一个已经被广泛使用的衡量视频相关算法性能的数据集，包含各种内容、帧率和分辨率的序列。同时，我们将dvst与当前主流无线通信系统中的经典视频编码传输方案进行了比较。我们使用标准的视频编解码网络(h.264和h.265)进行视频信源编码，同时使用ldpc(low density parity check code，低密度奇偶校验码)码进行信道编码。结果参见附图3，图中显示了在无线信道上的视频测试序列在psnr(峰值信噪比，peak signal to noise ratio)度量下的率失真结果，可以看出我们发明的dvst在较低信道带宽开销比例下取得了和传统视频编码方法相媲美的性能，在较高的信道带宽开销比例下获得了高于h.265+ldpc方法的编码增益。
[0085]
需要说明的是，本技术实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本技术实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成所述的方法。
[0086]
需要说明的是，上述对本技术的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。
[0087]
基于同一技术构思，与上述任意实施例方法相对应的，本技术还提供了一种语义通信视频传输装置。
[0088]
参考图4，所述语义通信视频传输装置，包括：
[0089]
获取模块401，被配置为获取待传输视频的当前帧。
[0090]
分析模块402，被配置为根据所述待传输视频的当前帧，得到当前帧语义特征。
[0091]
熵估计模块403，被配置为根据所述当前帧语义特征，得到信道带宽成本。
[0092]
编码模块404，被配置为根据所述当前帧语义特征和所述信道带宽成本，得到信道输入序列。
[0093]
传输模块405，被配置为将所述信道输入序列输入信道进行传输。
[0094]
为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本技术时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
[0095]
上述实施例的装置用于实现前述任一实施例中相应的语义通信视频传输方法，并
且具有相应的方法实施例的有益效果，在此不再赘述。
[0096]
基于同一技术构思，与上述任意实施例方法相对应的，本技术还提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上任意一实施例所述的语义通信视频传输方法。
[0097]
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
[0098]
处理器1010可以采用通用的cpu(central processing unit，中央处理器)、微处理器、应用专用集成电路(application specific integrated circuit，asic)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。
[0099]
存储器1020可以采用rom(read only memory，只读存储器)、ram(random access memory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。
[0100]
输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入/输出模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。
[0101]
通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如usb、网线等)实现通信，也可以通过无线方式(例如移动网络、wifi、蓝牙等)实现通信。
[0102]
总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
[0103]
需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。
[0104]
上述实施例的电子设备用于实现前述任一实施例中相应的语义通信视频传输方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
[0105]
基于同一技术构思，与上述任意实施例方法相对应的，本技术还提供了一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行如上任一实施例所述的语义通信视频传输方法。
[0106]
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读
存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。
[0107]
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的语义通信视频传输方法，并且具有相应的方法实施例的有益效果，在此不再赘述。
[0108]
所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本技术的范围(包括权利要求)被限于这些例子；在本技术的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本技术实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。
[0109]
另外，为简化说明和讨论，并且为了不会使本技术实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本技术实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本技术实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本技术的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本技术实施例。因此，这些描述应被认为是说明性的而不是限制性的。
[0110]
尽管已经结合了本技术的具体实施例对本技术进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态ram(dram))可以使用所讨论的实施例。
[0111]
本技术实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本技术实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：戴金晟王思贤牛凯张平
技术所有人：北京邮电大学
我是此专利的发明人

上一篇：基于食用色素的多色谱彩色聚氨酯海绵
上一篇：一种手掌参的野生抚育方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。