远程立体声全方位实时传输和播放方法

文档序号：10688572阅读：516来源：国知局

远程立体声全方位实时传输和播放方法
【专利摘要】本发明提供远程立体声全方位实时传输和播放方法，包括服务器，传输系统和终端，所述终端包括处理单元、运动检测单元和声学单元，所述处理单元分别与所述运动检测单元和所述声学单元电性连接，所述运动检测单元包括位置检测装置、姿态检测装置、速度检测单元和角速度检测单元。现有技术相比，本发明采用根据运动检测单元检测结果对应传输声音数据的方案，节省了很多的网络带宽，使远程立体声全方位实时传输和播放得以实现。划分立方体的方式使声音选取被区域化和量化，有利于完美地还原声音并节省数据传输量。
【专利说明】
远程立体声全方位实时传输和播放方法
技术领域
[0001 ]本发明涉及立体声传输领域，更具体地说，涉及远程立体声全方位实时传输和播放方法。
【背景技术】
[0002]在现有的虚拟现实和增强现实技术中，立体声播放一般与位置无关。我们提前将所需的立体声制作并存储在相关设备中，待使用时一并放出，这样的方式比较简便，但严重影响了使用者的沉浸感。在现有的部分立体声全方位播放技术中，采用了制作与位置和角度相关的全方位立体声，存储在相关设备中，当使用时调取对应位置和角度的立体声播放。这种方式很好地还原了现场，营造了较强的沉浸感，但这种方式在远程立体声全方位实时传输中并不常用。这是因为各位置和各方向的声音的集合拥有很大的数据量，实时传输这些数据量会严重占据带宽，挤压图像传输的空间，造成图像传输出现卡顿，进而影响虚拟现实体验和沉浸感。

【发明内容】

[0003]为了解决当前远程立体声无法实现全方位传输和影响沉浸感的缺陷，本发明提供一种可全方位传输而且沉浸感强的远程立体声全方位实时传输和播放方法。
[0004]本发明解决其技术问题所采用的技术方案是:提供远程立体声全方位实时传输和播放方法，包括服务器，传输系统和终端，所述终端包括处理单元、运动检测单元和声学单元，所述处理单元分别与所述运动检测单元和所述声学单元电性连接，所述运动检测单元包括位置检测装置和姿态检测装置，远程全景图像实时传输和显示的方法包括以下步骤:
[0005]S1:所述运动检测单元检测使用者的运动状态，并将检测结果传输至所述处理单元；
[0006]S2:所述服务器将使用者所处空间划分为η个立方体并传输立方体信息至所述处理单元，所述处理单元根据所述运动检测单元提供的坐标信息得出使用者的所处的立方体区域及可能到达的立方体区域，组成传输声音区域；
[0007]S3:所述服务器传输对应所述传输声音区域数据至所述终端。
[0008]优选地，所述传输声音区域的计算方法是:
[0009]S2.11所述处理单元记录所述运动检测单元提供的使用者坐标信息(Xq，Yq，Zo)；
[0010]S2.12所述处理单元计算出使用者坐标的正向最大偏移量(AX1, AY1, AZ1)和反向最大偏移量(ΑΧ2，ΔΥ2，ΔΖ2)，整理使用者可能出现的坐标集合Φ = {(Χο-ΔΧ2〈Χ〈Χ()+ΔXi), (Yo-A Υ2〈Υ〈Υ。+ Δ Y1)，( Z0- Δ Ζ2〈Ζ〈Ζ。+ Δ Z1) IX，Y，Z，};
[0011]S2.13集合φ对应的点占据的立方体区域即为所述传输声音区域。
[0012]优选地，所述传输声音区域的计算方法是:
[0013]S2.21所述运动检测单元记录使用者20沿X轴、y轴和ζ轴各个方向的线速度为νχ、Vy、νζ，记延迟时间为tiQ，所述处理单元记录使用者20沿X轴、y轴和ζ轴各个方向的最大加速1? ^jElx、Ely、Elz ；
[0014]S2.22所述处理单元计算出延迟时间t1Q内使用者可能出现的角度坐标集合O1 ={(((xo-(vxt1+axt12/2)(xo+(vxt1+axt12/2))),(((yo~(vyt1+ayt12/2)) (yo+(vyt1+ayt12/2)))，(((zo-(vzt1+azt12/2)(zo+(vzt1+azt12/2))) | x，y，z}，集合Φι对应的点占据的立方体区域即为所述传输声音区域。
[0015]优选地，所述延迟时间为使用者被检测到运动状态的时间点到服务器对应下行数据传输完毕所用的时间。
[0016]优选地，使所述传输声音区域的计算方法是:
[0017]S2.31在所述处理单元中记录延迟时间内使用者沿X轴、y轴和ζ轴各个方向的最大线速度为vx’、vy，、vz’ ；
[0018]S2.32所述处理计算集合Φ2 = {((xo—Vx’ t1XxS (χο+Vx，t1))，((yo_vy，t1Xy^(yo+vy't1) )，((ZO-Vz，t1XzS (ZO+Vz，t1)) I x，y，z};
[0019]S2.33令集合Φ 3 = ( Φ工η Φ2)，则Φ 3对应的点占据的立方体区域即为所述传输声音区域。
[0020]优选地，所述服务器在每个单个立方体中都设置有m个虚拟声源，所述虚拟声源可以模拟声源发声，所述处理单元向所述服务器请求m个所述虚拟声源的数据，整合所有所述虚拟声源发出的声音并通过CHl和CH2声道传输至所述声学单元。
[0021]优选地，所述处理单元根据所述运动检测单元提供的使用者坐标信息确定使用者所处的位置和面朝的方向，模拟虚拟声源40分别向使用者两侧耳朵传递的声学信息。
[0022]优选地，所述终端进一步包括响应测试装置，所述响应测试装置可以测试响应时间，所述响应时间为终端向服务器发出信号到终端接收到对应返回信号所用的时间。
[0023]优选地，所述服务器根据所述响应测试装置测量的响应时间和所述终端的性能确定所述虚拟声源的数量和位置。
[0024]优选地，所述终端为虚拟现实头盔或增强现实眼镜。
[0025]与现有技术相比，本发明采用根据运动检测单元检测结果对应传输声音数据的方案，节省了很多的网络带宽，使远程立体声全方位实时传输和播放得以实现。划分立方体的方式使声音选取被区域化和量化，有利于完美地还原声音并节省数据传输量。通过截取发声区域和传输声音区域的方式，不仅减少了数据传输量，而且避免了延迟感的产生。通过确定使用者延迟时间内坐标的最大偏移量可以更精确传输声音区域的范围，进一步减少数据传输量。通过虚拟声源的设置完好地还原了立体声，进一步增加了沉浸感。设置响应测试装置可以测量使用者的网速情况，根据网络情况和设备性能选择虚拟声源的数量可以在保证声音正常传输的情况下最大限度提高音质，同时方便得出延迟时间t1Q。通过虚拟声源分别向使用者两耳传递声音更增加了立体声的真实感。
【附图说明】
[0026]下面将结合附图及实施例对本发明作进一步说明，附图中:
[0027]图1是目前远程声音实时传输和播放方法；
[0028]图2是立体声全方位播放示意图；
[0029]图3是本发明远程立体声全方位实时传输和播放方法结构示意图；
[0030]图4是本发明远程立体声全方位实时传输和播放方法原理示意图；
[0031 ]图5是本发明远程立体声全方位实时传输和播放方法立方体空间示意图。
【具体实施方式】
[0032]为了解决当前远程立体声无法实现全方位传输和影响沉浸感的缺陷，本发明提供一种可全方位传输而且沉浸感强的远程立体声全方位实时传输和播放方法。
[0033]为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图详细说明本发明的【具体实施方式】。
[0034]请参阅图1。图1是目前远程声音实时传输和播放方法，终端13包括声学单元133，通过终端13向服务器11请求数据，服务器11根据终端13请求的数据传输对应的声音数据到终端13，终端13经过处理后将声音信号传输至声学单元133。
[0035]请参阅图2。图2是立体声全方位播放示意图。全景图像多通过虚拟现实头盔、增强现实眼镜和全景曲面屏来呈现，需要保证使用者20不管朝向什么方向，如何运动，都可以感受到如同现实般的图像。而立体声则是配合全景图像，使沉浸感大幅提升的必备因素。在现有的部分立体声全方位播放技术中，采用了制作与位置和角度相关的全方位立体声，存储在相关设备中，当使用时调取对应位置和角度的立体声播放。但这种方式在远程立体声全方位实时传输中遇到了困难。这是因为在远程实时传输中，无法提前制作全方位360度的立体声，而各位置和各方向的声音的集合拥有很大的数据量，实时传输这些数据量会严重占据带宽，挤压图像传输的空间，造成图像传输出现卡顿，进而影响虚拟现实体验和沉浸感。
[0036]请参阅图3—图5，在本发明中，完成远程立体声全方位实时传输和播放需要服务器11、传输系统12和终端13，服务器11和终端13之间通过传输系统12连接并相互传递信息。终端13包括处理单元137、声学单元133、环境模拟单元139和运动检测单元135，处理单元137分别与声学单元133、环境模拟单元139和运动检测单元135电性连接。环境模拟单元139可以根据处理单元137的相关命令模拟环境场景，服务器11可以传输环境信息到终端13，并由处理单元137命令环境模拟单元139进行表达。环境模拟单元139可以配备鼓风机(图未示)模拟风向和配备喷水装置(图未示)模拟喷水、下雨等环境变化。运动检测单元135包括姿态检测装置1353、速度检测装置1355和位置检测装置1357。处理单元137包括响应测试装置1371，响应测试装置1371可以测量网络响应速度。
[0037]服务器11将使用者20所处空间划分为η个立方体，并传输立方体数据至处理单元137，使用者20存在于其中一个立方体中，我们称该立方体为发声区域51。在发声区域51中，服务器11设置m个虚拟声源40。处理单元137可以通过向服务器11请求数据的方式获得虚拟声源40的声音信息和位置信息。每个虚拟声源40都可以被处理单元137用来模拟声源发声，并通过处理单元137整合，然后通过CHl和CH2声道传输至声学单元133。虚拟声源40的发声是根据使用者的位置坐标和使用者的角度坐标来确定的，通过位置坐标和角度坐标，处理单元137可以分别确定虚拟声源40与使用者两个耳朵之间的距离和方向，并根据相关公式分别模拟向两个耳朵的发声。其计算公式为:
[0038]Lp = Lw-K+DIm-Ae
[0039]其中，Lp是人两耳的声压，Lw是声源的声压，相当于响度。距离r就是传播距离，在参数K中包含.
[0040](I)辐射为球面波，发散衰减K:
[0041 ] K = 101og(10,43i)+201og(10,r)
[0042]其中r为虚拟声源40和单一耳朵的位置距离.
[0043](2)指向性因子Dim:声源附近是否存在反射面(地面单独考虑)，或者声源本身就非点声源，增加一个反射面即增加3dB。
[0044](3)其他附加衰减Ae，在该公式中我们忽略不计，因此，公式变为:
[0045]Lp = Lw-101og( 10,4jr)+201og( 10 ,r)+DIm
[0046]通过上述公式，模拟声源40分别计算向两个耳朵的发声，并分别向两个耳朵传输。处理单元137整合所有模拟声源40的声音并向声学单元133传输最终的整合结果。
[0047]从使用者20的运动状态和位置信息被探测到，到声音信息传递给使用者，需要一个传递和处理的时间周期。令这个时间周期的起始时刻为To，则该时间周期需要:使用者20的运动状态被探测到并传递到处理单元137的时间为探测时间t、处理单元137处理的时间为七2、处理单元137传输数据到服务器11所需时间t3、服务器11处理时间t4、服务器11向处理单元137传输对应声音数据的时间t5。(tdts+ts+tA+ts)这段时间我们称为延迟时间，记延迟时间为t1Q。延迟时间t1Q根据服务器11、终端13的性能以及网络传输速度的不同各有不同。可以很容易得出，响应测试装置1371测量的响应时间为(t3+t4+t5)，由于tjPt2对于特定的终端来说是基本是固定不变的，因此延迟时间tlQ就可以通过响应时间(t3+t4+t5)和固定的时间tl、t2计算出来。
[0048]由于人的运动限制，现实中人短时间通过运动穿过的立方体个数是有限的，我们称人在延迟时间t1Q内通过运动可能穿过的立方体区域为传输声音区域50。本发明远程立体声全方位实时传输和播放方法的传输和播放过程是:在To时刻，使用者20的角度坐标信息和位置坐标信息被运动检测单元135检测到，经过^的时间该信息传递到处理单元137，处理单元137经过t2时间的处理向服务器11请求传输声音区域50的数据，经过t3时间数据请求信息传输到服务器U，服务器11经过t4时间的处理将传输声音区域50对应数据下行传输到终端13，经过t5的时间到达终端并接收完成，此时记为Ti时刻。同时，运动检测单元135检测使用者。。在!^时刻的角度坐标信息和位置坐标信息，并将该信息传输至处理单元137，处理单元137经过处理后，在传回的传输声音区域50中抓取对应T1时刻角度坐标信息和位置坐标信息的发声区域51并传输至声学单元133。
[0049]本发明中，传输声音区域50的范围是比较重要的。传输声音区域50如果过小，使用者20在缓冲时间内的运动可能造成发声区域51超出传输声音区域50的范围，造成无法播放声音;传输声音区域50如果过大，会造成网络传输数据量的增多，在网络不稳定的情况下有可能影响图像带宽和沉浸感。
[0050]本发明第一实施例采用计算使用者20最大坐标偏移量的方式确定传输声音区域50。我们建立虚拟的直角坐标系，使用者20此时沿X轴、y轴和ζ轴的角度坐标为，位置坐标为(父0，￥0，2())，因此使用者20此时的坐标信息为0()，￥()，2())。处理单元137通过计算的方式计算出延迟时间t1Q内使用者20角度坐标的正向最大偏移量(AX1, AY1, AZ1)和反向最大偏移量(ΔΧ2，ΔΥ2，ΔΖ2)，整理使用者20可能出现的坐标集合:
[0051 ] φ = {(X。- Δ Χ2〈Χ〈Χ。+ Δ X1)，(Y0- Δ Υ2〈Υ〈Υ。+ Δ Y1)，(Ζο_ Δ Ζ2〈Ζ〈Ζο+ Δ Zi) | X，Y，Ζ};
[0052]集合Φ内所有坐标所在的立方体的集合即为传输声音区域50。对应的坐标可以由运动检测单元135检测得到。
[0053]坐标的最大偏移量有很多算法，其中一种就是利用使用者20的最大运动角加速度和线加速度来计算。这里，我们令使用者20的最大运动线加速度为a，则使用者20沿X轴、y轴和ζ轴各个方向最大线加速度为ax、ay、az，使用者20沿X轴、y轴和ζ轴各个方向运动的线速度为vx、Vy、vz，vx、Vy、Vz可以利用运动检测单元135检测得到，在延迟时间t1内使用者沿X轴、y轴和ζ轴各个方向最大位移为(VxtiQ+axt12/2)、(VytiQ+ayt12/2、(vzt1+azt12/2)，坐标的变化范围为:
[0054]{(((xo-(vxt1+axt12/2)(xo+(vxt1+axt12/2))),(((yo-(vyt1+ayt12/2)) ^y^(yo+(vyt1+ayt12/2)))，(((zo-(vzt1+azt12/2)(zo+(vzt1+azt12/2)))}
[0055]此时，坐标的集合为:
[0056]Φι= {(((xo-(vxt1+axt12/2)(xo+(vxt1+axt12/2))),(((yo-(vyt1+ayt12/2) (yo+(vyt1+ayt12/2))),(((zo-(vzt1+azt12/2))(zo+(vzt1+azt12/2))) | x，y，z，} o
[0057]利用该方法计算坐标的集合可以很大程度上减少传输声音区域50，较好地节省了资源。
[0058]本发明第二实施例在第一实施例的基础上进一步节省传输声音区域50。由于人在运动过程中存在极限速度，当运动达到极限速度后就不会继续加速运动。因此，我们令使用者20的最大运动速度为V，则使用者20沿X轴、y轴和ζ轴各个方向的最大速度为vx’、vy’、vz’，在延迟时间tlQ内使用者20沿X轴、y轴和Z轴各个方向运动的最大速度为:VX’ tlQ、Vy’ tlQ、Vz’110，坐标的变化范围为:
[0059]{((xo_Vx，t1Xx<(xo+Vx，t1))，((yo_vy，t1XyS (yo+vy，t1))，((zo_vz，t1Xz^(zo+Vz't1))}，
[0060]此时，坐标的集合为:
[0061 ] φ2 = {((X0-Vx，t1(χο+Vx，t1))，((yo_vy，t1XyS (yo+vy，t1))，((zo_vz’t1Xz<(zo+vz，t1)) |x，y，z}。
[0062]使用者20不管怎样加速转动头部，都不会超过集合Φ2的坐标范围，我们令集合Φ3= (Φιη φ2)，则φ3即为使用者可能出现的角度坐标集合。这个结果使传输声音区域50进一步减小，减少了大量的传输数据。
[0063]理论上，虚拟声源40的数量越多，越能够真实地还原声音。但是由于设备性能的限制和网络带宽的限制，我们不可能无限增多虚拟声源40的数量。在服务器11中，根据不同的网络情况和设备性能存储了多种数量的虚拟声源40的方案，服务器11根据终端13的型号判断其性能，并综合响应测试装置1371测试的响应时间确定虚拟声源40的数量和位置，并向处理单元137传递对应数量的虚拟声源40数据。
[0064]与现有技术相比，本发明采用根据运动检测单元135检测结果对应传输声音数据的方案，节省了很多的网络带宽，使远程立体声全方位实时传输和播放得以实现。划分立方体的方式使声音选取被区域化和量化，有利于完美地还原声音并节省数据传输量。通过截取发声区域51和传输声音区域50的方式，不仅减少了数据传输量，而且避免了延迟感的产生。通过确定使用者20延迟时间内坐标的最大偏移量可以更精确传输声音区域50的范围，进一步减少数据传输量。通过虚拟声源40的设置完好地还原了立体声，进一步增加了沉浸感。设置响应测试装置1371可以测量使用者20的网速情况，根据网络情况和设备性能选择虚拟声源40的数量可以在保证声音正常传输的情况下最大限度提高音质，同时方便得出延迟时间t1Q。通过虚拟声源40分别向使用者20两耳传递声音更增加了立体声的真实感。
[0065]上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的【具体实施方式】，上述的【具体实施方式】仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。
【主权项】
1.远程立体声全方位实时传输和播放方法，其特征在于，包括服务器，传输系统和终端，所述终端包括处理单元、运动检测单元和声学单元，所述处理单元分别与所述运动检测单元和所述声学单元电性连接，所述运动检测单元包括位置检测装置和姿态检测装置，远程全景图像实时传输和显示的方法包括以下步骤: S1:所述运动检测单元检测使用者的运动状态，并将检测结果传输至所述处理单元； S2:所述服务器将使用者所处空间划分为η个立方体并传输立方体信息至所述处理单元，所述处理单元根据所述运动检测单元提供的坐标信息得出使用者的所处的立方体区域及可能到达的立方体区域，组成传输声音区域； S3:所述服务器传输对应所述传输声音区域数据至所述终端。2.根据权利要求1所述的远程全景音像实时传输和播放的方法，其特征在于，所述传输声音区域的计算方法是: S2.11所述处理单元记录所述运动检测单元提供的使用者坐标信息(Xo，Yo，Z0); S2.12所述处理单元计算出使用者坐标的正向最大偏移量(△ X1，△ Y1，△ Z1)和反向最大偏移量(ΔΧ2，ΔΥ2，ΔΖ2)，整理使用者可能出现的坐标集合O = KXq-AX2OKX(^AX1),(Yo- Δ Υ2〈Υ〈Υ0+ Δ Y1)，( Zo- Δ Ζ2〈Ζ〈Ζο+ Δ Zi) | X，Y，Z，}; S2.13集合Φ对应的点占据的立方体区域即为所述传输声音区域。3.根据权利要求2所述的远程立体声全方位实时传输和播放方法，其特征在于，所述运动检测单元进一步包括速度检测装置，所述传输声音区域的计算方法是: S2.21所述速度检测装置检测使用者20沿X轴、y轴和ζ轴各个方向的线速度Vx、Vy、Vz，记延迟时间为t1，所述处理单元记录使用者20沿X轴、y轴和z轴各个方向的最大加速度为ax、By、Bz ； S2.22所述处理单元计算出延迟时间^0内使用者可能出现的角度坐标集合Φ1 ={(((xo-(vxt1+axt12/2)(xo+(vxt1+axt12/2))),(((yo~(vyt1+ayt12/2)) (yo+(vyt1+ayt12/2)))，(((zo-(vzt1+azt12/2)(zo+(vzt1+azt12/2))) | x，y，z}，集合Φι对应的点占据的立方体区域即为所述传输声音区域。4.根据权利要求3所述的远程立体声全方位实时传输和播放方法，其特征在于，所述延迟时间为使用者被检测到运动状态的时间点到服务器对应下行数据传输完毕所用的时间。5.根据权利要求3所述的远程全景音像实时传输和播放方法，其特征在于，使所述传输声音区域的计算方法是: S2.31在所述处理单元中记录延迟时间内使用者沿X轴、y轴和z轴各个方向的最大线速N Vy N Vz ; S2.32所述处理计算集合Φ2 = {((xo-Vx，t1XxS (χο+Vx，t1))，((y『vy，t1XyS (yo+Vy，t1))，((zo-vz，t1Xz<(zo+vz，t1)) |x，y，z}; S2.33令集合Φ 3 = (Φ i η Φ 2)，则Φ 3对应的点占据的立方体区域即为所述传输声音区域。6.根据权利要求1所述的远程立体声全方位实时传输和播放方法，其特征在于，所述服务器在每个单个立方体中都设置有m个虚拟声源，所述虚拟声源可以模拟声源发声，所述处理单元向所述服务器请求m个所述虚拟声源的数据，整合所有所述虚拟声源发出的声音并通过CHl和CH2声道传输至所述声学单元。7.根据权利要求6所述的远程立体声全方位实时传输和播放方法，其特征在于，所述处理单元根据所述运动检测单元提供的使用者坐标信息确定使用者所处的位置和面朝的方向，模拟虚拟声源40分别向使用者两侧耳朵传递的声学信息。8.根据权利要求6所述的远程立体声全方位实时传输和播放方法，其特征在于，所述终端进一步包括响应测试装置，所述响应测试装置可以测试响应时间，所述响应时间为终端向服务器发出信号到终端接收到对应返回信号所用的时间。9.根据权利要求8所述的远程立体声全方位实时传输和播放方法，其特征在于，所述服务器根据所述响应测试装置测量的响应时间和所述终端的性能确定所述虚拟声源的数量和位置。10.根据权利要求1一9任一项所述的远程立体声全方位实时传输和播放方法，其特征在于，所述终端为虚拟现实头盔或增强现实眼镜。
【文档编号】G10L19/008GK106057207SQ201610494569
【公开日】2016年10月26日
【申请日】2016年6月30日
【发明人】党少军
【申请人】深圳市虚拟现实科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：党少军;
技术所有人：深圳市虚拟现实科技有限公司;
我是此专利的发明人

上一篇：一种音频修正方法及装置的制造方法
上一篇：声纹模型训练方法、声纹识别方法及装置的制造方法