数据处理方法和装置与流程

文档序号:33706973发布日期:2023-03-31 22:01阅读:49来源:国知局
数据处理方法和装置与流程

1.本技术涉及数据处理技术领域,更具体地说,涉及一种数据处理方法、装置及电子设备和存储介质。


背景技术:

2.在一些视频场景中,视频输出内容通常会突出说话人,比如,当有人说话时,视频画面要经过裁切或放大来突出显示说话人。当多个人轮流讲话或讨论时,视频画面跳变频繁,影响用户观看视频。


技术实现要素:

3.本技术的目的是提供一种数据处理方法、装置及电子设备和存储介质,包括如下技术方案:
4.一种数据处理方法,所述方法包括:
5.基于目标空间环境内的音频数据和图像数据获得所述目标空间环境内各对象的行为属性数据;
6.至少基于所述行为属性数据确定目标对象及其输出参数;
7.控制所述目标空间环境内的电子设备按照所述输出参数输出所述目标对象的目标图像数据和/或目标音频数据。
8.上述方法,可选的,所述基于目标空间环境内的音频数据和图像数据获得所述目标空间环境内各对象的行为属性数据,包括:
9.基于所述图像数据对所述目标空间环境内各对象的空间位置进行标定;
10.基于所述音频数据确定产生有效音频数据的音源位置;
11.基于所述空间位置和所述音源位置确定各发声对象的行为属性数据。
12.上述方法,可选的,其中,基于所述空间位置和所述音源位置确定各发声对象的行为属性数据,包括:
13.获得所述空间位置和所述音源位置之间的零位校准参数;
14.参考所述零位校准参数确定各发声对象的行为数据,得到各发声对象的行为属性数据。
15.上述方法,可选的,其中,所述空间位置和所述音源位置之间的零位校准参数通过如下方式确定:
16.确定第一音源位置处的第一发声对象在目标空间环境图像中的第一空间位置,所述目标空间环境图像是所述目标空间环境的全景图像;
17.确定所述第一空间位置与所述第一音源位置之间的匹配差异,将所述匹配差异确定为所述零位校准参数。
18.上述方法,可选的,其中,至少基于所述行为属性数据确定目标对象及其输出参数,包括:
19.如果基于所述行为属性数据确定所述目标空间环境内的发声对象唯一,将该发声对象确定为所述目标对象,并基于该发声对象的行为属性数据确定所述目标对象具有第一输出参数;
20.其中,所述目标对象在所述第一输出参数下的视觉提示效果强于所述目标空间环境内的其他对象的视觉提示效果。
21.上述方法,可选的,其中,至少基于所述行为属性数据确定目标对象及其输出参数,包括:
22.如果确定所述目标空间环境内的发声对象不唯一,基于所述行为属性数据对每位发声对象进行评价以确定目标对象;
23.基于确定的目标对象的信息确定所述输出参数。
24.上述方法,可选的,其中,基于所述行为属性数据对每位发声对象进行评价以确定目标对象,包括以下至少之一:
25.基于发声对象的发声参数以及所述发声参数所对应的权重对每位发声对象的发声行为进行评价,基于综合评分、指定项评分、历史评价信息中的至少之一确定所述目标对象;
26.获得发声对象的运动参数,基于所述运动参数和发声参数对每位发声对象的发声行为进行评价,以确定所述目标对象;
27.对应地,所述基于确定的目标对象的信息确定所述输出参数,包括以下至少之一:
28.基于确定的目标对象的数量确定所述输出参数;
29.基于确定的目标对象之间的相对位置关系确定所述输出参数;
30.基于确定的目标对象之间的交互关系确定所述输出参数。
31.上述方法,可选的,其中,至少基于所述行为属性数据确定目标对象及其输出参数,包括:
32.基于所述行为属性数据获得所述目标空间环境内各对象的运动参数,将符合目标运动条件的对象确定为所述目标对象,以及基于确定的目标对象的信息确定所述输出参数。
33.上述方法,可选的,其中,还包括以下至少之一:
34.获得所述目标空间环境内的环境变化信息,基于所述环境变化信息更新所述目标图像数据和/或所述目标音频数据;
35.获得所述目标空间环境内的环境变化信息,基于所述环境变化信息调整所述目标对象的输出参数;
36.基于目标对象的变化信息实时调整用于确定所述目标对象的处理算法。
37.一种数据处理装置,所述装置包括:
38.属性获得模块,用于基于目标空间环境内的音频数据和图像数据获得所述目标空间环境内各对象的行为属性数据;
39.确定模块,用于至少基于所述行为属性数据确定目标对象及其输出参数;
40.控制模块,用于控制所述目标空间环境内的电子设备按照所述输出参数输出所述目标对象的目标图像数据和/或目标音频数据。
41.一种电子设备,包括:
42.存储器,用于存储程序;
43.处理器,用于调用并执行所述存储器中的所述程序,通过执行所述程序实现如上任一项所述的信息处理方法的各个步骤。
44.一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上任一项所述的信息处理方法的各个步骤。
45.通过以上方案可知,本技术提供的一种数据处理方法、装置及电子设备和存储介质,基于目标空间环境内的音频数据和图像数据获得目标空间环境内各对象的行为属性数据;至少基于上述行为属性数据确定目标对象及其输出参数;控制目标空间环境内的电子设备按照上述输出参数输出目标对象的目标图像数据和/或目标音频数据。本技术基于目标空间环境内的各个对象的行为属性数据确定目标对象及其输出参数,控制目标空间环境内的各个电子设备按照上述输出参数输出目标对象的目标图像数据和/或目标音频数据,避免只要目标空间环境内的对象发声就输出发声对象的图像数据和/或音频数据,从而避免图像数据和/或音频数据输出时频繁跳变的问题。
附图说明
46.为了更清楚地说明本技术实施例的技术方案,下面将对实施例所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
47.图1为本技术实施例提供的数据处理方法的一种实现流程图;
48.图2为本技术实施例提供的基于目标空间环境内的音频数据和图像数据获得目标空间环境内各对象的行为属性数据的一种实现流程图;
49.图3为本技术实施例提供的基于空间位置和音源位置确定各发声对象的行为属性数据的一种实现流程图;
50.图4a为本技术实施例提供的获得目标空间环境内的各发声对象的行为属性数据的一种原理性示意图;
51.图4b为本技术实施例提供的全景图像的一种示例图;
52.图5为本技术实施例提供的至少基于各对象的行为属性数据确定目标对象及其输出参数的一种实现流程图;
53.图6为本技术实施例提供的数据处理装置的一种结构示意图;
54.图7为本技术实施例提供的电子设备的一种结构示意图。
55.说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的部分,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例,能够以除了在这里图示的以外的顺序实施。
具体实施方式
56.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他
实施例,都属于本技术保护的范围。
57.本技术实施例提供的数据处理方法可以用于电子设备中,该电子设备可以是终端设备,也可以是服务端设备,该服务端设备可以是单台服务器,也可以是服务器集群。
58.如图1所示,为本技术实施例提供的数据处理方法的一种实现流程图,可以包括:
59.步骤s101:基于目标空间环境内的音频数据和图像数据获得目标空间环境内各对象的行为属性数据。
60.作为示例,目标空间环境可以包括参加多方音频互动的多个物理空间。比如,如果有n(n为大于1的整数)个与会方进行音频会议,则目标空间环境可以包括参加音频会议的n个与会方所在的n个物理空间。不同的与会方在不同的物理空间中。每个与会方有一个或多个与会人员。
61.作为示例,目标空间环境可以包括参加多方视频互动的多个物理空间。比如,如果有n(n为大于1的整数)个与会方进行视频会议,则目标空间环境可以包括参加视频会议的n个与会方所在的n个物理空间。不同的与会方在不同的物理空间中。每个与会方有一个或多个与会人员。
62.作为示例,目标空间环境可以是进行音频直播的某个物理空间。物理空间中有多人参与音频直播。
63.作为示例,目标空间环境可以是进行视频直播的某个物理空间。物理空间中有多人参与视频直播。
64.对象的行为属性数据可以是对象的行为的统计特征,比如,可以包括但不限于以下至少一项:说话时长、停止说话的时长、说话次数、平均音量、移动范围、动作关联度等。
65.步骤s102:至少基于行为属性数据确定目标对象及其输出参数。
66.可选的,可以仅基于各对象的行为属性数据确定目标对象,以及目标对象的输出参数。
67.可选的,可以基于各对象的行为属性数据及其它数据确定目标对象,以及目标对象的输出参数。其它数据可以包括但不限于:目标空间环境内的环境信息。
68.目标对象的输出参数至少可以包括:目标对象的显示参数,和/或,目标对象的音频播放参数。其中,
69.目标对象的显示参数具体可以包括:目标对象的显示布局和显示方式等。
70.目标对象的音频输出参数,可以包括但不限于:音频信噪比,音量等。
71.步骤s103:控制目标空间环境内的电子设备按照上述输出参数输出目标对象的目标图像数据和/或目标音频数据。
72.目标空间环境内的不同物理空间中的电子设备通过网络进行通信。
73.目标对象的目标图像数据可以是实时采集的目标对象的图像数据,或者,可以是从实时采集的目标对象的图像数据中裁剪得到的,或者,可以是预先存储的图像数据(比如,系统头像数据,该系统头像数据可以是系统提供的默认图像,也可以是目标对象指定的等),或者,可以是目标对象指定的图像数据,或者,可以是基于实时采集的目标对象的图像数据生成的目标对象的虚拟对象。其中,在音频会议或音频直播场景下,目标对象的目标图像数据可以是系统头像数据,或者,可以是指定的图像数据;在视频会议和视频直播的场景下,目标对象的目标图像数据可以是实时采集的目标对象的图像,或者,可以是基于实时采
集的目标对象的图像生成的目标对象的虚拟对像。
74.目标对象的目标音频数据可以是实时采集的目标对象的音频数据,或者,可以是通过对实时采集的目标对象的音频数据进行优化(比如,降噪、无效语音静音等)得到的音频数据。
75.本技术提供的数据处理方法,基于目标空间环境内的各个对象的行为属性数据确定目标对象及其输出参数,控制目标空间环境内的各个电子设备按照上述输出参数输出目标对象的目标图像数据和/或目标音频数据,由于对象的行为属性数据具有统计特性,因此,基于本技术能够避免只要目标空间环境内的对象发声就输出发声对象的图像数据和/或音频数据,从而避免图像数据和/或音频数据输出时频繁跳变的问题。
76.在一可选的实施例中,上述基于目标空间环境内的音频数据和图像数据获得目标空间环境内各对象的行为属性数据的一种实现流程图如图2所示,可以包括:
77.步骤s201:基于目标空间环境内的图像数据对目标空间环境内各对象的空间位置进行标定。
78.作为示例,目标空间环境内的图像数据包括目标空间环境内各个物理空间的全景图像,即针对每个物理空间均采集全景图像。对于第一物理空间(第一物理空间为目标空间环境内的任一物理空间)的全景图像,可以通过人脸检测和/或人形检测,在第一物理空间的全景图像中确定第一物理空间内各对象的位置,即通过人脸检测和/或人形检测确定第一物理空间内的各对象在第一物理空间的全景图像中的位置。也就是说,本技术是通过人脸检测和/或人形检测在第一物理空间的全景图像中对第一物理空间内的各对象进行标定。
79.其中,人脸检测结果表征第一物理空间内的全景图像中是否存在人脸,以及存在人脸时人脸在全景图像中的位置,一般通过矩形框标定;人形检测结果表征第一物理空间内的全景图像中是否存在人体,以及存在人体时人体在全景图像中的位置,一般通过矩形框标定。
80.可选的,可以优先对第一物理空间的图像数据(即全景图像)进行人脸检测,如果未检测到人脸,则对第一物理空间的图像数据进行人形检测,如果检测到人脸,则无需对第一物理空间的图像数据进行人形检测。
81.可选的,可以先对第一物理空间的图像数据进行人体检测,在检测到的人体区域进行人脸检测。如果未检测到人脸,则直接以人体检测结果作为标定结果;如果检测到人脸,则以人脸检测结果作为标定结果。
82.步骤s202:基于目标空间环境内的音频数据确定产生有效音频数据的音源位置。
83.作为示例,目标空间环境内的音频数据包括目标空间环境内各个物理空间的全方位音频数据,即针对每个物理空间均进行360度拾音,以获得全方位音频数据。对于第一物理空间(第一物理空间为目标空间环境内的任一物理空间)的全方位音频数据,可以基于第一物理空间的全方位音频数据进行音源定位和人声检测,如果人声检测结果表征存在人的声音,则将音源定位结果确定为产生有效音频数据的音源位置,否则,确定音源定位结果不是产生有效音频数据的音源位置。通过人声检测,可以滤除环境中的非人声噪音(即不存在人声时的声音),比如,拍桌子的声音、拍手的声音、物品掉落的声音等。
84.音源位置表征的是音源相对于音频采集装置的方位,通常为一个角度值。
85.需要说明的是,本技术不对步骤s201和步骤s202的执行顺序做限定,可以先执行步骤s201,再执行步骤s202,或者,先执行步骤s202,再执行步骤s201,或者,步骤s201和步骤s202同时执行。
86.可选的,本技术还可以基于目标空间环境内的有效音频数据进行声纹识别,以确定发声对象的身份。
87.步骤s203:基于上述空间位置和音源位置确定各发声对象的行为属性数据。
88.基于同一物理空间内各个对象的空间位置和产生有效音频数据的音源位置,可以确定同一物理空间内哪些对象在发声,进而可以统计得到同一物理空间内发生对象的行为属性数据。
89.得到各个物理空间内的发声对象的行为属性数据后,也就得到了目标空间环境内各发声对象的行为属性数据。
90.可选的,基于空间位置和音源位置确定各发声对象的行为属性数据的一种实现流程图如图3所示,可以包括:
91.步骤s301:获得上述空间位置与音源位置之间的零位较准参数。
92.其中,音源定位得到的音源位置是一个在0~359范围内的整数值,每个数值表征一个角度,表示在这个角度附近左右一个小的角度范围内有发声对象,这个小的角度范围取决于算法精度,例如,每个数值表示在这个数值表征的角度附近左右各7.5度的范围内有发声对象。而第一物理空间内的各对象在第一物理空间的全景图像中的位置通常是沿直线分布的,因此,可以将第一物理空间的全景图像沿目标直线方向(即全景图像中各对象的分布方向)平均划分为360个子区域,每个子区域唯一对应一个单位角度范围。具体对应关系可以通过预先确定的第一物理空间对应的零位校准参数确定。
93.可选的,第一物理空间对应的零位较准参数是通过音源定位确定的第一物理空间内某一发声对象在第一物理空间的位置和通过图像识别确定的该某一发声对象在第一物理空间的全景图像中的位置之间的差异参数,以便将第一物理空间内的音源数据和图像数据同步关联。
94.具体的,第一物理空间对应的零位较准参数表征第一物理空间的全景图像的某个子区域(记为基准子区域)与某个单位角度范围(记为基准单位角度范围)的匹配差异(记为基准差异)。基准子区域与基准单位角度范围的匹配差异可以为:基准子区域在第一物理空间的全景图像的所有子区域(即360个子区域)中的第一排序,与基准单位角度范围在所有单位角度范围(即360个单位角度范围)中的第二排序的差异。其中,360个子区域可以按照目标直线方向的坐标由小到大的顺序排序,也可以按照目标直线方向的坐标由大到小的顺序排序;360个单位角度范围可以按照角度值由小到大的顺序排序,也可以按照角度值由大到小的顺序排序。
95.具体可以通过如下方式确定第一物理空间对应的零位较准参数:
96.确定第一物理空间内的第一音源位置处的第一发声对象在目标空间环境图像中的第一空间位置,所述目标空间环境图像是第一物理空间的全景图像。
97.第一发声对象可以是第一物理空间内的任一发声对象。
98.第一音源位置可以是第一物理空间内第一发声对象所处的位置。
99.可以在第一发声对象发声的同时采集第一物理空间内的音频数据和图像数据,根
据采集的音频数据确定音源位置(记为第一音源位置),根据采集的图像数据对第一发声对象的空间位置进行标定,标定结果记为第一空间位置。
100.确定第一空间位置与第一音源位置之间的匹配差异,将匹配差异确定为第一物理空间对应的零位校准参数。作为示例,第一空间位置可以通过第一发声对象的标记框(一般为矩形框)的中心点所在的子区域(即基准子区域)表征,第一空间位置与第一音源位置之间的匹配差异(记为基准差异)可以为:第一发声对象的标记框的中心点所在的子区域在所有子区域(即360个子区域)中的第一排序,以及第一音源位置所属的单位角度范围(即基准单位角度范围)在所有单位角度范围(即360个单位角度范围)中的第二排序的差异。
101.第一音源位置所属的单位角度范围是指:以第一音源位置为起始角度值得单位角度范围,比如,第一音源位置为0
°
,则第一音源位置所属的单位角度范围是指从0
°
到1
°
这个单位角度范围,不包括1
°
,即第一音源位置所属的单位角度范围是指[0
°
,1
°
)。
[0102]
步骤s302:参考零位较准参数确定各发声对象的行为数据,得到各发生对象的行为属性数据。
[0103]
确定了第一物理空间对应的零位较准参数后,对于第一物理空间的全景图像中的任一空间位置,可以参考第一物理空间对应的零位较准参数,根据该任一空间位置与产生有效音频数据的音源位置的匹配差异,确定该任一空间位置处的对象是否在音源定位结果所表征的范围内。
[0104]
具体的,如果该任一空间位置与产生有效音频数据的音源位置的匹配差异为基准差异,可以确定第一物理空间的全景图像中该任一空间位置处的对象在音源定位结果所表征的范围内,否则,可以确定第一物理空间的全景图像中该任一空间位置处的对象不在音源定位结果所表征的范围内。
[0105]
其中,该任一空间位置与产生有效音频数据的音源位置的匹配差异可以为:
[0106]
该任一空间位置的中心点所在的子区域在第一物理空间的全景图像的所有子区域中的第三排序,与产生有效音频数据的音源位置所属的单位角度范围在所有单位角度范围中的第四排序的差异。
[0107]
在确定位于产生有效音频数据的音源位置所表征的范围内的对象后,可以判断各个对象是否为发声对象。
[0108]
如果第一对象(第一物理空间内的任一对象)位于产生有效音频数据的音源位置所表示的范围(比如,产生有效音频数据的音源位置左右各7.5度范围)内,则第一对象有可能为发声对象,否则,可以确定第一对象不是发声对象。
[0109]
如果产生有效音频数据的音源位置所表征的范围内只有第一对象,确定该第一对象为发声对象,否则,确定该任一对象不是发声对象。也就是说,在产生有效音频数据的音源位置所表示的范围内只有一个对象的情况下,确定该一个对象为发声对象。
[0110]
在产生有效音频数据的音源位置所表示的范围内有至少两个对象的情况下,可以对产生有效音频数据的音源位置所表征的范围内的各个对象的空间位置处的图像数据进行唇动检测,如果在第二对象(第二对象为产生有效音频数据的音源位置所表示的范围内的任一对象)的空间位置处的图像数据中处检测到唇动,确定第二对象为发声对象,否则,确定第二对象不是发声对象。
[0111]
在一些情况下,比如,佩戴口罩的情况下,是无法检测到唇动的,此时,可以结合声
纹识别加人脸识别的方式确定发声对象,具体的,可以对第一物理空间内的有效音频数据(即存在人声的数据)进行声纹识别,以确定发声对象的身份信息(记为第一身份信息),对第一物理空间的图像数据中检测到的人脸区域(即标定的空间位置处的图像数据)进行人脸识别,以确定人脸区域对应的身份信息(记为第二身份信息),则如果第一人脸区域对应的第二身份信息与第一身份信息相同,确定第一人脸区域所表征的对象为发声对象,否则确定第一人脸区别所表征的对象不是发声对象。
[0112]
可选的,在无法检测到唇动的情况下,也可以结合声纹识别加人形识别的方式确定发声对象,具体的,可以对第一物理空间内的有效音频数据进行声纹识别,以确定发声对象的身份信息(记为第一身份信息),对第一物理空间的图像数据中检测到的人体区域(即标定的空间位置处的图像数据)进行人体识别,以确定人体区域对应的身份信息(记为第三身份信息),则如果第一人体区域对应的第三身份信息与第一身份信息相同,确定第一人体区域所表征的对象为发声对象,否则,确定第一人体区域所表征的对象不是发声对象。
[0113]
可选的,在无法检测到唇动的情况下,如果目标空间环境内的对象距离镜头较近,可以清楚地拍到人脸,不能拍到全身,此时可以以人脸检测和人脸识别的结果为准;如果目标空间环境内的对象距离镜头较远,无法清楚地拍到人脸,但能拍到全身,此时可以以人形检测和人体识别的结果为准。
[0114]
确定第一物理空间内的发声对象后,可以利用第一物理空间内的发声对象的空间位置处的图像数据确定发声对象的身份,以便后续记录发声对象的行为数据。比如,如果第一物理空间内的发声对象的空间位置处的图像数据为人脸区域的图像数据,则可以通过人脸识别确定发声对象身份,如果第一物理空间内的发声对象的空间位置处的图像数据为人体区域的图像数据,则可以通过人体识别确定发声对象的身份。
[0115]
可选的,也可以利用第一物理空间内的有效音频数据确定第一物理空间内的发声对象的身份信息。
[0116]
在确定发声对象后,可以记录各发声对象的行为数据,以便统计得到各发声对象的行为属性数据。
[0117]
其中,发声对象的行为数据可以包括但不限于:发声对象的开始发声时间和结束发声时间,发声对象的位置,发声对象的形态等。
[0118]
如图4a所示,为本技术实施例提供的获得目标空间环境内的各发声对象的行为属性数据的一种原理性示意图。
[0119]
全景摄像头(即360度摄像头)和麦克风阵列设置在第一物理空间中,通过全景摄像头采集第一物理空间内的全景图像,如图4b所示,为本技术实施例提供的全景图像的一种示例图,该示例中,第一物理空间内具有四个对象,该四个对象在全景图像中呈横向分布。通过麦克风阵列采集第一物理空间内的360度范围内的音频数据。
[0120]
可以首先仅由任一对象(记为第一发声对象)在第一物理空间的任一位置(记为第一音源位置)发声,在第一发声对象发声的同时,通过全景摄像头采集第一发声对象的全景图像,通过麦克风阵列采集第一发声对象的音频数据。
[0121]
根据采集的音频数据确定音源位置(即第一音源位置),根据采集的图像数据对第一发声对象的空间位置进行标定,标定结果即为第一空间位置。
[0122]
确定第一空间位置与第一音源位置之间的匹配差异,将匹配差异确定为第一物理
空间对应的零位校准参数。图4a中是基于人形检测结果和声源定位结果进行零位较准,在其它实施例中,也可以基于人脸检测结果和声源定位结果进行零位较准。
[0123]
后续全景摄像头和麦克风阵列持续同时对第一物理空间进行图像数据和音频数据的采集。
[0124]
对于采集的图像数据进行人形检测和/或人脸检测,以对第一物理空间内的各个对象的空间位置进行标定。可以直接对图像数据进行人脸检测,也可以先对图像数据进行人形检测,在检测到的人体区域再进行人脸检测。如图4b所示,其中的矩形框为对采集的图像数据进行人形检测得到的标定结果。
[0125]
基于人形检测结果(即标定的人体区域)进行人体识别,可以得到人体区域对应的身份信息。
[0126]
基于人脸检检测结果(即标定的人脸区域)进行人脸识别,可以得到人脸区域对应的身份信息。
[0127]
基于人脸检测结果进行唇动检测,可以得到唇动检测结果。
[0128]
对采集的音频数据进行声源定位、声纹识别和人声检测。
[0129]
如果人声检测结果为检测到人声,可以确定音源位置为产生有效音频数据的音源位置,否则,确定音源位置为产生无效音频数据的音源位置。
[0130]
基于上述信息,可以进行如下分析:
[0131]
根据标定得到的各个对象的空间位置,声源定位得到的音源位置,以及上述零位较准参数,可以确定各空间位置处的对象是否在有效音频数据的音源位置所表征的范围内。
[0132]
对于在有效音频数据的音源位置所表征的范围内的各对象(简称为范围内对象),根据第一物理空间内的各范围内对象的人体识别结果或人脸识别结果可以确定各范围内对象的身份信息,根据声纹识别结果可以确定第一物理空间内的发声对象的身份信息,根据唇动检测结果可以确定图像数据中的哪个对象在发声。
[0133]
在有效音频数据的音源位置所表征的范围内只有一个对象的情况下,该对象就是发声对象。
[0134]
在有效音频数据的音源位置所表征的范围内有至少两个对象的情况下,如果对范围内对象进行唇动检测的结果表征检测到唇动,可以直接在图像数据中确定有效音频数据的音源位置所表征的范围内的发声对象。如果对范围内的对象进行唇动检测的结果表征未检测到唇动,可以结合人体识别或人脸识别结果,以及声纹识别结果来确定发声对象。
[0135]
在确定发声对象后,可以记录各发声对象的行为数据,并对每个发声对象的行为数据分别进行统计分析,以确定各个发声对象的行为属性数据。
[0136]
发声对象的行为可以包括如下至少一种:发声行为和运动行为。
[0137]
其中,发声行为可以包括发声对象开始说话的时间和结束说话的时间。运动行为可以包括:发声对象所处的位置和发声对象的形态。
[0138]
基于发声对象的开始说话时间和结束说话时间,可以统计发声对象的说话时长、说话次数、停止说话时长、平均音量等。
[0139]
基于发声对象所处的位置可以确定发声对象的移动范围,基于发声对象的形态可以确定发声对象的动作。
[0140]
在一可选的实施例中,如果确定目标空间环境内的发声对象唯一,可以将该唯一的发声对象确定为目标对象,并将第二输出参数确定为目标对象的输出参数。也就是说,在基于标定的空间位置和产生有效音频数据的音源位置确定发声对象一直是同一对象的情况下(比如,会议报告场景),以指定的输出参数(即第二输出参数)作为目标对象的输出参数。
[0141]
目标对象在第二输出参数下的视觉提示效果强于目标空间环境内的其他对象的视觉提示效果。
[0142]
第二输出参数可以包括显示布局参数和/或显示方式参数。控制目标空间环境内的电子设备按照第二输出参数输出目标对象的目标图像数据可以包括:控制目标空间环境内的电子设备按照第二输出参数中的显示布局参数和/或显示方式参数输出目标对象的目标图像数据。
[0143]
作为示例,显示布局可以包括:只显示目标对象的目标图像数据;对应的显示方式可以包括:全屏显示,或者,非全屏显示。
[0144]
作为示例,显示布局可以包括:目标对象和非目标对象均显示;对应的显示方式可以包括:突出显示目标对象。如果目标图像数据基于实时采集的图像确定,可以对各个对象的实时采集的图像数据进行裁剪,得到各对象的目标图像数据,将各个对象的目标图像数据进行拼接,通过目标空间环境内的电子设备显示拼接得到的图像。在显示拼接得到的图像时,目标对象突出显示,比如,在目标对象的目标图像数据周围增加高亮的矩形框等。可选的,目标对象和非目标对象的目标图像数据的大小可以不同,比如,目标对象的目标图像数据大于非目标对象的目标图像数据,从而拼接得到的图像中,每个目标对象的目标图像数据均占据较大的区域,而每个非目标对象的目标图像数据均占据较小区域,从而目标对象的视觉提示效果强于目标空间环境内的非目标对象的视觉提示效果。
[0145]
第二输出参数可以包括目标对象的目标音频数据的降噪参数和/或无效语音静音参数。目标音频数据基于实时采集的目标对象的音频数据确定,可以将实时采集的音频数据划分为多个语音帧,对每个语音帧分别进行降噪和/或对无效语音静音处理;将降噪和/或静音后的语音帧拼接得到目标语音数据,输出目标音频数据。无效语音可以是未携带文本内容的声音,比如,咳嗽声等。
[0146]
在一可选的实施例中,也可以将实时采集的目标对象的音频数据作为目标对象的目标音频数据输出。
[0147]
在一可选的实施例中,上述至少基于行为属性数据确定目标对象及其输出参数的一种实现方式可以为:
[0148]
如果基于行为属性数据确定目标空间环境内的发声对象唯一,将该发声对象确定为目标对象,并基于该发声对象的行为属性数据确定目标对象具有第一输出参数。
[0149]
目标对象在第一输出参数下的视觉提示效果强于目标空间环境内的其他对象的视觉提示效果。
[0150]
也就是说,对于目标空间环境内的任一对象,可以基于该任一对象的行为属性数据确定该任一对象是否为目标空间环境内的发声对象。比如,行为属性数据可以包括:说话时长和/或说话次数,则如果该任一对象的说话时长或说话次数为零,可以确定该任一对象未发过声,如果该任一对象的说话时长或说话次数不为零,确定该任一对象发过声。基于
此,如果目标空间环境内只有一个对象的说话时长或说话次数不为零,其它对象的说话时长或说话次数均为零,可以确定目标空间环境内的发声对象唯一,否则,确定目标空间环境内的发声对象不唯一。
[0151]
在基于行为属性数据确定目标空间环境内的发声对象唯一的情况下,将该唯一的发声对象确定为目标对象,并基于该发声对象的行为属性数据确定目标对象的输出参数为第一输出参数
[0152]
第一输出参数可以包括显示布局参数和/或显示方式参数。控制目标空间环境内的电子设备按照第一输出参数输出目标对象的目标图像数据可以包括:控制目标空间环境内的电子设备按照第一输出参数中的显示布局参数和/或显示方式参数输出目标对象的目标图像数据。
[0153]
作为示例,显示布局可以包括:只显示目标对象的目标图像数据;对应的显示方式可以包括:全屏显示,或者,非全屏显示。
[0154]
作为示例,显示布局可以包括:目标对象和非目标对象均显示;对应的显示方式可以包括:突出显示目标对象。如果目标图像数据基于实时采集的图像确定,可以对各个对象的实时采集的图像数据进行裁剪,得到个对象的目标图像数据,将各个对象的目标图像数据进行拼接,通过目标空间环境内的电子设备显示拼接得到的图像。在显示拼接得到的图像时,目标对象的目标图像数据突出显示,比如,在目标对象的目标图像数据周围增加高亮的矩形框等。可选的,目标对象和非目标对象的目标图像数据的大小可以不同,比如,目标对象的目标图像数据大于非目标对象的目标图像数据,从而拼接得到的图像中,每个目标对象的目标图像数据均占据较大的区域,而每个非目标对象的目标图像数据均占据较小区域,从而目标对象的视觉提示效果强于目标空间环境内的非目标对象的视觉提示效果。
[0155]
第一输出参数可以包括目标对象的目标音频数据的降噪参数和/或无效语音静音参数。目标音频数据基于实时采集的目标对象的音频数据确定,可以将实时采集的音频数据划分为多个语音帧,对每个语音帧分别进行降噪和/或对无效语音静音处理;将降噪和/或静音后的语音帧拼接得到目标语音数据,输出目标音频数据。无效语音可以是未携带文本内容的声音,比如,咳嗽声等。
[0156]
在一可选的实施例中,也可以将实时采集的目标对象的音频数据作为目标对象的目标音频数据输出。
[0157]
在一可选的实施例中,上述至少基于各对象的行为属性数据确定目标对象及其输出参数的一种实现流程图如图5所示,可以包括:
[0158]
步骤s501:如果目标空间环境内的发声对象不唯一,基于各发声对象的行为属性数据对每位发声对象进行评价以确定目标对象。
[0159]
其中,目标空间环境内的发声对象是否唯一可以基于标定的空间位置和产生有效音频数据的音源位置确定,也可以基于各对象的行为数据确定,具体判断方式可以参看前述实施例,这里不再赘述。
[0160]
在目标空间环境内的发声对象不唯一的情况下,基于各发声对象的行为属性数据筛选出目标对象。
[0161]
可选的,发声对象的行为属性数据可以包括发声对象的发声参数和/或运动参数。其中发声参数表征发声对象的声音属性,可以包括但不限于:说话时长、停止说话的时长、
说话次数、平均音量等;运动参数表征发声对象的运动属性,可以包括但不限于:移动范围、动作关联度等。可以通过如下两种评价方式中的至少一种对每位发声对象进行评价以确定目标对象:
[0162]
评价方式一:基于发声对象的发声参数以及发声参数所对应的权重,对每位发声对象的发声行为进行评价,得到综合评分和/或指定项评分,基于综合评分、指定项评分、历史评价信息中的至少之一确定目标对象。
[0163]
该评价方式一不涉及发声对象的运动参数,而只涉及发声对象的发声参数。在发声对象的发声参数具有多项的情况下,每个发声参数对应有相应的权重。对第二发声对象(第二发声对象为各个发声对象中的任一发声对象)的发声行为进行评价时,可以基于第二发声对象的各单项发声参数分别对第二对象的发声行为进行单项评价,获得第二发声对象的单项评分,还可以将第二发声对象的各单项评分融合,得到第二发声对象的综合评分。
[0164]
第二发声对象的历史评价信息可以包括第二发声对象的历史单项评分和历史综合评分。具体的,第二发声对象的历史单项评分可以是第二发声对象在本次音/视频录制之前,历次进行音/视频录制时的指定单项评分的均值,或者,可以是第二发声对象在本次音/视频录制之前最近一次进行音/视频录制时的指定单项评分;第二发声对象的历史综合评分可以是第二发声对象在本次音/视频录制之前,历次进行音/视频录制时的综合评分的均值,或者,可以是第二发声对象在本次音/视频录制之前,最近一次进行音/视频录制时的综合评分。
[0165]
可选的,在发声参数包括说话时长的情况下,说话时长对应的单项评分与说话时长正相关,即第二发声对象的说话时长越长,第二发声对象的与说话时长对应的单项评分越高。
[0166]
在发声参数包括说话次数的情况下,说话次数对应的单项评分与说话次数正相关,即第二发声对象的说话次数越多,第二发声对象的与说话次数对应的单项评分越高。
[0167]
在发声参数包括平均音量的情况下,平均音量对应的单项评分与平均音量正相关,即第二发声对象的平均音量越高,第二发声对象的与平均音量对应的单项评分越高。
[0168]
在发声参数包括停止说话的时长的情况下,停止说话的时长对应的单项评分与停止说话的时长负相关,即第二发声对象的停止说话的时长越长,第二发声对象的与停止说话的时长对应的单项评分越低。可选的,第二发声对象的与停止说话的时长对应的单项评分为负值,即第二发声对象的与停止说话的时长对应的单项评分小于零。
[0169]
如果基于综合评分对发声对象的发声行为进行评价,则可以将第二发声对象的各个单项评分加权求和,得到第二发声对象的综合评分。
[0170]
作为示例,第二对象的发声参数可以至少包括说话时长、说话次数和停止说话的时长。基于综合评分对第二发声对象的发声行为进行评价时,将第二对象的说话时长对应的单项评分、说话次数对应的单项评分和停止说话时长对应的单项评分加权求和,得到第二发声对象的发声行为的综合评分。其中,说话时长对应的单项评分对应的第一权重,以及说话次数对应的单项评分的第二权重之和为1。停止说话时长对应的单项评分的第三权重大于零,且小于或等于1。可选的,
[0171]
如果基于指定项评分对发声对象的发声行为进行评价,则指定项可以为说话时长或说话次数。
[0172]
在基于第二发声对象的综合评分、指定项评分和历史综合评分中的至少两项对第二发声对象的发声行为进行评价时,可以将综合评分、指定项评分和历史综合评分中的至少两项加权求和,得到第二发声对象的最终评分,基于该最终评分确定第二发声对象是否为目标对象。比如,基于综合评分和历史综合评分对第二发声对象进行评价时,可以将第二对象的综合评分与历史综合评分加权和,得到最终评分,基于该最终评分确定目标对象。可选的,综合评分对应的权重大于或等于历史综合评分对应的权重,综合评分对应的权重与历史综合评分对应的权重之和为1。
[0173]
在基于综合评分、指定项评分、历史评价信息中的任一项对第二发声对象的发声行为进行评价时,可以将该任一项作为第二发声对象的最终评分,基于该最终评分确定目标对象。
[0174]
在获得各个发声对象的最终评分后,可以将最终评分大于评分阈值的发声对象确定为目标对象,或者,可以将最终评分排序前n的发声对象确定为目标对象。也就是说,目标对象的最终评分大于非目标对象的最终评分。
[0175]
评价方式二:基于发声对象的运动参数和发声参数对每位发声对象的发声行为进行评价,以确定目标对象。
[0176]
发声对象的运动参数可以包括发声对象的移动范围和/或发声对象的动作关联度等。发声对象的动作关联度是指发声对象的动作与目标物品(如,书写板、展品等)的关联度。发声对象的动作关联度可以通过发声对象的肢体动作时与目标物品间的距离确定,如果发声对象的肢体动作时肢体与目标物品的距离越近,发声对象的动作关联度越大,否则,发声对象的动作关联度越小。
[0177]
对于第二发声对象,可以基于第二发声对象的运动参数和发声参数分别对第二发声对象的发声行为进行评价,得到第二发声对象的运动参数对应的第一评分和发声参数对应的第二评分,将第一评分和第二平均分加权求和得到第二发声对象的最终评分,基于最终评分判断第二发声对象是否为目标对象。
[0178]
基于发声对象的运动参数对发声对象进行评价时,发声对象的移动范围在目标范围内时的评分大于发声对象的移动范围超出目标范围时的评分,发声对象的动作关联度越大,发声对象的评分越高。可以将发声对象对应移动范围的评分和对应动作关联度的评分加权求和,得到发声对象对应运动参数的第一评分。
[0179]
基于第二发声对象的发声参数对第二发声对象的发声行为进行评价的过程可以参看前述实施例,这里不再赘述。
[0180]
在通过上述两种评价方式对发声对象进行评价的情况下,可以将基于两种评价方式确定的目标对象求并集,得到最终的目标对象。
[0181]
步骤s502:基于确定的目标对象的信息确定目标对象的输出参数。
[0182]
可选的,可以基于以下至少一项确定目标对象的输出参数:
[0183]
基于确定的目标对象的数量确定输出参数。
[0184]
基于确定的目标对象的相对位置关系确定输出参数。目标对象的相对位置关系可以为:是否在同一物理空间中。可选的,如果两个目标对象在同一图像采集装置采集的图像中,则两个目标对象在同一物理空间中。
[0185]
基于确定的目标对象之间的交互关系确定输出参数。目标对象之间的交互关系可
以包括:目标对象之间是否对话,以及是两人对话,还是多人对话等等。
[0186]
可选的,在只有一个目标对象的情况下,输出参数可以为:只显示目标对象的目标图像数据,或者,目标对象和非目标对象的目标图像数据均显示,但目标对象的目标图像数据的显示区域大于每个非目标对象的目标图像数据的显示区域。在只显示目标对象的目标图像数据情况下,目标对象的目标图像数据可以全屏显示,也可以不全屏显示。
[0187]
在有至少两个目标对象的情况下,输出参数可以为:只显示该至少两个目标对象的目标图像数据;或者,目标对象和至少部分非目标对象的目标图像数据(显示目标图像数据的非目标对象的评分大于未显示目标图像数据的非目标对象的评分)均显示,但每个目标对象的显示区域均大于非目标对象的目标图像数据的显示区域。
[0188]
在有至少两个目标对象的情况下,输出参数可以为:在同一物理空间中的目标对象在同一画框中进行显示,在不同物理空间中的目标对象在不同的画框中进行显示。比如,如果存在至少m(m为大于1的整数)个目标对象在同一物理空间中,则可以将该至少m个目标对象在同一画框中显示。
[0189]
在有至少两个目标对象的情况下,如果该至少两个目标对象中,存在至少k(k为大于1的整数)个目标对象的评分相近,比如,该至少k个目标对象中任意两个目标对象的评分的差值均小于或等于差值阈值,则确定该至少k个目标对象在对话,如果该至少两个目标对象中,任意两个目标对象的评分的差值均大于差值阈值,确定该至少两个目标对象未进行对话。
[0190]
如果存在两个目标对象对话,输出参数可以为:只显示该至少两个目标对象的目标图像数据;或者,目标对象和至少部分非目标对象的目标图像数据均显示,但每个目标对象的显示区域均大于非目标对象的目标图像数据的显示区域。
[0191]
如果存在多个目标对象对话(即k大于2),输出参数可以为:只显示该多个目标对象的目标图像数据。
[0192]
在一可选的实施例中,上述至少基于行为属性数据确定目标对象及其输出参数的一种实现方式可以为:
[0193]
基于行为属性数据获得目标空间环境内各对象的运动参数,将符合目标运动条件的对象确定为目标对象,以及基于确定的目标对象的信息确定输出参数。
[0194]
对象的运动参数可以包括但不限于:移动范围和动作关联度等。也就是说,本实施例在确定目标对象时,不涉及对象的发声参数。
[0195]
符合目标运动条件可以包括但不限于:移动范围在目标范围内,和/或,对象的动作关联度大于关联度阈值。
[0196]
基于确定的目标对象的信息确定输出参数的过程可以参看前述实施例,这里不再赘述。
[0197]
在一可选的实施例中。本技术提供的数据处理方法还可以包括:
[0198]
获得目标空间环境内的环境变化信息,基于环境变化信息更新目标图像数据和/或目标音频数据。环境变化信息可以包括但不限于:对象数量的变化、环境亮度的变化、环境噪音的变化等。比如,在任一目标对象所在的目标物理空间(目标物理空间为目标空间环境内的其中一物理空间)内的对象数量小于第一数量阈值时,实时采集的图像数据中各个对象的图像显示比较清晰,可以从实时采集的图像数据中获得目标物理空间内各个目标对
象的目标图像数据;在目标物理空间内的对象数量大于或等于第一数量阈值时,实时采集的图像数据中各个对象的图像可能无法清晰显示,此时可以采用预先存储的目标物理空间内各个目标对象的图像数据(比如,系统头像或指定图像等)作为目标图像数据。再比如,目标物理空间的环境亮度大于亮度阈值时,可以从实时采集的图像数据中获得目标物理空间内各个目标对象的目标图像数据;当目标物理空间的环境亮度小于或等于亮度阈值时,可以采用预先存储的目标物理空间内各个目标对象的图像数据(比如,系统头像或指定图像等)作为目标图像数据。再比如,在目标物理空间内噪音比较大(比如,目标音频数据的信噪比小于信噪比阈值)时,先对目标物理空间内目标对象的目标音频数据进行降噪后再输出,在目标物理空间内的噪音比较小(比如,目标音频数据的信噪比大于或等于信噪比阈值)时,可以不对目标物理空间内目标对象的目标音频数据进行降噪处理,而是直接输出目标音频数据。
[0199]
和/或,
[0200]
获得目标空间环境内的环境变化信息,基于环境变化信息调整目标对象的输出参数。环境变化信息可以包括但不限于:对象数量的变化、环境亮度的变化、环境噪音的变化等。比如,在目标空间环境内的对象数量小于第二数量阈值时,输出参数可以包括调大各个目标对象的目标图像数据的大小;在目标空间环境内的对象数量大于或等于第二数量阈值时,输出参数可以包括调小各个目标对象的目标图像数据的大小。再比如,当目标物理空间的环境亮度小于或等于亮度阈值时,输出参数可以包括调大各个目标对象的目标图像数据的大小,此时,目标对象的目标图像数据可以是从实时采集的图像数据中提取得到的。再比如,在目标物理空间内噪音比较大时,输出参数可以包括对目标物理空间内目标对象的实时采集的音频数据进行降噪和无效音静音处理;在目标物理空间内的噪音比较小时,输出参数可以包括只对目标物理空间内目标对象的实时采集的音频数据进行无效音静音处理等。
[0201]
在一可选的实施例中,本技术提供的数据处理方法还可以包括:
[0202]
基于目标对象的变化信息实时调整用于确定目标对象的处理算法。
[0203]
本技术实时监测目标对象的变化信息,可选的,在目标对象的数量大于第三数量阈值时,可以调整用于确定目标对象的处理算法,以降低目标对象的数量,避免出现目标对象的目标图像数据频繁切换的问题。
[0204]
比如,在基于发声对象的综合评分、指定项评分和历史评分中的至少一项确定目标对象时,可以增加评分阈值,以便减少目标对象的数量。
[0205]
再比如,在基于目标空间环境内各对象的运动参数,将符合目标运动条件的对象确定为目标对象时,可以提高目标运动条件,以便减少目标对象的数量。
[0206]
与方法实施例相对应,本技术还提供一种数据处理装置,本技术实施例提供的数据处理装置的一种结构示意图如图6所示,可以包括:
[0207]
属性获得模块601,确定模块602和控制模块603;其中,
[0208]
属性获得模块601用于基于目标空间环境内的音频数据和图像数据获得所述目标空间环境内各对象的行为属性数据;
[0209]
确定模块602用于至少基于所述行为属性数据确定目标对象及其输出参数;
[0210]
控制模块603用于控制所述目标空间环境内的电子设备按照所述输出参数输出所
述目标对象的目标图像数据和/或目标音频数据。
[0211]
本技术实施例提供的数据处理装置,基于目标空间环境内的各个对象的行为属性数据确定目标对象及其输出参数,控制目标空间环境内的各个电子设备按照上述输出参数输出目标对象的目标图像数据和/或目标音频数据,由于对象的行为属性数据具有统计特性,因此,基于本技术能够避免只要目标空间环境内的对象发声就输出发声对象的图像数据和/或音频数据,从而避免图像数据和/或音频数据输出时频繁跳变的问题。
[0212]
在一可选的实施例中,所述属性获得模块601用于:
[0213]
基于所述图像数据对所述目标空间环境内各对象的空间位置进行标定;
[0214]
基于所述音频数据确定产生有效音频数据的音源位置;
[0215]
基于所述空间位置和所述音源位置确定各发声对象的行为属性数据。
[0216]
在一可选的实施例中,所述属性获得模块601基于所述空间位置和所述音源位置确定各发声对象的行为属性数据时,用于:
[0217]
获得所述空间位置和所述音源位置之间的零位校准参数;
[0218]
参考所述零位校准参数确定各发声对象的行为数据,得到各发声对象的行为属性数据。
[0219]
在一可选的实施例中,所述装置还包括零位校准参数确定模块,用于:
[0220]
确定第一音源位置处的第一发声对象在目标空间环境图像中的第一空间位置,所述目标空间环境图像是所述目标空间环境的全景图像;
[0221]
确定所述第一空间位置与所述第一音源位置之间的匹配差异,将所述匹配差异确定为所述零位校准参数。
[0222]
在一可选的实施例中,所述确定模块602用于:
[0223]
如果基于所述行为属性数据确定所述目标空间环境内的发声对象唯一,将该发声对象确定为所述目标对象,并基于该发声对象的行为属性数据确定所述目标对象具有第一输出参数;
[0224]
其中,所述目标对象在所述第一输出参数下的视觉提示效果强于所述目标空间环境内的其他对象的视觉提示效果。
[0225]
在一可选的实施例中,所述确定模块602用于:
[0226]
如果确定所述目标空间环境内的发声对象不唯一,基于所述行为属性数据对每位发声对象进行评价以确定目标对象;
[0227]
基于确定的目标对象的信息确定所述输出参数。
[0228]
在一可选的实施例中,所述确定模块602基于所述行为属性数据对每位发声对象进行评价以确定目标对象时,执行以下至少之一:
[0229]
基于发声对象的发声参数以及所述发声参数所对应的权重对每位发声对象的发声行为进行评价,基于综合评分、指定项评分、历史评价信息中的至少之一确定所述目标对象;
[0230]
基于发声对象的运动参数和发声参数对每位发声对象的发声行为进行评价,以确定所述目标对象;
[0231]
对应地,所述所述确定模块602基于确定的目标对象的信息确定所述输出参数,执行以下至少之一:
[0232]
基于确定的目标对象的数量确定所述输出参数;
[0233]
基于确定的目标对象之间的相对位置关系确定所述输出参数;
[0234]
基于确定的目标对象之间的交互关系确定所述输出参数。
[0235]
在一可选的实施例中,所述确定模块602用于:
[0236]
基于所述行为属性数据获得所述目标空间环境内各对象的运动参数,将符合目标运动条件的对象确定为所述目标对象,以及基于确定的目标对象的信息确定所述输出参数。
[0237]
在一可选的实施例中,所示控制模块603还用于以下至少之一:
[0238]
获得所述目标空间环境内的环境变化信息,基于所述环境变化信息更新所述目标图像数据和/或所述目标音频数据;获得所述目标空间环境内的环境变化信息,基于所述环境变化信息调整所述目标对象的输出参数;
[0239]
基于目标对象的变化信息实时调整用于确定所述目标对象的处理算法。
[0240]
与方法实施例相对应,本技术还提供一种电子设备,该电子设备的一种结构示意图如图7所示,可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4。
[0241]
在本技术实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信。
[0242]
处理器1可能是一个中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本技术实施例的一个或多个集成电路等。
[0243]
存储器3可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器。
[0244]
其中,存储器3存储有程序,处理器1可调用存储器3存储的程序,所述程序用于:
[0245]
基于目标空间环境内的音频数据和图像数据获得所述目标空间环境内各对象的行为属性数据;
[0246]
至少基于所述行为属性数据确定目标对象及其输出参数;
[0247]
控制所述目标空间环境内的电子设备按照所述输出参数输出所述目标对象的目标图像数据和/或目标音频数据。
[0248]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0249]
本技术实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
[0250]
基于目标空间环境内的音频数据和图像数据获得所述目标空间环境内各对象的行为属性数据;
[0251]
至少基于所述行为属性数据确定目标对象及其输出参数;
[0252]
控制所述目标空间环境内的电子设备按照所述输出参数输出所述目标对象的目标图像数据和/或目标音频数据。
[0253]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0254]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟
以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
[0255]
在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0256]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0257]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0258]
应当理解,本技术实施例中,从权、各个实施例、特征可以互相组合结合,都能实现解决前述技术问题。
[0259]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0260]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1