信息处理设备和信息处理方法

文档序号：9621438阅读：382来源：国知局

信息处理设备和信息处理方法
【技术领域】
[0001] 本发明涉及信息处理设备和信息处理方法，特别是涉及能够识别图像上的语音数据的获取位置的信息处理设备和信息处理方法。
【背景技术】
[0002] 最热门的流媒体服务之一是基于互联网的跨顶（over-the-top)视频（0TT-V)。运动图像专家组阶段-基于HTTP的动态自适应流媒体（MPEG-DASH)被广泛用作其底层技术 (参见，例如非专利文献1)。
[0003] 在MPEG-DASH中，递送服务器针对一个视频内容项制备具有不同画面大小的一组视频数据和码率，并且回放终端基于传输线路条件来请求具有最佳画面大小和码率的一组视频数据，从而实现自适应流媒体递送。
[0004] 引文列表 [0005] 非专利文献
[0006] 非专利文献1 :MPEG-DASH(基于HTTP的动态自适应流媒体）（URL:http://mpeg. chiariglione.org/standards/mpeg-dash/media_presentati on-description-and-segm ent-formats/text-isoiec-23009-12012-dam-l)

【发明内容】

[0007] 技术问题
[0008] 然而，未给出关于由回放终端识别视频内容上的语音数据的获取位置的考虑。
[0009] 本发明是鉴于这样的情形而提出的，并且旨在能够识别图像上的语音数据的获取位置。
[0010] 问题的解决方案
[0011] 根据本公开内容的第一方面的信息处理设备包括：发送器，该发送器被配置成发送图像帧大小信息和语音位置信息，图像帧大小信息表示图像数据的图像帧大小，语音位置信息表示语音数据的获取位置。
[0012] 根据本公开内容的第一方面的信息处理方法与根据本公开内容的第一方面的信息处理设备对应。
[0013] 根据本公开内容的第一方面，发送图像帧大小信息和语音位置信息，图像帧大小信息表示图像数据的图像帧大小，语音位置信息表示语音数据的获取位置。
[0014] 根据本公开内容的第二方面的信息处理设备包括：接收器，该接收器被配置成接收图像帧大小信息和语音位置信息，图像帧大小信息表示图像数据的图像帧大小，语音位置信息表示语音数据的获取位置；以及位置确定单元，该位置确定单元被配置成基于由接收器接收到的图像数据的图像帧大小信息和语音位置信息，确定与图像数据对应的图像上的语音数据的获取位置。
[0015] 根据本公开内容的第二方面的信息处理方法与根据本公开内容的信息处理设备对应。
[0016] 根据本公开内容的第二方面，接收图像帧大小信息和语音位置信息，图像帧大小信息表示图像数据的图像帧大小，语音位置信息表示语音数据的获取位置。基于图像数据的图像帧大小信息和语音位置信息来确定与图像数据对应的图像上的语音数据的获取位置。
[0017] 根据第一方面和第二方面的信息处理设备可以通过使计算机执行一定程序来实现。
[0018] 要由计算机执行的程序可以通过经由传输介质传送或记录在记录介质中来提供，以实现根据第一方面和第二方面的信息处理设备。
[0019] 发明的有利效果
[0020] 根据本公开内容的第一方面，可以传送用于识别图像上的语音数据的获取位置的信息。
[0021] 根据本公开内容的第二方面，可以识别图像上的语音数据的获取位置。
【附图说明】
[0022] [图1]图1是被示出以描述应用本公开内容的信息处理系统的第一实施方式的概况的图。
[0023] [图2]图2是示出瓦片的示例的图。
[0024] [图3]图3是被示出以描述对象的图。
[0025] [图4]图4是被示出以描述对象位置信息的图。
[0026] [图5]图5是被示出以描述图像帧大小信息的图。
[0027] [图6]图6是示出MPD文件的结构的图。
[0028] [图7]图7是示出"时段"、"表示"和"段"元素之间的关系的图。
[0029] [图8]图8是示出MPD文件的层次结构的图。
[0030] [图9]图9是示出MPD文件的结构与时间轴之间的关系的图。
[0031] [图10]图10是被示出以描述MPD文件的示例性描述的图。
[0032] [图11]图11是示出文件生成设备的示例性配置的框图。
[0033] [图12]图12是被示出以描述由文件生成设备执行的文件生成处理的流程图。
[0034] [图13]图13是示出流媒体回放部的示例性配置的框图。
[0035] [图14]图14是被示出以描述由流媒体回放部执行的流媒体回放处理的流程图。
[0036] [图15]图15是被示出以描述MPD文件的另一示例性描述的图。
[0037] [图16]图16是被示出以描述MPD文件的又一示例性描述的图。
[0038] [图17]图17是示出音频流的布置示例的图。
[0039] [图18]图18是示出gsix的示例性描述的图。
[0040] [图19]图19是示出表示样本组条目与对象ID之间的关联关系的信息的示例。
[0041] [图20]图20是示出音频对象样本组条目的示例性描述的图。
[0042] [图21]图21是示出类型分配盒的示例性描述的图。
[0043] [图22]图22是被示出以描述应用本公开内容的信息处理系统的第二实施方式的概况的图。
[0044] [图23]图23是示出应用本公开内容的信息处理系统的流媒体回放部的示例性配置的框图。
[0045] [图24]图24是被示出以描述确定对象的位置的方法的图。
[0046] [图25]图25是被示出以描述确定对象的位置的方法的图。
[0047] [图26]图26是被示出以描述确定对象的位置的方法的图。
[0048] [图27]图27是示出水平角θΑι与θ Αι'之间的关系的图。
[0049] [图28]图28是示出垂直角γν/与γΑ/之间的关系的图。
[0050] [图29]图29是被示出以描述要由图23中的流媒体回放部执行的流媒体回放处理的流程图。
[0051] [图30]图30是被示出以更详细地描述图29中的位置确定处理的流程图。
[0052] [图31]图31是被示出以详细描述图30中的水平角θ Αι'估计处理的流程图。
[0053] [图32]图32是被示出以描述根据应用本公开内容的信息处理系统的第三实施方式的用于确定对象的位置的方法的图。
[0054] [图33]图33是被示出以描述根据应用本公开内容的信息处理系统的第三实施方式的用于确定对象的位置的方法的图。
[0055] [图34]图34是被示出以描述根据应用本公开内容的信息处理系统的第三实施方式的用于确定对象的位置的方法的图。
[0056] [图35]图35是被示出以描述根据应用本公开内容的信息处理系统的第三实施方式的用于确定对象的位置的方法的图。
[0057] [图36]图36是被示出以详细描述根据应用本公开内容的信息处理系统的第三实施方式的位置确定处理的流程图。
[0058] [图37]图37是示出计算机的示例性硬件配置的框图。
【具体实施方式】
[0059] 〈第一实施方式〉
[0060](信息处理系统的第一实施方式的概述）
[0061]图1是被示出以描述应用本公开内容的信息处理系统的第一实施方式的概述的图。
[0062] 图1所示的信息处理系统10被配置成包括通过因特网13彼此相连的Web服务器 12和视频回放终端14。Web服务器12连接至文件生成设备11。
[0063] 在信息处理系统10中，Web服务器12使用符合MPEG-DASH的方式以瓦片（tile) (瓦片流）为单位向视频回放终端14递送视频内容的图像数据。
[0064] 具体地，文件生成设备11获取视频内容的图像数据并且以瓦片为单位对图像数据进行编码以生成视频流。文件生成设备11以范围从几秒至大约十秒的时间间隔将每个瓦片的视频流处理成文件格式，该时间间隔被称为段。文件生成设备11将所得到的每个瓦片的图像文件上传至Web服务器12。
[0065] 文件生成设备11针对（稍后详细描述的）每个对象获取视频内容的音频数据并且以对象为单位对音频数据进行编码以生成音频流。文件生成设备11以段为单位将每个对象的音频流处理成文件格式，并且将所得到的每个对象的音频文件上传至Web服务器 12。
[0066] 对象是声源。每个对象的语音数据是通过附接至该对象的麦克风或其他音频设备而获取的。对象可以是诸如固定的传声器架的实物或者可以是诸如人的移动体。
[0067] 文件生成设备11对包括对象位置信息（语音位置信息）和对象ID的音频元数据进行编码，对象位置信息表示每个对象的位置（获取音频数据的位置），对象ID是对象的唯一 ID。文件生成设备11以段为单位将通过对音频元数据进行编码而获得的编码数据处理成文件格式，并且文件生成设备11将所得到的语音元文件上传至Web服务器12。
[0068] 文件生成设备11生成用于管理图像文件或语音文件的媒体表示描述（MPD)文件 (控制信息）。媒体表示描述文件可以包含指示视频内容中的图像的帧大小的图像帧大小信息，并且包含指示每个瓦片在图像上的位置的瓦片位置信息。文件生成设备11将Mro文件上传至Web服务器12。
[0069] Web服务器12存储从文件生成设备11上传的图像文件、语音文件、语音元文件和 MTO文件。
[0070] 在如图1所示的示例中，Web服务器12存储由瓦片ID为"1"的瓦片的图像文件构成的多个段的段组和由瓦片ID为"2"的瓦片的图像文件构成的多个段的段组。Web服务器12还存储由对象ID为"1"的对象的语音文件构成的多个段的段组和由对象ID为"2" 的对象的语音文件构成的多个段的段组。尽管未示出，但类似地存储有由语音元文件构成的段组。
[0071] 在下文中，将瓦片ID为i的瓦片称为"瓦片#i"并且将对象ID为i的对象称为 "对象#i"。
[0072] Web服务器12用作发送器，该发送器被配置成响应于来自视频回放终端14的请求而向视频回放终端14发送所存储的图像文件、语音文件、语音元文件和MPD文件。
[0073] 视频回放终端14执行例如用于控制流媒体数据的软件（在下文中被称为控制软件）21、视频回放软件22和用于超文本传输协议（HTTP)访问的客户端软件（在下文中被称为访问软件）23。
[0074] 控制软件21是控制从Web服务器12经由流媒体递送的数据的软件。具体地，控制软件21使视频回放终端14能够从Web服务器12获取MPD文件。
[0075] 控制软件21基于显示区域和包含在MH)文件中的瓦片位置信息来指定显示区域中的瓦片，该显示区域是图像中用于显示由音频回放软件22指示的视频内容的区域。控制软件21指示访问软件23发出对发送所指定的瓦片的图像文件的请求。
[0076] 控制软件21指示访问软件23发出对发送语音元文件的请求。控制软件21基于显示区域、包含在MPD文件中的图像帧大小信息和包含在语音元文件中的对象位置信息来指定与显示区域中的图像对应的对象。控制软件21指示访问软件23发出对发送所指定的对象的语音文件的请求。
[0077] 视频回放软件22是用于回放从Web服务器12获取的图像文件和语音文件的软件。具体地，当用户指定显示区域时，视频回放软件22向控制软件21指示所指定的显示区域。视频回放软件22响应于该指示而对从Web服务器12获取的图像文件和语音文件进行解码，并且视频回放软件22对解码后的文件进行合成以用于输出。
[0078] 访问软件23是用于控制使用HTTP经由因特网13与Web服务器12的通信的软件。具体地，访问软件23使视频回放终端14能够响应于来自控制软件21的指示来发送对发送图像文件、语音文件和语音元文件的请求。访问软件23使视频回放终端14能够接收响应于发送请求而从Web服务器12发送的图像文件、语音文件和语音元文件。
[0079](瓦片的示例）
[0080] 图2是示出瓦片的示例的图。
[0081] 如图2所示，视频内容被划分成多个瓦片。为从1开始的连续数字的瓦片ID被分配给每个瓦片。在图2所示的示例中，视频内容的图像被划分成四个瓦片#1至#4。
[0082] (对于对象的说明）
[0083] 图3是被示出以描述对象的图。
[0084] 图3的示例示出了图像中被获取作为音频内容的语音的八个语音对象。为从1开始的连续数字的对象ID被分配给每个对象。对象#1至对象#5是移动体，而对象#6至对象#8是静止物质体。在图3所示的示例中，视频内容的图像被划分成7 (宽度）X 5 (高度）个瓦片。
[0085] 在该情况下，如图3所示，当用户指定由3 (宽度）X2(高度）个瓦片构成的显示区域31时，显示区域31仅包含对象#1、对象#2和对象#6。因此，视频回放终端14可以从 Web服务器12获取并回放对象#1、对象#2和对象#6的语音文件。
[0086] 可以基于上述图像帧大小信息和对象位置信息来指定显示区域31中的对象。
[0087] (对于对象位置信息的说明）
[0088] 图4是被示出以描述对象位置信息的图。
[0089] 如图4所示，对象位置信息包含水平角ΘΑ(-180°彡ΘΑ< 180° )、垂直角 γΑ(-90°彡γΑ<90° )和距离rA(0<rA)。例如，图像的中心处的拍摄位置可以被设置成原点（基点）〇,图像的水平方向可以被设置成X轴方向，图像的垂直方向可以被设置成Y 轴方向以及与XY平面垂直的深度方向可以被设置成Z轴方向。在该情况下，水平角0,是由YZ平面与连接对象40和原点0的直线形成的在水平方向上的角度。垂直角γΑ是由XZ 平面与连接对象40和原点0的直线形成的在垂直方向上的角度。距离rA是对象40与原点0之间的距离。
[0090] 在下文中，将向左上旋转的角度设置成正角度，而将向右下旋转的角度设置成负角度。
[0091] (对于图像帧大小信息的说明）
[0092] 图5是被示出以描述图像帧大小信息的图。
[0093] 如图5所示，图像帧大小信息包含左边缘的水平角θνι、右边缘的水平角θ ν2、上边缘的垂直角、γνι下边缘的垂直角γ V2以及图像帧的距离rv。
[0094] 图像的中心的拍摄位置可以被设置成原点0,图像的水平方向可以被设置成X轴方向、图像的垂直方向可以被设置成Y轴方向以及与XY平面垂直的深度方向可以被设置成 z轴方向。在该情况下，水平角θνι是由YZ平面和连接图像帧的左端与原点0的直线形成的角度。水平角θν2是由ΥΖ平面和连接图像帧的右端与原点0的直线形成的角度。因此，通过组合水平角Θν1和水平角θ V2而获得的角成为水平视角。
[0095] 垂直角γνι是由XZ平面和在图像帧的上端与原点0之间连接的直线形成的角度，以及垂直角γν2是由ΧΖ平面和在图像帧的下端与原点〇之间连接的直线形成的角度。通过组合垂直角γ

完整全部详细技术资料下载

当前第1页1 2 3 4 5 6

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：服部忍;平林光浩;中神央二;知念彻;史润宇;辻实;山本优树;
技术所有人：索尼公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。