信息处理设备和信息处理方法

文档序号:9621438阅读:382来源:国知局
信息处理设备和信息处理方法
【技术领域】
[0001] 本发明涉及信息处理设备和信息处理方法,特别是涉及能够识别图像上的语音数 据的获取位置的信息处理设备和信息处理方法。
【背景技术】
[0002] 最热门的流媒体服务之一是基于互联网的跨顶(over-the-top)视频(0TT-V)。运 动图像专家组阶段-基于HTTP的动态自适应流媒体(MPEG-DASH)被广泛用作其底层技术 (参见,例如非专利文献1)。
[0003] 在MPEG-DASH中,递送服务器针对一个视频内容项制备具有不同画面大小的一组 视频数据和码率,并且回放终端基于传输线路条件来请求具有最佳画面大小和码率的一组 视频数据,从而实现自适应流媒体递送。
[0004] 引文列表 [0005] 非专利文献
[0006] 非专利文献1 :MPEG-DASH(基于HTTP的动态自适应流媒体)(URL:http://mpeg. chiariglione.org/standards/mpeg-dash/media_presentati on-description-and-segm ent-formats/text-isoiec-23009-12012-dam-l)

【发明内容】

[0007] 技术问题
[0008] 然而,未给出关于由回放终端识别视频内容上的语音数据的获取位置的考虑。
[0009] 本发明是鉴于这样的情形而提出的,并且旨在能够识别图像上的语音数据的获取 位置。
[0010] 问题的解决方案
[0011] 根据本公开内容的第一方面的信息处理设备包括:发送器,该发送器被配置成发 送图像帧大小信息和语音位置信息,图像帧大小信息表示图像数据的图像帧大小,语音位 置信息表示语音数据的获取位置。
[0012] 根据本公开内容的第一方面的信息处理方法与根据本公开内容的第一方面的信 息处理设备对应。
[0013] 根据本公开内容的第一方面,发送图像帧大小信息和语音位置信息,图像帧大小 信息表示图像数据的图像帧大小,语音位置信息表示语音数据的获取位置。
[0014] 根据本公开内容的第二方面的信息处理设备包括:接收器,该接收器被配置成接 收图像帧大小信息和语音位置信息,图像帧大小信息表示图像数据的图像帧大小,语音位 置信息表示语音数据的获取位置;以及位置确定单元,该位置确定单元被配置成基于由接 收器接收到的图像数据的图像帧大小信息和语音位置信息,确定与图像数据对应的图像上 的语音数据的获取位置。
[0015] 根据本公开内容的第二方面的信息处理方法与根据本公开内容的信息处理设备 对应。
[0016] 根据本公开内容的第二方面,接收图像帧大小信息和语音位置信息,图像帧大小 信息表示图像数据的图像帧大小,语音位置信息表示语音数据的获取位置。基于图像数据 的图像帧大小信息和语音位置信息来确定与图像数据对应的图像上的语音数据的获取位 置。
[0017] 根据第一方面和第二方面的信息处理设备可以通过使计算机执行一定程序来实 现。
[0018] 要由计算机执行的程序可以通过经由传输介质传送或记录在记录介质中来提供, 以实现根据第一方面和第二方面的信息处理设备。
[0019] 发明的有利效果
[0020] 根据本公开内容的第一方面,可以传送用于识别图像上的语音数据的获取位置的 信息。
[0021] 根据本公开内容的第二方面,可以识别图像上的语音数据的获取位置。
【附图说明】
[0022] [图1]图1是被示出以描述应用本公开内容的信息处理系统的第一实施方式的概 况的图。
[0023] [图2]图2是示出瓦片的示例的图。
[0024] [图3]图3是被示出以描述对象的图。
[0025] [图4]图4是被示出以描述对象位置信息的图。
[0026] [图5]图5是被示出以描述图像帧大小信息的图。
[0027] [图6]图6是示出MPD文件的结构的图。
[0028] [图7]图7是示出"时段"、"表示"和"段"元素之间的关系的图。
[0029] [图8]图8是示出MPD文件的层次结构的图。
[0030] [图9]图9是示出MPD文件的结构与时间轴之间的关系的图。
[0031] [图10]图10是被示出以描述MPD文件的示例性描述的图。
[0032] [图11]图11是示出文件生成设备的示例性配置的框图。
[0033] [图12]图12是被示出以描述由文件生成设备执行的文件生成处理的流程图。
[0034] [图13]图13是示出流媒体回放部的示例性配置的框图。
[0035] [图14]图14是被示出以描述由流媒体回放部执行的流媒体回放处理的流程图。
[0036] [图15]图15是被示出以描述MPD文件的另一示例性描述的图。
[0037] [图16]图16是被示出以描述MPD文件的又一示例性描述的图。
[0038] [图17]图17是示出音频流的布置示例的图。
[0039] [图18]图18是示出gsix的示例性描述的图。
[0040] [图19]图19是示出表示样本组条目与对象ID之间的关联关系的信息的示例。
[0041] [图20]图20是示出音频对象样本组条目的示例性描述的图。
[0042] [图21]图21是示出类型分配盒的示例性描述的图。
[0043] [图22]图22是被示出以描述应用本公开内容的信息处理系统的第二实施方式的 概况的图。
[0044] [图23]图23是示出应用本公开内容的信息处理系统的流媒体回放部的示例性配 置的框图。
[0045] [图24]图24是被示出以描述确定对象的位置的方法的图。
[0046] [图25]图25是被示出以描述确定对象的位置的方法的图。
[0047] [图26]图26是被示出以描述确定对象的位置的方法的图。
[0048] [图27]图27是示出水平角θΑι与θ Αι'之间的关系的图。
[0049] [图28]图28是示出垂直角γν/与γΑ/之间的关系的图。
[0050] [图29]图29是被示出以描述要由图23中的流媒体回放部执行的流媒体回放处 理的流程图。
[0051] [图30]图30是被示出以更详细地描述图29中的位置确定处理的流程图。
[0052] [图31]图31是被示出以详细描述图30中的水平角θ Αι'估计处理的流程图。
[0053] [图32]图32是被示出以描述根据应用本公开内容的信息处理系统的第三实施方 式的用于确定对象的位置的方法的图。
[0054] [图33]图33是被示出以描述根据应用本公开内容的信息处理系统的第三实施方 式的用于确定对象的位置的方法的图。
[0055] [图34]图34是被示出以描述根据应用本公开内容的信息处理系统的第三实施方 式的用于确定对象的位置的方法的图。
[0056] [图35]图35是被示出以描述根据应用本公开内容的信息处理系统的第三实施方 式的用于确定对象的位置的方法的图。
[0057] [图36]图36是被示出以详细描述根据应用本公开内容的信息处理系统的第三实 施方式的位置确定处理的流程图。
[0058] [图37]图37是示出计算机的示例性硬件配置的框图。
【具体实施方式】
[0059] 〈第一实施方式〉
[0060](信息处理系统的第一实施方式的概述)
[0061]图1是被示出以描述应用本公开内容的信息处理系统的第一实施方式的概述的 图。
[0062] 图1所示的信息处理系统10被配置成包括通过因特网13彼此相连的Web服务器 12和视频回放终端14。Web服务器12连接至文件生成设备11。
[0063] 在信息处理系统10中,Web服务器12使用符合MPEG-DASH的方式以瓦片(tile) (瓦片流)为单位向视频回放终端14递送视频内容的图像数据。
[0064] 具体地,文件生成设备11获取视频内容的图像数据并且以瓦片为单位对图像数 据进行编码以生成视频流。文件生成设备11以范围从几秒至大约十秒的时间间隔将每个 瓦片的视频流处理成文件格式,该时间间隔被称为段。文件生成设备11将所得到的每个瓦 片的图像文件上传至Web服务器12。
[0065] 文件生成设备11针对(稍后详细描述的)每个对象获取视频内容的音频数据并 且以对象为单位对音频数据进行编码以生成音频流。文件生成设备11以段为单位将每个 对象的音频流处理成文件格式,并且将所得到的每个对象的音频文件上传至Web服务器 12。
[0066] 对象是声源。每个对象的语音数据是通过附接至该对象的麦克风或其他音频设备 而获取的。对象可以是诸如固定的传声器架的实物或者可以是诸如人的移动体。
[0067] 文件生成设备11对包括对象位置信息(语音位置信息)和对象ID的音频元数据 进行编码,对象位置信息表示每个对象的位置(获取音频数据的位置),对象ID是对象的唯 一 ID。文件生成设备11以段为单位将通过对音频元数据进行编码而获得的编码数据处理 成文件格式,并且文件生成设备11将所得到的语音元文件上传至Web服务器12。
[0068] 文件生成设备11生成用于管理图像文件或语音文件的媒体表示描述(MPD)文件 (控制信息)。媒体表示描述文件可以包含指示视频内容中的图像的帧大小的图像帧大小 信息,并且包含指示每个瓦片在图像上的位置的瓦片位置信息。文件生成设备11将Mro文 件上传至Web服务器12。
[0069] Web服务器12存储从文件生成设备11上传的图像文件、语音文件、语音元文件和 MTO文件。
[0070] 在如图1所示的示例中,Web服务器12存储由瓦片ID为"1"的瓦片的图像文件 构成的多个段的段组和由瓦片ID为"2"的瓦片的图像文件构成的多个段的段组。Web服务 器12还存储由对象ID为"1"的对象的语音文件构成的多个段的段组和由对象ID为"2" 的对象的语音文件构成的多个段的段组。尽管未示出,但类似地存储有由语音元文件构成 的段组。
[0071] 在下文中,将瓦片ID为i的瓦片称为"瓦片#i"并且将对象ID为i的对象称为 "对象#i"。
[0072] Web服务器12用作发送器,该发送器被配置成响应于来自视频回放终端14的请求 而向视频回放终端14发送所存储的图像文件、语音文件、语音元文件和MPD文件。
[0073] 视频回放终端14执行例如用于控制流媒体数据的软件(在下文中被称为控制软 件)21、视频回放软件22和用于超文本传输协议(HTTP)访问的客户端软件(在下文中被称 为访问软件)23。
[0074] 控制软件21是控制从Web服务器12经由流媒体递送的数据的软件。具体地,控 制软件21使视频回放终端14能够从Web服务器12获取MPD文件。
[0075] 控制软件21基于显示区域和包含在MH)文件中的瓦片位置信息来指定显示区域 中的瓦片,该显示区域是图像中用于显示由音频回放软件22指示的视频内容的区域。控制 软件21指示访问软件23发出对发送所指定的瓦片的图像文件的请求。
[0076] 控制软件21指示访问软件23发出对发送语音元文件的请求。控制软件21基于 显示区域、包含在MPD文件中的图像帧大小信息和包含在语音元文件中的对象位置信息来 指定与显示区域中的图像对应的对象。控制软件21指示访问软件23发出对发送所指定的 对象的语音文件的请求。
[0077] 视频回放软件22是用于回放从Web服务器12获取的图像文件和语音文件的软 件。具体地,当用户指定显示区域时,视频回放软件22向控制软件21指示所指定的显示区 域。视频回放软件22响应于该指示而对从Web服务器12获取的图像文件和语音文件进行 解码,并且视频回放软件22对解码后的文件进行合成以用于输出。
[0078] 访问软件23是用于控制使用HTTP经由因特网13与Web服务器12的通信的软件。 具体地,访问软件23使视频回放终端14能够响应于来自控制软件21的指示来发送对发送 图像文件、语音文件和语音元文件的请求。访问软件23使视频回放终端14能够接收响应 于发送请求而从Web服务器12发送的图像文件、语音文件和语音元文件。
[0079](瓦片的示例)
[0080] 图2是示出瓦片的示例的图。
[0081] 如图2所示,视频内容被划分成多个瓦片。为从1开始的连续数字的瓦片ID被分 配给每个瓦片。在图2所示的示例中,视频内容的图像被划分成四个瓦片#1至#4。
[0082] (对于对象的说明)
[0083] 图3是被示出以描述对象的图。
[0084] 图3的示例示出了图像中被获取作为音频内容的语音的八个语音对象。为从1开 始的连续数字的对象ID被分配给每个对象。对象#1至对象#5是移动体,而对象#6至对 象#8是静止物质体。在图3所示的示例中,视频内容的图像被划分成7 (宽度)X 5 (高度) 个瓦片。
[0085] 在该情况下,如图3所示,当用户指定由3 (宽度)X2(高度)个瓦片构成的显示 区域31时,显示区域31仅包含对象#1、对象#2和对象#6。因此,视频回放终端14可以从 Web服务器12获取并回放对象#1、对象#2和对象#6的语音文件。
[0086] 可以基于上述图像帧大小信息和对象位置信息来指定显示区域31中的对象。
[0087] (对于对象位置信息的说明)
[0088] 图4是被示出以描述对象位置信息的图。
[0089] 如图4所示,对象位置信息包含水平角ΘΑ(-180°彡ΘΑ< 180° )、垂直角 γΑ(-90°彡γΑ<90° )和距离rA(0<rA)。例如,图像的中心处的拍摄位置可以被设置 成原点(基点)〇,图像的水平方向可以被设置成X轴方向,图像的垂直方向可以被设置成Y 轴方向以及与XY平面垂直的深度方向可以被设置成Z轴方向。在该情况下,水平角0,是 由YZ平面与连接对象40和原点0的直线形成的在水平方向上的角度。垂直角γΑ是由XZ 平面与连接对象40和原点0的直线形成的在垂直方向上的角度。距离rA是对象40与原 点0之间的距离。
[0090] 在下文中,将向左上旋转的角度设置成正角度,而将向右下旋转的角度设置成负 角度。
[0091] (对于图像帧大小信息的说明)
[0092] 图5是被示出以描述图像帧大小信息的图。
[0093] 如图5所示,图像帧大小信息包含左边缘的水平角θνι、右边缘的水平角θ ν2、上边 缘的垂直角、γνι下边缘的垂直角γ V2以及图像帧的距离rv。
[0094] 图像的中心的拍摄位置可以被设置成原点0,图像的水平方向可以被设置成X轴 方向、图像的垂直方向可以被设置成Y轴方向以及与XY平面垂直的深度方向可以被设置成 z轴方向。在该情况下,水平角θνι是由YZ平面和连接图像帧的左端与原点0的直线形成 的角度。水平角θν2是由ΥΖ平面和连接图像帧的右端与原点0的直线形成的角度。因此, 通过组合水平角Θν1和水平角θ V2而获得的角成为水平视角。
[0095] 垂直角γνι是由XZ平面和在图像帧的上端与原点0之间连接的直线形成的角度, 以及垂直角γν2是由ΧΖ平面和在图像帧的下端与原点〇之间连接的直线形成的角度。通 过组合垂直角γ
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1