声音记录设备,声音系统,声音记录方法和载体装置与流程

文档序号:19160858发布日期:2019-11-16 01:21阅读:393来源:国知局
声音记录设备,声音系统,声音记录方法和载体装置与流程

本发明涉及声音记录设备,声音系统,声音记录方法和诸如记录介质的载体装置。



背景技术:

例如,在相关技术中已知高保真度立体声响复制及波面合成法(wfs),作为用于再现全方位音场的立体音响技术。高保真度立体声响复制和wfs是试图根据音响理论再现高精度音场的技术。例如,在高保真度立体声响复制中,对使用多个麦克风记录的音执行预定的信号处理,以再现在收听声音的位置处的声音的方向性。

在这些声场再现方法中,通常,需要高精度地准备声音拾取条件,例如麦克风的布置。例如,在高保真度立体声响复制中,麦克风称为高保真度立体声响复制麦克风,需要高精度地配置麦克风及其朝向。

关于声音技术,专利文献1为人们所公知。专利文献1公开了一种用于实时分发全方位动画的动画(视频)分发系统。所述动画分发系统获取与由照相机执行图像捕获同步的立体声,通过使用分发服务器分发所述全方位动画和所述立体声,并且,根据由用户观看的显示范围再现声音数据。然而,专利文献1未能克服再生无不自然声音的课题。

引文列表

专利文献

【专利文献1】日本专利no.5777185



技术实现要素:

技术问题

鉴于上述情况,本发明的发明人发现需要一种能够在没有不自然的情况下再现声音的系统。

解决问题的方案

本发明的示例实施例包括一种声音记录设备,其包括控制器,用于:获取从在多个麦克风处收集的多个声音信号生成的声音数据;从一个或多个传感器获取在收集多个声音信号的时间段期间的时间点检测声音记录设备的位置的结果;以及在存储器中互相关联地存储表示在该时间点检测到的声音记录设备的位置的位置数据,以及基于在检测到该位置的时间点在麦克风处收集的多个声音信号生成的声音数据。

本发明的示例实施例包括一种声音系统,包括:所述声音记录设备以及声音再生设备;

其中,所述声音记录设备的控制器进一步配置为对所述声音数据进行编码,以生成编码的立体声声音数据,并根据所述声音再生设备的规格对所述编码的立体声声音数据进行解码,以生成用于输出到所述声音再生设备的扬声器驱动信号。

本发明的示例实施例包括一种由声音记录设备执行的声音记录方法,该方法包括:获取从在多个麦克风收集的多个声音信号生成的声音数据;从一个或多个传感器获取在收集多个声音信号的时间段期间的时间点检测声音记录设备的位置的结果;以及在存储器中互相关联地存储表示在该时间点检测到的声音记录设备的位置的位置数据,以及基于在检测到该位置的时间点在麦克风处收集的多个声音信号生成的声音数据。

本发明的示例实施例包括诸如用于使一个或多个处理器执行上述方法的控制程序的载体装置(carriermeans),以及通过执行上述方法而生成的数据的数据结构。

本发明的效果

利用上述配置,成功地再现没有不自然的声音。

附图说明

附图旨在描述本发明的示例实施例,而不应被解释为限制其范围。除非明确指出,否则附图不应视为按比例绘制。而且,相同或相似的附图标记在若干视图中表示相同或相似的部件。

图1是表示根据实施例的全天球图像捕获设备的硬件配置图。

图2是在根据实施例的全天球图像捕获设备上实现的与图像及声音的记录功能关联的功能方框图。

图3是表示由根据实施例的全天球图像捕获设备记录的文件的数据结构图。

图4是表示根据实施例的全天球图像捕获设备执行的图像-声音记录方法的流程图。

图5是表示根据实施例的全天球图像捕获设备执行的图像-声音再生方法的流程图。

图6a是表示在采用高保真度立体声响复制作为立体声技术的例子中从声音数据的获取到再生的流程的流程图,图6b是表示在采用高保真度立体声响复制作为立体声技术的例子中从声音数据的获取到再生的流程的流程图。

图7a至图7e是根据实施例的立体音响的坐标轴的图。

图8是在根据另一实施例的全天球图像捕获设备上实现的与图像及声音的记录功能关联的功能方框图。

具体实施方式

这里使用的术语仅用于描述特定实施例的目的,并不意图限制本发明。如这里所使用的单数形式“一”、“一个”、“该”也旨在包括复数形式,除非上下文另有明确说明。

在描述附图中所示的实施例时,为了清楚起见采用了特定的术语。然而,本说明书的公开内容并不旨在限于如此选择的特定术语,并且应当理解,每个特定元件包括具有类似功能、以类似方式操作并且实现类似结果的所有技术等同物。

下面将描述实施例,但是实施例并不限于下面描述的实施例。在以下描述的实施例中,全天球图像捕获设备110具有声音记录功能,作为声音记录设备(soundrecordingapparatus)和声音系统(soundsystem)的一个例子说明。然而,声音记录设备和声音系统并不限于下面描述的特定实施例。

在下面描述的实施例中,全天球图像捕获设备110包括多个图像捕获光学系统,每个图像捕获光学系统包括图像形成光学系统和成像元件。全天球图像捕获设备110捕获来自对应于各个图像捕获光学系统以生成捕获图像的方向的图像。各个图像捕获光学系统具有大于180度(=360度/n,n=2)的全视角,优选具有等于或大于185度的全视角,更优选具有等于或大于190度的全视角。全天球图像捕获设备110合成由多个图像捕获光学系统分别捕获的图像,生成立体角4π球面度的图像(下文中,称为“全天球图像”)。全天球图像成为从图像捕获点可以看到的所有方向上捕获的图像。可以通过使用单一的光学系统捕获半球图像。

根据本实施例的全天球图像捕获设备110还包括诸如多个麦克风的声音拾取装置。全天球图像捕获设备110基于由各麦克风获取的声音信号,记录声音数据。由于所记录的声音数据可以形成立体声,因此,通过使用具有预定构成的扬声器组或耳机,再现包含声音方向性的声场。

下面将首先参考图1描述全天球图像捕获设备110的硬件配置。图1是表示根据该实施例的全天球图像捕获设备110的硬件配置图。图1中所示的全天球图像捕获设备110构成为双透镜的全天球图像捕获设备,其组合具有大于180度的全视角的两个光学系统。

全天球图像捕获设备110包括中央处理单元(cpu)112,只读存储器(rom)114,图像处理块116,动画块118,经由dram接口120连接到总线152的动态随机存取存储器(dram)132,以及经由传感器接口124连接到总线152的传感器(包括加速度传感器、陀螺传感器、地磁传感器中至少一个)136。

cpu112控制全天球图像捕获设备110的各硬件,以控制全天球图像捕获设备110的全体动作。rom114存储以cpu112可解码的代码编写的控制程序和各种参数。

全天球图像捕获设备110包括两个成像元件(第一成像元件和第二成像元件)130a和130b(每一个都可以由电荷耦合器件(ccd)传感器或互补金属氧化物半导体(cmos)传感器实现),以及两个光学系统(第一光学系统和第二光学系统)131a和131b。在这里描述的实施例中,光学系统131a和131b中的每一个包括鱼眼镜头。在此,用语“鱼眼镜头”指的是所谓“广角镜头”或“超广角镜头”。图像处理块116连接到两个成像元件130a和130b,并且接收由两个成像元件130a和130b所捕获的图像的图像信号。图像处理块116包括图像信号处理器(isp)或类似器件,并对从成像元件130a和130b输入的图像信号执行各种处理,例如黑点校正,拜耳插值,白平衡校正,伽马校正等。

在本实施例中,由两个成像元件130a和130b分别捕获的图像例如在图像处理块116将重复部分作为基准,进行合成处理。因此,生成具有4π球面度的立体角的全天球图像。因为每个光学系统131a和131b具有超过180度全视角,捕获的各拍摄图像的超过180度部分的拍摄范围相互重叠。在合成处理中,参照该重叠区域作为表示相同像的基准,生成全天球图像。由全天球图像的连续帧构成全天球动画。包括多个成像元件130a和130b以及多个光学系统131a和131b的图像捕获单元用作根据实施例的图像捕获单元。

在这里描述的实施例中,说明生成从图像捕获点可以看到的所有方向上捕获全天球视频图像。然而,全天球视频图像并不限于这种图像。在另一实施例中,全天球视频图像可以是通过捕获360度水平面的图像而获得的所谓全景视频图像。也就是说,在本公开中,全天球图像(静止图像或视频)不必是全视全天球图像(full-viewsphericalimage)。例如,全天球图像可以是在水平方向上具有大约180度到360度的角度的广角视图像。另外,在此描述的实施例中,说明全天球图像捕获设备110包括两个图像捕获光学系统。然而,图像捕获光学系统的数量并不限于特定值。在其他实施例中,全天球图像捕获设备110可以包括图像捕获单元,该图像捕获单元包括三个或更多个光学系统,并且可以具有基于利用三个或更多个光学系统捕获的多个图像生成全天球图像的功能。在另一个实施例中,全天球图像捕获设备110可包括图像捕获单元,其包括光学系统,在光学系统中包含单一的鱼眼透镜,由单一的鱼眼透镜在不同方位摄像,得到多个摄像图像,基于上述多个摄像图像生成全天球图像。

动画块118是根据h.264(动画专家组(mpeg)-4高级视频编码(avc))/h.265(国际标准化组织/国际电工组织(iso/iec)23008-2高效视频编码(hevc))实行动画压缩或伸长的信号编解码器块。当对数据执行各种信号处理和图像处理时,dram132提供用于临时存储数据的存储区域。

上述传感器136测量例如速度、加速度、角速度、角加速度、或磁方向的因全天球图像捕获设备110动作为起因的物理量。所测得的物理量用于执行以下至少一个:全天球图像及声音的天顶校正;以及全天球图像及声音的相对于一基准方向的水平面的旋转校正。测量的物理量指示全天球图像捕获设备110的位置。所述传感器136用作测量装置测量根据本实施例的全天球图像捕获设备110位置。虽然在本实施例中传感器设置在全天球图像捕获设备110,但是,外部传感器可以连接到全天球图像捕获设备110,以将检测结果输出到全天球图像捕获设备110。

例如,一个公知的三轴加速度传感器可用作加速度传感器。加速度传感器检测沿各自轴的加速度。加速度传感器的示例包括压电电阻型加速度传感器,电容加速度传感器,以及热检测加速度传感器。例如,能够检测三个轴方向的角速度的公知角速度传感器可用作陀螺传感器。地磁传感器在三个轴方向检测地球的地磁,以确定相对于作为原点的全天球图像捕获设备110的各方位(方位角或磁北)的方向。地磁传感器的示例包括公知的三轴电子罗盘。

全天球图像捕获设备110包括外部存储器接口122。外部存储器134与外部存储器接口122连接。外部存储器接口122控制在例如插入到全天球图像捕获设备110的存储卡槽的存储卡等的外部存储器134实行的读取和写入操作。外部存储器134可用作存储全天球动画数据及其声音数据的记录介质。全天球动画数据及其声音数据可以临时存储在dram132等中,并且可以通过外部设备执行各种处理。

全天球图像捕获设备110包括通用串行总线(usb)接口126。usb连接器138连接到该usb接口126。usb接口126控制与通过usb连接器138连接到全天球图像捕获设备110的例如个人计算机或智能手机或平板电脑等的外部设备的usb通信。全天球图像捕获设备110包括串行块128。串行块128控制与外部设备执行的串行通信。无线通信接口140连接到串行块128。

诸如个人计算机、智能手机、或平板计算机的外部设备可以经由usb连接器138或无线通信接口140连接到全天球图像捕获设备110。此外,由全天球图像捕获设备110捕获的视频图像可以显示在包括在外部设备中或连接到外部设备的显示器。全天球图像捕获设备110除了图1所示接口之外,可以包括诸如高清晰度多媒体接口(hdmi)(商标或注册商标)的视频输出接口。在这种情况下,全天球图像捕获设备110经由视频输出接口直接连接到诸如显示器的外部显示设备,并且,视频图像可以显示在外部显示设备。

根据本实施例的全天球图像捕获设备110包括模拟/数字转换器(adc)142和与该adc142连接的多个麦克风144。每个麦克风144从全天球图像捕获设备110的周围环境中拾取声音,并将拾取声音的声音信号输入到adc142。adc142对于从各麦克风144输入的声音信号进行采样,以将声音信号转换成数字声音数据。在本实施例中,麦克风144包括具有预定布置的四个麦克风144a至144d,并且优选高保真度立体声响复制麦克风。在该实施例中,麦克风144作为各声音拾取装置,其从周围环境拾取声音。在本实施例中,说明内置在全天球图像捕获设备110中的麦克风144。然而,可以提供外部连接到全天球图像捕获设备110的麦克风。

在上述实施例中,存储器134、传感器136、usb连接器138、无线通信接口140中的任何一个可以设置在全天球图像捕获设备110的内部或外部。

全天球图像捕获设备110包括用于接受由用户给出的各种操作指示的操作单元146。操作单元146包括但不特别限于图像捕获模式开关148和释放开关150。除图像捕获模式开关148和释放开关150之外,操作单元146可包括用于接受其它操作指示的开关。图像捕获模式开关148接受来自用户的动画捕获模式和静止图像捕获模式之间的切换的指示。释放开关150接受来自用户的图像捕获指令。

全天球图像捕获设备110响应电源接通操作,例如释放开关150的长按操作,接通电源。响应于全天球图像捕获设备的电源接通,从rom114等读取控制程序并加载到诸如dram132的主存储器。cpu112根据加载到主存储器、例如加载到dram132的程序控制全天球图像捕获设备110的各硬件的动作,并暂时将用于控制的数据存储在所述存储器中。因此,实现与图像和声音的记录有关的全天球图像捕获设备110的功能单元和处理。

由全天球图像捕获设备110捕获的动画可以使用例如包括专用的图像查看应用程序的外部设备浏览或视听。外部设备的示例包括个人计算机,智能电话,以及平板电脑。或者,显示装置可以经由诸如hdmi(商标或注册商标)的视频输出接口或经由诸如miracast(商标或注册商标)或airplay(商标或注册商标)的无线通信接口140连接到全天球图像捕获设备,并且可以使用显示设备浏览或视听动画。

不仅在使用三脚架固定全天球图像捕获设备110的状态下执行记录,而且在用手握持全天球图像捕获设备110的状态下执行记录。也就是说,全天球图像捕获设备110的姿势和位置不一定总是固定的。因此,观看者可能感觉到由于在图像捕获和记录期间全天球图像捕获设备110的位置的改变,通过使用麦克风144记录的声音的方向偏离观看者期望的方向。当对全天球图像捕获设备执行天顶校正场合,但是对于通过使用麦克风144记录的声音没有响应于天顶校正而校正天顶方向时,观看者可能更多地感觉到偏差。

下面将参照图2至图7e说明根据实施例的全天球图像捕获设备110设有的图像-声音记录功能,以减少由全天球图像捕获设备110的位置变化引起的不自然和在观看期间感觉到的不自然。

图2表示在根据本实施例的全天球图像捕获设备110实现的图像声音记录功能相关联的控制器的功能块210。图2表示显示单元250和声音再生单元260,作为全天球图像捕获设备110的外部构成。

如图2中所示,全天球图像捕获设备110的控制器210包括:图像获取器212,图像信号处理器214,声音获取器216,声音信号处理器218,传感器信息获取器220,倾斜角度计算器222,以及记录器224,作为功能块。图2中所示的控制器210的一部分或全部例如既可以通过cpu112执行程序构成,或者也可以通过使用图像处理块116构成。

所述图像获取器212分别通过光学系统131a和131b获取由成像元件130a和130b拍摄的图像。所述图像信号处理器214进行由图像获取器212获取与全天球图像有关的各种图像信号处理。具体而言,图像信号处理器214对捕获图像执行例如光学黑(ob)校正处理,缺陷像素的校正处理,线性校正处理,黑点校正处理,区域划分平均处理,白平衡(wb)处理,伽马校正处理,拜耳插值处理,yuv转换处理,ycflt处理,以及色校正处理等的信号处理。在本实施例中,对从第一成像元件130a获取的半球图像和从第二成像元件130b获取的半球图像执行图像信号处理,并且将半球图像链接并组合在一起。因此,生成全天球图像。

声音获取器216通过adc142,基于由图1所示的多个麦克风144a到144d从周围环境拾取的多个声音信号,获取数字形式的声音数据。声音获取器216构成获取声音信息的声音获取手段。声音信号处理器218执行公知的所获取的声音数据的降噪。

所述传感器信息获取器220从传感器136的各传感器取得的关于预定时间点的三轴方向的加速度、三轴方向的角速度、以及各方位(方位角或磁北)的传感器检测结果信息。各基点方向可以选择。因此,当传感器136不包括地磁传感器时,没有获取各基点的方向。例如所测量到的各轴的加速度、角速度、以及各基点的方向的传感器检测结果指示全天球图像捕获设备110的预定时间点的位置。所述传感器信息获取器220在本实施例中作为位置获取器获取全天球图像捕获设备110的测量位置。

倾斜角度计算器222基于预定时间点的传感器检测结果信息,计算全天球图像捕获设备110相对于作为基准方向的天顶方向的倾斜角度。天顶方向指示天球上用户正上方的方向,与反垂直方向一致的方向。全天球图像捕获设备110相对于所述天顶方向的倾斜角度表示全天球图像捕获设备110的光学系统131a和131b的对向面相对于所述天顶方向的倾斜。

在一个示例中,倾斜角度计算器222基于预定时间点的传感器信息计算水平面相对于正面方向的旋转角度,作为基准方向。在本公开中,所谓正面方向意味全天球图像捕获设备110的正面面对的方向。例如,可以将摄影开始时光学系统131a朝向的方向定义为预定的正面方向。该方向与全天球图像捕获设备110的倾斜角无关,是指沿着与垂直方向垂直交叉的水平面的方向。使用陀螺传感器场合,从开始捕获图像时,通过积分角速度,能计算水平面相对于开始捕获图像时的正面方向的旋转角度。使用地磁传感器场合,基于由地磁传感器检测的传感器信息,能计算水平面的旋转角度,作为相对于定义为正面方向的全天球图像捕获设备110的特定方位的角度。特定方位是特定的方位角,例如南或北。

所述记录器224记录被检测的全天球图像捕获设备110在预定时间点的姿势,基于在姿势被检测的时间点对应的由多个麦克风144获取的声音信号的声音信息,基于由多个摄像元件130a和130b摄像的多个图像信号的图像信息,将上述信息彼此相关联地记录。所述记录器224用作一个记录器的实施例。

在此,在所说明的实施例中,记录的图像信息是将由所述多个摄像元件130a和130b拍摄的半球图像合成构成的全天球图像数据242。在本实施例中,作为全天球图像数据242,是将再生时经天顶校正以及在水平面作旋转校正的一方或双方,通过捕获获得的半球图像合成的全天球图像。然而,也可以对于全天球图像施以天顶校正和水平面的旋转校正的至少一方,记录经校正的全天球图像。另外,图像信息不限于全天球图像数据。在另一个实施例中,以再生时进行连接合成作为前提,记录包括由所述多个摄像元件130a和130b拍摄的多个半球图像的图像数据。

另外,在所说明的实施例中,记录的声音信息是由每个所述多个麦克风144获取的声音数据244。作为立体音响,采用一次高保真度立体声响复制,声音数据244可以是称为所谓“a-format(lf,rf,lb,rb)”。与通过记录每个麦克风144的声音数据244,变换为b-format等立体声音数据后保存场合相比,能够以尽可能接近原音状态预先记录声音数据。另外,在所说明的实施例中,作为立体音响,说明一次高保真度立体声响复制作为一例。然而,立体音响并不局限于一次立体音响。在另一实施例中,采用高次高保真度立体声响复制(hoa)或fws,作为立体音响技术。

在所说明的实施例中,所记录的姿势,作为倾斜角度数据246记录,其由传感器信息取得器220根据从传感器136获取的传感器检测结果信息,在倾斜角度计算器222计算相对天顶方向的倾斜角获得。再有,倾斜角数据246可以包括水平面相对于预定的正面方向的旋转角度。

文件240包括全天球图像数据242,声音数据244,以及倾斜角度数据246,其临时存储在例如外部存储器134中。图3示出了根据实施例的记录在全天球图像捕获设备110中的文件240的数据结构。如图3所示,文件240包括用于全天球图像数据242的通道,用于倾斜角度数据246的通道,以及用于声音数据244的通道。如图3所示,全天球图像数据242以mpeg格式记录,并以称为图像组(gop)的单位编码。在此,所谓gop是包括至少一个基准帧(mpeg中的i图像)的一组帧集合的单位。

参照图3,声音数据244和倾斜角度数据246也被分段记录在对应于gop的时间段,并彼此相关联,以记录开始为基准,使得所述倾斜角度数据246和声音数据244的记录时间一致。因此,通过使用从记录开始经过的时间段,能使得倾斜角度数据246和声音数据244一致。声音数据244可以是未压缩的音频格式,如脉冲编码调制(pcm)格式,或者是压缩音频格式,如mpeg层3(mp3)。在所描述的实施例中,如图3所示,为多个麦克风144a至144d的每个通道记录声音数据244。

在所描述的实施例中,为了方便起见,将全天球图像数据242,声音数据244和倾斜角度数据246存储在单个文件240中,但不特别限于此。在另一个实施例中,全天球图像数据242,声音数据244和倾斜角度数据246可以存储在不同的文件中。另外,在所描述的实施例中,位置信息,图像信息和声音信息以帧组为单位彼此相关联。然而,关联方式不限于此,位置信息,图像信息和声音信息可以以帧为单位彼此相关联。

再次参照图2,全天球图像捕获设备110的控制器210包括读取器226,参数生成器228,图像变换器(转换器)230,声音变换器(转换器)232和输出单元234作为功能单元。

读取器226读取文件240,顺序读取所记录的全天球图像捕获设备110在所述预定时间点的姿势,与姿势被测量的所述预定时间点对应的声音信息,以及对应的图像信息。

所述参数生成器228生成从包含在读出的倾斜角度数据246的每预定时间点的倾斜角度,生成对于各全天球图像及声音的每预定时间点的投影变换参数。当倾斜角度数据246包括水平面相对于预定的正面方向的旋转角度场合,则参数生成器228能从每预定时间点的倾斜角度和水平面的旋转角度生成每个预定时间点的投影变换参数。对于全天球图像的投影变换参数和对于声音的投影变换参数可以彼此不同。

当要求天顶校正和水平面的旋转校正某一方或双方场合,所述图像变换器230使用由参数生成器228生成的投影变换参数,对全天球图像数据242的各帧图像施以变换。在图3所示的数据结构中,倾斜角的信息与gop单位相关联,因此,对于与gop对应的帧组,可以适用根据相同倾斜角生成的投影变换参数。或者,也可以使用相邻gop,将基于平滑化的倾斜角的投影变换参数适用于该帧组中的每个帧。另外,如果文件240包括多个半球图像的图像数据而不是全天球图像数据场合,则图像变换器230可以在投影变换之前将多个半球图像链接并合成在一起。另外,如果全天球图像数据中天顶校正和旋转校正某一方或双方已经适用,则也可以省略投影变换。对于全天球图像的投影变换可使用公知技术,省略其详细说明。

声音变换器232对于声音数据244的各时间段的声音数据,使用由所述参数生成器228按时间区间生成的投影变换参数,施以投影变换。在所描述的实施例中,声音数据244是各麦克风144的声音数据,因此,可以根据全天球图像捕获设备110的位置所相当的范围,进行通道更换,施以粗略的天顶校正和/或旋转校正。例如,当全天球图像捕获设备110水平放置场合,可以以垂直场合为基准,使得所述通道之间的位置关系作90度旋转,施以天顶校正。

例如,全天球图像捕获设备110的操作单元146包括接收关于在再生时是否执行天顶校正的选择的选择单元。当接收到执行天顶校正的选择时,同时启用由图像变换器230执行的投影变换和由声音变换器232执行的投影变换。可选地或另外地,操作单元146包括接收关于在再生时是否执行水平面的旋转校正的选择的选择单元。当接收到执行水平面的旋转校正的选择时,同时启用由图像变换器230执行的投影变换和由声音变换器232执行投影变换。是否执行旋转校正的选择可以独立于是否执行天顶校正的选择来执行。或者,当接收到执行天顶校正的选择时,可以与此连动,自动执行是否执行旋转校正的选择。

输出单元234根据由图像变换器230投影变换的全天球图像帧生成视频信号向显示单元250输出。对于全天球图像的显示方法不作特别限定。既可以将全天球图像作为视频信号输出而不进行任何处理,或者也可以切取与全天球图像的预定视角对应的图像范围,作为视频信号输出。

输出单元234输出视频信号同时,基于由声音变换器232投影变换的声音数据,生成扬声器驱动信号,向声音再生器260输出。在此,声音再生器260包括以预定构成配置的多个扬声器。声音再生器260既可以具有独自的配置构成,或者也可以是根据例如5.1声道、7.1声道、22.2声道环绕声等的预定标准。输出单元234生成根据声音再生器260的构成的扬声器驱动信号输出。

下面将参照图4和图5详细描述由根据本实施例的全天球图像捕获设备110执行的用于记录和再生图像和声音的方法。

图4是具体表示在cpu112的控制下由根据实施例的全天球图像捕获设备110执行的图像-声音记录方法的流程图。图4所示的处理例如响应于用于指示开始记录的特定操作、例如按下设置在全天球图像捕获设备110的壳体的释放开关150,开始处理。

在步骤s101中,全天球图像捕获设备110由图像获取器212获取使用成像元件130a和130b所捕获的图像。在步骤s102中,全天球图像捕获设备110由图像信号处理器214对在步骤s101中获取的图像执行图像信号处理。然后,处理前进到步骤s105。在此,假设在步骤s101和s102中以帧组为单位执行图像获取和图像信号处理。

若开始图4所示处理,则与步骤s101和s102的处理并行,执行步骤s103和s104的处理。在步骤s103中,全天球图像捕获设备110由声音获取器216经由从麦克风144a~144d到adc142获取各麦克风的声音数据。在步骤s104中,全天球图像捕获设备110由声音信号处理器218对在步骤s103中获取的声音数据执行信号处理,然后,处理前进到步骤s105。在此,设为执行与帧组单位对应的时间区间的声音获取和声音信号处理。

在步骤s105中,全天球图像捕获设备110由传感器信息取得器220从传感器136获取在步骤s101和s103记录图像和声音时的传感器检测结果信息。在步骤s106中,全天球图像捕获设备110由倾斜角度计算器222基于在步骤s105中获取的传感器检测结果信息,计算记录时全天球图像捕获设备110的倾斜角和水平面相对预定的正面方向的旋转角度。当不设有陀螺传感器或地磁传感器场合,不获得水平面相对预定的正面方向的旋转角度。

在步骤s107中,全天球图像捕获设备110由记录器224将帧组的图像信息、对应的声音信息、和对应的位置信息彼此相关联地进行记录,作为全天球图像数据242、声音数据244、和倾斜角度数据246。

在步骤s108中,全天球图像捕获设备110确定是否接受到记录结束的指令。如果在步骤s108中确定尚未接受到记录结束的指令(否),则处理返回到步骤s101和s103,对下一帧组执行处理。另一方面,如果在步骤s108中确定接受到记录结束的指令(是),则处理结束。当结束时,全天球图像捕获设备110关闭文件。

图5是表示在cpu112的控制下由根据实施例的全天球图像捕获设备110执行的图像-声音再生方法的流程图。图5所示的处理例如响应于用于指示开始记录的特定操作、例如按下设置在全天球图像捕获设备110的壳体的播放按钮,开始处理。若开始图5所示的处理,步骤s201的处理,步骤s202的处理,和步骤s203的处理彼此并行地执行。

在步骤s201中,全天球图像捕获设备110由读取器226从文件240的全天球图像数据242中读取帧组的图像。在步骤s202中,全天球图像捕获设备110由读取器226从文件240的声音数据244读取与帧组对应的声音数据。在步骤s203中,全天球图像捕获设备110由读取器226从文件240的倾斜角度数据246读取与帧组对应的倾斜角度。

在步骤s204中,全天球图像捕获设备110由参数生成器228从倾斜角度和水平面相对预定正面方向的旋转角度,生成适用于帧组的对图像及声音的各投影变换参数。在步骤s205中,全天球图像捕获设备110参照设定信息判定是否执行天顶校正和旋转校正。在本实施例中,假设设定信息指示执行天顶校正和旋转校正,或者不执行天顶校正和旋转校正。或者也可以彼此独立地选择是否执行天顶校正和旋转校正。也就是说,全天球图像捕获设备110可以确定执行:仅天顶校正(zenithcorrection),仅旋转校正,天顶校正和旋转校正两者,不执行天顶校正和旋转校正。如果在步骤s205中全天球图像捕获设备110判定执行天顶校正和旋转校正场合(是),则处理进行到步骤s206和s207。

在步骤s206中,全天球图像捕获设备110由图像变换器230对于所读取的帧组的全天球图像,基于所生成的图像用的投影变换参数执行投影变换。与此同时,在步骤s207中,全天球图像捕获设备110对于所读取的声音数据执行施以天顶校正和旋转校正的立体声声音信号处理。在该施以天顶校正和旋转校正的立体声声音信号处理中,由声音变换器232根据声音用的投影变换参数,通过各麦克风144的声音数据的信道交换执行天顶校正和旋转校正。在施以天顶校正和旋转校正的立体声声音信号处理中,由输出单元234对校正后的声音数据进行编码,根据声音再生器260的规格对编码的立体声声音数据进行解码,生成扬声器驱动信号,输出该扬声器驱动信号到声音再生器260。

另一方面,如果在步骤s205中全天球图像捕获设备110判定不执行天顶校正和旋转校正(否),则处理进入到步骤s208。在步骤s208中,全天球图像捕获设备110对读取的声音数据执行立体声声音信号处理,而不对全天球图像执行任何处理。在该立体声声音信号处理中,由输出单元234对校正后的声音数据进行编码,根据声音再生器260的规格对编码的立体声声音数据进行解码,生成扬声器驱动信号,输出该扬声器驱动信号到声音再生器260。

在步骤s209中,全天球图像捕获设备110判定是否已经到达文件的末尾。如果在步骤s209中判定尚未到达文件的末尾场合(否),则处理返回到步骤s201,s202和s203,对下一帧组执行处理。另一方面,在步骤s209中判定已到达文件的末尾场合(是),则处理结束。当结束时,全天球图像捕获设备110关闭文件。

参照图4和图5对于图像及声音的记录和再生方法分开说明,但在图5再生中执行的天顶校正和旋转校正可以在图像捕获时与记录同时执行。

参照图6a至图7e,说明采用高保真度立体声响复制作为立体音响的特定实施形态的从声音数据的拾音到再生的a流程。图6a表示在本实施例中从声音数据的获取到再生的流程。

如图6a所示,在本实施例中,获取的各个麦克风144的声音数据(高保真度立体声响复制的a格式的lf,lb,rf和rb)作为声音数据244,与倾斜角度数据246相关联,记录在文件240a(s301)。声音数据244在再生时从文件240a读出,然后对声音数据244施以天顶校正和/或旋转校正(s302)。经天顶校正或旋转校正的声音数据(a格式的lf',lb',rf'和rb')由高保真度立体声响复制编码器编码(s303),因此,生成立体声声音数据(b格式的w,x,y,以及z)。通常可以使用下面式(1)表示编码。在高保真度立体声响复制中使用的麦克风144是布置在正四面体的顶点处的四个定向麦克风,通过使用这种麦克风拾取声音。从四个获取的声音信号生成非定向性信号w和双向性信号x,y,和z。

作为从a-格式转换成b格式的信号处理结果,非定向性信号w和双向性信号x,y,和z作为由虚拟非定向性麦克风和虚拟双向性麦克风记录处理。

式(1):

x=lf-rb+rf-lb

y=lf-rb-rf+lb

z=lf-lb+rb-rf

w=lb-lf+rf-rb

图7a是说明全天球图像捕获设备110中的轴的定义的图。如图7a所示,上下方向与z轴对应关联,左右方向与x轴对应关联,前后方向与y轴对应关联。图7b至图7e是说明立体声的声音拾取方向特性的图。b格式的w信道对应于在如图7b所示那样的非定向麦克风获取的声音信号。b格式的x信道,y信道和z信道对应于在图7c,图7d和图7e所示那样的双向性麦克风获取的声音信号。如式(1)所示,通过信号之间的简单计算,从各个麦克风的声音数据构成立体声声音数据。

生成立体声数据之后,由高保真度立体声响复制解码器根据扬声器构成生成扬声器驱动信号,输入到声音再生器260(s304)。因此,相应的声音由声音再生器260的各扬声器播放。由此,包含指向性的声场得到再现。

在上述说明中,设为声音再生器260包括多个扬声器。然而,声音再生器260也可以是耳机。在这种情况下,输出单元234暂时将信号解码为具有预定构成的扬声器用信号后,卷积并附加预定的头部传递函数(hrtf)到该信号。在这种方式中,输出单元234输出双耳信号到作为声音再生器260的耳机。

在上述实施例中,已经基于以下假设给出了描述:利用麦克风144获取的多条声音数据(a-格式的lf,lb,rf和rb)作为记录的声音信息,与倾斜角度数据相关联记录。此外,如图6a所示,已经描述了对于各个麦克风144的声音数据(a-格式的lf,lb,rf,和rb)通过信道交换施以投影变换。然而,记录的声音信息和投影变换的形态不限于上述实施例。

图6b表示在另一实施例中从声音数据的获取到再现的流程。在图6b所示的另一实施例中,在执行s301之后,声音信号处理器218对由多个麦克风144获取的多个声音信号进行编码,记录器224将编码的立体声声音数据记录在文件240b中(s402)。在特定实施例中,其中,采用高保真度立体声响复制作为立体声声音数据,该立体声声音数据是称为“b格式(w,x,y和z)”的数据。如图6b所示,该立体声声音数据(w,x,y和z)与倾斜角度数据相关联地记录在文件240b中。

在这种情况下,如图6b所示,在上述实施例中,对编码后的立体声声音数据(b-格式的w,x,y和z)施以天顶校正和/或旋转校正(s403)。例如,如图7a所示,相当于在水平面上旋转θ的旋转校正通常可以通过用下式(2)表示的投影变换实现。

式(2):

如上所述,在本实施例中,对通过使用多个麦克风144获取的多个声音信号进行编码,临时生成立体声音数据244。对于该立体声音数据244执行天顶修正或旋转校正。输出单元234对该经天顶校正或旋转校正的立体声声音数据(w',x',y',和z')解码,输出根据声音再生器260的构成的扬声器驱动信号(s404)。

根据上述实施例,与预定时间点的声音数据相关联地记录预定时间点的倾斜角度数据。因此,根据相应的倾斜角度对声音数据成功地执行天顶校正和/或旋转校正。此外,允许用户一边移动全天球图像捕获设备110一边对全天球动画进行捕获及记录声音,而不用担心用于记录立体声声音的麦克风144的状态。此外,当观看全天球动画时,对于声音数据施以根据倾斜角度的天顶校正和/或旋转校正,因此,能减轻因全天球图像捕获设备110的位置变化为起因的再生时声场的方向性的不自然程度。

在上述实施例中,说明例如读取器226、参数生成器228、图像变换器230、声音变换器232这样的再生侧的构成也作为全天球图像捕获设备110的组件。然而,在另一实施例中,也可以将再生侧组件安装在外部设备上。

图8是示出根据另一实施例的全天球图像捕获设备110中实现的与图像-声音记录功能有关的功能块的图。在图8所示实施例中,全天球图像捕获设备110的控制器310包括图像获取器312,图像信号处理器314,声音获取器316,声音信号处理器318,传感器信息获取器320,倾斜角度计算器322,以及记录器324,作为功能块。作为再生侧的外部设备370包括读取器372,参数生成器374,图像变换器376,声音变换器378,以及输出单元380,作为功能块。在这种情况下,例如,由全天球图像捕获设备110侧的记录器324存储的文件340经由usb接口或网络发送到外部设备370。外部设备370可以是通用计算机,例如个人计算机,平板计算机,工作站,或服务器。

如图8所示,通过将再生侧在外部设备370构成,当立体声声音数据转换成扬声器驱动信号时的计算负荷可以卸载在外部设备370。

上述实施例可以提供声音记录装置,声音系统,声音记录方法,程序和数据结构,能校正因捕获或记录期间装置位置变化为起因的再生时声场指向性的不自然程度。

上面描述的功能单元可以由诸如汇编、c、c++、c#、java(注册商标)等的传统编程语言或对象指向编程语言等描述的计算机可执行的程序实现,其可存储在诸如rom、电擦除可编程rom(eeprom)、可擦除可编程rom(eprom)、闪存、软盘、光盘只读存储器(cd-rom)、可重写光盘存储器(cd-rw)、数字多功能光盘(dvd-rom)、dvd-ram、dvd-rw、蓝光光盘、安全数字卡(sd卡)、磁光盘(mo)等装置可读记录介质。或者计算机可执行程序可以通过电通信线路分发。另外,上述功能单元中的一些或全部可以使用诸如场可编程门阵列(fpga)等的可编程设备(pd)或者作为专用集成电路(asic)实现。计算机可执行程序可以作为下载到pd的电路构成数据(比特流数据)分发,以便使用pd实现功能单元,作为以硬件描述语言(hdl)、超高速集成电路(vhsic)硬件描述语言(vhdl)、verilog-hdl等写入的数据,用于生成电路构成数据,可以使用记录介质分发。

说明了上述实施例,但并不限制本发明。因此,鉴于上述教导,许多其他修改和变化是可能的。例如,在本发明的范围内,不同说明性实施例的元件和/或特征可彼此组合和/或彼此替换。

本发明可以以任何方便的形式实现,例如使用专用硬件,或专用硬件和软件的混合。本发明可以实现为由一个或多个联网处理设备实现的计算机软件。处理设备可以是任何适当编程的设备,例如通用计算机,个人数字助理,移动电话(诸如wap或3g兼容电话)等。由于本发明可以实现为软件,因此本发明的每个方面都包含可在可编程设备上实现的计算机软件。可以使用任何传统的载体介质(载体装置)将计算机软件提供给可编程设备。载体介质可以是瞬态载体介质,例如携带计算机代码的电、光、微波、声学、或射频信号。这种瞬态介质的示例是在ip网络(例如因特网)上承载计算机代码的tcp/ip信号。载体介质还可以包括用于存储处理器可读代码的存储介质,例如软盘,硬盘,cd-rom,磁带设备,或固态存储设备。

在一个实施例中,本发明可以存在于包括电路的声音记录装置中:获取从在多个麦克风处收集的多个声音信号生成的声音数据;从一个或多个传感器获取在收集多个声音信号的时间段期间的时间点检测声音记录设备的位置的结果;在存储器中存储表示在该时间点检测到的声音记录设备的位置的位置数据,以及基于在检测到该位置的时间点在麦克风处收集的互相关联的多个声音信号生成的声音数据。

在一个实施例中,本发明可以存在于包括电路的系统中:获取从在多个麦克风处收集的多个声音信号生成的声音数据;从一个或多个传感器获取在收集多个声音信号的时间段期间的时间点检测声音记录设备的位置的结果;在存储器中存储表示在该时间点检测到的声音记录设备的位置的位置数据,以及基于在检测到该位置的时间点在麦克风处收集的互相关联的多个声音信号生成的声音数据。

在一个实施例中,本发明可以存在于存储多个指令的非暂时性记录介质中,当由一个或多个处理器执行时,使得处理器执行声音记录方法,包括:获取从在多个麦克风处收集的多个声音信号生成的声音信号;从一个或多个传感器获取在收集多个声音信号的时间段期间的时间点检测声音记录设备的位置的结果;在存储器中存储表示在该时间点检测到的声音记录设备的位置的位置数据,以及基于在检测到该位置的时间点在麦克风处收集的互相关联的多个声音信号生成的声音数据。

所描述的实施例的每个功能可以由一个或多个处理电路或电路实现。处理电路包括编程处理器,因为处理器包括电路。处理电路还包括诸如专用集成电路(asic),数字信号处理器(dsp),场可编程门阵列(fpga)之类的设备,以及用于执行所述功能的传统电路部件。

本专利申请基于并要求于2017年3月14日向日本专利局提交的日本专利申请nos.2017-048469的优先权,于2018年2月23日向日本专利局提交的日本专利申请nos.2018-030769的优先权,其全部公开内容通过引用作为参考。

附图标记列表

110全天球图像捕获设备(sphericalimagecapturingapparatus)

112cpu

114rom

116图像处理块

118动画块(movingimageblock)

120dram接口

122外部存储器接口

124传感器接口

126usb接口

128串行块

130成像元件

131光学系统

132dram

134外部存储器

136传感器

138usb连接器

140无线通讯接口

142adc

144麦克风

146操作单元

148图像捕获模式开关

150释放开关

210,310控制器

212,312图像获取器

214,314图像信号处理器

216,316声音获取器

218,318声音信号处理器

220,320传感器信息获取器

222,322倾斜角度计算器

224,324记录器

226,372读取器

228,374参数生成器

230,376图像变换器

232,378声音变换器

234,380输出单元

240,340文件

242,342全天球图像数据

244,344立体声声音数据

246,346倾斜角度数据

250,350显示单元

260,360声音再生器

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1