反映个人特性的双耳音频信号处理方法和设备与流程

文档序号:11456658阅读:413来源:国知局
反映个人特性的双耳音频信号处理方法和设备与流程

本发明涉及一种音频信号处理方法和装置。更具体地,本发明涉及一种对对象信号和声道信号进行合成并且对合成的信号进行有效的双耳渲染的音频信号处理方法和装置。



背景技术:

3d音频统称为一系列信号处理、发送、编码和重放技术,这些技术通过向由传统环绕音频提供的水平面(2d)上的声音场景提供与高度方向对应的附加轴线来提供给出在三维空间中的存在感的声音。具体地,3d音频需要即使使用比传统技术的扬声器更大量或者更少量的扬声器也能够在不存在扬声器的虚拟位置中形成声音图像的渲染技术。

3d音频有望成为针对超高清tv(uhdtv)的音频解决方案,并且,除了演变成高品质信息娱乐空间的车辆中的声音之外,还有望被应用于剧场声音、个人3dtv、平板计算机、无线通信终端和云游戏的各种领域。

同时,提供至3d音频的声音源可以包括基于声道的信号和基于对象的信号。此外,声音源可以是基于声道的信号和基于对象的信号的混合类型,并且,通过这种配置,可以向用户提供一种新类型的听觉体验。

执行双耳渲染以将这种3d音频建模为传递至人的两个耳朵的信号。用户通过耳机或者耳塞从经过双耳渲染的双声道音频输出信号体验三维感。双耳渲染的具体原理描述如下。人通过两个耳朵收听声音,并且从声音识别声音源的位置和方向。因此,如果可以将3d音频建模为传递至人的两个耳朵的音频信号,那么可以在没有大量扬声器的情况下通过双声道音频输出来再现3d音频的三维感。

传递至两个耳朵的音频信号由人体反射以到达耳膜。在该过程中,根据人体以不同的形式传递音频信号。因此,传递至两个耳朵的音频信号显著受人体(诸如耳朵形状)影响。因此,人体特征显著影响通过双耳渲染传递三维感。因此,应该在双耳渲染过程中准确地反映出用户的身体特征,从而准确地执行双耳渲染。



技术实现要素:

技术问题

本发明的实施例的目的是提供一种用立体声播放多声道信号和多对象信号的双耳音频信号处理装置和方法。

具体地,本发明的实施例的目的是提供一种有效地反映出个人人体测量特征的双耳音频信号处理装置和方法。

技术方案

根据本发明的实施例的音频信号处理装置包括:个性化处理器,该个性化处理器被配置为接收用户信息并且基于用户信息输出用于控制双耳渲染的双耳参数;以及双耳渲染器,该双耳渲染器基于双耳参数对源音频执行双耳渲染。

此时,个性化处理器可以对基于关于实际测量的头部相关传输函数(hrtf)的信息而生成的第一hrtf和通过模拟而估计的第二hrtf进行合成以生成个性化的hrtf。

此时,个性化处理器可以通过使用比根据第一hrtf的频率响应的第一参考值高的频带以及通过使用比根据第二hrtf的频率响应的第二参考值低的频带来生成个性化的hrtf。

此时,个性化处理器可以将通过比第一参考值高的频带的高通滤波器应用于第一hrtf,并且可以将通过比第二参考值低的频带的低通滤波器应用于第二hrtf。

此外,个性化处理器可以基于球状头部模型、雪人模型、时域有限差分法和边界元法中的至少一种来估计第二hrtf。

此外,个性化处理器可以通过基于在耳道的入口与反射声音的外耳的部分之间的距离来根据hrtf模拟频率响应的陷波并且通过应用模拟的陷波来生成个性化的hrtf。

此外,个性化处理器可以确定在多个hrtf当中与和对应于用户信息的用户的人体测量特征最相似的人体测量特征匹配的hrtf,并且可以生成确定的hrtf作为个性化的hrtf。

此时,用户的人体测量特征可以包括关于多个身体部分的信息,并且个性化处理器基于分别分配给多个身体部分的权重来确定在多个hrtf当中与和用户的人体测量特征最相似的人体测量特征匹配的hrtf。

此外,个性化处理器可以针对频带的每个特征或者时间带的每个特征来分解单独hrtf的分量,并且可以将用户的人体测量特征应用于针对频带的每个特征或者时间带的每个特征而被分解的单独hrtf的分量。

此时,用户的人体测量特征可以包括关于多个身体部分的信息,并且个性化处理器可以分别将单独hrtf分解成与多个身体部分匹配的多个分量,并且可以分别将分别与多个分量对应的人体测量特征应用于多个分量。

此时,个性化处理器可以将单独hrtf分解成与外耳的形式匹配的分量和与另一身体部分匹配的分量,其中,其它身体部分可以是头部或者躯干。

此外,个性化处理器可以通过波插值(wi)将单独hrtf分解成与外耳的形式匹配的分量和与其它身体部分匹配的分量。

此外,个性化处理器可以将根据单独hrtf生成的频率响应划分成包络部分和陷波部分,并且将用户的人体测量特征应用于包络部分和陷波部分中的每一个以生成个性化的hrtf。

此时,个性化处理器可以根据用户的人体测量特征来改变陷波部分的陷波的频率、深度和宽度中的至少一个。

此外,个性化处理器可以通过将不同的权重分配给包络部分和陷波部分中的相同的身体部分生来成个性化的hrtf。

此时,当将与外耳的形式对应的人体测量特征应用于陷波部分时,个性化处理器可以将比在将与外耳的形式对应的人体测量特征应用于包络部分时被分配给外耳的形式的权重更大的权重分配给外耳的形式。

此外,个性化处理器可以基于用户信息来提取用户的人体测量特征。

此时,用户信息可以是通过由用户佩戴的可穿戴装置来测量用户的身体而获得的信息。

此时,用户信息可以是包含用户的图像的图像信息,并且个性化处理器可以根据图像信息为用户的外耳的形式建模,或者根据图像信息来估计用户的头部的形式。

此外,用户信息可以是关于衣服或者配饰的大小的信息,并且个性化处理器可以基于关于衣服或者配饰的大小的信息来提取用户的人体测量特征。

根据本发明的实施例的一种处理双耳音频信号的方法包括以下步骤:接收用户信息;输出双耳参数以基于用户信息来控制双耳渲染;以及基于双耳参数对源音频执行双耳渲染。

有益效果

本发明的实施例提供了一种用立体声播放多声道信号和多对象信号的双耳音频信号处理装置和方法。

具体地,本发明的实施例的提供了一种有效地反映出个人特征的双耳音频信号处理装置和方法。

附图说明

图1是示出了根据本发明的实施例的双耳音频信号处理装置的框图。

图2是示出了根据本发明的实施例的个性化处理器的框图。

图3是示出了根据本发明的实施例的用于提取用户的人体测量特征的个性化处理器的框图。

图4示出了根据本发明的实施例的提取用户的人体测量特征的耳机。

图5是示出了根据本发明的实施例的个性化处理器的框图,该个性化处理器分别将权重应用于分别与多个身体部分对应的人体测量特征。

图6示出了个性化处理器,该个性化处理器在头部相关传输函数(hrtf)的频率特性方面区分包络和陷波以反映出用户的人体测量特征。

图7示出了根据本发明的实施例的个性化处理器,该个性化处理器补偿低频带的频率响应。

图8示出了通过外耳反射从声音源传递的声音。

图9示出了根据本发明的实施例的双耳音频信号处理装置。

具体实施方式

在下文中,将参照附图详细描述本发明的实施例,以便本领域的技术人员可以容易地执行本发明的实施例。然而,本发明可以被实施为各种不同的形式并且不限于本文所描述的实施例。为了清楚的描述本发明的实施例,在附图中未示出与描述无关的实施例的一些部分。贯穿说明书,相似的附图标记指代相似的元件。

当提及某个部分“包括”某些元件时,该部分可以进一步包括其它元件,除非另有规定。

本申请要求韩国专利申请第10-2014-0173420号的优先权,该申请的实施例和描述被视为并入本文。

图1是示出了根据本发明的实施例的双耳音频信号处理装置的框图。

根据本发明的实施例的双耳音频信号处理装置10包括个性化处理器300和双耳渲染器100。

个性化处理器300基于用户信息来输出待应用于双耳渲染器的双耳参数值。此时,用户信息可以是关于用户的人体测量特征的信息。双耳参数表示用于控制双耳渲染的参数值。详细地,双耳参数可以是待应用于双耳渲染的头部相关传输函数(hrtf)的设置值或者hrtf本身。在本发明中,hrtf包括双耳房间传输函数(brtf)。此时,hrtf是通过建模将声音从位于特定位置处的声音源传输至人的两个耳朵的过程而获得的传输函数。详细地,hrtf可以反映出人的头部、躯干、耳朵等的影响。在特定实施例中,可以在无音室中测量hrtf。个性化处理器300可以包括数据库形式的关于hrtf的信息。根据特定实施例,可以将个性化处理器300定位在双耳音频信号处理装置10外部的单独服务器中。

双耳渲染器100基于双耳参数值对源音频进行双耳渲染,并且输出经过双耳渲染的音频信号。此时,如上所述,双耳参数值可以是hrtf的设置值或者hrtf本身。此外,源音频可以是单声道音频信号或者包括一个对象的音频信号。在另一实施例中,源音频可以是包括多个对象的音频信号或者多声道信号。

参照图2描述个性化处理器300的具体操作。

图2是示出了根据本发明的实施例的个性化处理器的框图。

根据本发明的实施例的个性化处理器300可以包括hrtf个性化单元330和个性化数据库350。

个性化数据库350存储关于hrtf和人体测量特征的信息。详细地,个性化数据库350可以存储关于与人体测量特征匹配的hrtf的信息。在特定实施例中,个性化数据库350可以包括关于实际测量到的hrtf的信息。此外,个性化数据库350可以包括关于通过模拟而估计的hrtf的信息。用于估计hrtf的模拟技术可以是基于人类头部是球状的假设执行模拟的球状头部模型(shm)、基于人类头部和躯干是球状的假设执行模拟的雪人模型、时域有限差分法(fdtdm)和边界元法(bem)中的至少一种。shm模拟是基于人类头部是球状的假设进行的模拟方法。根据特定实施例,可以将个性化数据库350定位在双耳音频信号处理装置10外部的单独服务器中。在特定实施例中,人体测量特征可以包括外耳的形式、躯干的形式和头部的形式中的至少一种。此时,形式表示形状和大小中的至少一个。因此,在该说明书中,测量特定身体部分的形式可以表示测量特定身体部分的形状和大小。

hrtf个性化单元330接收用户信息,并且输出与用户信息对应的个性化的hrtf。详细地,hrtf个性化单元330可以接收用户的人体测量特征,并且可以输出与用户的人体测量特征对应的个性化hrtf。此处,hrtf个性化单元330可以从个性化数据库接收关于输出个性化hrtf所需的hrtf和人体测量特征的信息。详细地,hrtf个性化单元330可以从个性化数据库350接收关于与人体测量特征匹配的hrtf的信息,并且可以基于接收到的关于与人体测量特征匹配的hrtf的信息来输出与用户的人体测量特征对应的个性化的hrtf。例如,hrtf个性化单元330可以从存储在个性化数据库350中的人体测量特征数据当中检索与用户的人体测量特征最相似的人体测量特征数据。hrtf个性化单元330可以从个性化数据库350提取与检索到的人体测量特征数据匹配的hrtf,并且可以将提取到的hrtf应用于双耳渲染器。

将参照图3和图4描述提取用户的人体测量特征的特定方法,并且将参照图5至图7描述输出根据用户的特征而被个性化的hrtf的特定方法。

图3是示出了根据本发明的实施例的用于提取用户的人体测量特征的个性化处理器的框图。

根据本发明的实施例的个性化处理器300可以包括人体测量特征提取单元310。

人体测量特征提取单元310从表示用户的特征的用户信息提取用户的人体测量特征。详细地,用户信息可以是图像信息。此时,图像信息可以包括视频和静态图像中的至少一个。人体测量特征提取单元310可以从用户输入的图像信息提取用户的人体测量特征。此时,可以通过使用外部安装的摄像头,通过捕获用户的身体的图像来获得图像信息。

此时,摄像头可以是能够测量距离信息的深度摄像头。在特定实施例中,深度摄像头可以通过使用红外光来测量距离。在摄像头是深度摄像头的情况下,用户信息可以包括关于外耳的特定信息。关于外耳的特定信息可以表示外耳的形式。外耳的形式包括外耳的大小、外耳的形状和外耳的深度中的至少一个。因为反射路径在音频信号通过外耳反射时很短,所以外耳影响比受另一身体部分影响的频带更高的频带。受外耳影响的音频频带为约4khz至16khz,并且形成频谱陷波。即使外耳中很小的差异都会显著影响频谱陷波,并且外耳对高度感知有重要作用。因此,当用户信息包括通过使用深度摄像头而测量到的外耳信息时,个性化处理器300可以执行更准确的个性化。

详细地,可以通过使用安装在无线通信终端中的摄像头,通过捕获用户的身体的图像来获得图像信息。此时,无线通信终端可以通过使用被包括在无线通信终端中的加速度计、陀螺仪传感器和接近传感器中的至少一个来捕获用户的身体的图像。例如,当用户将无线通信终端移动靠近用户的耳朵以在无线通信终端上说话时,图像信息可以是通过使用安装在无线通信终端中的前置摄像头捕捉到的用户的耳朵的图像。在另一特定实施例中,当在使无线通信终端接触耳朵之后增加无线通信终端与耳朵之间的距离时,图像信息可以是在不同的视角捕获到的耳朵的多个图像。此时,无线通信终端可以通过被包括在无线通信终端中的接近传感器确定通信终端是否接触耳朵。此外,无线通信终端可以通过使用加速度计和陀螺仪传感器中的至少一个来检测到耳朵的距离和旋转角度中的至少一个。详细地,在无线通信终端接触耳朵之后,无线通信终端可以通过使用加速度计和陀螺仪传感器中的至少一个来检测到耳朵的距离和旋转角度中的至少一个。无线通信终端可以基于到耳朵的距离和旋转角度中的至少一个来生成图像信息,该图像信息是表示耳朵的形状的三维立体图像。

此外,可以通过使用提取距离和形式的射线扫描方法中的任意一种来提取图像信息。详细地,可以通过使用超声波、近红外光和太赫兹中的至少一个来扫描用户的身体(包括耳朵)来获得图像信息。

此外,可以从包含用户的多个图像对用户的外耳的形状进行3d建模来获得图像信息。在特定实施例中,人体测量特征提取单元310可以从包含用户的多个图像对用户的外耳的形状进行3d建模。

人体测量特征提取单元310可以从包含用户的图像估计头部大小。此时,人体测量特征提取单元310可以从包含用户的图像通过使用特定准则或者预设信息来估计头部大小。此时,特定准则或者预设信息可以是已知对象的大小、衣服的大小、和不同的人之间的比例。已知对象的大小可以是无线通信终端的大小、路标的大小、建筑的大小、和车辆的大小中的至少一个。例如,人体测量特征提取单元310可以通过计算包含在图像中的用户头部与无线通信终端之间的比例并且基于无线通信终端的预先存储的大小来估计用户的头部大小。此外,人体测量特征提取单元310可以从估计的头部大小估计外耳的形状和大小以及耳间距离,即耳朵之间的距离。这是因为外耳的形状和大小以及耳间距离(即耳朵之间的距离)与头部的宽度对应。在特定实施例中,可以从用户的社交网络服务(sns)账户获得图像。可以将图像预先存储在用户的无线通信终端中。该操作可以使用户免于体验测量用户的身体和输入测量到的信息所带来的不便。

在另一特定实施例中,用户信息可以是关于衣服或者配饰的大小的信息。此时,人体测量特征提取单元310可以基于关于衣服或者配饰的大小的信息来估计用户的人体测量特征。详细地,人体测量特征提取单元310可以基于关于衣服或者配饰的大小的信息来估计高度、头部宽度、胸围和肩宽中的至少一个。在特定实施例中,关于衣服或者配饰的大小的信息可以是上装、下装、帽子、眼镜、头盔和护目镜中的至少一种的大小信息。与外耳的形式相比较,除了外耳之外的身体部分的人体测量特征对双耳渲染过程的影响较小。因此,没必要准确估计除了外耳之外的身体部分的人体测量特征。因此,可以通过将使用关于衣服或者配饰的大小的信息估计的值应用于双耳渲染来简化人体测量特征提取过程。

在另一特定实施例中,hrtf个性化单元330可以基于用户从多种模式当中选择的任何一种模式来生成个性化的hrtf。例如,个性化处理器300可以从用户接收用于选择多种模式中的一种的用户输入,并且可以基于选择的用户模式来输出经过双耳渲染的音频。多种模式中的每一种模式可以确定待应用于hrtf的耳间电平差(ild)、耳间时间差(itd)和频谱陷波中的至少一个。详细地,hrtf个性化单元330可以针对待用于hrtf的耳间电平差、耳间时间差和频谱陷波水平权重接收用户输入。此时,耳间电平差、耳间时间差和频谱陷波水平权重可以是用于衡量耳间电平差、耳间时间差和频谱陷波水平权重的用户输入。

用于增强三维感的因素根据应用了双耳渲染的内容而改变。例如,在飞行模拟游戏的情况下,感知高度差对用户而言很重要。在赛车游戏的情况下,感知前空间和后空间对用户而言很重要。此外,应用于hrtf的频谱陷波特征对感知高度很重要,并且耳间时间差和耳间电平差对水平感知很重要。因此,用户可以通过选择上述多种模式中的一种来选择是否强调双耳渲染期间的水平感知或者垂直感知。

此外,在特定实施例中,用于执行内容的应用可以将为内容优化的模式输入至hrtf个性化单元330。

在另一特定实施例中,用户佩戴声音输出装置可以测量用户的耳朵的形式,并且可以将包括用户的耳朵的形式的用户信息输入至个性化处理器300。将参照图4详细描述该操作。

图4示出了根据本发明的实施例的提取用户的人体测量特征的耳机。

根据本发明的实施例的声音输出装置550可以测量用户的耳朵的形式。详细地,用户佩戴的声音输出装置550可以测量用户的耳朵的形式。此时,声音输出装置550可以是耳机或者耳塞。

详细地,声音输出装置550可以通过使用摄像头或者深度摄像头来测量用户的耳朵的形式。在特定实施例中,上面关于使用摄像头来测量用户的身体参照图3而描述的实施例可以应用于声音输出装置550。详细地,声音输出装置550可以通过拍摄用户的耳朵来生成图像。此时,声音输出装置550可以使用生成的耳朵图像来识别用户。在特定实施例中,声音输出装置550可以基于正佩戴声音输出装置550的用户的耳朵图像来识别正佩戴声音输出装置550的用户。此外,声音输出装置550可以将关于识别到的用户的信息输入至个性化处理器300。个性化处理器300可以根据识别到的用户的hrtf集合来执行双耳渲染。详细地,个性化处理器300可以针对与声音输出装置550所生成的耳朵图像匹配的用户信息搜索数据库,并且可以找到与声音输出装置550所生成的耳朵图像匹配的用户。个性化处理器300可以根据与生成的耳朵图像匹配的用户的hrtf集合来执行双耳渲染。

在另一特定实施例中,声音输出装置550可以基于生成的耳朵图像来激活仅仅可用于特定用户的函数。例如,当声音输出装置550所生成的当前用户的耳朵图像与用户的存储的图像匹配时,声音输出装置550可以通过声音输出装置550激活保密呼叫函数。此时,保密呼叫表示加密包括呼叫内容的信号。这种方法可以防止窃听。此外,当声音输出装置550所生成的当前用户的耳朵图像与用户的存储的图像匹配时,声音输出装置550可以激活发布或者传输安全代码的函数。此时,安全代码表示用于在需要高级别安全性的交易(诸如金融交易)期间识别个人的代码。此外,当声音输出装置550所生成的当前用户的耳朵图像与用户的存储的图像匹配时,声音输出装置550可以激活隐藏应用。此时,隐藏应用可以表示可以在第一模式下执行但无法在第二模式下执行的应用。在特定实施例中,隐藏应用可以表示执行对特定人的电话呼叫的应用。另外,隐藏应用可以表示播放年龄限制的内容的应用。

在另一特定实施例中,声音输出装置550可以通过使用用于佩戴声音输出装置550的带(band)来测量正佩戴声音输出装置550的用户的头部的大小。详细地,声音输出装置550可以通过使用用于佩戴声音输出装置550的带的松紧度来测量正佩带声音输出装置550的用户的头部的大小。可替代地,声音输出装置550可以基于带的伸展阶段值来测量头部的大小。详细地,带的伸展阶段值可以用于调整带的长度,并且可以表示带的长度。

声音输出装置550可以基于从用户的外耳反射的音频信号来测量用户的耳朵形式。详细地,声音输出装置550可以输出某个音频信号,并且可以接收从用户的耳朵反射的音频信号。此时,声音输出装置550可以基于接收到的音频信号来测量用户的耳朵形式。在特定实施例中,声音输出装置550可以接收对音频信号的脉冲响应以测量耳朵形式。此时,从声音输出装置550输出的音频信号可以是预先设计为测量脉冲响应的信号。详细地,从声音输出装置550输出的音频信号可以是伪噪声序列或者正弦扫频信号。从声音输出装置550输出的音频信号可以是任意音乐信号。在从声音输出装置550输出的音频信号是任意音乐信号的情况下,当用户通过声音输出装置550听音乐时,声音输出装置550可以测量用户的耳朵形式。

个性化处理器300可以从声音输出装置550接收从用户的外耳反射的音频信号,并且可以基于接收到的音频信号来输出个性化的hrtf。

将参照图4描述基于从用户的外耳反射的音频信号来测量用户的耳朵形式的声音输出装置550的特定实施例。声音输出装置550可以包括:扬声器551,该扬声器551输出音频信号;以及麦克风553,该麦克风553接收从外耳反射的音频信号。用于最佳地从反射自外耳的音频信号测量hrtf的麦克风553的理想位置是在耳道571内。详细地,麦克风553的最佳位置是耳道内的耳膜。然而,很难将麦克风安装在用户的耳道中,具体地,耳膜处。因此,需要将麦克风553定位在耳道外,并且应该根据麦克风553的位置通过校正接收到的音频信号来估计hrtf。详细地,声音输出装置550可以包括多个麦克风553,并且个性化处理器300可以基于多个麦克风553所接收到的音频信号来生成个性化的hrtf。此时,个性化处理器300可以预先存储关于多个麦克风553的位置的信息或者可以通过用户输入或者声音输出装置550接收信息。在另一特定实施例中,可以移动麦克风553的位置。此时,个性化处理器300可以基于麦克风553在不同位置处接收到的音频信号来生成个性化的hrtf。

上述声音输出装置550的实施例同样可以被应用于用户戴佩戴的可穿戴装置以便被使用。此时,可穿戴装置可以是头戴式显示器(hmd)、可穿戴监测器(scout)、护目镜和头盔中的任何一个。因此,用户佩戴的可穿戴装置可以测量用户的身体,并且可以将包括身体的形式的用户信息输入至个性化处理器300。此时,用户的身体的形式可以包括头部的形式和耳朵的形式。

图5是示出了根据本发明的实施例的个性化处理器的框图,该个性化处理器分别将权重应用于分别与多个身体部分对应的人体测量特征。

如上所述,hrtf个性化单元330可以从个性化数据库350接收关于与人体测量特征匹配的hrtf的信息,并且可以基于接收到的关于与人体测量特征匹配的hrtf的信息来输出个性化的hrtf。例如,hrtf个性化单元330从存储在个性化数据库350中的人体测量特征数据当中检索与用户的人体测量特征最相似的人体测量特征数据。hrtf个性化单元330可以从个性化数据库350提取与检索到的人体测量特征数据匹配的hrtf,并且可以将提取到的hrtf应用于双耳渲染器。在本文中,人体测量特征与多个身体部分有关。因此,人体测量特征可以包括关于多个身体部分的信息。然而,用户的身体的多个身体部分不同地影响传递至用户的耳朵的声音。详细地,与胸围相比较,头部的宽度和躯干的宽度对传递至用户的耳朵的声音的影响更显著。此外,与躯干的宽度相比较,外耳对传递至用户的耳朵的声音的影响更显著。

因此,hrtf个性化单元330可以将重要级别分配给多个身体部分,并且可以基于分别分配给多个身体部分的重要级别来生成个性化的hrtf。在特定实施例中,hrtf个性化单元330可以基于分配给身体部分的重要级别从存储在个性化数据库350中的人体测量特征当中检索与用户的人体测量特征最相似的人体测量特征。为了方便阐释,与用户的人体测量特征最相似的人体测量特征被称为匹配人体测量特征。详细地,人体测量特征可以包括关于多个身体部分的信息,并且可以与单个hrtf匹配。此时,hrtf个性化单元330可以分别将重要级别分配给属于人体测量特征的多个身体部分,并且可以基于分配给身体部分的重要级别从存储在个性化数据库350中的多个人体测量特征当中确定匹配人体测量特征。在特定实施例中,当hrtf个性化单元330确定匹配人体测量特征时,hrtf个性化单元330可以首先比较具有高重要级别的身体部分,例如,hrtf个性化单元330可以从存储在个性化数据库350中的多个人体测量特征当中确定与用户的人体测量特征最相似的具有最高重要级别的身体部分的人体测量特征,作为匹配人体测量特征。在另一特定实施例中,hrtf个性化单元330可以选择具有高重要级别的多个身体部分以从存储在个性化数据库350中的多个人体测量特征当中确定与用户的人体测量特征最相似的具有高重要级别的多个身体部分的人体测量特征,作为匹配人体测量特征。

在特定实施例中,hrtf个性化单元330可以在没有应用关于多个身体部分当中具有相对较低的重要级别的身体部分的信息的情况下生成个性化的hrtf。详细地,hrtf个性化单元330可以通过比较除了具有相对较低的重要级别的身体部分之外的多个身体部分来确定与用户的人体测量特征最相似的人体测量特征。此时,具有相对较低的重要级别的身体部分可以表示具有等于或者低于某个准则的重要级别的身体部分。可替代地,具有相对较低的重要级别的身体部分可以表示具有最低重要级别的身体部分。

如图5的实施例所示,hrtf个性化单元330可以包括:权重计算单元331,该权重计算单元331计算多个身体部分的权重;以及hrtf确定单元333,该hrtf确定单元333根据计算得到的权重来确定个性化的hrtf。

上面参照图4和图5所描述的是个性化处理器300通过使用单独hrtf来生成个性化hrtf的实施例。单独hrtf表示针对具有一个人体测量特征的对象测量或者模拟的hrtf数据集。个性化处理器300可以通过频带的每个特征或者时间带的每个特征将单独hrtf分解成一个或者多个分量,并且可以组合或者修改一个或者多个分量以生成个性化的hrtf,用户的人体测量特征应用于该个性化的hrtf。在实施例中,个性化处理器300可以将hrtf分解成耳廓相关传输函数(prtf)和不包括耳廓的头部相关传输函数(heprtf),并且可以组合和修改prtf和heprtf以生成个性化的hrtf。prtf表示建模通过从外耳反射而传递的声音的传输函数,nphrtf表示建模通过从除了外耳之外的身体反射而传递的声音的传输函数。在图6中将描述该操作。

图6示出了个性化处理器,该个性化处理器在头部相关传输函数(hrtf)的频率特性方面区分包络和陷波以反映出用户的人体测量特征。

hrtf个性化单元330可以根据频率特性通过应用用户的人体测量特征来生成个性化的hrtf。详细地,hrtf个性化单元330通过将根据hrtf生成的频率响应划分成包络部分和陷波部分并且将用户的人体测量特征应用于包络部分和陷波部分中的每一个来生成个性化的hrtf。此时,hrtf个性化单元330可以根据用户的人体测量特征来改变在根据hrtf的频率响应中的陷波的频率、深度和宽度中的至少一个。在特定实施例中,hrtf个性化单元330可以通过将根据hrtf生成的频率响应划分成包络部分和陷波部分并且将不同的权重应用于在频率响应的包络部分和频率响应的陷波部分中的相同的身体部分来生成个性化的hrtf。

hrtf个性化单元330执行该操作的原因在于,主要影响根据hrtf生成的频率响应的陷波部分的身体部分与主要影响包络部分的身体部分不同。详细地,用户的外耳的形式主要影响根据hrtf生成的频率响应的陷波部分,并且头部大小和躯干大小主要影响根据hrtf生成的频率响应的包络部分。因此,当将人体测量特征应用于频率响应的陷波部分时,hrtf个性化单元330可以将比在将人体测量特征应用于频率响应的包络部分时分配给外耳的形式的权重大的权重分配给外耳的形式。此外,当将人体测量特征应用于频率响应的陷波部分时,hrtf个性化单元330可以将比在将人体测量特征应用于频率响应的包络部分时分配给躯干的形式的权重小的权重分配给躯干的形式。此外,当将人体测量特征应用于频率响应的陷波部分时,hrtf个性化单元330可以将比在将人体测量特征应用于频率响应的包络部分时分配给头部的形式的权重小的权重分配给头部的形式。

另外,当将人体测量特征应用于根据hrtf生成的频率响应的陷波部分时,hrtf个性化单元330可以将比应用于躯干大小或者头部大小的权重大的权重分配给外耳的形式。此外,当将人体测量特征应用于频率响应的包络部分时,hrtf个性化单元330可以将比应用于外耳的形式的权重大的权重分配给躯干大小或者头部大小。

此时,hrtf个性化单元330可以根据权重的分配不应用与单独频率分量中的特定身体部分对应的人体测量特征。例如,hrtf个性化单元330可以将与外耳的形式对应的人体测量特征应用于频率的陷波部分,但是可以不将与外耳的形式对应的人体测量特征应用于频率的包络部分。此时,hrtf个性化单元330可以将与除了外耳之外的身体部分对应的人体测量特征应用于频率的包络部分。

将参照图6描述个性化处理单元330的具体操作。

在图6的实施例中,频率分量分离单元335将根据hrtf生成的频率响应分离成包络部分和陷波部分。

频率包络个性化单元337将用户的人体测量特征应用于根据hrtf生成的频率响应的包络部分。如上所述,频率包络个性化单元337可以将比应用于外耳的形式的权重大的权重分配给躯干大小或者头部大小。

频率陷波个性化单元339将用户的人体测量特征应用于根据hrtf生成的频率响应的陷波部分。如上所述,频率陷波个性化单元339可以将比应用于躯干大小或者头部大小的权重大的权重分配给外耳的形式。

频率分量合成单元341基于来自频率包络个性化单元337的输出和来自频率陷波个性化单元339的输出来生成个性化的hrtf。详细地,频率分量合成单元341生成与频率包络个性化单元337所生成的频率的包络和频率陷波个性化单元339所生成的频率的陷波对应的个性化的hrtf。

在特定实施例中,hrtf个性化单元330可以将hrtf分离成分别与多个身体部分对应的多个分量,并且可以分别将与多个分量对应的人体测量特征应用于多个分量。详细地,hrtf个性化单元330可以提取与分别对应于多个身体部分的人体测量特征匹配的hrtf的分量。此时,包括单独hrtf的分量可以表示从对应的身体部分反射并且传递至用户的耳朵的声音。hrtf个性化单元330可以通过对多个提取到的分量进行合成来生成个性化的hrtf。详细地,hrtf个性化单元330可以基于分别分配给多个分量的权重对多个提取到的分量进行合成。例如,hrtf个性化单元330可以提取与外耳的形式对应的第一分量、与头部大小对应的第二分量、以及与胸围对应的第三分量。hrtf个性化单元330可以对第一分量、第二分量和第三分量进行合成以生成个性化的hrtf。在这种情况下,个性化数据库350可以存储分别与多个身体部分匹配的hrtf的分量。

具体地,hrtf个性化单元330可以将hrtf分离成与外耳的形式匹配的分量和与头部的形式匹配的分量。此外,hrtf个性化单元330可以将hrtf分离成与外耳的形式匹配的分量和与躯干的形式匹配的分量。这是因为,当声音从人体反射并且传递至耳朵时,由外耳反射的声音的时域特性与由头部的形式或者躯干的形式反射的声音的时域特性显著不同。

此外,hrtf个性化单元330可以通过使用倒频谱的同态信号处理将频率分量分离成与外耳的形式对应的部分和与躯干的形式或者头部的形式对应的部分。在另一特定实施例中,hrtf个性化单元330可以通过低/高通滤波将频率分量分离成与外耳的形式对应的部分和与躯干的形式或者头部的形式对应的部分。在另一特定实施例中,hrtf个性化单元330可以通过波插值(wi)将频率分量分离成与外耳的形式对应的部分和与躯干的形式或者头部的形式对应的部分。此时,波插值可以包括快渐变波(rew)和慢渐变波(sew)。这是因为可以假设频率响应在外耳的情况下随着方位角或者仰角的变化而快速变化并且频率响应在头部或者躯干的情况下随着方位角或者仰角的变化而缓慢变化。方位角或者仰角表示在声音源与用户两个耳朵的中心之间的角度。

详细地,当使用wi时,hrtf个性化单元330可以在具有空间/频率轴线而不是时间/频率轴线的三维表示中将根据hrtf的频率响应分离成sew和rew。详细地,hrtf个性化单元330可以在具有频率/仰角或者频率/方位角作为轴线的三维表示中将根据hrtf的频率响应分离成sew和rew。hrtf个性化单元330可以通过使用与头部的形式和躯干的形式对应的人体测量特征来使sew个性化。hrtf个性化单元330可以通过使用与外耳的形式对应的人体测量特征来使rew个性化。rew可以被表示为表示rew的参数,并且hrtf个性化单元330可以在参数阶段使rew个性化。此外,可以将sew划分成针对头部的形式和躯干的形式的分量,并且hrtf个性化单元330可以根据与头部的形式和躯干的形式对应的人体测量特征来使sew个性化。这是因为可以假设基于头部的形式和躯干的形式的分量属于sew以及基于外耳的形式的分量属于rew,如上所述。

如上所述,个性化数据库350可以包括关于实际测量到的hrtf的信息。此外,个性化数据库350可以包括通过模拟估计的hrtf的信息。hrtf个性化单元330可以基于关于实际测量到的hrtf的信息和关于通过模拟估计的hrtf的信息来生成个性化的hrtf。将参照图7描述该操作。

图7示出了根据本发明的实施例的个性化处理器,该个性化处理器补偿低频带的频率响应。

hrtf个性化单元330通过对基于实际测量到的hrtf信息而生成的基于实际测量的hrtf和通过模拟估计的基于模拟的hrtf进行合成来生成个性化的hrtf。此时,基于实际测量的hrtf可以是通过上面参照图5和图6描述的实施例根据用户的人体测量特征而生成的个性化的hrtf。此外,基于模拟的hrtf是通过数学公式或者模拟方法生成的。详细地,基于模拟的hrtf是根据用户的人体测量特征通过球状头部模型(shm)、雪人模型、时域有限差分法(fdtdm)、和边界元法(bem)中的至少一种而生成的。在特定实施例中,hrtf个性化单元330可以通过组合基于实际测量的hrtf的中频和高频分量以及基于模拟的hrtf的低频分量来生成个性化的hrtf。此时,中频分量和高频分量可以具有等于或者大于第一参考值的频率值。此外,低频分量可以具有等于或者小于第二参考值的频率值。详细地,第一参考值和第二参考值可以是相同的值。在特定实施例中,hrtf个性化单元330可以通过使用高通滤波器对基于实际测量的hrtf的频率响应进行滤波,并且通过使用低通滤波器对基于模拟的hrtf的频率响应进行滤波。这是因为由于在实际测量过程期间难以使用麦克风来测量低频分量,所以实际测量到的hrtf的频率响应的低频分量与实际传递至用户耳朵的声音的低频分量显著不同。此外,这是因为通过模拟估计的hrtf的低频分量与实际传递至用户耳朵的声音的低频分量相似。

此外,在特定实施例中,hrtf个性化单元330可以通过诸如正交镜像滤波器的滤波器组或者快速傅里叶变换(fft)来区分基于实际测量的hrtf和基于模拟的hrtf的处理频带。

在图7的实施例中,hrtf个性化单元330包括基于模拟的hrtf生成单元343、基于实际测量的hrtf生成单元345和合成单元347。

基于模拟的hrtf生成单元343根据用户的人体测量特征进行模拟以生成基于模拟的hrtf。

基于实际测量的hrtf生成单元345根据用户的人体测量特征生成基于实际测量的hrtf。

合成单元347生成基于模拟的hrtf和基于实际测量的hrtf。详细地,合成单元347可以对基于实际测量的hrtf的中频和高频分量以及基于模拟的hrtf的低频分量进行合成以生成个性化的hrtf。在特定实施例中,合成单元347可以通过使用高通滤波器对基于实际测量的hrtf的频率响应进行滤波,并且通过使用低通滤波器对基于模拟的hrtf的频率响应进行滤波。

如上所述,被认为用于生成个性化的hrtf的用户的人体测量特征可以包括外耳的形式。此外,外耳的形式显著影响根据hrtf的频率响应的陷波。下面参照图8描述一种基于外耳的形式来模拟根据hrtf的频率响应的陷波的方法。

图8示出了通过外耳反射从声音源传递的声音。

hrtf个性化单元330可以基于外耳的形式来模拟根据hrtf的频率响应的陷波。此时,外耳的形式可以表示外耳的大小和形状中的至少一个。此外,外耳的形式可以包括耳轮、耳轮边界、耳轮壁、外耳边界、对耳轮、外耳壁和耳轮脚的至少一个。hrtf个性化单元330可以基于耳道的入口与反射声音的外耳的部分之间的距离来模拟根据hrtf的频率响应的陷波。详细地,hrtf个性化单元330可以基于耳道的入口与反射声音的外耳的部分之间的距离和声音的速度来模拟根据hrtf的频率响应的陷波。详细地,hrtf个性化单元330可以通过以下等式模拟根据hrtf的频率响应的陷波。

f(theta)=c/(2*d(theta))

f(theta)表示根据hrtf的频率响应的陷波的频率,theta表示仰角,并且c表示声音速度,并且d(theta)表示耳道的入口与反射声音的外耳的部分之间的距离。此时,仰角可以表示穿过声音源的位置和反射声音的外耳的部分的直线与水平参考平面之间的角度,如在向上方向上所测量到的。在特定实施例中,当角度等于或者大于90度时,仰角可以被表示为负数。

hrtf个性化单元330可以通过应用模拟的陷波来生成个性化的hrtf。详细地,hrtf个性化单元330可以基于模拟的陷波来生成陷波/峰值滤波器。hrtf个性化单元330可以应用生成的陷波/峰值滤波器来生成个性化的hrtf。

在另一特定实施例中,个性化处理器300可以将陷波/峰值滤波器输入至双耳渲染器100,并且双耳渲染器100可以通过陷波/峰值滤波器对源音频进行滤波。

图9示出了根据本发明的实施例的双耳音频信号处理装置。

个性化处理器300接收用户信息(s901)。此时,用户信息可以包括关于用户的人体测量特征的信息。此时,人体测量特征可以包括外耳的形式、躯干的形式和头部的形式中的至少一种。此时,形式可以表示大小和形状中的至少一个。此外,用户信息可以指示由用户选择的多个双耳渲染模式中的任何一种。此外,用户信息可以指示通过用户所执行的应用而选择的多个双耳渲染模式中的任何一种。详细地,用户信息可以是用于估计用户的人体测量特征的图像信息。在另一特定实施例中,用户信息可以是关于衣服或者配饰的大小的信息。

双耳参数表示用于控制双耳渲染的参数值。此外,双耳参数可以是双耳hrtf的设置值或者hrtf本身。

个性化处理器300基于用户信息来输出双耳参数值(s903)。此时,个性化处理器300可以从用户信息提取用户的人体测量特征。详细地,个性化处理器300可以通过上面参照图3和图4描述的实施例从用户信息提取用户的人体测量特征。详细地,个性化处理器300可以通过使用图像信息来提取用户的人体测量特征。在特定实施例中,个性化处理器300可以从包含用户的外耳的多个图像为外耳的形式建模。在另一特定实施例中,个性化处理器300可以从包含用户的头部的多个图像为用户的头部的形式建模。此外,如上所述,个性化处理器300可以通过使用声音输出装置来测量用户耳朵的形式。具体地,声音输出装置550可以基于从用户的外耳反射的音频信号来测量用户的耳朵形式。此外,个性化处理器300可以通过使用可穿戴装置来测量用户身体的形式。此时,可穿戴装置可以是头戴式显示器(hmd)、可穿戴监测器(scout)、护目镜和头盔中的任何一个。

在另一特定实施例中,个性化处理器300可以从衣服或者配饰的大小提取用户的人体测量特征。

详细地,个性化处理器300可以通过上述实施例基于用户信息来生成个性化的hrtf。详细地,个性化处理器300可以通过对基于提取到的人体测量特征而生成的基于实际测量的hrtf和基于模拟的hrtf进行合成来生成个性化的hrtf。个性化处理器300可以通过使用比根据基于实际测量的hrtf的频率响应的第一参考值高的频带以及通过使用比根据基于模拟的hrtf的频率响应的第二参考值低的频带来生成个性化的hrtf。个性化处理器300可以基于在人的头部是球状的假设的基础上执行模拟的球状头部模型、在人的头部和躯干是球状的假设的基础上执行的模拟的雪人模型、时域有限差分法和边界元法中的至少一种来估计基于模拟的hrtf。个性化处理器300可以基于耳道的入口与反射声音的外耳的部分之间的距离来模拟根据hrtf的频率响应的陷波,并且可以通过应用模拟的陷波来生成个性化的hrtf。

此外,个性化处理器300可以确定多个hrtf当中与和对应于用户信息的用户的人体测量特征最相似的人体测量特征匹配的hrtf,并且可以生成确定的hrtf作为个性化的hrtf或者基于测量的hrtf。用户的人体测量特征可以包括关于多个身体部分的信息,并且个性化处理器300可以基于分别分配给多个身体部分的权重来确定多个hrtf当中与和用户的人体测量特征最相似的人体测量特征匹配的hrtf。

此外,个性化处理器300可以针对频带的每个特征或者时间带的每个特征来分解单独hrtf的分量,并且可以将用户的人体测量特征应用于针对频带的每个特征或者时间带的每个特征而被分解的单独hrtf的分量。详细地,用户的人体测量特征可以包括关于多个身体部分的信息,并且个性化处理器300可以将单独hrtf分解成分别与多个身体部分匹配的多个分量,并且可以分别将与多个分量对应的人体测量特征应用于多个分量。在特定实施例中,个性化处理器300可以将单独hrtf分解成与外耳的形式匹配的分量和与另一身体部分匹配的分量。此时,其它身体部分可以是头部的形式或者躯干的形式。

此外,个性化处理器300可以通过波插值(wi)将单独hrtf分解成与外耳的形式匹配的分量和与其它身体部分匹配的分量。详细地,个性化处理器300可以通过波插值将单独hrtf分解成sew和rew。此时,个性化处理器300可以通过使用与外耳的形式对应的人体测量特征来使rew个性化。此外,个性化处理器300可以通过使用与头部的形式和躯干的形式对应的人体测量特征来使sew个性化。

在另一特定实施例中,个性化处理器300可以通过使用倒频谱的同态信号处理将频率分量分离成与外耳的形式对应的部分和与另一身体部分的形式对应的部分。在另一特定实施例中,个性化处理器300可以通过低/高通滤波将频率分量分离成与外耳的形式对应的部分和与另一身体部分的形式对应的部分。此时,其它身体部分可以是头部或者躯干。

此外,个性化处理器300通过将根据单独hrtf生成的频率响应划分成包络部分和陷波部分并且将用户的人体测量特征应用于包络部分和陷波部分中的每一个来生成个性化的hrtf。详细地,个性化处理器可以根据用户的人体测量特征来改变陷波部分的陷波的频率、深度和宽度中的至少一个。个性化处理器300可以通过将不同的权重分配给相同的身体部分来生成个性化的hrtf。详细地,当将人体测量特征应用于频率响应的陷波部分时,hrtf个性化单元330可以将比在将人体测量特征应用于频率响应的包络部分时分配给外耳的形式的权重大的权重分配给外耳的形式。此外,当将人体测量特征应用于频率响应的陷波部分时,hrtf个性化单元330可以将比在将人体测量特征应用于频率响应的包络部分时分配给躯干的形式的权重小的权重分配给躯干的形式。此外,当将人体测量特征应用于频率响应的陷波部分时,hrtf个性化单元330可以将比在将人体测量特征应用于频率响应的包络部分时分配给头部的形式的权重小的权重分配给头部的形式。

双耳渲染器100基于双耳参数对源音频执行双耳渲染(s905)。详细地,双耳渲染器100可以基于个性化的hrtf对源音频执行双耳渲染。

虽然已经通过使用具体的实施例对本发明进行了描述,但是,在不脱离本发明的精神和范围的情况下,本领域的技术人员可以对其进行修改或者改变。即,虽然已经描述了对多音频信号进行双耳渲染的实施例,但是本发明可以被相同地应用并且扩展到不仅包括音频信号还包括视频信号的各种多媒体信号。因此,应该将本领域的技术人员能够容易地从本发明的详细说明和实施例推知的任何衍生物视为落入本发明的权利范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1