话音增强方法及其装置的制造方法_2

文档序号：9693331阅读：来源：国知局

相机、骨传导传感器、接近传感器、红外传感器、加速度传感器或超声波传感器中的至少一个的信号。
[0036]可以基于在话音的检测中是否检测到话音来确定是否在方向的估计中发起方向估计。
[0037]可以基于在方向的估计中是否估计出方向音来确定是否在话音的检测中发起话音检测。
[0038]根据本发明的另一方面，提供了一种计算机可读记录介质，在其上已经具体化用于运行根据实施例的话音增强方法的程序。
【具体实施方式】
[0039]将参照附图更全面地描述本发明构思的优点和特征以及实现所述优点和特征的方法，在附图中示出本发明构思的示范性实施例。然而，本发明构思可以用很多不同的形式来具体化，并且不应该被解释为限于在此阐述的实施例;而是，提供这些实施例从而此公开将是彻底和完整的，并且将向本领域一位普通技术人员全面传达本发明构思的构思。
[0040]在下文中，将简短地描述用在说明书中的术语，然后将详细描述本发明构思。
[0041]用在此说明书中的术语是目前广泛使用在考虑与本发明构思相关的功能的领域中的那些一般术语，但是根据该领域普通技术人员的意图、先例或者该领域中的新技术，术语可以变化。此外，具体术语可以由申请人选择，并且在这种情况中，将在本发明构思的详细描述中来描述其详细意思。因而，用在说明书中的术语不应该作为简单的名称来理解，而是基于术语的意思和本发明构思的全面描述来理解。
[0042]遍及说明书，还将理解，当组件“包括”元件时，除非存在与其相反的描述，否则应该理解，组件不排除另一元件，但是还可以包括另一元件。另外，诸如“……单元”的用在说明书中的术语指代软件，或诸如FPGA或ASIC的硬件组件，并且“……单元”执行某些功能。然而，“……单元”不限于软件或硬件。“……单元”可以在可寻址存储介质中配置，或被配置用于再现一个或多个处理器。因而，例如，“……单元”包括组件(诸如软件组件、面向对象的软件组件、类组件、任务组件)、进程、函数、属性、程序、子程序、程序代码段、驱动器、固件、微代码、电路、数据、数据库、数据结构、表、数组和变量。用组件和“……单元”提供的功能可以与更小数量的组件和“……单元”组合，或与另外的组件和“……单元”分开。
[0043]下文中，现在将参照附图更全面地描述本发明构思，在附图中示出本发明的示范性实施例以便一位普通技术人员可以容易地使本发明工作。为了描述的清楚，将省略与本发明构思无关的描述的细节。
[0044]用户希望使用设备而不管设备在哪儿并且处于什么姿势。需要本发明构思的实施例来将使用麦克风的话音增强技术应用到实际的设备。此外，本发明构思的实施例涉及通过搜索在用户说话时刻的用户的方向的话音的增强。
[0045]图1是根据实施例的话音增强装置10的框图。
[0046]参照图1，话音增强装置10包括传感器单元11、话音检测单元12、方向估计单元13和话音增强单元14。
[0047]传感器单元11包括至少一个麦克风。除了至少一个麦克风之外，传感器单元11可以进一步包括相机、骨传导传感器、接近传感器、红外传感器、加速度传感器或者超声波传感器。
[0048]话音检测(SD)单元12通过使用传感器单元11的信号来检测说话者的话音。例如，话音检测单元12通过使用麦克风或其它传感器来检测用户是否已经说话。
[0049]方向估计单元13(目标方向估计(TDE))通过使用传感器单元11的信号来估计说话者的方向，并且生成指示所估计的方向的方向信息。例如，方向估计单元13通过使用多个麦克风或相机的图像来检测用户的位置。
[0050]话音增强(ENH)单元14增强输入到麦克风的说话者的话音。详细地，话音增强单元14接收指示用户是否已经说话的信息以及方向信息，并且通过使用指示用户是否已经说话的信息以及方向信息来增强话音信号。
[0051]话音检测单元12基于话音检测的结果来控制方向估计单元13和话音增强单元14的操作。从话音检测单元12发送给方向估计单元13的控制信息&可以用来控制打开或关闭方向估计单元13。从话音检测单元12发送给话音增强单元14的控制信息C2可以控制话音增强单元14的滤波器更新。
[0052]方向估计单元13向话音增强单元14发送方向信息。从方向估计单元13发送给话音增强单元14的信息τ表示用户的方向信息。
[0053]作为从传感器单元11发送给话音检测单元12的输入，除了麦克风信号之外，可以使用相机或骨传导信息。作为从传感器单元11发送给方向估计单元13的输入，除了麦克风信号之外，可以使用相机传感器信息。从传感器单元11发送给话音增强单元14的输入可以是麦克风信号。
[0054]通过使用话音检测单元12来检测话音的方法的例子包括通过使用麦克风信号来检测是否存在话音成分，即，除了使用话音的话音活动检测(VAD)之外通过使用相机信号来检测说话者的嘴唇的运动，通过使用骨传导信号来检测说话者是否已经说话，并且以组合以上方法的多模方式来检测话音。
[0055]通过使用方向估计单元13来估计话音的方向的例子包括通过使用两个或更多麦克风信号之间的差(即，使用话音的到达方向(D0A)或到达的时间差(TD0A))来估计方向，对说话者的脸部的识别，检测说话者的嘴唇的运动、手势的识别，或者用组合这些方法的多模方式。
[0056]话音增强单元14可以包括至少一个滤波器。当通过话音检测单元12检测到话音时，计算滤波器因子，并且当通过话音检测单元12没有检测到话音时，可以估计用于噪声建模的噪声。此外，话音增强单元14可以使用从方向估计单元13接收的方向信息来执行对期望的信号源到达每个麦克风的时间的调整、对麦克风之间的偏差的纠正以及信号源的分离中的至少一个。
[0057]话音增强装置10也可以如下操作。当在准备话音识别模式或呼叫模式的同时用户说话时，话音检测单元12检测话音。在检测到用户的发言的部分中，话音检测单元12通过使用控制信息Ci来打开方向估计单元13，以便搜索用户说话时用户的方向，并且向话音增强单元14发送方向信息τ。这里，可以阻止话音增强单元14的滤波器更新来防止话音失真。话音增强单元14通过使用所接收的方向信息τ来纠正通道之间的延迟，并且通过使用控制信息&调整滤波器更新来执行话音增强。
[0058]根据话音增强装置10，仅当话音检测单元12检测到话音时，方向估计单元13才搜索用户的方向，从而，可以确定用户的准确方向。如果在尚未发出话音时搜索方向，则由于噪声等可能估计出不准确的方向。话音增强单元14可以通过使用准确的方向信息来执行话音增强。从而，通过使用话音增强装置10，可以改善通过使用方向估计性能和方向信息的话音增强性能。此外，如果没有检测到话音，则可以停止方向估计单元13和话音增强单元14的操作，从而，对于计算话音增强装置10的功率，也可以获得增益。
[0059]图2是根据另一实施例的话音增强装置20的示意性框图。
[0060]参照图2，话音增强装置20的传感器单元21、话音检测单元22、方向估计单元23和话音增强单元24分别类似于图1的话音增强装置10的传感器单元11、话音检测单元12、方向估计单元

完整全部详细技术资料下载

当前第2页1 2 3 4