话音增强方法及其装置的制造方法_3

文档序号：9693331阅读：来源：国知局

13和话音增强单元14。下文中，描述将集中在话音增强装置20与话音增强装置10的差别上。
[0061]话音增强装置20的话音检测单元22和方向估计单元23的结构不同于话音增强装置10的话音检测单元12和方向估计单元13的结构。详细地，控制信息Ci的方向在话音增强装置10和话音增强装置20中相反。
[0062]方向估计单元23基于方向估计的结果来控制话音检测单元22的操作。从方向估计单元23发送给话音检测单元22的控制信息&可以用来控制打开或关闭话音检测单元22。
[0063]根据话音增强装置20，可以首先估计方向以在检测到的话音当中选择性地处理与话音增强装置20的操作相关的话音。例如，不但要被输入到可穿戴设备的说话者的话音，而且说话者的日常对话也可以被连续地输入到手表形式的可穿戴设备中。这里，说话者的日常对话很有可能与可穿戴设备的操作无关。与可穿戴设备的操作有关的说话者的话音很可能是说话者在观看可穿戴设备的屏幕时的话音。因而，根据话音增强装置20，如果方向估计单元23基于相机传感器信息等估计出说话者的方向，S卩，如果说话者正在观看可穿戴设备的屏幕，则话音检测单元22检测话音以便选择与话音增强装置20的使用高度相关的话音。此外，如果没有估计出方向，则可以停止话音检测单元22和话音增强单元24的操作，从而，对于计算话音增强装置20的功率，也可以获得增益。
[0064]下文中，将参照图3和4来描述根据本发明构思的实施例的话音增强方法的实施例。
[0065]图3是根据实施例的话音增强方法的流程图。
[0066]在操作31中，检测到说话者的话音。
[0067]在操作32中，确定是否检测到话音。如果确定没有检测到话音(否)，则该方法返回到操作31。
[0068]在操作32中，如果确定检测到话音(是)，则在操作33中通过使用输入信号来估计说话者的方向，并且生成指示所估计的方向的方向信息τ。
[0069]在操作32中，如果确定检测到话音(是)，则在操作34中，通过使用操作33的方向信息τ来增强说话者的话音。
[0070]因而，根据图3的话音增强方法，仅当检测到话音时才搜索方向，从而可以确定说话者的方向。此外，如果确定没有检测到话音，则可以省略方向估计和话音增强，从而对于计算功率，也可以获得增益。
[0071 ]图4是根据另一实施例的话音增强方法的流程图。
[0072]在操作41中，通过使用输入信号来估计说话者的方向，并且生成指示所估计的方向的方向信息。
[0073]在操作42中，确定是否已经估计出方向。如果确定没有估计出方向(当操作42对应于否时)，则该方法返回操作41。
[0074]在操作42中，如果确定估计出方向(当操作42对应于是时)，则在操作43中检测说话者的话音。
[0075]在操作44中，确定是否检测到话音。如果确定没有检测到话音(当操作44对应于否时)，则该方法返回到操作41。
[0076]如果确定检测到话音(当操作44对应于是时)，则在操作45中，通过使用操作41的方向信息τ来增强说话者的话音。
[0077]因而，根据图4的话音增强方法，如果能够估计出说话者的方向，则检测话音，从而可以选择很可能用在话音增强中的话音。此外，如果没有估计出方向，则可以省略话音检测和话音增强，从而对于计算功率，也可以获得增益。
[0078]下文中，将描述根据本发明构思的实施例的话音增强装置中的降噪。
[0079]在说话者的方向和噪声方向不同的情形下，再现预定电平的稳定噪声(stat1nary noise)(例如，正弦波和白噪声)。例如，假设噪声的电平是10。
[0080]首先，当没有说话者的话音时，检查输入和输出方案。在这种情况中，例如，输入信号噪声电平可以是10，而输出信号噪声电平可以大约是8。这里，因为没有检测到说话者的话音，所以不执行方向估计和话音增强;代替地，可以通过使用话音增强单元来执行噪声建模。
[0081]接下来，检查说话者说话之后的输入和输出方案。在这种情况中，例如，输入信号噪声电平可以是10，而输出信号噪声电平可以大约是3。这里，因为检测到说话者的话音，所以执行方向估计和话音增强。因为通过使用基于方向估计而生成的方向信息来执行话音增强，所以可以将话音增强集中在话音方向以更多地集中在说话者的话音上，并且可以减小噪声方向上的信号的影响，因此，降低了输出信号中的噪声电平。
[0082]因而，根据本发明构思的实施例的话音增强装置，即使当在说话者说话之前和之后呈现和输入相同电平的噪声，在输出信号噪声电平也存在差异。当没有说话者的话音时，输出预定电平的噪声，从而可以执行噪声建模，并且当存在说话者的话音时，降低噪声电平，从而可以增强说话者的话音。
[0083]下文中，将参照图5至9来描述在设备中实施本发明构思的话音增强装置的各种实施例。
[0084]图5示出根据实施例的用于移动电话的话音增强装置10。
[0085]图5的话音增强装置10与具有基本框结构的图1的话音增强装置10基本上相同。在图5的移动电话中，麦克风可以位于标记为?的位置处。例如，麦克风可以被放置在移动电话的上部和下部处。然而，麦克风的位置和数量不限于此，并且麦克风可以被放置在其它各种位置处。用于移动电话的话音增强装置10的话音检测单元12和方向估计单元13可以使用麦克风的话音信息。
[0086]图6示出根据实施例的用于TV的话音增强装置10。
[0087]在图6的TV的例子中，麦克风可以位于标记为?的位置处。例如，麦克风可以被放置在TV的上边缘处。然而，麦克风的位置和数量不限于此，并且麦克风可以被放置在其它各种位置处。此外，TV可以包括没有示出的相机。TV可以通过使用麦克风和相机来执行诸如视频呼叫功能的多媒体功能。用户可以在TV前识别话音或者进行视频呼叫。这里，用于TV的话音增强装置10的话音检测单元12和方向估计单元13可以使用话音信息和相机的图像信息两者。
[0088]图7示出根据实施例的用于平板的话音增强装置10。
[0089]在图7的平板的例子中，麦克风可以位于标记为?的位置处。例如，麦克风可以被放置在平板的下边缘处。然而，麦克风的位置和数量不限于此，并且麦克风可以被放置在其它各种位置处。用户的平板的使用行为变化，从而可以选择根据使用行为的混合方法。首先，用于平板的话音增强装置10的话音检测单元12基于话音信息来检测话音。接下来，如果可以基于相机信息来执行脸部识别，如同用于TV的话音增强装置的场景，则用于平板的话音增强装置10的话音检测单元12和方向估计单元13可以使用话音信息和相机的图像信息两者。如果脸部识别不可能，如同用于移动电话的话音增强装置的场景，则用于平板的话音增强装置10的话音检测单元12和方向估计单元13可以使用麦克风的话音信息。
[0090]图8示出根据另一实施例的用于可穿戴设备的话音增强装置20。
[0091]在可穿戴设备的情况中，当用户正在使用可穿戴设备时，用户的脸部常常面对可穿戴设备。当用户的脸部正面对可穿戴设备时，可以增加用户的话音的识别率。即，在可穿戴设备的情况中，

完整全部详细技术资料下载

当前第3页1 2 3 4