语音捕获方法以及语音捕获系统与流程

文档序号：30761833发布日期：2022-07-15 21:21阅读：161来源：国知局

1.本发明申请是关于一种语音捕获技术。特别关于一种语音捕获方法以及语音捕获系统。

背景技术：

2.随着科技的发展，越来越多的电子装置具有语音通话的功能。一般而言，电子装置中的语音捕获系统需搜集n秒以上的语音数据才能获得足够的目标讲话者信息(例如：目标讲话者的语音特征)以进行后续处理。据此，利用目标讲话者信息应用于多麦克风信号的空间强化时，电子装置中的语音捕获系统需在n秒后才能得知目标讲话者的方向改变。这些都会使得语音捕获系统延迟而造成失真。

技术实现要素：

3.本发明申请的一些实施方式是关于一种语音捕获方法。语音捕获方法包含：通过缓冲器储存来自多个麦克风的多个语音数据；通过处理器依据该多个语音数据与目标讲话者信息判断目标讲话者是否存在且判断目标讲话者的方向是否改变；若目标讲话者存在且目标讲话者的方向自先前追踪方向改变为当前追踪方向，将该多个语音数据中对应于先前追踪方向的语音片段插入该多个语音数据中当前位置以产生混合语音数据；通过处理器依据当前追踪方向对混合语音数据执行语音强化程序以产生强化后语音数据；通过处理器对强化后语音数据执行语音缩减程序以产生语音输出数据；以及通过播放电路播放语音输出数据。
4.本发明申请的一些实施方式是关于一种语音捕获系统。语音捕获系统包含缓冲器、处理器以及内存。缓冲器用以储存来自多个麦克风的多个语音数据。处理器用以依据该多个语音数据与目标讲话者信息判断目标讲话者是否存在且判断目标讲话者的方向是否改变。若目标讲话者存在且目标讲话者的方向自先前追踪方向改变为当前追踪方向，内存用以将该多个语音数据中对应于先前追踪方向的语音片段插入该多个语音数据中当前位置以产生混合语音数据。处理器更用以依据当前追踪方向对混合语音数据执行语音强化程序以产生强化后语音数据，且对强化后语音数据执行语音缩减程序以产生语音输出数据。语音输出数据用以供播放电路播放。
5.综上所述，本发明申请的语音捕获方法以及语音捕获系统，可在目标讲话者的方向改变时避免语音数据延迟且可避免语音数据失真。
6.有关本发明申请的特征、操作与技术效果，将结合附图及较佳实施例详细说明如下。
附图说明
7.为让本发明申请的上述和其他目的、特征、优点与实施例能够更明显易懂，所附图式的说明如下：
8.图1是依照本发明申请一些实施例所绘示的一种电子装置的示意图；
9.图2是依照本发明申请一些实施例所绘示的目标讲话者追踪单元的示意图；
10.图3是依照本发明申请一些实施例所绘示的语音混合程序与语音缩减程序的示意图；
11.图4是依照本发明申请一些实施例所绘示的语音强化单元的示意图；
12.图5是依照本发明申请一些实施例所绘示的目标讲话者信息产生单元的示意图；以及
13.图6是依照本发明申请一些实施例所绘示的语音捕获方法的流程图。
14.符号说明100：语音捕获系统102：缓冲器104：处理器1041：目标讲话者追踪单元10411：检测单元10412：定位单元10413：追踪单元1043：语音强化单元10431：空间滤波单元10432：噪声消除单元1044：语音缩减单元105：语音混合器106：播放电路300：语音片段500：目标讲话者信息产生单元600：语音捕获方法md：语音数据se：目标讲话者信息fl：旗标信息di：追踪方向fd：混合语音数据ed：强化后语音数据od：语音输出数据r1：检测结果r2：估测方向sd：空间滤波后语音数据ud：目标讲话者语音s602、s604、s606、s608、s610、s612：操作
具体实施方式
15.在本文中所使用的用词“耦接”也可指“电性耦接”，且用词“连接”也可指“电性连接”。“耦接”及『“连接”也可指二个或多个组件相互配合或相互互动。
16.参考图1。图1是依照本发明申请一些实施例所绘示的语音捕获系统100的示意图。在一些实施例中，语音捕获系统100设置于手机、笔记本电脑或其他各式电子装置中。
17.以图1举例而言，语音捕获系统100包含缓冲器102、处理器104、语音混合器105以及播放电路106。处理器104耦接缓冲器102。播放电路106耦接处理器104。在一些实施例中，语音混合器105可利用内存实现。
18.缓冲器102用以接收来自多个麦克风的多个语音数据md，且可储存该多个语音数据md。在一些实施例中，缓冲器102的暂存容量至少为n秒。
19.处理器104包含目标讲话者追踪单元1041、语音强化单元1043以及语音缩减单元1044。在一些实施例中，目标讲话者追踪单元1041、语音强化单元1043以及语音缩减单元1044可利用软件方式实现。举例而言，处理器104可读取非瞬时计算机可读取纪录媒体中所储存的对应程序代码以执行目标讲话者追踪单元1041、语音强化单元1043或语音缩减单元1044的功能。
20.在功能上，目标讲话者追踪单元1041用以接收目标讲话者信息se以及缓冲器102中所储存的该多个语音数据md。目标讲话者信息se包含目标讲话者的语音特征。在一些实施例中，此目标讲话者可在无噪声或低噪声的环境中预录一段语音。接着，对此段预录的语音执行因素分析(factor analysis)所得到的i向量(i-vector)或通过深度学习所得到的x向量(x-vector)即为目标讲话者信息se。目标讲话者追踪单元1041可依据目标讲话者信息se以及该多个语音数据md产生旗标信息fl以及追踪方向di。旗标信息fl可指示目标讲话者是否存在且目标讲话者的方向是否改变。追踪方向di可指示目标讲话者的方向。
21.当目标讲话者存在且目标讲话者的方向改变(旗标信息fl)时，语音混合器105用以将该多个语音数据md中对应于先前追踪方向的n秒语音片段插入该多个语音数据md中当前位置以产生混合语音数据fd。
22.接着，语音强化单元1043用以依据目标讲话者的当前方向(当前的追踪方向di)对混合语音数据fd执行语音强化程序以产生强化后语音数据ed。在一些实施例中，语音强化程序包含空间滤波程序以及噪声消除程序。经空间滤波程序以及噪声消除程序处理后的强化后语音数据ed可具有较高的信号噪声比(signal-to-noise ratio，snr)。
23.接着，语音缩减单元1044用以对强化后语音数据ed执行语音缩减程序以产生语音输出数据od。在一些实施例中，由于语音混合器105将n秒的语音片段插入该多个语音数据md中，因此语音缩减单元1044对应将强化后语音数据ed中的语音缩减掉n秒，以消除因插入语音片段所造成的n秒延迟。
24.播放电路106则用以将语音输出数据od播放出来。播放电路106可以是例如喇叭、耳机或其他各式可播放语音的组件。
25.在一些相关技术中，电子装置需搜集n秒以上的语音数据才能获得足够的目标讲话者信息(例如：目标讲话者的语音特征)以进行后续处理。另外，在一些其他的相关技术中，当目标讲话者的方向改变时，电子装置需在n秒后才能得知目标讲话者的方向改变。这些都会使得语音捕获系统延迟而造成失真。
26.相较于上述这些相关技术，本发明申请将对应先前追踪方向的语音片段插入当前位置的语音数据中，依据当前追踪方向对混合语音数据fd进行强化处理，再对应地对强化后语音数据ed进行缩减。据此，本发明申请的语音捕获系统100毋需等待上述的n秒，进而可避免语音延迟且可避免语音数据失真。
27.另外，当目标讲话者的方向未改变时，语音捕获系统100更毋需等待获得目标讲话者信息的时间。
28.参考图2。图2是依照本发明申请一些实施例所绘示的目标讲话者追踪单元1041的示意图。
29.以图2举例而言，目标讲话者追踪单元1041包含检测单元10411、定位单元10412以及追踪单元10413。
30.检测单元10411用以依据来自缓冲器102的该多个语音数据md中的一者以及目标讲话者信息se产生检测结果r1。检测结果r1可指示目标讲话者是否存在。在一些实施例中，检测单元10411依据该多个语音数据md中的一者以及目标讲话者信息se且通过深度学习程序判断目标讲话者是否存在，以产生检测结果r1。
31.定位单元10412用以依据来自缓冲器102的该多个语音数据md以及目标讲话者信息se产生估测方向r2。如前所述，语音数据md是来自多个麦克风，而该多个麦克风中两麦克风所接收到的数据时间差为与语音入射角度的关系如下列公式(1)：
32.其中τ为两麦克风的数据时间差，d为两麦克风的间距，θ为语音方向与两麦克风联机方向之间的夹角，c为声音速度。
33.在一些实施例中，定位单元10412是利用深度学习程序强化该多个语音数据md中对应该目标讲话者的目标讲话者语音数据，并利用公式(1)的空间关系将强化后的信号映像至空间分布，以求得估测方向r2。在一些其他的实施例中，定位单元10412可直接利用深度学习程序产生估测方向r2。
34.追踪单元10413用以依据检测结果r1、估测方向r2以及先前追踪方向产生旗标信息fl以及追踪方向di。举例而言，追踪单元10413可依据检测结果r1判断目标讲话者是否存在，依据估测方向r2产生当前的追踪方向di以指示目标讲话者的当前方向，且依据检测结果r1以及估测方向r2决定追踪方向。接着，追踪单元10413可更依据先前追踪方向以及估测方向r2判断目标讲话者的方向是否改变以产生旗标信息fl。详细而言，若估测方向r2与追踪单元10413的先前追踪方向不同，追踪单元10413可判断目标讲话者的方向改变。
35.在一些实施例中，上述提及的这些深度学习程序的人工神经网络可事前先学习且训练好。
36.参考图1以及图3。图3是依照本发明申请一些实施例所绘示的语音混合程序与语音缩减程序的示意图。
37.如前所述，语音混合器105用以在当目标讲话者存在且其方向改变时，将缓冲器102中的语音数据md中对应于先前追踪方向的n秒语音片段300插入当前位置的语音数据md中，以产生混合语音数据fd。
38.参考图4。图4是依照本发明申请一些实施例所绘示的语音强化单元1043的示意
图。以图4举例而言，语音强化单元1043包含空间滤波单元10431以及噪声消除单元10432。
39.空间滤波单元10431用以依据目标讲话者的当前方向(当前的追踪方向di)对混合语音数据fd执行空间滤波程序，以产生空间滤波后语音数据sd。空间滤波程序可以是例如波束成型(beamforming)程序、信号分离(blind source separation)程序或深度学习程序。通过空间滤波程序，可强化当前追踪方向的语音。
40.噪声消除单元10432用以对空间滤波后语音数据sd执行噪声消除程序以产生强化后语音数据ed。在一些实施例中，噪声消除单元10432的信号噪声比转换函数可依据语音数据md与各类噪声的差异进行设计，以压抑背景噪声进而提升语音质量。在一些其他的实施例中，噪声消除单元10432也可通过深度学习的方式直接估测语音信号或语音屏蔽(mask)。
41.另外，虽然在图4中，噪声消除单元10432是位于空间滤波单元10431的输出端，但本发明申请不限于此。在一些其他的实施例中，噪声消除单元10432可设计于空间滤波单元10431的输入端。
42.参考图1以及图5。图5是依照本发明申请一些实施例所绘示的目标讲话者信息产生单元500的示意图。在一些实施例中，图1的语音捕获系统100中更包含目标讲话者信息产生单元500。
43.如前所述，在一些实施例中，目标讲话者可在无噪声或低噪声的环境中预录一段语音(目标讲话者语音ud)。接着，目标讲话者信息产生单元500可对目标讲话者语音ud执行因素分析得到i向量(i-vector)或对目标讲话者语音ud执行深度学习得到x向量(x-vector)。i向量(i-vector)或x向量(x-vector)即为目标讲话者信息se(目标讲话者的语音特征)。在一些实施例中，目标讲话者信息se可暂存在缓存器或内存中。
44.再次参考图1以及图3。语音缩减单元1044用以对强化后语音数据ed执行语音缩减程序以产生语音输出数据od。以图3举例而言，语音缩减单元1044用以自强化后语音数据ed对应地缩减语音片段(例如：n秒)以产生语音输出数据od，进而避免后续语音发生延迟。
45.在一些实施例中，语音缩减单元1044是依据权重分配窗口(weighting window)对两段强化后语音数据ed进行迭加以产生语音输出数据od。在一些其他的实施例中，语音缩减单元1044先判断强化后语音数据ed中是否存在一个或多个噪声片段(例如：总共为n秒)。若是，语音缩减单元1044会将该一个或多个噪声片段删除以产生语音输出数据od。在一些其他的实施例中，语音缩减单元1044可调整强化后语音数据ed的传输速率以产生语音输出数据od。举例而言，语音缩减单元1044可加快强化后语音数据ed的传输速率(例如：让听者听到较快的语音)，以避免听者感受到延迟。
46.参考图6。图6是依照本发明申请一些实施例所绘示的语音捕获方法600的流程图。语音捕获方法600包含操作s602、s604、s606、s608、s610以及s612。在一些实施例中，语音捕获方法600应用于图1的语音捕获系统100中，但本发明申请不限于此。然而，为易于了解，图6的语音捕获方法600将搭配图1的语音捕获系统100进行说明。
47.在操作s602中，通过缓冲器102储存来自多个麦克风的该多个语音数据md。在一些实施例中，该多个麦克风包含于麦克风数组中。
48.在操作s604中，通过处理器104依据该多个语音数据md与目标讲话者信息se判断目标讲话者是否存在且判断目标讲话者的方向是否改变。在一些实施例中，目标讲话者追踪单元1041依据该多个语音数据md与目标讲话者信息se产生旗标信息fl以及追踪方向di。
旗标信息fl可指示目标讲话者是否存在以及目标讲话者的方向是否改变。追踪方向di可指示目标讲话者的方向。
49.在操作s606中，将该多个语音数据md中对应于先前追踪方向的n秒语音片段300插入该多个语音数据md中当前位置以产生混合语音数据fd。在一些实施例中，若旗标信息fl指示目标讲话者存在且目标讲话者的方向改变，语音混合器105将该多个语音数据md中对应于先前追踪方向的n秒语音片段300插入该多个语音数据md中当前位置以产生混合语音数据fd。
50.在操作s608中，通过处理器104依据目标讲话者的当前方向(当前的追踪方向di)对混合语音数据fd执行语音强化程序以产生强化后语音数据ed。在一些实施例中，语音强化单元1043依据追踪方向di所指示的当前追踪方向对混合语音数据fd执行空间滤波程序以及噪声消除程序以产生强化后语音数据ed。
51.在操作s610中，通过处理器104对强化后语音数据ed执行语音缩减程序以产生语音输出数据od。在一些实施例中，语音缩减单元1044可将强化后语音数据ed缩减掉n秒，以消除因插入语音片段300所造成的n秒延迟。
52.在操作s612中，通过播放电路106播放语音输出数据od。在一些实施例中，播放电路106可以是例如喇叭、耳机或其他各式可播放语音的组件。
53.综上所述，本发明申请的语音捕获方法以及语音捕获系统，可在目标讲话者的方向改变时避免语音数据延迟且可避免语音数据失真。
54.各种功能性组件和方块已于此公开。对于本技术领域具通常知识者而言，功能方块可由电路(不论是专用电路，或是于一个或多个处理器及编码指令控制下操作的通用电路)实现，其一般而言包含用以相应于此处描述的功能及操作对电气回路的操作进行控制的晶体管或其他电路组件。进一步地理解，一般而言电路组件的具体结构与互连，可由编译程序(compiler)，例如缓存器传递语言(register transfer language,rtl)编译程序决定。缓存器传递语言编译程序对与汇编语言代码(assembly language code)相当相似的脚本(script)进行操作，将脚本编译为用于布局或制作最终电路的形式。确实地，缓存器传递语言以其促进电子和数字系统设计过程中的所扮演的角色和用途而闻名。
55.虽然本发明申请内容已通过具体实施方式公开如上，但是这些实施例并非用于限定本发明申请内容，本领域普通技术人员在不脱离本发明申请内容的构思和范围，可依据本发明申请的明示或隐含的内容对本发明申请的技术方案作修改或调整，凡此种种变化均可能属于本发明申请所寻求的专利保护范畴，换言之，因此本发明申请的保护范围当视权利要求书所界定的范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱仲石李明唐蔡杰名
技术所有人：瑞昱半导体股份有限公司
我是此专利的发明人

上一篇：探测设备的制作方法
上一篇：一种可持续接料的藜麦筛选用比重机的制作方法