利用话音识别器反馈来进行语音活动检测的制作方法

文档序号:2832993阅读:268来源:国知局
专利名称:利用话音识别器反馈来进行语音活动检测的制作方法
技术领域
本发明涉及利用话音识别器反馈来进行语音活动检测。
背景技术
语音活动检测(VAD)是用在话音处理中的检测人类话音存在或不存在的技术。VAD常常被用在各种不同的系统中,诸如例如包括话音编码、语音增强、话音识别以及回声抵消的系统。通过使用VAD,一旦确定特定内容块或信号的一部分是话音,话音识别技术就可被用来识别话音并将讲出的词语转换成文本。对于诸如在线话音识别之类的各种类型的话音识别,VAD常常是事后补记。因此,被设计成用于非VAD任务的组件常常被或多或少地修改,以执行各种VAD功能。然而,由于这些VAD组件并非是针对这些VAD功能而设计的,因此VAD可能是不准确和/或低效的。

发明内容
本文中描述了用于利用来自话音识别器的反馈来改进语音活动检测(VAD)的技术。在各个实施例中,VAD模块可确定媒体文件的帧包括话音还是非话音。一旦帧被分类为话音帧和/或非话音帧,话音识别器就可将话音帧和非话音帧中包括的词语和非话音分别转换成表示媒体文件的文本转录本。此外,VAD模块可利用由话音识别器提供的反馈来改进尚未被VAD模块处理的帧的VAD。在各个实施例中,VAD模块和话音识别器可异步地处理媒体文件,以使得VAD模块在话音识别器之前处理媒体文件的帧。在其他实施例中,本文中描述了用于利用超前窗以改进媒体文件的VAD的技术。更具体地,可维护第一帧是包括话音还是非话音的概率。此外,可至少部分地基于与媒体文件中在第一帧之前或之后的一个或多个附加帧相关联的概率来更新先前维护的概率。与第一帧相对应的VAD判定可被延迟,直至下游组件实际需要VAD判定。此时,当前概率可被返回,且当处理附加帧时,可更新此概率。提供本概述是为了以简化的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识出所要求保护的主题的关键特征或必要特征,也不旨在用于限定所要求保护的主题的范围。


参考附图来阐明详细描述,附图中,附图标记最左边的数字标识该附图标记首次出现的附图。在相同或不同附图中使用同一附图标记指示相似或相同的项或特征。图I图解了根据各个实施例的用于利用来自话音识别器的反馈来改进语音活动检测的系统。图2图解了根据各个实施例的使用超前窗来改进语音活动检测的系统。图3是根据各实施例的图解可以实现本文描述的语音活动检测方法的代表性计算设备的框图。
图4图解了示出用于利用来自话音识别器的反馈来指导语音活动检测的示例性过程的流程图。图5图解了示出用于提供与语音活动判定相关联的反馈来指导语音活动检测的示例性过程的流程图。图6图解了示出用于利用超前窗来更新媒体文件的帧的概率的示例性过程的流程图。详细描述本文中所描述的是用于利用来自话音识别器的反馈来改进在线话音识别的语音活动检测(VAD)的系统和/或技术。VAD指的是用于基于在段中是否检测到话音来将音频或视频文件分成一个或多个段的技术。更具体地,VAD模块可确定诸如记录等音频或视频文件的哪些部分包括话音以及文件的哪些部分包括静默和/或其他类型的非话音。一旦作出该确定,VAD模块就可将文件分成包含话音的段和不包含话音的段。包括话音的段或帧 可在随后由话音识别器来处理,该话音识别器将口述词语转换成文本。接着,可以对与话音相关联的文本进行索引或不进行索引。如果对与话音相关联的文本进行索引,则文本由此变得可搜索。给定诸如音频文件或视频文件等记录,可能期望标识该记录中人们正在说话的部分以及该记录中没有话音的那些部分。如果不对文件进行分析来检测文件的哪些部分包括话音,则将话音转换成文本的话音识别器可能创建具有高差错率的转录本。例如,由于话音识别器不知晓话音何时开始和结束,因此结果得到的转录本可能包含在开始和/或结束时切断的词语部分。此类错误可导致转录本难以阅读,且还可能无法准确地表示音频或视频文件中说了些什么,这可能使转录本的读者感到失望。典型地,对VAD使用低计算信号处理办法。通过使用此办法,使用最小计算资源量,以使得VAD的结果可被嵌入到芯片上。然而,部分地由于正被使用的计算资源的限制,可能会牺牲VAD的质量。通过利用来自话音识别器的反馈来指导VAD,无需牺牲VAD的质量且可利用最小计算资源量。例如,假定诸如移动电话等相对低功率组件被通信地耦合到高功率(例如,增加的计算资源等)话音识别器。在此实施例中,包含VAD模块的低功率组件可识别音频或视频文件中的哪些部分是话音以及哪些是非话音。接着,可将文件的分解段传送给话音识别器。话音识别器可在随后将文件的分段部分转换成文本并将结果反馈给该低功率组件。由于来自话音识别器的结果可表示VAD模块在分析音频或视频文件时的准确度,因此低功率组件的VAD模块可利用此反馈来改进VAD模块的稳健性。换言之,来自话音识别器的反馈可被VAD模块用来增强VAD模块用于检测音频或视频文件中的后继帧里的话音相对非话音的能力。因此,可替代地利用来自话音识别器的反馈。在各个实施例中,反馈可与在线大词汇量连续话音识别(LVCSR)相关联。替代地利用话音识别器反馈会导致VAD模块保持更简单和紧凑。这在VAD正于诸如移动电话等低资源设备(这些低资源设备由在远程服务器上运行的话音识别器来支持)上运行时可能是重要的。如以下将更详细描述的,可利用至少两种类型的反馈(1)用反馈指导VAD模型自适应和⑵用反馈指导超前。以下参照图1-6描述VAD技术的各个示例。指导VAD模型自适应反馈
图I图解了利用来自话音识别器的反馈来自适应VAD的系统100。具体地,系统100包括VAD模块102和话音识别器104。此外,系统100包括第一线程106和第二线程108。在各个实施例中,第一线程106与VAD模块102相关联,而第二线程108与话音识别器104相关联。此外,VAD模块102可被存储在诸如移动电话等移动设备中,而话音识别器104可在本地或远程服务器上运行。此外,VAD模块102和话音识别器104还可驻留在相同的设备上。第一线程106和第二线程108可表示音频文件或视频文件(在下文中称为“音频文件”或“视频文件”),其可包括人类话音和各种类型的非话音,诸如静默或其他噪声。在图I中,关于时间110示出第一线程106和第二线程108,其中时间110始于时间此夕卜,第一线程106和第二线程108可包括媒体文件的一个或多个帧,诸如帧112-120,如图I中所示的。然而,可设想任何数目的帧可被包括在媒体文件中。如图所示,与第一线程106相对应的VAD模块102以及与第二线程108相对应的话音识别器104可在任何给定时间110正各自处理和/或分析媒体文件的不同点。在一个实施例中,第一线程106和第二线程108可以是异步的,这意味着VAD模块102和话音识别器104可能分别在不同的时间110分析第一线程106和第二线程108的相同巾贞。例如,帧120可以是由VAD模块102在时间tp从第一线程106处理的,而相同的帧116可以是由话音识别器104在后继时间tn从第二线程108处理的。因此,第一线程106的帧120可由VAD模块102在第二线程108的分析之前的时间被分析。如图I中所示的,时间110包括Wptm、tn_2、tn_j> tn 和 tp。如先前所提及的,VAD模块102处理第一线程106。更具体地,VAD模块102可将媒体文件(例如,第一线程106)分成一个或多个巾贞(例如,巾贞112-120)并将每个巾贞分类为话音或非话音。即,VAD模块102可检测每个帧是包括人类话音还是某一形式的非话音(例如,静默、并非是话音的噪声等)。话音识别器104可请求特定帧112-120的VAD信息。假定VAD模块102已处理了帧112-120,则VAD模块102可在随后将所请求的VAD信息提供给话音识别器102。在另一实施例中,话音识别器104可获得特定帧112-120的VAD信息,而无需首先发送请求。例如,VAD模块102可能已对帧114执行了 VAD,且已检测到在此帧中包括话音。可在随后由话音识别器104接收与帧114相关联的语音活动判定122。在各个实施例中,语音活动判定112可以指对帧114是包括话音还是非话音的确定的结果。在以上实施例中,与第二线程108相关联的话音识别器104可在时间tQ请求和/或获得语音活动判定122。然而,如图I中所示的,与第一线程106相关联的VAD模块102可能已处在时间ty。因此,在此实施例中,VAD模块102可能已比话音识别器104处理了更多的媒体文件。因此,由于VAD模块102已处理了媒体文件的附加帧,因此VAD模块102能关于媒体文件作出更稳健的判定。类似于帧114,与第一线程106相关联的VAD模块102还可检测帧116是包括话音还是非话音。一旦作出此确定,可由VAD模块102将与帧116相关联的语音活动判定124传送给与第二线程108相关联的话音识别器104。如同帧114一样,VAD模块102可在比话音识别器104接收与帧116相关联的语音活动判定124(tn_i)更早的时间(tn_2)处理帧116。
一旦话音识别器104已接收到语音活动判定124,则话音识别器104可处理帧116。具体地,如果帧116被确定为包括话音,则话音识别器104可将此话音转换成文本。因此,帧116内所包括的话音可被转换成文本转录本。在示例实施例中,与第二线程108相关联的话音识别器104可将指导反馈126传送给VAD模块102。指导反馈126可包括例如以上所提及的本文转录本、对VAD模块102关于帧116的准确度的确定、和/或关于媒体文件的帧116的任何其他信息。由于第一线程106和第二线程108可以是异步的,因此在VAD模块102接收指导反馈126时,VAD模块102可能已处理了附加帧,诸如帧118和/或帧120。在各个实施例中,一旦接收到指导反馈126,VAD模块就可利用指导反馈126来改进其VAD的准确度。在各个实施例中,VAD模块102可包括用于VAD的一个或多个模型。更具体地,这些模型可用于确定媒体文件的帧是否包括话音和/或非话音。此外,VAD模块102可更新其模型,以使得其可更准确地确定媒体文件的特定帧是包含话音还是非话音。另外,VAD模块102可对媒体文件中尚未被VAD模块102处理的后继帧的VAD使用已更新的模型。更具体地,VAD模块102可使用指导反馈126来更好地确定媒体文件中包括的话音何时开始和/或结束。VAD模块102可通过关于诸如帧118和/或帧120等后继帧重复以上所描述 的过程来改进其对媒体文件中话音相对非话音的识别。例如,一旦VAD模块102处理第一线程106的帧118和/或帧120,话音识别器104就可分别访问语音活动判定128和语音活动判定130。作为响应,话音识别器104可利用语音活动判定128和语音活动判定130来分别将帧118和帧120中包括的话音转换成文本转录本。诸如指导反馈132等指导反馈可在随后被反馈给VAD模块102。在各个实施例中,VAD模块102可利用指导反馈来改进由VAD模块102执行VAD的准确度和稳健性。通过重复接收来自话音识别器104的指导反馈,VAD模块102可利用此反馈,以使得其可持续改进其VAD确定。因此,来自话音识别器104的反馈可被用来改进在线话音识别的VAD。结果,VAD模块102可开发用于标识媒体文件中的话音、静默和/或其他噪声的更可靠和/或准确的技术。更具体地,可包括由话音识别器104所生成的文本转录本的指导反馈(例如,指导反馈126和/或指导反馈132)可被用于自适应和改进VAD模块102。结果,可改进媒体文件的 VAD。如以上参照图I所述的,媒体文件内的话音可被标识并转换成文本,直至由VAD模块102确定话语结束。出于此讨论的目的起见,话语结束可以指说话者说完单词和/或句子之时。当由话音识别器104创建文本转录本时,可对本文转录本进行置信度计分(例如,通过使用来自识别网格的单词后验分数)且确信帧可作为话音帧被反馈给VAD模块102。在各个实施例中,确信帧可以指媒体文件中话音识别器104确信那些帧包括口述词语的帧。类似地,话音识别器104已确信地将其转录为静默和/或噪声的帧可作为静默和/或噪声帧被反馈。如果媒体文件内的词语和/或帧超预定可靠性阈值,则它们可被视为是确信的。可设想,以上阈值可被设为任何值,且阈值可以是用户定义或由系统100定义的。一旦接收到反馈,与VAD模块102相关联的VAD模型就可被自适应,且识别和VAD可使用新更新的VAD模型来继续进行。更具体地,与话音识别器104相关联的模型可能比由VAD模块102所利用的模型更强大。即,更强大的话音识别模型可比VAD模型包括更多参数,可能更复杂,和/或可能使用多得多的计算。结果,更强大的话音识别模型可能比用在VAD模块102中的模型更擅长对话音/噪声进行分类。因此,由话音识别器104作出的更正确的判定可被反馈给VAD模块102,以帮助确保媒体文件被正确地处理和分类。在一个实施例中,通过对媒体文件的一个或多个帧进行置信度计分,媒体文件的更可靠地转录的部分可被用于改进VAD模块102以及具体的VAD的稳健性。在各个实施例中,媒体文件的确信部分倾向于更远离话音、静默和/或噪声边界。指导超前反馈 图2图解了通过使用超前窗来改进VAD的准确度的系统200。更具体地,系统200包括包含媒体文件204的VAD模块202,该媒体文件204可包括一个或多个帧,诸如帧206-214。此外,每个帧206-214可包括相关联的分类概率216-224,以使得帧206-214分别对应于分类概率216-225。媒体文件204还可与时间相关联,以使得帧206与帧208-214之前的时间相关联。类似地,媒体文件204的帧214可于时间上在帧206-212之后被呈现或处理。出于此讨论的目的,媒体文件204可包括任何类型的媒体内容,诸如比如音频内容和/或视频内容。此外,图2中所示的帧206-214可各自被标示为t。在各个实施例中,假定VAD模块202 (诸如参照图I所描述的VAD模块102)通过确定媒体文件204的每个帧206-214是包括话音还是非话音来处理媒体文件204。如果VAD模块102知晓后继帧(例如,帧212和/或214)包括话音或非话音,则VAD模块102能够关于当前帧(例如,帧210)作出更准确的VAD判定。因此,通过向VAD模块102提供超前窗,诸如通过允许VAD模块102使用后继VAD判定和概率来对当前帧作出VAD判定,可使得VAD模块102能作出更准确的VAD判定。典型地,VAD包括诸如通过确定第一帧是包括话音还是非话音来检查和分析第一帧(例如,帧210)。接着,可在无需重新考虑与第一帧相关联的确定的正确性的情况下关于第二帧(例如,帧212和/或帧214)作出确定。因此,VAD模块102可继续评估后继帧而无需考虑先前确定是否正确。然而,本文中描述了用于在每个帧206-214处指派和维护关于对该帧的分类的概率(例如,分类概率)的技术。在各个实施例中,可指派和维护概率而无需实际上在此时作出分类(VAD)判定。例如,在VAD模块102处理媒体文件的帧时,对于每个帧,VAD模块102可更新先前帧的概率。在各个实施例中,作为Viterbi解码处理的副效应,VAD模块102可更新这些概率。因此,当话音识别器104请求对特定帧的VAD判定时,可从VAD模块102的当前状态获得对应该帧的当前概率。因此,在话音识别器104请求VAD判定时无需重新计算与每个帧相关联的概率。替代地,对每个帧的重新计算可作为由VAD模块102进行的处理的部分来发生。在各个实施例中,出于此讨论的目的起见,假定正针对VAD来分析媒体文件204的帧210。此分析可包括指派并维护帧210的概率,该概率表示该帧包括话音的可能性和该帧包括非话音的可能性。即,VAD模块可为任何一个帧(例如,帧206-214)指派和维护该帧包括话音的概率以及该帧包括非话音(例如,静默、其他类型的噪声等)的概率。替换地,VAD模型102可指派并维护帧包括话音的概率,并在随后推断帧包括非话音的概率,且反之亦然。这些概率被标示为分类概率216-224。然而,对特定帧是包括话音还是非话音的确定无需在指派分类概率216-224时作出。例如,对于帧210,VAD模块202可在处理帧210时制止作出肯定性VAD判定,而是替代地,可指派帧210包括话音的概率为0. 7,而帧210包括非话音(例如,静默)的概率为0.3。因此,以上概率表示帧210包括话音有70%的可能性相对帧210包括非话音有30%的可能性。一旦向特定帧(例如,帧210)指派了分类概率,就可为媒体文件中的后继帧(例如,帧212和/或帧214)指派并维护分类概率(例如,分类概率222和/或224)。在各个实施例中,后继帧的分类概率可用于对为先前帧维护的概率进行调节、更新、重新计分。例如,如果正为帧210维护分类概率220,则可基于为在时间上在后的帧(诸如帧212 (分类概率222)和/或帧214 (分类概率224))指派和维护的分类概率来调节此分类概率220。BP,可基于指派给后继帧(例如,帧212和/或帧214)概率来重新分配特定帧(例如,帧210)的概率。因此,特定帧的VAD或概率判定可至少部分地基于可包括在该帧之前的一个或多个帧和/或在该帧之后的一个或多个帧的帧窗ロ来作出。因此,围绕特定帧的上下文可被用于向该帧指派概率和/或关于该帧作出VAD判定。具体地,VAD模块102可利用解码搜索空间,这意味者VAD模块102可维护解码假言网络。例如,在任何给定帧,VAD模块102可为该帧的分类维护ー个或多个猜测以及相关联概率(即,网络路径)。在VAD模块102处理附加帧时,这些网络路径可被延长,且网络概 率可被更新。因此,对于特定帧t,最佳路径可以是路径A。然而,在稍后的时间,最佳路径现在可为路径B,其现在可具比路径A更好的全概率。在各个实施例中,以上所描述的窗ロ可被用于基于在时间上领先的帧的概率和/或VAD判定来改变特定帧的分类概率。例如,通过使用以上示例,假定帧210包括话音的分类概率为O. 7,而帧210包括非话音的分类概率220为O. 3。此外,进ー步假定帧208包括话音和非话音的分类概率218分别为O. 3和O. 7。因此,给定这些概率,看起来更大的可能性是帧208包括非话音而不是话音。由于在前帧(例如,帧208)可能更可能为非话音,因此帧210包括话音的分类概率210可被降级。例如,由于现在帧210为非话音的可能性可能増大,因此先前所指派的帧210为话音的分类概率220可从O. 7降级至O. 5,且帧210为非话音的分类概率220可从O. 3增至O. 5。然而,可设想,与帧210相关联的分类概率220可增大和/或减小任何量且可以任何方式来进行。在其他实施例中,分类概率增大和/或减小的量可以基于先前帧(例如,帧208)的特定分类概率。通过使用以上示例,如果帧208为话音的分类概率218替代地为O. 1,且帧208为非话音的分类概率218为O. 9,则帧208为非话音的分类概率218相对较高(例如,90% )0因此,由于在前帧208很可能包括非话音,因此更大的可能性是帧210也包括非话音。結果,帧210包括话音的分类概率220甚至可进ー步被减小(例如,从O. 7至O. 3)。类似地,如果帧208为话音的分类概率218为O. 9,且帧208为非话音的分类概率218为O. 1,则帧210为话音的分类概率220可被増大(例如,从O. 7至O. 8)。此外,还可设想,特定帧为话音/非话音的分类概率还可以基于先前帧的VAD判定。例如,如果帧208被确定为包括话音,则帧210为话音的分类概率220可被増大。反之,如果帧208被确定为非话音,则帧210为非话音的分类概率220可被増大。換言之,如果特定帧(例如,帧208)已被指示为话音或非话音,则可能有更大的可能性是后继帧(例如,帧210)相应地为话音或非话音。在各个实施例中,可基于先前帧208与当前帧210之间在时间上的接近度来调节与当前帧210相关联的分类概率220。例如,如果先前帧208被确定为在时间上邻近当前帧210,则可对此概率作出更大调节。在另ー实施例中,可基于与在时间上在后的帧相关联的VAD判定来调节与ー个帧相关联的VAD判定。例如,假定帧210先前已被确定为包括话音,但是接下来的ー个或多个帧(例如,帧212和/或帧214)被确定为非话音,则系统200可将帧210重新分类为非话音。原因在于如果接下来η秒的帧(例如,帧212和/或帧214)被分类为话音或非话音,则可能有更大的可能性是先前帧(例如,帧210)也相应地为话音或非话音。因此,如以上所示的,VAD模块202可利用一个或多个帧的VAD判定来确定与先前分类的帧相关联的VAD判定是否应当被调节或重新分类。在各个实施例中,基于后继帧的VAD判定调节特定帧的VAD判定可由可使用Viterbi算法的Viterbi解码器来执行。如先前所提及的,VAD模块202和话音识别器可异步地处理媒体文件204,这意味着VAD模块202和话音识别器可在不同时间处理媒体文件204。在一个实施例中,VAD模块202可在话音识别器之前处理媒体文件204的帧206-214。例如,VAD模块202可确定媒体文件204的每个帧206-214是话音还是非话音,并作出这样的分类。对于被确定为包括话音的帧206-214中的每ー个,话音识别器可在随后将口述词语转换成文本,这可得到媒体文件204的文本转录本。VAD模块与话音识别器之间较大的异步性可导致VAD模块具有与媒体文件204相关联的更大超前。超前可以指在被话音识别器处理之前VAD模块202已处理的那些帧 206-214的数目。替换地,超前可以指对应于VAD模块202与话音识别器处理媒体文件204的相同帧之时的时间差。因此,更大的超前可意味着VAD模块202更可能使用ー个或多个帧的概率和/或VAD判定来校正或调节先前不正确或不准确的VAD判定。在各个实施例中,由于VAD模块202可在话音识别器之前处理媒体文件204的帧206-214,因此VAD模块202可在由话音识别器处理与先前VAD判定相关联的帧206-214之前校正这些VAD判定。因此,话音识别器可等待处理媒体文件204的帧206-214的时间越长,则VAD模块202越有可能作出更稳健的VAD判定。如果VAD模块202能校正或调节先前的VAD判定,则话音识别器可处理更准确地表示媒体文件204的VAD判定。結果,由话音识别器生成的转录本可以更准确,包括更少的错误,和/或反映媒体文件204中包括的实际内容。在各个实施例中,诸如在线大词汇量连续话音识别(LVCSR)系统等系统200可与有限状态变换机(FST)驱动的VAD相组合。出于此讨论的目的起见,FST可以指具有两个存储媒体(例如,磁带)——ー个输入存储媒体(例如,输入磁帯)和ー个输出存储媒体(例如,输出磁带)——的有限状态机。在以上实施例中,对于每个帧206-214,FST的状态可被更新,而无需指派VAD标签或分类。此外,假定系统200包括用于Λ特征计算和短期特征归ー化的Λ帧超前,为了解码帧t (其是媒体文件204的前端),VAD FST可前进至帧t+ Δ。当VAD模块202和/或话音识别器请求帧t的特征向量时,还可请求帧t的VAD判定。在此时,可检查VAD FST追溯,且可返回帧t的最佳VAD判定。这可将超前平滑隐式地引入到VAD判定中,因为迟于t的帧会改变最佳追溯路径。在各个实施例中,超前平滑可以指至少部分地基于媒体文件204的后继帧来调节与帧相关联的概率或VAD确定。此外,如果超前窗以某种方式减小,则来自超前平滑的获益可能较少且可不对模型或判定规则作出改变。在各个实施例中,关于非话音,可包括至少两种类型的静默。话语结束可以指个人已说完单词和/或句子之时,而对话结束可以指个人已完成说话之吋。在各个实施例中,VAD模块仅在几个静默帧之后就可断言话语结束,但是在断言对话结束之前可能等待更多帧。不同的原因在于,对话常常包括各种长度的暂停。此外,在断言对话结束之前等待更长的静默时段可改进此类断言的准确度。此外,VAD模块202可能不招致附加滞后就能确认说话者完成说话。另ー方面,VAD模块202能够牺牲附加的错误可能性并断言话语结束,以使得可在结果所得的转录本中准确地反映两个人或多个人之间的对话。如果VAD模块202和话音识别器正异步地处理媒体文件204的帧206-214,则可在话音识别器处理帧206-214之前校正最初不正确的话语结束和对话结束。因此,VAD模块202与话音识别器之间在时间上较大的脱节226可允许更稳健的VAD判定,且由此与媒体文件204相关联的更准确的转录本。实现直接模型自适应和超前反馈在各个实施例中,本领域中已知的任何VAD算法可用于实现以上所描述的技术。例如,带有话音识别器反馈的基于隐马尔可夫模型(HMM)的VAD可被用于演绎利用来自话音识别器的反馈。在基于HMM的VAD中,最大似然准则可被用于对照输入话语来对齐多状态全连接HMM。结果所得的状态对齐可给出每个帧的VAD类。VAD类可与对帧是否包括话音和/或非 话音的确定有夫。在一个实施例中,可使用双状态HMM,对话音和非话音各使用ー个状态。在此实施例中,对于It——其可对应于所观测的有噪声信号的第t帧(例如,媒体文件204或其一部分)——的VAD判定可由在该时间所占据的状态的标签来给出,且可通过以下假言来管理,如式I和2中所示的H。(不存在话音):yt = nt(I)H1 (存在话音)yt = xt+nt, (2)其中nt和xt可以分别指噪声和活跃话音。在各个实施例中,HMM状态可通过统计分布分来建模。在一个实施例中,可使用多变量高斯函数,且在独立高斯随机变量的弱假定下有对角协方差矩阵,如式3所示的
PCFit 11 HlUy= 1/ι(ι(2π)ιττι IX1* | ) exp τ(ι 11/20^ I /Ii*) ιτΓ ElMi(H) (y4t ■ μ^)),
(3)其中μι^ΡΣ k可表示话音/非话音状态的參数。此外,可在參考经分段的有噪声数据上训练以上參数的初始值。在其他实施例中,可使用Viterbi算法来执行在线VAD,以将HMM状态与输入信号对齐。对于话音识别器(例如,LVCSR),话音识别器的前端特征提取器和后端解码器可并发地操作。对于每个帧t,话音识别器可请求帧t的话音特征向量ot。为了计算ot,前端特征提取器可提取ot+△,其中△可受例如△/加速度计算、短期特征归一化、或应用等待时间的要求的控制。此外,可对帧t+Λ解码VAD,且后端解码器可请求帧t的VAD判定。接着,可提取Viterbi网络中在时间t+Λ的最佳路径,且可追溯该路径以寻找在此时哪个状态是活跃的。此外,可对Viterbi最佳路径判定应用平滑,以移除短的话音/非话音段。该状态的标签还可作为该时间的VAD判定(例如,话音或非话音)被发出。在各个实施例中,当标识N个连续非话音帧时,可断言话语结束。此外,如果Viterbi最佳路径已改变,则在稍后的时间请求帧t的VAD标签可导致不同的标签。例如,与特定帧相关联的标签可基干与先前帧和/或后继帧相关联的VAD判定和/或概率来改变。在其他实施例中,在话语结束处,话音识别器可发出话音识别网格。通过使用话音识别网格,话音识别器可使用以下单词后验来计算网格最佳路径上的每个单词的置信度分数,如在式4中所示的
权利要求
1.一种方法,包括 将媒体文件的多个帧分类为一个或多个话音帧和一个或多个非话音帧(402); 接收与所述一个或多个话音帧和所述一个或多个非话音帧相关联的反馈(406);以及将所述反馈用于更新将被用于所述媒体文件中尚待处理的多个帧的语音活动检测的模型(408)。
2.如权利要求I所述的方法,其特征在于,还包括在接收到所述反馈之前分类所述多个帧的附加帧。
3.如权利要求I所述的方法,其特征在于,所述反馈包括文本转录本,所述文本转录本表示所述一个或多个话音帧的内容,并且所述文本转录本是至少部分地基于所述分类的准确度来进行置信度计分的,所述经置信度计分的文本转录本包括媒体文件中超过预定可靠性阈值的词语或短语。
4.一种方法,包括 访问与媒体文件的一个或多个帧相对应的语音活动判定(502); 生成与语音活动判定相关联的反馈(504),所述与语音活动判定相关联的反馈表示所述语音活动判定的相对准确度;以及 使得能使用所述反馈来指导对所述媒体文件的一个或多个后继帧的语音活动检测(VAD)o
5.如权利要求4所述的方法,其特征在于 所述语音活动检测是由VAD模块生成的; 所述反馈是由话音识别器生成的;以及 所述VAD模块和所述话音识别器异步地处理所述媒体文件,以使得所述VAD模块在所述话音识别器之前处理所述一个或多个帧的每一个。
6.如权利要求4所述的方法,其特征在于,还包括对与所述媒体文件相对应的转录本进行置信度计分,以使得所述转录本中超过预定阈值的词语或短语被视为是确信的。
7.如权利要求4所述的方法,其特征在于,所述反馈被利用来更新与所述VAD模块相关联的、用于VAD的模型。
8.一种系统,包括 一个或多个处理器(302); 通信地耦合至所述一个或多个处理器(302)的存储器(308),其用于存储 语音活动检测(VAD)模块(102),其被配置成 向媒体文件的第一帧指派表示所述第一帧包括话音的可能性的概率;以及至少部分地基于帧窗口内的一个或多个帧来更新所述第一帧的所述概率。
9.如权利要求8所述的系统,其特征在于,所述VAD模块还被配置成 向所述帧窗口内的第二帧指派一概率,所述指派给第二帧的概率表示所述第二帧包括话音的可能性;以及 至少部分地基于所述第二帧的概率来更新所述第一帧的概率。
10.如权利要求8所述的系统,其特征在于,所述VAD模块还被配置成延迟与所述第一帧相关联的语音活动检测判定,直至所述第一帧的概率被更新。
全文摘要
本文描述了利用话音识别器反馈来进行语音活动检测。语音活动检测(VAD)模块分析诸如音频文件或视频文件之类的媒体文件,以确定该媒体文件的一个或多个帧是否包括话音。话音识别器生成与VAD确定的准确度有关的反馈。VAD模块利用该反馈来改进后继VAD确定。VAD模块还利用与媒体文件相关联的超前窗口来调节先前处理的帧的估计概率或VAD判定。
文档编号G10L15/00GK102708855SQ201210044558
公开日2012年10月3日 申请日期2012年2月24日 优先权日2011年2月25日
发明者A·J·K·泰姆白瑞德南, F·T·B·西德, 朱卫武 申请人:微软公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1