音频数据的处理的制作方法_4

文档序号：9621050阅读：来源：国知局

频和音频内容的多媒体文件提取音频文件。在框825处，选择由第一循环生成的语言模型的集合中的第一语言模型。在框820处，处理音轨以至少确定置信度值的集合。该处理包括向音轨应用抄本或语音到文本操作，该操作利用当前选择的语言模型。该操作可以包括应用抄本或语音到文本引擎。例如，置信度值的集合可以与在音轨中检测到的词的集合相关联。之后可以连同定时信息一起使用词的集合来执行图5的框530。如由框825示出的那样，针对由第一循环生成的语言模型的集合中的每个语言模型重复框820。因此，将多次处理第一选择的音轨；每次将在抄本或语音到文本操作中使用不同的语言模型。如由框815示出的那样，还针对当前示例中的每个音轨重复框820和825的第二循环。因此，如果存在η个音轨和m个抄本(其中通常η等于m)，则框815、820和825的第三循环的输出是置信度值的(n*m)个集合。
[0034]在框830处，针对置信度值的每个集合计算至少一个统计度量。至少一个统计度量可以包括每个集合中的所有置信度值的平均。在某些情况下，可以在计算统计度量之前预处理置信度值的集合，例如以移除显然错误的分类。框830的输出因此是(n*m)个度量的集合。该输出可以被表示为η乘m矩阵的值。在当前的示例中，平均值通过将值除以针对所有生成的置信度值(例如(n*m)个集合中的所有置信度值)的平均值来规范化。框830的输出因此可以包括η乘m矩阵的置信度值比。
[0035]在框840处，基于m个置信度值比的集合来确定针对每个音轨的语言。例如，可以确定m个置信度值比的集合中的最大值并且该值的该索引可以指示与音轨相关联的抄本。如果提供了语言的列表并且抄本根据该列表而被排序，则最大值的索引可以被用于提取语言标记。框840迭代通过η个音轨中的每个以确定针对每个音轨的语言。在某些情况下，可以应用矩阵运算来确定针对每个音轨的语言。如果多个音轨被分配共同的语言，则可以启动冲突解决过程。可以针对置信度值的冲突的集合计算进一步的统计度量来解决冲突。例如，可以确定m个置信度值比的每行内的最大和第二大的值之比；具有最低比的音轨可以使得其语言确定被重新分配到第二大的置信度值比。
[0036]将理解，可以以数种不同的方式循环框810、820、830和840而具有相同的结果。例如，代替单独地循环框810和820，可以一起循环这些框。如上文描述的那样，可以组合图8的方法800和图5的方法。同样地，也可以组合图7的系统700以及图4A和4C的系统400和405。例如，在这些情况下，一旦每个音轨被分配到特定的抄本，就可以在由第三组件470和/或框530执行的对准中使用由第二组件750和/或框820输出的对应的文本等同物和定时信息(即，在图8的方法800和/或图7的系统700中讨论的置信度值可以包括置信度值466作为形成系统400或系统405中的输出460的分量中的一个)。因此，图8的方法800和/或图7的系统700在多个语言轨的情况下可以包括用于对准过程的初始验证操作。
[0037]图9示出了可以被用于实现上文描述的某些方法和系统的计算设备900。应注意，也可以使用其他计算配置和/或设备。计算设备900包括至少一个或多个处理器910 (诸如一个或多个中央处理单元)、工作存储器920 (诸如随机存取存储器的至少部分)、系统总线930 (诸如输入/输出接口)以及网络接口 940。工作存储器920可以是易失性存储器，例如工作存储器的内容可能在移除电源时丢失。一个或多个处理器910通信地耦合到工作存储器920。在使用中，一个或多个处理器910被布置成处理存储在工作存储器920中的计算机程序代码922-926。计算机程序代码922-926可以实现本文描述的系统组件和/或方法步骤中的一个或多个。系统总线930通信地耦合到一个或多个处理器910。直接存储器访问(DMA)也可以被用于将系统总线930通信地耦合到工作存储器920。系统总线930可以将一个或多个处理器910 (和/或工作存储器920)通信地耦合到一个或多个外围设备，所述一个或多个外围设备除其他之外尤其可以包括:视频存储器；一个或多个显示器；诸如鼠标、键盘、触摸屏、平板等等之类的一个或多个输入外设；可以被布置成永久存储计算机程序代码的一个或多个非易失性存储设备；一个或多个打印机；扬声器；麦克风；以及诸如闪存、压缩或数字通用盘驱动器之类的媒介驱动器。在使用中，一个或多个存储器910(和/或工作存储器920)使用系统总线针对所述(一个或多个)外设发送和/或接收数据。在图9中，网络接口 940也通信地耦合到系统总线930以允许在一个或多个计算机网络950之上的通信。这些网络可以是具有有线和/或无线连接的局域网和/或广域网的任何组合。在某些情况下，可以通过一个或多个计算机网络950接收音频数据110和/或文本数据120。计算设备900的能力也可以分布在多个通信地耦合的系统之上。
[0038]本文描述的某些示例提出了一种自动地将抄本与对应的音频或视频内容对准的系统。这些示例使用具有在音频抄本内容上训练的模型的语音到文本能力来识别在内容中存在的词和短语。在某些情况下，仅使用音频抄本的内容。这确保了快速且高度准确的语音识别过程。可以将结果所得的输出直接地与原始抄本调和，以便添加发言时间标记。过程对于不准确的抄本、声轨中的噪声和音乐是健壮的(robust)。另外，在某些示例中描述自动系统以确认和/或确定与使用隐藏字幕内容的广播视频相关联的多个音轨中的每个的语言。
[0039]如在本文的某些示例中描述的那样，可以以改善的方式处理用于广播的音频和/或视频数据。例如，隐藏字幕文本可以针对音频/视频轨进行匹配和/或关于音频/视频轨进行时间定位。可以应用这些技术来准备用于广播的视频，不论该广播通过无线电还是其他的一个或多个计算机网络发生。某些描述的示例向音频内容创建者和或广播者提供高度准确的时间对准过程并且提供语言检测能力。例如，某些描述的时间对准过程可以比人工对准快速且便宜，比无约束语音到文本操作快速且准确，并且比强制对准技术方法健壮。某些匹配技术提供确认表示各种所说的语言的音频数据被放置在正确的音轨中的能力。
[0040]如参考图9描述的那样，可以使用在处理系统或处理器中操作的计算机过程来实现本文描述的示例的至少某些方面。这些方面还可以被扩展为计算机程序，特别是适于将所述方面付诸实施的载体上或者载体中的计算机程序。程序可以采用非瞬时性源代码、目标代码、代码中间源和诸如以部分地编译的形式的目标代码的形式，或者采用适于在根据本发明的过程的实现中使用的任何其他非瞬时性形式。载体可以是能够承载程序的任何实体或设备。例如，载体可以包括存储介质，诸如固态驱动器(SSD)或其他基于半导体的RAM ;例如CD ROM或半导体ROM的ROM ;例如软盘或硬盘的磁性记录介质；一般的光存储器设备等等。
[0041]类似地，将理解，本文引用的任何系统可以实际上由单个芯片或集成电路或者多个芯片或集成电路提供，其可选地被提供为芯片集、专用集成电路(ASIC)、现场可编程门阵列(FPGA)等等。一个或多个芯片可以包括用于至少具体化如上文描述的系统组件的电路(以及可能地，固件)，其可配置成根据所描述的示例进行操作。在这方面，描述的示例可以至少部分地由存储在(非瞬时性)存储器中并且可由处理器执行的计算机软件、或者由硬件、或者由有形地存储的软件和硬件(以及有形地存储的固件)的组合来实现。
[0042]提出前述的描述仅为了说明和描述所描述的原理的示例。例如，在附图中的任一个中图示的组件可以例如使用服务器架构而实现为单个硬件系统的部分，或者可以形成分布式系统的部分。在分布式系统中，一个或多个组件可以与一个或多个其他组件本地地或者远程地定位并适当地通信耦合。例如，可以使用通过局域网或广域网进行通信的客户端-服务器或点对点架构。某些示例描述媒体的抄本与包括有媒体的对应的音频记录的对准。对术语“对准”的引用可以被视为抄本与对应的音频记录的同步和/或重新同步的形式。同样，“对准”还可以被视为例如关于时间对抄本和对应的音频记录中的一个或多个进行索引的形式。应注意，上文描述的某些示例可以应用于包括音频数据的任何类型的媒体，所述音频数据包括音频数据的语音和对应的抄本。在本文描述的某些示例中，术语“抄本”可以指音频域中的数据到视觉域中的数据的转换，特别指音频数据到表示诸如字符、词和/或短语的书写语言的元素的数据的转换。在这种意义上，“抄本”包括表示音频数据的至少部分内的可听见语言元素的文本数据。“抄本

完整全部详细技术资料下载

当前第4页1 2 3 4 5