自动加配字幕的方法和系统的制作方法

文档序号:7612364阅读:250来源:国知局
专利名称:自动加配字幕的方法和系统的制作方法
技术领域
本发明涉及一种自动加配字幕的方法和系统。具体可应用于对影视作品或现场会议的实时和非实时的字幕加配,以及字幕脚本的自动获取。
背景技术
字幕是社会“信息无障碍”环境建设的重要组成部分。在字幕的需求群体中,很大一部分是听力残障人士。据中国残疾人联合会统计,我国目前约有2057万言语听力残疾人,占6000万残疾人总数的34.3%,每年还新增聋儿3万多人。此外,还存在着一部分成年后因各种原因失聪的人,特别是因年老而引起听力减退的老年失聪者。对于听力残障人士来说,由于没有了输入听觉信号的刺激,他(她)们无法通过声音这个渠道获取知识和信息。这样一来,通过视觉渠道输入就成了他(她)们获取知识和信息的主要途径。
影视作品是听力残障人士认识社会、了解社会、与社会沟通的一个重要渠道。通常地,影视作品中兼具图像、声音和文字等多种模态的信息,它们相辅相成,互相配合。图像固然有它丰富、形象和生动等优点,但是可想而知,对于听力残障人士而言,仅仅依靠图像来获取的知识和信息将会大打折扣,严重影响其获取知识和信息的能力。虽然现在已经一些新闻资讯类节目在播出过程中加配了手语播报员,但这种方式也存在一些不足, 譬如各地手语不规范不统一,难以制定统一的手语标准;投入高而效率低,需要专门训练和培训手语翻译人员;手语翻译常常因为跟不上说话速度而导致内容缺失。
文字,从它产生的那天起,就起着记载与沟通的作用。由文字构成的书面语言,有显明、直接、通达和严谨等优点,它是任何其它语言(如声音、图像、肢体等)所无法替代的。影视作品中的字幕是图像、声音的补充和延伸,可以独立地表情达意,在影视作品中有着不可代替的地位和作用。因此,在影视作品中加配字幕,对于帮助听力残障人士欣赏和理解影视作品、获取知识和信息具有重大的意义。
对健听人士而言,在一些场合下,对字幕依然有需求,例如1、在声音嘈杂的场合比如火车站、公交汽车等地方观看影视作品;
2、在需要相对安静的场合比如当深夜观看影视作品;3、对方言的理解有些采用方言制作的影视作品需要字幕来帮助更好地理解节目;4、学说普通话影视作品中的字幕,配合语音,有利于长期说方言的孩子学说普通话;5、外国人学中文加配字幕的影视作品对于外国人学中文的听说读写;6、因家中有聋人这些健听群体一般倾向选择加配了字幕的影视作品;7、健听人听力受损由于各种因素影响而听力下降的健听人士会越来越依赖于字幕;8、出于对影视作品完全理解的考虑。
所以,从根本上来讲,除了通过图像、声音等渠道来理解影视作品的内涵外,以文字形式出现的字幕,是保证人们在各种不同的场合下更好地理解节目内容的一个重要补充,是任何一个完整制作的影视作品不可缺少的组成部分,这无论对于听障人士,还是对于健听人士都是有意义的。
当前,字幕加配主要以手工方式完成。其工作流程,根据影视节目的性质,可以分为现场直播字幕加配,准现场直播字幕加配,非现场直播字幕加配三种。现场直播节目,指的是事先无脚本,实时播出的电视节目;准现场直播节目,指的是事先准备有脚本,实时播出的电视节目;非现场直播节目,即录播节目,指非实时播出的节目。
人工字幕加配的流程为听录由专门人员采用“边听边录”的方式录入字幕脚本,脚本已经事先给定,则可略过这一步骤。
校对由审核人员对听录人员给出的脚本,进行审校。其过程类似听录,也采用“边听边校”的方式。
对齐将字幕与声音在时间线上对齐。这一部分由编导手工完成。
字幕输出将字幕叠加在影片上。对于电视台,传统上,该工作由专门的字幕机完成,目前较为先进的非线性编辑系统均已经集成该功能;此外字幕也可以通过闭路电视线路传输,并由专门设备(如机顶盒)叠加在电视信号中(称为Closed-Caption)。
对于英语等采用表音文字的语言,当前已有速记键盘技术,能够实时录入字幕,从而达到为现场直播节目加配字幕的目的。而目前中文等采用表意文字的语言,则尚未能够达到这个目标。
人工字幕加配费时费力,难以满足人们对字幕加配的要求。因此自动字幕加配技术是值得研究和开发的。在本发明所针对的字幕听录、对齐领域,当前已经存在的技术列举如下自动语音识别技术,可以用以辅助听录。目前,该技术主要采用基于隐马尔科夫模型的模式识别技术。当前已存在的商业系统包括IBM公司的Via Voice系统,Dragon System公司的Naturally Speaking,以及Microsoft公司的Whisper系统。目前,几乎所有的自动语音识别系统都存在识别率过低的问题。在国际前沿研究领域,美国国家标准局(NIST)组织的语音识别评测表明,当前最为先进的中文新闻语音的语音识别字错误率,为19%-30%之间(NIST Evaluation on RichTranscription 2003 Spring),(BBN,prim系统,字错误率19.1%)。
语音文本自动对齐技术。当前语音文本自动对齐技术一般以单句为单位,进行小段的音素对齐。其中,具有最先进水平的研究单位为OGI,其系统结合了HMM和ANN技术,对单句的语音进行音素及对齐。对于汉语语音,其与手工对齐的一致率在20ms下为79.33。
然而对于大段语音文本对齐和实时语音文本对齐技术,目前尚未检索到任何文献或系统。
从以上分析可以看出,巨大的字幕需求,以及国内相对落后的字幕加配现状,对字幕自动加配技术的研制和开发提出了迫切的要求。为此,本发明开发了一套相对完整的字幕自动加配解决方案,用于解决非现场直播影视节目和现场直播节目的字幕自动加配问题。该套解决方案涵盖了字幕加配过程的各个环节,包括字幕脚本的自动生成、字幕的辅助校对、字幕的大段对齐和字幕的实时对齐等。该解决方案充分利用了高速发展的计算机技术和语音信号处理技术,能够节约大量的人力成本,极大地提高影视作品字幕加配的效率。一旦该成果得到实用化,必将大大促进我国“字幕工程”的发展,它不仅具有重要的社会意义,而且还具有巨大的市场价值。

发明内容
发明目的
当前对于字幕的最主要需求包括1、字幕的自动生成和校对;2、非现场直播节目的字幕大段对齐;3、现场直播节目的字幕实时对齐。
考虑到当今的科学和技术水平,要满足上述三个要求,存在着以下的技术难点,而这些技术难点正是本作品要重点解决的问题,同时,科学合理地解决这些技术难点也是本作品的创新和贡献之所在。
1、如何快速准确地得到字幕脚本字幕脚本的准确自动识别是一项及其困难的任务。一方面,影视节目中的声学环境变化多样,包括演播室中安静环境下的语音、户外噪声环境下的语音、或是音乐背景噪声下的语音等等;另一方面,影视节目中的说话人也是变化多样的,从标准的播音员,到采访记者,甚至包括带方言口音的被采访者等等。因此,根据声学环境和说话人的差异来分割、分类和聚类影视节目中的语音是字幕自动识别的重要一步。同时,对于这样一个复杂多变的任务,设计一个鲁棒性强、说话人无关的大词汇量连续语音识别系统是至关重要的。基于置信度打分的字幕辅助校对系统进一步保证了字幕脚本的准确性。考虑到有效性的要求,本发明还对自动连续语音识别系统进行了优化,在保证准确率轻微下降的前提下,优化识别系统使其达到实时处理(指处理时间小于或等于语音本身的时间)。
2、如何快速准确地对齐字幕脚本利用当前比较成熟的单句自动对齐技术,可以准确地完成以句为单位的对齐任务。但是从实用性角度考虑,把大段的影视节目先切分成单句,然后再利用单句对齐技术进行对齐的想法是不可行,这是因为其一,切分大段的节目语音本身会引入误差,不准确的切分结果将可能导致大段对齐的结果不可接受;其二,在对齐过程中会产生累计误差扩散的现象。因此,如何将对齐过程中产生的累计误差控制在允许的范围之内是关键的一步。本发明基于动态规划的思想,实现了字幕脚本的大段对齐,保证了对齐的时间信息的准确性。
3、如何实时地对齐字幕脚本字幕脚本的实时对齐不同于离线方式的大段对齐,它同时要求时间的实时性和结果的准确性。通常地,有多种不同的思路来完成字幕的实时对齐。一种方法就是通过自动语音识别系统,即时地识别出字幕脚本,并且直接输出字幕作为对齐结果,达到实时对齐的效果。但是这种方法有它的缺陷。首先,现阶段针对影视节目的实时语音识别系统的识别正确率不可能达到100%,会导致最终得到正确率较低的字幕脚本;其次,直接输出自动语音识别的结果不能进行人工校对,无法保证字幕脚本的准确性。本发明把实时字幕对齐的任务限定于新闻资讯类节目,利用事先准备好的节目文稿动态构建搜索网络,这样就同时保证了字幕的准确性和实时性。
技术方案下面说明本发明的字幕加配方法和系统所采用的技术方案。
本发明基于统计模式识别的理论,设计并实现了字幕自动加配系统及其解决方案。针对非现场直播类型的影视节目和现场直播型电视节目。根据本发明的字幕加配分别采用如下的技术方案针对非现场直播类型的影视节目,字幕自动加配系统包括三个模块字幕自动识别模块,用于自动识别影视作品中与视频流相对应的字幕脚本;字幕辅助校对模块,进行字幕校对;以及,字幕大段对齐模块,用于将得到的音频和字幕脚本在时间尺度上按照一定的语言单元自动对齐,在播放影视节目时可以准确地同步显示相应字幕。
针对现场直播型电视节目,字幕自动加配系统即为实时对齐模块,用于将事先准备好的节目文稿与实时输入的音频流在时间轴上对齐,并且实时地显示字幕。
以下将对这四个模块的功能实现分别进行介绍1、字幕的自动识别字幕自动识别的功能是完成自动识别影视作品中与视频流相对应的字幕脚本的任务,以取代传统的“边听边记”的字幕脚本生成方式。其输入是影视作品的视频文件,输出是其对应的字幕脚本。该功能包括如下顺序处理过程(1)从影视作品视频流中提取出音频流;(2)分析该音频流,并自动将其分割成不同声学环境下的小单元;(3)对分割单元进行分类处理,分出男性语音和女性语音;(4)根据声学环境和说话人的相似性等信息,对分割单元进行合并聚类;(5)利用大词汇量连续语音识别系统,识别聚类后的分割单元,输出词网格(Lattice)。
2、字幕的辅助校对为了让字幕真正起到传播信息和启发教育的作用,必须保证字幕正确。由于在影视作品中,声学环境和说话人差异很大,连续语音识别系统自动生成的字幕不可避免地会存在错误,需要部分人工校对。为了快速、方便地进行字幕校对,系统需要字幕的辅助校对功能。该功能输入的是自动语音识别系统输出的词网格,输出的是带有置信度(Confidence)信息的最优识别结果。该功能包括如下顺序处理过程(1)裁减不可达路径,优化词网格;(2)计算词网格中每个候选词的置信度;(3)利用最短路径搜索(Best-Path Search)算法搜索词网格,得到最优的识别结果。
3、字幕的大段对齐对于非现场直播的影视节目,从事先录制的节目中可以提取出相应的音频,利用字幕的自动识别可以得到相应的字幕脚本(或者直接利用事先就准备好的节目文稿)。字幕大段对齐的功能就是将得到的音频和字幕脚本在时间尺度上按照一定的语言单元自动对齐,得到标注有时间信息的节目文稿,在播放影视节目时可以准确地同步显示相应字幕。该功能的输入是音频文件和字幕文件,输出是标注有时间信息的字幕文稿。
4、字幕的实时对齐对于现场直播的影视节目,没有事先录制好的节目,不可能得到音频并进行自动语音识别。但是对于新闻资讯类节目来说,一般都会有事先准备好的节目文稿。字幕实时对齐的功能就是将该事先准备好的节目文稿与实时输入的音频流在时间轴上对齐,并且实时地显示字幕。其输入是节目文稿和实时音频流,输出是实时的字幕脚本。
综上所述,该字幕自动加配系统的目标和定位辅助用户方便快速地得到字幕脚本并进行校正,实现非现场直播影视节目的大段对齐和实现现场直播新闻资讯类节目的实时对齐。它涉及了完整字幕制作过程中的每一个主要环节,是影视作品的字幕加配的一个较完整的解决方案。


下面结合附图对本发明进一步详细地说明图1是非现场直播型节目加配流程图;图2是现场直播型节目加配流程图;图3字幕自动加配解决方案演示系统的主界面;图4自动语音识别模块的系统框图;图5语音自动分割、分类和聚类的处理流程图;图6用于语音的自动分割、分类和聚类的分类器级联结构;图7美标度倒谱系数的计算过程;图8自动语音识别中的信息编解码过程;图9隐马尔可夫模型(HMM);图10 Viterbi算法;图11词网格示例;图12字幕辅助校对模块的处理流程图;图13字幕的大段对齐模块框图;图14文本的字-音转换流程图;图15全切分词图;图16汉语声学模型的拓扑结构;图17字幕大段对齐的处理流程图;图18字幕实时对齐的处理流程图;图19实时对齐解码网络的基本结构。
具体实施例方式
下面参照本发明的附图,更详细地描述本发明的最佳实施例。
基于统计模式识别理论,本发明实现了一个针对新闻联播节目的字幕加配系统,系统的工作界面如图3所示图1所示为非现场直播型节目加配流程图,针对非现场直播节目,本系统的工作流程为1、字幕自动识别字幕自动识别的任务是自动地识别出影视作品中音频对应的字幕脚本。本发明基于统计隐马尔可夫模型(Hidden Markov Model,HMM)实现了一个说话人无关的大词汇量连续语音识别系统。基于统计的自动语音识别是现行国际上最流行的语音识别方法,它已经被验证了比其他的语音识别方法(比如基于人工神经网络的方法)更加有效。图4是字幕自动识别模块的框图,包括训练过程和识别过程。
(1)语音的自动分割、分类和聚类影视节目的长度一般都在几十分钟到几个小时之间不等。通常,这么长的语音是无法直接用于自动语音识别的,在识别之前必须自动地将其分割成较小的语音片断;另一方面,影视节目中包含有复杂多变的声学环境和形形色色的说话人,必须根据声学环境和说话人信息的“同一性”原则,将这些分割后的语音片断进行分类和聚类。本作品基于高斯混合模型(Gaussian Mixture Model,GMM)实现语音的自动分割、分类和聚类,处理流程图5所示。
静音检测(Voice Activity Detection,VAD)的目的是检测出影视节目中的静音和停顿。大多数VAD算法都是基于信号能量、过零率、信号周期性以及线性预测编码系数。但是基于这些区分参数的VAD算法对于含噪情况的性能较差,且切分过细。我们采用基于长时语音信息的VAD方法,它可以检测出说话语句之间的长停顿,而忽略语句内部的短时停顿。
贝叶斯信息准则(Bayesian Information Criteria,BIC)已经被证明是一种有效的用于定位声音转折点的方法。它的基本思想是利用一个滑动窗,分别计算相邻两个窗的似然得分,如果相邻两个窗的似然比高于某一个阈值,就可能存在一个潜在的转折点。
根据大数定律,一个任意的分布都可以在任意精度下用足够多的高斯分量的混合来近似地逼近。尽管我们没法确定用于语音分类的概率密度函数的真实分布,但是理论上只要高斯分量足够多,就可以用这些高斯分量的混合来近似地模拟用于语音分类的概率密度分布。在本系统中采用了16维MFCC(注)作为特征,利用期望最大化(Expectation-Maximization,EM)算法训练得到256个高斯分量混合的GMM模型用于语音的分类。训练数据包括11小时的CCTV1新闻联播数据和1997年美国国家技术标准局(NIST)提供的50分钟HUB4英语数据。针对影视节目这种多类分类任务,系统采用多个二类分类器级联的方式,如图6所示,最终将影视节目中的语音分为七大类。最后,将相邻的同类语音进行合并处理,得到最终的分割、分类和聚类结果。
(2)特征提取特征提取的目的是为了提取更好地体现语音中稳定的有用信息作为自动语音识别的特征。语音信号的一个基本特性是短时平稳特性,短时分析是语音信号特征提取的基础。在提取特征之前一般先要对语音信号进行预加重处理,提升语音的高频分量以减少信道对语音信号高频成分的衰减。随后,将语音信号进行分帧处理(通常采用帧长25毫秒,帧移10毫秒),并加汉明(Hamming)窗平滑[12]。
常用的用于自动语音识别的声学特征是美标度倒谱系数MFCC(MelFrequency Cepstral Coefficients),它是受人的听觉系统研究成果的推动,基于人的听感知机理而导出的声学特征,更符合人耳听觉的非线性心理现象[10,12]。计算MFCC特征的过程如图7所示在本系统中采用的特征是12维MFCC倒谱系数加上能量,以及它们的一阶和二阶差分,一共构成39维特征向量。另外,为了消除信道的卷积噪声的影响,系统在提取MFCC特征的基础上,引入了倒谱均值归一化(Cepstral MeanNormalization,CMN)来对信道进行补偿。
(3)用于搜索解码的知识库基于统计的自动语音识别系统需要在统计模型的基础上,利用模式识别的方法进行语音的自动识别。通常,这些统计模型被称为自动语音识别的知识库(Knowledge Base),包括声学模型(Acoustic Model,AM)、语言模型(LanguageModel,LM)、和发音模型(Pronunciation Model,PM)。
如图8所示,自动语音识别系统通常假定语音信号(如图中的语音波形所示)是一系列符号(如图中的符号序列所示)的一种编码(Encoding)实现。这样一来,识别一个给定的语音信号就相当于一个解码(Decoding)过程。为了在给定语音信号的前提下有效地识别出隐含的符号序列,根据语音的短时平稳性,连续的语音波形通常先通过特征提取模块将其转换为一系列等长度的离散向量(如图中的特征向量所示),并假定这一系列的离散向量能够准确地表征对应的语音波形。因此,识别器的任务就是要实现从语音特征向量到隐含符号序列这样一个映射(Mapping)过程。在这过程中,声学模型(AM)的角色就是利用大量的语音数据,对不同符号单元的声学特性差异进行建模;语言模型(LM)定义了符号序列的语言限制,扮演着对识别器允许的语言进行建模的角色。另外,对于某一种特定的语言来说,符号单元通常有不同层次的定义,比如汉语中的词、字、音节和声韵母等等,发音模型(PM)就是实现了这些不同层次的语言单元之间的映射。
如上所述,声学模型建模不同符号单元的声学差异。隐马尔可夫模型HMM是当前最流行的一种语音信号时变特征的建模方法。它由两个相互关联的随机过程共同描述信号的统计特性,其中一个是隐蔽的具有有限状态的Markov链,另一个是与Markov链的每个状态相关联的观测向量的随机过程。语音等时变信号某一段的特征就由对应状态观测符号的随机过程描述,而信号随时间的变化则由隐Markov链的状态间的转移概率描述,发音器官的运动则隐藏在Markov状态链之后。这也是基于统计的HMM之所以能够成为语音信号处理的强大工具的内在原因。由于语音信号是一个时间序列,因此,我们一般采用自左向右的模型结构,如图9所示。从图中可以看出,HMM模型的参数包括初始状态分布、状态转移概率分布、和观测向量的概率分布(通常用GMM模型模拟)。估计这些参数,即训练HMM模型的经典算法是Baum-Welch算法,这是一个基于递推的算法,又称为前向-后向算法,该算法基于最大似然(Maximum Likelihood,ML)准则,属于EM算法的一种。
表4.1列举了自动语音识别的声学模型训练的一些参数和设置,包括声学模型训练数据。
表4.1声学模型的训练

在语音识别系统中,语言模型事先给出了解码器允许的语言的先验概率,这对于在解码过程中限定搜索空间、消除歧义具有重要的作用。目前最广泛应用的语言模型是N元文法语言模型,即认为当前词出现的概率与其前N-1个词有关,这前N-1个词被成为当前词的历史。随着N的增大,模型的数目急剧上升,就要求有更多的训练语料。考虑到数据的稀疏问题和模型的可训练性,通常N取值为3,即得到三元文法(Trigram)语言模型,这可以看作是一个二阶的马尔可夫过程。语言模型训练是根据三元词对在训练语料中出现的次数,利用最大似然估计法得到模型的参数。即使在N<3的情况下,仍然有可能出现数据稀疏的现象而导致某些词对没有在训练语料中出现过,因此必须进行数据的平滑处理,常见的平滑方法有回退(Back off)方法、Discounting方法、Good-Turing平滑方法和Witten-Bell平滑方法等等。表4.2列出了自动语音识别的语言模型训练的一些参数和设置,包括语言模型的训练数据。
表4.2语言模型的训练

发音模型,即发音词典,建立了不同层次的语言单元之间的映射关系。在本系统中,声学模型刻画了不同的发音单元之间的差异,语言模型描述了语言层面上的词或语义信息,而发音词典则是实现了从“词”到“音”的“一对一”或“一对多”映射。我们建立了一个包含64275个词条的单发音词典,而且保证了发音词典的词条和语言模型中的词条的一致性。下面是部分发音词典示例北京大学 b ei3j ing1 d a4x ve2
北京市 b ei3 j ing1 sh ib4挑战杯 tiao3 zh an4 b ei1左边一列是词条,对应于语言模型中的词条,右边一列是该词条的发音,对应于声学模型的建模单元。同一个词条可以包含多个发音,而且可以为每一个多发音词条指定概率。
(4)搜索解码自动语音识别的解码过程实际上是完成了语音特征向量序列到输出符号序列的映射过程。在给定的输入语音特征向量的前提下,如果能找到与其对应的最优状态序列,由于声学模型确定了HMM状态序列和发音单元序列之间的对应关系,那么就可以根据得到的发音单元“解码”出最终的识别结果。这个过程可以通过图10形象地反映出来。在图中的二维空间中,横坐标表示语音帧(时间),纵坐标表示状态,解码的过程就相当于在该二维空间中从左到右、逐列地搜索得到一条最优的路径。在搜索过程中,每一时刻的概率得分综合了声学模型和语言模型的得分。整个过程可以通过递推的方式有效地实现。
当然,上面描述的只是Viterbi算法的基本思想。在实际应用过程中,尤其对于大词汇量连续语音识别系统,这种基于网格(Lattice)的搜索方式是无法满足时间和空间需求的。本系统采用基于词树(Lextree)的解码方式,用树形结构组织发音词典中的词条,有效地共享了搜索路径,提高了搜索效率。
字幕的自动语音识别模块的输出不是单一的最优结果,而是一个词网格(Word Lattice),得到的词网格作为字幕辅助校对模块的输入,用于字幕自动识别的后处理。
2、字幕辅助校对本系统的自动语音识别以句子为单位进行识别,输出得到的对应的一个词网格。词网格实际上是一个有向无环图(Directed Acyclic Graphs,DAG),包括有节点(Node)和边(Edge)。每个节点带有相应的时间信息,每条边带有起止节点、对应的候选词、声学模型得分和语言模型得分等信息。词网格实际上就是自动语音识别系统输出的多候选结果的一种紧凑表示,从DAG的起点(<s>)到终点(</s>)的每一条路径都是语音识别系统的一种候选输出结果。如图11所示。
本系统中的字幕辅助校对模块的目的有两个1、在优化的词网格上,利用最优路径搜索得到最终的字幕自动识别结果;2、对输出结果进行置信度打分,辅助用户进行字幕的手工校对,节省时间,提高效率。该模块的处理流程如图12所示。
(1)网格优化在词网格中,并不能保证每个节点都能到达网格的终点</s>;另一方面,只有从起点<s>到终点</s>的完整路径才有可能是自动语音识别的一个候选结果。因此,网格优化是第一步,它裁减网格中不完整路径上的节点及其相应的边,这样就保证了后续处理得到的每一条路径的完整性,同时减小了网格的大小,节省了搜索时间。具体的处理过程如下(1)从起点<s>开始,从前往后遍历词网格,标记出所有到起点<s>不可达的节点;(2)从终点</s>开始,从后往前遍历词网格,标记出所有到终点</s>不可达的节点;(3)裁减词网格中到达起点<s>或终点</s>不可达的节点及其相应的边。
可以通过递归算法实现词网格的遍历。实验结果表明,经过网格优化后,平均裁减掉了将近50%的不完整路径上的节点。
(2)基于词的后验概率计算词网格中的每一条边对应于一个可能的候选词,同时还带有这个词在某一段时间内的声学模型得分和语言模型得分,这些得分是在自动语音识别解码过程中保留下来的,可以直接利用这些模型得分计算每一条边的后验概率,即在给定某一段时间内的语音特征向量序列后,观测到某一个词(对应于某一条边)的后验概率。这些边的后验概率可以采用类似于前向-后向(Forward-Backward)算法递推地计算得到。用于后验概率计算的语言模型得分可以直接利用词网格中的得分,或者可以用更精细(比如提高语言模型的阶数)的语言模型进行重打分,这就需要对原始的词网格进行相应的扩展。本模块中采用直接利用网格的语言模型得分计算基于词的后验概率。
(3)全局最优路径搜索可以证明,用于自动语音识别解码的Viterbi搜索算法并不一定保证能够搜索得到全局的最优路径。基于这样的考虑,本模块在自动语音识别输出的词网格中,利用动态规划的思想,进行全局最优路径的搜索,路径的得分是基于词网格中的声学模型和语言模型得分。由于词网格是自动语音识别最有可能的候选结果的紧凑表示,因此在这样的网格上进行最优路径搜索的效率就很高,同时保证这样搜索得到的结果是全局最优的。实验结果表明,经过这样的后处理,自动语音识别的字正确率能有将近1%-2%的绝对提高。
(4)基于词的置信度计算计算词网格中每个词的后验概率,我们就可以把在某一段时间内同一个词的所有后验概率相加,得到的和就可以直接作为这一段时间内这个词的置信度。通过设置相应的门限,就可以把置信度高于该门限的词判别为正确,把置信度低于该门限的词判别为错误。在实际系统中,就可以把可能错误的词标以不同的颜色,来辅助用户进行字幕的校对。
3、字幕大段对齐图13是字幕大段对齐模块的系统处理流程图。该模块又包括文本的字-音转换、声学建模、和大段对齐等几个子模块。
(1)文本的字-音转换当输入系统的文本是汉字串时,首先需要把汉字串转换成拼音串,以便从输入文本中生成声学模型串。文本的字-音转换是将汉字文本转换成对应的拼音串的过程,包括分词、词性标注和注音三个子模块。具体的流程如图14所示。
本系统基于最短路径搜索算法对汉字文本进行分词处理。具体实现过程是1、对于一个汉语句子,建立一个有向无环图;2、把相邻两个汉字之间的间隔作为节点,相邻两节点之间的汉字对应一条边;3、查找词典,如果任意两个节点之间的汉字串构成了一个词典词,则在这两个节点间添加一条边;4、依此类推,将句子中的所有可能的成词作为边添加到该有向无环图中,就得到相应于汉语句子的全切分词图,如图15所示就是“中国人民万岁”这个句子对应的全切分词图;5、用六个月的人民日报语料训练得到二元文法(Bigram)语言模型,使用该二元文法语言模型给全切分词图中的边赋权值;6、最后使用最短路径搜索算法在起点到终点的所有路径中找到一条最短路径作为最终的分词结果。
本系统使用基于隐马尔可夫模型的方法进行词性标注。在词性标注HMM模型中,状态对应于词性,每个状态的输出观测符号对应于词,同时,假定每一个词性的概率分布只与上一个词的词性有关,并且每一个词性的输出概率分布只与其词性本身有关,这两个假设也正好符合隐马尔可夫模型的两个前提。这样,HMM模型中的状态转移概率即是词性间的跳转概率,每个状态输出观测符号的概率即是对应词性一定的条件下输出某一词的概率,这些参数可以从正确标注词性的语料中训练得到。有了这些参数之后,对于任何一个给定的观测符号序列(词串),我们就可以通过前面所介绍的Viterbi算法,搜索得到一条最大可能的状态序列,即可得到该词串所对应的词性序列。
本系统使用基于决策树(Decision Tree)的方法对经过了分词和词性标注的汉字文本进行注音。文本的注音问题关键就是解决多音字(词)的发音问题。根据2002年微软亚洲研究院的一个统计,汉语文本中多音字的字数占到文本总字数的8.95%,对单音字词,可以通过查找发音词典直接标出其拼音;对于多音字(词),系统重点解决了其中最主要的41个多音字和22个多音词的注音,完全解决这些多音字(词)将可使注音正确率达到99.93%。由于多音字(词)的读音类别比较固定,因此可以将确定多音字(词)的读音问题看成一个分类问题。在训练过程中,对训练语料中的每个多音字(词),提取与该多音字(词)相邻的左右各3个词的词性作为特征,训练一棵决策树。决策树的建立采用经典的C4.5算法。在识别过程中,对于经过分词和词性标注后的文本,顺序标出其中单音字词的读音;而对于其中的多音字(词),提取其左右3个词的词性作为特征,将得到的特征通过相应的决策树来确定在该上下文语境下此多音字(词)的读音,最终完成文本的注音过程。
实验结果表明,该文本的字-音模块的标注拼音的正确率达到了99.4%。
(2)声学建模如前面所述,声学模型是用来建模语音层特征和语言层信息之间关系的。在字幕的大段对齐模块中,系统采用的仍然是当前声学建模的主流方法-隐马尔可夫模型建模,但是,在具体的模型结构和参数上,又和用于字幕自动语音识别的声学模型不完全一样。
根据汉字的音节结构特点,并考虑到协同发音的影响,声学建模单元选择语境相关的带调三音子。在汉语的发音中,声母的持续时间一般都比较短,而韵母的持续时间比较长,所以在HMM声学建模中采用了声母3状态,韵母5状态的拓扑结构,并且各状态之间没有跨越跳转。同时,为了表示语音中的静音和短暂停,引入了静音(silence)模型和短暂停(Short Pause,SP)模型。每个模型状态用16个高斯混合来模拟其观测矢量的输出概率分布。各模型的拓扑结构如图16所示,其中(a)表示声母、(b)表示韵母、(c)表示静音、(d)表示短暂停。
声学模型的训练语料采用863语音数据库,该语音库是国内比较权威的大词汇量的非特定人汉语连续语音识别的训练语音数据库。它包括200个说话人,男女各半,每人520到625句话,覆盖了2185个连续句子。说话人来自北京等六省二市没有明显口音的人,语句内容选自1993年和1994年的《人民日报》,存储格式为16KHz采样,16位PCM量化的WAV格式。
通过基于最大似然(Maximum Likelihood)准则的前向-后向(Baum-Welch)训练算法后,结果一共产生了285184个逻辑模型,再经过决策树聚类之后最终得到29660个物理模型作为字幕大段对齐的声学模型。
(3)大段对齐第4.1小节介绍的Viterbi算法实际上是一种时间同步、宽度优先的搜索算法,随着时间的同步推移而逐步扩展,每次只保留当前时刻为止最优的路径,最终回溯得到最佳的状态序列。Viterbi解码算法同样可以用于语音和文本的自动对齐中,在回溯时需要记录的是每个声学模型的驻留时间,而不是模型内容,这一点区别于语音识别中的Viterbi解码算法。通过这样的Viterbi解码过程,就可以得到每一帧的特征矢量对应的模型状态,根据HMM的拓扑结构把这些状态拼接起来,就可以得到每个模型的驻留语音帧边界,进一步可以根据需要得到每个字、词和句子对应的语音帧,这就是单句语音和文本自动对齐的基本原理。
但是这种单句语音和文本对齐方法应用于诸如影视节目这种大段语音和文本的自动对齐时将遇到新的问题。这主要是单句对齐结果的错误误差会随着解码时间的推移而逐步累积,越长的语音段将产生越大的累积错误。所以,对于大段语音和文本的自动对齐,我们不能仅仅依靠单句的“强制对齐解码”方法得到完全解决。
我们用于解决大段语音和文本对齐问题的办法是利用“分而治之(Divide andConquer)”的思想,将大段语音和文本对齐的问题分解成若干个单句语音和文本对齐的问题,这样一来,我们就可以把累积错误控制在局部范围内,从而使大段对齐问题得到解决。算法的基本思想是选定一段待处理的语音,以该语音片断为基准,通过尝试不同的文本段,来寻找最佳的语音和文本匹配。算法的处理流程是首先对语音和文本进行句边界检测,取一语音段,动态地与事先估计的文本段及其相邻段落相匹配,进行强制对齐,当对齐打分结果大于一定门限时,继续取下一语音段进行对齐,重复上述过程直至全部语音已处理完成。具体的系统框果如图17所示图2所示为现场直播型节目加配流程图,对于现场直播类节目,本系统的工作流程为1、手工获取字幕脚本为了进行字幕实施对齐,需要首先获得预先准备好的字幕文本。对于现场直播类节目,本系统并不涉及获取手工脚本的方法。
2、字幕实时对齐当VIterbi强制对齐解码直接应用于实时语音和文本对齐解码时,又将会产生新的问题。强制对齐解码有一个向前搜索-向后回溯的过程;而对于实时的解码,当新的连续语音流到达时,解码器就得立即做出判断,并在适当时间内输出相应的字幕脚本,此时,它不可能不断地回溯并寻找最佳路径。
我们解决的办法是让解码器在语音流和文本流中同时进行实时搜索,当有新的语音帧到来时,通过寻找相应声学模型的稳定驻留时间来同步语音流和文本流中的位置指针,达到语音和文本实时对齐的目的。图18是字幕实时对齐模块的流程图,其中的文本字-音转换、声学建模等子模块和上一小节的字幕大段对齐模块相一致。
具体实现原理如下在进行对齐之前,需要将对齐文本展开成为解码所需的状态网络。为了得到状态网络,首先将文本转换成拼音串,然后对拼音串中的每一个音节从声学模型库中拷贝相应的模型进行链接,构成解码时用到的状态网络。这个网络实际上就同时包含了语音流和文本流的信息,并在其中分别设置了位置指针。该网络的基本结构如图19所示,其中的SP是短暂停模型。
网络中的每一个结点代表语音声学模型HMM的一个状态,当开始输入语音以后,系统以帧同步的方式在识别网络中进行Viterbi解码,每当新的语音帧被接收到时,系统在前一帧解码结果的基础上进行路径扩展、裁减和模型得分计算。当所有存活路径所涉及到的状态得分计算完毕以后,系统将状态按得分情况进行排序。当发现连续5帧的最优状态没有发生变化时,从理论上讲,当前帧语音有较大概率从属于该状态所对应的词字。在这种情况下,系统将文本流中上次输出位置到当前词字位置之间的文本进行输出。
严格意义上讲,保持连续5帧的最优状态并不能完全保证当前假设字词位置的正确性,并且说话中间偶然出现的增减字情况也会造成解码的累积误差。在这种情况下,系统对状态得分进行了进一步的置信度判决,并设置较宽的裁减门限。实验中发现,当裁减门限设置在500左右时,系统具有较好的容错能力。实验发现,在通常情况下,两句话(约20个字左右,6~8秒时间)之内的语音的删除与插入错误可以得到有效地纠正。
性能评价我们对字幕自动加配解决方案中的主要模块进行了性能测试,测试的模块包括文本的字-音转换模块、字幕的自动识别模块、字幕的大段对齐模块和字幕的实时对齐模块。
1、字幕自动识别模块的性能用于字幕自动识别模块测试的声学模型、语言模型和发音模型直接采用在实施方式中介绍过的相应模型。实验的测试语料是2002年12月20日的完整新闻联播节目,视频长度30分钟,总共包含10151个汉字。测试平台是Intel Pentium43.0GHz/1GB内存。测试的结果如表5.1所示。
表5.1字幕自动识别模块的测试结果

值得说明的是,本模块采用的模型都是通用的模型,并没有针对新闻联播这个特定的领域训练专门声学模型和语言模型,换句话说,该字幕自动识别模块是和领域无关的。这样做的好处是提高了模块的可定制性,用户可以根据自己的特定任务,有针对性地重新训练相关模型,或者进行模型的自适应等,这将会极大地提高自动识别系统的性能。
根据美国国家标准技术局(National Institute of Standard Technology,NIST)2003年广播新闻语音识别国际评测的结果,当年针对汉语的广播新闻语音识别的最好结果是字正确率为19%。尽管由于测试语料的不一致(NIST评测任务还包括广播电台语音的识别)使得结果没有可比性,但是这也说明了该通用的字幕自动识别系统的性能同样达到了同领域的领先水平。
2、字幕大段对齐模块的性能实验的测试数据是中央电视台CCTV1的2002年12月16日和2002年12月20日的新闻联播节目,分别从中截取了约25.7分钟和11.4分钟的语音,用这37.1分钟的语音进行测试。测试是在P4 1.8GHz/512MB内存的机器上进行的。
性能的评价标准是以实验室6位同学对上述测试数据的手工标注结果的一致率为参考的。在40毫秒门限下,这6位同学的手工标注结果的一致率为92.55%。
对于字幕大段对齐的性能来说,当选取帧长为16毫秒,帧移为4毫秒时,在40毫秒门限下,对齐结果与手工对齐结果的一致率为92.03%;而在80毫秒门限下的一致率达到100%,这意味着在80毫秒误差门限内,字幕大段对齐模块的自动对齐结果和人工对齐的结果是一致的,而对于80毫秒的误差,人的肉眼是感觉不到的。这样的自动对齐性能不仅可以用于字幕的对齐,而且足够用于实验室的科学研究(如用于语音合成)。整个解码时间为14.15分钟,可以处理实时对齐。
3、字幕实时对齐模块的性能对于字幕实时对齐来说,其性能的评价相对比较困难,现在国际上没有统一的标准来评价一个实时对齐系统。通过实验表明,字幕实时对齐模块的性能已经达到了对齐系统的实时性和准确性的要求的。比如,对一个约30分钟的新闻联播字幕文稿进行实时对齐时,在用户配合的情况(用户最大限度根据文本朗读语音)下,在句子层次上肉眼没有感觉到明显的偏差,在字层次上的对齐平均误差约在1~2秒之内;而在用户不配合的情况下,系统仍能自动纠正前后6~8秒钟的语音和文本不匹配错误。
在实际应用的字幕自动加配系统中,关心的重点是句子层次上的加配精度而不要求精确到字的层次上。从这点来看,该实时对齐模块的性能已经基本达到了实用化的要求。
尽管为说明目的公开了本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例和附图所公开的内容。
权利要求
1.一种自动加配字幕的方法,针对非现场直播节目,具体包括以下步骤1)自动识别出影视作品中音频对应的字幕脚本;2)进行字幕辅助校对;3)进行字幕大段对齐。
2.如权利要求1所述的自动加配字幕的方法,其特征在于,自动识别影视作品中的字幕脚本,具体步骤为1)对语音进行自动分割、分类和聚类;2)对上一步骤中得到的语音信号进行特征提取;3)在统计模型的基础上,利用模式识别的方法进行语音的自动识别;4)进行搜索解码。
3.如权利要求1所述的自动加配字幕的方法,其特征在于,进行字幕辅助校对的具体步骤为1)进行词网格优化;2)利用网格的语言模型得分计算基于词的后验概率;3)进行全局最优路径搜索;4)计算词网格中每个词的后验概率,得到一段时间内这个词的置信度。
4.如权利要求1所述的自动加配字幕的方法,其特征在于,字幕大段对齐的具体步骤为1)进行文本的字-音转换;2)声学建模;3)将大段语音和文本自动对齐。
5.如权利要求3所述的自动加配字幕的方法,其特征在于,词网格优化的具体步骤为1)从起点开始,从前往后遍历词网格,标记出所有到起点不可达的节点;2)从终点开始,从后往前遍历词网格,标记出所有到终点不可达的节点;3)裁减词网格中到达起点或终点不可达的节点及其相应的边。
6.一种自动加配字幕的方法,针对现场直播类节目,具体包括以下步骤1)手工获取字幕脚本;2)进行字幕实时对齐,即将获得的字幕脚本与实时输入的音频流在时间轴上对齐,并且实时地显示字幕。
7.一种自动加配字幕的系统,针对非现场直播类影视节目,包括字幕自动识别模块,用于自动识别影视作品中与视频流相对应的字幕脚本;字幕辅助校对模块,进行字幕校对;以及,字幕大段对齐模块,用于将得到的音频和字幕脚本在时间尺度上按照一定的语言单元自动对齐,在播放影视节目时可以准确地同步显示相应字幕。
8.一种自动加配字幕的系统,针对现场直播类电视节目,包括实时对齐模块,用于将事先准备好的节目文稿与实时输入的音频流在时间轴上对齐,并且实时地显示字幕。
9.如权利要求8所述的自动加配字幕的系统,其特征在于实时对齐模块还包括文本的字-音转换模块、声学建模模块、和大段对齐模块。
全文摘要
本发明基于统计模式识别的理论,设计并实现了字幕自动加配系统及其解决方案。针对非现场直播类型的影视节目和现场直播型电视节目。本发明的字幕加配分别采用如下的技术方案针对非现场直播类型的影视节目,字幕自动加配系统包括三个模块字幕自动识别模块,用于自动识别影视作品中与视频流相对应的字幕脚本;字幕辅助校对模块,进行字幕校对;以及,字幕大段对齐模块,用于将得到的音频和字幕脚本在时间尺度上按照一定的语言单元自动对齐,在播放影视节目时可以准确地同步显示相应字幕。针对现场直播型电视节目,字幕自动加配系统即为实时对齐模块,用于将事先准备好的节目文稿与实时输入的音频流在时间轴上对齐,并且实时地显示字幕。
文档编号H04N5/278GK1870728SQ200510011770
公开日2006年11月29日 申请日期2005年5月23日 优先权日2005年5月23日
发明者迟惠生, 吴玺宏, 黄松芳, 高勤, 吕春霞, 吴昊, 田 浩 申请人:北京大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1