计算机外语有声影像资料自动加注中外文字幕的方法

文档序号:6491880阅读:208来源:国知局
计算机外语有声影像资料自动加注中外文字幕的方法
【专利摘要】本技术方案是一种外语有声影像资料加注中外文字幕方法,属于计算机系统声音和图像数据处理【技术领域】。在将外语语音影像资料转变成加注中外文字幕的影像资料时,将外语有声语言的信号提取出来传给外语语音识别模块并识别成外文,再通过机器翻译模块翻译成用26个拉丁字母组成的汉语语音码或汉字,再将它们单独或中外文对照文本字幕传输给传统的视频画面字幕叠加机叠加在视频画面上,并储存或同步输出。本技术方案可以使整个汉语信息可以在纯ASCII系统的计算机中进行处理,可以方便中国观众通过外国外语影视资料学外语。
【专利说明】计算机外语有声影像资料自动加注中外文字幕的方法
【技术领域】
[0001]本技术方案属于计算机声音和图像数据处理【技术领域】,该计算机包括嵌入式或非嵌入式计算机系统,为叙述方便,以下叙述中将嵌入式和非嵌入式计算机系统统称为计算机系统。
【背景技术】
[0002]目前市面上的汉语或外语有声影像资料的汉字或外文或其对照字幕叠加,一般通过人工方式将汉语或外语有声影像资料中的汉语或外语转换成汉字或外文,再交给视频画面字幕叠加机将表达汉语意思的汉字字幕叠加在视频画面上,同时通过翻译将汉语翻译成外语或反之将外语翻译成汉语,再通过配音演员将语音配同步的视频画面上,由于存在大量的汉语或世界各地的外语有声影像资料,包括电视录像和电影等有声影像资料,因此,如果单靠采用人工转换的方式会很费工费时,而且随着数字有声影像技术的出现,特别是计算机系统用于处理视频影像资料的技术出现,越来越需要有一种能自动根据汉语或外语语音相互转换成外语或汉语并加注字幕的技术出现,而且这种能自动根据汉语或外语语音转换成汉语字幕的技术不但能在带汉字系统的计算机系统中运行,还能再不带汉字系统只带128个字符的ASCII码系统的以美国为代表的西方国家的计算机系统中运行,以满足世界互联网的日益广泛的运用和云计算、物联网以及世界各地汉语热出现,中西文化交流越来越频繁的新形势的需要。

【发明内容】

[0003]本技术方案的提出就是为了解决上述出现这些问题。具体来说本技术方案通过采用以下的计算机外语有声影像资料自动加注中外文字幕的方法来解决上述出现的问题:
[0004]在将外语语音影像资料加注中外文字幕的影像资料时,首先通过传统计算机软件做好影像资料中视频画面与对应的外语有声语言的音频信号同步信号标记,然后将带同步信号标记的外文有声语言的音频信号提取出来传给计算机中的外语语音识别模块,外语语音识别模块将外语语音识别成带与所识别的外语语音具有相同的同步信号标记的用26个拉丁字母表示的外文,再通过机器翻译模块将上述外文翻译成用26个拉丁字母表示的具有相同同步信号标记的对应汉语语音码句子,再将上述带同步信号标记的汉语语音码字幕或外文字幕或它们对照文本字幕传输给传统的视频画面字幕叠加机,根据汉语语音码字幕或外文字幕或它们对照文本字幕与视频画面同步信号标记的对应关系将字幕信息叠加在视频画面上,并进行储存或同步输出。
[0005]上述所述的汉语语音码是以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,用且仅用26个拉丁字母对汉语拼音的声母、介母、韵母、声调采取先编码再依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码拼写,并通过得到的语音码的编码直接表达汉语信息,当直接用语音码编码来表示汉语信息时,其标点符号的用法同英文的标点符号的用法相同,编码时同一个单词的多个音节不用空格连续编码,单词与单词之间要有空格隔开。
[0006]由于本技术方案采用26个拉丁字母表示的汉语语音码来表达汉语信息,且当直接用语音码编码来表示汉语信息时,其标点符号的用法同英文的标点符号的用法相同,这样就保证了汉语信息的表达连标点符号在内都与ASCII码完全一致,也即与ASCII码100%兼容,这样上述用于汉语信息处理的模块由于处理的汉语信息是用与ASCII码完全一致的汉语语音码来表示的,这样就使得这些模块可以在ASCII码系统的计算机中运行,由于组成整个系统的模块可以在ASCII码系统的计算机中运行,因此,整个系统可以在ASCII码系统的计算机中运行。
[0007]有了本技术方案以后,汉语信息可以在汉字内码系统和非汉字内码系统的ASCII内码系统的计算机信息系统中畅通无阻地进行传输和处理,而且随着世界互联网的日益广泛的运用和云计算、物联网以及世界各地汉语热的出现,使得汉语与以英语为代表的世界各国的音像资料的相互观摩交流带来了极大的方便,特别是方便中国观众通过外国的影视资料学外语,外国观众通过中国的影视资料学汉语。从而使汉语能够更广更好地传播到世界各地,促进中国文化和世界文化的相互交流。
[0008]除了汉语以汉语语音码的形式输出外,本技术方案所述的汉语语音码汉语语音码需要时,在汉字系统的计算机中可以通过汉字转换模块转换成汉字,汉语语音码或汉字能够单独或者汉语语音码、汉字、汉语拼音,意义一致的外文两两对照显示、储存、输出。
【具体实施方式】
[0009]下面结合实施例对本发明的【具体实施方式】作进一步的说明。
[0010](一 )本技术方案所采用的汉语语音码的每一音节声、韵、调的编码方法采用以下的方法:
[0011]注:括号内的符号均为《汉语拼音方案》中的汉语拼音符号,以下简称为汉语拼音符号,不带括号的字母为本方案所采用的汉语语音码的每一音节声、韵、调的编码符号,以下将下列对照表简称为码表;
[0012]1、声码的编码符号采用与汉语拼音方案基本一致的声母的字母符号,比如采用下面这种声码的编码形式:
[0013]b: (b) P: (P) m:(m) f: (f) d: (d) t: (t)
[0014]η: (n) 1:(1) g: (g) k: (k) h: (h)
[0015]j: (zh), (j) q: (ch), (q) x: (sh), (x) r: (r)
[0016]z: (z) c: (c) s: (s) y: (y) w:(w)
[0017]2、汉语拼音介母(U)采用26个拉丁字母中的一个字母表示,比如采用下面这种介码的编码形式:
[0018]i: (i)u: (u)y: (ii)
[0019]3、韵码的编码,对单韵母除(U)采用26个拉丁字母中的一个字母表示外,其它采用与汉语拼音相同的字母符号,汉语拼音的复合韵母只要是采用辅音字母来编码都是可以的,比如采用下面的这种字母符号来对汉语拼音的韵母进行编码:
[0020]a: (a) ο: (o) e: (e) i: (i) u: (u) y: (ii)
[0021]k: (ao) c:(ai) s: (an) χ: (ou) w:(ei) η: (en)[0022]ζ: (ua) I: (uo) b: (ang) d: (ong) p: (eng)
[0023]q: (ing) g: (ng) er: (er)
[0024]r:⑴[只与(zh)、(ch)、(sh)相拼]
[0025]4、调码的编码除采用一个汉语不用的辅音字母V表示汉语拼音的上声(V )外,其它采用元音字母来表示汉语的声调,比如采用下面的字母来对汉语拼音的声调进行编码:
[0026]a:(_)阴平e:(/)阳平v:(V)上声u:(\)去声O:(不标)轻声
[0027]( 二)利用上述编码的汉语语音码汉语信息表示采用如下的方法:
[0028]以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码,同一个单词的多个音节不用空格隔开连写,单词与单词之间的编码用空格隔开,当汉语信息表示处于汉语语音码状态时,其六种点号,七种标号和一个移行号采用与英文相同的形式;
[0029]这里由于将独立运用的汉字看作单音节词,因此,本发明所采用的汉字编码的方法和汉语单词音节编码的方法相同,在本发明中采用单词音节编码按词连写后得到单词编码,我们将由若干个单词组成的一组词称为词组,本发明所采用词组的编码同汉语句子的编码相同,由于单词可以表示词组和汉语句子,因此在本发明中所采用的词组的编码和汉语句子的编码都可以通过单词的编码实现,而不需要对词组和汉语句子另外制定一套专门的编码,一般在整句整篇以词为单位表示汉语信息时,在理解时一般不需要进行同音字词的选择,原则上听起来不会产生歧义的句子,用编码表达时也不会产生歧义。
[0030]下面以带有一句英语句子语音的影像资料为例来说明本技术方案的具体实现步骤
[0031]一.在将外语语音影像资料加注中外文字幕的影像资料时,首先通过传统计算机软件做好影像资料中视频画面与对应的外语有声语言的音频信号同步信号标记,然后将带同步信号标记的外文有声语言的音频信号提取出来传给计算机中的外语语音识别模块,外语语音识别模块将外语语音识别成带与所识别的外语语音具有相同的同步信号标记的用26个拉丁字母表示的外文,这里的同步信号标记可以采用现有的制作视频和音频同步时间戳来标记。
[0032]比如,我们从英语语音影像资料中提取一句有声英语句子:
[0033]We use latin every day.[0034]首先调用英语语音识别模块,我们得到上述英文句子:
[0035]We use latin every day.[0036]然后调用汉语英语双向翻译模块我们得到以下翻译步骤和结果:
[0037]1.“we use lat in every day.”(我们通过英语语音识别得到的英语句子)
[0038]c)查预先储存在计算机系统中的标注单词或词组词性的英语词典建立单词或词组的词性串:
[0039]we (人称代词 I)+use (动词 I)+Iatin (名词 I) +every day (时间名词 2).[0040]d)根据上面得到的句子词性串查表得到预先储存在表中的英语句型:
[0041]we (人称代词I作主语)+use(动词I作谓语)+Iatin (名词I作宾语)+everyday (时间名词2作时间状语)[0042]e)根据上面得到英语句型查表得到预先储存在表中的对应的汉语句型:
[0043]we (人称代词I作主语)+every day (时间名词2作时间状语)+use (动词I作谓语)+Iatin (名词I作宾语)
[0044]此时查预先储存在计算机系统中的汉英-英汉双向词库进行单词或词组意思的转换,并按此句型顺序输出便完成英语翻译成汉语的转换,为了表明此机器翻译过程的可双向性,我们再作下面进一步的变换:
[0045]f)根据上面得到汉语句型查表得到预先储存在表中的与对应的汉语单词或词组词性相一致的词性串:
[0046]we (人称代词 I) +every day (时间名词 2)+use (动词 I)+Iatin (名词 I)
[0047]g)查预先储存在计算机系统中的汉英-英汉双向词典进行单词或词组意思的转换并按上面所得到的汉语句型的顺序输出:
[0048]wovmno (人称代词 l)+mwvtisa(时间名词 2)+xrvydu(动词 I)+Iaadqawnv(名词I).[0049]最后我们得到:
[0050]wovmno mwvtisa xrvydu laadqawnv.(汉语语音码表不的汉语信息)
[0051]同理,也可以用上面的方法对复句进行双向翻译,这里就不再累述。
[0052]这样便完成了英语翻译成汉语的转换。再将上述得到的带同步信号标记的汉语语音码字幕或外文字幕或它们对照文本字幕传输给传统的视频画面字幕叠加机,根据汉语语音码字幕或外文字幕或它们对照文本字幕与视频画面同步信号标记的对应关系将字幕信息叠加在视频画面上并进行储存或输出。
[0053]同理对其它外语也可以采用相同的方法实现以上的过程和结果,这里就不再一一累述。
[0054]二.更进一步在得到汉语语音码后,所述的汉语语音码需要时,在汉字系统的计算机中可以通过汉字转换模块转换成汉字,汉语语音码或汉字能够单独或者汉语语音码、汉字、汉语拼音,意义一致的外文两两对照显示、储存、输出。通过调用汉语语音码汉字双向转换模块计算机通过以下步骤将汉语语音码转换成汉字:
[0055]通过分别查找汉语语音码与以词为单位的汉字和汉语拼音对照表可以方便地将汉语语音码转换成汉字和汉语拼音,比如:
[0056]wovmno通过查声码、介码、韵码、调码和汉语拼音对照表或根据该对照表生成的汉语语音码音节或单词和拼音音节或单词对照表得到w0men,再通过w0men查找到以词为单位的汉字,当以单词为单位的语音码通过以单词为单位的汉语拼音与以单词为单位的汉字建立对应关系后,一旦需要以单词为单位的语音码可以不再需要通过以单词为单位的汉语拼音,直接与以单词为单位的汉字建立对应关系并实行相应的转换。比如=Wovmno可以转换为wdmen,再通过wdmen可以转换成“我们”,这样wovmno和“我们”便直接建立了对应关系,需要时可以不通过汉语拼音wdmen进行转换,而直接在wovmno和“我们”之间实现双向可逆转换。
[0057]遇同音词时,可以依据汉语词法句法上下文联系及统计规律等手段进行判别后进行以词为单位的汉字选定。比如:ysvlune上装满了邮包。ysvlune上装满了原油。结合上下文的联系可以知道:前面一句中的“ysvlune”代表邮轮,后面一句中的“ysvlune”代表油轮,这两句话分别会转换成“邮轮上装满了邮包”和“油轮上装满了原油”。对其它单词情况也依次类推。
[0058]上述双向可逆转换的结果既可以单独显示也可以对照显示,比如:
[0059]原句:“我们每天使用汉语拉丁文。”用本发明方法计算机可以可逆地转换为以下几种形式:
[0060]1.1iWomen meitianshiyong IadIngwen0
[0061]2.“wovmno mwvtisa xrvydu laadqawnv.”
[0062]3.1iWomen meitian shiyong IadIngwen0 ^
[0063]我们每天使用拉丁文。
[0064]4.“wovmno mwvtisa xrvydu laadqawnv.”
[0065]我们每天使用拉丁文。
[0066]5.1iWomen meitian shiyong ladlngwen。”
[0067]“wovmno mwvtisa xrvydu laadqawnv.”
[0068]为了让外国人或中国少数民族更方面地了解汉语的含义和学习汉语,也可以在每个对照的单词中插入相应的外语单词或少数民族文字,比如在下面的单词中加入相应的英语单词作中文意思的注解:
[0069]“wovmno Women mwvtisa meitian xrvydu shiyong laadqawnv ladlngwen。,,
`[0070]我们 We每天 every day使用 use 拉丁文 Latine。
[0071]用上述方法,通过现有的视频画面与字符信号叠加技术将汉语语音及其对应中外文字幕实现了同步对应的视频画面合成叠加储存或输出。
[0072]依次类推,用上述方法,我们还可以实现汉语对其它外语对应字幕的同步对应频画面合成叠加储存或输出。这里就不一一累述。
【权利要求】
1.一种计算机外语有声影像资料自动加注中外文字幕的方法,其特征是:在将外语语音影像资料加注中外文字幕的影像资料时,首先通过传统计算机软件做好影像资料中视频画面与对应的外语有声语言的音频信号同步信号标记,然后将带同步信号标记的外文有声语言的音频信号提取出来传给计算机中的外语语音识别模块,外语语音识别模块将外语语音识别成带与所识别的外语语音具有相同的同步信号标记的用26个拉丁字母表示的外文,再通过机器翻译模块将上述外文翻译成用26个拉丁字母表示的具有相同同步信号标记的对应汉语语音码句子,再将上述带同步信号标记的汉语语音码字幕或外文字幕或它们对照文本字幕传输给传统的视频画面字幕叠加机,根据汉语语音码字幕或外文字幕或它们对照文本字幕与视频画面同步信号标记的对应关系将字幕信息叠加在视频画面上,并进行储存或同步输出。
2.如权利要求1所述的一种计算机外语有声影像资料自动加注中外文字幕的方法,其特征是:所述的汉语语音码是以单词为单位,这里将单个汉字看作单音节词,根据组成该单词的每个音节的《汉语拼音方案》中的拼音,用且仅用26个拉丁字母对汉语拼音的声母、介母、韵母、声调采取先编码再依次按“声码+介码+韵码+调码兼隔音节符号”的顺序编码拼写,并通过得到的语音码的编码直接表达汉语信息,当直接用语音码编码来表示汉语信息时,其标点符号的用法同英文的标点符号的用法相同,编码时同一个单词的多个音节不用空格连续编码,单词与单词之间要有空格隔开。
3.如权利要求1或2所述的一种计算机外语有声影像资料自动加注中外文字幕的方法,其特征是:所述的汉语语音码是声母全部用辅音拉丁字母表示,用于表示汉语信息的语音码的声母除了(Zh)、(ch) , (sh)的声母分别用j、q、X三个辅音拉丁字母表示外,其余的声母用与汉语拼音相同符号的辅音拉丁字母表示,汉语拼音的(zhi)、(chi)、(shi)分别用语音码的jr、qr、xr表示,汉语拼音的(er)用语音码的er来表示,jr或qr或xr及er键盘输入时分别按J和R或Q和R或X和R及E和R两个键位输入。
4.如权利要求1或2所述的一种计算机外语有声影像资料自动加注中外文字幕的方法,其特征是:所述的汉语语音 码用26个字母中的一个字母表示原来汉语拼音单韵母和介母中的(U),其余单韵母和介母的编码采用与汉语拼音单韵母和介母相同的符号。
5.如权利要求1或2所述的一种计算机外语有声影像资料自动加注中外文字幕的方法,其特征是:所述的汉语语音码用I来表示原来汉语拼音单韵母和介母中的(U)。
6.如权利要求1或2所述的一种计算机外语有声影像资料自动加注中外文字幕的方法,其特征是:所述的汉语语音码除了部分带有介母的复合韵母外,其余的复合韵母的韵码用辅音字母表示。
7.如权利要求7所述的一种计算机外语有声影像资料自动加注中外文字幕的方法,其特征是:所述的汉语语音码用拉丁字母k、C、S、X、W、η、ζ、1、b、d、p、q、g(无声母韵母)分别表示汉语拼音的(ao)、(ai)、(an)、(ou)、(ei)、(en)、(ua)、(uo)、(ang)、(ong)、(eng)、(ing)、(ng)。
8.如权利要求1或2所述的一种计算机外语有声影像资料自动加注中外文字幕的方法,其特征是:所述的汉语语音码其调码用四个元音字母和一个汉语不用的字母V表示,用拉丁字母a、e、V、U、o分别表示汉语拼音的阴平(_)、阳平e: (/)、上声v =(V)、去声u: (\)、轻声o(不标)。
9.如权利要求1或2所述的一种计算机外语有声影像资料自动加注中外文字幕的方法,其特征是:所述的汉语语音码需要时,在汉字系统的计算机中可以通过汉字转换模块转换成汉字,汉语语音码或汉字能够单独或者汉语语音码、汉字、汉语拼音,意义一致的外文两两对照显示、储存、输出。
10.如权利要求1所述的一种计算机外语有声影像资料自动加注中外文字幕的方法,其特征是:所述的同 步信号标记可以采用现有的制作视频和音频同步时间戳标记技术来完成。
【文档编号】G06F17/28GK103853704SQ201210495112
【公开日】2014年6月11日 申请日期:2012年11月28日 优先权日:2012年11月28日
【发明者】苗玉水 申请人:上海能感物联网有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1