用于翻译web视频中的定时文本的系统和方法

文档序号:6596048阅读:159来源:国知局
专利名称:用于翻译web视频中的定时文本的系统和方法
技术领域
本发明总体涉及在web视频中加入字幕(captioning)。
背景技术
视频越来越多地由远程用户通过诸如因特网的网络访问。万维网的兴起,包括各种web应用、协议以及相关联网和计算技术,使远程用户观看以及播放视频成为可能。诸如字幕或对白的定时文本有时与视频内容一起被提供,并且“被定时”,使得某些文本与视频内容的某些部分相关联地出现。定时文本可以服务于多个用途。第一,定时文本可以使对话对于听觉受损来说容易被理解。第二,定时文本可以使视频在音频不可获得或不被许可的情况下容易被理解。第三,定时文本可以为具有教育或娱乐价值的视频提供评注。最后,定时文本可以为不理解对话的语言的那些人翻译音频。当然,定时文本的益处仅在定时文本可以观看者的语言获得时才产生。Web视频服务通常可全球获得,以及来自其它国家的个体制作的许多视频是可获得的。对于那些视频,定时文本通常不可以观看者的语言获得。定时文本的人工翻译会很昂贵并且费时。

发明内容
本发明涉及翻译web视频中的定时文本。在第一实施例中,一种方法为web视频自动翻译定时文本。该方法包括从客户端接收识别目标语言的请求。响应于请求,从定时文本数据库检索web视频的定时文本轨道。定时文本数据库中的每一个定时文本轨道指定文本在视频中的特定时间显示。将来自定时文本轨道的文本自动翻译成目标语言。最后, 将经翻译的文本发送给客户端以与web视频一起显示。在第二实施例中,一种系统为web视频自动翻译定时文本。该系统包括存储定时文本轨道的定时文本数据库。每一个定时文本轨道指定文本在视频中的特定时间显示。机器翻译器自动翻译文本。响应于来自客户端的识别目标语言的请求,定时文本服务器从定时文本数据库检索定时文本轨道、与机器翻译器通信以将来自定时文本轨道的文本翻译成目标语言并且将经翻译的文本发送给客户端以与web视频一起显示。以这种方式,定时文本可以在客户端处显示之前被自动翻译成观看者的语言。在下面参考附图详细描述了本发明的进一步实施例、特征和优势,以及各种实施例的结构和操作。


合并于此并且形成说明书的一部分的附示了本发明,并且与描述一起,进一
4步用于解释本发明的原理,以使相关领域的技术人员能够制作并且使用本发明。图1是图示了根据本发明的一个实施例的用于翻译web视频的定时文本的系统的图。图2是图示了根据本发明的一个实施例的用于翻译web视频的定时文本的方法的流程图。图3-10图示了可以由图1中的系统使用的示例用户界面的截屏。元素在其中首次出现的附图典型地由相应参考数字中的最左边数字指示。在附图中,相同的参考数字可以指示同一或功能上相似的元素。
具体实施例方式本发明的实施例为诸如从谷歌公司可获得的GOOGLE VIDEO或Y0UTUBE服务的在线视频服务“点播”翻译定时文本轨道。例如,如果用户正在观看用户不理解的语言的 Y0UTUBE视频,但是该视频具有定时文本轨道,则用户可以请求机器翻译,以及视频的定时文本中的所有文本将立即以所请求的语言示出。通过将加字幕的视频的对话翻译成其它语言,本发明的实施例提供了视频的更大的全球可访问性。通过允许更大的可访问性,实施例增加了用户最初为未加字幕的视频提供定时文本的动力。系统图1示出了图示根据本发明的一个实施例的用于翻译web视频的定时文本的系统 100的图。系统100包括机器翻译器110、视频服务器190、定时文本服务器160以及定时文本数据库180。定时文本服务器160经由诸如因特网的一个或多个网络120耦接到观看者客户端130。总的来说,系统100如下操作。观看者客户端130向用户播放流送自视频服务器 190的视频。用户向观看者客户端130发出对以所选择的语言的正播放的视频的定时文本的请求。定时文本观看者130经由一个或多个网络120向定时文本服务器160发送请求。 如果定时文本数据库180不包括所选择的语言的定时文本轨道,但是包括不同语言的定时文本轨道,则定时文本数据库180将不同语言的定时文本轨道发送给机器翻译器110。机器翻译器110确定定时文本轨道的翻译,并且将经翻译的定时文本轨道发送给定时文本服务器160。定时文本服务器160经由网络120将经翻译的定时文本轨道发送到观看者客户端130上。最后,观看者客户端130向用户显示定时文本轨道。在下面更详细地描述了操作和支持组件。观看者客户端130包括浏览器102和视频播放器150。在一个实施例中,浏览器 102接收包含文件的HTTP响应。作为一个示例,文件可以以HTML或Flash编码。浏览器 102可以解释文件以例示视频播放器150。视频播放器150使用户能够播放视频和相应的定时文本轨道。在一个实施例中, 视频播放器150可以由使用Flash文件的浏览器插件例示。视频播放器150可以通过因特网接收流送至观看者的视频。以这种方式,观看者可以不必在开始播放视频之前存储整个视频。视频播放器150还可以包括各种控件,例如传统的视频控件(例如播放、暂停、快退和快进)以及与定时文本有关的控件。控件可以包括按钮、下拉菜单以及本领域已知的其它控件。
控件中的一个可以使用户能够播放所选择的语言的定时文本轨道。如果视频当前正在播放,则控件可以使用户能够播放正播放的视频的所选择的语言的定时文本轨道。当选择了定时文本轨道的语言时,视频播放器150可以向定时文本服务器160发送请求。请求例如可以是带有参数的HTTP请求。参数可以包括当前播放的视频和所选择的语言。观看者客户端130可以向定时文本服务器160发送该HTTP请求。在另一个实施例中,可以自动生成对特定语言的定时文本轨道的请求。在示例中, 观看者客户端130、定时文本服务器160或视频服务器190中的一个可以根据默认设置或用户简档信息来自动生成请求。例如,视频服务器190可以辨识具有日语默认设置的用户,以及当视频具有诸如英语的不同源语言的定时文本时,然后观看者客户端130(或视频服务器190)可以自动请求诸如日语的不同语言的定时文本轨道。在一个实施例中,视频服务器 190在与定时文本服务器160相同的机器上。在其它实施例中,两个服务器190和160位于不同的地方。如上所述,视频播放器150可以使用户能够仅仅选择待翻译成的目标语言。在另一个实施例中,相对于仅仅选择目标语言,视频播放器150可以使用户能够选择待被翻译的特定语言。在这种情况下,视频播放器150可以在HTTP请求的末尾附加指示请求机器翻译的自变量。在一个示例中,HTTP请求可以包括指示待被翻译的源语言以及待翻译成的目标语言的参数。HTTP请求还可以包括通知定时文本服务器160翻译定时文本的特殊自变量或参数。例如,特殊自变量可以是附加到URL的“&translate”。在一个实施例中,相对于选择待被翻译的语言,视频播放器150还可以使用户能够选择待被翻译的特定定时文本轨道。可以存在同一语言的若干轨道。不同的轨道可以具有不同的内容,因为一些可以转录对话以及其它可以提供评注。类似地,不同的轨道可以在其阅读水平方面不同,因为变化的阅读水平可以帮助教导人们阅读。最后,不同的轨道可以在诸如置放和色彩的其可视复杂度方面不同。通过使用户能够选择特定源轨道,视频播放器150在选择翻译时向用户提供具有不同内容、阅读水平以及可视复杂度的额外选项。当定时文本服务器160接收对定时文本轨道的请求时,定时文本服务器160可以确定所选择的语言的定时文本是否在定时文本数据库180中。如果所选择的语言的定时文本存在,则没有必要执行翻译。在一个示例中,定时文本服务器160可以执行数据库查询,诸如对定时文本数据库180的SELECT语句。替选地,在定时文本服务器160和定时文本数据库180之间可以存在一个或多个中间服务器,以及定时文本服务器160可以将请求(诸如web服务请求)发送给中间服务器以确定定时文本数据库180的内容。如果定时文本数据库180具有正播放的视频的用户的所选择的语言的定时文本,则定时文本服务器160将该定时文本发送给观看者客户端130以由浏览器102或视频播放器150向用户显示。在一个示例中,定时文本服务器160可以将整个定时文本轨道发送给观看者客户端130。替选地,定时文本服务器 160可以将定时文本流送到观看者客户端130。定时文本服务器160可以在视频带外流送定时文本。与视频分立地发送定时文本允许更大的灵活性。如果定时文本数据库180没有视频的用户的所选择的目标语言的定时文本,则定时文本数据库180可以识别待成为目标语言的定时文本轨道。如上所述,一些定时文本对应于视频的对话,以及其它定时文本提供评注。相对于评注,定时文本数据库180可以被配置为识别对应于视频的对话的定时文本轨道。如上所述,请求还可以明确识别源定时文本轨道。一旦源定时文本轨道被识别,定时文本服务器160可以向机器翻译器110发送源定时文本轨道(至少其文本)以及识别源定时文本轨道的源语言和所请求的翻译的目标语言的参数。机器翻译器110可以使用任何类型的自动翻译算法来翻译定时文本轨道。示例机器翻译程序包括SYSTRAN程序(可在http://www. systransoft. com/处获得)以及PROMT 程序(可在http://WWW. online-translator, com/处获得)。使用机器翻译程序,机器翻译器110翻译定时文本轨道。在完成了翻译时,机器翻译器110然后可以将经翻译的定时文本轨道发送回定时文本服务器160。然后,定时文本服务器160可以将经翻译的定时文本轨道发送到观看者客户端130上以向用户显示。机器生成的翻译可能不如人类生成的翻译准确。针对该原因, 观看者客户端130可以向用户显示警告用户该潜在不准确性的消息。相对于预先翻译所有的定时文本,通过实时翻译定时文本,本发明的实施例可以利用在改进机器翻译算法方面的进步。此外,由于实时翻译,没有必要预先为每个定时文本存储每个可能的翻译。在一个实施例中,一旦生成了定时文本轨道的机器翻译,就可以存储经翻译的定时文本轨道用于未来使用。在一个实施例中,定时文本服务器160可以将经翻译的定时文本轨道存储在定时文本数据库160中。定时文本数据库160可以将机器翻译的定时文本轨道与标记一起存储,以将其与潜在更可靠的人类翻译的轨道相区别。在另一个实施例中,可以例如将经翻译的定时文本轨道缓存在缓存164中。缓存 164由缓存管理器162管理。在实施例中,缓存164和缓存管理器162可以在机器翻译器 110上或视频播放器150中实现。在视频播放器150上实现缓存164避免了再次取得已经被翻译并且接收的定时文本轨道的需要。在一个实施例中,缓存管理器162存储经翻译的定时文本轨道一段时间。在该段时间流逝后,缓存管理器162可以从缓存164移除经翻译的定时文本轨道。可以使用如本领域技术人员所熟知的其它缓存管理算法。缓存的经翻译的定时文本轨道可以是向用户不同展现的虚拟定时文本轨道。虽然被存储在缓存164中,定时文本服务器160可以在请求时将缓存的翻译返回给用户,而不是需要生成新的翻译。以这种方式,减少了对机器翻译器110的请求,节约了计算资源并且改善了负载和时延。如果缓存管理器162已从缓存164移除了经翻译的定时文本轨道,则定时文本服务器160可以向机器翻译器110请求另一个机器翻译。用于在机器翻译时使用的算法持续改进。因此,随着旧翻译在缓存162中被更新,所以缓存的翻译的质量可以提高。在一个实施例中,观看者客户端130可以向web服务器上的小程序(servlet)发送翻译定时文本轨道的请求,以及小程序将该请求发送到机器翻译器110上。该实施例在用户使用观看者客户端130来上载或编辑定时文本轨道时可以是有用的。在该实施例中, 运行于观看者客户端130上的编辑器可以向小程序发送定时文本文件。小程序可能经由处理管线向机器翻译器110发出请求。最后,小程序将经翻译的定时文本轨道返回给观看者客户端130。在一个实施例中,定时文本轨道可以与视频一起带内提供。该实施例对于某些类型的客户端,尤其包括能够播放视频的智能手机的移动设备,可以是有用的。在该实施例中,视频播放器150可以包括对字幕的请求,作为向视频服务器190发出的对web视频的请求的一部分。视频服务器190可以向定时文本服务器160请求自动翻译的定时文本轨道。 视频服务器190然后可以将自动翻译的定时文本轨道与web视频流相组合。视频服务器190 将视频与已合并的经翻译的定时文本一起发送给视频播放器150。最后,视频播放器150播放视频。机器翻译器110、定时文本服务器160、观看者客户端130、浏览器102以及视频播放器150可以由软件、固件、硬件或其组合实现。机器翻译器110、定时文本服务器160和观看者客户端130可以是支持网络通信的任何计算设备。示例计算或处理设备包括但不限于计算机、工作站、分布式计算系统、计算机集群、嵌入式系统、独立电子设备、联网设备、移动设备、机顶盒、电视或其它类型的处理器或计算机系统。定时文本服务器160可以包括web服务器。Web服务器是以HTTP响应对超文本传输协议(HTTP)请求作出响应的软件组件。如说明性示例,web服务器可以是但不限于 Apache HTTP 月艮务器、Apache Tomcat>Microsoft Internet Information Server> JBoss 应用服务器、WebLogic应用服务器⑧或Sun Java 系统Web服务器。Web服务器可以派发内容,诸如超文本标记语言(HTML)、可扩展标记语言(XML)、文档、视频、图像、多媒体特征、 MACROMEDIA Flash程序或其任何组合。这些示例是完全说明性的,并且并不限制本发明。方法图2是图示了根据本发明的一个实施例的用于翻译web视频的定时文本的方法 200的流程图。方法200以在步骤202从客户端接收翻译web视频的定时文本轨道的请求开始。 如上所述,请求包括待翻译成的目标语言。请求还可以包括待被翻译的源语言或特定源定时文本轨道。在步骤204,web视频的定时文本轨道从定时文本数据库检索。定时文本数据库中的每一个定时文本轨道指定文本在视频中的特定时间显示。如上所述,定时文本轨道可以根据步骤202中所接收的请求的内容基于不同标准来检索。例如,如果请求仅仅指定目标语言,则对应于对话(相对于评注)的定时文本轨道可以被检索。如果请求指定目标语言和源语言两者,则既对应于对话又以指定的源语言的定时文本轨道可以被检索。最后,如果请求明确识别待被翻译的特定定时文本轨道,则该定时文本轨道可以被检索。在步骤206,将来自在步骤204中检索到的定时文本轨道的文本自动翻译成目标语言。如上所述,文本可以使用任何自动机器翻译算法来翻译。如上所述,示例机器翻译程序包括SYSTRAN程序和PROMT程序。在步骤208,将经翻译的文本发送给客户端以与web视频一起显示。以这种方式, 字幕被自动翻译成观看者的语言。示例用户界面图3-10图示了可以由图1中的系统使用的示例用户界面的截屏。在示例中,图 3-10中的截屏可以由图1中的视频播放器150生成。图3图示了截屏300。截屏300包括诸如弹出菜单的菜单306,包括菜单选项302。 菜单选项302向用户提供将定时文本翻译成默认语言的选项。默认语言可以例如在用户简档中设置。菜单选项302还可以以用户的母语出现。
在图4中以截屏400图示了以用户的母语的示例菜单选项。截屏400示出了菜单选项402,其向用户提供翻译成挪威语的选项。进一步,菜单选项402以挪威的语言,挪威语形式。当用户选择菜单选项302或菜单选项402时,视频播放器150可以显示诸如图5中的截屏500或图6中的截屏600的截屏。截屏500和600告诉用户翻译正在进行中。在一个示例中,视频可以在翻译进行期间暂停,并且显示截屏500和600。参考回图3,截屏300提供另一个菜单选项304。当用户选择菜单选项304时,用户可以选择待被翻译的源语言和待翻译成的目标语言。菜单选项304同样应当以用户的母语出现。例如,图4中的菜单选项404以用户的母语挪威语出现。当选择了菜单选项304或404时,图7中的截屏700或图8中的截屏800可以出现。响应于菜单选项304或404,截屏700和800使用户能够配置对翻译的请求。在一个示例中,视频可以在用户在截屏700和800上输入信息期间暂停。截屏700和800每一个包括弹出窗口。弹出窗口包含顶部下拉菜单702和底部下拉菜单704。顶部下拉菜单702提供可以用于被翻译的轨道列表或语言列表。底部下拉菜单704提供定时文本可以用于翻译成的语言列表。在用户请求了翻译,并且翻译被返回给客户端之后,客户端继续播放视频,其中具有经翻译的定时文本。这在图9中的截屏900中大致图示。并且,如果用户打开菜单选项, 则菜单选项在图10中的截屏1000中图示。结论发明内容和摘要部分可以阐明发明人预期的本发明的一个或多个而非所有的示例性实施例,因此发明内容和摘要部分并不意在以任何方式来限制本发明和权利要求。在上面借助于说明指定的功能及其关系的实现的功能构造块来描述了本发明。在此为了便于描述,任意地限定了这些功能构造块的边界。可以限定替选边界,只要所述指定的功能及其关系被适当地执行。特定实施例的前述描述如此充分地揭示了本发明的一般特性,使得其他人可以在不背离本发明的一般思想的情况下,通过应用在本领域的技术内的知识而容易地修改和/ 或调整本发明的一般特性以用于这样的特定实施例的各种应用,而不用进行过度的实验。 因此,基于在此提供的教导和指导,这样的调整和修改意在在所公开的实施例的等价物的含义和范围内。应当理解的是,在此的措词或术语用于描述而非限制的目的,因此本说明书的术语或措词应当由技术人员根据所述教导和指导来解释。本发明的宽度和范围不应当由上述示例性实施例的任何一个限制,而是应当仅根据权利要求及其等价物来限定。
权利要求
1.一种用于自动翻译web视频的定时文本的方法,包括(a)从客户端接收识别目标语言的请求;(b)响应于所述请求,从定时文本数据库检索所述web视频的定时文本轨道,其中所述定时文本数据库中的每一个定时文本轨道指定文本在视频中的特定时间显示;(c)将来自在(b)中检索到的所述定时文本轨道的文本自动翻译成所述目标语言;以及(d)将经翻译的文本发送给所述客户端以与所述web视频一起显示。
2.根据权利要求1所述的方法,进一步包括(e)确定缓存是否包括所述web视频的所述目标语言的定时文本轨道,其中所述检索(b)包括当所述缓存没有包括所述web视频的所述目标语言的定时文本轨道时,从所述定时文本数据库检索所述web视频的定时文本轨道。
3.根据权利要求2所述的方法,进一步包括(f)将经翻译的文本存储在所述缓存中。
4.根据权利要求1所述的方法,其中所述请求识别源语言,以及其中所述检索(b)包括检索所述web视频的包括所述源语言的文本的定时文本轨道。
5.根据权利要求1所述的方法,其中所述请求识别在(b)中检索到的所述定时文本轨道。
6.根据权利要求1所述的方法,其中所述请求识别所述目标语言。
7.根据权利要求1所述的方法,其中用户简档定义所述目标语言。
8.根据权利要求1所述的方法,其中翻译(c)包括使用机器翻译算法来将来自在(b) 中检索到的所述定时文本轨道的文本翻译成所述目标语言。
9.一种用于自动翻译web视频的定时文本的系统,包括定时文本数据库,所述定时文本数据库存储定时文本轨道,其中每一个定时文本轨道指定文本在视频中的特定时间显示;机器翻译器,所述机器翻译器自动翻译文本;以及定时文本服务器,所述定时文本服务器响应于来自客户端的识别目标语言的请求,从所述定时文本数据库检索定时文本轨道、与所述机器翻译器通信以将来自所述定时文本轨道的文本翻译成所述目标语言并且将经翻译的文本发送给所述客户端以与所述web视频一起显示。
10.根据权利要求9所述的系统,进一步包括 缓存,所述缓存存储最近翻译的定时文本轨道;以及缓存管理器,所述缓存管理器确定所述缓存是否包括所述web视频的所述目标语言的定时文本轨道,其中所述定时文本服务器在所述缓存没有包括所述web视频的所述目标语言的定时文本轨道时,从所述定时文本数据库检索所述web视频的定时文本轨道。
11.根据权利要求10所述的系统,其中所述缓存管理器将经翻译的文本存储在所述缓存中。
12.根据权利要求9所述的系统,其中所述请求识别源语言,以及其中所述定时文本服务器检索所述web视频的包括所述源语言的文本的定时文本轨道。
13.根据权利要求9所述的系统,其中所述请求识别检索到的定时文本轨道。
14.根据权利要求9所述的系统,其中所述请求识别所述目标语言。
15.根据权利要求9所述的系统,其中用户简档定义所述目标语言。
16.根据权利要求9所述的系统,其中定时文本服务器使用机器翻译算法来将来自检索到的定时文本轨道的文本翻译成所述目标语言。
17.一种提供自动翻译web视频的定时文本的接口的方法,包括(a)展现第一菜单,所述第一菜单包括翻译成默认语言的第一选项以及定义源和目标语言的第二选项;(b)当所述用户选择所述第二选项时,展现定义所述源和目标语言的第二菜单;(c)当所述用户选择所述第二选项时,接收对在(b)中展现的所述第二菜单中的所述源和目标语言的用户选择;(d)发送包括目标语言的对翻译的请求,其中当所述用户选择所述第一选项时,所述目标语言是所述默认语言,以及其中当所述用户选择所述第二选项时,所述目标语言是在(C) 中所选择的所述目标语言,其中当所述用户选择所述第二选项时,所述请求进一步包括在 (c)中所选择的所述源语言;(e)响应于所述请求,接收包括自动翻译成所述目标语言的文本的定时文本轨道,其中当所述用户选择所述第二选项时,所述文本从在(c)中所选择的所述源语言被翻译;以及(f)与所述web视频一起显示所述定时文本轨道的至少部分。
全文摘要
本发明涉及翻译web视频中的定时文本。在第一实施例中,一种方法自动翻译web视频的定时文本。该方法包括从客户端接收识别web视频的请求。响应于请求,从定时文本数据库检索web视频的定时文本轨道。定时文本数据库中的每一个定时文本轨道指定文本在视频中的特定时间显示。将来自定时文本轨道的文本自动翻译成目标语言。最后,将经翻译的文本发送给客户端以与web视频一起显示。
文档编号G06F17/28GK102265271SQ200980152690
公开日2011年11月30日 申请日期2009年10月29日 优先权日2008年10月29日
发明者托利弗·十卫, 格雷格·米拉姆, 肯尼斯·L·哈伦斯蒂安, 须内雄二 申请人:谷歌公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1