提供自动网页内容翻译服务的方法与系统的制作方法

文档序号:6477260阅读:150来源:国知局
专利名称:提供自动网页内容翻译服务的方法与系统的制作方法
技术领域
本发明涉及因特网服务提供者能够提供的附加服务。
它特别地,但不是排他地应用于提供因特网访问、并且希望通过向它们的客户提供附加服务来扩展它们的访问封装的服务提供者。
背景技术
因特网是一个全球网络,它提供对于可使用任何给定语言的网页的访问。为了扩大他们的观众,某些网站随用户的意愿,以几种语言来显示网页。然而,这些网站是很稀少的并相距很远。而且,多语言网站的运行成本很高,因为每次修改或添加网页时,修改必须被翻译并且插入到其它语言的网页中。在这个意义上,向用户提供自动翻译服务是适当的,如果能使翻译的质量达到高水平那就更好了。
当前,自动网页内容翻译的质量标准有好几种。被称为“基本的”简单质量自动翻译系统仅使用一本标准词典。以一种随意的方式来进行多义词的翻译。结果,由这样的系统提供的译文可以证明是不可理解的而且混乱着误解。
某些产生较好质量的译文的系统不仅使用这样的标准词典,而且还使用能解决涉及待翻译的文档主题的某些含糊不清的词汇库或主题词典。这些系统需要事先选择一部或几部主题词典。因此,这些系统提供的译文质量取决于与待翻译的文档相对应的主题词典的可用性,同时取决于根据待翻译的文档的主题选择用于翻译的词典的针对性。
能提供最佳质量标准的系统综合了主题和类型的概念。主题的概念规定了待翻译的文本所处的上下文(例如,金融、烹饪、体育)。类型的概念规定了待翻译的文本所属的文学体裁(例如,文字、菜谱、剧本)。
在这种类型的系统中,我们知道,例如TAUM系统(蒙特利尔大学的自动翻译)专用于翻译面向气象学的文字。
这些系统具有专用于特定主题和文档类型的缺点。为了翻译具有多种多样的性质的宽范围的文档,将需要大量的专用翻译系统。

发明内容
本发明的目的就是克服这些缺点。通过提供一种文档的翻译方法来实现这个目的,所述文档由内容提供者借助于数字数据传输网络分发给众多用户终端,这些文档由标签构成,所述标签由用户终端所执行的网络浏览器处理。
根据本发明,该方法包括下列步骤a.把定义文档的主题的信息插入到由内容提供者分发的至少一个文档中,在文档中该信息由预定义的主题边界标签来界定;b.当向一个用户终端发送分发的文档时,截取分发的文档,从分发的文档中提取与主题相关的信息,考虑所述主题信息翻译结构化文档,并将获得的译文插入到作为翻译结果的文档中;以及c.向所述用户终端发送作为翻译结果的文档,以取代截取的文档,使得它可以被网络浏览器显示在所述终端的屏幕上。
有利的是,选择预定义的主题边界标签使之不被网络浏览器解释,因此,当在用户终端的屏幕上显示分发的文档时,不显示所述主题信息。
根据本发明的一个实施例,被插入到由内容提供者分发的文档中的主题信息与文档中的类型信息有关,类型信息在文档中由预定义的类型边界标签来界定,被选择使之不被网络浏览器解释,因此,当在用户终端的屏幕上显示分发的文档时,不显示所述类型信息,在进行文档的翻译时,考虑所述类型信息。
根据本发明的一个实施例,仅根据先前的用户请求,把作为翻译结果获得的结构化文档发送到用户终端,以取代截取的文档。
最好是,在用户向所述网络发出请求之后,从网络向用户终端发送截取的文档,仅当对于截取文档的请求包括一个翻译请求指示符时,才向所述用户终端发送对应于截取文档的从翻译得到的文档。
根据本发明的一个实施例,所述用户终端借助于服务提供者访问所述网络,当服务提供者接收到来自所述网络的指向与服务提供者连接的一个用户终端的含有主题信息的文档时,它执行步骤(b)和(c)。
根据本发明的另一个实施例,本方法包括一个步骤,由用户向服务提供者配置一项参数,指示他是否希望获得译文以取代由所述网络发送给他的文档,只要此项参数指示该用户希望获得由网络发送过来的文档的译文,则由翻译得到的文档被发送到用户终端,以取代由所述网络发送的文档。
根据本发明的另一个实施例,文档被翻译为一种预定义的目标语言。
可替换地,本方法包括由用户选择将翻译文档的目标语言的步骤。
根据本发明的一个实施例,本方法包括一个步骤,根据截取的文档的提取主题和/或类型,将截取的文档切换到专用翻译机。
有利的是,如果截取的文档的提取主题和/或类型不对应于可用的专用翻译机,或者如果在截取的文档中没有主题和/或类型信息,则截取的文档将被切换到标准翻译机。
本发明还涉及一种提供由内容提供者借助于数字数据传输网络向多个用户终端分发的文档的译文的系统,所述文档由标签构成,这些标签由用户终端上执行的网络浏览器处理。
根据本发明,分发的文档至少部分地包括由预定义的主题边界标签界定的主题信息,所述系统包括—用于截取由所述网络发送到一个用户终端的分发文档的部件;—用于提取截取的文档中的主题信息的部件;—考虑从文档中提取的主题信息,对截取的文档进行翻译的部件,以及用于将获得的译文插入从翻译得到的结构文档中的部件;以及—用于向用户终端发送从翻译得到的文档以取代截取的文档经由网络浏览器在终端的屏幕上显示的部件。
有利的是,被插入到由内容提供者分发的文档中的主题信息与所述文档的类型信息相关,后者在文档中由预定义的类型边界标签来界定,被选择使之不被网页浏览器解释,因此,当在用户终端的屏幕上显示分发的文档时,不显示所述类型信息,翻译部件考虑所述类型信息以便翻译。
根据本发明的一个实施例,通过向用户终端提供对所述网络的访问的服务提供者来实现所述系统。
根据本发明的一个实施例,使用ICAP协议来实现所述系统,以便截取作为对由用户终端发出的请求的答复而提供的文档,以及将截取的文档发送到文档翻译服务。
有利的是,所述翻译部件包括每个适用于一个主题和/或类型的专用翻译机,一个标准的翻译机,切换部件,用于将每个截取的文档切换到适于截取文档的提取主题和/或类型的翻译机,或者如果截取的文档不包括所述主题和/或类型信息,或者如果截取文档的提取主题和/或类型不对应于任何专用翻译机,则切换到标准翻译机。
可替换地,所述翻译服务器包括翻译机,所述主题和类型信息被用来选择将由所述翻译机用来进行翻译的一部或几部词典,并且类型信息被用来选择所述翻译机的一种运行模式或者一种专用翻译软件。


下面,借助于非限制性的实例并参照附图,将对本发明的一个优选实施例进行说明,在附图中一图1以图解方式来表示根据本发明的一个系统;一图2更详细地示出图1所示的系统。
具体实施例方式
图1所表示的系统包括一个服务提供者3,它允许具有与电信网络2的连接的用户访问一个诸如因特网的公共数据传输网络1,这个网络被连接到各服务器4,后者提供诸如信息分发的不同服务。
用户具有终端11,12,13,它们可以被连接到网络2,以便访问服务提供者3。所述终端可以是个人计算机11,具有通信功能的个人数字助理(PDA)12或者甚至是蜂窝电话13。
根据本发明,服务提供者3包括一个高速缓存服务器5或者一个Web代理服务器(代理/高速缓存),被布置为一个专用于提供自动翻译服务的分流器,这个服务器被连接到翻译服务器6。
如图2更详细地所示,代理/高速缓存服务器5包括用于接收用户在请求步骤31中发出的网页请求的部件21,这些请求遵从例如超文本传送协议(HTTP)。这样的请求显著地包括一个发送请求的终端的标识符,例如发送者的IP(网际协议)地址,以及由服务器4分发的待访问的网页的IP地址。
传统上,接收的HTTP请求被记录在表格23中,并且在步骤32中,在接收时把它重发到网络1。
服务器5还包括在步骤33中用于接收作为对请求的回答而发送的网页的部件22。所述重发部件22提供对表格23的访问,以便根据已接收的网页的地址来确定已接收的网页的收件人的地址。在已经确定所述网页的接收用户之后,所述重发部件22在步骤36中向所述用户重发所述网页。
根据本发明,附带地设计高速缓存服务器5来管理由用户结合网页请求而发出的翻译请求,以便发送由翻译服务器6接收的网页,并且向所述用户发送由服务器6提供的译文。
而且,根据本发明,由服务器4分发的网页通常采取超文本标记语言(HTML)文档的形式,包括一个专门的标签,例如界定主题信息的<主题>…</主题>,并且可能还有一个专门的标签,例如界定内容的类型信息的<类型>…</类型>。由内容提供者或网站编辑插入的该信息允许将主题和类型与一个网页相关联。
要注意的是,这些专门的标签被选择使其不被用户用于显示接收网页的网络浏览器解释。这意味着当在终端的屏幕上显示网页时,网络浏览器不显示这些标签之间的信息。
此外,翻译服务器6还包括一个被连接到主题翻译机16以及可能被连接到一个标准翻译机15的切换服务器14。切换服务器提取并分析与待翻译的每个网页有关的主题和类型,并且把待翻译的每个网页发送到对应于与所述网页有关的主题和/或类型的翻译机16。如果待翻译的网页的主题和/或类型不对应于任何可用主题翻译机16,或者如果在网页上找不到此项信息,则所述网页被发送到标准翻译机15。
可替换地,翻译服务器6可以仅包括单个翻译机,主题和类型信息被用来选择一部或几部待使用的词典,以便进行翻译,并且类型信息被用来选择翻译机的一种运行模式或者一种特定的翻译软件。
在本发明的一个第一替代方案中,用户使用一个允许他输入翻译模式的Web界面,来指示他希望获得他请求的网页的译文。
因此,由服务提供者向所述用户发送的每个网页可以包括例如由服务提供者在运行中例如通过因特网内容适应协议(ICAP,InternetContent Adaptation Protocol)服务插入的一个个性化的大标题(streamer)。这个大标题包括例如一个用户可以做记号以便选择翻译模式或者去除所述记号以便输入正常模式的复选框。
文档准备翻译的目标语言可以是一种预定义的语言,例如服务提供者所在国的语言。
我们还可以计划在翻译模式,给用户借助于选择大标题内的选择字段来选择目标语言的机会。
根据这个复选框的状态并结合用户标识符以及规定由用户选择的目标语言的一个可能参数,翻译请求指示符在表格23或者另一个存储部件25中被记录和更新。
存储部件25可以包括一个访问控制列表(ACL),它管理翻译模式为之激活的用户地址。
存储部件25可以被定位于服务器5中,或者例如借助于网络1,被定位于服务器5中并且由服务器5进行查询。
当重发部件22收到来自网络1的、在表格23中与翻译请求指示符相关的网页时,在步骤34中,它们向翻译服务器6重发所述网页。一旦收到网页,服务器6对它进行分析,以便检测界定所述网页内容的主题和类型的专门标签,考虑由这些标签界定的主题和类型信息来翻译网页中的文本,并且管理表示所述文本的译文的HTML页面。由此产生的HTML译文页面在步骤35中被发送到重发部件22,后者在步骤36中把它重发到所述用户终端。
需要注意的是,HTML译文页面的产生可以简单地由文本区的译文来取代待翻译的页面中的文本区。
以此方式,用户获得所请求的网页的可理解的和贴切的译文。
而且,主题和类型的定义与网页的关联是简单的,因为它所需要的一切就是实现一个标签系统。
可替换地,可以给用户以机会,使他能经由Web界面向访问提供者3配置一个翻译模式参数,指示他是否希望在发送由因特网发出的网页之前获得译文,还可能配置一个规定将翻译的目标语言的参数。这些参数结合用户标识符(IP地址)例如被记录在存储部件25中。只要翻译模式参数指示用户希望获得译文,则重发部件22将向用户发送译文,以取代原先准备向它发送的来自因特网的所有页面。
在这个实施例中,存储部件25还可以位于服务器5中,或者被移开并且例如由服务器5借助于网络1进行查询。
有利的是,通过使用ICAP协议,可以容易地实现刚才已经描述的系统。这个协议专门地被设计用于截取各项请求或者经由代理服务器转发的HTTP答复,并且把这些请求或答复发送到一项特殊业务,后者在重发它们之前对它们进行修改。
当然,可以不使用ICAP协议来实行译文提供服务。它也可以通过使用代理高速缓存服务器的应用程序接口(API,ApplicationProgramming Interface)来执行。
权利要求
1.一种提供由内容提供者(4)借助于数字数据传输网络(1)向众多用户终端(11,12,13)分发的文档的译文的方法,所述文档由标签构成,所述标签由用户终端所执行的网络浏览器处理,其特征在于,它包括下列步骤a.把定义文档的主题的信息插入到由内容提供者(4)分发的至少一个文档中,在所述文档中,该信息由预定义的主题边界标签界定;b.当分发的文档被发送到用户终端(11,12,13)时,截取分发的文档,从分发的文档中提取与所述主题相关的信息,考虑所述主题信息翻译结构化文档,并且将获得的译文插入到从翻译得到的文档中;以及c.把从翻译得到的所述文档发送(36)到用户终端,以取代截取的文档,使得它可以通过网络浏览器在所述终端的屏幕上显示。
2.如权利要求1所述的方法,其特征在于,选择预定义的主题边界标签使之不被网络浏览器解释,使得当在用户终端(11,12,13)的屏幕上显示分发的文档时,不显示所述主题信息。
3.如权利要求1或2所述的方法,其特征在于,被插入到由内容提供者(4)分发的文档中的主题信息与所述文档中的类型信息相关,在文档中,所述类型信息由预定义的类型边界标签来界定,被选择以便不被网络浏览器解释,使得当在用户终端(11,12,13)的屏幕上显示分发的文档时,不显示所述类型信息,考虑所述类型信息而进行文档的翻译。
4.如权利要求1或3所述的方法,其特征在于,仅根据先前的用户请求,将从翻译得到的结构化文档发送到用户终端(11,12,13)以取代截取的文档。
5.如权利要求1至4中的一个所述的方法,其特征在于,在用户向所述网络发出请求之后,从网络(1)向用户终端(11,12,13)发送截取的文档,仅当对于截取的文档的请求包括一个翻译请求指示符时,才向所述用户终端发送从对应于截取的文档的译文得到的文档。
6.如权利要求1至5中的一个所述的方法,其特征在于,所述用户终端(11,12,13)借助于服务提供者(3)访问所述网络(1),当服务提供者(3)接收到来自所述网络的指向与服务提供者连接的用户终端的含有主题信息的文档时,它执行步骤(b)和(c)。
7.如权利要求6所述的方法,其特征在于,它包括一个步骤,由所述用户向所述服务提供者(3)配置一项参数,指示他是否希望获得译文以取代由网络(1)发送给他的文档,只要该参数指示用户希望获得由网络发送的文档的译文,由翻译得到的文档被发送给用户终端(11,12,13)以取代由网络发送的文档。
8.如权利要求1至7中的一个所述的方法,其特征在于,文档被翻译为一种预定义的目标语言。
9.如权利要求1至7中的一个所述的方法,其特征在于,它包括由用户选择翻译文档的目标语言的步骤。
10.如权利要求1至9中的一个所述的方法,其特征在于,它包括一个步骤,根据截取文档的提取主题和/或类型,将截取的文档切换到专用翻译机(16)。
11.如权利要求10所述的方法,其特征在于,如果截取文档的提取主题和/或类型不对应于可用的专用翻译机,或者如果在截取文档中没有主题和/或类型信息,则将截取文档切换到标准翻译机(15)。
12.一种用于提供由内容提供者(4)借助于数字数据传输网络(1)向多个用户终端(11,12,13)分发的文档的译文的系统,所述文档由标签构成,这些标签由用户终端上执行的网络浏览器处理,其特征在于,分发的文档至少部分地包括由预定义的主题边界标签界定的主题信息,所述系统包括—用于截取由网络(1)发送给用户终端(11,12,13)的分发的文档的部件(22);—用于提取截取的文档中的主题信息的部件(14);—考虑从文档中提取的主题信息,对截取的文档进行翻译的部件(14,15,16),以及用于将获得的译文插入翻译所得的结构化文档中的部件;以及—用于向用户终端(11,12,13)发送翻译所得的文档以取代截取的文档,准备经由网络浏览器在终端的屏幕上显示的部件(22)。
13.如权利要求12所述的系统,其特征在于,被插入到由内容提供者(4)分发的文档中的主题信息与所述文档的类型信息相关,类型信息在文档中由预定义的类型边界标签界定,被选择以便不被网页浏览器解释,使得当在用户终端(11,12,13)的屏幕上显示分发的文档时,不显示所述类型信息,翻译部件(14,15,16)考虑所述类型信息以便翻译。
14.如权利要求12或13所述的系统,其特征在于,通过一个向用户终端提供对网络(1)的访问的服务提供者(3)来实现所述系统。
15.如权利要求12至14中的一个所述的系统,其特征在于,使用ICAP协议来实现所述系统,以便截取作为对由用户终端(11,12,13)发出的请求的答复而提供的文档,并将截取的文档发送到文档翻译服务(6)。
16.如权利要求13至15中的一个所述的系统,其特征在于,所述翻译部件包括每一个适用于一个主题和/或类型的专用翻译机(16),标准翻译机(15),切换部件(14),它把每个截取的文档切换到适于截取文档的提取主题和/或类型的翻译机,或者如果截取文档不包括所述主题和/或类型信息,或者如果截取文档的提取主题和/或类型不对应于任何专用翻译机(16),则切换到标准翻译机(15)。
17.如权利要求13至15中的一个所述的系统,其特征在于,所述翻译服务器(6)包括翻译机,所述主题和/或类型信息被用来选择将由所述翻译机用来进行翻译的一部或几部词典,并且所述类型信息被用来选择所述翻译机的运行模式或者专用翻译软件。
全文摘要
本发明涉及用于提供自动网页内容翻译服务的方法和系统。更具体地说,本发明涉及一种提供由内容提供者(4)借助于数据传输网络(1)向众多用户终端(11,12,13)分发的文档的译文的方法。本创新性的方法包括把信息插入到由内容提供者(4)分发的至少一个文档中,所述信息定义所述文档的主题,并且在所述文档内由预定义的主题边界标签界定;当向用户终端(11,12,13)发送分发的文档时,截取分发的文档,从所述文档中提取与主题有关的信息,并且考虑所述主题信息翻译结构化文档;把获得的译文插入从翻译得到的文档中;并通过取代截取的文档向所述用户终端发送从翻译得到的文档,使得它可通过网络浏览器在所述终端的屏幕上显示。
文档编号G06F17/30GK1745379SQ200480003075
公开日2006年3月8日 申请日期2004年1月7日 优先权日2003年1月28日
发明者艾迪安尼·安尼克, 安妮·保特洛克斯, 简-弗兰库伊斯·瑞维尔 申请人:法国电信公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1