机器翻译系统及机器翻译方法

文档序号:6352301阅读:336来源:国知局
专利名称:机器翻译系统及机器翻译方法
技术领域
本发明涉及一种机器翻译文书的构造,尤其涉及一种即时翻译显示在Web页面内的文本的系统等。
背景技术
作为机器翻译Web页面中的文本的装置,已知一种翻译图像内的文字部分的装置(例如参照专利文献I)。专利文献I所记载的装置是按照以下的次序作成仅翻译图像与文字混在一起的图像数据中的文字部分的图像。首先,确定图像与文字混在一起的图像数据中存在文字数据的部分(文字区域)。接着,从文字区域提取文字数据,将所提取的文字数 据转换成文本数据。然后,翻译文本数据,调整翻译数据后将其贴附至文字区域。最后,将贴附着翻译数据的文字区域与原先的图像数据进行合成(参照同文献图2的流程图、图3 图10的说明图等)。
背景技术
文献专利文献专利文献I :日本专利特开2003-122751号公报

发明内容
[发明所要解决的问题]对于利用者来说,当利用因特网上的服务时,若Web页面是以该利用者的使用语言显示则较为便利。但是,对所有Web页面预先准备各国语言的模式不仅费事而且不现实。相对于此,考虑事先以特定的语言作成Web页面,使用例如可机器翻译的装置,SP时地将Web页面中的文本翻译成利用者的使用语言进行提供。但是,多数情况下在提供服务的Web页面中配置着图像,该图像中经常含有文字(图1(a)的110a,此处为日语)。因此,若仅对文本数据进行机器翻译,则图像中的文字不会被翻译(图1(b)的110b,此处译成英文)。这种情况下,通过使用例如专利文献I记载的装置,也可翻译图像内的文字,从而可无损Web页面的美观及布局而进行机器翻译。但是,在专利文献I所记载的装置中,由于是适当提取图像内的文字进行翻译,因此处理需花费时间。由此,对于以即时处理为前提的翻译服务,无法采用专利文献I所记载的装置。本发明是为了解决所述问题研究而成,目的在于提供一种可以在翻译处理前后保持翻译对象页面的视觉格局,并且可实现图像内所包含的文字的翻译处理的高速化的机器翻译系统、机器翻译方法、机器翻译程序及记录着该机器翻译程序的记录介质。[解决问题的技术手段]S卩,本发明的机器翻译系统的特征在于将以特定语言表现的翻译对象的Web页面翻译成其他语言,并提供所翻译的所述Web页面,可连接于存储描述翻译对象的所述Web页面的构造的HTML (Hyper Text Markup Language,超文本标记语言)数据及由该HTML数据参照的图像数据的Web数据存储机构、及存储用于文本的翻译处理的词典数据的翻译数据存储机构,所述HTML数据是以组的形式包含含有文字且经可视化的图像相关的描述、在与该图像的显示位置相对应的特定位置设定着显示位置、不含文字且非可视化的背景图像相关的描述、以及在与该背景图像重叠的特定位置的前面设定着显示位置且非可视化的特定语言的文本相关的描述,该机器翻译系统包括翻译请求接收机构,从浏览所述Web页面的用户终端接收包含与翻译对象的所述Web页面相对应的URL (Uniform ResourceLocator,统一资源定位符)及指定翻译目标语言的指定数据的翻译请求;HTML数据取得机构,从所述Web数据存储机构取得与所述翻译请求中所包含的所述URL相对应的描述所述Web页面的构造的所述HTML数据;翻译机构,参照由所述翻译数据存储机构所存储的所述词典数据,将由所述HTML数据取得机构所取得的所述HTML数据中所包含的文本翻译成与所述翻译请求中所包含的所述指定数据相对应的翻译目标语言;可视化要素切换机构,使由所述HTML数据取得机构所取得的所述HTML数据中所包含的非可视化的文本及所述背景图像可视化,并且使该HTML数据中所包含的经可视化的所述图像非可视化;已翻译的HTML数据发送机构,使用由所述翻译机构所翻译的文本重组由所述HTML数据取得机构所取得的所述HTML数据,并将其发送至所述终端;及图像数据发送机构,根据来自所述终端的指 定所述图像数据的发送请求,从所述Web数据存储机构读出所指定的所述图像数据并将其发送至该终端。所述可视化要素切换机构优选为将文本的文字色属性自透明变更为有色,将包含文本的区域的显示属性自隐藏变更为显示或删除插入包含文本的区域的标签的注释标签,由此使非可视化的文本可视化。所述可视化要素切换机构优选为将所述背景图像的显示属性自隐藏变更为显示,将包含所述背景图像的区域的显示属性自隐藏变更为显示,删除插入与所述背景图像相对应的标签的注释标签,由此使非可视化的所述背景图像可视化。所述可视化要素切换机构优选为将所述图像的显示属性自显示变更为隐藏,删除与所述图像相对应的标签,以注释标签插入与所述图像相对应的标签,将包含所述图像的区域的显示属性自显示变更为隐藏或以注释标签插入与包含所述图像的区域相对应的标签,由此使经可视化的所述图像非可视化。所述已翻译的HTML数据发送机构也可将由所述HTML数据取得机构所取得的所述HTML数据的基准URL变更为所述翻译请求中所包含的翻译对象的所述Web页面的所述URL。所述已翻译的HTML数据发送机构也可以在由所述翻译机构所翻译的文本长度、与由所述HTML数据取得机构所取得的所述HTML数据中所包含的特定的文本长度相比为长于一定值以上的情况下,修正由所述翻译机构所翻译的文本的长度使其变短。而且,本发明的机器翻译方法的特征在于利用将以特定语言表现的翻译对象的Web页面中的文本翻译成其他语言,并提供所翻译的所述Web页面的机器翻译系统,所述机器翻译系统可连接于存储描述翻译对象的所述Web页面的构造的HTML数据及由该HTML数据参照的图像数据的Web数据存储机构、及存储用于文本的翻译处理的词典数据的翻译数据存储机构,所述HTML数据以组的形式包含含有文字且经可视化的图像相关的描述、在与该图像的显示位置相对应的特定位置设定着显示位置、不含文字且非可视化的背景图像相关的描述、及在与该背景图像重叠的特定位置的前面设定着显示位置且非可视化的特定语言的文本相关的描述,所述机器翻译系统执行如下步骤翻译请求接收步骤,从浏览所述Web页面的用户终端接收包含与翻译对象的所述Web页面相对应的URL及指定翻译目标语言的指定数据的翻译请求;HTML数据取得步骤,从所述Web数据存储机构取得与所述翻译请求中所包含的所述URL相对应的描述所述Web页面的构造的所述HTML数据;翻译步骤,参照由所述翻译数据存储机构所存储的所述词典数据,将通过所述HTML数据取得步骤所取得的所述HTML数据中所包含的文本翻译成与所述翻译请求中所包含的所述指定数据相对应的翻译目标语言;可视化要素切换步骤,使通过所述HTML数据取得步骤所取得的所述HTML数据中所包含的非可视化的文本及所述背景图像可视化,并且使该HTML数据中所包含的经可视化的所述图像非可视化;已翻译的HTML数据发送步骤,利用由所述翻译步骤所翻译的文本重组由所述HTML数据取得步骤所取得的所述HTML数据,并将其发送至所述终端;及图像数据发送步骤,根据来自所述终端的指定所述图像数据的发送请求,从所述Web数据存储机构读出所指定的所述图像数据并将其发送至该终端。
而且,本发明的机器翻译程序构成为,用于使I个或多个计算机实现所述任一机器翻译系统具备的各机构作为功能。此外,本发明的记录介质构成为,可由计算机读取,且记录如下程序,该程序用于使I个或多个计算机实现所述任一机器翻译系统具备的各机构作为功能。[发明的效果]本发明的机器翻译系统预先将至少包含一组的含有文字且经可视化的图像的参照数据(URL)、在与该图像的显示位置相对应的区域设定着显示位置、不含文字且非可视化的背景图像的参照数据(URL)及文本数据的HTML数据存储在Web数据存储机构中,在翻译处理时以文本数据的显示位置较背景图像的显示位置更靠近前的方式使该非可视化的背景图像的图像数据及文本数据可视化,并且使该经可视化的图像的图像数据非可视化。如上所述,通过预先将Web页面局部地作成3层构成(经可视化且含有文字的图像层、非可视化且不含文字的图像层及非可视化的文本层),可以在翻译前显示含有文字的图像,因此不仅美观且显示速度快。而且,通过切换翻译处理时所显示的要素,在对该Web页面(HTML数据)进行机器翻译时,于显示有含有文字的图像的区域显示背景图像及翻译后的文本。由此,可消除图像内的文字未被翻译而直接显示的状况,并且可以在翻译处理前后保持翻译对象页面的视觉格局。


图I (以往例)(a)是表示翻译前的Web页面的一部分的图,(b)是表示翻译后的Web页面的一部分的图。图2是表示实施方式的系统的构成例的图。图3 (a-1)是表示翻译前的Web页面的一部分的图,(a_2)是表示翻译前的Web页面具有的非可视化的图像数据的图,(a_3)是表示翻译前的Web页面具有的非可视化的文本数据,(b)是表示翻译后的Web页面的一部分的图。图4是表不图2所不的系统的机器翻译次序的序列图。图5是表示翻译请求的主要项目的图。
图6 (a)是表示翻译前的HTML源的一部分的图,(b)是表示翻译后的HTML源的一部分的图。图7是表不翻译处理的流程的流程图。图8(变形例I) (a)是表示翻译前的Web页面的一部分的图,(b)是表示翻译后的Web页面的一部分的图。图9(变形例2)(a_l)是表示翻译前的Web页面的一部分的图,(a_2)是表示翻译前的Web页面具有的非可视化的数据,(b)是表示翻译后的Web页面的一部分的图。图10 (变形例I) (a)是表示翻译前的HTML源的一部分的图,(b)是表示翻译后的HTML源的一部分的图。图11 (变形例I)是表示翻译处理的流程的流程图。·图12 (变形例2) (a)是表示翻译前的HTML源的一部分的图,(b)是表示翻译后的HTML源的一部分的图。图13 (变形例2)是表示翻译处理的流程的流程图。图14 (其他实施方式)是表示系统构成的变形例的图。图15(其他实施方式)是表不系统构成的变形例的图。图16 (其他实施方式)是表示HTML数据的源的记载例。图17 (其他实施方式)是表示样图的源的记载例。图18 (其他实施方式)是表示日语Web页面的显示例。图19 (其他实施方式)是表示非可视化的背景图像的一例。图20 (其他实施方式)是表示非可视化的日语文本的一例。图21 (其他实施方式)是表示英语Web页面的显示例。图22 (其他实施方式)是表示汉语Web页面的显示例。图23(其他实施方式)是表不韩语Web页面的显不例。[符号的说明]10机器翻译系统IlWeb 服务器12翻译服务器13ffebDB14 翻译 DB20用户终端3O因特网40路由器
具体实施例方式< 定义 >以下的说明中所使用的用语的意义分别设为如下所述的定义。·机器翻译…利用计算机等不透过人手而自动地进行的翻译。·可视化…包含可使用户进行视认的处理的概念。 非可视化…包含使用户无法视认的处理的概念。例如可考虑设定为隐藏,设定为透明,删除要素,对要素进行注解排除等处理形态。<实施方式>[I实施方式的概要]参照图2 图7说明本实施方式的概要。本实施方式的系统对浏览Web页面的用户提供将Web页面内以第I语言(特定语言)显示的部分翻译成各用户所指定(选择)的第2语言(其他语言)的服务(机器翻译服务)者。此外,在以下的说明中,使用将Web页面内的日语部分翻译成英语的例。[1-1.系统的构成]
如图2所示,本实施方式的系统整体而言是由提供Web页面的Web服务器11、进行翻译处理的翻译服务器12及包含Web浏览器的用户终端20构成。Web服务器11可连接于至少存储描述Web页面的构造的HTML数据及该HTML数据参照的数据(例如图像数据)的WebDB (Web数据存储机构)13。另一方面,翻译服务器12可连接于至少存储进行Web页面的机器翻译处理时所参照的词典数据的翻译DB(翻译数据存储机构)14。Web服务器11及翻译服务器12作为包含CPU (central processing unit,中央处理器)、ROM (read only memory,只读存储器)、RAM (random access memory,随机存取存储器)、硬盘及通讯装置等的普通计算机而构成,用户终端20构成为除了具备所述构成要素以外还具备接收来自用户的操作的操作部及可显示Web页面的显示部。此外,存储在翻译DB 14中的词典数据包括定义有词汇及语法的数据、及通过统计学习方法而构筑的模型。而且,也可存储对特定语句规定特定译词的数据。在本实施方式中,将WebDB 13、翻译DB 14构筑于分别连接于Web服务器11、翻译服务器12的外部的存储装置中,但只要读出所存储的信息则也可构筑于内置于Web服务器11或翻译服务器12的存储装置中。Web服务器11与翻译服务器12通过通讯网络(本实施方式中为LAN(localareanetwork,区域网络)等专用网络)而相互连接,形成机器翻译系统10。而且,用户终端20可透过通讯网络(于本实施方式中为因特网30)分别与Web服务器11及翻译服务器12连接。此外,Web服务器11、翻译服务器12、用户终端20之间的通讯通过路由器40而控制。[1-2.实施方式的主要特征]实施方式的主要特征在于预先将至少包含一组的含有文字且经可视化的图像的参照数据(URL)、在与该图像的显示位置相对应的区域设定着显示位置、不含文字且非可视化的图像(背景图像)及文本数据的HTML数据存储在WebDB 13中,在进行翻译处理时以文本数据的显示位置较背景图像的显示位置更靠近前的方式使该非可视化的背景图像数据及文本数据可视化,并且使该经可视化的图像数据非可视化。如此,通过预先将Web页面局部地作成3层构成(经可视化且含有文字的图像层、非可视化且不含文字的背景图像层及非可视化的文本层),可以在翻译前显示含有文字的图像,因此不仅美观且显示速度快。而且,通过切换翻译处理时所显示的要素,在对该Web页面(HTML数据)进行机器翻译时,于显示有含有文字的图像的区域显示背景图像及翻译后的文本。由此,可消除图像内的文字未被翻译而直接显示的状况,并且可以在翻译处理前后保持翻译对象页面的视觉格局。
图3表示实施方式中的翻译前后的Web页面的一部分。在翻译前的Web页面中,显示有通常的文本510a与含有日语文字的图像520 (图3 (a-1))。而且,翻译前的Web页面中,包含在与图像520的显示位置相对应的区域(或与图像520重叠的区域)设定着显示位置、不含文字且非可视化的图像540 (图3 (a-2))。另外,包含在与图像540重叠的区域设定着显示位置且非可视化的日语的文本数据530a (图3(a_3))。另一方面,在翻译后的Web页面中,显示有将文本510a翻译成英语而成的文本510b、图像540及将文本530a翻译成英语而成的文本530b (图3 (b))。此外,由于图像520为非可视化,因此于翻译后的Web页面内无法视认。[2.机器翻译的次序][2-1.机器翻译次序的概要]参照图4的序列图简单说明使用本实施方式的系统的机器翻译处理的流程及数据的流程。如图4所示,构成机器翻译系统10的Web服务器11及翻译服务器12根据下述 [次序I] [次序4]而于用户终端20显示翻译后的Web页面。此外,在图4的序列图中,附注有所参照的其他图式的编号。而且,执行次序I之前,通过Web服务器11,将描述Web页面的构造的HTML数据及由该HTML数据参照的数据存储在WebDB 13中,通过翻译服务器12将进行Web页面的机器翻译处理时所参照的词典数据存储在翻译DB14中。[次序I]前提为用户终端20显示有自Web服务器11所提供的Web页面(S505a),并将该Web页面设为翻译对象的Web页面(图3(a_l))。而且,在翻译对象的Web页面中,显示有用以选择翻译后的语言并请求进行翻译的要素(例如,下拉菜单,选项按钮,下拉菜单或选项按钮与按钮图像或链接的组合)。在翻译对象的Web页面中若用户进行指定(选择)翻译后的语言,并请求进行翻译的特定操作,则用户终端20向翻译服务器12请求进行Web页面的翻译(S510a)。于图5中,例示翻译请求的主要项目。翻译请求包括“翻译处理程序的URL”,“翻译对象Web页面的URL”,“第I语言(翻译对象Web页面的语言)的指定数据”,“第2语言(翻译目标语言)的指定数据”及“文本数据的字元码”。在本实施方式中,将以下设URL参数为“翻译对象Web页面的URL”的HTTP (Hyper Text Transfer Protocol,超文本传送协定)请求作为翻译请求。此外,也可以其他形式发送图5所示的各项目。[次序2]若翻译服务器12自用户终端20收到翻译请求(S510b,翻译请求接收步骤),则向Web服务器11请求进行与所接收的“翻译对象Web页面的URL”相对应的HTML数据的发送(S515b)。若Web服务器11自翻译服务器12收到HTML数据的发送请求(S515c),则自WebDB 13读出或生成与所接收的“翻译对象Web页面的URL”相对应的HTML数据(翻译前的HTML数据),并将其发送至翻译服务器12 (S520c, HTML数据取得步骤)。[次序3]若翻译服务器12自Web服务器11收到翻译前的HTML数据(S520b),则将所接收的翻译前的HTML数据作为对象而执行机器翻译处理,并将翻译后的HTML数据即重组的HTML数据发送至用户终端20 (S525b,已翻译的HTML数据发送步骤)。此外,关于机器翻译处理的流程及翻译前后的HTML数据,另设项目进行详细说明(参照下述的图6、7)。
[次序4]若用户终端20自翻译服务器12收到翻译后的HTML数据(S525a),则对所接收的HTML数据进行解释并显示无图像的Web页面(S530a),并且向Web服务器11请求进行该HTML数据参照的图像数据的发送(S535a)。若Web服务器11收到图像数据的发送请求(S535c),则自WebDB 13读出所指定的图像数据,并将其发送至用户终端20(S540c,图像数据发送步骤)。若用户终端20自Web服务器11收到图像数据(S540a),则于已显示的Web页面内的特定位置上追加显示图像(S545a)。显示结束后的Web页面如上所示(图3(b))。如上所述,在本实施方式中,翻译服务器12作为翻译请求接收机构及已翻译的HTML数据发送机构而发挥功能,Web服务器11作为HTML数据取得机构及图像数据发送机构而发挥功能。[2-2.实施方式的机器翻译处理次序等]
[ (a)翻译前的HTML数据]于图6(a)中,例示实施方式中的翻译前的HTML数据的一部分。在翻译前的HTML数据中,除包含日语的文本数据915a以外,还包含图像的参照数据925a、955a与日语的文本数据935a。而且,在若干标签中,根据样图(CSS形式)而设定式样。文本数据915a、图像的参照数据925a分别与翻译前的Web页面(图3(a_l))的文本510a、图像520相对应。而且,图像的参照数据955a、文本数据935a与翻译前的Web页面具有的非可视化的图像数据540 (图3 (a-2))、文本数据530a (图3 (a_3))相对应。图像的参照数据925a所参照的图像设定为于距离特定区域(宽度为840像素,高度为120像素)的上方O像素,距离左边O像素的位置上对准左上的顶点,且以宽度840像素,高度120像素进行显示。另一方面,图像的参照数据955a所参照的图像设定为于距离所述特定区域(宽度为840像素,高度为120像素)的上方O像素,距离左边O像素的位置上对准左上的顶点,且以宽度840像素,高度120像素进行显示。即,该图像的显示位置设定在与参照数据925a所参照的图像相同的位置上。但是,由在与参照数据955a相对应的图像为非可视化(将显示属性的值设定为隐藏(hidden)),因此无法于Web浏览器的窗口内进行视认。并且,与文本数据935a相对应的文本设定为显示在距离所述特定区域(宽度为840像素,高度为120像素)的上方30像素的位置上(此处为中心对准等)。即该文本的显示位置设定在与参照数据955a所参照的图像相同的位置上。但是,由在与文本数据935a相对应的文本非可视化(将文字色属性的值设定为透明(transparent)),因此无法于Web浏览器的窗口内进行视认。此外,由于Web页面内的要素按照HTML的描述顺序重叠(将后描述的要素显示在前面),因此于图6 (a)的例中并未特别设定,但也可明确地设定重叠的顺序。重叠顺序可根据例如“z-index”属性的值(数值)的大小而设定。[ (b)翻译处理]参照图7的流程图详细说明实施方式中的翻译处理的流程。如图7所示,翻译服务器12根据下述[次序31] [次序34]翻译HTML数据。[次序31]变更HTML数据的基准URL(S810)。具体而言,以绝对URL形式描述以相对URL形式所描述的参照数据等(例如,参照数据925a、955a(图6(a))中的src属性的值)的URL为基准的URL作为〈base〉标签的href属性的值。此处,将自用户终端20所接收的检索请求(图5)中所包含的“翻译对象Web页面的URL”作为基准URL。此外,若以HTML数据内的URL均以绝对URL形式描述为前提,则也可省略变更基准URL的处理。而且,即便将以相对URL形式所描述的所有URL个别地覆写成绝对URL形式也可获得相同的效果。[次序32]提取一个于HTML数据内成为要素(element)的内容(content)的文本数据(S820),将所提取的文本数据(原文)自“第I语言”翻译成“第2语言”并生成译文(S830,翻译步骤)。此外,翻译服务器12于进行文本的翻译时参照存储在翻译DB 14中的词典数据。·
[次序33]视需要修正译文的长短(S840),将所提取的文本数据替换成译文(S850)。例如,对翻译前后的文字行长进行比较之后对译文长度进行修正即可。具体而言,在翻译前后的文字行长的差量为特定值以上(一定值以上)的情况下,根据差量修正译文的长度使其变短。此外,也可自译文中提取满足特定条件的语句,替换成通过特定方法所生成的省略语。这种情况下,另行生成记载有省略语的定义的Web页面后,在翻译后的Web页面中显示向记载有省略语的定义的Web页面的链接即可。而且,也可构成为当省略语中合并有指标时将省略对象语句以弹出框显示。[次序34]判定所翻译的文本数据是否为HTML数据内成为要素的内容的最后的文本数据(S860)。具体而言,检索HTML数据内成为要素的内容的下一个文本数据,当未检测出下一个文本数据时,判定的前所翻译的文本数据为最后的文本数据。当并非最后的文本数据时(S860中为否),返回至所述[次序32],对下一个文本数据重复进行提取 替换的处理([次序32] [次序33])。另一方面,在为最后的文本数据时(S860中为是),退出循环。[次序35]使非可视化的所有译文可视化(S1070,可视化要素切换步骤),并且使非可视化的所有图像可视化(S1075,可视化要素切换步骤)。例如,在图6(a)的例中,删除class属性的值为“class_ll”的“<div>”标签的class属性。由此,与文本数据935a相对应的文本(明确地非可视化的文本)于翻译成英语的状态下继承包含元素(containing element)的属性而被可视化(将文字色属性自透明变更为有色)。而且,将class属性的值为“claSS_22”的标签的class属性的值变更为“ClaSS_21”。由此,与图像的参照数据955a相对应的图像(明确地非可视化的背景图像)明确地被可视化(将显示属性自隐藏变更为显示)。并且,使与利用S1070、S1075的处理被可视化的译文或图式重叠的所有图像非可视化(S1085,可视化要素切换步骤)。例如,在图6(a)的例中,将class属性的值为“ClaSS_21”的标签的class属性的值变更为“claSS_22”。由此,与图像的参照数据925a相对应的图像(明确地经可视化的图像)明确地非可视化(将显示属性自显示变更为隐藏)。此外,译文的可视化及/或图像的非可视化可如上所述统一应用class属性而进行,也可针对每个符合的标签个别地进行。[ (c)翻译后的HTML数据]
于图6(b)中,例示实施方式中的翻译后的HTML数据的一部分。图6 (b)为通过图7的流程图所示的处理对图6 (a)的HTML数据进行翻译后的HTML数据。翻译后的HTML数据中包含将文本数据915a翻译成英语而成的文本数据915b、使参照数据925a非可视化而成的参照数据925b、使参照数据955a可视化而成的参照数据955b、将文本数据935a翻译成英语且经可视化的文本数据935b。而且,追加明确表示基准URL的标签945b。文本数据915b、文本数据935b分别与翻译后的Web页面(图3(b))的文本510b、文本530b相对应。此外,文本数据915b的文字大小通过所述[次序33]的修正处理(图7的S840)修正为通常的90%。对于其他数据的设定,除明确表示者以外并无特别变更。如上所述,在本实施方式中,翻译服务器12作为翻译机构及可视化要素切换机构而发挥功能。[3.变形例等] [3-1.变形例的概要]以下,对两个变形例进行说明。此外,变形例1、2的系统与实施方式的系统同样地构成,仅机器翻译处理的流程及翻译前后的HTML数据不同。由此,以下将考虑说明理解的容易性而以不同点为中心进行说明。[ (a)变形例I的主要特征]变形例I的主要特征在于如下的方面预先将至少包含一组的不含文字的图像的参照数据(URL)及在与该图像重叠的区域的前面设定着显示位置的文本数据的组合的HTML数据存储在WebDB 13中。如上所述,通过预先将Web页面局部地作成2层构成(不含文字的图像层及文本层),在对该Web页面(HTML数据)进行机器翻译时,在与不含文字的图像重叠的区域的前面显示翻译后的文本。在该方面而言,可消除图像内的文字未被翻译而直接显示的状况。图8表示变形例I中翻译前后的Web页面的一部分。在翻译前的Web页面中,除显示日语的通常的文本310a以外,也显示有不含文字的图像320及在与图像320重叠的区域的前面设定着显示位置的日语的文本330a(图8(a))。另一方面,在翻译后的Web页面中,显示有将文本310a翻译成英语而成的文本310b、于翻译前后无变化的图像320与将文本330a翻译成英语而成的文本330b (图8 (b))。[ (b)变形例2的主要特征]变形例2的主要特征在于如下的方面预先将至少包含一组的含有文字且经可视化的图像的参照数据(URL)及在与该图像重叠的区域设定着显示位置且非可视化的文本数据的HTML数据存储在WebDB 13中,在进行翻译处理时使该非可视化的文本数据可视化,并且使该经可视化的图像数据非可视化。如上所述,通过预先将Web页面局部地作成两层构成(含有文字的图像层及非可视化的文本层),并切换翻译处理时所显示的层,对该Web页面(HTML数据)进行机器翻译时,于显示有含有文字的图像的区域显示翻译后的文本。在该方面而言,可消除图像内的文字未被翻译而直接显示的状况。图9表示变形例2中的翻译前后的Web页面的一部分。在翻译前的Web页面中,显示有日语的通常的文本410a与含有文字的图像420 (图9 (a_l))。而且,翻译前的Web页面包含在与图像420重叠的区域设定着显示位置且非可视化的日语的文本数据430a(图9(a-2))。另一方面,在翻译后的Web页面中,显示有将文本410a翻译成英语而成的文本410b与将文本430a翻译成英语而成的文本430b(图9(b))。此外,由于图像420非可视化,因此于翻译后的Web页面内无法进行视认。[ (C)变形例的机器翻译次序等]
使用变形例的系统的机器翻译处理的流程及数据的流程与使用实施方式的系统的机器翻译处理的流程及数据的流程相同(图4)。而且,关于翻译请求的主要项目也相同(图 5)。[3-2.变形例I的翻译处理等][ (a)翻译前的HTML数据]于图10(a)中,例示变形例I中的翻译前的HTML数据的一部分。在翻译前的HTML数据中,除包含日语的文本数据710a以外,也包含图像的参照数据720与日语的文本数据730a。而且,在若干标签中,根据样图(CSS形式)而设定式样。文本数据710a、图像的参照数据720、文本数据730a分别与翻译前的Web页面(图8(a))的文本310a、图像320、文本330a相对应。图像的参照数据720所参照的图像设定为于距离特定区域(宽度为840像素,高度为120像素)的上方O像素,距离左边O像素的位置上对准左上的顶点,并以宽度840像素,高度120像素进行显示。另一方面,与文本数据730a相对应的文本设定为如通常般显示在距离所述特定区域(宽度为840像素,高度为120像素)的上方30像素的位置上(此处为中心对准等)。因此,在所述的特定区域中,图像与文字重叠而显示。此外,Web页面内的要素按照HTML的描述顺序重叠(将后面所描述的要素显示在前面),因此于图10(a)的例中并未特别设定,但也可明确地设定重叠的顺序。重叠顺序可根据例如“z-index”属性的值(数值)的大小而设定。[(b)翻译处理]图11的流程图表示变形例I中的翻译处理的流程。此外,在图11的流程图中,附有与图7的流程图所示的处理相同的符号的处理是表示相同的处理。如图11所示,翻译服务器12根据所述[次序31] [次序34](与实施方式相同)翻译HTML数据。[ (c)翻译后的HTML数据]图10(b)中例示变形例I中的翻译后的HTML数据的一部分。图10(b)通过图11的流程图所示的处理对图10(a)的HTML数据进行翻译后的HTML数据。翻译后的HTML数据中包含将文本数据710a翻译成英语而成的文本数据710b、于翻译前后无变化的图像的参照数据720、将文本数据730a翻译成英语而成的文本数据730b。而且,追加明确表示基准URL的标签740b。文本数据710b、图像的参照数据720、文本数据730b分别与翻译后的Web页面(图8(b))的文本310b、图像320、文本330b相对应。此外,文本数据710b的文字大小通过所述[次序33]的修正处理(图11的S840)而修正为通常的90%。其他数据的设定并无特别变更。[3-3.变形例2的翻译处理等] [ (a)翻译前的HTML数据]图12(a)中例示变形例2中的翻译前的HTML数据的一部分。在翻译前的HTML数据中,除包含日语的文本数据910a以外,也包含图像的参照数据920a、日语的文本数据930a。而且,在若干标签中,根据样图(CSS形式)而设定式样。文本数据910a、图像的参照数据920a分别与翻译前的Web页面(图9(a_l))的文本410a、图像420相对应。而且,文本数据930a与翻译前的Web页面具有的非可视化的文本数据430a (图9(a_2))相对应。图像的参照数据920a所参照的图像设定为于距离特定区域(宽度为840像素,高度为120像素)的上方O像素,距离左边O像素的位置上对准左上的顶点,并以宽度840像素,高度120像素进行显示。另一方面,与文本数据930a相对应的文本设定为如通常般显示在距离所述特定区域(宽度为840像素,高度为120像素)的上方30像素的位置上(此处为中心对准等)。但是,由在与文本数据930a相对应的文本非可视化(将文字色属性的值设定为透明(transparent)),因此于Web浏览器的窗口内无法进行视认。[(b)翻译处理]参照图13的流程图说明变形例2中的翻译处理的流程。如图13所示,翻译服务器12除根据所述[次序31] [次序34](与实施方式及变形例I相同)以外,也根据下述[次序36]而翻译HTML数据。此外,在图13的流程图中,附有与图7的流程图所示的处 理相同的符号的处理是表不相同的处理。[次序36]使非可视化的所有译文可视化(S1070),并且使与经可视化的译文重叠的所有图像非可视化(S1080)。例如,在图12(a)的例中,删除class属性的值为“class_ll”的“<div>”标签的class属性。由此,与文本数据930a相对应的文本(明确地非可视化的文本)继承包含元素的属性并被可视化(将文字色属性自透明变更为有色)。而且,将class属性的值为“claSS_21”的标签的class属性的值变更为“class_22”。由此,与图像的参照数据920a相对应的图像(明确地经可视化的图像)明确地未被可视化(将显示属性自显示变更为隐藏)。此外,译文的可视化及/或图像的非可视化可如上所述统一应用class属性而进行,也可针对每个符合的标签个别地进行。[ (c)翻译后的HTML数据]图12(b)中例示变形例2中的翻译后的HTML数据的一部分。图12(b)通过图13的流程图所示的处理对图12(a)的HTML数据进行翻译后的HTML数据。翻译后的HTML数据中包含将文本数据910a翻译成英语而成的文本数据910b、使参照数据920a非可视化而成的参照数据920b、将文本数据930a翻译成英语且经可视化的文本数据930b。而且,追加明确表示基准URL的标签940b。文本数据910b、文本数据930b分别与翻译后的Web页面(图9(b))的文本410b、文本430b相对应。此外,文本数据910b的文字大小通过所述[次序33]的修正处理(图13的S840)而修正为通常的90%。对于其他数据的设定,除明确表示者以外并无特别变更。[3-4.]系统构成的变形例[ (a)翻译服务器为远程的构成]于所述的实施方式及变形例中,透过LAN等专用网络将Web服务器11与翻译服务器12连接(图2)。此假设两个服务器处于同一企业者的管理下的构成。与此相对,如图14所示,也可透过因特网30等公共网络将Web服务器11与翻译服务器12连接。此假设Web服务器11或翻译服务器12为远程(例如其他事业所,远程的数据中心,他企业者的管理下等)的构成。
[ (b)ffeb服务器具备翻译处理功能的构成]于所述的实施方式及变形例中,通过Web服务器11与翻译服务器12而构成机器翻译系统10(图2)。此使每个硬体特定化为特定的处理功能而实现负载分散的构成。与此相对,也可构成为Web服务器11执行机器翻译处理的所有步骤。这种情况下,如图15所示,Web服务器11包含WebDB 13与翻译DB 14。而且,从用户终端20接收翻译请求,取得翻译对象的HTML数据,执行翻译处理,并发送翻译后的HTML数据及必需的图像数据的处理的主体均为Web服务器11。[3-5.处理分担的变形例]于所述的实施方式及变形例中,Web服务器11特定化为发送HTML数据或图像数据的处理。同样地,翻译服务器12特定化为自用户终端20接收翻译请求生成翻译后的HTML数据,并将其发送至用户终端20的处理(图4)。与此相对,也可构成为Web服务器11承担 自用户终端20接收翻译请求的处理及将翻译后的HTML数据发送至用户终端20的处理,而翻译服务器12仅特定化为Web页面的翻译处理(图7、图11、图13的S810 S860)。[3_6·机器翻译程序]于所述的实施方式及变形例中,对机器翻译系统或机器翻译方法进行了说明,但本发明也可作为用以使一台或复数台计算机实现作为所述机器翻译系统具备的各机构的功能的机器翻译程序而提供。该机器翻译程序构成为例如除具备主模组以外也具备分别与各机构相对应的模组。而且,机器翻译程序由ROM等记录介质或半导体记忆体等提供。而且,机器翻译程序也可透过网络而作为数据信号提供。[3-7.式样设定的变形例][(a)非可视化的文本的可视化的变形例]于使非可视化的文本可视化的处理中,在考虑与其他的设定项目的匹配性后,也可采用例如以下的方法。 将<div>要素的visibility属性(显示属性)自“hidden”变更为“visible”(预设)。·删除插入有文本数据本身或将该文本数据作为内容的要素整体的注释标签。[(b)非可视化的图像的可视化的变形例]于使非可视化的图像可视化的处理中,在考虑与其他的设定项目的匹配性后,也可采用例如以下的方法。·将<div>要素的visibility属性(显示属性)自“visible” (预设)变更为“hidden”。·删除插入有图像数据本身或将该图像数据作为内容的要素整体的注释标签。·将<div>要素或<img>标签的diaplay属性(显示形式)自“none”变更为“block”。[(c)经可视化的图像的非可视化的变形例]于使经可视化的图像非可视化的处理中,在考虑与其他的设定项目的匹配性后,也可采用例如以下的方法。·以注释标签插入<div>要素整体或<img>标签(进行注解排除)。·删除<div>要素整体或<img>标签。
·将<div>要素的visibility属性(显示属性)自“visible” (预设)变更为“hidden”。·将<div>要素或<img>标签的display属性(显示形式)变更为“none”。[(d)非可视化的概念]于所述的实施方式及变形例2中,将非可视化的用语用作包含为了 “完全无法视认”而进行的处理的概念。与此相对,即便通过设定为半透明、提高透射性、进行灰视、设定为极浅的颜色(将RGB的各值大体上均设定为200以上)等使用户“几乎无法视认”的处理,有时也发挥与“非可视化”同样的效果。因此,该等处理也与“非可视化”实质上等价。[3-8.式样设定的变形例]于所述的变形例I中,对HTML的标签个别地设定式样(图10)。而且,在所述的实施方式及变形例2中,将HTML源内所定义的式样应用于附有特定的类型名的所有标 签中(图6、图12)。与此相对,也可通过参照以特定的样图语言(例如,CSS(CascadingStyleSheets,串接式表单))所描述的外部档案应用式样。而且,也可均根据HTML标签的属性设定式样。[4.源编码的记载例,Web页面的显示例]以下以将日语Web页面翻译成其他语言(英语、汉语或韩语)的情况为一例进行说明。在图16中表示机器翻译前的HTML的源的例。对于图16所例示的HTML的源,与图17所例示的样图的源(档案名为“test.css”)相关联。HTML数据中的文本的显示位置配合图19所例示的背景图像(档案名为“test.gif”),如图20所例示般而分别设定。此外,图20将背景设为灰色而表示以使最上部的白色文字变得明确。于图18中,表示将图16所例示的HTML的源读入至Web浏览器中而成的Web页面显示例。在翻译前的Web页面中,使含有日语的图像(档案名为“first, gif”)可视化,并且使图19所例示的背景图像及图20所例示的文本非可视化。如上所述,通过将图像、背景图像及文字部分加以分离而作成3层构成(图像层、背景图像层、文本层),翻译前的Web页面可仅通过含有文字的图像而显示,因此不仅美观且显示速度快。于进行翻译处理时,从图像层向背景图像层及文本层进行切换,使用文本层进行翻译。由此,可仅将文字部分作为机器翻译的对象。在图21 23中表示翻译后的显示例。图21翻译成英语的显示例,图22翻译成汉语的显示例,图23翻译成韩语的显示例。图21 23所示的显示例即便与和文字一体化的图像(图18)相比,也具有充分的表现性,且于翻译iu后保持视觉格局。
权利要求
1.一种机器翻译系统,其特征在于将以特定语言表现的翻译对象的Web页面翻译成其他语言,并提供所翻译的所述Web页面, 可连接于存储描述翻译对象的所述Web页面的构造的HTML数据及由该HTML数据参照的图像数据的Web数据存储机构、及 存储用于文本的翻译处理的词典数据的翻译数据存储机构, 所述HTML数据以组的形式包含含有文字且经可视化的图像相关的描述、在与该图像的显示位置相对应的特定位置设定着显示位置、不含文字且非可视化的背景图像相关的描述、及在与该背景图像重叠的特定位置的前面设定着显示位置且非可视化的特定语言的文本相关的描述, 该机器翻译系统包括 翻译请求接收机构,从浏览所述Web页面的用户终端接收包含与翻译对象的所述Web页面相对应的URL及指定翻译目标语言的指定数据的翻译请求; HTML数据取得机构,从所述Web数据存储机构取得与所述翻译请求中所包含的所述URL相对应的描述所述Web页面的构造的所述HTML数据; 翻译机构,参照由所述翻译数据存储机构所存储的所述词典数据,将由所述HTML数据取得机构所取得的所述HTML数据中所包含的文本翻译成与所述翻译请求中所包含的所述指定数据相对应的翻译目标语言; 可视化要素切换机构,使由所述HTML数据取得机构所取得的所述HTML数据中所包含的非可视化的文本及所述背景图像可视化,并且使该HTML数据中所包含的经可视化的所述图像非可视化; 已翻译的HTML数据发送机构,使用由所述翻译机构所翻译的文本重组由所述HTML数据取得机构所取得的所述HTML数据,并将其发送至所述终端 '及 图像数据发送机构,根据来自所述终端的指定所述图像数据的发送请求,从所述Web数据存储机构读出所指定的所述图像数据并将其发送至该终端。
2.根据权利要求I所述的机器翻译系统,其中所述可视化要素切换机构将文本的文字色属性自透明变更为有色,将含有文本的区域的显示属性自隐藏变更为显示或删除插入含有文本的区域的标签的注释标签,由此使非可视化的文本可视化。
3.根据权利要求I或2所述的机器翻译系统,其中所述可视化要素切换机构将所述背景图像的显示属性自隐藏变更为显示,将含有所述背景图像的区域的显示属性自隐藏变更为显示,删除插入与所述背景图像相对应的标签的注释标签,由此使非可视化的所述背景图像可视化。
4.根据权利要求I至3中任一权利要求所述的机器翻译系统,其中所述可视化要素切换机构将所述图像的显示属性自显示变更为隐藏,删除与所述图像相对应的标签,以注释标签插入与所述图像相对应的标签,将含有所述图像的区域的显示属性自显示变更为隐藏或以注释标签插入与含有所述图像的区域相对应的标签,由此使经可视化的所述图像非可视化。
5.根据权利要求I至4中任一权利要求所述的机器翻译系统,其中所述已翻译的HTML数据发送机构将由所述HTML数据取得机构所取得的所述HTML数据的基准URL,变更为所述翻译请求中所包含的翻译对象的所述Web页面的所述URL。
6.根据权利要求I至5中任一权利要求所述的机器翻译系统,其中所述已翻译的HTML数据发送机构于由所述翻译机构所翻译的文本长度、与由所述HTML数据取得机构所取得的所述HTML数据中所包含的特定的文本长度相比为长于一定值以上的情况下,修正由所述翻译机构所翻译的文本的长度而使其变短。
7.一种机器翻译方法,其特征在于由将以特定语言表现的翻译对象的Web页面的文本翻译成其他语言,并提供所翻译的所述Web页面的机器翻译系统执行, 所述机器翻译系统可连接于存储描述翻译对象的所述Web页面的构造的HTML数据及由该HTML数据参照的图像数据的Web数据存储机构、及 存储用于文本的翻译处理的词典数据的翻译数据存储机构, 所述HTML数据以组的形式包含含有文字且经可视化的图像相关的描述、在与该图像的显示位置相对应的特定位置设定着显示位置、不含文字且非可视化的背景图像相关的描述、及在与该背景图像重叠的特定位置的前面设定着显示位置且非可视化的特定语言的文本相关的描述, 所述机器翻译系统执行如下的步骤 翻译请求接收步骤,从浏览所述Web页面的用户终端接收包含与翻译对象的所述Web页面相对应的URL及指定翻译目标语言的指定数据的翻译请求; HTML数据取得步骤,从所述Web数据存储机构取得与所述翻译请求中所包含的所述URL相对应的描述所述Web页面的构造的所述HTML数据; 翻译步骤,参照由所述翻译数据存储机构所存储的所述词典数据,将通过所述HTML数据取得步骤所取得的所述HTML数据中所包含的文本翻译成与所述翻译请求中所包含的所述指定数据相对应的翻译目标语言; 可视化要素切换步骤,使通过所述HTML数据取得步骤所取得的所述HTML数据中所包含的非可视化的文本及所述背景图像可视化,并且使该HTML数据中所包含的经可视化的所述图像非可视化; 已翻译的HTML数据发送步骤,使用通过所述翻译步骤所翻译的文本重组通过所述HTML数据取得步骤所取得的所述HTML数据,并将其发送至所述终端 '及 图像数据发送步骤,根据来自所述终端的指定所述图像数据的发送请求,从所述Web数据存储机构读出所指定的所述图像数据并将其发送至该终端。
8.一种机器翻译程序,用于使I个或多个计算机实现权利要求I至6中任一权利要求所述的机器翻译系统具备的各机构作为功能。
9.一种计算机可读取的记录介质,记录如下程序,该程序用于使I个或多个计算机实现权利要求I至6中任一权利要求所述的机器翻译系统具备的各机构作为功能。
全文摘要
一种机器翻译系统,预先将至少包含一组含有文字且经可视化的图像的参照数据(URL)、在与该图像重叠的区域设定着显示位置、不含文字且非可视化的背景图像的参照数据(URL)、及在与该背景图像重叠的区域设定着显示位置、且非可视化的文本数据的HTML数据存储在WebDB中,在翻译处理时使该非可视化的背景图像数据及文本数据可视化,并且使该经可视化的图像数据非可视化。
文档编号G06F17/28GK102959537SQ20108006767
公开日2013年3月6日 申请日期2010年6月25日 优先权日2010年6月25日
发明者益子宗 申请人:乐天株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1