用于移动装置的用户交互式自动翻译装置和方法

文档序号:6586544阅读:316来源:国知局
专利名称:用于移动装置的用户交互式自动翻译装置和方法
技术领域
本发明涉及一种用于移动装置的用户交互式自动翻译装置和方法;并且更具体 地,涉及如下的用于移动装置的用户交互式自动翻译装置和方法,其能够通过与用户的 交互、以增强的翻译准确度,来实现在由包括在移动装置(例如,蜂窝电话、PDA、PDP 等)的相机所捕获的图像中所包括的单词或句子的高质量自动翻译。
背景技术
自动翻译装置的性能已经逐步改善,然而,自动翻译装置的翻译结果仍旧包含 大量的错误或误差。用于执行基于规则的翻译或基于模式(pattern)的翻译的自动翻译装 置具体地表现了具有不自然或不合语法的句子的令人不满意的翻译结果。这些错误中的一些可通过改善包括在翻译引擎中的单独的模块来解决,然而, 因为单独模块不将句子作为整体来考虑,所以错误仍有可能发生。因此,需要用于自动 纠正发生在最终翻译中的错误的功能,来升级自动翻译装置的性能。此外,大多数自动翻译装置主要用于桌面计算机或服务器。这些类型的自动翻 译装置通常对已经数字化的文本文件、网页文档、PDF文件等执行自动翻译。然而,存在需要翻译的各类离线文本,例如,餐馆的菜单、大街上的指示牌 (signboard)、硬拷贝文档等。传统上,已经存在了用于移动装置的自动翻译装置,其包括字符识别模块来提 供自动翻译功能。然而,由于字符识别技术的限制而导致传统的自动翻译装置具有翻译质量差的 缺点。

发明内容
鉴于上面所述,本发明提供了一种用于具有相机的移动装置的用户交互式自动 翻译装置和方法。根据本发明,用户可使用用户接口而在由具有相机的移动装置所捕获 的静止图像中选择要自动翻译的字符串区域。然后,所选择的字符串区域经历字符识别 处理以被转换为数字文本串。相应地,可通过用户反馈来直接纠正发生在字符识别处理 中的错误,以生成纠错后的文本串,其又被自动翻译。根据本发明的第一方面,提供了一种用于移动装置的用户交互式自动翻译装 置,包括相机图像控制器,用于将相机捕获的图像转换为数字图像;图像字符识别控 制器,用于用户交互式地从数字图像中选择要翻译的字符串区域,基于光学字符读取器 (OCR)功能和存储在字符识别信息DB中的字符识别信息,来对所选择的字符串区域执行字符识别功能,以生成文本串,并且用户交互式地纠正包括在文本串中的错误;文本 传送控制器,用于传送所述纠错后的文本串;以及自动翻译控制器,用于从文本传送控 制器接收所述纠错后的文本串,基于目标语言的语法来对所述文本串执行语素分析、标 记、结构分析、结构转换、和词汇转换,以生成文本串的翻译,其中基于存储在自动翻 译信息DB中的用于翻译的信息来执行所述语素分析、标记、结构分析、结构转换、词汇 转换、和翻译生成。根据本发明的第二方面,提供了一种用于移动装置的用户交互式自动翻译方 法,包括使用相机来捕获对象的图像;将对象的图像转换为数字图像;用户交互式地 从数字图像中选择要翻译的字符串区域;基于光学字符读取器(OCR)和存储在字符识别 信息DB中的字符识别信息,来对所选择的字符串区域执行字符识别,以生成文本串; 用户交互式地纠正包括在文本串中的错误;以及基于目标语言的语法来对纠错后的文本 串执行语素分析、标记、结构分析、结构转换、和词汇转换,以生成文本串的翻译,其 中基于存储在自动翻译信息DB中的用于翻译的信息来执行所述语素分析、标记、结构分 析、结构转换、词汇转换、和翻译生成。根据本发明的实施例,用户可使用用户接口来在由具有相机的移动装置捕获的 静止图像中选择要自动翻译的字符串区域。然后,所选择的字符串区域经历字符识别处 理以被转换为数字文本串。可通过用户反馈来直接纠正发生在字符识别处理中的错误, 以生成纠错后的文本串,其被依次自动翻译。相应地,可能解决表现了由于不准确的字 符识别而导致的低质量自动翻译的传统问题。此外,用户可能使用便携式移动装置在全国和全球的任何地方方便地执行诸如 餐馆的菜单、交通指示、各种外国书籍、外国品牌产品的手册等翻译对象的高质量自动 翻译。此外,可能通过与用户的交互以最小化字符识别错误,来实现高质量的自动翻 译。


根据结合附图给出的以下的实施例描述,本发明的目的和特征将变明显,其 中图1是根据本发明的实施例的用于移动装置的用户交互式自动翻译装置的框 图;图2是图示了图1的图像字符识别控制器的详细框图;图3是图示了图1的自动翻译控制器的详细框图;图4是图示了根据本发明的实施例的字符识别错误显示窗口的视图;以及图5A到图5C是依次图示了根据本发明的实施例的用于移动装置的用户交互式 自动翻译方法的流程图。
具体实施例方式下文中,将参考形成本发明的一部分的附图来详细描述本发明的实施例。图1是根据本发明的实施例的用于移动装置的用户交互式自动翻译装置100的框 图。所述用户交互式自动翻译装置100包括相机图像控制器101、图像字符识别控制器103、文本传送控制器105、和自动翻译控制器107。所述相机图像控制器101对由相机Sl (例如,嵌入在移动装置中的相机)捕获的 对象的图像进行数字化,以生成例如数字静止图像的数字图像,并将所述数字图像供应 到图像字符识别控制器103。如图2中所示,图像字符识别控制器103包括区域选择用户接口单元1031、 字符识别单元1033、文本转换单元1035、基于用户交互的识别纠错单元1037、和字符识 别信息数据库(DB) 1039。区域选择用户接口单元1031向用户提供用户接口,用户可以利用该用户接口而 从供应自相机图像控制器101的数字图像中选择要自动翻译的字符串区域。响应于用户 通过矩形区域选择工具来选择字符串区域,区域选择用户接口单元1031将所选择的字符 串区域提供给字符识别单元1033。字符识别单元1033基于光学字符读取器(OCR)的功能和存储在字符识别信息 DB 1039中的用于字符识别的信息,来对从区域选择用户接口单元1031供应的字符串执 行特性识别。然后,字符识别单元1033将作为结果的字符串供应到文本转换单元1035。文本转换单元1035基于美国信息交换标准代码(ASCII)来将字符串转换为标准 文本字符串,并将所述标准文本串供应给基于用户交互的识别纠错单元1037。这里,来自文本转换单元1035的基于ASCII的标准文本串可以是可光学识别的 标准文本串。基于用户交互的识别纠错单元1037在用户接口(UI)上显示用于包括在该 文本串中的每个词语的识别候选者,从而用户自己可纠正当识别该文本串时可发生的错 误。用户可利用各种输入工具(例如,移动装置上的数字笔、键盘等)来直接纠正包括 在该文本串中的错误。基于用户交互的识别纠错单元1037从用户接收纠正后的文本串, 并将它供应给文本传送控制器105。字符识别信息DB 1039存储为了字符识别而预设的各类信息。文本传送控制器105向自动翻译控制器107供应从基于用户交互的识别纠错单元 1037供应的纠正后的文本串。如图3中所示,自动翻译控制器107包括句子识别预处理单元1071、源语 言语素分析和标记单元1073、源语言结构分析单元1075、源语言/目标语言转换单元 1077、目标语言生成单元1079、和自动翻译信息DB 1081。句子识别预处理单元1071逐句地识别从文本传送控制器105供应的纠正后的文 本串,并将逐句识别的文本串供应到源语言语素分析和标记单元1073。所述句子识别预 处理单元1071可从文本串中分出OCR不能处理的句子。源语言语素分析和标记单元1073基于存储在自动翻译信息DB 1081中的源语 言语素分析词典、概率词典、和上下文概率数据,来分析从句子识别预处理单元1071供 应的文本串的源语言语素;以诸如三字母组(trigram)或隐藏的马尔可夫模型(HMM hidden markov model)之类的各种方法学来对结果执行标记,以将包括在文本串中的每个 词汇恢复为其原始形式;将适合于上下文的最佳言语部分应用于恢复后的文本串,以提 供作为结果的文本到源语言结构分析单元1075。源语言结构分析单元1075基于存储在自动翻译信息DB 1081中的结构分析规则 和翻译模式,来分析在从源语言语素分析和标记单元1073供应的文本串的每个句子中包括的词汇的语法相关性和修改结构,以提供作为结果的文本串给源语言/目标语言转换 单元1077。所述源语言/目标语言转换单元1077基于存储在自动翻译信息DB 1081中的翻 译词典、翻译模式、和翻译存储(memory)等,来对从源语言结构分析单元1075供应的 文本串执行源语言到目标语言的转换。此外,源语言/目标语言转换单元1077将源语言 的词汇转换为目标语言的词汇,并将结构转换后且词汇转换后的文本串供应到目标语言 生成单元1079。目标语言生成单元1079对从源语言/目标语言转换单元1077供应的文本串执行 诸如词尾变化(inflection)处理之类的处理,以适合于目标语言的语法,从而生成最终的 翻译。自动翻译信息DB 1081存储源语言语素分析词典、概率词典、上下文概率数 据、结构分析规则、翻译模式、翻译词典、翻译模式、翻译存储等。根据本发明的实施例,用户可使用用户接口而在由具有相机的移动装置所捕获 的静止图像中选择要自动翻译的字符串区域。所选择的字符串区域经历字符识别处理 以被转换为数字文本串。然后,发生在字符识别处理中的错误可直接通过用户反馈来纠 正,以生成纠错后的文本串,其被依次自动翻译。相应地,可能解决表现了由于不准确 字符识别而导致的低质量自动翻译的传统问题。现在,将根据本发明的实施例,来描述在如上所述配置的移动装置中执行的用 户交互式自动翻译方法。图5A到图5C是依次图示了根据本发明的实施例的在移动装置中执行的用户交 互式自动翻译方法的流程图。首先,通过相机S 1 (例如,在包括在用户交互式自动翻译装置100中的移动装 置中包括的内部相机),来捕获对象的图像(S501)。然后,相机图像控制器101在步骤S503中从相机Sl接收对象的图像,在步骤 S505中生成数字图像,并在步骤S507中将所生成的数字图像(例如,数字静止图像)供 应到包括在图像字符识别控制器103中的区域选择用户接口单元1031。区域选择用户接口单元1031在步骤S509中向用户提供用户接口功能,用户可利 用该用户接口功能来从供应自相机图像控制器101的数字图像中选择要自动翻译的字符 串区域。用户使用矩形选择工具来选择经受自动翻译处理的字符串区域。区域选择用户 接口单元1031在步骤S511中接收用户选择的字符串区域,以便在步骤S513中将它提供 给字符识别单元1033。在步骤S515中,字符识别单元1033基于OCR功能和在字符识别信息DB 1039 中存储的用于字符识别的信息,来对从区域选择用户接口单元1031供应的字符串执行特 性识别。然后,字符识别单元1033在步骤S517中将字符识别后的字符串提供给文本转 换单元1035。文本转换单元1035在步骤S519中将该字符串转换为基于ASCII的标准文本字符 串,并在步骤S521中将标准文本串供应到基于用户交互的识别纠错单元1037。文本转换单元1035不仅可以对由字符识别单元1033识别的字符串中的最优单词识别候选者(即,图4中的401)执行文本转换处理,而且可以对包括在每个最优单词识 别候选者中的每个单词的识别候选者(即,图4中的402)执行文本转换处理。这里,来自文本转换单元1035的基于ASCII的标准文本串可以是可最优地识别 的标准文本串。在步骤S523中,基于用户交互的识别纠错单元1037在UI上显示用于包 括在该文本串中的每个单词的识别候选者,从而用户自己可纠正当识别文本串时可能发 生的错误。用户可利用各种输入工具(例如,移动装置上的数字笔、键盘等),来直接纠正 包括在文本串中的错误。基于用户交互的识别纠错单元1037在步骤S525中从用户接收 纠正后的文本串,并在步骤S527中将纠正后的文本串提供给文本传送控制器105。例如,用户可以在如图4所示的字符识别错误显示屏幕上执行纠错处理。更具体地,如图4中所示,在字符识别错误显示屏幕上显示用于通过文本转换 单元1035转换的基于ASCII的标准文本串的最优单词识别候选者401。此外,用于每个 最优单词识别候选者401的识别候选者402也按照从高权重值到低权重值的顺序向下显示 在字符识别错误显示屏幕上,其中每个识别候选者402被封入矩形中。此时,在其中最 优单词识别候选者401之中的例如“单词1”处于识别错误的情况下,用户可触摸或点击 用于单词1的识别候选者之一(例如,“候选者1-2” ),以纠正字符识别的错误。字符识别错误显示屏幕提供输入单元403 (例如,小键盘(key pad))和输入窗口 404,如图4中所示。相应地,在其中错误的单词不属于在字符识别错误显示屏幕中出现 的识别候选者的情况下,用户可利用输入单元403录入单词,同时通过输入窗口 404识别 所录入的单词,从而纠正字符识别错误。在步骤S529中,文本传送控制器105将供应自基于用户交互的识别纠错单 元1037的纠正后的文本串提供给包括在自动翻译控制器107中的句子识别预处理单元 1071。句子识别预处理单元1071在步骤S531中逐句地识别从文本传送控制器105提供 的纠正后的文本串,并在步骤S533中将逐句识别的文本串提供给源语言语素分析和标记 单元1073。源语言语素分析和标记单元1073基于在自动翻译信息DB 1081中存储的源语言 语素分析词典、概率词典、上下文概率数据等,来分析从句子识别预处理单元1071提供 的文本串的源语言语素;在步骤S535中以诸如三字母组或隐藏的马尔可夫模型(HMM) 等之类的各种方法学来对结果执行标记,以将包括在文本串中的每个词汇恢复为其原始 形式;将适合于上下文的最佳言语部分应用于作为结果的文本串;并且在步骤S537中提 供作为结果的文本到源语言结构分析单元1075。源语言结构分析单元1075在步骤S539中基于存储在自动翻译信息DB1081中的 结构分析规则和翻译模式,来分析在从源语言语素分析和标记单元1073提供的文本串的 每个句子中包括的词汇的语法相关性和修改结构;并且在步骤S541中提供作为结果的文 本串给源语言/目标语言转换单元1077。所述源语言/目标语言转换单元1077基于存储在自动翻译信息DB 1081中的翻 译词典、翻译模式、和翻译存储,来对从源语言结构分析单元1075提供的文本串执行源 语言到目标语言的转换。此外,源语言/目标语言转换单元1077在步骤S543中将源语言的词汇转换为目标语言的词汇,并在步骤S545中将作为结果的文本串提供到目标语言 生成单元1079。在步骤S547中,目标语言生成单元1079对从源语言/目标语言转换单元1077 供应的文本串执行诸如词尾变化处理之类的处理,以适合于目标语言的语法,从而生成 最终的翻译。根据本发明的实施例的用户交互式自动翻译方法可实现为存储在计算机可读存 储介质中的计算机可执行代码或程序。计算机可读存储介质包括用于存储可由计算机系统读取的数据的所有类型的存 储装置。计算机可读存储介质的示例包括ROM、RAM、CD-ROM、磁带、软盘、光
学数据存储器等。此外,计算机可执行代码或程序可以在包括因特网的网络上传送,并 且分布式地在经由网络而互连的多个计算机系统中执行。尽管已经结合实施例而示出并描述了本发明,但是本领域的技术人员将理解, 可以进行各种改变和修改,而不脱离由下面的权利要求所限定的本发明的范围。
权利要求
1.一种用于移动装置的用户交互式自动翻译装置,包括相机图像控制器,用于将相机捕获的图像转换为数字图像;图像字符识别控制器,用于用户交互式地从数字图像中选择要翻译的字符串区域, 基于光学字符读取器(OCR)功能和存储在字符识别信息DB中的字符识别信息,来对所 选择的字符串区域执行字符识别功能,以生成文本串,并且用户交互式地纠正包括在文 本串中的错误;文本传送控制器,用于传送所述纠错后的文本串;以及自动翻译控制器,用于从文本传送控制器接收所述纠错后的文本串,基于目标语言 的语法来对所述文本串执行语素分析、标记、结构分析、结构转换、和词汇转换,以生 成文本串的翻译,其中基于存储在自动翻译信息DB中的用于翻译的信息来执行所述语素 分析、标记、结构分析、结构转换、词汇转换、和翻译生成。
2.根据权利要求1的用于移动装置的用户交互式自动翻译装置,其中所述图像字符识 别控制器包括区域选择用户接口单元,用于向用户提供接口,使得用户从数字图像中选择字符串 区域,并接收用户选择的字符串区域;字符识别单元,用于基于OCR功能和存储在字符识别信息DB中的字符识别信息来 对所接收的字符串区域执行字符识别功能;文本转换单元,用于将字符识别后的字符串转换为标准文本串;以及基于用户交互的识别纠错单元,用于通过用户接口而在显示窗口上显示所述标准文 本串,以通过用户接口来接收纠错后的文本串。
3.根据权利要求2的用于移动装置的用户交互式自动翻译装置,其中所述基于用户交 互的识别纠错单元显示用于标准文本串的最优单词识别候选者和用于每个最优单词识别 候选者的识别候选者,使得按照从高权重值到低权重值的顺序在最优单词识别候选者下 方、向下显示所述识别候选者,每个识别候选者被封入矩形中,并且,当通过用户接口 来点击与错误的最优单词识别候选者相关联的识别候选者之一时,用点击的识别候选者 来代替错误的最优单词识别候选者,以纠正字符识别的错误。
4.根据权利要求3的用于移动装置的用户交互式自动翻译装置,当不存在与错误的最 优单词识别候选者相关联的识别候选者时,所述基于用户交互的识别纠错单元用由用户 录入的单词或字符来代替错误的最优单词识别候选者,以纠正字符识别的错误。
5.根据权利要求2的用于移动装置的用户交互式自动翻译装置,其中文本转换单元 将用于字符串的最优单词识别候选者和用于最优单词识别候选者的识别候选者转换为文 本。
6.根据权利要求1的用于移动装置的用户交互式自动翻译装置,其中所述自动翻译控 制器包括句子识别预处理单元,用于逐句地识别文本串;源语言语素分析和标记单元,用于基于存储在自动翻译信息DB中的第一自动翻译信 息来分析逐句识别的文本串的源语言语素,对结果执行标记,并将包括在所述文本串中 的每个词汇恢复为其原始形式,以将言语的部分应用于所恢复的文本串;源语言结构分析单元,用于基于存储在自动翻译信息DB中的第二自动翻译信息来分析在所恢复的文本串的每个句子中包括的词汇的语法相关性和修改结构;源语言/目标语言转换单元,用于基于存储在自动翻译信息DB中的第三自动翻译信 息来对分析后的文本串执行源语言到目标语言的转换,以将源语言的词汇转换为目标语 言的词汇;以及目标语言生成单元,用于将目标语言的语法应用于结构转换后且词汇转换后的文本 串,以生成翻译。
7.根据权利要求6的用于移动装置的用户交互式自动翻译装置,其中所述句子识别预 处理单元基于OCR对传送的文本串执行句子分离功能。
8.根据权利要求6的用于移动装置的用户交互式自动翻译装置,其中所述第一自动翻 译信息包括源语言语素分析词典、概率词典、和上下文概率数据。
9.根据权利要求6的用于移动装置的用户交互式自动翻译装置,其中所述第二自动翻 译信息包括结构分析规则和翻译模式。
10.根据权利要求6的用于移动装置的用户交互式自动翻译装置,其中所述第三自动 翻译信息包括翻译词典、翻译模式和翻译存储。
11.一种用于移动装置的用户交互式自动翻译方法,包括 使用相机来捕获对象的图像;将对象的图像转换为数字图像;用户交互式地从数字图像中选择要翻译的字符串区域;基于光学字符读取器(OCR)和存储在字符识别信息DB中的字符识别信息,来对所 选择的字符串区域执行字符识别,以生成文本串; 用户交互式地纠正包括在文本串中的错误;以及基于目标语言的语法来对纠错后的文本串执行语素分析、标记、结构分析、结构转 换、和词汇转换,以生成文本串的翻译,其中基于存储在自动翻译信息DB中的用于翻译 的信息来执行所述语素分析、标记、结构分析、结构转换、词汇转换、和翻译生成。
12.根据权利要求11的用于移动装置的用户交互式自动翻译方法,其中所述纠正步骤 包括向用户提供用户接口,使得用户从数字图像中选择字符串区域; 通过所述用户接口来选择要自动翻译的字符串区域;基于OCR功能和存储在字符识别信息DB中的字符识别信息来对所选择的字符串区 域执行字符识别;将字符识别后的字符串转换为标准文本串;通过用户接口而在显示窗口上显示所述标准文本串;以及通过用户接口来纠正所述文本串。
13.根据权利要求12的用于移动装置的用户交互式自动翻译方法,其中所述显示步骤 包括显示用于错误的最优单词识别候选者的识别候选者,以纠正错误的最优单词识别 候选者,使得按照从高权重值到低权重值的顺序在最优单词识别候选者下方、向下显示 所述识别候选者,每个识别候选者被封入矩形中。
14.根据权利要求13的用于移动装置的用户交互式自动翻译方法,其中所述纠正步 骤包括当通过用户接口来点击与错误的最优单词识别候选者相关联的识别候选者之一时,用点击的识别候选者来代替错误的最优单词识别候选者,以纠正字符识别的错误。
15.根据权利要求14的用于移动装置的用户交互式自动翻译方法,其中所述纠正步骤 包括当不存在与错误的最优单词识别候选者相关联的识别候选者时,用由用户录入的 单词或字符来代替错误的最优单词识别候选者,以纠正字符识别的错误。
16.根据权利要求12的用于移动装置的用户交互式自动翻译方法,其中所述转换步骤 包括将用于字符串的最优单词识别候选者和用于最优单词识别候选者的识别候选者转 换为文本。
17.根据权利要求11的用于移动装置的用户交互式自动翻译方法,其中所述生成翻译 的步骤包括逐句地识别纠错后的文本串;基于存储在自动翻译信息DB中的第一自动翻译信息来分析和标记逐句识别的文本串 的源语言语素,以将包括在所述文本串中的每个词汇恢复为其原始形式;基于存储在自动翻译信息DB中的第二自动翻译信息来分析在所恢复的文本串的每个 句子中包括的词汇的语法相关性和修改结构;基于存储在自动翻译信息DB中的第三自动翻译信息来对分析后的文本串执行源语言 到目标语言的转换,以将源语言的词汇转换为目标语言的词汇;以及将目标语言的语法应用于结构转换后且词汇转换后的文本串,以生成翻译。
18.根据权利要求17的用于移动装置的用户交互式自动翻译方法,其中所述第一自动 翻译信息包括源语言语素分析词典、概率词典、和上下文概率数据。
19.根据权利要求17的用于移动装置的用户交互式自动翻译方法,其中所述第二自动 翻译信息包括结构分析规则和翻译模式。
20.根据权利要求17的用于移动装置的用户交互式自动翻译方法,其中所述第三自动 翻译信息包括翻译词典、翻译模式和翻译存储。
全文摘要
一种用于移动装置的用户交互式自动翻译装置,包括相机图像控制器,用于将相机捕获的图像转换为数字图像;图像字符识别控制器,用于用户交互式地从数字图像中选择要翻译的字符串区域,基于光学字符读取器(OCR)功能和字符识别信息来对所选择的字符串区域执行字符识别功能,以生成文本串,并且用户交互式地纠正包括在文本串中的错误。此外,所述用户交互式自动翻译装置包括文本传送控制器,用于传送所述纠错后的文本串;以及自动翻译控制器,用于从文本传送控制器接收所述纠错后的文本串,基于目标语言的语法来对所述文本串执行语素分析、标记、结构分析、结构转换、和词汇转换,以生成文本串的翻译。
文档编号G06K9/00GK102023971SQ20091026189
公开日2011年4月20日 申请日期2009年12月31日 优先权日2009年9月11日
发明者卢玧亨, 吴英顺, 崔承权, 徐英爱, 朴殷珍, 朴相奎, 权五郁, 李起荣, 梁成一, 金云, 金昌显, 金永吉, 黄金霞 申请人:韩国电子通信研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1