呈现图像中描绘的文本的翻译的制作方法_2

文档序号:9925310阅读:来源:国知局
是在图像中描绘一个或多个地址或标识位置的其他信息的场境。
[0055]基于所选择的呈现场境,系统可以选择用于呈现与图像中描绘的文本相关的附加信息的用户界面。例如,基于为图像选择的呈现场境,系统可以在用于突出呈现场境的多个用户界面、用于集合呈现场境的多个用户界面和/或用于地图呈现场境的多个用户界面之间进行选择。每种类型的呈现场境对于被识别为具有该类型的呈现场境的图像可以具有不同集合的规则或者用于选择用户界面的不同过程。
[0056]示例用户设备
[0057]图1是呈现与图像中描绘的文本相关的附加信息的示例用户设备100的框图。用户设备100是能够捕捉和/或呈现数码照片和图像的电子设备。示例用户设备100包括个人计算机、移动通信设备(例如,智能电话)、平板计算机以及可以捕捉和/或呈现图像的其他设备。为了呈现图像,用户设备100包括显示器105,诸如液晶显示器(〃IXD〃)、触摸屏或其他类型的显示器。在本示例中,显示器105正在呈现用户界面,所述用户界面用于呈现在图像107中识别的文本109的翻译111。
[0058]用户设备100包括翻译器115,所述翻译器115使用户能捕捉对象的图像,诸如标志、菜单和广告牌,并接收对象描绘的文本的翻译。翻译器115包括文本识别器120,所述文本识别器120可以识别图像以及其他类型的文档中的文本。在一些实现中,文本识别器120使用光学字符识别("OCR")分析图像以识别图像描绘的文本。文本识别器120可以检测多种不同语言的文本。例如,文本识别器120可以包括能够识别多种语言的文本的OCR引擎,或用于多种不同语言中的每一个的OCR引擎。
[0059]文本识别器120还可以检测文本的特征,诸如文本颜色、背景颜色、文本大小、字体类型和/或图像内文本的位置。例如,这些特征可以被用于识别有区别的文本块。例如,基于文本的两个部分具有不同的字体颜色、不同的背景颜色或被相互隔开(例如,至少隔开了阈值距离),文本识别器120可以确定图像中描绘的文本的两个部分被包括在两个有区别的文本块中。文本识别器120可以将关于所识别的文本的数据发送至翻译器115的翻译引擎125。该数据可以指定文本自身以及文本的所识别的特征。
[0060]翻译引擎125可以将文本(或至少所述文本的部分)翻译为不同的语言。例如,翻译引擎125可以将文本109(中文)翻译为与用户设备100相关联的用户的口语或者用户所选择的另一种语言。用户可以使用用户界面指定语言,如下面更详细描述的。在本示例中,文本109已经被翻译为英文并且文本109的英文翻译111被呈现给用户。在一些实现中,翻译引擎125可以如由用户设备100或由用户设备100的用户界面引擎130所指定的,只翻译文本的部分。例如,用户设备100可以选择用于翻译的一个或多个文本块。此外,在一些实现中,翻译引擎125可以将货币值从一种货币翻译为另一种。例如,翻译引擎125可以将以外币的形式描绘的货币量翻译为由用户指定的货币。
[0061]用户界面引擎130可以选择用于呈现与在图像中识别的文本有关的附加信息的用户界面。附加信息可以包括在图像中识别的文本的语言翻译、在图像中识别的货币量(例如,在餐厅菜单的图像中识别的价格)的货币翻译和/或与文本有关的其他信息。用户界面可以定义如何呈现附加信息。例如,如图1中所示出的,可以在图像107之上的覆盖中呈现翻译111。在其他用户界面中,可以在只示出文本的单独的屏幕中呈现翻译,例如,由于翻译包含太多文本要在覆盖中呈现。基于为图像识别或选择的呈现场境,用户界面引擎130可以从用户界面的集合中选择用户界面。如下面所描述的,基于图像描绘的文本的布置或其他特征,场境选择器135可以为图像选择呈现场境。
[0062]用户界面索引140可以存储呈现场境与用户界面的映射。例如,用户界面索引140可以包括信息,所述信息识别用于突出呈现场境的用户界面、用于集合呈现场境的用户界面和/或用于地图呈现场境的用户界面。用户界面引擎130可以访问用户界面索引140以识别用于已经为图像选择的特定呈现场境的合适的用户界面,生成用于在用户设备100上呈现的用户界面,以及使用用户界面呈现图像描绘的文本的附加信息(例如,文本的翻译)。用于各个呈现场境的示例用户界面在图2-8、10-12和14中被图示,并且在下面被详细描述。
[0063]用户界面生成器120还可以使用与附加信息相关联的可读性度量,以选择用于呈现附加信息的用户界面,所述附加信息与图像中描绘的文本有关。可读性度量可以指示如果使用特定用户界面呈现附加信息,所述附加信息可以有多可读。用于用户界面以及用于特定附加信息的可读性度量可以是基于可以使用用户界面呈现的附加信息的字符数量(或者百分比)。例如,只能显示附加信息的10%的用户界面可以具有低可读性度量,并且因此不可以被用于呈现附加信息。
[0064]通过将用于附加信息的可读性度量与多个合适的用户界面中的每个进行比较,用户界面引擎130可以为图像选择用户界面。例如,假定为图像选择的用户界面场境是特定的突出呈现场境。用户界面引擎130可以确定用于与由图像描绘的文本有关的附加信息相对于可用于特定突出场景的每个用户界面的可读性度量。用户界面引擎130可以基于可读性度量从可用的用户界面中选择。例如,用户界面引擎130可以选择具有最高可读性度量的用户界面。
[0065]通过另一个示例,用户界面引擎130可以识别用于所选择的呈现场境的优选用户界面并且确定附加信息相对于优选用户界面的可读性度量。例如,优选用户界面可以在图像之上的覆盖中呈现文本的翻译。用户界面引擎130可以将可读性度量与用于优选用户界面的可读性阈值相比较。如果可读性度量满足可读性阈值(例如,通过满足或超过可读性阈值),则用户界面引擎130可以选择优选用户界面并在图像之上的覆盖中呈现翻译。如果可读性度量不满足可读性阈值,则用户界面引擎130可以选择替选的用户界面,诸如在单独的屏幕中呈现翻译的用户界面,所述屏幕使用户能浏览或滚动通过多个屏幕或页面以查看翻译。
[0066]基于图像描绘的文本的布置和/或其他特征,场境选择器135可以为图像选择呈现场境。可以从多个呈现场境中为图像选择呈现场境。例如,可以从一个或多个突出呈现场境、一个或多个集合呈现场境、一个或多个地图呈现场境和/或其他类型的呈现场境中选择呈现场境。突出呈现场境可以包括用于在其中描绘文本的单个块的图像的“单个块场境”、用于在其中相较于其他文本块更主要地描绘特定文本块的图像的“主-次场境”和/或用于在其中基本上均等突出地(例如,文本块具有在彼此阈值量之内的突出分值)描绘两个或更多个文本块的“均等突出场境”。集合呈现场境可以包括“单个集合”场境(用于在其中描绘多个相关文本块的图像)、“多个集合”场境(用于在其中描绘相关文本块的多个群组的图像)和/或“整合”场境(用于在其中应该将文本块的翻译一起呈现的图像)。
[0067]下面详细描述呈现场境中的每一个和用于确定如何为特定图像选择呈现场境的技术。具体地,参照图3-8描述突出场境并且参照图9描述用于处理突出场境的过程;参照图10-12描述集合场境并且参照图13描述用于处理突出场境的过程;并且参照图14描述地图场境并且参照图15描述用于处理地图场境的过程。最后,参照图16描述用于处理图像并从各种场境中选择的过程以及相应地处理所选择的场境的过程。
[0068]尽管示例用户设备100被图示为包括文本识别器120、翻译引擎125、用户界面引擎130、场境选择器135以及用户界面索引140,但这些元素中的一个或多个可以被存储在其他设备上和/或由其他设备执行,诸如与用户设备100通信的服务器。例如,用户设备100可以通过通信网络(例如,LAN、WAN或互联网)的方式将图像传输至服务器。服务器可以处理图像以为图像选择呈现场境以及用户界面并且将数据发送至用户设备100,这使得用户设备100使用所选择的用户界面呈现与图像中描绘的文本有关的附加信息。
[0069]示例翻译用户界面
[0070]图2描绘了示例用户界面的屏幕截图200A-200C,其用于捕捉图像并呈现图像中描绘的文本的语言翻译。在示例屏幕截图200A中,用户界面210使用户能选择用于翻译的语言。具体地,用户界面210使用户能选择初始语言212,所述初始语言的文本将在图像中被找至IJ,并且使用户能选择文本将被翻译为的翻译语言214。在本示例中,用户已经选择了初始语言212为中文以及翻译语言214为英文。因此,在本示例中,用户想要将在图像中发现的中文文本翻译为英文文本。用户界面还包括相机按钮206,当所述相机按钮206被用户选择时,使得用户设备使用安装在用户设备上的相机或者可通信地被耦合至用户设备的相机捕捉图像。
[0071 ]在示例屏幕截图200B中,用户界面230描绘了用户设备例如响应于对相机按钮206的选择所捕捉到的图像232。示例图像232包括使用中文字符的文本的多个部分,其已经被用户设备识别并且利用白色背景被突出显示。具体地,图像232包括位于图像232左上角附近的文本的第一部分234、位于图像232中心附近的文本的第二部分236以及位于图像232右下角附近的文本的第三部分238。文本234-238的每个部分都被描绘在图像232中单独的标志上。
[0072]翻译屏幕用户界面250被描绘在屏幕截图200C中。翻译屏幕用户界面250描绘了图像232中所识别出的文本252以及图像232中所识别出的文本252的英文翻译254。文本的第一部分2 3 4已经被翻译为词〃 F r e e 〃;文本的第二部分2 3 6已经被翻译为〃BigRiverInn2ndFloor〃;并且文本的第三部分238已经被翻译为词〃 Last〃。在这个示例用户界面250中,文本252已经被翻译的就好像文本252被包括在单个文本块中一样,即使文本252是被描绘在单独的有区别的文本块中。如同通过翻译文本254可以看到的,将多个有区别的文本块翻译为一个可以导致无意义的翻译,这会使用户迷惑或沮丧。通过评估图像描绘的文本的布置和/或其他视觉特征并为图像描绘的文本选择场境,可以提供更有意义的翻译。例如,图3-5图示了可以基于对文本的每个部分的突出度的分析来更好地呈现文本252的翻译的用户界面。
[0073]突出呈现场境和用户界面
[0074]图像内的文本的突出度可以被用于确定要对哪个文本提供翻译(或其他信息),因为用户常常将他们的相机聚焦在他们感兴趣的目标上。通过评估文本的突出度,翻译器115可以确定哪个文本是用户可能想要获取翻译的并提供该文本的翻译。例如,用户可以对特定的标志上的文本拍照以获取所述标志的翻译。在照片中,虽然特定的标志在照片中心附近,背景中仍可能存在其他标志。通过评估文本的突出度,翻译器可以识别特定标志的文本用于翻译,因为该文本相较于背景标志的文本被更加突出地描绘。翻译器115还可以确定不用翻译背景标志的文本,因为用户可能对那些标志的翻译不感兴趣。
[0075]图3描绘了示例用户界面的屏幕截图300A和300B,其用于呈现图像中描绘的文本的语言翻译。屏幕截图300A类似于屏幕截图200B,并包括呈现包括使用中文字符的多个文本部分334-338的图像332的用户界面330,所述文本334-338已经被用户设备识别并且利用白色背景被突出显示。
[0076]翻译屏幕用户界面350被描绘在屏幕截图300B中。示例翻译屏幕用户界面350只呈现图像332中所识别出的文本352的部分以及文本352的该部分的英文翻译354,而不是呈现图像332中描绘的文本的全部的翻译就好像它们被包括在一个文本块中一样。具体地,翻译屏幕用户界面350呈现文本的第二部分336以及文本的第二部分336的英文翻译354(〃BigRiverInn2ndFloor〃)。
[0077]翻译屏幕用户界面350还包括使用户能浏览附加信息的控件359。控件359可以被配置为在包括每个文本部分334-336的翻译的屏幕之间导航或者获取每个翻译的其他信息。例如,响应于对控件359的选择,用户设备可以显示呈现文本的第三部分338的翻译的另一个屏幕。对控件359的另一个选择可以使得用户设备显示呈现文本的第一部分334的翻译的屏幕。然而对控件359的另一个选择可以使得用户设备返回以呈现呈现翻译354的屏幕。
[0078]在本示例中,基于相对于文本的第一部分334的突出度和文本的第三部分338的突出度的文本的第二部分336的突出度,诸如图1的翻译器115的翻译器已经选择了文本的第二部分用于翻译。例如,基于文本的部分的相对位置以及文本的部分的方向,翻译器115可以识别文本的每个部分属于有区别的文本块。基于该确定,翻译器115可以确定呈现场境是突出呈现场境并评估文本的每个部分的突出度。因为文本的第二部分在图像中心附近被显示并使用了比文本的其他两个部分大的字体,翻译器115可以确定文本的第二部分336相较于文本的其他两个部分被更加突出地呈现并且响应于所述确定而自动翻译文本的第二部分 336。
[0079]通过只呈现最突出的文本的翻译,用户设备更可能将用户寻找的翻译提供给用户,因为用户通常会使他们的相机聚焦使得期望的内容处于或靠近捕捉的图像的中心。这也避免了用可能是在背景中并被用户无意地捕捉到的文本的翻译使用户困惑。例如,当用户正尝试捕捉文本的第二部分336的图像用于翻译的时候,文本的第一部分334和文本的第三部分338可能已经被用户无意地捕捉到。
[0080]除了自动地翻译更突出的文本以外,翻译器115还可以选择用于图像的呈现场境以及基于所选择的呈现场境选择用于呈现翻译的用户界面。在该示例中,翻译器115可以为图像332选择主-次场境,因为翻译器115已经确定图像332包括:包括文本的第二部分336的更主要的文本块(或主要的文本块)以及包括文本的第一部分334和文本的第三部分338的两个次要的文本块,所述文本的第一部分334和文本的第三部分338相较于文本的第二部分336比较在图像332中不突出地被描绘。
[0081]例如,用于主-次场境的用户界面可以包括呈现图像中描绘的最突出的文本的翻译的翻译屏幕用户界面(例如,用户界面350);在图像上呈现覆盖的用户界面,所述覆盖包括最突出的文本的翻译而不呈现次要的文本块的翻译;在图像上呈现覆盖的用户界面,所述覆盖包括最突出的文本块的翻译以及用户界面元素,当选择所述用户界面元素时呈现次要的文本块的翻译;和/或在图像上呈现用于每个文本块的覆盖的用户界面,所述每个文本块呈现覆盖的对应文本块的翻译。
[0082]例如,图4描绘了示例用户界面的屏幕截图400A和400B,其用于在图像上的覆盖中呈现文本块的语言翻译。屏幕截图400A类似于屏幕截图200B,并且包括呈现图像432的用户界面430,所述图像432包括位于图像432左上角附近的文本的第一部分434、位于图像432中心附近的文本的第二部分436以及位于图像432右下角附近的文本的第三部分438。屏幕截图400B中描绘的用户界面450呈现图像432以及图像432之上的覆盖454-458,其各自包括图像432描绘的文本的翻译,而不是在单独的屏幕中不带有图像432的情况下呈现文本的第二部分的翻译。具体地,覆盖454呈现文本的第一部分434的翻译;覆盖456呈现文本的第二部分456的翻译;并且覆盖458呈现文本的第三部分438的翻译。在本示例中,覆盖454-458分别位于覆盖所对应的文本之上(或代替文本)。这使得对于用户来说使用翻译来确定图像432中的每个标志的主题是简单的。例如,在图像432中描绘的街道上散步的用户可以很容易地看用户界面450并确定河大酒店位于街道上的哪里。
[0083]每个覆盖454-458可以包括可
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1