呈现图像中描绘的文本的翻译的制作方法_4

文档序号:9925310阅读:来源:国知局
加信息的每个文本块的覆盖的用户界面(例如,图4中的用户界面)。
[0117]同等突出场境可以包括对已经被识别为具有同等突出度的文本块中的每个都在覆盖中呈现附加信息的用户界面(例如,图7中的用户界面)和/或使得用户能在一个或多个单独的屏幕中浏览同等突出的文本块(以及图像中所识别的任意其他文本块)的附加信息的用户界面(例如,图3中的用户界面)。
[0118]每个突出呈现场境可以具有用于该场境的优选用户界面。例如,优选用户界面可以是在图像之上的覆盖中呈现附加信息的用户界面。通过另一个示例,用户可以能够为每个突出呈现场境选择优选用户界面。响应于对特定突出呈现场境的选择,可以选择用于特定突出呈现场境的优选用户界面。
[0119]在一些实现中,附加信息的可读性度量被用于选择用于呈现附加信息的用户界面。如上面所述,如果附加信息被使用特定用户界面呈现至用户,可读性度量可以指示附加信息的可读性如何。用于用户界面并用于特定附加信息的可读性度量可以是基于可以使用用户界面被呈现的附加信息的多个特征。可读性度量可以等于在(a)能够使用用户界面被呈现的附加信息的特征数目;以及(b)附加信息中的特征的总数目之间的比率或与所述比率成比例。例如,覆盖可能具有有限的空间量来呈现附加信息。空间量可以是基于覆盖将要为其呈现附加信息的文本块的大小。如果只有翻译的部分被呈现在覆盖中,这会使得用户困惑。在这样的情况下,在单独的屏幕中呈现附加信息可能是更好的,可以在所述单独的屏幕中呈现翻译的全部或至少是部分。
[0120]可读性度量可以被用于确定是否为所选择的突出呈现场境使用优选用户界面(例如,在图像之上带有覆盖的用户界面)或者是否使用替选的用户界面(例如,使得用户能够浏览附加信息的用户界面)。例如,如果附加信息相对于优选突出呈现场境的可读性度量满足可读性阈值(例如,通过满足或超过可读性阈值),则可以选择优选用户界面。如果附加信息相对于优选突出呈现场境的可读性度量没有满足可读性阈值(例如,可读性度量小于可读性阈值),则可以选择允许附加信息的更多特征的呈现的替选的用户界面。
[0121]可以在独立于优选用户界面的多个用户界面之间选择可读性度量。例如,可以选择有资格用于所选择的突出呈现场境并具有最高的与附加信息关联的可读性度量的用户界面以呈现附加信息。
[0122]使用所选择的用户界面呈现附加信息(916)。例如,用户设备可以生成用户界面并使用所选择的用户界面呈现附加信息。
[0123]集合呈现场境和用户界面
[0124]—些图像可能在图像内具有文本的许多有区别的部分,所述文本的许多有区别的部分具有各种突出度水平。例如,餐厅菜单的图像可能包括用于图像中描绘的每个菜单项的文本列表。在该场境中,如果识别相关的文本块的集合并将每个集合的翻译(或其他附加信息)呈现在一起,可能对用户更加有益。例如,用户可能希望查看每个菜单项的翻译以确定点哪项,而不是只查看图像中心附近的菜单项。同时,将菜单项看做文本的一个块可能会使用户困惑,类似于图2中的用户界面250。诸如图1中的翻译器115的翻译器可以评估图像中的多个文本块的布置和/或视觉特征以确定如何将文本块的翻译呈现至用户,如参照图10-13更加详细地被描述的。
[0125]图10描绘了用于捕捉图像并且呈现图像中描绘的文本的语言翻译的示例用户界面1000A-1000C的屏幕截图。在屏幕截图1000A中,用户界面1010描绘了例如响应于对图像捕捉按钮1012的用户选择所捕捉到的菜单的图像1015。图像1010描绘了中文文本的餐厅1020的名称以及菜单项1022的列表。图像1010还描绘了每个菜单项1022的价格1024。
[0126]如用户界面1010的顶部附近所示出的,用户已经选择了将中文文本翻译为英文文本。翻译器115可以识别图像1015中的中文文本并基于文本的布置和呈现(例如,基于文本的大小、文本的颜色、背景颜色以及文本各部分之间的距离)确定文本的哪些部分是有区别的文本块。在本示例中,翻译器115已经将餐厅1020的名称识别为有区别的文本块并且将每个菜单项识别为有区别的文本块。
[0127]翻译器115还可以评估文本块的布置和呈现以确定两个或更多个文本块是否相关并应该属于文本块的集合。具体地,翻译器115可以评估文本块的大小和位置、文本块的背景颜色、文本的风格以及语言模型以确定是否将文本块分组在集合内。用于确定将哪个文本块分组在集合内的过程在图13中被图示并在下面被描述。
[0128]在本示例中,例如,由于文本和背景之间的相似性并且还由于邻近的菜单项之间类似的间隔,翻译器115已经将菜单项识别为单个集合。例如,由于餐厅1020的名称相对于菜单项(例如,左对齐)方向上的差异(例如,在菜单上居中)以及餐厅1020的名称和菜单项1022之间的文本和背景颜色中的差异,餐厅1020的名称可以被排除在集合之外。
[0129]响应于识别图像1010中的文本块的单个集合,翻译器115可以为图像1010选择单个集合场境。翻译器115还可以选择用于呈现图像1015描绘的文本的翻译的用户界面。可以从有资格或对应于单个集合场境的用户界面中选择该用户界面。例如,如屏幕截图1000B和1000C中所示出的,用于单个集合场境的用户界面可以使得用户能够在包括在集合中的每个文本块的翻译之间进行浏览。屏幕截图1000B中描绘的用户界面1030利用框1032突出显示餐厅的名称并利用框1034突出显示每个菜单项。响应于对诸如餐厅的名称或菜单项的突出显示的文本框的选择,用户界面1050可以被呈现。该用户界面1050以原始语言(中文)呈现餐厅的名称并以用户指定的语言(英文)呈现餐厅的名称的翻译1054。用户界面1050还包括使得用户能够浏览每个菜单项的翻译的导航控件1056。例如,对箭头1058的选择可以使得用户界面1050呈现下一个项的翻译并且对箭头1057的选择可以使得用户界面1050呈现前一个项的翻译。另一个用户界面元素1059允许用户请求关于所显示的翻译的更多信息。
[0130]尽管在本示例中,除了菜单项的翻译以外,用户界面1050还允许用户浏览餐厅的名称的翻译,但是在一些实现中,用户界面1050可以只包括被包括在集合中的文本块。可以通过选择用户界面1030中突出显示的文本块,单独请求没有被包括在集合中的其他文本块的翻译。
[0131]用于单个集合场境的用户界面还可以包括对集合的每个文本块都在图像之上呈现包括文本块的翻译的覆盖的用户界面。例如,图11描绘了用于捕捉图像并且呈现图像中描绘的文本的语言翻译的示例用户界面的屏幕截图1100A-1100C。屏幕截图1100A类似于图10中的屏幕截图1000A并且包括呈现图像1115的用户界面1110,所述图像1115具有餐厅1120的名称、菜单项1122和每个菜单项1122的价格1124。
[0132]在屏幕截图1100B中,用户界面1130呈现图像1115以及包括餐厅的名称的翻译的覆盖1132、以及用于每个菜单项的覆盖1134。每个覆盖1132包括其相应的菜单项的翻译。每个覆盖1132和1134还被置于其相应的文本块之上,使得将翻译与实际的菜单比较并作出适当的选择对用户来说是容易的。
[0133]每个覆盖1132和1134还可以是可选择的以请求关于文本的附加信息。例如,如屏幕截图1100C中所示出的,响应于对覆盖的选择,用户界面1150可以被呈现。在本示例中,响应于对用于图像1115的底部附近所显示的"nutmilk 〃的覆盖的选择,用户界面1150被呈现。用户界面呈现"nutmilk 〃的中文原始文本1152、翻译1154以及使得用户能够浏览每个菜单项和餐厅名称的翻译的导航控件1156。
[0134]为了确定是否在如图11中所示出的覆盖中或者在如图10中所示出的浏览模式中呈现翻译,翻译器115可以如上述地评估可读性度量。如果覆盖中的翻译的可读性度量中的每一个都满足可读性度量(例如,通过满足或超过可读性度量),翻译器115可以在覆盖中呈现翻译。否则,翻译器115可以在浏览模式中呈现翻译。
[0135]—些图像可被识别为包括文本块的多个集合。例如,图12描绘了用于呈现被识别为具有文本块的多个集合的图像中描绘的文本的语言翻译的示例用户界面的屏幕截图1200A和1200B。在屏幕截图1200A中,用户界面1210在单个支撑1221上描绘了多个街道标志的图像1215。例如,用户可以在交叉口处并尝试基于标志确定走哪条路。
[0136]翻译器115可以识别每个街道标志上描绘的文本并评估所述文本以确定每个街道标志包括与每个其他文本块中的文本块有区别的文本块。例如,翻译器115可以基于每个街道标志和每个其他街道标志的文本之间的距离以及邻近的街道标志之间的背景颜色中的不连续性,确定每个街道标志的文本是有区别的文本块。
[0137]翻译器115还可以评估所识别的文本块的布置和呈现以识别可能相关的文本块的组。每个组可能接着被归类为集合。例如,翻译器115可以将被贴在支撑1221左侧的街道标志的文本块识别为第一集合1220,因为文本块具有相同的文本颜色、相同的背景颜色、相同的方向、类似的文本大小,并且竖直地以相似的距离隔开。类似地,翻译器115可以识别包括被贴在支撑1221右侧的街道标志的文本块的第二集合1225。由于由支撑1221提供的文本块之间的间隔,所述第二集合1225可被识别为与第一集合1220分开的集合。
[0138]响应于为图像1210识别多个集合,翻译器115可为图像1210选择多个集合场境。翻译器115还可以选择用于呈现翻译或与文本块有关的其他附加信息的用户界面。用于多个集合场境的用户界面可以包括在覆盖中呈现翻译的用户界面和/或使得用户能够使用导航控件浏览翻译的用户界面。在用户界面的这两种类型之间的选择还可以基于可读性度量。[0139 ]在屏幕截图1200B中,用户界面1240呈现图像1215的变暗版本、街道标志中的一个的原始文本1242和该街道标志的翻译1244。用户界面1240还包括使得用户能够浏览街道标志的翻译的导航控件1246。在这个示例中,导航控件使得用户能够浏览街道标志中的八个的翻译。这八个街道标志包括第一集合1220的街道标志中的每一个,以及较低的第二集合1225的四个街道标志。第二集合1225中的最高的街道标志可以被排除在外,因为它的文本的部分被其他街道标志截掉了。因此,准确的翻译可能不可用并且翻译部分文本对用户没有帮助。
[0140]在一些实现中,用户界面1240可以使得用户一次能够浏览两个集合中的一个。例如,响应于对第一集合中的文本块的选择,用户界面可以为第一集合1220的街道标志呈现文本块的翻译。导航控件1246可以接着使得用户能够只浏览第一集合的文本块的翻译,而不包括第二集合1225的文本块。用户界面1240还可以包括用户界面元素1249,当所述用户界面元素1249被选择时,将用户返回至描绘图像1215的用户界面1210。用户可以接着选择第二集合的街道标志的文本块并使用类似于用户界面1240的用户界面浏览第二集合的街道标志描绘的文本的翻译。
[0141]诸如翻译器115的翻译器可以评估图像描绘的文本的布置和视觉特征以为图像选择集合呈现场境。翻译器115还可以为所识别的文本的至少一部分选择用于呈现附加信息的用户界面。可以基于所选择的集合呈现场境选择用户界面。例如,如果多个集合场境被选择,则诸如图12的用户界面1240的对应于多个集合场境的用户界面可以被选择。
[0142]图13是基于为图像所选择的集合呈现场境用于呈现关于图像中描绘的文本的附加信息的示例过程1300的流程图。例如,通过诸如图1中的用户设备100的数据处理装置,可以实现过程1300的操作。还可以通过存储在计算机存储介质上的指令实现过程900,其中通过数据处理装置对指令的执行使得所述数据处理装置执行该过程1300的操作。
[0143]接收图像(1302)。例如,用户可以使用诸如智能电话、平板电脑或其他用户设备的用户设备给目标拍照片。标志可以包括对用户来说是外语的文本,其也可以在所接收的图像中被描绘。
[0144]识别所接收的图像中的文本(1304)。可以使用OCR或其他文本识别技术来识别所述文本。在一些实现中,只识别特定语言的文本。例如,用户可以指定特定语言的文本应被翻译为另一种语言,诸如用户理解的语言。在这个示例中,只有特定语言的文本可以在图像中被识别。
[0145]除了实际的文本,可以识别文本的特征。这些特征可以包括文本的颜色、文本之下的背景的颜色、文本的大小、文本的字体类型、和/或图像内的文本位置。此外,可以忽略被剪切或者另外不完整的文本,如上面所描述的。
[0146]基于所识别的文本,识别一个或多个有区别的文本块(1306)。可以评估文本的特征以识别有区别的文本块。例如,与其他文本接近(例如,在阈值距离内)并具有类似的外观(例如,类似的大小、文本大小和/或背景颜色)的文本可被视为文本块A的部分。相反地,远离(例如,大于阈值距离)文本块A并且与文本块A的文本具有不同的文本大小、不同的文本颜色和/或不同的背景颜色的文本的另一部分可以被识别为另一个有区别的文本块B。
[0147]基于图像中的文本块的布置和/或视觉特征,选择用于图像的集合呈现场境(1308)。可以从多个集合呈现场境中选择集合呈现场境,诸如从单个集合场境、多个集合场境和/或集成集合场境。为了确定选择哪个集合场境,可以为图像识别一个或多个集合。
[0148]可以评估为图像所识别的文本块的特征以识别集合。这些特征可以包括每个文本块的大小和位置、文本块的背景颜色、文本的风格(例如,字体、颜色、全部大写、全部小写、文本大小等等),并且文本块的方向可以被用于将文本块分组在集合内。具有类似特征的文本块可被一起分组在集合中。例如,具有相同字体、相同文本颜色、相同背景颜色并且彼此接近(例如,在彼此的阈值距离之内)的文本块可以被分组在集合内。相反地,具有不同字体和不同颜色的两个文本块可能不会一起被包括在集合中。
[0149]多个文本块之间的相对距离还可以被用于将文本块分组在集合内。例如,菜单和列表经常相等地或至少非常类似地隔开文本行。多个文本块之间类似的距离可以指示文本块是类似的,并且因此可被用于确定多个文本块属于一个集合。
[0150]文本块的方向也可以被用于确定文本块是否应该一起被包括在集合中。例如,如果几个文本块朝向相对于图像的类似角度,则文本块可能是相关的。相反地,如果一个文本块的文本具有水平方向且另一个文本块的文本以相对于水平的一个角度偏向上,则文本块可能不是相关的,并且因此不一起被包括在集合中。
[0151]还可以比较每个文本块的背景颜色以确定是否要将文本块包括在集合中。具有类似背景颜色的文本块可能是相关的并可以一起被包括在集合中。相反地,具有基本上不同颜色(例如,一个是蓝色且一个是红色)的文本块可能不是相关的并且可以不一起被包括在集合中。例如,菜单中的列表中呈现的菜单项通常具有相同字体颜色和背景颜色。在本示例中,菜单项可以被一起分组在集合内。
[0152]语言模型也可以被用于将文本块分组在集合内。例如,语言模型可以被用于确定两个或更多个文本块的文本是否是相关的。如果文本块基于语言模型被确定是相关的,则文本块可以一起被包括在集合中。
[0153]可以基于所识别出的集合来选择集合呈现场境。例如,如果识别了多个集合,则可以为图像选择多个集合场境。如果为图像识别了单个集合,则可以在单个集合场境和集成集合场境之间做出选择。当可以独立于每个其他文本块呈现被包括在集合中的每个文本块的附加信息时,可以选择单个集合场境。例如,可以为菜单项的集合
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1