自动化的照片-象声语匹配和布置的系统和方法与流程

文档序号:26625489发布日期:2021-09-14 21:20阅读:83来源:国知局
自动化的照片-象声语匹配和布置的系统和方法与流程
自动化的照片

象声语匹配和布置的系统和方法
技术领域
1.示例实现方式的各方面涉及与照片上象声语的自动化匹配和布置关联的方法、系统和用户体验,并且更具体地,涉及图像的相对于对象的的非显著部分中拟声词的自动化布置。


背景技术:

2.在现有技术中,相机效果是用于给照片提供个性化的流行方法。随着个人相机和在线照片应用已经与社交媒体和消息传递应用集成在一起,相机效果已日益普及。在现有技术中,贴纸和注释与在线应用一起使用。例如,用户可以查看贴纸簿来选择注释,或者接收一个或更多个按地理位置推荐的注释。
3.然而,用于照片注释的现有技术方法是一维的。尽管注释可能与照片的地理位置有某种关系,但注释的推荐与照片本身的实际内容没有任何关系。一些现有技术系统可以推荐由用户手动布置在照片上的对象名称。然而,这些现有技术系统没有捕获象声语(例如,唤起诸如某些感觉或感官认知的生动印象(诸如,声音、移动、颜色、动作形状)这样的感官想法的词语)的表达性质,象声语包括但不限于诸如在现有技术的连环漫画中看到的拟声词(即,声音象声语)。
4.图1a至图1b例示了用于照片注释的现有技术的方法100(来源:https://en.wikipedia.org/wiki/onomatopoeia)。在这些方法中,可以在诸如将物品或对象与词语(term)(例如,对象“时钟”与词语“没有滴答声”)链接的手动组织的查找表这样的现有技术的方法中进行象声语与拟声词的匹配。
5.然而,这种现有技术的表需要人力,并且由于其静态性质,导致必须针对每种语言以及每种相关映射重复这些表。例如,在这些现有技术的图示100中,如果创建了映射“时钟

>没有滴答声”,则针对要添加的关系,将需要添加另一映射“表

>没有滴答声”。
6.因此,并未满足克服与现有技术的照片注释方法关联的问题的需求。


技术实现要素:

7.根据示例实现方式的一方面,提供了一种由计算机实现的、将注释与图像中的对象关联的方法,该方法包括以下步骤:生成包括多个第一向量的字典,所述多个第一向量将注释的词语与概念关联;对所述图像进行分类以基于分类后的对象和针对所述分类后的对象的关联置信度分数生成第二向量;在所述词语中选择与所述多个第一向量当中的离所述第二向量最短确定距离的一个第一向量关联的词语;识别所述图像的非显著区域;以及在所述非显著区域处渲染(render)与所选择的词语关联的注释。
8.示例实现方式还可以包括一种具有存储器和处理器的非临时计算机可读介质,所述处理器能够执行用于将注释与图像中的对象关联的指令。
附图说明
9.图1a至图1b例示了用于照片注释的现有技术的方法。
10.图2例示了根据示例实现方式的详细流程。
11.图3例示了根据示例实现方式的输出。
12.图4例示了根据示例实现方式的与字典创建关联的模型。
13.图5a至图5b例示了根据示例实现方式的与显著性确定关联的输出。
14.图6、图7a

7b、图8a

8b例示了根据示例实现方式的评价结果。
15.图9a至图9b例示了根据示例实现方式的硬件实现方式。
16.图10例示了一些示例实现方式的示例过程。
17.图11例示了具有适用于一些示例实现方式的示例计算机装置的示例计算环境。
18.图12示出了适用于一些示例实现方式的示例环境。
具体实施方式
19.下面的详细描述提供了本技术的附图和示例实现方式的更多细节。为了清楚起见,省略了附图的冗余元件的参考标号和描述。整个说明书中使用的词语仅被作为示例提供,并不旨在进行限制。
20.示例实现方式的各方面涉及用于基于照片内容来提供自动推荐集合的系统和方法。这些推荐与照片中表示的声音和概念相关。执行注释的自动定位和合成。结果,用户可以以数字方式保存或打印带注释的最终照片,而不需要除了诸如相机快门操作这样的相机捕获命令的驱动之外的任何附加的用户界面或交互。
21.示例实现方式包括与在不需要用户交互的情况下在照片上的对象或物品和与对象或物品关联的象声语或拟声词的词语之间自动创建映射以及将词语布置在图像的对于用户而言非显著的区域中关联的系统和方法。另选地,可以向用户提供建议来替代自动布置。
22.更具体地,对图像轮廓进行光学分析,以确认对对象或物品的显著性最小的区域(例如,象限)。结果,用户可以采取关注象声语的方法来享受注释的额外乐趣,并且能够拥有与其它用户共享照片的额外机会。
23.根据示例实现方式的使用情况,用户可以捕获图像,诸如用相机应用或诸如相机或录像机这样的图像捕获装置来拍摄照片,或者从照片集中选择照片。然后,系统为用户推荐注释。可选地,系统可以基于用户的喜好自动在照片或打印件上渲染注释。
24.为了执行示例实现方式,系统必须执行设置、匹配和执行。可选地,该过程可以被优化,以在嵌入式边缘/ai装置中执行;然而,示例实现方式不限于此,并且可以用诸如使用云连接这样的其它替代形式来替代它。
25.图2例示了根据示例实现方式的与系统关联的流程200。在201,通过使用人工智能分类器(例如,mobilenet),将照片中的场景视觉识别为人、食物和对象(例如,物品)中的一种。尽管在本示例实现方式中使用了三种类别,但本发明构思不限于此,如本领域技术人员将理解的,按照示例实现方式,并且可以用任何数量的类别来替代它。
26.一旦已完成201的分类,就在203生成拟态词向量。在205,词语向量被匹配

预测到最接近的字典定义。然后,在207中,检索匹配词语。
27.在209,识别图像中的显著区域。然后,在211,在图像的非显著区域中渲染文本。因此,可以在213(例如,由用户)打印或共享图像。
28.图3例示了本文中描述的根据示例实现方式的输出。更具体地,输出300包括第一对象301和第二对象30。分类器通过视觉识别确定这些对象301、303是人。因此,执行词语的匹配和检索、向量,并且识别图像的显著区域。更具体地,针对人301,识别显著区域307,并且针对人303,识别显著区域305。在309中,在非显著区域中渲染文本。
29.如以上说明的,根据示例实现方式的系统需要进行设置、匹配,然后执行。下面,描述与设置、匹配和执行关联的示例实现方式的各方面。
30.为了进行设置,需要象声语或拟声词的字典。例如,但非限制性地,对于条目“没有滴答声”,该条目将提供定义“机械钟内部机构的声音”。然而,示例实现方式不限于特定词语或语言。
31.例如,但非限制性地,选择词语可以是与语言不相关的(例如,混杂英语和日语)或者是语言特定的(例如,仅英语或仅日语)。另外,示例实现方式可以在与对象关联的语言中选择词语(例如,根据分类和评分的结果,使用日语中的平假名与片假名)。
32.一旦已经生成了字典,将针对每个定义执行评分操作。例如,可以基于定义中的词语向量来创立分数。根据一个示例实现方式,可以如关系(1)中所述地,可以使用glove根据定义基于词语向量生成分数(例如,用于词审查的全局向量,涉及测量跨大语料库训练的同现度量的测量):
[0033][0034]
其中,glove(t)是给定词语t的glove分数。如本领域的技术人员将理解的,尽管在本文中使用glove,但可以用其它方法来替代它。
[0035]
根据一个示例实现方式,使用预先训练的wikipedia 2014+gigaword 5向量(6b令牌、400k词汇量、不区分大小写、50维)在边缘装置上执行评分。
[0036]
在评分完成后,可选地将字典缩减为识别词汇表中的词语(例如,稀疏大小缩减操作)。换句话说,这些词语被缩减为视觉分类器可以识别的类别。设置的输出可以是包括约50维向量的词语

单词对的字典。在典型的日语象声语词典的情况下,可以生成约25个条目。
[0037]
如上所述,本示例实现方式涉及视觉分类器的词语匹配。然而,示例实现方式不限于此。例如,但非限制性地,可以分析图像内的对象之间的上下文,并且可以基于该上下文来执行匹配功能。因此,可以对图像中的对象之间的关系进行测量和编码,并且将该关系应用于词语选择。
[0038]
如图4中例示的,在全局单词

单词共生矩阵的非零条目上训练glove模型400。执行与词语在给定语料库中彼此共生的频率有关的制表。可以通过需要单次通过整个语料库来填充该矩阵,以收集统计数字。对于大型语料库,该通过可以需要大量计算,作为一次性的预付成本。
[0039]
一旦完成以上的设置,就可以对图像执行匹配。如以上说明的,图像可以是由用户捕获的图像,或者是从预先存在的集合中选择的图像。不管选择方式如何,对于给定的照
片,将在该照片上运行一组视觉分类器。在本示例实现方式中,分类器包括与面部检测和微笑关联的第一分类器、与食物关联的第二分类器以及与图像中的一个或更多个对象(例如,物品)关联的第三分类器。如上所述,分类器可以基于神经网络中的人工智能蟑螂,包括但不限于在mobilenet上训练。
[0040]
每个分类器返回一组分类器对象o和这些对象的置信度分数co。例如,但非限制性地,微笑分类器可以返回从0至1的浮点分数,其中,0是皱眉而1是微笑。为了一致性的缘故,可以通过仅在0:5阈值失去分辨率来将其报告为0至1范围内的微笑分数或皱眉分数。因此,示例实现方式可以提供客观度量,诸如指示照片中的面部是在微笑还是皱眉的、在0和1之间的浮点分数。
[0041]
对于每个分类器,使用与通过置信度co加权的关系(1)的类似关系来生成glove向量,如关系(2)中所示。
[0042][0043]
结果,生成了三个50维向量,每个分类器一个。对于每个向量,定义向量与如上所述生成的向量字典之间的前五个最小余弦距离。选择前五个(与高的单个最小距离分数形成对照)以允许抖动,从而防止重复打印单个词语。然而,本示例实现方式不限于选择前五个,并且在不脱离本发明范围的情况下可以用其它选择替代它。
[0044]
另外,尽管这里描述了余弦最小余弦距离,并且在本示例实现方式中已证实其具有十分优越的性能,但这是非限制示例,并且可以使用其它距离测量计算方法。由此,选择最接近的向量,并且推荐关联的词语。
[0045]
根据示例实现方式,对于示例照片,对其执行匹配。例如,针对照片生成向量,每个分类器一个。在该背景下,产生以下计算:
[0046]
v
1(面部/欢乐)
=0.99人,0.95微笑
[0047]
v
2(对象)
=0.6帽子,0.87杯子
[0048]
v
3(菜肴)
=0.0
[0049]
更具体地,通过使用来自视觉分类器的置信度分数并使用如上说明的关系式(2),经由glove来生成向量。另外,如上所述,对每个字典定义执行最小余弦距离计算,并且检索词语。
[0050]
除了选择词语之外,本示例实现方式还可以检测情绪关系,并且对检索到的词语进行调整。例如,但非限制性地,取决于视觉分类器的输出和所生成的向量,可以相对于字体、颜色、语言或其它视觉方面进行调整。在一个示例实现方式中,根据在面部图像上检测到的微笑或皱眉,可以调整要渲染的词语的字体和/或颜色以匹配上述与浮点分数关联地说明的微笑或皱眉。
[0051]
例如,但非限制性地,可以生成浮点分数与字体或颜色之间的映射,使得可获得捕获图像中的情绪的字体与颜色组合的向量梯度。可选地,可以向用户提供使词语个性化或者对用户可以关联某些情绪的字体和/或颜色进行过滤、重新定向或者说明的方式,使得用户的喜好被并入浮点分数与输出词语的关联字体和/或颜色之间的映射中。类似地,在黑白照片、图像或视频的情况下,使用颜色注释会受到限制,以免使图像中的对象被压制。根据
一些示例实现方式,直方图可以被用于颜色、色调、形状等,以如以上说明地将颜色和/或字体与对象的分类关联。
[0052]
一旦如以上说明地执行了匹配,就用所选择的照片和匹配词语执行合成。更具体地,可以采用一种或更多种方法来发现图像中的非显著区域。根据本示例实现方式,检测和定义大轮廓,将照片基于其中点划分为笛卡尔平面,并且识别包含最少轮廓交叠的象限。可选地,可以以能凭经验确定阈值的角度和随机大小,将所识别的象限在图像上与该词语合成和渲染。
[0053]
因为布置是自动的,所以用户不需要做出关于合成和渲染的决策,甚至不需要单独的在线应用或用户界面。因此,用户可以简单地选择图像,然后共享输出,且象声语注释自动布置在图像上。
[0054]
图5a至图5b例示了根据示例实现方式的与显著性确定关联的图像500。如上所述,本系统的示例实现方式和计算机实现的操作旨在在图像中找到轮廓,并且将图像分成多个区域,在本案例中,分成四个象限。然后,选择与显著性区域轮廓交叠最少的象限。然后,合成注释。在每一个所图示图像中,可以在与显著图像交叠最少的区域中看到注释。
[0055]
在图5a中,对象是菜肴,并且注释被布置在相对于菜肴显著性最小的象限中。在图5b中,对象是闪电,并且注释被布置在相对于闪电显著性最小的象限中。然而,对象不限于如本文中说明的以上对象,在不脱离发明范围的情况下,可以用其它对象来替代它。例如,但非限制性地,对象可以是面部,注释可以被布置在相对于面部显著性最小的象限中。
[0056]
根据示例实现方式,可以以一种或更多种方式评价结果。例如,但非限制性地,性能的一种测量可以是相对于对象注释的有效性程度。另一种测量性能可以是最终图像的可共享程度。一项或更多项调查可以用于获得用户反馈并评价一种或更多种性能测量。
[0057]
图6示出了根据示例实现方式的调查600的示例。更具体地,对于在区域601处显示的给定图像,向用户提供包括一系列语句的调查603,并且向用户提供确定语句的同意或不同意的输入选项。在该示例实现方式中,语句与用户相对于图像的捕获、共享和打印以及照片是否在美学上令人愉悦、有趣和引人入胜的同意关联。作为调查的结果,该系统将能够收集与用户是否喜欢照片、他们是否拍摄相似照片以及他们是否共享照片有关的信息。
[0058]
图7a和图7b提供了根据示例实现方式的附加调查。在这些图中,所捕获的图像是相同的,而注释是不同的,在701中,是图7a中的“猫!”,而在703中,是图7a中的“喵!”。尽管在该示例中示出了两个不同的注释,但本示例实现方式不限于此,并且如本领域的技术人员将理解的,注释的数量可以由系统或系统操作员确定。在此调查中,询问用户有关他们认为照片有趣的程度、他们是否会共享照片以及他们是否会打印照片。
[0059]
图8a和图8b提供了根据示例实现方式的附加调查800。更具体地,向用户提供具有不同注释的一组相同照片。然后,请求用户选取他们喜欢的图像与注释的组合。
[0060]
调查结果表明,与经确定相对于照片的娱乐性具有中性或负面影响的基于对象的注释(例如,现有技术)相比,带有注释的图像相对于娱乐性和可共享性具有更积极的响应。另一方面,基于象声语的注释会增加照片的共享能力或乐趣。更具体地,拟声词被指示为具有最佳性能,受语言约束。
[0061]
除了以上的示例调查方法之外,可以用其它方法来替代它们。例如,但非限制性地,另一示例调查可以使用专门制造的、非网络连接的相机来测试用户对他们自己照片的
喜好,该非网络连接的相机没有取景器并将带ai注释的照片打印到附连wi

fi的打印机。例如,但非限制性地,在图9a和图9b中例示了这种装置901、903.
[0062]
可选地,相机可以是移动的、独立轻型装置。另外,相机可以是独立的,使得它没有连接到wi

fi网络或其它电信源的云。因此,相机可能能够在不需要外部输入的情况下提供处理。这种方法也可以与其它视听硬件相协调地使用,视听硬件包括但不限于用于增强现实、虚拟现实或其它方法的硬件。
[0063]
图10例示了根据示例实现方式的示例处理1000。如本文中说明的,可以对一个或更多个装置执行示例处理1000。
[0064]
在1001中,如以上说明的,收集并处理信息,以产生象声语或拟声词的词典。
[0065]
在1003中,也如上所述,基于分类器的应用执行匹配,以生成词语推荐。
[0066]
在1005中,也如以上讨论的,进行执行操作以将词语布置在非显著区域中,并且可选地,进行共享、打印等。
[0067]
图11例示了具有适用于一些示例实现方式的示例计算机装置1105的示例计算环境1100。计算环境1100中的计算装置1105可以包括一个或更多个处理单元、内核或处理器1110、存储器1115(例如,ram、rom等)、内部存储器1120(例如,磁性存储装置、光学存储装置、固态存储装置和/或有机存储装置)和/或i/o接口1125,它们中的任一个可以联接到用于传达信息的通信机构或总线1130上或者被内置于计算装置1105中。
[0068]
根据本示例实现方式,与神经网络活动关联的处理可以在作为中央处理单元(cpu)的处理器1110上发生。另选地,可以在不脱离本发明构思的情况下用其它处理器来替代它。例如,但非限制性地,图形处理单元(gpu)和/或神经处理单元(npu)可以替代cpu或者与cpu结合地使用,以执行以上示例实现方式的处理。
[0069]
计算装置1105可通信地联接到输入/用户界面1135和输出装置/接口1140。输入/用户界面1135和输出装置/接口1140中的任一个或两者可以是有线或无线接口并且可以是可拆卸的。输入/用户界面1135可以包括可以用于提供输入的任何装置、部件、传感器或接口(物理的或虚拟的)(例如,按钮、触摸屏界面、键盘、指示/光标控件、麦克风、相机、盲文、运动传感器、光学阅读器等)。
[0070]
输出装置/接口1140可以包括显示器、电视、监视器、打印机、扬声器、盲文等。在一些示例实现方式中,输入/用户界面1135(例如,用户界面)和输出装置/接口1140可以被内置于计算装置1105中或者物理联接到计算装置1105。在其它示例实现方式中,其它计算装置可以用作用于计算装置1105的输入/用户界面1135和输出装置/接口1140,或者提供其功能。
[0071]
计算装置1105的示例可以包括但不限于高度移动装置(例如,智能电话、车辆和其它机器中的装置、人类和动物携带的装置等)、移动装置(例如,平板电脑、笔记本电脑、膝上型计算机、个人计算机、便携式电视、无线电装置等)以及未被设计用于移动性的装置(例如,台式计算机、服务器装置、其它计算机、信息亭、内置有一个或更多个处理器和/或与一个或更多个处理器联接的电视、无线电装置等)。
[0072]
计算装置1105(例如,经由i/o接口1125)可通信地联接到外部存储器1145和网络1150,以便与包括相同或不同配置的一个或更多个计算装置的任何数目的联网部件、装置和系统进行通信。计算装置1105或任何连接的计算装置可以用作或被称为服务器、客户端、
瘦服务器、通用机、专用机或另一标签,提供服务器、客户端、瘦服务器、通用机、专用机或另一标签的服务。例如,但非限制性地,网络1150可以包括区块链网络和/或云。
[0073]
i/o接口1125可以包括但不限于使用任何通信或i/o协议或标准(例如,以太网、802.11xs、通用系统总线、wimax、调制解调器、蜂窝网络协议等)的有线和/或无线接口以便与计算环境1100中的至少所有连接的部件、装置和网络进行信息通信。网络1150可以是任何网络或网络的组合(例如,互联网、局域网、广域网、电话网络、蜂窝网络、卫星网络等)。
[0074]
计算装置1105可以使用计算机可用介质或计算机可读介质和/或使用其进行通信,计算机可用介质或计算机可读介质包括临时介质和非临时介质。临时介质包括传输介质(例如,金属电缆、光纤)、信号、载波等。非临时介质包括磁性介质(例如,磁盘和磁带)、光学介质(例如,cd rom、数字视频盘、蓝光盘)、固态介质(例如,ram、rom、闪存、固态存储器)和其它非易失性存储器或内存。
[0075]
计算装置1105可以用于在一些示例计算环境中实现技术、方法、应用、处理或计算机可执行指令。
[0076]
计算机可执行指令可以被从临时介质中检索,并且被存储在非临时介质上和从非临时介质中被检索。可执行指令可以源自任何编程、脚本和机器语言(例如,c、c++、c#、java、visual basic、python、perl、javascript等)中的一种或更多种。
[0077]
处理器1110可以在本地或虚拟环境中的任何操作系统(os)(未示出)下执行。可以部署一个或更多个应用,包括逻辑单元1155、应用编程接口(api)单元1160、输入单元1165、输出单元1170、设置单元1175、匹配单元1180、执行单元1185以及用于不同单元彼此通信、与os通信以及与其它应用(未示出)通信的单元间通信机构1195。
[0078]
例如,设置单元1175、匹配单元1180和执行单元1185可以实现以上相对于上述结构的一个或更多个处理。所描述的单元和元件可以在设计、功能、配置或实现方式上有所不同,并且不限于所提供的描述。
[0079]
在一些示例实现方式中,当api单元1160接收到信息或执行指令时,可以将信息或执行指令传达给一个或更多个其它单元(例如,逻辑单元1155、输入单元1165、设置单元1175、匹配单元1180和执行单元1185)。
[0080]
例如,如以上说明的,设置单元1175可以接收和处理信息(例如,字典等),以生成象声词或拟声词的字典。另外如上所述,设置单元1175的输出被提供到匹配单元1180,匹配单元1180基于分类器的应用执行必要的操作以生成词语推荐。另外,执行单元1185可以基于设置单元1175和匹配单元1180的输出来提供诸如词语在非显著区域中的布置和可选地共享、打印等这样的输出。
[0081]
在某些情形下,在上述的一些示例实现方式中,逻辑单元1155可以被配置为控制单元之间的信息流并且引导由api单元1160、输入单元1165、设置单元1175、匹配单元1180和执行单元1185提供的服务。例如,一个或更多个处理或实现方式的流程可以由逻辑单元1155单独地或者与api单元1160结合地来控制。
[0082]
图12示出了适用于一些示例实现方式的示例环境。环境1200包括装置1205

1245,并且每个装置经由例如网络1260(例如,通过有线和/或无线连接)可通信地连接到至少一个其它装置。一些装置可通信地连接到一个或更多个存储装置1230和1245。
[0083]
一个或更多个装置1205

1245的示例可以分别是图11中描述的计算装置1105。装
置1205

1245可以包括但不限于具有如以上说明的监视器和关联的网络摄像头的计算机1205(例如,膝上型计算装置)、移动装置1210(例如,智能电话或平板电脑)、电视机1215、与车辆1220关联的装置、服务器计算机1225、计算装置1235

1240、存储装置1230和1245。
[0084]
在一些实现方式中,装置1205

1220可以被认为是与用户关联的用户装置,用户可以远程获得用作以上示例实现方式的输入的感测到的输入。在本示例实现方式中,如以上说明的,这些用户装置中的一个或更多个可以与能按本示例实现方式的需要感测信息的诸如相机和/或麦克风这样的一个或更多个传感器关联。
[0085]
尽管以上示例实现方式是针对单词与对象类别之间的关系的,但本发明构思不限于此,并且可以用其它方面来替代它,或者增添其它方面。例如,但非限制性地,如本领域的技术人员将理解的,不将作为象声语的词语放置在图像上,而是可以将其它内容放置在图像上的非显著区域中,这些内容包括但不限于表情符号、贴纸、图标或其它标记。
[0086]
另外,相对于图像或照片级别(例如,图像中对象的分类),公开了本示例实现方式。然而,示例实现方式不限于对象级别。例如,但非限制性地,可以以像素级别而非对象级别执行映射。
[0087]
另外,以上的示例实现方式公开了图像,该图像可以从存储器接收或者由诸如移动电话等中的独立的相机这样的图像捕获装置捕获。然而,示例实现方式还可以涉及视频。此外,示例实现方式不仅可以涉及相机装置,而且可以涉及与相机设备关联的应用,包括但不限于视频编辑器、电话上的相机应用、相簿、公用电话亭或用户可以选择或捕获要查看的图像或视频或先前存储的图像或视频的其它系统。
[0088]
此外,示例实现方式可以包括交互方面(例如,用户可以与注释交互,或者将反馈或评论直接提供到注释中)。另选地,示例实现方式可以被用在可能有通信困难的用户期望得到辅助的情形下(例如,听力受损的用户不仅能够理解图像中与对象关联的语言,而且能够理解与对象关联的概念)。
[0089]
根据另一示例实现方式,可以提供用于隐藏字幕的电视和媒体的替代或增强。在现有技术的方法中,与视频关联的隐藏字幕的音频出现在用户界面的底部。通过集成示例实现方式,可以逐帧地将象声语添加到视频中,以不仅在显示器上提供与视频图像关联的文本,而且提供与视频图像关联的声音和概念的信息。
[0090]
这方面可以为隐藏字幕的电视提供明显不同的用户体验,使得可以向用户提供语言字幕受限期间的内容,可以向用户提供与声音和概念关联的其它视频。例如,在节目或电影中的悬疑内容期间,示出与将冰块丢入玻璃杯中时发出声音关联的视觉表示的象声语可以为用户提供悬念度的感觉或动作的重要性,从而为隐藏字幕提供了更多的“感觉”。
[0091]
可选地,示例实现方式可以被应用于视频中的纯音频内容,使得可以在视觉上展示与图像不关联的声音。例如,但非限制性地,根据示例实现方式,可以在视觉输出上表示与不在图像中的爆炸关联的声音。在这种方法中,分类器将以与上述方式类似的方式在与视频或图像信息对照的音频信息上执行。
[0092]
相对于现有技术,以上示例实现方式可以具有各种益处和优点。例如,但非限制性地,如果字典可用,则示例实现方式就可以跨语言扩展。另外,映射可以进行标记,以关闭语义距离。例如,但非限制性地,货车可以被映射到卡车,卡车可以被映射到汽车/交通工具。此外,示例实现方式可以扩展到场景图,并且稀疏语言模型字典可以被压缩,以在边缘装置
中以嵌入式方式工作,而不需要云连接。
[0093]
尽管已示出和描述了一些示例实现方式,但是提供这些示例实现方式是为了将本文中描述的主题传达给熟悉该领域的人们。应该理解,本文中描述的主题可以按各种形式实施,而不限于所描述的示例实现方式。可以在没有那些具体定义或描述的主题的情况下或者在没有描述其它或不同元素或主题的情况下实践本文中描述的主题。熟悉本领域的人应该了解,可以在不脱离如所附权利要求书及其等同物所定义的本文中描述的主题的情况下,对这些示例实现方式进行改变。
[0094]
本公开的某些非限制实施方式的各方面解决了以上讨论的特征和/或上面未描述的其它特征。然而,非限制实施方式的各方面不需要应对以上特征,并且本公开的非限制实施方式的各方面可以不应对上述特征。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1