使用语音标签管理图像的方法和装置的制造方法_2

文档序号：9750843阅读：来源：国知局

使用作为蜂窝通信协议的LTE、LTE-A, CDMA, WCDMA, UMTS,WiBro、GSM等中的至少一个。此外，例如，无线通信可以包括局域网164。例如，局域网164可以包括无线保真(W1-Fi)、蓝牙、近场通信(NFC)、全球定位系统(GPS)等中的至少一个。例如，有线通信可以包括通用串行总线(USB)、高清晰度多媒体接口(HDMI)、推荐标准232(RS-232)、普通老式电话服务(POTS)中的至少一个。例如，网络162可以包括电信网络，例如，计算机网络(例如，LAN或WAN)、互联网、和电话网络中的至少一个。
[0052]第一外部电子设备102和第二外部电子设备104中的每一个可以是与电子设备101的类型不同或相同的设备。根据本公开的实施例，服务器106可以包括一组一个或多个服务器。根据本公开的各种实施例，电子设备101将要执行的全部或部分操作可以通过另外的一个或多个电子设备(例如，外部电子设备102或104或服务器106)来运行。根据本公开的实施例，在电子设备101自动地或响应于请求而运行任何功能或服务的情况下，电子设备101可以不在内部执行功能或服务，而是可替换地或附加地，可以在另一设备(例如，外部电子设备102或104或服务器106)处请求与电子设备101相关的功能的至少一部分。另一电子设备(例如，外部电子设备102或104或服务器106)可以运行所请求的功能或附加功能，并且可以将运行结果发送到电子设备101。电子设备101可以使用接收到的结果来提供所请求的功能或服务，或者可以附加地处理接收到的结果以提供所请求的功能或服务。为此，例如，可以使用云计算、分布式计算、或客户端-服务器计算计算。
[0053]图2是示意性地示出示出根据本公开的各种实施例的用于注册语音标签的用户界面(UI)的图。
[0054]语音标签可以使用各种方法来注册。下面，将描述与拍摄操作有关的注册语音标签的方法，以及通过用户的选择来注册语音标签的方法。然而，本公开的范围和精神可以不限于此。本公开可以以各种方式修改或改变，而不限于在此公开的方法。
[0055]电子设备(例如，电子设备101)的用户可以使用安装在电子设备上的相机(例如，拍摄模块180)来拍照对象。例如，参照屏幕210，用户可以使用在屏幕210上显示的至少一个按钮来调整期望拍摄模式，并且可以在特定按钮(例如，相机形状的按钮)上提供触摸输入来捕获对象。
[0056]根据本公开的各种实施例，如果做出拍摄，则电子设备101可以提供包括用于确定是否注册语音标签的用户界面(UI)的屏幕。例如，可以提供包括询问是否注册语音标签的UI 221的屏幕220。用户可以通过UI 221上的适当响应，例如，通过选择“是”按钮来输入语首标签。
[0057]可以根据各种情形来提供UI，诸如屏幕220。例如，如果相机180捕获对象，则可以自动地提供屏幕220。可替换地，如果在捕获对象之后从用户接收到预定输入，则可以提供屏幕220。例如，如果发生以下操作，则可以提供询问是否输入语音标签的屏幕220:在拍摄之后按压物理按钮超过恒定时间或者电子设备从一侧摇动到另一侧。
[0058]根据本公开的各种实施例，可以在拍摄照片并且过去某一时间(例如，两秒)之后提供UI 221。而且，如果在提供UI 221之后在某一时间(例如，1.5秒)期间没有接收到输入，则UI 221可以从显示器160消失。时间的值(例如，2秒，1.5秒，等等)可以通过用户输入而变化，或者根据系统(电子设备)的设置或操作环境而变化。而且，根据本公开的各种实施例，甚至可以在捕获照片之前提供UI 221。例如，屏幕210可以提供有额外的按钮“语音标签+照片”或者“语音标签+视频”，以允许用户首先注册语音标签并且在之后拍摄照片或者注册视频。例如，可以在提供包括UI 221的屏幕220并且在屏幕210上捕获照片之后，提供用于注册语音标签的屏幕230。
[0059]在一般情况下，用户可以在拍摄照片之后改变对象、焦点、构图等等以继续执行照片拍摄。由镜头当前保持的对象(对象根据电子设备的运动或相机抖动是稍微可变的)可以显示在保持在拍摄模式下同时准备下一拍摄的电子设备的显示器上。在这种状态下，用于在当前拍摄模式的屏幕(例如，屏幕210)上输入语音标签的图标(或者菜单)(例如，屏幕260的语音输入图标261)可以提供在屏幕的至少一部分(例如，屏幕的右上、底部中心等)。如果选择了相应的图标，则电子设备可以提供用于相对于先前刚刚捕获的照片来输入语音标签的屏幕220。这个例示可以被用作当连续捕获许多照片时标记用户将其确定为成功地捕获的照片的方法。
[0060]如果用户打算在照片上注册语音标签(例如，用户选择用户界面221的“是”)，则可以提供用于语音输入的屏幕230。屏幕230还可以提供适当的指导消息231 (例如，说出用于这个照片的语音标签)。如果用户提供语音输入，则电子设备可以使用语音输入产生数据文件，并且可以在相应的照片上注册数据文件。根据本公开的各种实施例，电子设备101可以使用语音识别功能等将语音输入转换为文本，并且可以在相应的照片上注册通过将语音输入转换为文本所生成的文本标签连同与语音输入相对应的语音标签。用于在照片上注册语音标签(或语音标签和/或经转换的文本标签)的方法可以不限于上述示例性实施例，并且可以使用各种方法。
[0061]在其中注册语音标签的照片可以包括，例如，如屏幕240中所示的语音标签图标241。这可以是示例性的，并且可以使用各种方法来表达语音标签被注册在相应的图像上。根据本公开的一些实施例，即使语音标签被注册在照片上，带有语音标签的照片可以不被标记为基本上与未注册语音标签的其他图像相同。
[0062]如果语音标签图标241是由用户选择的，则可以再现用户注册的语音数据。可替换地，在选择语音标签图标241期间，可以临时显示通过语音识别转换的文本。根据本公开的各种实施例，当在语音标签图标241上保持触摸输入(或使用电子笔等的悬停输入)时，可以围绕语音标签图标241提供各种菜单，诸如语音收听、关联图像搜索、语音标签删除等。
[0063]根据本公开的各种实施例，可以通过与拍摄操作不同的任何其他操作来注册语音标签。例如，用户可以通过图像管理应用，诸如屏幕250中所示的图库应用，来确定存储在电子设备上的图像列表。如果用户选择照片，则可以提供所选择的照片，如屏幕260中所示。屏幕260可以包括相应的照片，以及用于导引注册语音标签的语音输入图标261。如果选择了语音输入图标261，则可以提供用于语音输入的屏幕，诸如屏幕230。根据本公开的各种实施例，在提供了屏幕220之后，可以根据用户输入提供屏幕230。以下过程可以对应于以上描述。
[0064]根据本公开的各种实施例，可以省略屏幕220的显示。例如，可以仅在拍摄之后提供用于语音输入的屏幕230，或者屏幕230可以立即提供在屏幕260上。
[0065]如果关于特定照片的语音输入被用户注册为语音标签，则电子设备101可以执行对于与所述特定照片有关系的照片的搜索，以便注册相同语音标签。这里，关系指的是与特定照片类似的照片，但是可以被解释为包括各种含义的关系，诸如地理关系、时序关系等。
[0066]例如，在拍摄于植物园的照片中包括楓树并且用户在相应的照片上注册“植物园”的语音标签的情况下，电子设备101可以搜索与该照片类似的任何其它图像(例如，包括楓树的类似照片)，并且可以注册相同的语音标签，也就是说，“植物园”的语音标签。根据本公开的各种实施例，电子设备101可以分析由用户输入的语音输入(例如，“植物园”)，并且可以基于分析结果确定语音输入的含义对应于特定类别(例如，地点)。在这种情况下，电子设备101可以确定照片的元数据信息320当中的适合的元数据信息320(例如，关于拍摄照片的地点的区域信息、GPS坐标信息等)，并且可以在满足相对于相应元数据信息320的参考的任何其它图像(例如，在相同区域捕获的照片或在距GPS坐标I公里的距离内捕获的图像)中注册“植物园”的语音标签。
[0067]下面，将描述被用于确定与特定图像有关系的图像的信息，并且将描述使用每条信息确定关联图像和注册语音标签的方法。
[0068]图3是示意性地示出根据本公开的各种实施例的，元数据信息320和使用元数据信息的标签注册过程的图。
[0069]根据本公开的各种实施例，包括在特定图像300中的各种信息可以被用于注册语音标签。首先，可以使用图像本身的信息。例如，图像表达的对象(例如，海、夜景、天空、草原、山、建筑物等)，包括在图像中的对象(例如，猫、婴儿、书、咖啡、食品等)，图像的颜色分布等可以被用于注册语音标签。这样，通过图像直观提供的信息可以简单地表达为图像信息310。电子设备101的处理器120可以使用图像处理技术等，例如，基于图像信息310确定特定图像300和任何其他图像之间的相似性(例如，75%的相似性)。
[0070]特定图像300可以包括各种元数据信息320以及在视觉上提供的图像信息310。元数据信息320可以包括指示捕获特定图像300的位置的位置信息321、指示捕获特定图像300时的时间的时间信息323、指示关于捕获特定图像300的设备的信息的设备信息325、指示在捕获特定图像300的时间点使用的拍摄模式的模式信息327、以及各种其它信息329 (例如，图像文件的分辨率、容量、文件名、存储文件的文件夹等等)。
[0071]位置信息321可以包括关于捕获特定图像300的国家、城市、区域、特定建筑物或位置的信息。此外，位置信息321可以包括诸如GPS坐标的地理信息。根据本公开的各种实施例，位置信息321可以包括关于在捕获特定图像300的时间点所连接的网络接入点(AP)或基站的信息。
[0072]时间信息323可以包括关于在捕获特定图像300时的时间信息。例如，时间信息323可以包括关于在捕获特定图像300时的年、月、日、时、分、秒等的信息。根据本公开的各种实施例，时间信息323可以在未经修改的情况下使用，或者可以在使用之前被改变为其他格式(例如，季节、上午/下午、日落/日出、或阴历日期等)。
[0073]设备信息325可以包括关于被用于捕获特定图像300的捕获设备的信息。例如，设备信息325可以包括关于型号名称，制造商、拍摄设备所使用的镜头的类型等，或者拍摄设备是否与显示特定图像300的用户设备相同(例如，图像是否由电子设备101捕获，或者由外部设备捕获的特定图像300是否通过网络被发送到电子设备101等)等的信息。
[0074]模式信息327可以包括关于在捕获特定图像300的时间点使用的拍摄模式的信息。详细地说，模式信息327可以包括关于在拍摄时是否使用以下技术的信息:对聚、焦外对焦(out focusing)、闪光灯、白平衡(或其级别)、校正、接近拍摄、夜景模式等。
[0075]下面，将描述基于确定一条或多条元数据信息320的结果来确定关联图像的方法。
[0076]如果在操作301中接收到相对于特定图像300的用户的语音数据，则处理器200可以在操作303中分析语音数据。处理器120可以进一步包括语言模型、语音识别模块、或用来分析语音数据的声谱分析引擎。处理器120可以分析语音数据，以确定其含义。例如，处理器120可以基于分析语音数据的结果将接收到的语音确定为“海(sea) ”。处理器120可以将语音数据的含义分类为特定类别(例如，用于“海”的位置类别)，并且可以确定与相应的类别相对应的元数据信息320 (例如，用于“海”的位置信息)。
[0077]为了基于语音数据确定元数据信息320，处理器120可以使用图像信息310并且分析语音数据本身。例如，在用户提供“ [me:t] ”的语音输入的情况下，可能无法通过基于语音数据的分析来清晰确定语音输入是“meet (会议)”还是“meat (肉)”。在“meat (肉)”出现在当前特定图像300中的情况下，处理器120可以利用图像信息310 (例如，出现在特定图像300中的对象，即，“meat (肉)”)将相应的语音数据分析为“meat (肉)”。
[0078]根据本公开的各种实施例，处理器120可以通过服务器106确定语音输入的含义。例如，处理器120可以通过通信接口 170向服务器106提供由用户输入的语音数据以及特定图像300，并且可以接收由服务器106分析的结果。处理器120可以使用接收到的结果来确定元数据信息320。
[0079]如果在操作303中分析语音数据，则处理器120可以基于关于语音数据的分析结果与包括在元数据信息320中的元数据信息320的每个部分之间的关系，来确定元数据信息320的至少一段，诸如位置、时间、拍摄设备、拍摄模式等，并且具体为，信息321，323，325，327或329。例如，在诸如海、独岛(Dokdo)、植物园、百货公司等的语音输入被分析为与位置相关联的情况下，处理器120可以将位置信息321确定为元数据信息320。例如，在诸如夜景、日落、日出、生日等的语音输入被分析为与日期或时间相关联的情况下时，处理器120可以将时间信息323确定为元数据信息320。
[0080]处理器120可以相对于一条语音数据确定两条或更多条元数据信息320。例如，在语音输入是“夏天海(simmer sea) ”的情况下，可以确定时间信息323和位置信息321。
[0081]在语音数据不具有与元数据信息相对应的适合的类别的情况下，例如，在如“键盘”一样的语音数据与位置、时间、图像拍摄设备等等无关的情况下，处理器120可以确定预先确定的适合的数据信息320。在上述例示中，处理器120可以相对于“键盘”的语音数据，将位置信息321、时间信息323、和模式信息327确定为用于注册语音标签的元数据信息320。在这种情况下，处理器120可以在与其中注册了“键盘”的语音标签的特定图像300的类似的位置、模式(例如，接近拍摄模式)和日期的条件下，相对于捕获的其他图像来注册“键盘”的语音标签。如将在后面描述的，其他图像可以是使用图像信息310被确定为与该图像(例如，包括键盘的照片)有点类似的图像。
[0082]下面，将使用图像信息310和元数据信息320，基于确定关联图像的结果，来描述注册语音标签的操作(例如，操作307)。
[0083]处理器120可以通过使用图像信息310和元数据信息从存储在电子设备101的存储器130

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6