电子装置及其控制方法与流程

文档序号:22188836发布日期:2020-09-11 21:59阅读:111来源:国知局
本公开涉及一种电子装置及其控制方法,更具体地,涉及一种能够基于用户语音生成标记(tag)信息的电子装置及其控制方法。
背景技术
::近年来,人工智能(artificialintelligence,ai)系统已经应用于各种领域。不同于现有的基于规则的智能系统,ai系统是机器学习、判断和反复改进分析和决策的系统。随着ai系统的使用增加,例如,准确度、辨识率以及对用户的喜好的理解或预期会相应地增加。因此,现有的基于规则的智能系统正逐渐被基于深度学习的ai系统所取代。ai技术由机器学习(例如深度学习)和利用机器学习的基础技术组成。机器学习是算法技术,其能够分类或学习输入数据的特性。基础技术是使用机器学习算法(诸如深度学习)来模拟功能(诸如人脑的辨识和判断)的技术。机器学习由诸如语言理解、视觉理解、推理、预测、知识表示、运动控制等
技术领域
:组成。实现ai技术的各种领域可能包括以下内容。语言理解是用于辨识、应用和/或处理人类语言或字符的技术,包括自然语言处理、机器翻译、对话系统、问答、语音辨识或合成等。视觉理解是用于辨识和处理作为人类视觉的对象的技术,包括对象辨识、对象跟踪、图像搜索、人类辨识、场景理解、空间理解、图像增强等。推断预测是用于判断、逻辑推断和预测信息的技术,包括基于知识和基于概率的推断、优化预测、基于偏好的规划、推荐等。知识表示是用于将人类经验信息自动化为知识数据的技术,包括知识构建(数据生成或分类)、知识管理(数据利用)等。运动控制是用于控制车辆的自动行驶和机器人的运动的技术,包括运动控制(导航、碰撞、驾驶)、操作控制(行为控制)等。为了信息的高效管理和各种用户体验,电子装置已经提供了为图像生成标记信息的功能。标记信息是图像的数据和一种元数据。至于现有技术标记信息生成方法,一般地,仅用任何人都可以以相同的方式从图像中识别的信息来统一生成标记信息,而不将与图像相关联的用户的独特的思维、感觉等反映为标记信息。技术实现要素:技术问题本公开提供了一种能够基于用户语音生成标记信息的电子装置及其控制方法。解决问题的技术方案根据实施例,一种电子装置的控制方法包括:显示包括至少一个对象的图像;接收语音;通过将语音输入到由人工智能(ai)算法训练的ai模型中,识别包括在图像中的至少一个对象中与语音相关联的对象,并获得识别的对象的标记信息;以及提供获得的标记信息。根据实施例,一种电子装置包括显示器、麦克风、被配置为存储计算机可执行指令的存储器、以及处理器,该处理器被配置为执行该计算机可执行指令、以控制显示器显示包括至少一个对象的图像,通过将通过麦克风接收到的语音输入到由ai算法训练的ai模型来识别包括在语音中的至少一个对象中与语音相关联的对象,获得识别的对象的标记信息,并且提供获得的标记信息。附图说明图1是根据实施例的基于语音生成标记信息的电子装置的使用图;图2是示出根据实施例的电子装置的配置的框图;图3是示出与通过电子装置执行标记功能相关的各种实施例的视图;图4是示出与通过电子装置执行标记功能相关的各种实施例的视图;图5是示出删除标记信息的实施例的图;图6是示出与通过电子装置终止标记功能相关联的实施例的图;图7是示出与为图像中的多个对象中的每一个生成标记信息相关联的实施例的图;图8是示出根据实施例的用于识别图像中要标记的目标对象的方法的图;图9是示出与参考预生成的标记信息生成新的标记信息相关联的各种实施例的图;图10是示出与参考预生成的标记信息生成新的标记信息相关联的各种实施例的图;图11是示出根据实施例的标记信息的图;图12是示出根据实施例的标记信息生成方法的图;图13a是示出根据实施例的生成标记信息的图;图13b是示出根据实施例的生成标记信息的图;图14是示出根据实施例的标记信息共享的图;图15是示出根据各种实施例的标记信息使用的方式的图;图16是示出根据各种实施例的标记信息使用的方式的图;图17是示出为冰箱中的食物生成标记信息的各种实施例的视图;图18是示出为冰箱中的食物生成标记信息的各种实施例的视图;图19是示出根据实施例的用于学习和使用辨识模型的处理器的框图;图20是示出根据各种实施例的学习单元和分析单元的框图;图21是示出根据各种实施例的学习单元和分析单元的框图;图22是示出根据各种实施例的学习单元和分析单元的框图;图23是示出根据实施例的电子装置的详细配置的框图;图24是根据各种实施例的使用辨识模型的网络系统的流程图;图25是根据各种实施例的使用辨识模型的网络系统的流程图;以及图26是示出根据实施例的电子装置的控制方法的流程图。具体实施方式在下文中,将参考附图描述本公开的实施例。然而,应当理解,本公开不限于下文描述的具体实施例,而是包括本公开的实施例的各种修改、等同和/或替代。关于附图的解释,相似的附图标记可以用于相似的组成元件。在本说明书中,表达“具有”、“可以具有”、“包括”或“可以包括”等表示相应特征(例如:组件,诸如数字、功能、操作或部件)的存在,并且不排除附加特征的存在。在说明书中,术语“a或b”、“a和/或b中的至少一个”或“a和/或b中的一个或多个”可以包括一起枚举的项目的所有可能的组合。例如,术语“a或/和b中的至少一个”是指(1)包括至少一个a,(2)包括至少一个b,或(3)包括至少一个a和至少一个b。如本文使用的,术语“第一”、“第二”等可以表示各种组件,而不管顺序和/或重要性,并且可以用于将一个组件与另一组件区分开来,并且不限制这些组件。例如,第一用户设备和第二用户设备可以指示不同的用户设备,而不管其顺序或重要性。例如,在不脱离本公开的范围的情况下,第一组件可以称为第二组件,并且第二组件也可以被类似地称为第一组件。诸如“模块”、“单元”、“部件”等术语用于指代执行至少一种功能或操作的元件,并且这种元件可以实现为硬件或软件,或者硬件和软件的组合。此外,除了当多个“模块”、“单元”、“部件”等中的每一个需要在单独的硬件中实现时,组件可以集成在至少一个模块或芯片中,并且可以在至少一个处理器中实现。如果描述了某元件(例如,第一元件)“可操作地或可通信地耦合到/与(另一元件(例如,第二元件))耦合”或“连接到”另一元件(例如,第二元件),应该理解,该某元件可以直接地或通过又一元件(例如,第三元件)连接到另一元件。另一方面,如果描述某元件(例如,第一元件)“直接耦合”到另一元件(例如,第二元件)或“直接连接到另一元件”,可以理解在该某元件和另一元件之间没有元件(例如,第三元件)。此外,取决于情况,在本公开中使用的表述“配置为”可以与其他表述互换使用,诸如“适合于”、“具有能力以”、“设计为”、“适于”、“制造为”和“能够”。同时,术语“配置为”并不一定意味着设备在硬件方面是“专门设计为”的。相反,在一些情况下,表述“被配置为…的设备”可以意味着该设备“能够”与另一设备或组件一起执行操作。例如,短语“被配置为执行a、b和c的处理器”可以指用于执行相应操作的专用处理器(例如,嵌入式处理器),或者可以通过执行存储在存储器设备中的一个或多个软件程序来执行相应操作的通用处理器(例如,中央处理单元(centralprocessingunit,cpu)或应用处理器)。本公开中使用的术语可以用于描述特定实施例,而不是限制其他实施例的范围。单数形式旨在包括复数形式,除非上下文另有明确指示。本公开中使用的术语,包括技术和科学术语,可以具有与本公开所属领域的技术人员通常理解的含义相同的含义。在本公开中使用的术语中,在通用词典中定义的术语可以解释为与现有技术的上下文中的含义相同或相似的含义,并且除非在本公开中明确定义,否则不解释为理想的或过于正式的含义。在一些情况下,术语可能不解释为排除本公开的实施例,即使这些术语可能是在本公开中定义的。根据各种实施例的电子装置可以包括智能手机、平板个人计算机(tabletpersonalcomputer,pc)、移动电话、视频电话、电子书阅读器、台式pc、膝上型计算机、笔记本计算机、工作站、服务器、个人数字助理(personaldigitalassistant,pda)、便携式多媒体播放器(portablemultimediaplayer,pmp)、移动图像专家组阶段1或阶段2(movingpictureexpertsgroupphase1orphase2,mpeg-1或mpeg-2)音频层3(audiolayer-3,mp3)播放器、移动医疗设备、相机或可穿戴设备中的至少一个。根据各种实施例,可穿戴设备可以是配饰的类型(例如,手表、戒指、手镯、项链、眼镜、隐形眼镜或头戴式设备(head-mounted-device,hmd))、织物或服装(例如,电子衣物)、身体附着物(例如,皮肤垫或纹身)或生物可植入物(例如,可植入电路)。在另一实施例中,电子装置可以是家用电器。例如,家用电器可以包括电视(tv)、数字视频盘(digitalvideodisc,dvd)播放器、音频、冰箱、空调、真空吸尘器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、家庭自动化控制面板、安全控制面板、tv盒(诸如samsunghomesynctm、appletvtm或googletvtm)、游戏控制台(例如xboxtm,、playstationtm)、电子词典、电子钥匙、摄录机或电子相框中的至少一个。在另一实施例中,电子装置可以包括各种医疗设备(诸如,各种便携式医疗测量设备(血糖仪、心率仪、血压计或温度测量设备、磁共振血管造影(magneticresonanceangiography,mra)、磁共振成像(magneticresonanceimaging,mri)、计算机断层摄影(computedtomography,ct)、摄影设备或超声波设备等))、导航仪、全球导航卫星系统(globalnavigationsatellitesystem,gnss)、事件数据记录器(eventdatarecorder,edr)、飞行数据记录器(flightdatarecorder,fdr)、汽车信息娱乐设备、海洋电子仪器(例如,海洋导航设备、陀螺罗盘等)、航空电子、安全设备、车辆的头部单元、工业或家用机器人、自动柜员机(automaticteller'smachine,atm)、商店的销售点(pointofsales,pos)或物联网(例如,灯泡、各种传感器、电表或煤气表、洒水设备、火警、恒温器、街灯、烤面包机、健身仪器、热水箱、加热器、锅炉等)中的至少一个。在另一实施例中,电子装置可以包括一件家具或建筑物/结构的部分、电子板、电子签名接收设备、投影仪或各种测量设备(例如,水、电、气体或无线电波测量仪器等)中的至少一个。在各种实施例中,电子装置可以是上述各种设备中的一个或多个的组合。根据一些实施例的电子装置可以是柔性电子装置。此外,根据本公开实施例的电子装置不限于上述设备,并且可以包括根据技术进步的新的电子装置。本公开涉及用于在图像中标记信息的技术,更具体地,涉及基于语音(或话语)更容易地生成包括在图像中的对象的标记信息。标记信息是指作为一种元数据的图像的数据。图1是根据实施例的将信息标记到图像的电子装置100的使用图。参考图1,电子装置100可以显示包括至少一个对象的图像10,并且可以将包括在用户语音中的信息标记到包括在图像10中的对象。这里,对象可以是可区分于其他人的方式存在的任何人、对象等。该对象可以称为实体。当正在电子装置100中显示图像10时,用户可以给出描述关于图像10的语音。可以通过电子装置100中提供的麦克风输入描述图像10的用户语音。可替代地,可以通过电连接到电子装置100的外部麦克风输入用户语音。可以识别包括在图像10中的对象中与语音相关联的对象,即,要用信息标记的目标对象。该语音可以包括至少一个用于识别要用信息标记的目标对象的描述。例如,语音可以包括目标对象的外观的描述、目标对象的性别的描述、目标对象的颜色的描述、目标对象的位置的描述、目标对象的类别的描述、目标对象的名称的描述等中的至少一个。根据实施例,可以通过将语音和图像输入到由人工智能(ai)算法训练的ai模型来识别图像中的目标对象。在图1的示例中,可以在图像10中基于语音“左边是我的儿子,junseo”来识别目标对象11。当识别出与语音相关的对象时,电子装置100可以显示通知识别的对象是将要标记的目标对象的用户界面(userinterface,ui)元素。例如,如图1所示,电子装置100可以显示围绕将要标记的目标对象11的矩形ui元素。可以基于该语音获得目标对象11的标记信息12。在图1中,将包括在该语音中的词语“儿子”和“junseo”标记到目标对象11。根据实施例,将语音输入到由ai算法训练的ai模型中,以从该语音中获得关键词,并且可以将获得的关键词标记到目标对象。电子装置100可以将标记的关键词与图像10一起显示。可以将随后输入的输入用户语音的关键词附加地标记到目标对象11。参考图1的实施例,附加地标记了“5岁”和“有点淘气”。可以与图像10一起显示标记信息12。如图1所示,随后输入的语音的关键词被添加为标记信息并且可以与先前显示的关键词一起显示。图2是示出根据实施例的电子装置100的配置的框图。参考图2,电子装置100包括显示器110、存储器120、麦克风130和处理器140。根据实现方式类型,可以省略一些配置,并且一些未示出但对于本领域技术人员清楚的硬件/软件配置可以附加地包括在电子装置100中。显示器110可以包括例如液晶显示器(liquidcrystaldisplay,lcd)、发光二极管(light-emittingdiode,led)显示器、有机发光二极管(organiclight-emittingdiode,oled)显示器(例如,有源矩阵有机发光二极管(active-matrixorganiclight-emittingdiode,amoled)、无源矩阵有机发光二极管(passive-matrixoled,pmoled))或微机电系统(microelectromechanicalsystem,mems)显示器或电子纸显示器。显示器110可以显示各种图像,例如,包括文本、图像、视频、图标或符号的图像。根据实施例,显示器110可以包括触摸屏,并且可以使用例如电子笔或用户身体的部分来接收触摸、手势、接近或悬停输入。存储器120可以包括例如嵌入式存储器或外部存储器。嵌入式存储器可以包括例如易失性存储器(例如,动态随机访问存储器(dynamicrandomaccessmemory,dram))、静态ram、同步动态ram(synchronousdynamicram,sdram)、非易失性存储器(例如,一次性可编程只读存储器(onetimeprogrammablereadonlymemory,otprom))、可编程rom(programmablerom,prom)、可擦除可编程rom(erasableandprogrammablerom,eprom)、电可擦除可编程rom(electricallyerasableandprogrammablerom,eeprom)、掩模rom、快闪rom、闪存(例如,nand闪存或nor闪存等)、硬驱和固态驱动(solidstatedrive,ssd)中的至少一种。外部存储器还可以包括闪存驱动器,诸如紧致闪存(compactflash,cf)、安全数字(securedigital,sd)、微安全数字(microsecuredigital,micro-sd)、迷你安全数字(minisecuredigital,mini-sd)、极限数字(extremedigital,xd)、多媒体卡(multi-mediacard,mmc)或记忆棒。外部存储器可以通过各种接口在功能上和/或物理上连接到电子装置100。存储器120由处理器140访问,并且可以执行处理器140对数据的读取/写入/修改/删除/更新。本文中的术语存储器是指设置在电子装置100上的存储器120(未示出)、处理器140中的rom、ram或存储卡(例如,微sd卡和记忆棒)。存储器120可以存储计算机可执行指令。在存储器120中,可以存储用于配置要在显示器110的显示区域中显示的各种屏幕的程序、数据等。根据实施例,存储器120不仅可以用电子装置100内部的存储介质来实现,还可以通过网络用网络服务器等来实现。麦克风130是用于接收声音的结构。麦克风130可以将接收到的声音转换为电信号。麦克风130可以与电子装置100集成实现或分离实现。分离的麦克风130可以电连接到电子装置100。处理器140是用于控制电子装置100的整体操作的配置。例如,处理器140可以实现为中央处理单元(cpu)、专用集成电路(applicationspecificintegratedcircuit,asic)、片上系统(systemonchip,soc)、micom等。处理器140可以操作操作系统或应用程序来控制连接到处理器140的多个硬件或软件组件,并且可以执行各种数据处理和操作。根据一个实施例,处理器140还可以包括图形处理单元(graphicsprocessingunit,gpu)和/或图像信号处理器。处理器140可以执行计算机可执行指令来执行根据本公开的各种实施例的功能。处理器140可以通过执行存储在存储器120中的计算机可执行指令来执行与显示器110、存储器120和麦克风130相关联的各种操作。例如,处理器140可以控制显示器110显示包括至少一个对象的图像。处理器140可以通过将通过麦克风130接收到的用户语音输入到由ai算法训练的模型中,在显示器110中显示的图像包括的至少一个对象中识别与语音相关的对象,并为识别的对象生成标记信息。处理器140可以提供生成的标记信息。例如,参考图1,当在通过电子装置100的显示器110显示图像10的同时通过电子装置100的麦克风130输入用户语音时,处理器140可以将语音输入到由ai算法训练的ai模型,以识别与该语音相关联的对象11,为该对象生成标记信息12,并经由显示器110提供标记信息12。由ai算法训练的ai模型可以存储在存储器120中。由ai算法训练的ai模型可以存储在电子装置100外部的服务器中,使得当电子装置100将图像和用户语音(语音数据)发送到服务器时,外部服务器可以识别图像中与该语音相关的对象,并将结果发送到电子装置100。根据实施例,可以将从用户所指定的点开始的用户语音内容标记到图像中的对象。也就是说,可以在用户期望的时间点启动电子装置100的标记功能。可以使用多种方式来启动标记功能。图3和图4是示出与执行标记功能相关的各种实施例的视图。参考图3,根据的一个实施例的电子装置100可以提供用于启动图像10的标记功能的ui元素20,并且可以在选择ui元素20时启动标记功能。在标记功能启动之后,可以基于输入的语音执行标记操作。可以经由多种输入方法来选择ui元素20。例如,如果电子装置100是包括触摸屏的装置,则用户可以通过触摸ui元素20来启动标记功能。图4是示出与基于语音辨识执行标记功能相关的各种实施例的视图。电子装置100可以包括用于提供语音辨识服务器的ai代理。ai代理是用于提供基于ai的服务(例如,语音辨识服务、辅助服务、翻译服务、搜索服务等)的专用程序,并且可以由现有的通用处理器或单独的ai专用处理器来执行。例如,当用户发出词语(例如,“bixby”)来启动语音辨识功能并发出请求标记功能的语音(例如,“执行标记功能”)时,可以启动标记功能。在该示例中,可以显示指示用于图像10的标记功能已经启动的用户界面30。例如,如图4所示,ui30可以包括引导用户说出将要标记到图像10中的对象的信息的引导短语。在由语音启动标记功能之后,可以基于输入的语音执行标记操作。如上所述,根据其中基于在标记功能启动后输入的语音来执行标记操作的实施例,存在这样的效果,即,只有用户期望的词语可以标记到图像上。根据实施例,可以在经由语音进行标记期间删除标记。例如,可以显示用于删除标记信息中包括的语音的关键词的ui元素。将参考图5对此进行描述。参考图5,电子装置100可以提供用于删除标记的词语的ui元素40。当用户选择ui元素40时,可以删除该标记。例如,当选择显示在“儿子”旁边的ui元素40时,可以从标记信息中删除“儿子”。根据另一实施例,可以修改和编辑标记的词语。例如,如果电子装置100具有触摸屏,例如,如果用户触摸显示在触摸屏上的标记信息中的“儿子”,则“儿子”可以处于可修改状态。可以以可修改的状态显示光标和软键盘,并且用户可以使用软键盘来修改内容。可以通过软键盘修改、删除并且还输入新的标记内容。根据上述实施例,可以排除用户在讲话期间不想被标记的内容,并且存在这样的效果,即使没有正确地辨识语音,也可以修改标记。当标记终止时,用户可以终止标记功能。根据本公开,可以通过各种方法终止标记功能。图6示出了终止标记功能的实施例。参考图6,电子装置100可以提供询问是否终止标记的ui50。例如,如果在标记期间在预定时间段内没有输入用户语音,则电子装置100可以确定用户意欲完成标记并显示ui50。响应于显示的ui50,如果用户说出同意的语音,诸如,例如“是”,则电子装置100可以辨识这点并终止标记功能。电子装置100可以将图像10中的对象11与标记信息12相匹配,并且将标记信息12存储在存储器120中。可以以多种方式终止标记功能。根据另一实施例,当用户说出意欲终止标记的语音时,诸如“描述照片结束”,电子装置100可以辨识它并终止标记功能。根据另一实施例,电子装置100可以显示用于终止标记功能的图标以及图像10,并且如果选择了图标,则可以终止标记功能。根据实施例,如果图像中存在用户希望向其标记信息的多个对象,则用户可以区分所述对象以进行标记。例如,如果识别出图像中与语音输入相关联的多个对象,则电子装置100可以基于输入的语音获得用于多个对象中的每一个的标记信息。将参考图7描述该实施例。图7是示出根据实施例的将信息标记到多个对象的实施例的图。参考图7,当对junseo的标记完成时,用户可以在图像10中对yunseo进行标记。当在对图像10中的第一对象执行标记的同时输入了用于对象转换的触发语音时,电子装置100可以识别与该触发语音相对应的对象,并且对识别的对象执行新的标记。触发语音可以包括例如目标对象的外观的描述、目标对象的性别的描述、目标对象的颜色的描述、目标对象的位置的描述、目标对象的类别的描述、目标对象的名称的描述等中的至少一个。如图7所示,对象位置的描述,诸如“右”,可以是切换要标记的对象的触发语音。如果通过输入用于对象转换的触发语音来识别新的对象13,则电子装置100可以显示指示新的对象将被标记的ui元素。例如,如图7所示,可以显示围绕识别的对象13的矩形ui元素。当识别到新的对象13并且输入用户语音时,可以基于输入的语音生成新的对象13的标记信息14。根据该实施例,当用户自然说话时,可以生成图像中的几个对象的每一个的标记信息。在上面的实施例中描述了基于语音识别用于标记的目标对象,但是根据又一实施例,可以通过用户操纵来识别目标对象。图8示出了实施例。参考图8,当电子装置100具有触摸屏时,当通过触摸屏检测到用户对显示图像10的触摸时,电子装置100可以将位于检测到触摸的位置的对象识别为用于标记的目标对象。当识别了用于标记的目标对象并且输入了用户语音时,可以基于输入的语音生成用于标记的目标对象13的标记信息14。当没有成功执行基于语音的对象识别时,如上所述的基于用户操纵识别对象可以用作辅助手段。例如,如果电子装置100未能基于语音识别对象,则电子装置100可以显示引导ui,诸如“请触摸要标记的对象”。根据实施例,可以参考预生成的标记信息来获得标记信息。例如,电子装置100可以识别图像中与语音相关联的第一对象,并参考包括在图像中的第二对象的预生成的标记信息来获得该第一对象的标记信息。将参考图9至10描述本发明的实施例。参考图9,如果对于图像10中的对象中第一对象11存在预生成的标记信息70,则当基于用户语音生成第二对象13的标记信息时,可以参考预生成的标记信息70。标记信息70可以存储在存储器120中。如图9所示,当输入“比junseo大四岁”的用户语音时,电子装置100可以将语音和标记信息70输入到使用ai算法训练的ai模型中,以从预生成的标记信息70中获得“junseo五岁且将要标记的目标对象13比junseo大四岁”的信息,并且因此可以基于获得的信息将“九岁”标记到用于标记的目标对象13。图10是示出与参考预生成的标记信息生成新的标记信息相关联的另一实施例的图。参考图10,当对于图像10内的对象中的第一对象13存在预生成的标记信息80时,当基于用户语音生成第二对象15的标记信息时,可以参考预生成的标记信息80。如图10所示,当用户发出语音“这是yunseo正在玩的水枪”时,电子装置100可以从预生成的标记信息中提取包括“yunseo”的标记信息80,并生成包括提取的标记信息80的新的标记信息80。可以以各种方式使用生成的标记信息。例如,当用户发出包括购买特定对象的意图的语音时,电子装置100可以通过参考与该对象相对应的标记信息来显示用于购买该对象的网页。例如,在图10的示例中,当用户发出语音说,“junseo非常想拥有yunseo正在玩的水枪。我也需要为junseo订购一个。”电子装置100可以参考为水枪生成的标记信息90中的命名的实体,并通过参考该命名的实体来显示销售粉色水枪的网站。根据实施例,电子装置100可以将图像输入到第一ai模型,以获得关于图像中的至少一个对象的信息,并且基于关于该至少一个对象的信息和包括在语音中的词语,在获得的至少一个对象中识别与语音相关的对象。可以将该语音输入到第二ai模型,以获得包括该语音的关键词的标记信息。标记信息可以包括通过分析图像获得的标记信息以及基于语音获得的标记信息。也就是说,例如,标记信息可以包括通过将图像输入到第一ai模型而获得的关于至少一个对象的信息中关于识别的对象的信息、以及通过将语音输入到第二ai模型而获得的语音的关键词。第一ai模型可以是用于视觉理解的模型,并且第二ai模型可以是用于语言理解的模型。图11是示出根据实施例的标记信息的图。图像中对象的标记信息可以包括通过分析图像获得的关于对象的信息。参考图11,“命名的实体”项是通过图像分析获得的信息。可以使用各种传统的图像分析技术来获得关于对象的信息。例如,ai模型可以用于分析图像以辨识对象的类别(人、动物、事物、风景等),并且可以辨识对象的外观、颜色、性别、年龄、面部等。通过这样的图像分析,可以获得关于对象的信息并将其包括在标记信息中。标记信息可以包括通过将来自用户的语音输入输入到ai模型而获得的关于对象的信息。参考图11,“属性”项是指通过语音获得的信息。通过语音获得的信息反映了用户独特的思维、感觉等,并且与通过图像分析获得的信息相比,具有更个性化的信息的性质。根据实施例,可以通过包括通过图像分析获得的信息和通过语音获得的信息来生成标记信息,从而可以利用更多种类的标记信息。标记信息包括其中识别出用于标记的目标对象的图像。参考图11,“图像”项是在其中识别出要标记的对象的图像。如上所示生成的标记信息70、80和90可以存储在存储器120中。生成的标记信息70和80可以存储在外部服务器中,并与其他用户共享。图12是示出根据实施例的标记信息生成的图。参考图12,将用户语音输入到语音引擎1210,并且将包括至少一个对象的图像输入到图像引擎1220。语音引擎1210可以使用用于语言理解模型(使用ai算法训练的)对输入的语音进行处理。图像引擎1220可以使用通过使用ai算法训练的用于视觉理解的模型对图像进行处理。将自动语音辨识(automaticvoicerecognition,asr)模块1211的语音输入转换为纯文本。接收经转换的文本的自然语言理解(naturallinguisticunderstanding,nlu)模块1212可以执行若干分析,用于使系统理解经转换的文本。基于使用asr模块1211的经转换的文本,nlu模块1212可以执行自然的语言理解过程以掌握用户话语的意图。在自然语言理解过程中,可以执行语素(morpheme)分析、句法(syntactic)分析、对话行为、主要动作、关键词分析等。具体地,nlu模块1212可以执行语素分析,以将文本划分为作为最小语义单元的语素的单元,以分析每个语素具有哪个词类。通过语素分析,可以识别诸如名词、动词、形容词、后置词等词类的信息。nlu模块1212可以执行句法分析处理。通过用特定的参考(诸如名词短语、动词短语、形容词短语等)来划分用户的话语并且分析每个划分的块之间是否存在任何关系来执行句法分析。通过这种句法分析,可以掌握用户话语的主语、宾语、限定词。作为来自nlu模块1212的对语音进行分析的结果而获得的语音的关键词可以被包括作为标记信息的“属性”项。图像引擎1220包括对象辨识引擎1221,并且对象辨识引擎1221可以识别哪些事物出现在图像中。例如,图像引擎1220可以使用特征向量技术来识别对象是什么。特征向量技术是其中组合对象的各种特征(诸如颜色、形状、移动等)以辨识对象是什么的技术。例如,如果输入了包括男孩的图像,则对象辨识引擎可以通过对象的体格、比率、面部特征等的辨识来定义男孩。对象辨识引擎1221可以提供关于对象的信息(例如,“男孩”)作为处理图像的结果,并且这可以作为“命名的实体”项包括在标记信息中。代理1240可以是ai代理。ai代理是用于提供基于ai的服务(例如,语音辨识服务、辅助服务、翻译服务、搜索服务等)的专用程序,并且可以由现有的通用处理器(例如,中央处理单元(cpu))或单独的仅ai处理器(例如,图形处理单元(gpu)等)来执行。代理1240可以安装在电子装置100上,或者安装在电子装置100的外部服务器上。对于无法理解的用户话语中的实体(例如,“那个”是什么,呼叫“那个人”),代理1240可以通过利用对话任务本体(ontology)1230来区分。标记生成器1250可以基于通过语音引擎1210和图像引擎1220获得的信息来生成标记信息,并将该信息存储在数据库1260中。在上述实施例中,语音引擎1210、对象辨识引擎1220、代理1240、对话任务本体1230和标记生成器1250中的至少一个可以实现为软件模块或者以至少一个硬件芯片的形式实现并且安装到电子装置100,或者可以可替代地安装在电子装置100的外部服务器上。当语音引擎1210、对象辨识引擎1220和代理1240在软件模块(或包括指令的程序模块)中实现时,软件模块可以存储在计算机可读非暂时性计算机可读介质中。在该示例中,软件模块可以由操作系统(operatingsystem,os)提供,或者由预定的应用提供。可替代地,一些软件模块可以由os提供,且一些软件模块可以由预定的应用提供。图13a是示出根据实施例的生成标记信息的图。当用户(a)在观看显示在电子装置100上的图像时说“左边是我的儿子junseo”时,对象辨识引擎1221可以识别照片中的对象,通过图像分析获得该对象的特征信息(例如,性别、年龄等)并获得关于图像中的对象位置、对象的关系、性别、名字等的信息。可以基于图像的辨识信息和语音的辨识信息生成标记信息75。取决于辨识信息,标记信息75可以包括各种信息(诸如关系、性别、年龄、颜色等)作为属性。参考图13b,可以基于附加输入的语音将信息添加到标记信息75。在该示例中,可以通过语音的辨识信息将通过图像辨识掌握的抽象信息(年龄:儿童)补充为详细的信息(年龄:5)。可以为每个用户生成包括标记信息的数据库,并且包括各种用户的组可以共享彼此的标记信息。例如,参考图14,可以生成第一用户的数据库1260和第二用户的数据库1270。第一用户的数据库1260和第二用户的数据库1270可以存储在云服务器中。标记信息的数据库可以在指定的用户组之间共享。代理1240可以基于共享的标记信息的数据库提供各种服务。例如,属于一个组的用户在进行对话时可以使用标记信息进行对话。将参考图15描述该实施例。图15示出了根据实施例的显示在电子装置100上的聊天屏幕。可以向不知道对话伙伴jaein的女儿的电子装置100的用户显示包括关于jaein的女儿的信息的ui1300。代理1240可以包括nlu模块1241、标记动作规划器1242和自然语言生成(naturallanguagegeneration,nlg)模块1243。代理1240可以是ai代理。该ai代理是用于提供基于ai的服务(例如,语音辨识服务、辅助服务、翻译服务、搜索服务等)的专用程序,并且可以由现有的通用处理器(例如,cpu)或单独的仅ai处理器(例如,gpu)来执行。代理1240可以安装在电子装置100上,或者安装在电子装置100的外部服务器上。nlu模块1241对输入到聊天屏幕的文本执行自然语言理解过程,并且基于该结果,标记动作规划器1242可以获得包括在jaein的数据库1260中的标记信息80。nlg模块1243是用于以自然语言形式形成结果数据的模块,并且可以基于标记信息80生成自然语言形式的信息,并且可以将包括生成的信息的ui1300显示在电子装置100中。图16是示出根据另一实施例的标记信息使用的图。参考图16,当用户对具有标记信息的对象的特定部分感兴趣时,可以放大和显示对象的该部分,并且可以将该部分作为用户感兴趣的图像单独管理。例如,如图16所示,如果用户发出语音“看junseo的面部表情。他太可爱了”,通过nlu模块1212执行自然语言分析,并且搜索与“junseo”相对应的标记信息75(①)。从标记信息75中识别图像中的对象11(②),并且从在nlu模块1212中获得的词语“面部表情”中检测面部作为图像中的相关区域(③④),并且对象辨识引擎1221检测对象11中的面部区域11a(⑥)。可以在电子装置100中放大并显示检测到的区域,并且将该检测到的区域添加到标记信息75中(⑦⑧)。电子装置100可以将检测到的区域作为感兴趣的图像单独存储在存储器120中。图17是示出为冰箱中的食物生成标记信息的实施例的视图。电子装置100可以实现为包括显示器的冰箱。图17所示的图像1710和1720是实施为冰箱的电子装置100的内部的图像,并且可以通过设置在冰箱前表面上的显示器来显示。参考图17,nlu模块1212可以在用户(jaein)说话期间识别“现在输入的是什么”的含义,并且对象辨识引擎1221可以将当前图像1720与冰箱门打开和关闭的事件之前的先前图像1710进行比较,以识别新添加的对象1721和1722。基于通过由nlu模块1212分析用户的话语获得的信息,对象辨识引擎1221可以辨识对象1721和1722在当前图像1721中的位置。当创建对象1721、1722时(例如,创建时间),可以基于关于对象1721、1722是什么(例如,食物类型)的信息来生成每个对象1721、1722的标记信息1721a和1722b。如上所述,可以生成包括在冰箱中实施的电子装置100的图像中的食物的标记信息,并且生成的标记信息可以存储在用户(jaein)的数据库中。然后,可以将标记信息提供给允许共享该标记信息的sera。将参考图18描述该实施例。参考图18,请看捕获冰箱内部的图像1810,如果另一用户(sera)发出语音,“哪个新萝卜泡菜(youngradishkimchi)是jaein做的?”,nlu模块1212可以分析该含义,并且标记动作规划器1242可以基于语音辨识结果和jaein的数据库的标记信息1722b获得关于对象位置的信息。基于获得的信息,代理1240可以输出语音引导,诸如“让我向您展示冰箱中的存储位置”以及包括用于识别该对象的位置的图形对象(围绕该对象的矩形)的图像1820。该代理可以安装在实施在冰箱中的电子装置100上,安装在移动终端设备(例如,智能手机)上,或者另一单独的代理上。可以通过使用人工智能(ai)系统来实现上述实施例。ai系统是实现人类级智能的计算机系统,在该计算机系统中,机器学习、确定并变得智能,并且ai系统使用得越多,辨识率就提高得越多。ai技术可以由使用自身对输入数据的特性进行分类/学习的ai算法来学习模型的技术,以及使用训练的模型来模拟人脑的功能(诸如辨识和确定)的技术组成。训练的模型的示例包括用于辨识人类语言/字符的语言理解的模型、用于将对象辨识为人类视觉的视觉理解的模型、用于判断和逻辑推断并预测信息的推断/预测的模型、以及用于将人类经验信息处理为知识数据的知识表示的模型等。根据实施例,可以使用语言理解模型来辨识、应用和处理人类语言和字符。相关功能包括自然语言处理、机器翻译、对话系统、问答、语音辨识/合成等。根据实施例,使用视觉理解模型,可以执行图像中对象的辨识、对象跟踪、图像搜索、人类辨识、场景理解、空间理解等。根据实施例,使用推断/预测模型,可以执行基于知识/概率的推断、优化预测、基于偏好的规划和推荐等。根据实施例,使用知识表示模型,可以执行知识构建(数据生成/分类)和知识管理(数据利用)等。根据实施例,可以基于上述各种模型中的两个或更多个来生成和使用新的模型。学习的(或训练的)模型是基于人工智能(ai)算法的学习的确定模型,例如,其可以是基于神经网络的模型。学习的ai模型可以包括多个加权的网络节点,其可以被设计为在计算机上模拟人脑结构并模拟人类神经网络的神经元。多个网络节点可以各自建立连接关系,使得神经元模拟通过突触发送和接收信号的神经元的突触活动。此外,学习的ai模型可以包括例如神经网络模型或从神经网络模型发展而来的深度学习模型。在深度学习模型中,多个网络节点位于不同的深度(或层),并且可以根据卷积连接关系传输和接收数据。学习的ai模型的示例包括但不限于深度神经网络(deepneuralnetwork,dnn)、递归神经网络(recurrentneuralnetwork,rnn)和双向递归深度神经网络(bidirectionalrecurrentdeepneuralnetwork,brdnn)。各种实施例可以使用个人助理程序,其是ai专用程序(或ai代理)。个人助理程序是提供基于ai的服务的专用程序,并且可以由现有的通用处理器(例如,cpu)或独立的ai专用处理器(例如,gpu等)来执行。当输入预定的用户输入(例如,与个人助理聊天机器人(chatbot)相对应的图标触摸、包括预设词语的用户语音等)或按下设置在电子装置100中的按钮(例如,用于执行ai代理的按钮)时,安装在电子装置100上的ai代理可以操作(或执行)。ai代理可以向外部服务器发送关于用户的语音的信息和关于包括要标记的目标对象的图像的信息,并且可以基于从外部服务器接收到的数据提供标记信息。可以在检测到预定的用户输入或者选择电子装置100中提供的按钮之前预执行ai代理。在该示例中,当执行标记功能时,电子装置100的ai代理可以基于图像和用户语音获得标记信息。在检测到预定的用户输入或者选择电子装置100中提供的按钮之前,ai代理可以处于待机状态。这里,待机状态是检测到预定义的用户输入以控制ai代理的操作的开始的状态。当在ai代理处于待机状态的同时执行标记功能时,电子装置100可以操作ai代理并基于图像和用户语音获得标记信息。可以使用电子装置100外部的服务器中的ai模型来实现上述实施例,或者电子装置100可以直接使用ai模型。在该示例中,安装在电子装置100上的ai代理可以控制ai模型以执行上述实施例的操作。图19是示出根据实施例的用于学习和使用辨识模型的处理器的框图。参考图19,处理器1500可以包括学习单元1510和分析单元1520中的至少一个。学习单元1510可以使用学习数据生成或训练人工智能模型。例如,学习单元1510可以通过使用人类语言作为学习数据来生成、训练或更新用于语言理解的模型。作为又一示例,学习单元1510可以使用包括至少一个对象的图像作为学习数据来生成、训练或更新视觉理解模型。作为另一示例,学习单元1510可以使用包括人类语言和至少一个对象的图像作为学习数据来生成、训练或更新用于对象辨识的模型,该模型辨识(或识别)图像中人类语言所指的对象。可以单独生成、训练或更新用于对象辨识的模型,或者可以基于用于语言理解的模型和用于视觉理解的模型生成、训练或更新用于对象辨识的模型。通过使用预定的数据作为训练的模型的输入数据,分析单元1520可以执行语言理解、视觉理解、对象辨识等。例如,分析单元1520可以通过使用语音作为语言理解模型的输入数据来识别出现在语音中用户的意图。当划分了功能时,语言理解模型可以包括asr模块、nlu模块和nlg模块。上面已经描述了asr模块、nlu模块和nlg模块,因此不再进一步描述。作为另一示例,分析单元1520可以使用包括至少一个对象的图像作为用于视觉理解的模型中的输入数据来获得(或估计、推断)关于至少一个对象的信息。例如,如果图1中所示的图像10用作用于视觉理解的模型中的输入数据,则可以获得其中检测到分类为人类的两个对象,其中一个是男孩,一个是女孩。作为另一示例,分析单元1520可以用用户语音和至少一个对象的图像作为用于对象辨识的模型的输入数据,来辨识图像中的用户语音所指的对象。可替代地,分析单元1520可以使用通过用于语言理解的模型和用于视觉理解的模型获得的信息作为输入数据,来辨识图像中的用户语音所指的对象。例如,学习单元1510的至少部分和分析单元1520的至少部分可以实现为软件模块或至少一个硬件芯片形式,并安装在电子装置100中。例如,学习单元1510和分析单元1520中的至少一个可以以人工智能(ai)的专用硬件芯片或传统的通用处理器(例如,cpu或应用处理器)或纯图形处理器(例如,gpu)的形式制造,并且可以安装在如上所述的各种电子装置上。这里,人工智能的专用硬件芯片是用于概率计算的专用处理器,并且其具有比现有通用处理器更高的并行处理性能,因此可以快速地处理人工智能(诸如机器学习)中的计算任务。当学习单元1510和分析单元1520实现为软件模块(或包括指令的程序模块)时,软件模块可以存储在计算机可读的非暂时性计算机可读介质中。在这种情况下,软件模块可以由操作系统(os)或预定的应用提供。可替代地,一些软件模块可以由o/s提供,且一些软件模块可以由预定的应用提供。学习单元1510和分析单元1520可以分别安装在一个电子装置上,或者可以安装在分离的电子装置上。例如,图19的处理器1500可以是图2的处理器140。例如,学习单元1510和分析单元1520中的一个可以在电子装置100中实现,而另一个可以在外部服务器中实现。此外,学习单元1510和分析单元1520可以经由有线或无线通信将由学习单元1510构建的模型信息提供给分析单元1520,并且将输入到分析单元1520的数据作为附加数据提供给学习单元1510。图20是示出根据实施例的学习单元1510的框图。参考图20,根据一些实施例的学习单元1510可以实现学习数据获取单元1510-1和模型学习单元1510-4。学习单元1510还可以选择性地实现学习数据预处理器1510-2、学习数据选择单元1510-3以及模型评估单元1510-5中的至少一个。学习数据获取单元1510-1可以获得用于训练语言理解、视觉理解、对象辨识等的模型的学习数据。学习数据可以是由学习单元1510或学习单元1510的制造商收集或测试的数据。例如,学习数据可以包括图像,该图像包括语音、至少一个对象。模型学习单元1510-4可以使用学习数据来训练模型,以具有关于如何对输入数据进行理解、辨识、确定、推断等的参考。例如,模型学习单元1510-4可以从输入图像中提取特征,将该特征投影到向量空间,并且在每个向量中索引对象的信息,以构建用于视觉理解的模型。模型学习单元1510-4可以通过学习数据的至少部分的监督学习来训练模型。可替代地,例如,模型学习单元1510-4可以通过自身使用学习数据没有特定引导来学习,以使人工智能模型通过无监督学习来学习,该无监督学习检测用于情况的确定的标准。此外,模型学习单元1510-4可以使用例如关于根据学习提供响应的结果是否正确的反馈,通过强化学习来训练模型。模型学习单元1510-4还可以使用例如包括错误反向传播方法或梯度下降的学习算法来使模型进行学习。此外,模型学习单元1510-4可以学习关于哪些学习数据应该用于使用输入数据估计辨识的目标的选择标准。当存在多个先前构建的模型时,模型学习单元1510-4可以将输入学习数据和基本学习数据之间具有很大相关性的模型确定为要学习的模型。在这种情况下,可以根据数据的类型对基本学习数据进行预分类,并且可以为每种数据的类型预构建模型。例如,可以将基本学习数据预分类为各种标准,诸如生成学习数据的区域、生成学习数据的时间、学习数据的大小、学习数据的类别、学习数据的创建者、学习数据中对象的类型等。当训练模型时,模型学习单元1510-4可以存储训练的模型。例如,模型学习单元1510-4可以将训练的模型存储在电子装置100的存储器120中。可替代地,模型学习单元1510-4可以将训练的模型存储在经由有线或无线网络连接到电子装置100的服务器的存储器中。学习单元1510还可以实现学习数据预处理器1510-2和学习数据选择单元1510-3,以提高模型的处理能力或节省用于模型的生成所需的资源或时间。学习数据预处理器1510-2可以预处理获得的数据,以便可以使用在学习中获得的用于确定情况的数据。学习数据预处理器1510-2可以将获得的数据处理为预定的格式,使得模型学习单元1510-4可以使用获得的数据进行学习,用于情况的确定。学习数据选择单元1510-3可以从由学习数据获取单元1510-1获得的数据或者由学习数据预处理器1510-2预处理的数据中选择学习所需的数据。可以将所选的学习数据提供给模型学习单元1510-4。学习数据选择单元1510-3可以根据预定的选择标准从获得的或预处理的数据中选择学习所需的学习数据。学习数据选择单元1510-3还可以根据模型学习单元1510-4的学习预定的选择标准选择学习数据。学习单元1510还可以包括模型评估单元1510-5,以提高模型的处理能力。模型评估单元1510-5可以向模型输入评估数据,并且如果从评估数据输出的结果不满足预定的标准,则模型评估单元1510-5可以使模型学习单元1510-4再次学习。在该示例中,评估数据可以是用以评估模型的预定义的数据。例如,当分析结果不正确的评估数据的数量或比率超过预设阈值时,模型评估单元1510-5可以在用于评估数据的训练的模型的分析结果中评估分析结果不满足预定的标准。当存在多个训练的模型时,模型评估单元1510-5可以评估每个训练的模型是否满足预定的标准,并将满足预定的标准的模型确定为最终模型。这里,当存在满足预定的标准的多个模型时,模型评估单元1510-5可以将按照较高评估分数的顺序设置的一个或预定数量的模型确定为最终模型。参考图21,根据一些实施例的分析单元1520可以包括输入数据获取单元1520-1和分析结果提供单元1520-4。分析单元1520还可以选择性地包括数据预处理器1520-2、数据选择单元1520-3和模型更新单元1520-5中的至少一个。数据获取单元1520-1可以获得分析所需的数据。分析结果提供单元1520-4可以提供作为通过将从数据获取单元1520-1获得的数据输入到训练的模型而获得的结果。分析结果提供单元1520-4可以根据数据分析的目的提供分析结果。分析结果提供单元1520-4将由数据预处理器1520-2或稍后描述的数据选择单元1520-3选择的数据作为输入值应用于模型,以获得响应结果。该响应结果可以由该模型确定。在实施例中,分析结果提供单元1520-4可以通过将包括从数据获取单元1520-1获得的至少一个对象的图像应用于用于视觉理解的训练的模型来获得(或估计)每个对象的信息。在另一实施例中,分析结果提供单元1520-4可以将包括至少一个对象和从数据获取单元1520-1获得的语音的图像应用于用于对象辨识的训练的模型,以辨识(或识别)由该语音指示的对象。作为另一实施例,分析结果提供单元1520-4可以通过将从数据获取单元1520-1获得的语音(语音数据)应用于用于语言理解的训练的模型来确定与语音相对应的用户的意图。分析单元1520还可以包括数据预处理器1520-2和数据选择单元1520-3,以便改善模型的分析结果或者节省提供分析结果的资源或时间。输入数据预处理器1520-2可以预处理获得的数据,使得获得的数据可以用于确定情况。数据预处理器1520-2可以将获得的数据处理为分析结果提供单元1520-4的预定义的格式。数据选择单元1520-3可以从由数据获取单元1520-1获取的数据或者由输入数据预处理器1520-2预处理的数据中选择确定情况所需的数据。可以将所选的数据提供给分析结果提供单元1520-4。数据选择单元1520-3可以根据用于确定情况的预定的选择标准来选择获得的或预处理的数据中的一些或全部。数据选择单元1520-3还可以根据模型学习单元1510-4的学习的预定的选择标准选择数据。模型更新单元1520-5可以基于由分析结果提供单元1520-4提供的分析结果的评估来控制模型的更新。例如,模型更新单元1520-5可以将分析结果提供单元1520-4提供的分析结果提供给模型学习单元1510-4,使得模型学习单元1510-4可以请求进一步学习或更新模型。图22是示出学习单元1510和分析单元1520在不同设备中实现的实施例的图。参考图22,外部服务器200可以包括学习单元1510,并且电子装置100可以包括分析单元1520。电子装置100和服务器200可以在网络上相互通信。电子装置100的分析结果提供单元1520-4将由数据选择单元1520-3选择的数据应用于由服务器200生成的模型,以获得分析结果。电子装置100的分析结果提供单元1520-4可以从服务器200接收由服务器200生成的模型,使用接收到的模型确定通过麦克风130输入的用户语音中的用户的意图,从显示在显示器110上的图像获得对象信息,或者识别图像中与用户语音相关的对象。图23是示出根据实施例的电子装置100的详细配置的框图。参考图23,电子装置100可以包括显示器110、存储器120、麦克风130、处理器140、触摸传感器150、通信器160、全球定位系统(globalpositioningsystem,gps)接收器170、运动传感器180、按钮190、相机192和音频输出器194。根据实施例,可以省略一些配置,并且对于本领域技术人员来说很清楚适当的硬件/软件配置(尽管未示出)也可以包括在电子装置100中。显示器110被配置为显示图像。显示器110可以与图2的显示器110相同。显示器110可以与能够感测用户的触摸操作的触摸传感器150一起实现为触摸屏。触摸传感器150可以感测用户或笔的触摸操作。触摸传感器150包括触摸传感器,并且该触摸传感器可以由静电型或电阻型实现。静电型使用涂覆在显示层的表面上的电介质来感测当用户身体的部分触摸到显示层的表面时激发到人体的微电,从而计算触摸坐标。电阻型包括两个电极板,使得当用户触摸屏幕时,触摸点的上下板接触以感测电流的流动,从而计算触摸坐标。如上所述,触摸传感器可以以各种类型实现。当笔用作输入装置时,如果笔是其中包括线圈的笔,则触摸传感器150可以包括能够感测由笔内的线圈改变的磁场的磁场检测传感器。因此,可以检测接近操作(即悬停),以及触摸操作。触摸传感器150起到输入器的作用,可以从用户接收对对象的选择,并且可以接收用户或笔的书写。处理器140可以基于由触摸传感器150的触摸传感器感测到的感测信号来确定触摸操作的类型。触摸操作可以是多种操作,诸如简单触摸、轻击(tap)、触摸并保持、移动、轻拂(flick)、拖放、捏缩、拉大等。处理器140可以根据由触摸传感器150感测到的用户触摸来控制电子装置100的各种配置。当显示器110和触摸传感器150实现为触摸屏时,例如,如图3所示,可以感测对用于执行标记功能的图标20的触摸,并且作为另一示例,如图8所示,可以感测对用于选择将要标记的目标对象的用户触摸。存储器120可以与图2的存储器120相同。存储器120可以存储计算机可执行指令,并且处理器140可以通过执行计算机可执行指令来执行电子装置100的各种功能。根据实施例,存储器120可以存储由ai算法训练的ai模型。ai模型可以包括用于语言理解的模型、用于视觉理解的模型和用于对象辨识的模型。已经在上面描述了ai模型,将不再进一步描述。麦克风130被配置为接收用户语音或其他声音,以将声音转换为数字信号。处理器140可以将通过麦克风130输入的用户语音用于标记功能。通信器160被配置为根据各种类型的通信方法与各种类型的外部设备通信。通信器160可以包括各种通信芯片,诸如wi-fi芯片161、蓝牙芯片162、近场通信(nearfieldcommunication,nfc)芯片163、无线通信芯片164。wi-fi芯片161、蓝牙芯片162和nfc芯片163分别通过wi-fi方法、蓝牙方法和nfc方法执行通信。在各种rf-id频带(诸如135khz、13.56mhz、433mhz、860~960mhz、2.45ghz等)中,nfc芯片163可以使用13.56mhz频带通过nfc方法进行通信。当使用wi-fi芯片161或蓝牙芯片162时,可以为通信连接发送和接收各种连接信息(诸如服务集标识符(servicesetidentifier,ssid)),然后可以发送和接收各种信息。无线通信芯片164可以根据各种通信规范(诸如ieee、zigbee、第三代(3rdgeneration,3g)、第三代合作计划(3rdgenerationpartnershipproject,3gpp)、长期演进(longtermevolution,lte)等)进行通信。除了如上所述的通信方法,通信器160可以通过红外数据协会(infrareddataassociation,irda)、射频识别(radiofrequencyidentification,rfid)、超宽带(ultra-wideband,uwb)、无线显示(wirelessdisplay,widi)、无线高清(wirelesshd,wihd)、无线家庭数字接口(wirelesshomedigitalinterface,whdi)、miracast、无线千兆联盟(wirelessgigabitalliance,wigig)、wi-fi直连、airplay、z波、低功率无线个人区域网(overlow-powerwirelesspersonalareanetwork,lowpan)上的互联网协议版本4(internetprotocolversion4,ipv4)(4lowpan)、通用分组无线电服务(generalpacketradioservice,gprs)、weightless、数字生活网络联盟(digitallivingnetworkalliance,dlna)、ant+、数字增强型无绳通信(digitalenhancedcordlesstelecommunication,dect)、无线局域网(wirelesslocalareanetwork,wlan)、全球移动通信系统(globalsystemformobilecommunication,gsm)、通用移动电信系统(universalmobiletelecommunicationssystem,umts)、无线宽带(wirelessbroadband,wibro)等中的至少一种通信方法来执行与各种外部设备的通信。根据实施例,通信器160可以与外部服务器通信。外部服务器可以存储用于视觉理解的模型、用于语言理解的模型、用于对象辨识的模型等,并且当在包括至少一个对象的图像显示在显示器110上的同时通过麦克风120输入用户语音时,处理器140可以控制通信器160将图像和语音发送到外部服务器。根据实施例,当在外部服务器中生成包括在图像中的对象的标记信息时,外部服务器可以向电子装置100发送标记信息,并通过通信器160从外部服务器接收标记信息。根据另一实施例,电子装置100本身可以生成标记信息。在该示例中,处理器140可以控制通信器160将图像和语音发送到存储用于图像分析和语音辨识的ai模型的外部服务器,并且如果通过通信器160接收到来自外部服务器的关于图像中的对象的信息和语音辨识结果,则处理器140可以基于接收到的信息来识别图像中与语音相关的对象,并且为识别的对象生成标记信息。运动传感器180可以包括多个运动检测传感器180-1至180-m。多个运动检测传感器180-1至180-m是用于感测电子装置100的旋转状态、用户的位置等的传感器。用于感测旋转状态的传感器可以是地磁传感器、加速度传感器、陀螺仪传感器等。加速度传感器输出与重力加速度相对应的感测值,该重力加速度根据传感器附接到的设备的斜率而变化。陀螺仪传感器是当发生旋转移动时,通过测量沿该速度方向作用的科里奥利(coriolis)力来检测角速度的传感器。地磁传感器是用于感测方位角的传感器。用于感测用户位置的传感器包括图像传感器、红外传感器、超声波传感器和接近传感器。相机192被配置为捕获拍摄的对象以生成拍摄的图像。根据实施例,可以生成包括在使用相机192拍摄和生成的图像中的对象的标记信息。gps接收器170被配置为从全球定位系统(gps)卫星接收gps信号,并计算电子装置100的当前位置。当执行标记功能时,处理器140可以使用由gps信号接收器170接收的gps信号来计算当前位置,并且生成关于当前位置的信息作为图像的标记信息。按钮190可以是各种类型的按钮,诸如在电子装置100的主体的任意区域(诸如前表面部分、侧表面部分和后表面部分)中形成的机械按钮、触摸板、滚轮等。按钮190可以是打开或关闭电源的电源按钮。处理器140可以根据通过麦克风130输入的用户语音、由运动传感器180检测到的用户运动、通过相机192捕获的用户运动等来执行控制操作。也就是说,除了由用户的触摸或按钮操作控制的一般模式之外,电子装置100可以在运动控制模式或语音控制模式下操作。当在运动控制模式下操作时,处理器140可以跟踪用户的运动改变并执行相应的控制操作。当在语音控制模式下操作时,处理器140可以在语音辨识模式下操作,该语音辨识模式根据通过麦克风130输入的用户语音来执行控制操作。音频输出器194被配置为输出音频,并且可以包括扬声器和/或耳机终端。当在耳机中提供麦克风时,可以通过耳机终端接收用户语音。处理器140可以控制电子装置100的整体操作。例如,处理器140可以使用存储在存储器120中的各种模块来控制电子装置100的整体操作。处理器140可以与图1的处理器140相同。处理器140包括随机访问存储器(ram)141、只读存储器(rom)142、图形处理单元(gpu)143、中央处理单元(cpu)144、第一到第n接口145-1~145-n和总线146中的至少一个。ram141、rom142、gpu143、cpu144、第一至第n接口145-1至145-n等可以通过总线146互连。rom142存储用于引导系统等的一个或多个指令。当输入用于电子装置100的开启指令并供电时,cpu144根据存储在rom142中的一个或多个指令将存储在存储器120中的os复制到ram141,并且执行该os以引导系统。当引导完成时,cpu144将存储在存储器120中的各种应用程序复制到ram141,执行复制到ram141的应用程序,并执行各种操作。cpu144可以使用存储在存储器120中的各种程序模块、数据等来执行各种操作。当电子装置100的引导完成时,gpu143可以显示图像。gpu143可以使用计算器和呈现器生成包括各种对象(诸如图标、图像、文本等)的屏幕。这里,计算器可以根据屏幕的布局计算要由每个对象显示的属性值,诸如坐标值、形状、大小和颜色。呈现器可以基于由计算器计算的属性值生成包括对象的各种布局的显示屏。将由呈现器生成的屏幕提供给显示器110,并且由呈现器生成的屏幕显示在显示区域中。第一到第n接口145-1到145-n连接到上述各种元件110-130、150-194。接口之一可以是通过网络连接到外部设备的网络接口。处理器140可以控制显示器110以显示包括至少一个对象的图像,将通过麦克风130接收到的语音输入到由ai算法训练的ai模型,识别包括在图像中的至少一个对象中与语音相关的对象,获得该识别的对象的标记信息,并提供获得的标记信息。例如,如图1所示,处理器140可以经由显示器110提供标记信息12。处理器140可以将显示的图像输入到第一ai模型,以获得关于包括在图像中的至少一个对象的信息,并且基于关于该至少一个对象的信息和包括在通过麦克风130接收到的语音中的词语来识别与该至少一个对象的语音相关的对象。处理器140可以将经由麦克风130接收到的语音输入到第二ai模型,以获得包括该语音的关键词的标记信息。第一ai模型和第二ai模型可以存储在存储器120中。处理器140可以控制显示器110以显示语音的关键词以及图像。例如,如图1所示,包括语音的关键词的标记信息12可以显示在图像10上。处理器140可以控制显示器110将随后输入的语音的关键词与先前显示的关键词一起显示。例如,参考图1,随后在“左边是我的儿子junseo”之后输入的“他只有5岁”中的关键词“5岁”可以与先前显示的关键词“儿子”和“junseo”一起显示。处理器140可以控制显示器110显示ui元素,以显示作为标记信息包括的语音的关键词,并同时删除每个词语。例如,处理器140可以控制显示器110以显示如图5所示的ui元素40。处理器140可以识别图像中与接收到的语音相关联的第一对象,并且参考为包括在图像中的第二对象生成的标记信息来获得第一对象的标记信息。例如,如参考图9-图10所述,可以参考生成的标记信息来生成新的标记信息。当从图像中识别出与接收到的语音相关联的对象时,处理器140可以控制显示器110显示指示识别的对象是将要标记的目标对象的ui元素。例如,如图1所示,可以显示围绕如图1所示的将要标记的目标对象11的矩形ui元素。当在图像中识别出与语音相关联的多个对象时,处理器140可以基于语音获得多个对象中的每一个的标记信息。例如,如图7所示,处理器140可以基于语音获得图像中的第一对象(junseo)和第二对象(yunseo)中的每一个的标记信息。处理器140可以将获得的与图像相关联的标记信息存储在存储器120中。图24和图25是根据各种实施例的使用ai模型的网络系统的流程图。参考图24和25,使用ai模型的网络系统可以包括第一元件2010、2110和第二元件2020、2120。第一元件2010、2110可以是电子装置100。第二元件2020、2120可以是存储ai模型的服务器。可替代地,第一元件2010、2110可以是通用处理器,并且第二元件2020、2120可以是仅ai处理器。可替代地,第一元件2010、2110可以是至少一个应用,并且第二元件2020、2120可以是操作系统(os)。也就是说,第二元件2020、2120可以是更集成化、专用、具有更少延迟和更好性能或具有更大资源的元件,并且可以是处理比第一元件2010、2110更快和更有效地处理生成、更新或应用模型所需的更多处理的元件。可以定义用于在第一元件2010、2110和第二元件2020、2120之间发送或接收数据的接口。例如,可以定义应用程序接口(applicationprograminterface,api),该接口具有作为因子值(或中间值或者转移值)应用于模型的学习数据。可以将该api定义为一组子例程或函数,其可以从任何一个协议(例如,在电子装置100中定义的协议)调用另一协议(例如,在电子装置100的外部服务器中定义的协议)的任何处理。也就是说,可以提供环境,在该环境中,可以通过该api在一个协议中执行另一协议的操作。参考图24,在操作s2001中,第一元件2010可以显示包括至少一个对象的图像。当显示包括至少一个对象的图像时,在操作s2003中,第一元件2010可以接收用户语音。当输入用户语音时,在操作s2005中,第一元件2010可以将图像和语音发送到第二元件2020。在操作s2007中,第二元件2020可以基于接收到的语音和图像来识别图像中与语音相关联的对象。第二元件2020可以输入用于图像的视觉理解的模型,以获得关于包括在图像中的对象的信息。例如,关于位置、对象的类型、对象的颜色、对象的大小、对象的名字、对象的性别等的信息可以被获得作为关于对象的信息。第二元件2020可以将语音输入到用于语言理解的模型中,以获得关于语音指示的用户意图的信息。例如,可以获得关于用户意图的信息、指示语音期望的动作的信息、指示包括在语音中的关键词的信息,该用户意图指示语音是否是对动作的请求、说话者是否向收听者请求某变量的值((wh-question,关于是什么的问题))、或者说话者是否向收听者请求是/否的回答(yn-question,关于是否的问题))、或者说话者通知收听者等。第二元件2020可以基于关于对象的信息和关于语音指示的用户意图的信息来识别图像中与语音相关联的对象。例如,第二元件2020可以确定语音中包括的关键词中用于识别要标记的目标对象的词,并基于确定的词语识别与语音相关联的对象。例如,用于识别对象的词语可以与对象的外观的描述、对象的性别的描述、对象的颜色的描述、对象的位置的描述、对象的类别的描述、对象的名字的描述等中的至少一个相关联。例如,可以将用于识别语音“左边是我的儿子,junseo”中的对象的词语确定为“左边”,基于该词语,可以将位于图像内左边的对象识别为与该语音相关联的对象。在操作s2009中,第二元件2020可以为识别的对象生成标记信息。根据一个实施例,第二元件2020可以确定描述语音的关键词的对象的词语,并且包括该确定的词语以生成标记信息。例如,可以将用于描述语音“左边是我的儿子,junseo”中的对象的词语确定为“儿子”和“junseo”,并且基于该词语,可以生成包括位于图像中左边的对象的文本“儿子”和“junseo”的标记信息。第二元件2020可以将生成的标记信息发送到第一元件2010。第一元件2010可以在操作s2013中提供标记信息。例如,如图1所示,可以在要标记的目标对象周围提供标记信息12。图25是根据另一实施例的使用辨识模型的网络系统的流程图。参考图25,在操作s210中,第一元件2110可以显示包括至少一个对象的图像。当显示包括至少一个对象的图像时,在操作s2103中,第一元件2110可以接收用户语音。当输入用户语音时,在操作s2105中,第一元件2110可以将图像和语音发送到第二元件2120。在操作s2107中,第二元件2120可以获得关于包括在接收到的图像中的对象的信息。第二元件2120可以输入用于图像的视觉理解的模型,以获得关于包括在图像中的对象的信息。例如,关于对象的类型、对象的颜色、对象的大小、对象的名称、对象的性别等的信息可以被获得作为关于对象的信息。在操作s2109中,第二元件2120可以辨识接收到的语音。第二元件2120可以将语音输入到用于语言理解的模型中,以辨识语音。例如,第二元件2120可以识别关于用户意图的信息,该用户意图指示语音是否是对动作的请求、说话者是否向收听者请求某变量的值(wh-question)、者说话者是否向收听者请求是/否的回答(yn-question)、或者说话者通知收听者等,确定指示语音所期望的动作的信息和指示包括在语音中的关键词的信息。在操作s2109中,第二元件2120可以将获得的对象信息和语音辨识结果发送到第一元件2110。在操作s2111中,第一元件2110可以基于接收到的关于对象的信息和语音辨识结果,从图像中识别与语音相关联的对象。从第二元件2120接收到的语音辨识结果可以包括关于语音的关键词的信息。第一元件2110可以确定用于识别语音的关键词的对象的词语,并且识别图像中具有与确定的词语对应的信息的对象。在操作s2113中,第一元件2110可以为识别的对象生成标记信息。第一元件2110可以在语音的关键词中确定用于描述识别的对象的词语,并且生成包括确定的词语的标记信息。在操作s2115中,第一元件2110可以提供生成的标记信息。例如,可以通过第一元件2110的显示器来显示标记信息。图26是示出根据实施例的控制电子装置的方法的流程图。图26所示的流程图可以配置有在本文描述的电子装置100中处理的操作。因此,关于电子装置100描述的内容也可以应用于图26所示的流程图,尽管在下文中省略了。参考图26,在操作s2210中,电子装置100显示包括至少一个对象的图像。该图像可以预存储在电子装置100的存储器120中。例如,已经通过相机192拍摄了图像。在操作s2220,电子装置100可以接收语音。可以通过电子装置100中提供的麦克风130接收语音。电子装置100可以从通过麦克风接收到的语音中去除环境噪声等。在操作s2230中,电子装置100可以将语音输入到由ai算法训练的ai模型,以识别包括在图像中的至少一个对象中与语音相关的对象,并获得识别的对象的标记信息。ai模型可以存储在电子装置100中。可替代地,ai模型可以存储在电子装置100外部的服务器中,并且电子装置100可以向外部服务器提供语音。根据实施例,在操作s2230中,电子装置100可以将图像输入到第一ai模型以获得关于至少一个对象的信息,并且基于关于至少一个对象的信息和包括在语音中的词语来识别至少一个对象中与语音相关的对象。在该示例中,电子装置100可以将语音输入到第二ai模型,以获得包括语音的关键词的标记信息。标记信息还可以包括通过将图像输入到第一ai模型而获得的关于至少一个对象的信息中关于识别的对象的信息。根据另一实施例,在步骤s2230中,电子装置100可以识别与语音相关联的第一对象,并且参考生成的包括在图像中的第二对象的标记信息来获得第一对象的标记信息。根据另一实施例,当在操作s2230中识别出图像中与语音相关联的多个对象时,电子装置100可以基于语音获得多个对象中的每一个的标记信息。在操作s2240,电子装置100可以提供获得的标记信息。根据实施例,在步骤s2240中,语音的关键词可以与图像一起显示。在该示例中,电子装置100可以显示输入的语音的关键词以及先前显示的关键词。电子装置100还可以显示用于从标记信息中删除语音的关键词的ui元素。电子装置100可以存储与图像相关联的标记信息。例如,电子装置100的存储器120可以存储标记信息。可替代地,标记信息可以存储在外部服务器中。在该示例中,可以与其他用户共享该标记信息。根据上述各种实施例,可以通过仅描述图像来生成图像的标记信息,并且特别地,可以通过在用户的语音中识别要标记的对象来为识别的对象生成标记信息,从而提高用户使用标记功能的便利性。上述各种实施例可以在非暂时性计算机可读记录介质中实现,该非暂时性计算机可读记录介质可由计算机或类似于计算机的设备使用软件、硬件或软件和硬件的组合来读取。通过硬件实现方式,可以使用专用集成电路(applicationspecificintegratedcircuit,asic)、数字信号处理器(digitalsignalprocessor,dsp)、数字信号处理设备(digitalsignalprocessingdevice,dspd)、可编程逻辑器件(programmablelogicdevice,pld)、现场可编程门阵列(fieldprogrammablegatearray,fpga)、处理器、控制器、微控制器、微处理器或用于执行其他功能的电子单元中的至少一个来实现本公开的实施例。在一些情况下,本文描述的实施例可以由处理器本身实现。根据软件实现方式,诸如本文描述的过程和功能的实施例可以用单独的软件模块来实现。上述软件模块中的每一个可以执行本文描述的一个或多个功能和操作。根据本公开的实施例,上述各种实施例可以用包括存储在机器可读存储介质上的指令的其他计算机可读介质来实施。设备可以包括根据所公开的实施例的电子设备(例如,电子装置100),作为可操作来从存储介质调用存储的指令并对调用的指令进行操作的装置。当指令由处理器执行时,处理器可以直接地或者在处理器的控制下使用其他组件来执行对应于指令的功能。指令可以包括由编译器或解释器生成或执行的代码。可以以非暂时性存储介质的形式提供机器可读存储介质。这里,“非暂时性”意味着存储介质不包括信号并且是有形的,但是不区分数据是永久地还是暂时地存储在存储介质中。此外,根据本公开的一个实施例,可以在计算机程序产品中提供根据上述各种实施例的方法。计算机程序产品可以作为商品在卖方和买方之间进行交易。计算机程序产品可以以机器可读存储介质(例如,光盘只读存储器(compactdiscreadonlymemory,cd-rom))的形式分发,或者通过应用商店(例如,playstoretm)在线分发。在在线分发的情况下,计算机程序产品的至少部分可以暂时地或至少暂时地存储在存储介质中,诸如制造商的服务器、应用商店的服务器或中继服务器的存储器。此外,根据上述各种实施例的组件(例如,模块或程序)中的每一个可以由一个或多个实体组成,并且可以省略上述子组件的一些子组件,或者在各种实施例中还可以包括其他子组件。可替代地或附加地,一些组件(例如,模块或程序)可以集成到一个实体中,以在集成之前执行由每个相应组件执行的相同或相似的功能。根据各种实施例,由模块、程序或其他组件执行的操作可以顺序地、并行地、重复地或启发式地执行,或者至少一些操作可以以不同的顺序执行。在上文中,虽然已经示出并描述了本公开的实施例,但是应当理解,本公开不限于所公开的实施例,并且可以在不脱离本公开的精神和范围的情况下进行各种修改。因此,这些修改不应与本公开的技术精神或范围分开理解。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1