执行电子装置的功能的方法以及使用该方法的电子装置与流程

文档序号:26008054发布日期:2021-07-23 21:27阅读:59来源:国知局
执行电子装置的功能的方法以及使用该方法的电子装置与流程

本公开涉及一种执行电子装置的功能的方法以及使用该方法的电子装置。



背景技术:

如今,各种类型的电子装置(诸如智能电话、平板个人计算机或可穿戴装置)被广泛使用。为了提高这类电子装置的可用性,不仅硬件组件,而且软件组件也在不断改进。例如,电子装置可以提供智能代理服务,用于响应于用户语音输入执行各种功能。

以上信息仅作为背景信息呈现,以帮助理解本公开。关于以上内容中的任何内容是否可以用作关于本公开的现有技术,尚未作出确定,也未作出断言。



技术实现要素:

技术问题

智能代理服务可以识别语音、分析所识别的语音并向用户提供用户希望执行的服务。智能代理服务基于用户的语音进行操作,因此其语音识别性能可能会受到除用户语音以外的噪声(例如,周围噪声)的影响。例如,在电子装置的周围环境安静(例如,低噪声)的状态下识别用户的语音和在电子装置的周围环境嘈杂(例如,高噪声)的状态下识别用户的语音可能是显著不同的。

问题的解决方案

根据本公开的一方面,提供了一种电子装置。所述电子装置包括:相机;麦克风;显示器;存储器;以及处理器。其中,所述处理器被配置为:在至少一个应用被执行时从用户接收用于启用智能代理服务的输入,确认所述电子装置的环境信息,控制以基于所确认的环境信息通过所述相机获取所述用户的图像信息,检测包括在所获取的图像信息中的用户嘴唇的运动以识别所述用户的语音,以及执行与识别出的语音相对应的功能。

根据本公开的另一方面,提供了一种电子装置的方法。所述方法包括:在至少一个应用被执行时,从用户接收用于启用智能代理服务的输入;确认所述电子装置的环境信息;基于所确认的所述环境信息,通过相机获取所述用户的图像信息;检测包括在所获取的所述图像信息中的用户嘴唇的运动,以识别所述用户的语音;以及执行与识别出的所述语音相对应的功能。

发明的有益效果

根据本公开的各种实施例的电子装置可以使用图像信息来提高智能代理服务的准确性。例如,电子装置可以通过基于所获取的图像应用唇读技术来分析用户希望执行的功能。电子装置可以基于用户的语音和用户的嘴唇的形状中的至少一个来确定用户期望的功能,并将确定的功能提供给用户。用户可以基于用户嘴唇的形状来检测用户语音开始的时间点和用户语音结束的时间点,并通过嘴唇形状校正接收到的不清楚的用户语音,从而向用户提供更准确的智能代理服务。

附图说明

为了更完整地理解本公开及其优点,现在结合附图参照以下描述,其中类似的附图标记表示类似的部分:

图1是示出根据各种实施例的网络环境中的电子装置的框图。

图2a是示出根据实施例的集成智能系统的框图;

图2b示出了根据实施例的在数据库中存储关于概念和动作之间的关系的信息的形式;

图2c示出了根据实施例的显示通过智能应用(app)处理接收到的语音输入的屏幕的用户终端;

图3示意性地示出了根据本公开的各种实施例的智能代理系统;

图4是示出根据本公开的各种实施例的唇读模块的框图;

图5是示出根据本公开的各种实施例的电子装置通过智能代理服务执行与用户命令相对应的功能的方法的流程图;

图6示出了根据本公开的各种实施例的电子装置基于用户语音或用户的嘴唇形状中的至少一个来识别用户语音的方法;

图7示出了根据本公开的各种实施例的当电子装置通过智能代理服务执行功能时的用户界面;

图8a至图8b示出了根据本公开的各种实施例的当电子装置通过智能代理服务执行功能时的用户界面;

图9是示出根据本公开的各种实施例的基于电子装置是否可以执行唇读来执行与用户命令相对应的功能的方法的流程图;

图10a到图10c示意性地示出了根据本公开的各种实施例的提供用于电子装置的唇读操作的用户界面的方法;以及

图11是示出根据本公开的各种实施例的在执行应用时检测嘴唇的运动、识别用户语音以及执行与所识别的语音相对应的功能的方法的流程图。

具体实施方式

阐述本专利文件中使用的某些词语和短语的定义可能是有利的:术语“包括”和“包含”及其派生词是指包括但不限于;术语“或”包括在内,意味着和/或;短语“与...相关”和“与之相关”及其派生词可意指包括、被包括在其中、与之互连、包含、被包含在其中、连接到或与之连接、联接到或与之联接、可与之交流、合作、交错、并列、接近、绑定到或与之绑定、具有、具有…性质等;术语“控制器”是指控制至少一个操作的任何装置、系统或其部分,这样的装置可以用硬件、固件或软件或者至少两个硬件、固件或软件的某种组合来实现。应当注意,无论是本地的还是远程的,与任何特定控制器相关联的功能可以是集中的或分布式的。

此外,下面描述的各种功能可以由一个或更多个计算机程序实现或支持,每个计算机程序由计算机可读程序代码形成并体现在计算机可读介质中。术语“应用”和“程序”是指一个或更多个计算机程序、软件组件、指令集、过程、功能、对象、类、实例、相关数据或其适于在适当的计算机可读程序代码中实现的部分。短语“计算机可读程序代码”包括任何类型的计算机代码,包括源代码、目标代码和可执行代码。短语“计算机可读介质”包括能够由计算机访问的任何类型的介质,例如只读存储器(rom)、随机存取存储器(ram)、硬盘驱动器、光盘(cd)、数字视频光盘(dvd)或任何其他类型的存储器。“非暂时性”计算机可读介质不包括传输暂时性电信号或其他信号的有线、无线、光或其他通信链路。非暂时性计算机可读介质包括可永久存储数据的介质和可存储数据并随后重写的介质,例如可重写光盘或可擦除存储装置。

在本专利文件中提供了某些词语和短语的定义。本领域普通技术人员应该理解,在很多情况下,即使不是大多数情况下,这样的定义也适用于这种定义的词语和短语的先前以及将来的使用。

以下讨论的图1至图11以及用于描述本专利文件中的本公开的原理的各种实施例仅是示例性的,并且不应以任何方式解释为限制本公开的范围。本领域技术人员将理解,本公开的原理可以在任何适当布置的系统或装置中实现。

图1是示出根据各种实施例的网络环境100中的电子装置101的框图。参照图1,网络环境100中的电子装置101可经由第一网络198(例如,短距离无线通信网络)与电子装置102进行通信,或者经由第二网络199(例如,长距离无线通信网络)与电子装置104或服务器108进行通信。根据实施例,电子装置101可经由服务器108与电子装置104进行通信。根据实施例,电子装置101可包括处理器120、存储器130、输入装置150、声音输出装置155、显示装置160、音频模块170、传感器模块176、接口177、触觉模块179、相机模块180、电力管理模块188、电池189、通信模块190、用户识别模块(sim)196或天线模块197。在一些实施例中,可从电子装置101中省略所述部件中的至少一个(例如,显示装置160或相机模块180),或者可将一个或更多个其它部件添加到电子装置101中。在一些实施例中,可将所述部件中的一些部件实现为单个集成电路。例如,可将传感器模块176(例如,指纹传感器、虹膜传感器、或照度传感器)实现为嵌入在显示装置160(例如,显示器)中。

处理器120可运行例如软件(例如,程序140)来控制电子装置101的与处理器120连接的至少一个其它部件(例如,硬件部件或软件部件),并可执行各种数据处理或计算。根据实施例,作为所述数据处理或计算的至少部分,处理器120可将从另一部件(例如,传感器模块176或通信模块190)接收到的命令或数据加载到易失性存储器132中,对存储在易失性存储器132中的命令或数据进行处理,并将结果数据存储在非易失性存储器134中。根据实施例,处理器120可包括主处理器121(例如,中央处理器(cpu)或应用处理器(ap))以及与主处理器121在操作上独立的或者相结合的辅助处理器123(例如,图形处理单元(gpu)、图像信号处理器(isp)、传感器中枢处理器或通信处理器(cp))。另外地或者可选择地,辅助处理器123可被适配为比主处理器121耗电更少,或者被适配为具体用于指定的功能。可将辅助处理器123实现为与主处理器121分离,或者实现为主处理器121的部分。

在主处理器121处于未激活(例如,睡眠)状态时,辅助处理器123可控制与电子装置101(而非主处理器121)的部件之中的至少一个部件(例如,显示装置160、传感器模块176或通信模块190)相关的功能或状态中的至少一些,或者在主处理器121处于激活状态(例如,运行应用)时,辅助处理器123可与主处理器121一起来控制与电子装置101的部件之中的至少一个部件(例如,显示装置160、传感器模块176或通信模块190)相关的功能或状态中的至少一些。根据实施例,可将辅助处理器123(例如,图像信号处理器或通信处理器)实现为在功能上与辅助处理器123相关的另一部件(例如,相机模块180或通信模块190)的部分。

存储器130可存储由电子装置101的至少一个部件(例如,处理器120或传感器模块176)使用的各种数据。所述各种数据可包括例如软件(例如,程序140)以及针对与其相关的命令的输入数据或输出数据。存储器130可包括易失性存储器132或非易失性存储器134。

可将程序140作为软件存储在存储器130中,并且程序140可包括例如操作系统(os)142、中间件144或应用146。

输入装置150可从电子装置101的外部(例如,用户)接收将由电子装置101的其它部件(例如,处理器120)使用的命令或数据。输入装置150可包括例如麦克风、鼠标、键盘或数字笔(例如,手写笔)。

声音输出装置155可将声音信号输出到电子装置101的外部。声音输出装置155可包括例如扬声器或接收器。扬声器可用于诸如播放多媒体或播放唱片的通用目的,接收器可用于呼入呼叫。根据实施例,可将接收器实现为与扬声器分离,或实现为扬声器的部分。

显示装置160可向电子装置101的外部(例如,用户)视觉地提供信息。显示装置160可包括例如显示器、全息装置或投影仪以及用于控制显示器、全息装置和投影仪中的相应一个的控制电路。根据实施例,显示装置160可包括被适配为检测触摸的触摸电路或被适配为测量由触摸引起的力的强度的传感器电路(例如,压力传感器)。

音频模块170可将声音转换为电信号,反之亦可。根据实施例,音频模块170可经由输入装置150获取声音,或者经由声音输出装置155或与电子装置101直接(例如,有线地)连接或无线连接的外部电子装置(例如,电子装置102)的耳机输出声音。

传感器模块176可检测电子装置101的操作状态(例如,功率或温度)或电子装置101外部的环境状态(例如,用户的状态),然后产生与检测到的状态相应的电信号或数据值。根据实施例,传感器模块176可包括例如手势传感器、陀螺仪传感器、大气压力传感器、磁性传感器、加速度传感器、握持传感器、接近传感器、颜色传感器、红外(ir)传感器、生物特征传感器、温度传感器、湿度传感器或照度传感器。

接口177可支持将用来使电子装置101与外部电子装置(例如,电子装置102)直接(例如,有线地)或无线连接的一个或更多个特定协议。根据实施例,接口177可包括例如高清晰度多媒体接口(hdmi)、通用串行总线(usb)接口、安全数字(sd)卡接口或音频接口。

连接端178可包括连接器,其中,电子装置101可经由所述连接器与外部电子装置(例如,电子装置102)物理连接。根据实施例,连接端178可包括例如hdmi连接器、usb连接器、sd卡连接器或音频连接器(例如,耳机连接器)。

触觉模块179可将电信号转换为可被用户经由他的触觉或动觉识别的机械刺激(例如,振动或运动)或电刺激。根据实施例,触觉模块179可包括例如电机、压电元件或电刺激器。

相机模块180可捕获静止图像或运动图像。根据实施例,相机模块180可包括一个或更多个透镜、图像传感器、图像信号处理器或闪光灯。

电力管理模块188可管理对电子装置101的供电。根据实施例,可将电力管理模块188实现为例如电力管理集成电路(pmic)的至少部分。

电池189可对电子装置101的至少一个部件供电。根据实施例,电池189可包括例如不可再充电的原电池、可再充电的蓄电池、或燃料电池。

通信模块190可支持在电子装置101与外部电子装置(例如,电子装置102、电子装置104或服务器108)之间建立直接(例如,有线)通信信道或无线通信信道,并经由建立的通信信道执行通信。通信模块190可包括能够与处理器120(例如,应用处理器(ap))独立操作的一个或更多个通信处理器,并支持直接(例如,有线)通信或无线通信。根据实施例,通信模块190可包括无线通信模块192(例如,蜂窝通信模块、短距离无线通信模块或全球导航卫星系统(gnss)通信模块)或有线通信模块194(例如,局域网(lan)通信模块或电力线通信(plc)模块)。这些通信模块中的相应一个可经由第一网络198(例如,短距离通信网络,诸如蓝牙、无线保真(wi-fi)直连或红外数据协会(irda))或第二网络199(例如,长距离通信网络,诸如蜂窝网络、互联网、或计算机网络(例如,lan或广域网(wan)))与外部电子装置进行通信。可将这些各种类型的通信模块实现为单个部件(例如,单个芯片),或可将这些各种类型的通信模块实现为彼此分离的多个部件(例如,多个芯片)。无线通信模块192可使用存储在用户识别模块196中的用户信息(例如,国际移动用户识别码(imsi))识别并验证通信网络(诸如第一网络198或第二网络199)中的电子装置101。

天线模块197可将信号或电力发送到电子装置101的外部(例如,外部电子装置)或者从电子装置101的外部(例如,外部电子装置)接收信号或电力。根据实施例,天线模块197可包括天线,所述天线包括辐射元件,所述辐射元件由形成在基底(例如,pcb)中或形成在基底上的导电材料或导电图案构成。根据实施例,天线模块197可包括多个天线。在这种情况下,可由例如通信模块190(例如,无线通信模块192)从所述多个天线中选择适合于在通信网络(诸如第一网络198或第二网络199)中使用的通信方案的至少一个天线。随后可经由所选择的至少一个天线在通信模块190和外部电子装置之间发送或接收信号或电力。根据实施例,除了辐射元件之外的另外的组件(例如,射频集成电路(rfic))可附加地形成为天线模块197的一部分。

上述部件中的至少一些可经由外设间通信方案(例如,总线、通用输入输出(gpio)、串行外设接口(spi)或移动工业处理器接口(mipi))相互连接并在它们之间通信地传送信号(例如,命令或数据)。

根据实施例,可经由与第二网络199连接的服务器108在电子装置101和外部电子装置104之间发送或接收命令或数据。电子装置102和电子装置104中的每一个可以是与电子装置101相同类型的装置,或者是与电子装置101不同类型的装置。根据实施例,将在电子装置101运行的全部操作或一些操作可在外部电子装置102、外部电子装置104或服务器108中的一个或更多个运行。例如,如果电子装置101应该自动执行功能或服务或者应该响应于来自用户或另一装置的请求执行功能或服务,则电子装置101可请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分,而不是运行所述功能或服务,或者电子装置101除了运行所述功能或服务以外,还可请求所述一个或更多个外部电子装置执行所述功能或服务中的至少部分。接收到所述请求的所述一个或更多个外部电子装置可执行所述功能或服务中的所请求的所述至少部分,或者执行与所述请求相关的另外功能或另外服务,并将执行的结果传送到电子装置101。电子装置101可在对所述结果进行进一步处理的情况下或者在不对所述结果进行进一步处理的情况下将所述结果提供作为对所述请求的至少部分答复。为此,可使用例如云计算技术、分布式计算技术或客户机-服务器计算技术。

图2a是示出根据实施例的集成智能系统的框图。

参照图2a,根据实施例的集成智能系统可以包括用户终端220、智能服务器200和服务服务器230。

根据实施例的用户终端220可以是能够连接到互联网的终端装置(或电子装置),并且可以包括例如移动电话、智能电话、个人数字助理(pda)、笔记本电脑、电视、白色物品、可穿戴装置、hmd或智能扬声器。

根据该实施例,用户终端220可以包括通信接口221、麦克风222、扬声器223、显示器224、存储器226或处理器225。所列出的元件可以可操作地或电地彼此连接。

根据实施例的通信接口221可以连接到外部装置并且被配置为发送和接收数据。根据实施例的麦克风222可以接收声音(例如,用户语音)并将其转换为电信号。根据实施例的扬声器223可以以声音(例如,语音)的形式输出电信号。根据实施例的显示器224可以被配置为显示图像或视频。根据实施例的显示器224可以显示被执行的app(或应用)的图形用户界面(gui)。

根据实施例的存储器226存储客户端模块227、软件开发工具包(sdk)228和多个应用229。客户端模块227和sdk228可以配置用于执行通用功能的框架(或解决方案程序)。此外,客户端模块227或sdk228可以配置用于处理语音输入的框架。

多个应用229可以是用于执行预定功能的程序。根据实施例,多个应用229可以包括第一应用229_1和第二应用229_2。根据实施例,多个应用229中的每一个可以包括用于执行预定功能的多个操作。例如,应用可包括警报应用、消息应用和/或调度应用。根据实施例,多个应用229可以由处理器225执行,以便顺序地执行多个操作中的至少一些。

根据实施例的处理器225可以控制用户终端220的整体操作。例如,处理器225可以电连接到通信接口221、麦克风222、扬声器223和显示器224以执行预定操作。

根据实施例的处理器225可以通过执行存储在存储器226中的程序来执行预定功能。例如,处理器225可以通过执行客户端模块227或sdk228中的至少一个来执行用于处理语音输入的以下操作。处理器225可以例如通过sdk228控制多个应用229的操作。作为客户端模块227或sdk228的操作的以下操作可以由处理器225执行。

根据实施例的客户端模块227可以接收语音输入。例如,客户端模块227可以接收与通过麦克风222检测到的用户语音相对应的语音信号。客户端模块227可以将接收到的语音输入发送到智能服务器200。客户端模块227可以将用户终端220的状态信息连同接收到的语音输入一起发送到智能服务器200。状态信息可以是例如应用的执行状态信息。

根据实施例的客户端模块227可以接收与接收到的语音输入相对应的结果。例如,如果智能模块200获得与接收到的语音输入相对应的结果,则客户端模块227可以接收与接收到的语音输入相对应的结果。客户端模块227可以在显示器224上显示接收到的结果。

根据实施例的客户端模块227可以接收与接收到的语音输入相对应的计划。客户端模块227可以根据计划在显示器224上显示通过执行应用的多个操作而获得的结果。例如,客户端模块227可以在显示器上顺序地显示多个操作的执行结果。在另一示例中,用户终端220可以在显示器上仅显示多个操作的一些结果(仅最后操作的结果)。

根据实施例,客户端模块227可以从智能服务器200接收用于获取信息的请求,该信息用于获得与语音输入相对应的结果。根据实施例,客户端模块227可以响应于该请求将信息发送到智能服务器200。

根据实施例的客户端模块227可以根据计划将执行多个操作的结果信息发送到智能服务器200。智能服务器200可以使用结果信息来确认接收到的语音输入被正确处理。

根据实施例的客户端模块227可以包括语音识别模块。根据实施例,客户端模块227可以通过语音识别模块来识别用于执行有限功能的语音输入。例如,客户端模块227可以执行用于处理语音输入的智能应用,以通过预定输入(例如,唤醒!)执行有机操作。

根据实施例的智能服务器200可以通过通信网络从用户终端220接收与用户语音输入有关的信息。根据实施例,智能服务器200可以将与接收到的语音输入相关的数据改变为文本数据。根据实施例,智能服务器200可以基于文本数据生成用于执行与用户语音输入相对应的任务的计划。

根据实施例,该计划可以由人工智能(ai)系统生成。智能系统可以是基于规则的系统、基于神经网络的系统(例如,前馈神经网络(fnn))或递归神经网络(rnn))。或者,智能系统可以是它们的组合或者不同于它们的智能系统。根据实施例,可以从预定义计划的组合中选择计划,或者响应于用户请求实时生成计划。例如,智能系统可以从多个预定义计划中选择至少一个计划。

根据实施例的智能服务器200可以将所生成的计划的结果发送到用户终端220或将所生成的计划发送到用户终端220。根据实施例,用户终端220可以在显示器上显示计划的结果。根据实施例,用户终端220可以在显示器上显示根据计划的操作的结果。

根据实施例的智能服务器200可以包括前端201、自然语言平台202、胶囊db208、执行引擎209和终端用户界面210、管理平台211、大数据平台212或分析平台213。

根据实施例,前端201可以从用户终端220接收接收到的语音输入。前端201可以发送对语音输入的响应。

根据实施例,自然语言平台202可包括自动语音识别模块(asr模块)203、自然语言理解(nlu)模块204、计划器模块205、自然语言生成器(nlg)模块206或文本到语音(tts)模块207。

根据实施例的自动语音识别模块203可以将从用户终端220接收的语音输入转换为文本数据。根据实施例的自然语言理解模块204可以基于语音输入的文本数据来检测用户的意图。例如,自然语言理解模块204可以通过执行句法分析或语义分析来检测用户的意图。根据实施例的自然语言理解模块204可以基于语素或短语的语言特征(例如,语法元素)来检测从语音输入中提取的词语的含义,并将检测到的词语的含义与意图匹配,以便确定用户的意图。

根据实施例的计划器模块205可以基于由自然语言理解模块204确定的意图和参数来生成计划。根据实施例,计划器模块205可以基于确定的意图来确定用于执行任务的多个域。计划器模块205可以确定基于意图而确定的多个域中包括的多个操作。根据实施例,计划器模块205可以确定用于执行多个确定的操作的参数或通过执行多个操作而输出的结果值。可以通过预定类型(或类别)的概念来定义参数和结果值。根据实施例,该计划可以包括由用户的意图和多个概念确定的多个操作。计划器模块205可以逐渐(或分层地)确定多个操作和多个概念之间的关系。例如,计划器模块205可以基于多个概念来确定基于用户的意图而确定的多个操作的执行顺序。换句话说,计划器模块205可以基于用于执行多个操作的参数和通过执行多个操作输出的结果来确定多个操作的执行顺序。因此,计划器模块205可以生成包括关于多个操作和多个概念之间关系(本体)的信息的计划。计划器模块205可以基于存储在胶囊数据库208中的信息生成计划,该胶囊数据库存储概念和操作之间的一组关系。

根据实施例的自然语言生成器模块206可以以文本的形式转换预定信息。转换成文本形式de信息可以是自然语言语音的形式。文本到语音模块207可以将文本形式的信息转换为语音形式的信息。

根据实施例,自然语言平台202的一些或全部功能也可以由用户终端220来实现。

胶囊数据库208可以存储关于与多个域相对应的多个概念和操作之间的关系的信息。根据实施例的胶囊可以包括多个操作对象(动作对象或动作信息)和概念对象(或概念信息)。根据实施例,胶囊数据库208可以以概念动作网络(can)的形式存储多个胶囊。根据实施例,多个胶囊可以被存储在胶囊数据库208中包括的功能注册表中。

胶囊数据库208可以包括策略注册表,该策略注册表存储当确定与语音输入相对应的计划时使用的策略信息。当存在与语音输入相对应的多个计划时,策略信息可以包括用于确定一个计划的参考信息。根据实施例,胶囊数据库208可以包括后续注册表,该后续注册表存储接下来的操作以在预定情况下向用户建议后续操作。后续操作可以包括例如接下来的语音。根据实施例,胶囊数据库208可以包括布局注册表,该布局注册表存储与通过用户终端220输出的信息相对应的布局信息。根据实施例,胶囊数据库208可以包括词汇注册表,该词汇注册表存储胶囊信息中包括的词汇信息。根据实施例,胶囊数据库208可以包括对话注册表,该对话注册表存储与用户的对话(或交互)信息。胶囊数据库208可以通过开发者工具来更新所存储的对象。开发者工具可以包括用于更新例如操作对象或概念对象的功能编辑器。开发者工具可以包括用于更新词汇的词汇编辑器。开发者工具可以包括用于生成和注册策略以确定计划的策略编辑器。开发者工具可以包括用于生成与用户的对话的对话编辑器。开发者工具可以包括用于启用后续目标并编辑提供提示的接下来的语音的后续编辑器。可以基于当前目标、用户的偏好或环境条件来确定后续目标。根据实施例,胶囊数据库208可以在用户终端220内部实现。

根据实施例的执行引擎209可以基于所生成的计划来获得结果。终端用户界面210可以将获得的结果发送到用户终端220。因此,用户终端220可以接收结果并将接收到的结果提供给用户。根据实施例的管理平台211可以管理由智能服务器200使用的信息。根据实施例的大数据平台212可以收集用户数据。根据实施例的分析平台213可以管理智能服务器200的服务质量(qos)。例如,分析平台213可以管理智能服务器200的元素和处理速度(或效率)。

根据实施例的服务服务器230可以向用户终端220提供预定服务(例如,食物订购或酒店预订)。根据实施例,服务服务器230可以是由第三方操作的服务器。根据实施例的服务服务器230可以向智能服务器200提供用于生成与接收到的语音输入相对应的计划的信息。所提供的信息可以存储在胶囊数据库208中。此外,服务服务器230可以向智能服务器200提供计划的结果信息。

在上述集成智能系统中,用户终端220可以响应于用户输入向用户提供各种智能服务。用户输入可以包括例如通过物理按钮的输入、触摸输入或语音输入。

根据实施例,用户终端220可以通过存储在用户终端220中的智能应用(或语音识别应用)来提供语音识别服务。在这种情况下,例如,用户终端220可以识别通过麦克风接收的用户语音(话语)或语音输入,并向用户提供与识别出的语音输入相对应的服务。

根据实施例,用户终端220可以基于接收到的语音输入随着智能服务器和/或服务服务器或与智能服务器和/或服务服务器一起来执行预定操作。例如,用户终端220可以执行与接收到的语音输入相对应的应用,并通过所执行的应用来执行预定操作。

根据实施例,当用户终端220与智能服务器200和/或服务服务器一起提供服务时,用户终端可以通过麦克风222检测用户语音并生成与检测到的用户语音相对应的信号(或语音数据)。用户终端可以通过通信接口221向智能服务器200发送语音数据。

根据实施例的智能服务器200可以响应于从用户终端220接收到的语音输入,生成用于执行与语音输入相对应的任务的计划或根据计划的操作结果。该计划可以包括例如用于执行与用户的语音输入相对应的任务的多个操作以及与该多个操作相关的多个概念。这些概念可以是输入到执行多个操作的参数,或者可以被定义为通过执行多个操作而输出的结果值。该计划可以包括多个操作和多个概念之间的关系。

根据实施例的用户终端220可以通过通信接口221接收响应。用户终端220可以通过扬声器223将由用户终端220生成的语音信号输出到外部,或者通过显示器224将由用户终端220生成的图像输出到外部。

图2b示出了根据实施例的在数据库中存储关于概念和动作之间的关系的信息的形式。

智能服务器200的胶囊数据库(例如,胶囊数据库208)可以以概念动作网络(can)的形式存储胶囊。胶囊数据库可以以概念动作网络(can)的形式存储用于处理与用户语音输入相对应的任务的操作和用于该操作的参数。

胶囊数据库可以存储与多个域(例如,应用)相对应的多个胶囊(胶囊a241和胶囊b244)。根据实施例,一个胶囊(例如,胶囊a241)可以对应于一个域(例如,位置(geo)或应用)。此外,一个胶囊可以对应于用于执行与该胶囊相关的域的功能的至少一个服务提供商(例如,cp#1242、cp#2243、cp#3246和cp#4245)。根据实施例,一个胶囊可以包括用于执行预定功能的一个或更多个操作和一个或更多个概念。

自然语言平台202可以通过存储在胶囊数据库中的胶囊来生成用于执行与接收到的语音输入相对应的任务的计划。例如,自然语言平台的计划器模块205可以通过存储在胶囊数据库中的胶囊来生成计划。例如,可以使用胶囊a241的操作241_1、241_3和概念241_2、241_4以及胶囊b244的操作244_1和概念244_2来生成计划247。

图2c示出了根据各种实施例的用户终端通过智能应用处理接收到的语音输入的屏幕。

用户终端220可以通过智能服务器200执行智能应用,以便处理用户输入。

根据实施例,在屏幕250中,当识别预定语音输入(例如,唤醒!)或者通过硬件键(例如,专用硬件键)接收输入时,用户终端220可以执行用于处理语音输入的智能应用。用户终端220可以在例如执行调度应用的状态下执行智能应用。根据实施例,用户终端220可以在显示器224上显示与智能应用相对应的对象251(例如,图标)。根据实施例,用户终端220可以接收由用户语音输入的语音输入。例如,用户终端220可以接收语音输入“让我知道本周的时间表!”根据实施例,用户终端220可以在显示器上显示智能应用的用户界面(ui)253(例如,输入窗口),该智能应用显示接收到的语音输入的文本数据。

根据实施例,在屏幕260中,用户终端220可以在显示器上显示与接收到的语音输入相对应的结果。例如,用户终端220可以接收与接收到的用户输入相对应的计划,并在显示器上显示根据该计划的“本周的时间表”。

根据各种实施例的电子装置可以是各种类型的电子装置之一。电子装置可包括例如便携式通信装置(例如,智能电话)、计算机装置、便携式多媒体装置、便携式医疗装置、相机、可穿戴装置或家用电器。根据本公开的实施例,电子装置不限于以上所述的那些电子装置。

应该理解的是,本公开的各种实施例以及其中使用的术语并不意图将在此阐述的技术特征限制于具体实施例,而是包括针对相应实施例的各种改变、等同形式或替换形式。对于附图的描述,相似的参照标号可用来指代相似或相关的元件。将理解的是,与术语相应的单数形式的名词可包括一个或更多个事物,除非相关上下文另有明确指示。如这里所使用的,诸如“a或b”、“a和b中的至少一个”、“a或b中的至少一个”、“a、b或c”、“a、b和c中的至少一个”以及“a、b或c中的至少一个”的短语中的每一个短语可包括在与所述多个短语中的相应一个短语中一起列举出的项的任意一项或所有可能组合。如这里所使用的,诸如“第1”和“第2”或者“第一”和“第二”的术语可用于将相应部件与另一部件进行简单区分,并且不在其它方面(例如,重要性或顺序)限制所述部件。将理解的是,在使用了术语“可操作地”或“通信地”的情况下或者在不使用术语“可操作地”或“通信地”的情况下,如果一元件(例如,第一元件)被称为“与另一元件(例如,第二元件)结合”、“结合到另一元件(例如,第二元件)”、“与另一元件(例如,第二元件)连接”或“连接到另一元件(例如,第二元件)”,则意味着所述一元件可与所述另一元件直接(例如,有线地)连接、与所述另一元件无线连接、或经由第三元件与所述另一元件连接。

如这里所使用的,术语“模块”可包括以硬件、软件或固件实现的单元,并可与其他术语(例如,“逻辑”、“逻辑块”、“部分”或“电路”)可互换地使用。模块可以是被适配为执行一个或更多个功能的单个集成部件或者是该单个集成部件的最小单元或部分。例如,根据实施例,可以以专用集成电路(asic)的形式来实现模块。

可将在此阐述的各种实施例实现为包括存储在存储介质(例如,内部存储器136或外部存储器138)中的可由机器(例如,电子装置101)读取的一个或更多个指令的软件(例如,程序140)。例如,在处理器的控制下,所述机器(例如,电子装置101)的处理器(例如,处理器120)可在使用或无需使用一个或更多个其它部件的情况下调用存储在存储介质中的所述一个或更多个指令中的至少一个指令并运行所述至少一个指令。这使得所述机器能够操作用于根据所调用的至少一个指令执行至少一个功能。所述一个或更多个指令可包括由编译器产生的代码或能够由解释器运行的代码。可以以非暂时性存储介质的形式来提供机器可读存储介质。其中,术语“非暂时性”仅意味着所述存储介质是有形装置,并且不包括信号(例如,电磁波),但是该术语并不在数据被半永久性地存储在存储介质中与数据被临时存储在存储介质中之间进行区分。

根据实施例,可在计算机程序产品中包括和提供根据本公开的各种实施例的方法。计算机程序产品可作为产品在销售者和购买者之间进行交易。可以以机器可读存储介质(例如,紧凑盘只读存储器(cd-rom))的形式来发布计算机程序产品,或者可经由应用商店(例如,playstoretm)在线发布(例如,下载或上传)计算机程序产品,或者可直接在两个用户装置(例如,智能电话)之间分发(例如,下载或上传)计算机程序产品。如果是在线发布的,则计算机程序产品中的至少部分可以是临时产生的,或者可将计算机程序产品中的至少部分至少临时存储在机器可读存储介质(诸如制造商的服务器、应用商店的服务器或转发服务器的存储器)中。

根据各种实施例,上述部件中的每个部件(例如,模块或程序)可包括单个实体或多个实体。根据各种实施例,可省略上述部件中的一个或更多个部件,或者可添加一个或更多个其它部件。可选择地或者另外地,可将多个部件(例如,模块或程序)集成为单个部件。在这种情况下,根据各种实施例,该集成部件可仍旧按照与所述多个部件中的相应一个部件在集成之前执行一个或更多个功能相同或相似的方式,执行所述多个部件中的每一个部件的所述一个或更多个功能。根据各种实施例,由模块、程序或另一部件所执行的操作可顺序地、并行地、重复地或以启发式方式来执行,或者所述操作中的一个或更多个操作可按照不同的顺序来运行或被省略,或者可添加一个或更多个其它操作。

图3示意性地示出了根据本公开的各种实施例的智能代理系统。

根据各种实施例,电子装置101可以通过智能代理系统300根据用户的命令执行功能。例如,智能代理系统300可以包括环境信息确认模块310、语音信息识别模块320、图像信息识别模块330和功能执行模块340。图3的智能代理系统300可以包括图2a到图2c中的集成智能系统的至少一些元件或模块或可对应于至少一些元件或模块的组合。

根据各种实施例,环境信息确认模块310可以确认与电子装置101相关的至少一个环境信息。例如,环境信息可以包括电子装置101周围的噪声等级。如果电子装置101的用户参加音乐会,则环境信息确认模块310可以获取并存储表示电子装置101周围非常嘈杂的信息作为环境信息。在另一示例中,环境信息可以包括关于由电子装置101执行的应用的信息。环境信息确认模块310可以获取关于正在执行的应用的信息,例如电子装置101再现的视频或音乐,作为环境信息。对于特定应用,环境信息确认模块310可以获取关于特定应用的操作状态的信息,作为环境信息。例如,如果特定应用是视频应用,则环境信息确认模块310可以确认视频当前是再现还是停止。在另一示例中,环境信息确认模块310可以确认特定应用是在前台还是在后台执行。电子装置101可以使用由环境信息确认模块310获取的至少一个环境信息以通过电子装置101提供智能代理功能。

根据各种实施例,语音信息识别模块320可以接收用户的语音并且基于接收到的语音来确定用户的命令。例如,语音信息识别模块320可以使用自动语音识别(asr)将语音转换为文本,并基于转换后的文本执行功能。

根据各种实施例,如果电子装置101周围非常嘈杂,则不能从用户流畅地接收语音。在另一示例中,如果用户所处的地方是需要安静的图书馆,则用户可能难以用大声输入。在上述情况下,电子装置101可能难以通过语音输入执行智能代理服务。

根据各种实施例,图像信息识别模块330可以通过电子装置101的相机模块180接收关于用户图像的信息,可以基于接收到的图像信息来执行唇读。例如,唇读可以是用于分析用户的嘴唇的运动并识别词语或句子的技术。图像信息识别模块330可以通过训练模型基于接收到的嘴唇图像来查找最合适的词语或句子的方法。因此,与语音信息识别模块320不同,图像信息识别模块可以不生成文本。

如上所述,如果难以仅通过用户的语音来确认用户期望执行的功能,则可以基于接收到的图像信息执行唇读,因此可以提高智能代理服务的准确性。

根据各种实施例,图像信息识别模块330可以基于由环境信息确认模块310获取的环境信息仅通过用户的唇读而不接收语音信息来确认用户的命令,并且执行与所确认的用户的命令相对应的功能。

根据各种实施例,图像信息识别模块330可以通过唇读来补偿将由语音信息识别模块320处理的语音信息。电子装置101可以通过组合语音信息和唇读信息来确认用户的命令,并且执行与所确认的用户的命令相对应的功能。

根据各种实施例,图像信息识别模块330可以确认图像中包括的嘴唇的数量、发出语音命令的用户以及关于语音的起点或终点的信息。

根据各种实施例,图像信息识别模块330可以向用户界面提供与唇读有关的至少一条信息。例如,图像信息识别模块330可以向用户界面提供指示是否正在执行唇读的信息,关于图像中包括的嘴唇的信息、关于执行唇读的嘴唇的信息或关于唇读错误的信息。

根据各种实施例,图像信息识别模块330可以提供关于唇读的指南,以便于唇读。例如,图像信息识别模块330可以提供用户嘴唇的特写并通过单独的预览屏幕提供该特写。在另一示例中,如果难以在接收到的图像中检测到用户的嘴唇,则图像信息识别模块330可以引导电子装置101控制取向。

根据各种实施例,如果图像中包括的嘴唇的数量是多个,则图像信息识别模块330可以显示嘴唇,使得被识别为当前正在讲话的嘴唇与仅仅是被包括在图像中的其他嘴唇区分开。例如,被确定为实际发出语音命令的嘴唇可以在其外围区域周围以边框显示,并且可以显示仅仅是被包括在图像中的嘴唇而无需特别指示。在另一示例中,被确定为实际输入语音命令的嘴唇可以在其周围被显示为带有第一边界,并且仅仅是被包括在图像中的嘴唇可以在其周围被显示为带有第二边界。第一边界的形状(例如,实线或虚线)、颜色和厚度可以与第二边界的形状、颜色和厚度不同。

根据各种实施例,功能执行模块340可以基于电子装置101的环境信息、语音信息或图像信息中的至少一条来确定用户的命令,并且执行与所确定的命令相对应的功能。

如图4是示出根据本公开的各种实施例的用于执行唇读的电子装置的框图。

根据各种实施例,电子装置400(例如,图1的电子装置101或图2a的用户终端220)可以被划分为用于执行唇读的多个模块。

根据各种实施例,客户端模块410可以用于访问智能代理服务并输出智能代理服务的结果。例如,客户端410可以根据关于当前正在执行的应用的信息和电子装置400的环境来执行唇读功能。

根据各种实施例,自动语音识别(ars)模块420可以将输入的语音信号转换为文本。

根据各种实施例,嘴唇验证模块431可以确认是否在通过相机模块180获取的图像信息中检测到嘴唇,并且确认是否可以识别出嘴唇的运动。例如,嘴唇验证模块431可以确定通过相机模块获取的图像信息是否对应于可以识别嘴唇的图像,并且确定是继续进行嘴唇识别还是仅执行语音识别。

根据各种实施例,嘴唇识别模块433可以在所识别的嘴唇区域中基于一般唇读模型435和个人唇读模型437来检测嘴唇的运动,并且识别或估计用户语音。

根据各种实施例,一般唇读模型435是基于多个未指定的嘴唇的运动和与其对应的语音信息而习得的模型,并且可以确保一般唇读的识别性能。

根据各种实施例,个人唇读模型437可以通过学习用户的嘴唇的运动以生成模型来确保针对电子装置400的用户优化的识别性能。例如,由于每个人的讲话习惯和嘴唇运动都不同,可能会个别地发生性能下降,因此可以通过个人唇读模型437来提高唇读的识别性能。

根据各种实施例,可以通过电子装置400执行以下操作。例如,如果智能代理服务是通过用户输入(例如,按下物理键或唤醒语音)执行的,则接收正在执行的应用441或443的环境信息。例如,如果正在再现视频或音乐,则可以启用相机模块以识别嘴唇。如果确定可以基于从相机模块收集的图像信息来识别嘴唇,则通过接收到的用户语音和嘴唇运动来确定用户语音。

图5是示出根据本公开的各种实施例的通过电子装置的智能代理服务来执行与用户命令相对应的功能的方法500的流程图。

根据各种实施例,在操作510中,电子装置101可以执行智能代理服务。例如,电子装置101可以通过接收用户输入(例如,按下物理键或唤醒语音)来执行智能代理服务。

根据各种实施例,在操作520中,电子装置101可以确认电子装置101的环境信息。例如,环境信息可以包括电子装置101周围的噪声等级。在另一示例中,环境信息可以包括关于由电子装置101执行的应用的信息。

根据各种实施例,在操作530中,电子装置101可以判定是否基于所确认的环境信息来获取图像信息。例如,如果电子装置101周围的噪声严重,则不能从用户流畅地接收语音,因此电子装置101可以执行控制以获取图像信息。在另一示例中,如果用户位于需要安静的地方,则用户难以用大声输入。在上述情况下,通过额外获取图像信息,可以提高智能代理服务的准确性。

根据各种实施例,如果确定获取图像信息,则在操作541中,电子装置101可以通过启用相机模块来获取关于用户的图像信息。

根据各种实施例,在操作543中,电子装置101可以基于所获取的图像信息来识别用户语音。

根据各种实施例,如果确定不获取图像信息,则在操作551中,电子装置101可以从用户获取语音信息。

根据各种实施例,在操作553中,电子装置101可以基于语音信息识别用户语音。

根据各种实施例,在操作560中,电子装置101可以执行与所生成的文本相对应的功能。

根据各种实施例,参照图5,电子装置101可以选择性地获取图像信息或语音信息并执行与用户语音相对应的功能。然而,本公开不限于实施例,而是可以包括这样实施例,其中电子装置获取图像信息和语音信息,并基于它们的组合(例如,组合语音)执行与用户语音相对应的功能。

图6示出了根据本公开的各种实施例的电子装置基于用户语音或用户的嘴唇中的至少一个来识别用户语音的方法。

根据各种实施例,在操作610中,电子装置101可以判定是否基于环境信息来执行唇读。如果确定要执行唇读,则在操作621中,电子装置可以获取关于用户的图像的信息。如果确定不执行唇读,则在操作623中,电子装置可以获取语音信息。在另一示例中,即使确定要执行唇读,在操作623中,电子装置101也可以另外获取语音信息。

根据各种实施例,如果通过唇读获取图像信息,则电子装置101可以确认关于嘴唇的信息631。例如,确认嘴唇信息631的方法可以包括嘴唇检测、嘴唇启用检测和嘴唇跟踪。例如,嘴唇跟踪可以是在图像信息中检测用户的嘴唇。例如,嘴唇启用检测可以是嘴唇运动开始的检测。例如,嘴唇跟踪可以是开始运动的嘴唇的形状变化的连续跟踪。

根据各种实施例,电子装置101可以基于嘴唇信息631来识别用户语音(例如,仅通过嘴唇运动来识别用户语音)。

根据各种实施例,在步骤645中,电子装置101可以通过自动语音识别模块633将用户的语音转换为文本(例如,仅通过接收到的语音将用户语音转换为文本)。

根据各种实施例,在步骤641中,电子装置101可以通过组合嘴唇信息631和从自动语音识别模块633获取的信息来识别用户语音(例如,通过组合接收到的语音和嘴唇运动来识别用户语音)。

根据各种实施例,如果电子装置101通过唇读获取图像信息,则电子装置101可以参照数据库643以便识别用户语音。对应的数据库643可以存储在服务器或电子装置101中的存储器130中。

根据各种实施例,在操作650中,电子装置101可以识别与转换后的文本相对应的用户语音。

图7示出了根据各种实施例的当电子装置通过智能代理服务执行功能时的用户界面。

根据各种实施例,参照附图标记710,电子装置101可以执行第一应用(例如,音乐再现应用)。电子装置101可以在执行第一应用的同时从用户接收用于启用智能代理服务的输入。

根据各种实施例,参照附图标记720,如果在智能代理服务被启用的状态下,在后台无缝地(例如,正在再现音乐)连续执行第一应用(例如,音乐再现应用),电子装置101可以通过智能代理服务接收用户的语音和关于嘴唇的信息中的至少一条。例如,电子装置101可以显示表示智能代理服务被启用的信息,从而通过单独的对象或图标721接收语音和嘴唇信息中的至少一条。

根据各种实施例,参照附图标记720,如果相机模块180被启用以执行唇读,则电子装置101可以显示单独的对象或图标723以便将其通知用户。例如,唇读对象或图标723可以依据唇读的状态而以状态的变化来显示。例如,如果准确地读取用户嘴唇的运动,则可以清楚地显示对象或图标723。如果难以检测到用户的嘴唇的运动(例如,如果检测到嘴唇的位置失败或者如果用户周围是暗的),则对象或图标723可以被模糊地显示或者可以闪烁。在另一示例中,如果准确地读取用户的嘴唇的运动,则可以用第一颜色来显示对象或图标723。如果难以检测到用户的嘴唇的运动(例如,如果检测到嘴唇的位置失败或者如果用户周围是暗的),则可以用不同于第一颜色的第二颜色来显示对象或图标723。

根据各种实施例,参照附图标记720,电子装置101可以实时显示从用户语音到文本的转换结果。例如,电子装置101可以在用户讲话时向用户提供中间结果725,并且如果用户完成语音,则可以向用户提供最终结果727。

根据各种实施例,参照附图标记720,电子装置101可以临时停止当前通过音乐再现应用再现的音乐,以便从用户接收命令。在这种情况下,由于停止当前再现的音乐,因此可以更流畅地接收用户的声音。然而,用户不能无缝地听音乐,这可能给用户带来不便。

根据各种实施例,参照附图标记730,如果用户语音对应于第二应用(例如,画廊)的执行,则电子装置101可以将屏幕切换到第二应用。此后,如果从用户接收到后退输入,则电子装置101可以返回到第一应用的执行屏幕。

图8a至图8b示出根据本公开的各个实施例的当电子装置通过智能代理服务执行功能时的用户界面。

根据各种实施例,参照图8a,电子装置101可以通过屏幕810中的视频再现应用来再现电影。在这种情况下,电子装置101可以从用户接收用于启用智能代理服务的输入。当再现的视频没有暂停或停止时,电子装置101可以从用户接收输入。例如,电子装置101可以确认环境信息,该环境信息表示当前执行的应用是视频再现应用,并且当前通过视频再现应用再现电影。为了不中断用户观看电影,电子装置101可以在不停止视频的再现的同时启用唇读模式,并且检测用户的嘴唇的运动。当然,在这种情况下,还可以接收用户的语音,并且电子装置101可以基于用户的语音和嘴唇运动来识别用户希望执行的命令。同时,电子装置101可以通过用户界面显示通知唇读模式的启用的对象或图标811。

根据各种实施例,参照图8a,电子装置101可以在屏幕820中从用户接收关于星期五天气的查询输入。作为响应,电子装置101可以提供“星期五将有雪花飘落”的响应。由于用户当前正在观看电影,如果电子装置101通过单独的语音作出响应或者隐藏当前执行的应用并且将屏幕切换到智能代理服务屏幕,则电影的流畅观看可能会中断。因此,电子装置101可以以类似于字幕的形式显示与用户命令相对应的响应821,而无需单独的语音响应或屏幕切换。

根据各种实施例,参照图8b,电子装置101可以通过屏幕830中的音乐再现应用来再现音乐。在这种情况下,电子装置101可以从用户接收用于启用智能代理服务的输入。当再现的音乐没有暂停或停止时,电子装置101可以从用户接收输入。例如,电子装置101可以确认环境信息,该环境信息表示当前执行的应用是音乐再现应用和当前通过音乐再现应用来再现音乐。为了不中断用户收听音乐,当不停止音乐的再现时,电子装置101可以启用唇读模式并检测用户的嘴唇的运动。当然,在这种情况下,也可以接收用户的语音,并且电子装置101可以基于用户的语音和嘴唇运动来识别用户希望执行的命令。

根据各种实施例,参照图8b,电子装置101可以在屏幕840中识别来自用户的发送消息的请求。响应于此,电子装置101可以提供响应841“给谁?847”是指询问信息发送给谁的问题。此外,电子装置101可以显示表示当前接收到用户反馈的指示符843,并显示表示正在执行唇读的对象或图标845。指示符、对象或图标是用于指代某物的图形用户界面,可以用作类似含义,但可以用其他表达式替换。与图8a类似,由于用户当前正在收听音乐,如果电子装置101通过单独的语音作出响应或者隐藏当前执行的应用并且将屏幕切换到智能代理服务屏幕,则可以中断对音乐的不间断收听。因此,电子装置101可以在部分区域中显示与用户命令相对应的响应841,在该部分区域中以类似于消息的形式显示当前执行的应用,而无需单独的语音响应。

图9是示出根据本公开的各种实施例的基于电子装置是否能够唇读来执行与用户命令相对应的功能的方法900的流程图。

根据各种实施例,在操作910中,电子装置101可以获取关于用户的图像的信息。

根据各种实施例,在操作920中,电子装置101可以确定在所获取的图像信息中是否可以识别出嘴唇(例如,是否可以执行唇读)。

根据各种实施例,如果可以识别出嘴唇,则在操作930中,电子装置101可以显示用于唇读的用户界面(ui)。

根据各种实施例,在操作940中,电子装置101可以执行唇读并输出唇读的中间结果。

根据各种实施例,在操作950中,电子装置101可以确定用户命令的输入是否完成。

根据各种实施例,如果用户命令的输入完成,则在操作960中,电子装置101可以输出唇读的最终结果。

根据各种实施例,如果用户命令的输入没有完成,则在操作940中,电子装置101可以继续唇读并输出唇读的中间结果。

根据各种实施例,如果不能识别出嘴唇,则在操作935中,电子装置101可以显示用于语音识别的用户界面(ui)。

根据各种实施例,在操作945中,电子装置101可以执行语音识别并输出用于语音识别的中间结果。

根据各种实施例,在操作955中,电子装置101可以确定用户命令的输入是否完成。

根据各种实施例,如果用户命令的输入完成,则在操作965中,电子装置101可以输出语音识别的最终结果。

根据各种实施例,如果用户命令的输入没有完成,则在操作945中,电子装置101可以继续语音识别并输出用于语音识别的中间结果。

根据各种实施例,在操作970中,电子装置101可以基于唇读的最终结果和语音识别的最终结果中的至少一个来执行输入命令。

图10a到图10c示意性地示出了根据本公开的各种实施例的提供用于电子装置的唇读操作的用户界面的方法。

根据各种实施例,参照图10a,如果电子装置周围的噪声高于或等于预定水平或者人的语音被同时输入,则电子装置101可以执行唇读。电子装置101可以识别出通过嘴唇识别模块和自动语音识别模块接收到的用户语音是关于什么的。例如,电子装置101可以检测由附图标记1010到1060指示的图像信息中包括的嘴唇的运动,并基于其识别用户语音。

根据各种实施例,参照图10b,如果用于执行唇读的图像信息具有预设的亮度或更低的亮度,则唇读的精度低,使得电子装置101可以请求用户移至更亮的地方。例如,如果用户的图像1070是在黑暗的地方获取的,则可以在用户的嘴唇周围显示标记1071。例如,如果正常执行唇读,则标记1071可以由实线表示,如果难以进行唇读,则标记1071可以由虚线表示。在另一示例中,如果正常执行唇读,则标记1071可以用绿色表示,如果难以执行唇读,则标记1071可以用红色表示。

根据各种实施例,参照图10c,电子装置101可以检测图像信息1080中的多个嘴唇。电子装置101可以确定在检测到的嘴唇中哪个嘴唇当前正在输入语音命令。例如,电子装置101可以将用户的嘴唇形状的运动与输入的语音进行比较,并基于其确定在多个嘴唇中实际输入语音命令的嘴唇。

根据各种实施例,参照图10a,电子装置101可以显示嘴唇,使得当前输入语音命令的嘴唇1081与图像信息1080中的其他嘴唇1082区分开。例如,当前输入语音命令的嘴唇1081可以用粗实线显示,而其他嘴唇1082可以用浅虚线显示。

根据各种实施例,电子装置101可以根据接收到的图像信息的状态来控制语音识别和唇读的加权值。例如,如果接收到的图像的亮度等于或低于预设亮度,则可以确定唇读的准确性低。因此,如果通过语音识别和唇读的组合来分析用户命令,则可以将高权重值分配给通过语音识别获取的结果,并且可以将相对低的权重值分配给通过唇读获取的结果。

根据各种实施例,如果接收到的语音信息不对应于实际输入语音命令的用户,则电子装置101可以控制语音识别和唇读的加权值。例如,如果同时接收实际输入语音命令的用户的语音和其他人的语音,则可以确定语音识别的准确性低。因此,如果通过语音识别和唇读的组合来分析用户命令,则可以将低权重值分配给通过语音识别获取的结果,并且可以将相对高的权重值分配给通过唇读获取的结果。

图11是示出根据本公开的各种实施例的在执行应用时检测嘴唇的运动以识别用户语音并执行与所识别的语音相对应的功能的方法1100的流程图。

根据各种实施例,在操作1110中,当执行应用时,电子装置101可以接收用于启用智能代理服务的输入。

根据各种实施例,在操作1120中,电子装置101可以确认电子装置101的环境信息。

根据各种实施例,在操作1130中,电子装置101可以基于所确认的环境信息通过相机获取关于用户的图像信息。

根据各种实施例,在操作1140中,电子装置101可以检测包括在所获取的图像信息中的嘴唇的运动并识别用户语音。

根据各种实施例,在操作1150中,电子装置101可以执行与所识别的语音相对应的功能。

根据各种实施例的电子装置可以包括相机、麦克风、显示器、存储器和处理器,其中,处理器被配置为在至少一个应用被执行时从用户接收用于启用智能代理服务的输入,确认电子装置的环境信息,控制以基于所确认的环境信息通过相机获取用户的图像信息,检测所获取的图像信息中包括的用户嘴唇的运动以识别用户的语音,以及执行与识别出的语音相对应的功能。

处理器可以被配置为通过麦克风获取电子装置周围的噪声,以及将关于所获取的电子装置周围的噪声的信息存储为环境信息。

处理器可以被配置为如果电子装置周围的噪声高于或等于预设值,则启用相机。

处理器可以被配置为将正在执行的至少一个应用的类型或执行状态中的至少一个存储为环境信息,以及如果正在执行的至少一个应用正在再现音乐或视频,则启用相机。

处理器可以被配置为:控制以通过麦克风来接收语音信号;识别与语音信号和嘴唇的运动的组合相对应的组合语音;以及执行与识别出的组合语音相对应的功能。

处理器可以被配置为:如果所获取的图像信息的亮度低于预设值,则识别与除了嘴唇的运动之外的语音信号相对应的基于语音识别的语音,以及执行与所识别的基于语音识别的语音相对应的功能。

处理器可以被配置为:如果所获取的图像信息的亮度低于预设值,则通过显示器向用户显示用户界面,该用户界面表示识别嘴唇的运动失败。

处理器可以被配置为:如果基于所获取的图像信息检测到多个嘴唇,则确认语音信号和多个嘴唇的运动,并通过显示器显示用于将与用户相对应的嘴唇与其他嘴唇区分开的用户界面。

处理器可以被配置为:将基于与用户相对应的嘴唇的运动而识别的第一语音的加权值设置为高于基于通过麦克风获取的语音信号而识别的第二语音的加权值,以及识别组合语音。

处理器可以被配置为:即使当智能代理服务被启用时,也无缝地提供关于至少一个应用的至少一条信息。

根据各种实施例的电子装置的方法可以包括以下操作:在执行至少一个应用时从用户接收用于启用智能代理服务的输入;确认电子装置的环境信息;基于所确认的环境信息,通过相机获取用户的图像信息;检测包括在所获取的图像信息中的用户的嘴唇的运动以识别用户的语音;以及执行与识别出的语音相对应的功能。

该方法还可以包括以下操作:通过麦克风获取电子装置周围;以及将关于在电子装置周围所获取的噪声的信息存储为环境信息。

该方法还可以包括以下操作:如果电子装置周围的噪声高于或等于预设值,则启用相机。

该方法还可以包括以下操作:将正在执行的至少一个应用的类型或执行状态中的至少一个存储为环境信息;以及如果正在执行的至少一个应用正在再现音乐或视频,则启用相机。

该方法还可以包括以下操作:通过麦克风接收语音信号;识别与语音信号和嘴唇的运动的组合相对应的组合语音;以及执行与识别出的组合语音相对应的功能。

该方法还可以包括以下操作:如果所获取的图像信息的亮度等于或小于预设值,则识别与除了嘴唇的运动以外的语音信号相对应的基于语音识别的语音;以及执行与所识别的基于语音识别的语音相对应的功能。

该方法还可以包括以下操作:如果所获取的图像信息的亮度低于预设值,则通过显示器向用户显示用户界面,该用户界面表示识别嘴唇运动失败。

该方法还可以包括以下操作:如果基于所获取的图像信息检测到多个嘴唇,则确认语音信号和多个嘴唇的运动;以及通过显示器显示用于将与用户相对应的嘴唇与其他嘴唇区分开的用户界面。

该方法还可以包括以下操作:将基于与用户相对应的嘴唇的运动而识别的第一语音的加权值配置为高于基于通过麦克风获取的语音信号而识别的第二语音的加权值;以及识别组合语音。

该方法还可以包括以下操作:即使当智能代理服务启用时,也可以无缝地提供关于至少一个应用的至少一条信息。

尽管已经用各种实施例描述了本公开,但是可以向本领域技术人员建议各种改变和修改。本公开旨在涵盖落入所附权利要求的范围内的这种改变和修改。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1