经由自动化助理命令的有条件相机控制的制作方法

文档序号：33305292发布日期：2023-02-28 23:44阅读：34来源：国知局

经由自动化助理命令的有条件相机控制

背景技术：

1.人类可以利用交互式软件应用参与人与计算机的对话，交互式软件应用在本文中称为“自动化助理”(也称为“数字代理”、“聊天机器人”、“交互式个人助理”、“智能个人助理”和“对话代理”等)。例如，人类(当他们与自动化助理交互时可以被称为“用户”)可以使用在一些情况下可以被转换成文本然后被处理的口头自然语言输入(即，话语)和/或通过提供文本的(例如，键入的)自然语言输入来提供命令和/或请求。
2.在一些情况下，用户可以请求自动化助理捕获图像，诸如屏幕快照、照片或其他类型的图像。然而，自动化助理捕获图像的时刻可能由用户专门控制，从而限制了用户在尝试捕获某些图像时的自主性。当用户希望捕获独特时刻的视频或图像时，用户可以为相机设置捕获图像或初始化视频记录的定时器，以便捕获可能包括该独特时刻的广泛时间范围。然而，这样的策略可能为了捕获独特时刻——可能实际上不需要很多数据来捕获——导致各种计算资源被消耗。例如，以视频捕获婴儿的微笑可能只需要几秒钟的视频数据——但用户可能记录不同长度的多个视频以便捕获此相对独特时刻。

技术实现要素：

3.本文阐述的一些实施方式涉及自动化助理，该自动化助理允许用户通过口头话语指定应当被满足以便自动化助理控制相机捕获图像数据的一个或多个条件。条件可以是但不限于环境的特征，该特征可以在一个时刻和/或一个时间段内通过处理对应传感器数据而被可视地和/或可听地观察到。以这些和其他方式，可以使用单个口头话语来控制装置的相机以捕获独特时刻，避免用户直接操纵装置的需要。附加地，这可以避免用户在确定何时明确指引相机捕获图像数据时监视相机的电子取景器的需要，和/或避免用户在装置的接口处提供触摸输入以使得图像数据被捕获的需要。因此，实施方式提供了在控制相机时简化的用户输入，这样的单个口头话语用于响应于环境条件被满足而控制相机。这样的实施方式对于具有有限灵活性的用户特别有益。
4.此外，实施方式可以保留包括相机并用于捕获图像数据的客户端装置的计算机存储器、磁盘空间和/或电池寿命。例如，实施方式可以防止对当用户正在尝试利用相机捕获特定独特时刻时生成并存储的错误图像数据的捕获。因此，错误图像数据将不占用存储器和/或磁盘空间，并且在处理这样的图像数据时电池寿命将不被无必要地消耗。作为另一示例，一些实施方式可以抑制响应于某些或所有口头话语而呈现电子取景器，所述口头话语用于响应于条件被满足来控制相机，从而保存否则将被这样的呈现消耗的电池资源。
5.作为示例并且根据一些实施方式，用户可以通过提供诸如“assistant,take a video of my dog fetching this toy.(助理，拍一段我的狗接这个玩具的视频)”的口头话语来请求自动化助理捕获宠物表演特技的视频。例如，可以在包括相机的便携式计算装置处接收口头话语，用户正将该相机定向到宠物的方向上。便携式计算装置可以提供对自动化助理的访问，响应于口头话语，自动化助理可以处理口头话语的自然语言内容以便识别在口头话语中体现的请求。例如，当各种条件被满足时，自动化助理可以确定用户正在请
求自动化助理控制相机以捕获某些图像数据。然后，自动化助理可以基于口头话语来识别当在相机捕获的图像数据中观察到狗和玩具时满足的第一条件。自动化助理还可以识别当确定狗可能开始取回玩具和/或正在取回玩具的过程中时满足的第二条件。
6.在一些实施方式中，自动化助理可以识别一个或多个经过训练的机器学习模型，所述模型可以在处理数据以确定条件是否被满足时被使用。例如，可以由自动化助理响应于请求来选择识别动物时可以使用的特定的经过训练的机器学习模型，以便辅助处理使用相机生成的图像数据。替代地或附加地，可以选择另一经过训练的机器学习模型来辅助确定图像数据是否指示已经执行了特定动作(例如，狗接玩具)。替代地或附加地，自动化助理可以依赖于可以用于处理其他数据的一个或多个经过训练的机器学习模型，所述其他数据可以包括音频数据、图像数据、应用数据和/或可以用于确定条件是否已经被满足的任何其他合适的数据。
7.在一些实施方式中，一个或多个经过训练的机器学习模型可以本地存储在客户端装置上，以便减少发生的某些条件与被辨识的那些某些条件之间的延迟。此外，这可以减少将被卸载到分开的装置以进行进一步处理的数据量，从而减少网络流量。在一些实施方式中，当特定的经过训练的机器学习模型没有被本地存储在客户端装置处时，可以从远程服务器或其他装置下载该特定的经过训练的机器学习模型。自动化助理可以可选地提供指示，尽管来自用户的请求可以由自动化助理处理，但是由于网络活动(例如，下载特定的经过训练的机器学习模型)，将存在延迟。
8.当自动化助理已经接收到来自用户的请求时，自动化助理可以开始确定第一条件和第二条件是否已经被满足。在一些实施方式中，这可以涉及处理来自相机的图像数据和/或来自与计算装置集成的麦克风的音频数据。例如，包括狗和玩具的图像可以满足第一条件，并且示出用户将玩具扔离狗的一部分视频数据可以满足第二条件。在一些实施方式中，用于确定某些条件是否被满足的数据可以被临时存储在存储器(例如，ram)中，但是当条件被满足时捕获的媒体数据可以根据来自用户的请求而被存储。以该方式，用户不需要在条件被满足之前和之后离开相机应用以手动删除大量图像数据。相反，用户可以依赖于自动化助理来确定将作为用户请求自动化助理生成的文件存储(例如，在硬盘驱动器空间中)的媒体数据。
9.当自动化助理确定条件被满足时，自动化助理可以使相机从条件被满足时开始记录媒体数据。在一些实施方式中，当来自用户的请求与捕获单个图像的请求相对应时，自动化助理可以在一个或多个条件被满足时使相机捕获一个或多个图像。替代地或附加地，当来自用户的请求与捕获视频的请求相对应时，自动化助理可以使相机从所述一个或多个条件被满足时开始并且在所述一个或多个条件不再被满足时结束来捕获视频。举例而言，在前述示例中，自动化助理可以确定狗已经完成了接玩具，并且因此第二条件不再被满足。基于此确定，自动化助理可以使相机不再记录视频，并且存储捕获的视频。
10.在一些实施方式中，用户可以通过继续和他们的狗玩“接玩具”游戏来使自动化助理初始化记录另一视频，而不必向自动化助理提供另一口头话语或其他明确的请求。例如，在自动化助理使相机捕获狗接玩具的第一视频之后，自动化助理可以继续确定第一条件和第二条件是否被满足。当自动化助理确定用户已经指引他们的狗再次接玩具时，自动化助理可以确定第一条件和第二条件再次被满足，并且然后使相机捕获第二视频。以此方式，用
户可以依赖于自动化助理经由相机捕获独特时刻，而不必要求用户直接操纵其便携式计算装置。此外，这可以减少当用户允许其相机记录长视频时否则可能消耗的计算资源的浪费，这意味着捕获比所记录的视频的整个持续时间短得多的时刻。
11.在一些实施方式中，用户可以指引自动化助理在自动化助理已经使相机捕获图像数据之前、期间和/或之后修改一个或多个相机设置和/或图像属性。例如，用户可以正在将相机指向一组人，并且当用户已经加入这组人以便捕获自拍照时，用户可以在控制相机的计算装置处查看相机预览(例如，通过呈现的电子取景器查看相机预览)。相机预览可以示出用户与这组人站在一起，并且用户可以确定他们不喜欢从用户脸上反射的强光的量。基于此确定，用户可以提供口头话语，诸如“assistant,reduce the amount of glare that is reflecting from my face.(助理，减少从我脸上反射的强光量)”。响应于此口头话语，自动化助理可以调整相机设置和/或图像属性，以便减少相机预览中的眩光量。然后，用户可以认可相机预览正提供合适的图像并且提供诸如“assistant,that’s great.please take a picture when everyone’s eyes are open.(助理，太好了。请在每个人的眼睛都睁开时拍照)”的口头话语。作为响应，自动化助理可以使相机和/或图像设置保持不变(例如，为了减少强光)，并且然后当自动化助理确定图像中的所有人都睁开眼睛时使相机捕获图像。替代地，用户可以通过提供诸如“assistant,make the background lighter(助理，把背景调亮)”的另一口头话语来对相机设置和/或图像设置进行进一步调整，以便使自动化助理调整相机或其他图像应用的设置，以便修改要经由自动化助理捕获的图像。
12.在一些实施方式中，用户可以选取手动捕获图像(例如，通过选择用于快照照片的gui元素)，但可以向自动化助理提供对进行某些调整的请求。例如，用户可以提供诸如“assistant,make the image black and white.(助理，使图像变为黑白)”的口头话语。作为响应，自动化助理可以使相机取景器呈现用户正将其相机指向的环境的黑白预览。当用户对预览满意时，用户可以点击gui元素来捕获图像。以此方式，用户不必在相机应用接口之间来回循环以便调整相机的某些设置。相反，用户可以依赖于与自动化助理的语音交互来在特定环境中指引相机的同时进行某些图像和/或相机调整。
13.在一些实施方式中，用户可以提供采用自动化助理进行调整的命令，并且还在停止进行进一步调整之前确定调整是否合适。例如，用户可以提供诸如“assistant,fix the red eye in the image(助理，修复图像中的红眼)”的命令，并且作为响应，自动化助理可以识别包括“red eye(红眼)”的图像预览的某些部分(例如，经由边界框)并进行颜色调整以便消除红眼。当确定消除了红眼时，用户和/或自动化助理可以使得图像被捕获。
14.提供以上描述是作为本公开的一些实施方式的概述。下文将更详细地描述这些实施方式和其他实施方式的进一步描述。
15.其他实施方式可以包括存储指令的非暂时性计算机可读存储介质，指令可由一个或多个处理器(例如，中央处理单元(cpu)、图形处理单元(gpu)和/或张量处理单元(tpu))实行以执行方法，诸如上文和/或本文其他地方描述的一个和多个方法。其他实施方式可以包括一个或多个计算机的系统，系统包括一个或多个处理器，所述处理器可操作以实行所存储的指令从而执行方法，诸如上文和/或本文其他地方描述的一个和多个方法。
16.应理解，本文更详细地描述的前述概念和附加概念的所有组合被视为本文所公开的主题的一部分。例如，在本公开结尾处出现的所要求保护的主题的所有组合被视为本文
公开的主题的一部分。
附图说明
17.图1a和图1b示出用户调用自动化助理以在一个或多个条件被满足时捕获图像数据的视图。
18.图2示出系统，该系统提供可以根据经由输入请求指定的一个或多个条件来控制相机的自动化助理。
19.图3a和图3b示出用于调用自动化助理以在一个或多个条件被满足时有条件地控制相机以捕获图像数据的方法。
20.图4是示例计算机系统的框图。
具体实施方式
21.图1a和图1b分别示出用户102调用自动化助理以在一个或多个条件被满足时捕获图像数据的视图100和视图120。用户102可以向自动化助理提供有条件地捕获图像的请求，以便用户102不专门负责直接接触相机的触摸接口以捕获独特时刻。例如，用户102可以提供口头话语118，诸如“assistant,take a video when the bird is singing.(助理，在鸟正在唱歌时拍摄视频。)”口头话语可以在计算装置104和/或另一计算装置106处接收，每个计算装置可以分别提供对相机的访问。例如，计算装置104可以包括相机，相机可以被手动指向和/或机电指向感兴趣的位置，以便捕获特定的图像和/或视频。另一计算装置106可以是助理装置，通常以静态布置设置，但包括相机以捕获另一计算装置106的查看窗口内的任何事物的图像和/或视频。在一些实施方式中，用户102可访问的每个助理装置可以协作以识别一个或多个特定助理装置，每个特定助理装置包括以最适合于确定一个或多个条件是否被满足的方式布置的相应相机。此确定可以基于例如每个特定助理装置提供最清楚地捕获条件的主题的图像数据的条件和能力的主题(例如，最高质量的图像、最高分辨率、最低延迟、最小干扰量等)。
22.响应于接收到口头话语118，计算装置104或计算装置106可以处理表征口头话语118的音频数据。可以处理音频数据，以便确定口头话语118包括自动化助理根据一个或多个条件捕获媒体数据的请求。在一些实施方式中，可以在计算装置104、计算装置106和/或计算装置110处处理音频数据，以便生成用户请求数据112。用户请求数据112可以表征用于实现来自用户102的请求的一个或多个意图和/或时隙值。可以进一步处理用户请求数据112以便生成条件数据114，条件数据114可以表征在自动化助理实行用户请求数据112中识别的意图之前应当被满足的一个或多个条件。例如，条件数据可以表征用于检测鸟的存在的第一条件和用于检测鸟唱歌的第二条件。
23.在一些实例中，当可以利用音频数据满足第一条件并且可以使用图像数据满足第二条件时，自动化助理可以减少被处理的图像数据的量，直到第一条件被满足。例如，可以限制和/或停止来自相机的图像馈送的图像数据的处理，直到自动化助理确定来自麦克风的音频馈送的音频数据满足特定条件。以此方式，自动化助理可以优化计算资源的使用，同时仍然响应来自用户102的有条件请求。
24.在一些实施方式中，可以处理与用户102指定的条件相关联的数据以便生成模型
数据116，模型数据116可以识别一个或多个经过训练的机器学习模型。当处理数据以确定一个或多个条件是否被满足时，计算装置110或另一计算装置可以使用经过训练的机器学习模型。例如，经过训练的机器学习模型可以包括可以在确定相机的查看窗口中存在鸟时使用的第一经过训练的机器学习模型。替代地或附加地，经过训练的机器学习模型可以包括在确定检测到与鸟唱歌相对应的音频时可以使用的第二经过训练的机器学习模型。
25.在一些实施方式中，当自动化助理确定口头话语与基于一个或多个条件控制相机的请求相对应时，自动化助理可以绕过激活计算装置104的相机的取景器gui。换句话说，即使用户102已经请求执行相机操作，自动化助理也可以使取景器gui元素被激活或以其他方式不被呈现，以便保留电池和处理带宽。可以以此方式绕过取景器，因为当自动化助理正在针对这样的请求控制相机时，用户102不必预览任何图像。
26.在一些实施方式中，可以处理条件数据114，以便确定是否偏置由自动化助理所采用的语音处理。替代地或附加地，当使用一个或多个所选择的经过训练的机器学习模型来处理数据时，可以根据数据处理的一个或多个结果来偏置语音处理。例如，当自动化助理接收到口头话语118并且自动化助理初始化计算装置104的相机以便确定一个或多个条件是否被满足时，相机的查看窗口中的对象可以是进一步偏置针对自动化助理处理的语音的基础。举例而言，响应于口头话语118，自动化助理可能将“girl(女孩)”排得比词“bird(鸟)”更高，从而使自动化助理得出结论，这些条件与存在女孩唱歌相关。然而，当使用所选择的经过训练的机器学习模型处理来自相机的图像数据时，自动化助理可以确定在相机的查看窗口中存在鸟舍108。基于此确定，自动化助理可以更改一个或多个候选词项的相应分数，以便将词项“bird”优先于词项“girl”。结果，条件数据114可以被修改以便指示条件与“bird”唱歌而不是“girl”唱歌相关联。
27.在一些实施方式中，图像数据和/或语音数据可以被处理以便对图像数据、语音数据和/或其他请求相关数据的进一步处理执行双向偏置。举例而言，语音数据的处理可以产生关于用户希望自动化助理完成的一个或多个请求的假设和/或产生用户希望自动化助理完成的一个或多个请求的主题。附加地，图像数据的处理可以产生正在被识别的某些对象分类。然后可以执行进一步操作，以便根据对象分类来偏置语音数据的任何后续处理，并且还根据所述一个或多个请求的假设或主题来偏置图像数据的任何进一步处理。
28.在一些实施方式中，可以根据处理用户102向自动化助理提供的音频数据的一个或多个结果来偏置图像处理。例如，相机的查看窗口中的各种对象可以由计算装置130生成的图像数据来表征。图像数据可以经过处理以便识别围绕若干对象的边界框。在接近捕获图像数据的时间捕获的音频数据可用于偏置特定对象的标识符。例如，自动化助理可以最初优先化词项“house(房子)”，以分配给图像数据中围绕鸟舍108的边界框。词项“house”可以最初优先于其他候选词项，诸如“wood(木材)”、“box(盒子)”、“opening(开口)”和“birdhouse(鸟舍)”。然而，由于用户102在口头话语118中识别了词项“bird”可以偏置候选词项的优先级，使得“birdhouse”优先于所有其他候选词项。以此方式，当确定对于来自用户102的特定有条件请求某些条件是否被满足时，可以更准确地处理图像数据。
29.在一些实施方式中，自动化助理可以使计算装置110、计算装置104和/或计算装置106处理媒体数据122，以便确定与请求相关联的一个或多个条件是否被满足。在一些实施方式中，处理数据以确定一个或多个条件是否被满足的计算装置可以与包括用于响应于来
自用户102的请求而捕获图像的相机的另一计算装置不同。例如，媒体数据122可以表征经由一个或多个计算装置的一个或多个接口生成的数据。在一些实施方式中，媒体数据122可以表征计算装置104的图形用户接口(gui)130的内容。替代地或附加地，媒体数据122可以表征在计算装置104的麦克风处接收的音频和/或在计算装置104的相机处接收的光。在一些实施方式中，当计算装置110或计算装置104确定一个或多个条件已经被满足时，可以生成条件验证数据124。条件验证数据124可以向自动化助理指示请求的一个或多个条件已经被满足，并且基于此数据，自动化助理可以生成相机控制指令126。
30.在一些实施方式中，可以通过以否则将被用于使用相机捕获图像或视频的较低采样率对相机馈送进行采样来产生媒体数据122。替代地或附加地，可以通过调整经由相机馈送捕获的图像的分辨率以便捕获否则将被用于使用相机捕获图像或视频的较低分辨率的图像来产生媒体数据122。以该方式，当验证有条件请求的一个或多个条件已经被满足时，可以保留计算资源。在一些实施方式中，可以基于用户102识别的一个或多个条件来动态地选择用于确定一个或多个条件是否被满足的数据的采样率和/或分辨率。例如，当条件与主动运动(例如，狗跳跃)相关联时，可以选择第一采样率和/或第一分辨率，并且当条件与更静态的特征(例如，婴儿正在微笑)相关联时，可以选择低于第一采样率和/或第一分辨率的第二采样率和/或第二分辨率。
31.根据图1b，媒体数据122可以表征鸟128的图像，该图像可以使用一个或多个经过训练的机器学习模型来处理，以便验证图像包括诸如鸟128的特征。替代地或附加地，媒体数据122可以表征包括鸟128的音频，并且该音频可以使用一个或多个其他经过训练的机器学习模型来处理，以便验证音频包括诸如鸟128唱歌的特征。在一些实施方式中，当媒体数据122指示请求的条件已经被满足时，自动化助理可以初始化诸如捕获一个或多个图像和/或一个或多个视频的操作的执行。例如，自动化助理可以向计算装置104的相机提供相机控制指令126，以便在第一条件和第二条件被满足时创建媒体数据。
32.在一些实施方式中，相机控制指令126可以包括用于控制一个或多个相机的一个或多个参数。例如，相机控制指令126可以包括使相机聚焦在相机的包括鸟128的查看窗口的一部分上的数据。替代地或附加地，相机控制指令126可以包括使相机捕获鸟128的图像和/或视频的数据，直到鸟128不再在相机的查看窗口中和/或直到鸟128不再发出可听声音和/或不再唱歌。替代地或附加地，相机控制指令126可以包括使相机放大与对应于来自用户的请求的一个或多个条件相关联的环境特征的数据。
33.在一些实施方式中，用户102可以指定自动化助理应当根据一个或多个应用特征加条件于相机操作。例如，用户102可以提供口头话语，诸如“assistant,take a video when the bird shown on this website is present and singing.(助理，当这个网站上的鸟出现并唱歌时拍摄视频。)”以此方式，自动化助理可以根据识别与在计算装置104的gui 130或计算装置106的gui处呈现的鸟的类型相同的鸟加条件于相机操作。以此方式，条件数据114可以表征可经由计算装置104访问的应用的一个或多个特征。例如，gui 130可以呈现包括北美红雀的图形的网站，并且自动化助理可以在北美红雀出现在计算装置104的查看窗口中时考虑第一条件被满足。当第二条件(例如，北美红雀正在唱歌)被满足时，自动化助理可以根据来自用户102的口头话语来初始化相机操作的执行。替代地或附加地，相机操作可以以可经由计算装置104访问的应用的状态为条件。因此，当特定应用展示特定状态
(例如，完成特定操作)时，自动化助理可以使得指定的相机操作被执行。
34.在一些实施方式中，由相机捕获的图像数据的实例可以包括在时间上的一个或多个实例捕获的和/或使用一个或多个不同相机捕获的一个或多个图像。替代地或附加地，当相机的一个或多个传感器是活动的，并且连接到相机的计算装置正在根据图像数据生成一个或多个图像时，相机可以捕获图像数据。替代地或附加地，当图像数据被存储在计算装置的存储器中，诸如被存储在rom和/或硬盘驱动器空间中时，图像数据捕获。替代地或附加地，当应用从使用相机生成的图像馈送中选择图像时，图像可以认为是由相机捕获的。
35.在一些实施方式中，一个或多个图像可以用于确定一个或多个条件是否被满足，和/或可以用于存储作为用户已经请求的特定图像数据。例如，当用户102提供口头话语118时，自动化助理可以使相机以每秒50帧(fps)捕获图像数据，直到指定条件被满足。当来自所捕获的图像数据的特定图像被确定为满足指定条件时，自动化助理可以使得该特定图像被存储并且其他所捕获的图像数据被删除。在一些实施方式中，当请求与捕获视频对应时，可以以第一帧速率捕获图像数据，直到某些条件被满足。当某些条件被满足时，自动化助理可以使得以大于第一帧速率的第二帧速率捕获视频。替代地或附加地，自动化助理可以使得以第一帧捕获的视频数据被删除，以便保留计算装置104处的存储器。
36.图2示出系统200，系统200提供可以根据经由输入请求指定的一个或多个条件来控制相机的自动化助理。自动化助理204可以作为在诸如计算装置202和/或服务器装置的一个或多个计算装置处提供的助理应用的一部分来操作。用户可以经由助理接口220与自动化助理204交互，助理接口220可以是麦克风、相机、触摸屏显示器、用户接口和/或能够在用户与应用之间提供接口的任何其他设备。举例而言，用户可以通过向助理接口220提供口头、文本和/或图形输入来初始化自动化助理204，以使自动化助理204初始化一个或多个动作(例如，提供数据、控制外围装置、访问代理、生成输入和/或输出等)。替代地，可以基于使用一个或多个经过训练的机器学习模型对场境数据236的处理来初始化自动化助理204。场境数据236可以表征其中可访问自动化助理204的环境的一个或多个特征和/或环境中的对象，和/或被预测为正在意图与自动化助理204交互的用户的一个或多个特征。计算装置202可以包括显示装置，显示装置可以是包括用于接收触摸输入和/或手势的触摸接口以允许用户经由触摸接口控制计算装置202的应用234的显示面板。在一些实施方式中，计算装置202可以缺少显示装置，从而提供可听用户接口输出，而不提供图形用户接口输出。此外，计算装置202可以提供诸如麦克风的用户接口，用于从用户接收口头自然语言输入。在一些实施方式中，计算装置202可以包括触摸接口，并且可以没有相机，但是可以可选地包括一个或多个其他传感器。
37.计算装置202和/或其他第三方客户端装置可以通过诸如互联网的网络与服务器装置通信。附加地，计算装置202和任何其他计算装置可以通过诸如wi-fi网络的局域网(lan)彼此通信。计算装置202可以将计算任务卸载到服务器装置以便节省计算装置202处的计算资源。举例而言，服务器装置可以托管自动化助理204，和/或计算装置202可以将在一个或多个助理接口220处接收的输入传输到服务器装置。然而，在一些实施方式中，自动化助理204可以被托管在计算装置202处，并且可以在计算装置202处执行可以与自动化助理操作相关联的各种过程。
38.在各种实施方式中，自动化助理204的所有或少于所有方面可以在计算装置202上
实施。在那些实施方式中的一些中，自动化助理204的方面经由计算装置202实施，并且可以与可以实施自动化助理204的其他方面的服务器装置接口连接。服务器装置可以可选地经由多个线程服务于多个用户及其相关联的助理应用。在经由计算装置202实施自动化助理204的所有或少于所有方面的实施方式中，自动化助理204可以是与计算装置202的操作系统分开的应用(例如，安装在操作系统的“之上(on top)”)——或可以替代地由计算装置202的操作系统直接实施(例如，被认为是操作系统的应用但与操作系统集成)。
39.在一些实施方式中，自动化助理204可以包括输入处理引擎206，输入处理引擎206可以采用多个不同的模块来处理计算装置202和/或服务器装置的输入和/或输出。举例而言，输入处理引擎206可以包括语音处理引擎208，语音处理引擎208可以处理在助理接口220处接收的音频数据以识别在音频数据中体现的文本。音频数据可以从例如计算装置202传输到服务器装置以便保留计算装置202处的计算资源。附加或替代地，音频数据可以在计算装置202处被专门地处理。在一些实施方式中，考虑到对应的图像对应物，音频数据处理可以发生，使得图像数据中识别的特征可以被使用来促进音频数据处理的准确性。可以在服务装置和/或计算装置202处执行图像的特征提取。
40.将音频数据转换为文本的过程可以包括语音辨识算法，语音辨识算法可以采用神经网络和/或统计模型来识别与词或短语相对应的音频数据组。从音频数据转换的文本可以由数据解析引擎210解析，并且作为可以用于生成和/或识别命令短语、意图、动作、时隙值和/或用户指定的任何其他内容的文本数据而被使得对于自动化助理204可用。在一些实施方式中，由数据解析引擎210提供的输出数据可以被提供给参数引擎212，以确定用户是否提供了与能够由自动化助理204和/或能够经由自动化助理204访问的应用或代理执行的特定意图、动作和/或例程相对应的输入。例如，助理数据238可以被存储在服务器装置和/或计算装置202处，并且可以包括定义能够由自动化助理204执行的一个或多个动作的数据，以及执行动作所必需的参数。参数引擎212可以为意图、动作和/或时隙值生成一个或多个参数，并将所述一个或多个参数提供给输出生成引擎214。输出生成引擎214可以使用所述一个或多个参数与助理接口220通信以向用户提供输出，和/或与一个或多个应用234通信以向一个或多个应用234提供输出。
41.在一些实施方式中，自动化助理204可以是可以安装在计算装置202的操作系统“之上”和/或可以自身形成计算装置202的操作系统的一部分(或其整体)的应用。自动化助理应用包括和/或具有对装置上语音辨识、装置上自然语言理解和装置上履行的访问。例如，装置上语音辨识可以使用装置上语音辨识模块来执行，装置上语音辨识模块使用被本地存储在计算装置202处的端到端语音辨识机器学习模型来处理(由麦克风检测的)音频数据。装置上语音辨识生成音频数据中存在的口头话语(如果有)的辨识的文本。此外，例如，装置上自然语言理解(nlu)可以使用装置上nlu模块来执行，该装置上nlu模块处理使用装置上语音辨识生成的所辨识的文本以及可选地使用场境数据来生成nlu数据。
42.nlu数据可以包括与口头话语相对应的意图和可选地包括意图的参数(例如，槽值)。装置上履行可以使用装置上履行模块来执行，该装置上履行模块利用(来自装置上nlu的)nlu数据和可选地利用其他本地数据来确定解析口头话语的意图(以及可选地解析意图的参数)要采取的动作。这可以包括确定对口头话语的本地和/或远程响应(例如，回答)、基于口头话语执行的与本地安装的应用的交互、基于口头话语(直接或经由对应远程系统)向
物联网(iot)装置传输的命令，和/或基于口头话语执行的其他解析动作。装置上履行可以然后发起所确定的动作的本地和/或远程执行/实行，以解析口头话语。
43.在各种实施方式中，可以至少选择性地利用远程语音处理、远程nlu和/或远程履行。例如，所辨识的文本可以至少选择性地被传输到远程自动化助理组件，用于远程nlu和/或远程履行。举例而言，可以与装置上执行并行地或者响应于装置上nlu和/或装置上履行的失败而可选地传输所辨识的文本用于远程执行。然而，装置上语音处理、装置上nlu、装置上履行和/或装置上实行可以至少由于它们在解析口头话语时提供的延迟减少(由于不需要客户端-服务器往返来解析口头话语)而被优先化。此外，装置上功能性可以是在没有网络连接或具有有限的网络连接的情况下可用的仅有功能。
44.在一些实施方式中，计算装置202可以包括一个或多个应用234，所述应用234可以由与提供计算装置202和/或自动化助理204的实体不同的第三方实体提供。自动化助理204和/或计算装置202的应用状态引擎可以访问应用数据230，以确定能够由一个或多个应用234执行的一个或多个动作，以及所述一个或多个应用234中的每个应用的状态和/或与计算装置202相关联的相应装置的状态。自动化助理204和/或计算装置202的装置状态引擎可以访问装置数据232，以确定能够由计算装置202和/或与计算装置202相关联的一个或多个装置执行的一个或多个动作。此外，应用数据230和/或任何其他数据(例如，装置数据232)可以由自动化助理204访问以生成场境数据236，所述场境数据236可以表征其中特定应用234和/或装置正在实行的场境，和/或特定用户正在访问计算装置202、访问应用234和/或任何其他装置或模块的场境。
45.当一个或多个应用234正在计算装置202处实行时，装置数据232可以表征正在计算装置202处实行的每个应用234的当前操作状态。此外，应用数据230可以表征实行的应用234的一个或多个特征，诸如在一个或多个应用234的指引下呈现的一个或多个图形用户接口的内容。替代地或附加地，应用数据230可以表征动作模式，该动作模式可以由相应应用和/或由自动化助理204基于相应应用的当前操作状态来更新。替代地或附加地，一个或多个应用234的一个或多个动作模式可以保持静态，但可以由应用状态引擎访问，以便确定要经由自动化助理204初始化的适当动作。
46.计算装置202可以进一步包括助理调用引擎222，所述助理调用引擎222可以使用一个或多个经过训练的机器学习模型来处理应用数据230、装置数据232、场境数据236和/或计算装置202可访问的任何其他数据。助理调用引擎222可以处理此数据，以便确定是否等待用户明确说出调用短语来调用自动化助理204，或者认为该数据指示用户调用自动化助理的意图——而不是要求用户明确说出调用短语。例如，可以使用基于用户处于多个装置和/或应用展示各种操作状态的环境中的场景的训练数据的实例来训练所述一个或多个经过训练的机器学习模型。可以生成训练数据的实例以便捕获训练数据，所述训练数据表征其中用户调用自动化助理的场境和其中用户不调用自动化助理的其他场境。
47.当根据训练数据的这些实例来训练所述一个或多个经过训练的机器学习模型时，助理调用引擎222可以使自动化助理204基于场境和/或环境的特征或属性和/或场境和/或环境中的对象来检测或限制检测来自用户的口头调用短语。附加地或替代地，助理调用引擎222可以使自动化助理204基于场境和/或环境的特征来检测或限制检测来自用户的一个或多个助理命令。在一些实施方式中，可以基于计算装置202检测到来自另一计算装置的助
理抑制输出来禁用或限制助理调用引擎222。以此方式，当计算装置202正在检测助理抑制输出时，将不基于场境数据236调用自动化助理204——否则如果没有正在检测助理抑制输出，则场境数据236将使自动化助理204被调用。
48.在一些实施方式中，系统200可以包括条件引擎218，所述条件引擎218可以用于识别所请求的操作可以视其而定的一个或多个条件。用户可以对操作视一个或多个条件而定进行请求，以便用户不必专门依赖于自身来确定何时所述一个或多个条件被满足。这样的视情况而定的请求可用于控制一个或多个应用、装置和/或能够由计算机控制的任何其他设备或模块。例如，条件引擎218可用于识别用于控制与计算装置202通信的相机的一个或多个条件。
49.在一些实施方式中，当条件与环境的特定特征相对应时，条件引擎218可以指定检测到的特征应满足以便对应条件被满足的阈值置信分数。例如，系统200可以包括特征分数引擎224，所述特征分数引擎224可用于处理用于将分数分配给已经被识别的每个相应特征的数据。举例而言，当特定操作的条件视被识别的特定对象(例如，一个类型的熊)而定时，特征分数引擎224可以处理数据以识别数据中作为特定对象存在的证据的特征。在一些实施方式中，为了将分数(例如，置信分数)分配给特定特征，系统200可以包括模型识别引擎226，所述模型识别引擎226可以用于识别在处理图像数据时可以使用的特定的经过训练的机器学习模型。例如，当条件是一个类型的熊的存在时，模型识别引擎226可以识别在处理图像以确定特定图像是否包括特定类型的熊时可以使用的经过训练的机器学习模型。当处理图像时，可以由特征分数引擎224为一个或多个图像中可能存在的特定特征生成分数。当分数满足条件的阈值分数时，自动化助理204可以确定条件被满足，并相应地继续履行对应请求。
50.在一些实施方式中，系统200可以包括请求偏置引擎228，请求偏置引擎228处理与来自用户的请求相关的数据，以便确定是否根据场境数据236、装置数据232和/或应用数据230来偏置请求的某些处理。例如，用户可以为自动化助理提供控制相机的有条件请求，并且基于此有条件请求，请求偏置引擎228可以根据在相机的查看窗口中识别的特征来偏置对请求的有条件处理的处理。举例而言，当有条件请求在诸如“assistant,take a video when the dog is lying down(助理，当狗正在躺下时拍摄视频)”的口头话语中体现时，最初可能被解释为“assistant,take a video when the
‘
dock’is lying down(助理，在
‘
码头’正在躺下时拍摄视频)”。然而，可能存在狗位于相机的可视范围中，因此，请求偏置引擎228可以偏置对口头话语的语音处理，以便使词项“dog(狗)”优先于或以其他方式排在词项“dock(码头)”之前。结果，自动化助理204可以操作以使得视频在相机的查看窗口中“dog”正在躺下时被捕获，而不是试图确定是否存在“dock”。
51.在一些实施方式中，可以高速缓存数据，以便可以考虑到可能变得可用的附加数据而随后再次处理数据并且提供一定量的校正场境。例如，可以将与口头话语相对应的一定量的音频数据存储在高速缓存中，直到用户提供附加音频数据以校正对初始音频数据的错误解读。举例而言，当辨识到错误解读时，用户可以提供另一口头话语，诸如“no,the
‘
dog’not the dock(不，是
‘
狗’不是码头)”。然后，初始音频数据可以从高速缓存中被检索，并且考虑到其他口头话语以一定量的偏置来被重新处理。替代地，当用户提供口头话语时，狗最初可能不在相机的查看窗口中。然而，当在初始图像数据中捕获到狗并将其分类为
狗时，可以利用一定量的偏置(例如，基于分类)重新处理来自高速缓存的初始音频数据，以便将关于词项“dock”的音频数据的初始解读修改为词项“dog”。
52.当与请求相关联的一个或多个条件被满足时，相机控制引擎240可以为相机生成一个或多个指令。所述一个或多个指令可以是基于来自一个或多个用户的请求以捕获一个或多个图像、视频和/或其他媒体数据。在一些实施方式中，所述一个或多个指令可以包括其他参数，诸如用于捕获的时间段、捕获时间、焦点、平移指令、缩放指令和/或可以被指定用于控制相机的任何其他参数。例如，当用户请求自动化助理204捕获特定对象的视频时，相机控制引擎240可以生成相机开始录制特定对象以及使照片应用基于特定对象裁剪视频的指令。以此方式，响应于命令而生成的视频将看起来主要聚焦于特定对象——而不必需用户手动地和直接地与计算装置的触摸接口交互以开始捕获视频、停止捕获视频和/或编辑视频。
53.图3a和图3b示出用于调用自动化助理以在一个或多个条件被满足时有条件地控制相机以捕获图像数据的方法300和方法320。方法300可以由一个或多个计算装置、应用和/或可以与自动化助理相关联的任何其他设备或模块来执行。方法300可以包括确定用户是否已经提供了用于控制相机的有条件助理请求的操作302。有条件助理请求可以体现为在提供对自动化助理的访问的计算装置处接收的口头话语或另一输入。口头话语可以例如是“assistant,when you see my kids dancing tomorrow at the house,take a picture(助理，当你看到我的孩子明天在房子处跳舞时，拍张照片)”，自动化助理可以在任何受影响的人先前允许的情况下进行响应。当用户正在他们房子处举行聚会并且可能不方便手动拍照来捕获某些时刻时，他们可以提供该口头话语。当自动化助理接收到有条件助理请求时，方法300可以进行到操作304。否则，自动化助理可以继续确定用户是否已经提供了用于控制相机的有条件助理请求。
54.操作304可以包括识别应被满足以便自动化助理根据请求控制相机的一个或多个条件。可以通过处理表征所述一个或多个条件的音频数据来识别所述一个或多个条件。例如，自动化助理可以识别当在任何受影响的人先前允许的情况下在自动化助理可访问的相机的查看窗口中识别出用户的孩子时可以被满足的第一条件。此外，自动化助理可以识别当孩子在第二天期间正在跳舞时可以被满足的第二条件。
55.方法300可以从操作304进行到可选操作306，所述可选操作306可以包括根据在相机的查看窗口中捕获的一个或多个特征和/或对象来偏置对所述一个或多个条件的识别。例如，用户可以具有名为“niece”的联系人，并且当自动化系统正在识别第一条件时，词“niece”可以被初始评分或以其他方式优先于词“kids(孩子)”。然而，自动化助理可以处理场境数据，诸如相机的查看窗口内的特征，以确定当用户提供口头话语时，用户的“kids”与用户在一起。在一些实施方式中，此确定可以基于使用一个或多个面部辨识模型处理图像数据。基于此确定，自动化助理可以修改词“kids”的分数或优先级，使得“kids”代替名字“niece”成为第一条件的一部分。
56.方法300可以从操作306或操作304进行到操作308，所述操作308可以包括处理数据以确定所述一个或多个条件是否被满足。数据可以包括但不限于使用自动化助理可访问的一个或多个接口生成的数据。例如，可以处理来自计算装置的麦克风的音频数据，以便在获得在任何受影响的人先前允许的情况下，确定是否已经识别出与用户的孩子相对应的话
音签名。替代地或附加地，可以处理来自与计算装置通信的一个或多个相机的图像数据，以便确定用户的孩子是否出现在相机的查看窗口中和/或是否在相机的查看窗口内正在跳舞。在一些实施方式中，可以处理诸如时间、地理位置和/或与用户的场境相关联的任何其他信息的场境数据。例如，可以处理时间数据以确定当前天是否是来自用户的口头话语之后的一天。
57.方法300可以从操作308进行到操作310，操作310可以包括确定所述一个或多个条件是否被满足。当确定所述一个或多个条件尚未被满足时，方法300可以返回到操作308。替代地，当已经确定所述一个或多个条件被满足时，方法可以从操作310经由继续元素“a”进行到操作312，如图3b中的方法320所示。操作312可以包括使相机根据来自用户的请求捕获图像数据。例如，当请求特定于单个照片时，自动化助理可以在可能在图像中捕获的任何人先前允许的情况下使相机捕获一个或多个图像。替代地，当请求特定于视频时，自动化助理可以使相机捕获一个或多个视频。在捕获照片或视频之前，自动化助理可以呈现对要选择的一个或多个人(例如，用户的孩子)的提示，以便这些人确认自动化助理是否有权捕获那些人的照片或视频。在一些实施方式中，方法320可以经由图3b中的继续元素“b”进行到图3a中的继续元素“b”。替代地，方法320可以可选地从操作312进行到操作314。
58.操作314可以包括确定一个或多个条件是否不再被满足。例如，当上述示例的第一条件和第二条件不再被满足时，方法320可以进行到可选操作316。操作316可以包括使相机根据来自用户的请求停止捕获图像数据。然而，当保持第一条件和第二条件被满足时，方法320可以返回到操作312。以此方式，用户不必不断地寻找某些独特时刻，而是可以依赖于自动化助理来检测某些独特时刻。
59.图4是示例计算机系统410的框图400。计算机系统410通常包括经由总线子系统412与多个外围装置通信的至少一个处理器414。这些外围装置可以包括存储子系统424，存储子系统424包括例如存储器425和文件存储子系统426、用户接口输出装置420、用户接口输入装置422和网络接口子系统416。输入和输出装置允许用户与计算机系统410交互。网络接口子系统416提供到外部网络的接口，并且被耦合到其他计算机系统中的对应接口装置。
60.用户接口输入装置422可以包括键盘、诸如鼠标、轨迹球、触摸板或图形输入板的指点装置、扫描仪、并入显示器中的触摸屏、诸如语音辨识系统的音频输入装置、麦克风和/或其他类型的输入装置。通常，术语“输入装置”的使用旨在包括将信息输入到计算机系统410或通信网络上的所有可能类型的装置和方式。
61.用户接口输出装置420可以包括显示子系统、打印机、传真机或诸如音频输出装置的非可视显示器。显示子系统可以包括阴极射线管(crt)、诸如液晶显示器(lcd)的平板装置、投影装置或用于创建可见图像的一些其他机构。显示子系统还可以诸如经由音频输出装置提供非视觉显示。通常，术语“输出装置”的使用旨在包括将信息从计算机系统410输出到用户或另一机器或计算机系统的所有可能类型的装置和方式。
62.存储子系统424存储提供本文描述的一些或所有模块的功能性的编程和数据结构。例如，存储子系统424可以包括执行方法300的所选择的方面和/或实施系统200、计算装置104、计算装置110、计算装置106和/或本文讨论的任何其他应用、装置、设备和/或模块中的一个或多个的逻辑。
63.这些软件模块通常由处理器414独自执行或与其他处理器组合执行。存储子系统
424中使用的存储器425可以包括多个存储器，包括用于在程序执行期间存储指令和数据的主随机存取存储器(ram)430和存储了固定指令的只读存储器(rom)432。文件存储子系统426可以为程序和数据文件提供持久性存储，并且可以包括硬盘驱动器、软盘驱动器以及相关联的可移动媒体、cd-rom驱动器、光学驱动器或可移动媒体盒。实施某些实施方式的功能性的模块可以由文件存储子系统426存储在存储子系统424中，或者存储在处理器414可访问的其他机器中。
64.总线子系统412提供了用于使计算机系统410的各种组件和子系统按预期彼此通信的机制。尽管总线子系统412被示意性地示出为单个总线，但是总线子系统的替代实施方式可以使用多个总线。
65.计算机系统410可以具有各种类型，包括工作站、服务器、计算集群、刀片服务器、服务器场或任何其他数据处理系统或计算装置。由于计算机和网络的不断变化的性质，图4中描绘的计算机系统410的描述仅旨在作为用于示出一些实施方式的目的的特定示例。计算机系统410的许多其他配置可能具有比图4中所描绘的计算机系统更多或更少的组件。
66.在其中本文描述的系统收集关于用户(或如本文中经常涉及的“参与者”)的个人信息或可以使用个人信息的情况下，可以为用户提供机会来控制程序或特征是否收集用户信息(例如，关于用户的社交网络、社交动作或活动、职业、用户偏好或用户的当前地理位置的信息)，或者控制是否和/或如何从内容服务器接收可能与用户更相关的内容。此外，在存储或使用某些数据之前，可以以一个和多个方式对所述数据进行处理，从而移除个人可识别信息。例如，可以对用户的身份进行处理，使得没有个人可识别信息能够针对用户被确定，或者可以在获得地理位置信息的地方概括用户的地理位置(诸如城市、邮政编码或州级别)，使得不能确定用户的特定地理位置。因此，用户可以具有对信息如何关于用户被收集和/或使用的控制。
67.虽然已经在本文描述和示出了若干实施方式，但是可以使用用于执行本文描述的功能和/或获得本文描述的结果和/或一个或多个优点的各种其他装置和/或结构，并且这样的变化和/或修改中的每一个都被认为在本文描述的实施方式的范围内。更一般地，本文描述的所有参数、尺寸、材料和配置都是示例性的，并且实际的参数、尺寸、材料和/或配置将取决于使用教导的一个或多个特定应用。本领域技术人员将认识到，或能够使用不多于常规实验来确定本文所描述的具体实施方式的许多等效物。因此，应理解，前述实施方式仅通过示例的方式来呈现，并且在所附权利要求及其等效物的范围内，可以以不同于具体描述和要求保护的方式来实践实施方式。本公开的实施方式针对本文描述的每个单独的特征、系统、物品、材料、套件和/或方法。另外，如果两个或多个这样的特征、系统、物品、材料、套件和/或方法不是相互不一致的，则这两个或多个这样的特征、系统、物品、材料、套件和/或方法的任何组合都被包括在本公开的范围内。
68.在一些实施方式中，一种由一个或多个处理器实施的方法被阐述为包括以下操作：诸如由计算装置接收来自用户的口头话语。计算装置可以提供对自动化助理和相机的访问。方法可以进一步包括以下操作：基于口头话语确定口头话语包括对自动化助理修改图像和/或相机设置的请求。口头话语可以指定在用户选择gui元素以捕获图像之前要调整的图像的一个或多个属性。方法可以进一步包括以下操作：基于所述一个或多个特征使得根据来自用户的请求修改图像数据。例如，图像数据可以与在相机的取景器和/或预览窗口
中呈现的一个或多个图像相对应。当已经根据请求修改了图像数据时，用户可以选择gui元素以便捕获合适的图像。
69.在一些实施方式中，一种由一个或多个处理器实施的方法被阐述为包括以下操作：诸如在计算装置处接收指向可经由计算装置访问的自动化助理的口头话语。在一些实施方式中，计算装置还提供对相机的访问。方法可以进一步包括以下操作：基于口头话语，确定用户正在指引自动化助理根据一个或多个条件是否被满足来控制相机。在一些实施方式中，所述一个或多个条件在口头话语的自然语言内容中被描述。方法可以进一步包括以下操作：基于自动化助理可用的数据，确定所述一个或多个条件是否被满足。在一些实施方式中，方法可以进一步包括当所述一个或多个条件被满足时的操作：使相机捕获图像数据。
70.在一些实施方式中，确定用户正在指引自动化助理根据一个或多个条件是否被满足来控制相机包括：基于口头话语的自然语言内容，访问基于相机的操作的当前图像数据，以及基于当前图像数据中存在的一个或多个对象，偏置对与口头话语相对应的音频数据的处理。在一些实施方式中，确定所述一个或多个条件是否被满足包括：响应于接收到口头话语，处理捕获计算装置或另一计算装置的环境中的音频的其他音频数据，以及确定其他音频数据是否包括满足所述一个或多个条件的一个或多个音频特征。在一些实施方式中，确定所述一个或多个条件是否被满足包括：响应于接收到口头话语，处理捕获计算装置或另一计算装置的环境的一个或多个视觉特征的其他图像数据，以及确定所述一个或多个视觉特征是否满足所述一个或多个条件。
71.在一些实施方式中，使相机捕获图像数据包括：基于口头话语的自然语言内容修改相机的一个或多个设置。在一些实施方式中，当相机正在根据所述一个或多个设置操作时捕获图像数据。在一些实施方式中，确定所述一个或多个条件是否被满足包括：响应于接收到口头话语，处理指示可经由计算装置或另一计算装置访问的应用的状态的应用数据，以及确定应用的状态是否满足所述一个或多个条件。在一些实施方式中，计算装置是便携式计算装置，并且在用户正在操纵便携式计算装置时接收口头话语。在一些实施方式中，在用户提供口头话语之后不直接接触计算装置的任何可编程触摸接口的情况下，执行使相机捕获图像数据。
72.在其他实施方式中，一种由一个或多个处理器实施的方法被阐述为包括以下操作：诸如在计算装置处接收来自用户的输入，其中，计算装置提供对自动化助理和相机的访问。方法可以进一步包括以下操作：基于输入确定输入是对自动化助理根据一个或多个条件操作相机的请求。在一些实施方式中，所述一个或多个条件在输入的自然语言内容中被指定。方法可以进一步包括以下操作：基于所述一个或多个条件访问一个或多个经过训练的机器学习模型，其中，自动化助理访问所述一个或多个经过训练的机器学习模型以帮助识别计算装置或另一计算装置的环境的一个或多个特征。方法可以进一步包括以下操作：使用所述一个或多个经过训练的机器学习模型来处理表征计算装置或另一计算装置的环境的一个或多个当前特征的数据。方法可以进一步包括以下操作：基于数据确定环境的所述一个或多个当前特征是否满足所述一个或多个条件，其中，当计算装置或其他计算装置的环境展示一个或多个指定特征时，所述一个或多个条件被满足。方法可以进一步包括当确定所述一个或多个条件被满足时的操作：使相机捕获图像数据。
73.在一些实施方式中，当环境的当前特征展示特定属性时，所述一个或多个条件中
的条件被满足，以及其中，处理表征所述一个或多个当前特征的数据包括：为环境的当前特征的属性分配置信分数，其中，当所述置信分数满足阈值分数时，条件被满足。在一些实施方式中，确定所述输入是对自动化助理根据所述一个或多个条件操作相机的请求包括：基于环境的当前特征，偏置输入的自然语言理解。在一些实施方式中，方法可以进一步包括以下操作：确定输入或另一输入包括对自动化助理使得图像数据被修改的另一请求；以及当所述一个或多个条件确定被满足时：使得由相机捕获的图像数据根据输入或其他输入被修改。在一些实施方式中，其他请求体现在由用户提供的其他输入中，并且当相机正在捕获图像数据时，接收其他输入。在一些实施方式中，使相机捕获图像数据在用户不直接接触计算装置的触摸接口以开始捕获图像数据的情况下被执行。
74.在另一些实施方式中，一种由一个或多个处理器实施的方法被阐述为包括以下操作：诸如由计算装置接收来自用户的口头话语，其中，计算装置提供对自动化助理和相机的访问。方法可以进一步包括以下操作：基于口头话语确定口头话语包括对自动化助理控制相机的请求，其中，口头话语指定一个或多个条件，当所述一个或多个条件被满足时使自动化助理初始化利用相机的操作的执行。方法可以进一步包括以下操作：基于所述一个或多个条件，处理使用相机生成的图像数据，以进一步确定所述一个或多个条件是否被满足。方法可以进一步包括当确定所述一个或多个条件被满足时的操作：使自动化助理初始化使用相机的操作的执行，其中，初始化操作使相机捕获附加图像数据。
75.在一些实施方式中，附加图像数据包括视频数据，并且使自动化助理初始化使用相机的操作的执行包括：使相机在其中所述一个或多个条件被满足的时间段内捕获视频数据。在一些实施方式中，方法可以进一步包括以下操作：基于所述一个或多个条件识别一个或多个经过训练的机器学习模型，其中，使用所述一个或多个经过训练的机器学习模型来执行处理图像数据，以及其中，使用表征满足所述一个或多个条件的环境特征的训练数据来训练所述一个或多个经过训练的机器学习模型。在一些实施方式中，方法可以进一步包括在确定所述一个或多个条件被满足之后的操作：处理分开的图像数据以进一步确定所述一个或多个条件是否不再被满足，其中，使用相机捕获分开的图像数据。在一些实施方式中，方法可以进一步包括在确定所述一个或多个条件被满足之后的操作：确定所述一个或多个条件不再被满足，以及基于所述一个或多个条件不再被满足，使计算装置将附加图像数据和分开的图像数据的至少一部分存储为图像文件。在一些实施方式中，在用户不直接接触计算装置的触摸接口以开始捕获附加图像数据或停止捕获附加图像数据的情况下，执行使自动化助理初始化使用相机的操作的执行。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：费利克斯
技术所有人：谷歌有限责任公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。