虚拟助理操作项目的管理的制作方法

文档序号:6622252阅读:194来源:国知局
虚拟助理操作项目的管理的制作方法
【专利摘要】本发明涉及虚拟助理操作项目的管理。根据本发明,一方面提供了一种方法,包括:操作信息处理装置的音频接收器和存储器以存储音频;接收激活信息处理装置的虚拟助理的输入;以及在激活虚拟助理后,处理存储的音频以识别用于虚拟助理的一个或多个可操作项目。本发明还描述和要求保护了其它方面。
【专利说明】虚拟助理操作项目的管理

【技术领域】
[0001]本发明涉及信息处理的【技术领域】,具体地涉及用于虚拟助理操作项目的管理。

【背景技术】
[0002]信息处理装置(“装置”)例如膝上型计算机和台式计算机、智能电话、电子阅读器等通常被用在虚拟助理可用的背景下。虚拟助理的示例是SIRI应用。SIRI是苹果公司在美国和/或其它国家的注册商标。
[0003]虚拟助理可以为用户执行许多功能如执行响应于语音命令的搜索请求。用户通常通过输入如可听地说出虚拟助理的“名字”的方式来“唤醒”虚拟助理。因此,虚拟助理由用户激活,并且随后可以向由用户提出的请求作出响应。


【发明内容】

[0004]总之,一方面提供了一种方法,包括:操作信息处理装置的音频接收器和存储器以存储音频;接收激活信息处理装置的虚拟助理的输入;以及在激活虚拟助理后,处理存储的音频以识别用于虚拟助理的一个或多个可操作项目。
[0005]另一方面提供了一种信息处理装置,包括:音频接收器;一个或多个处理器;以及存储装置,其对一个或多个处理器是可访问的并存储代码,所述代码可由一个或多个处理器执行以:操作音频接收器和存储器以存储音频;接收激活信息处理装置的虚拟助理的输入;以及在激活虚拟助理后,处理存储的音频以识别用于虚拟助理的一个或多个可操作项目。
[0006]又一方面提供了一种程序产品,包括:存储装置,其存储有计算机可读程序代码,所述计算机可读程序代码包括:配置成操作信息处理装置的音频接收器和存储器以存储音频的计算机可读程序代码;配置成接收激活信息处理装置的虚拟助理的输入的计算机可读程序代码;以及配置成在激活虚拟助理后处理存储的音频以识别用于虚拟助理的一个或多个可操作项目的计算机可读程序代码。
[0007]前述的描述是概要性的说明,从而会包含细节的简化、概括和省略;因此,本领域的技术人员能够理解概要仅仅是说明性的并且不意在以任何方式进行限制。
[0008]为了更好地理解实施方式以及实施方式的其它和另外的特征和优点,结合附图对以下说明进行参考。本发明的范围将在所附权利要求中指出。

【专利附图】

【附图说明】
[0009]图1示出了信息处理装置电路的示例。
[0010]图2示出了信息处理装置电路的另一示例。
[0011]图3示出了用于虚拟助理操作项目的管理的示例方法。

【具体实施方式】
[0012]容易理解,除所描述的示例实施方式之外,此处附图中的总体描述和实施方式的部件可以以多种不同的配置来布置和设计。因此,如在附图中表示的,对示例实施方式的以下更详细的描述并非意在限制实施方式要求保护的范围,而是仅代表示例实施方式。
[0013]在本说明书全文中,对“一个实施方式”或“实施方式”(等)的引用意味着结合实施方式所描述的特定特征、结构或特性包含在至少一个实施方式中。因此,在本说明书全文的各处所出现的短语“在一个实施方式中”或“在实施方式中”等未必都指代同一实施方式。
[0014]此外,在一个或多个实施方式中,可以以任何适当的方式对所描述的特征、结构或特性进行组合。在下面的描述中,提供了许多具体的细节以给出对实施方式的透彻的理解。然而,相关领域的技术人员将认识到,可以在不具有一个或多个具体细节的情况下,使用其它的方法、部件、材料等实施各种实施方式。在其它的实例中,未详细示出或描述公知的结构、材料或操作以避免混淆。
[0015]利用虚拟助理(VA)的一个当前问题是由于功耗的限制它们不能“总是开启”。因此,当用于VA的请求或命令发生在与其它方对话时,请求或命令(“操作项目”)需要例如通过声明VA的名字或提供另一激活输入在唤醒VA后重新对VA进行声明。换句话说,目前的虚拟助理不是“总是开启”,而是被激活,在此(即随后)请求或命令可以下发到VA,用于相关操作的处理和执行。
[0016]因此,实施方式实现了用于音频接收器的缓冲机制如机载麦克风。预定音频量被存储(如音频数据的最后“X”秒),使得音频数据的运行缓冲器连续可用。例如,存储音频数据的缓冲器或存储器可以被认为是运行或循环缓冲器。因此,当VA被激活或触发时,其可以处理寻找操作项目的缓冲器内容(例如先前的与请求或命令相关联或相连的音频数据)。在实施方式中,该机制可以同时(例如唤醒VA后,通过应用处理器)读取并(例如随着收集音频数据的麦克风继续录入而)写入。
[0017]参照附图将会最好地理解所示出的示例实施方式。下面的描述意在仅作为示例,并且仅示出了某些示例实施方式。
[0018]参照图1和图2,虽然在信息处理装置中可以利用各种其它电路、电路系统或部件,但是对于智能电话和/或平板电路200,图2示出的示例包括例如在平板或其它移动计算平台中提供的片上系统设计。软件和(一个或多个)处理器集成在单个芯片210中。内部总线等取决于不同的供应商,但是基本上所有的外围装置(220)如麦克风都可以附接到单个芯片210。与图1示出的电路形成对照,电路200将处理器、存储器控制器和I/O控制器集线器全部集成到单个芯片210中。此外,这类系统200通常不使用SATA或PCI或LPC。公共接口例如包括SD1和I2C。
[0019]存在(一个或多个)电力管理芯片230如电池管理单元BMU,该电力管理芯片230对例如经由可再充电电池240供应的电力进行管理,该可再充电电池240可以通过连接到电源(未示出)而再充电。在至少一个设计中,单个芯片如210用于提供类似B1S的功能和DRAM存储器。
[0020]系统200通常包括WffAN收发器250和WLAN收发器260中的一个或多个,用于连接到各种网络如电信网络和无线基站。通常,系统200包括用于数据输入和显示的触摸屏270。系统200通常还包括各种存储装置,例如闪存280和SDRAM 290。
[0021]图1就其部分而言描绘了信息处理装置电路、电路系统或部件的另一示例的框图。图1所描绘的示例可以对应于计算系统如由位于北卡罗来纳州莫里斯维尔的联想(美国)公司销售的THINKPAD系列个人计算机或其它装置。根据本文的描述可以明显看出,实施方式可以包括其它特征,或仅仅包括图1中示出的示例特征中的某些特征。
[0022]图1的示例包括所谓的芯片组110(—组一起工作的集成电路或芯片,芯片组),该芯片组110具有可以根据制造商(例如INTEL、AMD、ARM等)而变化的体系结构。芯片组110的体系结构包括核与存储器控制组120以及I/O控制器集线器150,该I/O控制器集线器150经由直接管理接口(DMI) 142或链路控制器144交换信息(例如数据、信号、命令等)。在图1中,DMI 142是芯片到芯片的接口(有时被称为“北桥”与“南桥”之间的链路)。核与存储器控制组120包括经由前端总线(FSB) 124交换信息的存储器控制器集线器126和一个或多个处理器122 (例如单核或多核);注意,组120的部件可以被集成在芯片中,该芯片代替传统的“北桥”式体系结构。
[0023]在图1中,存储器控制器集线器126与存储器140对接(例如为可被称为“系统存储器”或“存储器”的一类RAM提供支撑)。存储器控制器集线器126还包括用于显示装置192 (例如CRT、平板、触摸屏等)的LVDS接口 132。块138包括可以经由LVDS接口 132 (例如串行数字视频、HDMI/DV1、显示端口)支持的一些技术。存储器控制器集线器126还包括可以支持独立显卡136的PC1-Express接口(PC1-E) 134。
[0024]在图1中,I/O集线器控制器150包括SATA接口 151 (例如用于HDD、SDDU80等)、PC1-E接口 152(例如用于无线连接182)、USB接口 153 (例如用于诸如数字化仪、键盘、鼠标、照相机、电话、麦克风、存储装置、其它连接装置等的装置184)、网络接口 154 (例如 LAN)、GP10 接口 155、LPC 接口 170(用于 ASIC 17UTPM 172、超级 I/O 173、固件集线器174,B1S支持175以及诸如ROM 177、闪存178和NVRAM 179的各种类型的存储器176)、电力管理接口 161、时钟发生器接口 162、音频接口 163(例如用于扬声器194)、TC0接口 164、系统管理总线接口 165以及可以包括B1S 168和启动代码190的SPI闪存166。I/O集线器控制器150可以包括千兆位以太网支持。
[0025]系统在通电时可以被配置成执行存储在SPI闪存166内的用于B10S168的启动代码190,此后,在一个或多个操作系统和应用软件(例如存储在系统存储器140中)的控制下处理数据。操作系统可以存储在各种位置中的任何位置处,并且例如可以根据B1S 168的指令来访问。如本文所描述的,装置可以包括比图1的系统中示出的特征更少或更多的特征。
[0026]例如在图1和图2中概括的信息处理装置可以与VA结合使用。该装置可以接受输入如音频输入,以既激活VA又收集有关待执行的操作的输入。根据实施方式,这样的装置还可以包括分配的存储器或缓冲器位置,以连续地或经由合适的智能触发(例如音频接收器的激活和响应于检测环境音频的阈值水平的音频数据的存储)来收集音频。
[0027]如本文所述,实施方式实现了缓冲机制以收集预定量的音频,其中,存储的预定音频量例如可以根据各种因素来修改。因此,不必重复在激活VA之前所说的包含操作项目(例如请求或命令)的音频,当VA被激活或触发时,根据实施方式,可以处理缓冲器内容以寻找操作项目(例如先前的与请求或命令相关联或相连的音频数据)。这避免了对VA的命令和请求的不必要的重复。
[0028]在图3中示出虚拟助理操作项目的管理的示例方法。实施方式监视环境中的环境音频310,如果在320检测到,则可以在330例如存储在存储器位置中。环境音频可以被连续监视以及存储(例如省略步骤320);然而,如果预定水平的环境音频用于触发在320的环境音频的检测以及在330的存储的开始,则可以节省电力。
[0029]因此,缓冲机制可以以低电力或总是开启模式或以在320实施的阈值工作,以仅当存在可检测的麦克风活动时记录到缓冲器中;亦即,以不浪费电力来录音静默期。可以完成这个的技术的示例是瞬时功率或峰值系数阈值检测。因为缓冲器的内容可以以时间(例如随着在活动/录音周期之间的静默期)划分,所以内容可以是时间戳记的或以其它方式处理的,以保证缓冲器内容的适当管理。
[0030]在实施方式中,在330存储的预定的音频量可以根据各种因素变化。例如,缓冲器的长度可以通过遇到的情况来动态地变化。因此,如果特别长时间的讨论正在发生,则缓冲器可以更长时间自动地获取附加音频。此外,缓冲器的长度可以根据各种因素减小。不总是使用缓冲器的满存储容量或减小缓冲器的大小的一些原因是:功率消耗、触发后的处理延迟以及隐私问题等。
[0031]作为在320监视环境音频以检测音频的一部分,在340可以确定VA是否已激活。VA可以以各种不同的方式例如经由使用音频输入数据如说出VA的“名字”或其它预定的词语或短语的方式而被激活。此外,实施方式可以使用其它检测到的输入如谨慎手势或轻敲模式,作为在340感测的VA激活触发。例如,代替对他或她的VA讲话,用户可以在装置例如电话仍在用户口袋中的同时以轻敲手势的方式在350给出信号以激活VA和/或处理音频缓冲器。注意,用户可以通过处理存储的音频也可以不通过处理存储的音频来激活VA。
[0032]除了总是处理存储的关于VA激活的音频,实施方式可以选择性地处理存储的关于VA激活的音频。例如,实施方式可以利用唯一符号(例如由触敏表面感测的手写符号)的使用作为用于缓冲器内容的处理的触发分析的一部分。例如,画星号、普通笔记符号来指示关键点可以触发缓冲器进行录制。如本文所述,进一步的操作可以从这里自动进行,如保存存储的音频作为录制文本,作为在370执行的操作。例如,可以在会议中这样做,以作为对用户自己的笔记的补充。
[0033]在实施方式中,在340用于激活VA和处理在缓冲器中存储的音频(以在350识别可操作项目)的触发机制可以包括使用与VA激活和/或指示有关的(一个或多个)关键字或(一个或多个)短语来搜索存储的音频内容。例如,使用代词如“那个”可以与在缓冲器内容中搜索可操作项目的操作预相关或相连。例如,如果接收到下面的音频:用户A 用户B,今天在回家的路上你取一些牛奶好吗? ” ;用户B 智能电话,提醒我那个”,则实施方式可以执行以下操作。
[0034]当在340由“智能电话”关键字进行VA唤醒时,“提醒我那个”的命令告诉VA处理麦克风缓冲器以寻找可操作项目的候选,在这种情况下是提醒,例如日历条目的候选,所述日历条目包括指示谁(“你”)、做什么(“取牛奶”)、何时(“今天在回家的路上”)和/或在哪里的单词或短语。因此,实施方式可以利用由VA接收的初始命令,以帮助识别存储在缓冲器音频中的可操作项目,并且其后基于在360识别的可操作项目来在370执行操作。同样地,在370可以执行其它操作。一些非限制性示例包括将原始音频数据转移到另一位置,将音频录制成文本并将录制的文本转移到另一应用如日历条目,并且启动存储的音频的更高级别的处理如语音分析、说话者识别等以及和装置联系人相关联等。
[0035]因此,实施方式可以在340确定唤醒或激活VA的触发或符号,并且在350处理存储的音频以自动识别可操作项目。在360识别(一个或多个)可操作项目后,实施方式可以在370采取或执行附加操作,例如自动准备日历条目、将提醒添加到待办事项列表、基于在存储的音频中识别的请求来执行搜索等。
[0036]通过在滚动基础上存储音频内容,注意,(动态地、自动地或经由用户输入)可以修改预定音频量,实施方式将具有在回顾性分析中可能被影响的缓冲的音频内容,以识别VA命令、请求等。这减少了针对VA后激活重述可操作项目如命令的需要。因此,用户可以自由地继续讨论、作业等,而不需要重述这样的命令、请求等。
[0037]本领域的普通技术人员将容易理解,各种方面可以实施为系统、方法或装置程序产品。相应地,这些方面可以采取完全硬件的实施方式或包括在本文可以总体通常被称为“电路”、“模块”或“系统”的软件的实施方式的形式。此外,这些方面可以采取装置程序产品的形式,该装置程序产品嵌入在具有装置可读程序代码嵌入其中的(一个或多个)装置可读介质中。
[0038]可以利用(一个或多个)非信号装置可读介质的任何组合。非信号介质可以是存储介质。存储介质可以是例如电子的、磁的、光学的、电磁的、红外线的或半导体的系统、装置或装置,或前述的任何适当的组合。存储介质的更多的具体示例可以包括如下:便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPR0M或闪存)、光纤、便携式压缩磁盘只读存储器(CD-ROM)、光存储装置、磁存储装置,或前述的任何适当的组合。在本文的背景下,存储介质不是信号,并且“非暂态”包括除了信号媒体的任何媒体。
[0039]可以使用任何适当的介质,包括但不限于无线、有线、光纤线缆、RF等或前述的任何适当的组合传输存储介质上包含的程序代码。
[0040]可以以一种或者多种编程语言的任何组合来编写用于执行操作的程序代码。程序代码可以完全在单个装置上执行、部分地在单个装置上执行、作为独立软件包部分地在单个装置上且部分地在另一装置上执行,或者完全地在其它装置上执行。在某些情况下,可以通过任何类型的连接或网络(包括局域网(LAN)或广域网(WAN)、个人局域网(PAN))来连接装置,或可以通过其它的装置(例如通过使用因特网服务提供商的因特网)或通过硬线连接(例如通过USB连接)来进行连接。
[0041]本文参照附图描述了多个方面,这些附图示出了根据各种示例实施方式的示例方法、装置和程序产品。将要理解的是,示出的操作和功能可以至少部分地由程序指令来实现。可以将这些程序指令提供给通用信息处理装置、专用信息处理装置或其它的可编程数据处理装置或信息处理装置的处理器,以产生一种机制,使得经由装置的处理器执行的指令能够实现指定的功能/操作。
[0042]本发明提出的公开内容用于说明和描述的目的,而非意在穷举或限制。对本领域的技术人员来说,许多修改和变化是明显的。本发明中选择并描述的示例实施方式用于说明原理和实际应用,并且使得本领域其它技术人员能够理解本发明的具有各种修改的各种实施方式适合于预期的特定用途。
[0043]因此,尽管本文参考附图描述了说明性的示例实施方式,但是应当理解该描述不是限制性的,并且在不偏离本公开内容的范围或精神的情况下,本领域技术人员可以作出各种其它变化和修改。
【权利要求】
1.一种方法,包括: 操作信息处理装置的音频接收器和存储器以存储音频; 接收激活所述信息处理装置的虚拟助理的输入;以及 在激活所述虚拟助理后,处理存储的音频以识别用于所述虚拟助理的一个或多个可操作项目。
2.根据权利要求1所述的方法,还包括: 在激活所述虚拟助理的所述输入中识别一个或多个键输入;以及 利用所述一个或多个键输入作为用于处理存储的音频的触发,以识别用于所述虚拟助理的一个或多个可操作项目。
3.根据权利要求2所述的方法,其中,所述一个或多个键输入选自由关键字、关键短语、手势和触摸输入组成的输入组。
4.根据权利要求3所述的方法,其中,使所述一个或多个键输入关联到存储的音频包括可操作项目的指示。
5.根据权利要求1所述的方法,其中,所述一个或多个可操作项目选自由请求、命令和提醒组成的可操作项目组。
6.根据权利要求5所述的方法,还包括:在从存储的音频识别一个或多个可操作项目后,经由所述虚拟助理执行一个或多个操作。
7.根据权利要求1所述的方法,其中,激活所述虚拟助理的所述输入选自由音频输入、手势输入和预定符号输入组成的输入组; 所述方法还包括:在检测到激活所述虚拟助理的所述输入后,经由所述虚拟助理执行一个或多个操作。
8.根据权利要求1所述的方法,其中,预定的音频量是根据一个或多个因素可变的。
9.根据权利要求8所述的方法,其中,所述一个或多个因素包括确定存储器的初始分配不够用于存储正在进行的音频输入。
10.根据权利要求8所述的方法,其中,所述一个或多个因素选自由功耗、处理延迟和隐私组成的因素组。
11.一种信息处理装置,包括: 音频接收器; 一个或多个处理器;以及 存储装置,其对所述一个或多个处理器是可访问的并存储代码,所述代码可由所述一个或多个处理器执行以: 操作音频接收器和存储器以存储音频; 接收激活所述信息处理装置的虚拟助理的输入;以及 在激活所述虚拟助理后,处理存储的音频以识别用于所述虚拟助理的一个或多个可操作项目。
12.根据权利要求11所述的信息处理装置,其中,所述代码可由所述一个或多个处理器执行以: 在激活所述虚拟助理的所述输入中识别一个或多个键输入;以及 利用所述一个或多个键输入作为用于处理存储的音频的触发,以识别用于所述虚拟助理的一个或多个可操作项目。
13.根据权利要求12所述的信息处理装置,其中,所述一个或多个键输入选自由关键字、关键短语、手势和触摸输入组成的输入组。
14.根据权利要求13所述的信息处理装置,其中,使所述一个或多个键输入关联到存储的音频包括可操作项目的指示。
15.根据权利要求11所述的信息处理装置,其中,所述一个或多个可操作项目选自由请求、命令和提醒组成的可操作项目组。
16.根据权利要求15所述的信息处理装置,其中,所述代码可由所述一个或多个处理器执行,以在从存储的音频识别一个或多个可操作项目后,经由所述虚拟助理执行一个或多个操作。
17.根据权利要求11所述的信息处理装置,其中,激活所述虚拟助理的所述输入选自由音频输入、手势输入和预定符号输入组成的输入组; 其中,所述代码可由所述一个或多个处理器执行,以在检测到激活所述虚拟助理的所述输入后,经由所述虚拟助理执行一个或多个操作。
18.根据权利要求11所述的信息处理装置,其中,预定的音频量是根据一个或多个因素可变的。
19.根据权利要求18所述的信息处理装置,其中,所述一个或多个因素选自由功耗、处理延迟和隐私组成的因素组。
20.一种程序产品,包括: 存储装置,其存储有计算机可读程序代码,所述计算机可读程序代码包括: 配置成操作信息处理装置的音频接收器和存储器以存储音频的计算机可读程序代码; 配置成接收激活所述信息处理装置的虚拟助理的输入的计算机可读程序代码;以及配置成在激活所述虚拟助理后处理存储的音频以识别用于所述虚拟助理的一个或多个可操作项目的计算机可读程序代码。
【文档编号】G06F3/01GK104423576SQ201410377060
【公开日】2015年3月18日 申请日期:2014年8月1日 优先权日:2013年9月10日
【发明者】约翰·韦尔东·尼克尔森, 斯蒂文·理查德·佩林, 王松, 约翰·迈尔斯·亨特, 张健邦, 李健, 托比·约翰·鲍恩 申请人:联想(新加坡)私人有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1