信息处理方法及信息处理装置的制造方法

文档序号:8382011阅读:278来源:国知局
信息处理方法及信息处理装置的制造方法
【技术领域】
[0001]本发明涉及信息处理技术,尤其涉及用于自适应学习的语音识别的技术。
【背景技术】
[0002]例如膝上型计算机、平板电脑、智能电话、台式计算机、智能TV、信息服务亭(k1sk)、ATM、导航装置、汽车控制台等的信息处理装置(“装置”)可以用于处理例如由诸如麦克风的音频接收器所接收的语音输入。例如,语音识别技术能够使装置通过将数字音频信号转换成机器文本词语来将口头词语变换为机器文本,以在下面的应用(例如,字处理文档、搜索应用等)中使用。语音识别技术中的常规改进主要集中在识别的准确度上,即,准确地识别用户实际说出的一个或多个词语。

【发明内容】

[0003]总的来说,一个方面提供了一种信息处理方法,包括:经由信息处理装置的音频接收器接收用户声音输入;基于用户声音输入辨识第一词语;访问词语关联数据存储库;基于词语关联数据存储库内与第一词语的关联来选择等同词;基于等同词做出动作;接收来自用户的关于等同词的反馈输入;以及基于反馈输入更新选择。
[0004]另一方面提供了一种信息处理装置,包括:音频接收器;处理器;以及存储装置,该存储装置存储能够由处理器执行的用以执行下述操作的指令:经由音频接收器接收用户声音输入;基于用户声音输入辨识第一词语;访问词语关联数据存储库;基于词语关联数据存储库内与第一词语的关联来选择等同词;基于等同词做出动作;接收来自用户的关于等同词的反馈输入;以及基于反馈输入更新选择。
[0005]另一方面提供了一种产品,包括:存储有代码的存储装置,该代码包括:用于经由信息处理装置的音频接收器接收用户声音输入的代码;用于基于用户声音输入辨识第一词语的代码;用于访问词语关联数据存储库的代码;用于基于词语关联数据存储库内与第一词语的关联来选择等同词的代码;用于基于等同词做出动作的代码;用于接收来自用户的关于等同词的反馈输入的代码;以及用于基于反馈更新选择的代码。
[0006]以上为概要,因此可能包括对细节的简化、概括和省略;因此,本领域的技术人员将理解该概要仅是说明性的而不意在以任何方式进行限制。
[0007]为了更好地理解实施方式连同实施方式的其它的以及进一步的特征和优点,参照结合附图的以下说明。将在所附的权利要求中指出本发明的范围。
【附图说明】
[0008]图1示出了信息处理装置电路系统的示例;
[0009]图2示出了信息处理装置的另一示例;
[0010]图3示出了自适应地学习词汇以完成语音识别命令的示例方法。
【具体实施方式】
[0011]将容易理解,除所描述的示例实施方式之外,在本文附图中总体描述和示出的实施方式的部件可以以多种不同配置来布置和设计。因此,附图中所示的示例实施方式的下述更详细的描述并非意在限制所要求保护的实施方式范围,而是仅代表示例实施方式。
[0012]贯穿本说明书提及的“一个实施方式”或“实施方式”(等)表示结合该实施方式所描述的具体特征、结构或特性被包含在至少一个实施方式中。因此,遍及本说明书中各处出现的短语“在一个实施方式中”或“在实施方式中”等未必都指代同一实施方式。
[0013]此外,在一个或更多个实施方式中,可以以任何适当的方式对所描述的特征、结构或特性进行组合。在下面的描述中,提供了许多具体的细节以给出对实施方式的透彻理解。然而,相关领域中的技术人员将认识到,可以在不具有一个或更多个具体细节的情况下实施各种实施方式,或者使用其它方法、部件、材料等来实施各种实施方式。在其它实例中,为了避免混淆,没有详细示出或描述公知的结构、材料或操作。
[0014]语音识别技术非常普遍并且结合各种应用一起使用。例如,许多装置应用(例如,因特网检索应用、字处理应用、通讯应用(聊天、电子邮件、短消息SMS文本等)等)可以采集用户的声音输入、将该声音输入转换成机器能够使用的形式(本文称为机器文本一不论声音信号是否准确地被转换为文本)以供该应用使用。例如,用户可以利用作为装置上当前正在运行的特定应用的网页浏览器来提供声音输入命令(诸如“停止网页浏览器”)。
[0015]当前的语音识别技术将会如实地并且准确地识别该声音输入。即,常规的语音识别将准确地确定用户按照字面意思说出的词语“停止网页浏览器”。然而,以用户期望的形式对该声音输入进行操作完全是另外一回事。即,为了使装置执行恰当的动作(例如关闭网页浏览器、最小化网页浏览器等),必须解析并理解该声音输入。
[0016]如可以理解的,可能难以准确地将特定输入字符串与特定命令进行映射或关联。即,个别用户可能在希望装置关闭整个应用时说出词语“停止网页浏览器”,另一用户可能仅希望最小化网页浏览器,而另一用户可能希望在网页浏览器保持在当前页面的情况下停止当前正在加载的网页等。
[0017]该用户特定所附加的挑战是如下事实:多个用户可能尝试使用不同的短语执行相同的动作(如命令关闭网页浏览器)。举例来说,第一个用户可能说出词语“停止网页浏览器”来试图使装置关闭网页浏览器,然而第二个用户可能说出词语“关闭网页浏览器”来试图关闭网页浏览器。因此,用户可能试图利用不同的词汇(在这种情况下,为同义词)达到相同的目的。
[0018]因此,实施方式提供用户特定的词汇学习,以使得特定用户的声音命令可以适应于(从特定用户的角度来看)恰当的动作。此外,实施方式提供等同词汇学习,以使得可以利用不同的短语(例如,区域短语或俚语词语)执行相同的命令。
[0019]通过参照附图将会更好地理解所示出的示例实施方式。以下的描述意在仅作为示例,并且仅示出某些示例实施方式。
[0020]虽然在信息处理装置中可以使用各种其它电路、电路系统或部件,但是针对智能电话和/或平板电脑电路系统100,图1中示出的示例包括例如存在于平板电脑或其它移动计算平台中的片上设计的系统。在单个芯片110中组合有软件和处理器。如本领域所公知的,处理器包括内部算术运算单元、寄存器、高速缓冲存储器、总线、I/O端口等。尽管内部总线等取决于不同的供应商,但是基本上所有的附加装置(120)都可以附接到单个芯片110。电路系统100将处理器、存储器控制和I/O控制器集线器全部都组合到单个芯片110中。此外,这种类型的系统100通常不使用串行高级技术附件(SATA)或PCI或LPC。公共接口例如包括安全数字输入输出(SD1)和I2C。
[0021]存在用于管理经由例如可再充电电池140供应的电力的电力管理电路130(例如电池管理单元BMU),可再充电电池140可以通过连接到电源(未示出)而再充电。在至少一个设计中,使用单个芯片(诸如110)来提供类似B1S的功能和DRAM存储器。
[0022]系统100通常包括无线广域网(WffAN)收发器150和无线局域网(WLAN)收发器160中的一个或更多个以连接到各种网络,诸如电信网络和无线因特网装置(如接入点)。另外,附加装置120中的一个装置通常是可以包括用于将声波转换成电音频信号的物理元件的麦克风。通常,系统100将包括用于数据输入、显示/呈现的触摸屏/控制器170。系统100通常还包括各种存储装置,例如闪存180和同步动态随机存取存储器(SDRAM) 190。
[0023]图2描绘了信息处理装置电路、电路系统或部件的另一示例的框图。图2中描绘的示例可以对应于诸如由位于北卡罗来纳州莫里斯维尔市的联想(美国)公司销售的THINKPAD系列的个人计算机的计算系统或其它装置。根据本文的描述明显可知,实施方式可以包括其它特征或仅包括图2所示的示例的特征中的一些特征。
[0024]图2的示例包括其架构可能依据制造商(例如,INTEL、AMD、ARM等)而不同的所谓的芯片集210 ( 一起工作的一组集成电路或芯片,芯片集)。INTEL是英特尔公司在美国和其它国家的注册商标。AMD是超微半导体公司在美国和其它国家的注册商标。ARM是安谋国际科技股份有限公司在美国或其它国家的未注册商标。芯片集210的架构包括经由直接管理接口(DMI) 242或链接控制器244交换信息(例如数据、信号、命令等)的核/存储器控制组220和I/O控制器集线器250。在图2中,DMI242是芯片-芯片接口(有时称为“北桥”与“南桥”之间的链接)。核/存储器控制组220包括经由前端总线(FSB)224交换信息的一个或更多个处理器222 (例如单核或多核)以及存储器控制器集线器226 ;注意组2
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1