语音关键字检测系统及方法

文档序号：8382009阅读：441来源：国知局

语音关键字检测系统及方法【
技术领域：
】[0001]本发明有关于语音关键字检测系统及方法，特别有关于通过利用传感器检测使用者的活动以提闻语首关键字检测的系统及相关方法。【
背景技术：
】[0002]由于具有语音控制及/或互动能力(interact1ncapability)的电子装置能够提供免提(hand-free)的使用者界面，这种电子装置越来越流行。识别在语音中的关键字(包括命令)的语音辨识是施行语音控制及/或互动能力所必须的技术。【
发明内容】[0003]有鉴于此，本发明提供一种语音关键字检测系统及方法。[0004]依据本发明一实施方式，提供一种语音关键字检测系统。该语音关键字检测系统包括:活动预测器，获得由多个传感器提供的传感器数据，以及处理该传感器数据以提供指示使用者是否将给出语音关键字的概率的活动预测结果；语音关键字检测器，用于产生初步的关键字检测结果；以及决策器，耦接于该活动预测器和该语音关键字检测器，并处理该活动预测结果和该初步的关键字检测结果以提供关键字检测结果。[0005]依据本发明另一实施方式，提供一种语音关键字检测方法。该语音关键字检测方法包括:获得由多个传感器提供的传感器数据；根据该传感器数据，计算指示使用者是否将给出语音关键字的概率的活动预测结果；通过该语音关键字检测产生初步的关键字检测结果；以及根据该活动预测结果和该初步的关键字检测结果计算关键字检测结果。[0006]本发明所提出的语音关键字检测系统及方法，可更加方便、友好、可靠和准确地实现语音控制。【附图说明】[0007]图1为根据本发明实施方式的语音关键字检测系统的示意图。[0008]图2为传感器数据的检测结果和提取的检测结果的曲线。[0009]图3为根据本发明实施方式的传感器协助语音关键字检测的流程图。[0010]图4?图7为根据本发明实施方式的传感器协助语音关键字检测的操作示例。[0011]图8为根据本发明实施方式的修改图1中的活动数据库的流程图。[0012]图9为根据本发明实施方式的语音关键字检测系统的示意图。[0013]图10为图9中的语音检测器的实施方式的示意图。[0014]图11为低功率传感器协助语音关键字检测的流程图。【具体实施方式】[0015]为增强使用者对周围环境的认知(awareness)和互动(interactivity),现代电子装置具有许多传感器。举例来说，通讯装置(例如，智能手机)的传感器包括加速度计(accelerometer)、陀螺仪(gyroscope)、磁强计(magnetometer)、气压计(barometer)、接近传感器(proximitysensor)、光传感器(ightsensor)、触屏、定位系统的接收器、无线接收器及/或照相机等等。[0016]由装置的传感器提供的传感器数据有利于得到人机交互(user-deviceinteract1n)、使用者状态(userstatus)及/或装置周围环境情况的活动信息(activityinformat1n)。人机交互的活动信息包括:(a)装置是否被抬高、降低、举起、放下、翻转、扔下(drop)、摇晃、稳固地拿着、倾斜、平放、靠近某物(例如，使用者)、远离某物、及/或放置于黑暗的环境中(例如，放置于袋子或背包中)或有光的环境中，等等；(b)传入事件(incomingevent)代表装置是否需要与使用者交互。例如,装置是否接收到来电(incomingcall)、短消息、及/或电子邮件；及/或装置是否将要报警预定义时刻，例如，用于即将到来的待办事项，日历、记事册、及/或时刻表中的会议清单的叫醒业务、叫醒电话、闹铃、提示、弹出式屏幕(screenpop-up)。使用者状态的活动信息包括使用者是否步行、跑步、及/或驾驶等。装置周围环境的活动信息包括:环境温度、噪声、亮度、位置、状态和当前时间。[0017]在此实施方式中，使用者的语音关键字(命令)通常发生在可识别模式(recognizablepattern)的活动之后,及/或使用者的语音关键字(命令)伴随可识别模式的活动而发生。以移动电话为例:当由于来电电话响铃时，使用者的自然反应是首先举起移动电话以观看相关信息(例如，来电者是谁)，然后决定如何答复(例如，接电话或不理会/拒绝电话)。因此,举起的活动是提示移动电话等待(expect)语音答复(responding)关键字(命令)的线索。在另一实施方式中，当使用者想要通过移动电话的照相功能来照相时，使用者的自然反应是首先保持移动电话稳定，然后指示移动电话拍照。因此，保持稳定的活动提供关于何时等待语音拍照关键字的线索。[0018]较佳地，可利用传感器数据以指示已知模式的活动是否发生，以及通过提供附加的信息相应地提高语音关键字检测，例如，通过预测使用者将要说出语音关键字的时间。举例来说，关键字是用于询问搜索引擎(queryingsearchengine)及/或人工智能引擎(artificialintelligenceengine)的命令、指示、术语,及/或关键字是告知性的(informative)语音，例如，“耶哈！(Yee_Ha!)”。尽管“耶哈！”不是官方词汇。[0019]举例来说，当由于来电电话响铃时以及侦测到举起电话的活动时，电话可以相应地预测到使用者将要发出语音答复关键字(例如，“接听”或“拒绝”)，并因此调整语音关键字检测的灵敏度以容易识别之后发出的语音答复关键字(例如，“接听”或“拒绝”)。举例来说，当移动电话被切换至照相机功能以及侦测到保持稳定的活动时，移动电话可以期望语音拍照关键字(例如“拍照”)，以触发照片拍照，然后调整语音关键字检测的灵敏度以容易识别语音拍照关键字。[0020]因此，根据本发明的活动预测，可以加强语音关键字检测，其中活动预测可设计为利用传感器数据并相应地检测指示活动的发生，指示活动将在使用者将要发出语音关键字时或之前发生。此外，语音关键字检测和活动预测可执行于应用方案(applicat1nscenar1)的情境中。在此实施方式中，当移动电话运行通信应用以用于来电响铃时，活动预测检测第一套相关指示活动(indicativeactivities)(例如,举起移动电话)的发生，以及语音关键字检测识别第一套相关语音关键字。举例来说，语音答复关键字(例如，“接听”或“拒绝”)。当移动电话运行照相机应用时，活动预测检测第二套相关指示活动(例如，保持稳定)的发生，以及语音关键字检测识别第二套相关语音关键字，举例来说，语音拍照关键字(例如，“拍照”)。[0021]存在有两种降低语音关键字检测的性能的错误，这两种错误包括遗漏错误(misserror)和假报警错误(falsealarmerror)。当使用者发出语音关键字但是语音关键字检测未能够识别说出的语音关键字时，遗漏错误发生。当使用者没有发出任何语音关键字但是语音关键字检测错误地确定已经发出语音关键字时，假报警错误发生。[0022]语音关键字检测可以调整灵敏度(或识别趋势)以协调(trade-off)遗漏错误和假报警错误。增加灵敏度可使得语音关键字检测趋向于将传入的声音解释为语音关键字，甚至当传入的声音不太可能包括语音关键字时也如此。因此，增加灵敏度降低了遗漏错误的概率而提高了假报警错误的概率。另一方面，减少灵敏度可降低语音关键字检测将传入的声音解释为语音关键字的倾向，甚至在传入的声音很有可能包括语音关键字的时候。因此，减少灵敏度提高了遗漏错误的概率而降低了假报警错误的概率。[0023]在此实施方式中，语音关键字检测的灵敏度是自适应的并根据活动预测动态调整，因此，可以抑制遗漏错误和假报警错误而不用折衷(comp1mise)处理。当检测到指示活动时，可以提高识别相关语音关键字的灵敏度，以使得传入的声音更有可能地被识别为相关语音关键字，即使说出的关键字很模糊、不清楚、及/或充满噪声；因此，可以抑制遗漏错误。另一方面，在不存在指示活动时，可以降低语音关键字检测的灵敏度，以大幅降低传入的声音错误地识别为语音关键字而抑制假报警错误的可能性。[0024]请参考图1。图1为根据本发明实施方式的语音关键字检测系统12的示意图。语音关键字检测系统12可集成于装置10中。装置10可以是消费电子。例如通信装置(例如，移动电话、手机、智能机)、便携式计算机(hand-heldorportablecomputer)、声学互动(acousticallyinteractive)及/或可控的个人保健(health-care)装置、玩具、可佩戴装置(例如，手表)、电视、媒体播放器、媒体记录器(例如，数字相机或摄影机)、导航器或定位装置等。在此实施方式中，甚至可在没有使用者提示的情况下，语音关键字检测器14自动监控传入的声音是否包括语音关键字。[0025]为改善语音关键字检测器14的性能，语音关键字检测系统12进一步包括关键字数据库16、活动预测器18、活动数据库20和决策器22。关键字数据库16耦接于语音关键字检测器14，并且关键字数据库16包括关键字清单KL[I]?关键字清单KL[N2]，其中数目N2大于或等于I。较佳地，每一个关键字清单KL[j](其中，j=l?N2)与目标应用app[j]相关，并且每一个关键字清单KL[j]包括候选关键字kw[j，l]?候选关键字kw[j，P{j}]，其中，数目PU}大于或等于I。不同的关键字清单与不同的目标应用相关，并且不同的关键字清单的候选关键字的数目可以不同。也就是说，由于索引jl不等于索引j2，关键字清单KL[jI]的目标应用app[jl]与关键字清单KL[j2]的目标应用app[j2]不同；关键字清单KL[jI]的数目P{jl}与关键字清单KL[j2]的数目P{j2}可以不同，或者关键字清单KL[jl]的数目PIJ1}与关键字清单KL[j2]的数目P{j2}也可以相等。[0026]活动数据库20耦接于活动预测器18，并且活动数据库20包括活动清单AL[1]?活动清单AL[NI]，其中数目NI大于或等于I。每一个活动清单AL[i](其中，i=l?NI)与目标应用app[j]相关，并且每一个活动清单AL[i]包括活动模板at[i，l]?活动模板at[i，QU}](其中，数目QU}大于或等于I)。不同的活动清单与不同的目标应用相关，并且不同的活动清单的活动模板的数目可以不同。[0027]语音关键字检测器14接收语音信号Snd。举例来说，装置10包括麦克风及/或麦克风阵列(图未示)以收集声音，并且通过处理(例如，模拟-数字转换)收集的声音而相应地提供数字的语音信号Snd。根据本发明的另一实施方式，装置10从另一个远程装置(例如，无线麦克风，图未示)接收远程提供的信号(图未示)，该远程提供的信号包括编码或未编码的声音，以及通过处理远程提供的信号相应地提供语音信号Snd。[0028]根据装置10当前的运行应用，语音关键字检测器14也可获得关键字数据库16中的关键字清单KL[1]?关键字清单KL[N2]选择出的选择的关键字清单KL[jx](其中，jx=l?N2),其中选择的关键字清单KL[jx]的目标应用app[jx]与装置10当前运行的应用匹配。举例来说，语音关键字检测器14及/或关键字数据库16可以从装置10及/或装置10的操作系统(operat1nsystem,OS)存取指示装置10当前运行应用的状态,然后查找目标应用app[jx]等于装置10当前运行应用的关键字清单KL[jx]。装置10运行的应用涉及由操作系统控制而执行的实用程序、服务、过程、及/或子程序。当前运行的应用可涉及当前活动的应用、前景应用、背景应用。[0029]通过选择与当前运行的应用相对应的关键字清单，可以参照情当前第1页1 2 3 4 5

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许肇凌;郑尧文;孙良哲;王芫芫;
技术所有人：联发科技股份有限公司;
我是此专利的发明人

上一篇：一种大数据语音分类方法
上一篇：分析音频文件的语音特征的方法和装置的制造方法