声音命令处理装置与方法

文档序号:2837266阅读:327来源:国知局
专利名称:声音命令处理装置与方法
技术领域
本发明涉及一种语音辨识技术,特別是一种声音命令处理装置 及方法。
背景技术
i吾音多争i口、寺支术(speech/voice recognition)^皮i人为是一种具^f吏用者 亲禾口力的人才凡介面(user-friendly man-machine-interface, MMI), i吾音
辨识技术现已发展来分辨人类说话的自然语言的意义。

发明内容
本发明实施例4皮露了 一种声音命令处理装置,其中包括行动代 理器执行平台。行动代理器执行平台包括内部平台、至少一个代理 器、行动代理器执行情境与行动代理器管理单元。行动代理器执行 情境提供应用程序介面,使得代理器通过应用程序介面使用内部平 台的资源。行动代理器管理单元掌理代理器的初始化、执行、暂时 中止、重新开始与分派。代理器用以扭乂f亍有关声音命令处理的功能。
本发明实施例4皮露了 一种声音命令处理方法,包括以下步驶《。 接收由目标装置所复制的语音辨识代理器,此语音辨识代理器包含 执行语音辨识的电脑程序、声学模型、词汇及语言才莫型。使用语音 辨识代理器根据声学模型处理原始声音资料,并且产生相应于词汇 与语言模型的至少一个声音字组。本发明提供了一种声音命令处理装置,包括行动代理器执行 平台,包括内部平台;至少一代理器;行动代理器执行情境,用 以提供应用程序介面,使得所述代理器通过所述应用程序介面〗吏用 所述内部平台的资源;以及行动代理器管理单元,用以掌理所述代 理器的初始化、执行、暂时中止、重新开始与分派。其中,所述代 理器用以执行有关声音命令处理的功能。
其中所述行动代理器管理单元负责与所述代理器间进行通讯, 并且进行有关声音命令处理的控制。
其中所述代理器中包含委派任务,以及用以执行所述委派任为 所需的逻辑。
其中所述代理器为语音辨识代理器,包含#丸4于语音辨识的电脑 程序、声学模型、词汇及语言模型,所述电脑程序用以根据所述声 学才莫型处理原始声音资一牛,并且产生相应于所述词汇与所述语言冲莫 型的至少一声音字组。
其中所述语音辨识代理器为目标装置中的语音辨识代理器的
复制品0
其中所述行动代理器管理单元复制所述语音辨识代理器,并且 传送所述复制的语音辨识代理器至远端装置的行动代理器执行平 台中,用以通过所述远程装置执行语音辨识。
其中所述代理器为语言理解代理器,包含执行语言理解的电脑 程序、句法模型及语意模型,所述电脑程序用以根据所述句法模型 来分析至少一声音字组的句法,并且依据所述语意模型来理解所述 分析出的句法,用以产生陈述表达式。其中所述语言理解代理器为目标装置中的语言理解代理器的 复制品。
其中所述行动代理器管理单元复制所述语言理解代理器,并且 传送所述复制的语言理解代理器至远端装置的行动代理器执行平
台中,用以通过所述远端装置^vf亍语言理解。
其中所述代理器为意义呈现代理器,包含执行意义呈现的电脑 程序及多个声音命令,所述电脑程序用以取得相应于陈述表达式的 所述声音命令中之一者。
其中所述意义呈现代理器为目标装置中的意义呈现代理器的
复制品。
其中所述行动代理器管理单元复制所述意义呈现代理器,并且 传送所述复制的意义呈现代理器至远端装置的行动代理器执行平 台中,用以通过所述远端装置扭j亍意义呈现。
其中所述行动代理器管理单元执行声音命令。
本发明还提供了一种声音命令处理方法,使用含有麦克风的电
子装置执行,包括接收由目标装置所复制的语音辨识代理器,所 述语音辨识代理器包含执行语音辨识的电脑程序、声学^^莫型、词汇 及语言模型;以及从所述麦克风接收原始声音资料,使用所述语音 辨识代理器根据所述声学模型处理所述原始声音资料,并且产生相 应于所述词汇与所述i吾言才莫型的至少 一声音字组。
其中所述电子装置包括行动代理器执行平台,包括内部平 台;行动代理器执行情境,用以提供应用程序介面,使得所述语音 辨识代理器通过所述应用^呈序介面^f吏用所述内部平台的资源;以及4亍动代理器管理单元,用以掌理所述语音辨识代理器的初始化、#丸 行、暂时中止、重新开始与分派。
所述的声音命令处理方法还包括接收由目标装置所复制的语 言理解代理器,所述语言理解代理器包含执行语言理解的电脑程 序、句法模型及语意模型;以及使用所述语言理解代理器根据所述 句法模型来分析所述声音字组的句法,与依据所述语意模型来理解 所述分析出的句法,用以产生陈述表达式。
所述的声音命令处理方法还包括接收由目标装置所复制的意 义呈现代理器,所述意义呈现代理器包含执行意义呈现的电脑程序 及多个声音命令;以及使用所述意义呈现代理器取得相应于所述陈 述表达式的所述声音命令中之一者。
所述的声音命令处理方法还包括传送所述取得的声音命令至 所述目标装置。
本发明还提供了一种电子装置,所述电子装置包括输入装置, 用以输入原始声音资料;声音命令控制器,用以辨识所述原始声音 资料,所述语音辨识代理器包含语音辨识代理器、语言理解代理器 及意义呈现代理器;认证码;其中,当所述电子装置连接远端装置 时,所述语音辨识代理器依据所述认证码选择性的更新所述语音辨 识代理器、所述语言理解代理器及所述意义呈现代理器。
其中所述声音命令控制器是依序更新所述语音辨识代理器、所 述语言理解代理器及所述意义呈现^理器。


图1表示依据本发明实施例的声音命令处理系统的网络架构示
意图2表示依据本发明实施例的移动电话装置的硬件架构图3表示依据本发明实施例的个人电脑11的硬件架构图4是依据本发明实施例的声音命令处理的五阶辜殳示意图5是依据本发明实施例的在语音辨识阶段、语言理解阶段与 意义呈现阶段中所需的主要实体示意图6为典型的声音命令处理方法的方法流程图7是依据本发明实施例的行动代理器执行平台;
图8是依据本发明实施例的声音命令处理服务示意图9A至9D是依据本发明实施例的代理器委任与分派示意图。
具体实施例方式
图1是表示依据本发明实施例的声音命令处理系统的网络架构 示意图。在优选的情况下,此网络架构包括个人电脑11与手才几13。 相较于个人电脑11,手才凡13可配备较简易的运算资源,例如,配 备较慢的处理器、容量较少的主存储器与储存空间等。其中,个人 电脑11与手才几13间可以实体连线(wired-connection)、无线或混合 实体连线与无线的方式彼此连接。而本领域技术人员都了解个人电 脑11与手机13间的连结也许须通过多个中介节点,例如,无线接取点(access point)、基;也台(base station)、集线器(hub)、桥接器 (bridge)、路由器(router)或其它用以处理网络通讯的中介节点。个人 电脑11可代表一个目标装置(target device),而手机13可代表一个 远端装置(remote device)。手机13中配备有一个麦克风,用以接收 邻近的4吏用者的声音讯号。
图2是表示依据本发明实施例的移动电话装置的石更件架构图。 移动电话装置13可包括凄t字讯号处理单元(Digital Signal Processor, DSP)21、冲莫拟基带(Analog Baseband)22、射步贞单元(Radio Frequency section, RF section)23、天线24、控制单元25、屏幕26、键盘(key pad)27、麦克风28与记忆装置29。除jt匕之外,本4页;1或#支术人员也 可将远端装置实施于配备有麦克风的其它手持式装置的样态 (configuration)上, <列^口个人凄史字助J里(digital personal assistant, PDA)、凄t字音乐插^文器(MP3 player)、或其它可携式消费性电子产 品等,或实施于配备有麦克风的各式各样的电脑系统样态上。控制 单元25可为孩i处理单元(Micro Processing Unit; MPU),用以乂人i己忆 装置29读取程序模组,并执行所读取的程序模组来完成声音命令 处理方法。记忆装置29包含只读存4诸器(read only memory; ROM)、 闪存(flash ROM)以及/或动态存取存卡者器(random access memory; RAM),用以储存可供控制单元25执行的程序才莫组。麦克风25用 以感测邻近的〗吏用者的声音讯号,并传送至婆史字讯号处理单元21, 用以将感测到的模拟讯号转换成数字讯号,以供后续的控制单元25 处理。
图3表示依据本发明实施例的个人电脑11的硬件架构图。个 人电脑ll,包括处理单元31、存储器32、储存装置33、输出装置 34、输入装置35、通讯装置36,并4吏用总线37将其连结在一起。 本领域4支术人员可将目标装置实施于各式各才羊的电脑系统才羊态 (configuration)上,例如,多处理器系统、以」微处理器为基础或可程序化的消费性电子产品(microprocessor-based or programmable consumer electronics)、网络电月亩、迷你、电月卤、大型主才几、笔i己型电 脑以及类似的设备。存储器32包含只读存储器(read only memory; ROM)、 闪存(flash memory)以及/或动态存取存+者器(random access memory; RAM),提供储存空间,用以储存可供处理单元31执行的 程序才莫组、资料、档案以及纪录。 一般而言,程序才莫组包含常序 (routines)、程序(program)、对象(object)、元件(component)等,用以 执行声音命令处理功能。本发明也可以实施于分散式运算环境,其 运算工作被连结于通讯网络的远端处理设备所执行。在分散式环境 中,声音命令处理的功能执行,也许由本地以及多部远端电脑系统 共同完成。储存装置33包含硬盘装置、软盘装置、光盘装置或随 身盘装置,提供储存空间,用以存取硬盘、软盘、光盘、随身盘中 所储存的程序模组、资料、档案以及纪录。
图4是依据本发明实施例的声音命令处理的五阶段示意图,包 含声音命令才妄收(voice command acquisition)P41 、 "i吾音辨识(speech recognition)P43 、 i吾言5里解(language understanding)P45 、 意义呈J见 (meaning representation)P47与命令4丸4亍(command execution)P49等 阶段。图5是依据本发明实施例的在语音辨识阶段P43、语言理解 阶段P45与意义呈现阶段P47中所需的主要实体示意图。在声音命 令4妄收阶羊殳P41中,声音命令话i吾(voice command speaking)会净皮截 听(intercepted)并塑模(modeled)为声音资料的原始输入(也就是原始 声音资妹+)。此原始声音资料在输入到语音辨识P43前,会再加以处 J里,例如资冲牛净^ft 、 过滤与区隔(data cleaning, filtering and segmentation)。在语音辨识阶段P43中,原始声音资料会根据内建 的声学才莫型(acoustic model)611;故处理,接着,产生相应于语言才莫型 (language model)615与i司;^匚(lexicon)613的声音字纟且(voice words)。 在i吾言理解阶^殳P45中,依据内建的语言句法才莫型(language syntax model)631来分析声音字组的句法(syntax),以及依据内建的语意模型(semantic model)633来理解分对斤出的句法。其结果会4安照特定的 呈J见^见贝'J (representation rule)635与事4牛背景(disclosure context)637 来产生陈述表达式(statement expression),在意义呈^L阶^: P47中, 取得的陈述表达式^皮理解成为一个有意义的特定声音命令。理解的 结果会对应到一个包含声音命令的意义呈现的有限空间中,否则, 此理解的结果没有定义的声音命令。在命令执行阶段P49中,执行 相应于有效声音命令的特定工作。
图6为典型的声音命令处理方法的方法流程图,由个人电脑11 与移动电话13所执行。此流程图并非用以决定是否具可专利性的 已知技术,而仅用以显示发明人所发觉的问题。移动电话13执行 声音命令接收阶I殳P41的作业,并且将产生的原始声音资料传送给 个人电脑ll(步骤S611)。个人电脑11在4妄收到原始声音资津+后(步 骤S511),执行语音辨识阶段P43(步骤S531至S535)、语言理解阶 段(步骤S551)与意义呈现阶段(步骤S553至S571)的作业。当个人 电脑11判断无法产生有用的辨识结果时(步骤S533),传送语音辨 识失败讯息给移动电话13(步骤S535与S631)。当个人电脑11无法 取得相应的声音命令时(步骤S555与S557),传送无效声音命令讯 息给移动电话13(步艰《S559与S651)。当个人电脑11可取得相应的 声音命令时(步骤S555与S559),执行取得的声音命令,并传送执 行结果或资料给移动电话13(步骤S571、 S573与S671)。此典型的 声音命令处理方法具有以下的缺点。原始声音资料的传输通常需要 耗费较多的网络频宽,并且移动电话13需要通过个人电脑11的通 知才能得知语音辨识与声音命令取得结果,降低声音命令处理的效 率。
execution platform),其中存在一个以代理器为基础的声音命令控制 器,用以智能型;也进^f亍有关声音命令处理的控制。个人电脑11与
12手机13都提供此行动代理器执行平台。行动代理器执行平台包含 三个元寸牛4亍动^^里器^^亍情境(mobile agent execution context)、 4亍 动4戈理器传^r通i凡十办i义(mobile agent transport protocol)、以及^J里器 委派与控制(agent delegation and control)。 4亍动4戈理器扭^f亍情境730 是指一个代理器执行环境,提供独立的应用程序介面,使得一个正 在执行的代理器可以使用原有平台(native platform)710的资源。每 一个代理器都拥有相应于委派任务的特定生命周期731。行动代理 器管理单元733用以掌理代理器的初始化、执行、暂时中止、重新 开始与分派。应用程序层级的代理器传输通讯协议735用来建立个 人电脑11与手才几13间的两个4亍动^理器执4亍平台间的通iK管道。
图8是依据本发明实施例的声音命令处理服务示意图。声音命 令控制器810负责与语音辨识、语言理解与意义呈现代理器831、 833与835间进4亍通讯,也可称为声音命令应用程序750(图7)中。 个人电脑11与手机13均提供行动代理器执行平台,也就是,任一 个^f亍动^理器可在电脑平台(computer platform)或手才几平台(mobile phone platform)上执行。
图9A至9D是依据本发明实施例的代理器委任与分派示意图。 参考图9A,个人电脑11中的声音命令控制器810可分派并储存常 驻一个代理器在手机13中的行动代理器执行平台上。每一个代理 器中包含委派任务(使用电脑资料表示法呈现),以及用以执行委派 任务所需的逻辑。详而言之,声音命令控制器810可复制(clone)自 身的语音辨识代理器831、语言理解代理器833与意义呈现代理器 835中的至少者,并将复制的^理器831,、 833,以及/或835,迁移 (migrate)并储存至手机13中的行动代理器执行平台上。语音辨识代 理器831,可包含语音辨识的电脑程序、演算法、声学模型的模式 (patterns)、词汇及语言模型等,用以在不需要再与个人电脑11互动 的情况下,远端地执行语音辨识。类似地,语言理解代理器833,包含语言理解的电脑程序、演算法、句法与语意模型、以及用以判
断输入的声音可能为何种语言以及使用者可能说了哪些字(terms)。 意义呈现代理器835,包含意义呈现的电脑程序、演算法与使用特 定呈现格式的多个声音命令,用以解释声音输入的意义,并且将此 意义转换成为声音命令中之一者。解出的声音命令会被传送到个人 电脑11,接着被个人电脑11中的声音命令控制器810所执行。在 适当的应用领域上,本领域4支术人员也可直接^f吏用手机13中的声 音命令控制器810,执行解出的声音命令。
分派这些代理器的次序必须相应于如图5所示的声音命令处理 阶段的顺序性。参考图9B,声音命令控制器810可分派并常驻复 制的语音辨识代理器831,在手4几11中,用以协助远程的声音命令 控制器810,。当复制的i吾音辨识4、理器831,已存在于手4几11中, 声音命令控制器810也可只更新语音辨识^理器831,中的特定电脑 程序、演算法、声学才莫型的模式(pattems)、词汇或语言模型。当远 端的声音命令控制器810,感测到使用者的声音输入,语音辨识代理 器831,可自行处理此声音输入。如果语音辨识代理器831,成功地产 生辨识结果,则代理器831,通过实体连线/网络传送此结果给个人电 脑11的语言理解代理器833或声音命令控制器810,传送的内容可 以是辨识出的文字符串。如果i吾音辨识^f气理器831,无法产生辨识结 果,则代理器831,可产生即时的通知。4吏用者马上发觉此情况并换_ 供新的声音输入。此外,相较于个人电脑11的语音辨识代理器831, 语音辨识代理器831,可产生较好的辨识结果,因为代理器831,4交接 近^f吏用者,可才企测出i兌"i舌场合(speaking venue)、 环境情境 (surrounding context)与背景噪音(background noise), 并且不会在网 络传输过程中受到干扰。在此须注意的是,当语言理解代理器与意 义呈现代理器在手才几13中批J亍时,也可具有这些优点。参考图9C,在接收到从语音辨识代理器831,所传来的辨识结 果后,复制的语言理解代理器833,可被迁移至手机13中,用以与 语音辨识^理器831,协同合作。当复制的语言理解代理器833,已存 在于手才几11中,也可只更新语言理解代理器833,中的特定电脑禾呈 序、演算法、特定的句法或语意才莫型。搭配辨识出的结果,语言理 解代理器833,按照语言语法与语意来分析声音资料,并试着理解此 声音资料的语言表达结构。本领域技术人员都了解,声音命令也许 无法完全符合语法与语意少见则,可参考内建的知识来消除声音资料 的不明确意义。如果语言理解代理器833,成功地产生理解结果,则 代理器833,通过实体连线/网络传送此结果给个人电脑11的意义理 解代理器835或声音命令控制器810。如果语言理解代理器833,无 法产生理解结果,则代理器833,可产生即时的通知,让〗吏用者则可 马上发觉此情况。
参考图9D,在接收到/人语言理解代理器833,所传来的理解结 果后,复制的意义呈现^C理器835,可#1迁移至手才几13中,用以与 语言理解代理器833,协同合作。当复制的意义呈现代理器835,已存 在于手才几11中,也可只更新意义呈现代理器835,中的特定电脑程 序、演算法或声音命令。如果相应于理解结果的意义可对应到事先 定义的声音命令集合中,则意义呈现代理器835,传送此对应的声音 命令给个人电脑11的声音命令控制器810。如果意义呈现代理器 835,无法对应到声音命令,则代理器835,可产生即时的通知,让使 用者则可马上发觉此情况。本4页i或才支术人员也可以在手才几13还未 开始进4亍实际的声音命令处理前,个人电脑11 ^吏用如上所述的顺 序来复制自身的语音辨识代理器831、语言理解代理器833与意义 呈现代理器835,并将复制的代理器831,、 833,与835,迁移至手机 13中的行动代理器执行平台上。
15图9A中,个人电脑11对手机13分派声音命令控制器810的 方法可以才艮据手才几13与个人电脑11连线通ifl时所与用的iU正码找 出对应的声音命令控制器81,上述认证码可以预存在手机13内部 的存4诸器中,可以为4吏用者iU正石马、SIM卡石马、IP》也址等。
本发明的方法与系统,或特定型态或其部4分,可以以禾呈序石马的 型态包含于实体媒体,如软盘、光碟片、硬盘、或是任何其它机器 可读取(如电脑可读取)储存媒体,其中,当程序码被机器,如电脑 载入且执行时,此机器变成用以参与本发明的装置。本发明的方法 与装置也可以以程序码型态通过一些传送々某体,如电线或电缆、光 纤、或是任何传输型态进行传送,其中,当程序码被机器,如电脑 接收、载入且执行时,此机器变成用以参与本发明的装置。当在一 :ll殳用途处玉里单元(general画purpose processing unit)实际运作时,禾呈序 码结合处理器提供操作类似于应用特定逻辑电路的独特装置。
针对一个特定的是统元件,说明书及权利要求书中会使用一个 名称来为其命名。本领域技术人员都了解,消费电子设备的制造者 也许会使用不同的命名来称呼内容中所对应的系统元件。此文件并 不想要以不同的名称来区别元件间的不同,而是4吏用不同的功能描 述来进4亍区别。
虽然本发明已以优选实施例"坡露如上,然其并非用以限定本发 明,本领域技术人员,在不脱离本发明的精神和范围内,当可做一 些更动与润饰,因此本发明的保护范围当视所附的权利要求所界定 者为准。
主要元件符号说明
11 个人电脑 13~手才几21 凄t字ifl号处理单元
23 射频单元
25 控制单元
27~键盘
29 记忆装置
32 存储器
34 输出装置
36 通讯装置
P41 声音命令接收阶段
P45 语言理解阶4殳 P49 命令执行阶段
613 词汇
631 语言句法模型 635 呈现规则
22 模拟基带
24 天线
26 屏幕
28 麦克风
31 处理单元
33-储存装置
35 输入装置
37 总线
P43 语音辨识阶段
P47 意义呈现阶段
611 声学才莫型
615 语言模型
633 语意模型
637 事件背景
S511、 S531......S571、 S573 方法步骤
S611、 S631、 S651、 S671 方法步艰《
710 原有平台730 行动代理器执行情境;731 生命周期
733 4于动代理器管理单元
735 代理器传输通讯协议
810、 810, 声音命令控制器
831、 831, 语音辨识代理器
833、 833, i吾言理解4戈理器
835、 835, 意义呈现代理器
权利要求
1. 一种声音命令处理装置,包括行动代理器执行平台,包括内部平台;至少一4戈理器;行动代理器执行情境,用以提供应用程序介面,使得所 述代理器通过所述应用程序介面使用所述内部平台的资源;以 及4亍动^理器管理单元,用以掌理所述4<理器的初始化、 才丸行、暂时中止、重新开始与分派。其中,所述代理器用以执行有关声音命令处理的功能。
2. 根据权利要求1所述的声音命令处理装置,其中所述行动代理 器管理单元负责与所述代理器间进行通讯,并且进行有关声音 命令处理的控制。
3. 根据权利要求1所述的声音命令处理装置,其中所述代理器中 包含委派任务,以及用以4丸行所述委派任为所需的逻辑。
4. 根据权利要求3所述的声音命令处理装置,其中所述代理器为 语音辨识代理器,包含执行语音辨识的电脑程序、声学才莫型、 词汇及语言冲莫型,所述电脑程序用以才艮据所述声学才莫型处理原 始声音资料,并且产生相应于所述词汇与所述语言才莫型的至少 一声音字组。
5. 才艮据4又利要求4所述的声音命令处理装置,其中所述语音辨识 代理器为目标装置中的语音辨识代理器的复制品。
6. 根据权利要求4所述的声音命令处理装置,其中所述行动代理 器管理单元复制所述语音辨识代理器,并且传送所述复制的语 音辨识代理器至远端装置的行动代理器才丸行平台中,用以通过 所述远程装置扭J于语音辨识。
7. 根据权利要求3所述的声音命令处理装置,其中所述代理器为 语言理解代理器,包含执行语言理解的电脑程序、句法模型及 语意模型,所述电脑程序用以根据所述句法模型来分析至少一 声音字组的句法,并且依据所述语意^f莫型来理解所述分析出的 句法,用以产生陈述表达式。
8. 4艮据权利要求7所述的声音命令处理装置,其中所述语言理解 代理器为目标装置中的语言理解代理器的复制品。
9. 一种声音命令处理方法,使用含有麦克风的电子装置执行,包 括接收由目标装置所复制的语音辨识代理器,所述语音辨 识代理器包含执行语音辨识的电脑程序、声学模型、词汇及语 言才莫型;以及从所述麦克风接收原始声音资料,使用所述语音辨识代 理器根据所述声学才莫型处理所述原始声音资料,并且产生相应 于所述词汇与所述语言才莫型的至少 一声音字组。
10. —种电子装置,所述电子装置包括输入装置,用以输入原始声音资料;声音命令控制器,用以辨识所述原始声音资料,所述语音辨识代理器包含语音辨识代理器、语言理解4义理器及意义呈现代理器; 认证码;其中,当所述电子装置连接远端装置时,所述语音辨识 ^理器依据所述i人i正码选一奪性的更新所述语音辨识^理器、所 述语言理解代理器及所述意义呈现代理器。
全文摘要
本发明实施例披露了一种声音命令处理装置,其中包括行动代理器执行平台。行动代理器执行平台包括内部平台、至少一个代理器、行动代理器执行情境与行动代理器管理单元。行动代理器执行情境提供应用程序介面,使得代理器通过应用程序介面使用内部平台的资源。行动代理器管理单元掌理代理器的初始化、执行、暂时中止、重新开始与分派。代理器用以执行有关声音命令处理的功能。
文档编号G10L15/00GK101312040SQ20071010614
公开日2008年11月26日 申请日期2007年5月24日 优先权日2007年5月24日
发明者胡志麟 申请人:明基电通股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1