声音命令处理装置与方法

文档序号：2837266阅读：327来源：国知局

专利名称：声音命令处理装置与方法
技术领域：
本发明涉及一种语音辨识技术，特別是一种声音命令处理装置及方法。
背景技术：
i吾音多争i口、寺支术(speech/voice recognition)^皮i人为是一种具^f吏用者亲禾口力的人才凡介面(user-friendly man-machine-interface, MMI), i吾音
辨识技术现已发展来分辨人类说话的自然语言的意义。

发明内容
本发明实施例4皮露了一种声音命令处理装置，其中包括行动代理器执行平台。行动代理器执行平台包括内部平台、至少一个代理器、行动代理器执行情境与行动代理器管理单元。行动代理器执行情境提供应用程序介面，使得代理器通过应用程序介面使用内部平台的资源。行动代理器管理单元掌理代理器的初始化、执行、暂时中止、重新开始与分派。代理器用以扭乂f亍有关声音命令处理的功能。
本发明实施例4皮露了一种声音命令处理方法，包括以下步驶《。接收由目标装置所复制的语音辨识代理器，此语音辨识代理器包含执行语音辨识的电脑程序、声学模型、词汇及语言才莫型。使用语音辨识代理器根据声学模型处理原始声音资料，并且产生相应于词汇与语言模型的至少一个声音字组。本发明提供了一种声音命令处理装置，包括行动代理器执行平台，包括内部平台；至少一代理器；行动代理器执行情境，用以提供应用程序介面，使得所述代理器通过所述应用程序介面〗吏用所述内部平台的资源；以及行动代理器管理单元，用以掌理所述代理器的初始化、执行、暂时中止、重新开始与分派。其中，所述代理器用以执行有关声音命令处理的功能。
其中所述行动代理器管理单元负责与所述代理器间进行通讯，并且进行有关声音命令处理的控制。
其中所述代理器中包含委派任务，以及用以执行所述委派任为所需的逻辑。
其中所述代理器为语音辨识代理器，包含#丸4于语音辨识的电脑程序、声学模型、词汇及语言模型，所述电脑程序用以根据所述声学才莫型处理原始声音资一牛，并且产生相应于所述词汇与所述语言冲莫型的至少一声音字组。
其中所述语音辨识代理器为目标装置中的语音辨识代理器的
复制品0
其中所述行动代理器管理单元复制所述语音辨识代理器，并且传送所述复制的语音辨识代理器至远端装置的行动代理器执行平台中，用以通过所述远程装置执行语音辨识。
其中所述代理器为语言理解代理器，包含执行语言理解的电脑程序、句法模型及语意模型，所述电脑程序用以根据所述句法模型来分析至少一声音字组的句法，并且依据所述语意模型来理解所述分析出的句法，用以产生陈述表达式。其中所述语言理解代理器为目标装置中的语言理解代理器的复制品。
其中所述行动代理器管理单元复制所述语言理解代理器，并且传送所述复制的语言理解代理器至远端装置的行动代理器执行平
台中，用以通过所述远端装置^vf亍语言理解。
其中所述代理器为意义呈现代理器，包含执行意义呈现的电脑程序及多个声音命令，所述电脑程序用以取得相应于陈述表达式的所述声音命令中之一者。
其中所述意义呈现代理器为目标装置中的意义呈现代理器的
复制品。
其中所述行动代理器管理单元复制所述意义呈现代理器，并且传送所述复制的意义呈现代理器至远端装置的行动代理器执行平台中，用以通过所述远端装置扭j亍意义呈现。
其中所述行动代理器管理单元执行声音命令。
本发明还提供了一种声音命令处理方法，使用含有麦克风的电
子装置执行，包括接收由目标装置所复制的语音辨识代理器，所述语音辨识代理器包含执行语音辨识的电脑程序、声学^^莫型、词汇及语言模型；以及从所述麦克风接收原始声音资料，使用所述语音辨识代理器根据所述声学模型处理所述原始声音资料，并且产生相应于所述词汇与所述i吾言才莫型的至少一声音字组。
其中所述电子装置包括行动代理器执行平台，包括内部平台；行动代理器执行情境，用以提供应用程序介面，使得所述语音辨识代理器通过所述应用^呈序介面^f吏用所述内部平台的资源；以及4亍动代理器管理单元，用以掌理所述语音辨识代理器的初始化、#丸行、暂时中止、重新开始与分派。
所述的声音命令处理方法还包括接收由目标装置所复制的语言理解代理器，所述语言理解代理器包含执行语言理解的电脑程序、句法模型及语意模型；以及使用所述语言理解代理器根据所述句法模型来分析所述声音字组的句法，与依据所述语意模型来理解所述分析出的句法，用以产生陈述表达式。
所述的声音命令处理方法还包括接收由目标装置所复制的意义呈现代理器，所述意义呈现代理器包含执行意义呈现的电脑程序及多个声音命令；以及使用所述意义呈现代理器取得相应于所述陈述表达式的所述声音命令中之一者。
所述的声音命令处理方法还包括传送所述取得的声音命令至所述目标装置。
本发明还提供了一种电子装置，所述电子装置包括输入装置，用以输入原始声音资料；声音命令控制器，用以辨识所述原始声音资料，所述语音辨识代理器包含语音辨识代理器、语言理解代理器及意义呈现代理器；认证码；其中，当所述电子装置连接远端装置时，所述语音辨识代理器依据所述认证码选择性的更新所述语音辨识代理器、所述语言理解代理器及所述意义呈现代理器。
其中所述声音命令控制器是依序更新所述语音辨识代理器、所述语言理解代理器及所述意义呈现^理器。

图1表示依据本发明实施例的声音命令处理系统的网络架构示
意图2表示依据本发明实施例的移动电话装置的硬件架构图3表示依据本发明实施例的个人电脑11的硬件架构图4是依据本发明实施例的声音命令处理的五阶辜殳示意图5是依据本发明实施例的在语音辨识阶段、语言理解阶段与意义呈现阶段中所需的主要实体示意图6为典型的声音命令处理方法的方法流程图7是依据本发明实施例的行动代理器执行平台；
图8是依据本发明实施例的声音命令处理服务示意图9A至9D是依据本发明实施例的代理器委任与分派示意图。
具体实施例方式
图1是表示依据本发明实施例的声音命令处理系统的网络架构示意图。在优选的情况下，此网络架构包括个人电脑11与手才几13。相较于个人电脑11，手才凡13可配备较简易的运算资源，例如，配备较慢的处理器、容量较少的主存储器与储存空间等。其中，个人电脑11与手才几13间可以实体连线(wired-connection)、无线或混合实体连线与无线的方式彼此连接。而本领域技术人员都了解个人电脑11与手机13间的连结也许须通过多个中介节点，例如，无线接取点(access point)、基;也台(base station)、集线器(hub)、桥接器 (bridge)、路由器(router)或其它用以处理网络通讯的中介节点。个人电脑11可代表一个目标装置(target device),而手机13可代表一个远端装置(remote device)。手机13中配备有一个麦克风，用以接收邻近的4吏用者的声音讯号。
图2是表示依据本发明实施例的移动电话装置的石更件架构图。移动电话装置13可包括凄t字讯号处理单元(Digital Signal Processor, DSP)21、冲莫拟基带(Analog Baseband)22、射步贞单元(Radio Frequency section, RF section)23、天线24、控制单元25、屏幕26、键盘(key pad)27、麦克风28与记忆装置29。除jt匕之外，本4页;1或#支术人员也可将远端装置实施于配备有麦克风的其它手持式装置的样态 (configuration)上, <列^口个人凄史字助J里(digital personal assistant, PDA)、凄t字音乐插^文器(MP3 player)、或其它可携式消费性电子产品等，或实施于配备有麦克风的各式各样的电脑系统样态上。控制单元25可为孩i处理单元(Micro Processing Unit; MPU)，用以乂人i己忆装置29读取程序模组，并执行所读取的程序模组来完成声音命令处理方法。记忆装置29包含只读存4诸器(read only memory; ROM)、闪存(flash ROM)以及/或动态存取存卡者器(random access memory; RAM),用以储存可供控制单元25执行的程序才莫组。麦克风25用以感测邻近的〗吏用者的声音讯号，并传送至婆史字讯号处理单元21，用以将感测到的模拟讯号转换成数字讯号，以供后续的控制单元25 处理。
图3表示依据本发明实施例的个人电脑11的硬件架构图。个人电脑ll,包括处理单元31、存储器32、储存装置33、输出装置 34、输入装置35、通讯装置36,并4吏用总线37将其连结在一起。本领域4支术人员可将目标装置实施于各式各才羊的电脑系统才羊态 (configuration)上，例如，多处理器系统、以」微处理器为基础或可程序化的消费性电子产品(microprocessor-based or programmable consumer electronics)、网络电月亩、迷你、电月卤、大型主才几、笔i己型电脑以及类似的设备。存储器32包含只读存储器(read only memory; ROM)、闪存(flash memory)以及/或动态存取存+者器(random access memory; RAM),提供储存空间，用以储存可供处理单元31执行的程序才莫组、资料、档案以及纪录。一般而言，程序才莫组包含常序 (routines)、程序(program)、对象(object)、元件(component)等，用以执行声音命令处理功能。本发明也可以实施于分散式运算环境，其运算工作被连结于通讯网络的远端处理设备所执行。在分散式环境中，声音命令处理的功能执行，也许由本地以及多部远端电脑系统共同完成。储存装置33包含硬盘装置、软盘装置、光盘装置或随身盘装置，提供储存空间，用以存取硬盘、软盘、光盘、随身盘中所储存的程序模组、资料、档案以及纪录。
图4是依据本发明实施例的声音命令处理的五阶段示意图，包含声音命令才妄收(voice command acquisition)P41 、 "i吾音辨识(speech recognition)P43 、 i吾言5里解(language understanding)P45 、意义呈J见 (meaning representation)P47与命令4丸4亍(command execution)P49等阶段。图5是依据本发明实施例的在语音辨识阶段P43、语言理解阶段P45与意义呈现阶段P47中所需的主要实体示意图。在声音命令4妄收阶羊殳P41中，声音命令话i吾(voice command speaking)会净皮截听(intercepted)并塑模(modeled)为声音资料的原始输入(也就是原始声音资妹+)。此原始声音资料在输入到语音辨识P43前，会再加以处 J里，例如资冲牛净^ft 、过滤与区隔(data cleaning, filtering and segmentation)。在语音辨识阶段P43中，原始声音资料会根据内建的声学才莫型(acoustic model)611;故处理，接着，产生相应于语言才莫型 (language model)615与i司;^匚(lexicon)613的声音字纟且(voice words)。在i吾言理解阶^殳P45中，依据内建的语言句法才莫型(language syntax model)631来分析声音字组的句法(syntax),以及依据内建的语意模型(semantic model)633来理解分对斤出的句法。其结果会4安照特定的呈J见^见贝'J (representation rule)635与事4牛背景(disclosure context)637 来产生陈述表达式(statement expression),在意义呈^L阶^: P47中，取得的陈述表达式^皮理解成为一个有意义的特定声音命令。理解的结果会对应到一个包含声音命令的意义呈现的有限空间中，否则，此理解的结果没有定义的声音命令。在命令执行阶段P49中，执行相应于有效声音命令的特定工作。
图6为典型的声音命令处理方法的方法流程图，由个人电脑11 与移动电话13所执行。此流程图并非用以决定是否具可专利性的已知技术，而仅用以显示发明人所发觉的问题。移动电话13执行声音命令接收阶I殳P41的作业，并且将产生的原始声音资料传送给个人电脑ll(步骤S611)。个人电脑11在4妄收到原始声音资津+后(步骤S511),执行语音辨识阶段P43(步骤S531至S535)、语言理解阶段(步骤S551)与意义呈现阶段(步骤S553至S571)的作业。当个人电脑11判断无法产生有用的辨识结果时(步骤S533),传送语音辨识失败讯息给移动电话13(步骤S535与S631)。当个人电脑11无法取得相应的声音命令时(步骤S555与S557)，传送无效声音命令讯息给移动电话13(步艰《S559与S651)。当个人电脑11可取得相应的声音命令时(步骤S555与S559),执行取得的声音命令，并传送执行结果或资料给移动电话13(步骤S571、 S573与S671)。此典型的声音命令处理方法具有以下的缺点。原始声音资料的传输通常需要耗费较多的网络频宽，并且移动电话13需要通过个人电脑11的通知才能得知语音辨识与声音命令取得结果，降低声音命令处理的效率。
execution platform)，其中存在一个以代理器为基础的声音命令控制器，用以智能型;也进^f亍有关声音命令处理的控制。个人电脑11与
12手机13都提供此行动代理器执行平台。行动代理器执行平台包含三个元寸牛4亍动^^里器^^亍情境(mobile agent execution context)、 4亍动4戈理器传^r通i凡十办i义(mobile agent transport protocol)、以及^J里器委派与控制(agent delegation and control)。 4亍动4戈理器扭^f亍情境730 是指一个代理器执行环境，提供独立的应用程序介面，使得一个正在执行的代理器可以使用原有平台(native platform)710的资源。每一个代理器都拥有相应于委派任务的特定生命周期731。行动代理器管理单元733用以掌理代理器的初始化、执行、暂时中止、重新开始与分派。应用程序层级的代理器传输通讯协议735用来建立个人电脑11与手才几13间的两个4亍动^理器执4亍平台间的通iK管道。
图8是依据本发明实施例的声音命令处理服务示意图。声音命令控制器810负责与语音辨识、语言理解与意义呈现代理器831、 833与835间进4亍通讯，也可称为声音命令应用程序750(图7)中。个人电脑11与手机13均提供行动代理器执行平台，也就是，任一个^f亍动^理器可在电脑平台(computer platform)或手才几平台(mobile phone platform)上执行。
图9A至9D是依据本发明实施例的代理器委任与分派示意图。参考图9A,个人电脑11中的声音命令控制器810可分派并储存常驻一个代理器在手机13中的行动代理器执行平台上。每一个代理器中包含委派任务(使用电脑资料表示法呈现)，以及用以执行委派任务所需的逻辑。详而言之，声音命令控制器810可复制(clone)自身的语音辨识代理器831、语言理解代理器833与意义呈现代理器 835中的至少者，并将复制的^理器831，、 833，以及/或835，迁移 (migrate)并储存至手机13中的行动代理器执行平台上。语音辨识代理器831，可包含语音辨识的电脑程序、演算法、声学模型的模式 (patterns)、词汇及语言模型等，用以在不需要再与个人电脑11互动的情况下，远端地执行语音辨识。类似地，语言理解代理器833，包含语言理解的电脑程序、演算法、句法与语意模型、以及用以判
断输入的声音可能为何种语言以及使用者可能说了哪些字(terms)。意义呈现代理器835，包含意义呈现的电脑程序、演算法与使用特定呈现格式的多个声音命令，用以解释声音输入的意义，并且将此意义转换成为声音命令中之一者。解出的声音命令会被传送到个人电脑11,接着被个人电脑11中的声音命令控制器810所执行。在适当的应用领域上，本领域4支术人员也可直接^f吏用手机13中的声音命令控制器810，执行解出的声音命令。
分派这些代理器的次序必须相应于如图5所示的声音命令处理阶段的顺序性。参考图9B,声音命令控制器810可分派并常驻复制的语音辨识代理器831，在手4几11中，用以协助远程的声音命令控制器810，。当复制的i吾音辨识4、理器831，已存在于手4几11中，声音命令控制器810也可只更新语音辨识^理器831，中的特定电脑程序、演算法、声学才莫型的模式(pattems)、词汇或语言模型。当远端的声音命令控制器810，感测到使用者的声音输入，语音辨识代理器831，可自行处理此声音输入。如果语音辨识代理器831，成功地产生辨识结果，则代理器831，通过实体连线/网络传送此结果给个人电脑11的语言理解代理器833或声音命令控制器810，传送的内容可以是辨识出的文字符串。如果i吾音辨识^f气理器831，无法产生辨识结果，则代理器831，可产生即时的通知。4吏用者马上发觉此情况并换_ 供新的声音输入。此外，相较于个人电脑11的语音辨识代理器831, 语音辨识代理器831，可产生较好的辨识结果，因为代理器831，4交接近^f吏用者，可才企测出i兌"i舌场合(speaking venue)、环境情境 (surrounding context)与背景噪音(background noise), 并且不会在网络传输过程中受到干扰。在此须注意的是，当语言理解代理器与意义呈现代理器在手才几13中批J亍时，也可具有这些优点。参考图9C,在接收到从语音辨识代理器831，所传来的辨识结果后，复制的语言理解代理器833，可被迁移至手机13中，用以与语音辨识^理器831，协同合作。当复制的语言理解代理器833，已存在于手才几11中，也可只更新语言理解代理器833，中的特定电脑禾呈序、演算法、特定的句法或语意才莫型。搭配辨识出的结果，语言理解代理器833，按照语言语法与语意来分析声音资料，并试着理解此声音资料的语言表达结构。本领域技术人员都了解，声音命令也许无法完全符合语法与语意少见则，可参考内建的知识来消除声音资料的不明确意义。如果语言理解代理器833，成功地产生理解结果，则代理器833，通过实体连线/网络传送此结果给个人电脑11的意义理解代理器835或声音命令控制器810。如果语言理解代理器833，无法产生理解结果，则代理器833，可产生即时的通知，让〗吏用者则可马上发觉此情况。
参考图9D，在接收到/人语言理解代理器833，所传来的理解结果后，复制的意义呈现^C理器835，可#1迁移至手才几13中，用以与语言理解代理器833，协同合作。当复制的意义呈现代理器835，已存在于手才几11中，也可只更新意义呈现代理器835，中的特定电脑程序、演算法或声音命令。如果相应于理解结果的意义可对应到事先定义的声音命令集合中，则意义呈现代理器835，传送此对应的声音命令给个人电脑11的声音命令控制器810。如果意义呈现代理器 835，无法对应到声音命令，则代理器835，可产生即时的通知，让使用者则可马上发觉此情况。本4页i或才支术人员也可以在手才几13还未开始进4亍实际的声音命令处理前，个人电脑11 ^吏用如上所述的顺序来复制自身的语音辨识代理器831、语言理解代理器833与意义呈现代理器835,并将复制的代理器831，、 833，与835，迁移至手机 13中的行动代理器执行平台上。
15图9A中，个人电脑11对手机13分派声音命令控制器810的方法可以才艮据手才几13与个人电脑11连线通ifl时所与用的iU正码找出对应的声音命令控制器81,上述认证码可以预存在手机13内部的存4诸器中，可以为4吏用者iU正石马、SIM卡石马、IP》也址等。
本发明的方法与系统，或特定型态或其部4分，可以以禾呈序石马的型态包含于实体媒体，如软盘、光碟片、硬盘、或是任何其它机器可读取(如电脑可读取)储存媒体，其中，当程序码被机器，如电脑载入且执行时，此机器变成用以参与本发明的装置。本发明的方法与装置也可以以程序码型态通过一些传送々某体，如电线或电缆、光纤、或是任何传输型态进行传送，其中，当程序码被机器，如电脑接收、载入且执行时，此机器变成用以参与本发明的装置。当在一 :ll殳用途处玉里单元(general画purpose processing unit)实际运作时，禾呈序码结合处理器提供操作类似于应用特定逻辑电路的独特装置。
针对一个特定的是统元件，说明书及权利要求书中会使用一个名称来为其命名。本领域技术人员都了解，消费电子设备的制造者也许会使用不同的命名来称呼内容中所对应的系统元件。此文件并不想要以不同的名称来区别元件间的不同，而是4吏用不同的功能描述来进4亍区别。
虽然本发明已以优选实施例"坡露如上，然其并非用以限定本发明，本领域技术人员，在不脱离本发明的精神和范围内，当可做一些更动与润饰，因此本发明的保护范围当视所附的权利要求所界定者为准。
主要元件符号说明
11 个人电脑 13~手才几21 凄t字ifl号处理单元
23 射频单元
25 控制单元
27~键盘
29 记忆装置
32 存储器
34 输出装置
36 通讯装置
P41 声音命令接收阶段
P45 语言理解阶4殳 P49 命令执行阶段
613 词汇
631 语言句法模型 635 呈现规则
22 模拟基带
24 天线
26 屏幕
28 麦克风
31 处理单元
33-储存装置
35 输入装置
37 总线
P43 语音辨识阶段
P47 意义呈现阶段
611 声学才莫型
615 语言模型
633 语意模型
637 事件背景
S511、 S531......S571、 S573 方法步骤
S611、 S631、 S651、 S671 方法步艰《
710 原有平台730 行动代理器执行情境；731 生命周期
733 4于动代理器管理单元
735 代理器传输通讯协议
810、 810，声音命令控制器
831、 831，语音辨识代理器
833、 833， i吾言理解4戈理器
835、 835，意义呈现代理器
权利要求
1. 一种声音命令处理装置，包括行动代理器执行平台，包括内部平台；至少一4戈理器；行动代理器执行情境，用以提供应用程序介面，使得所述代理器通过所述应用程序介面使用所述内部平台的资源；以及4亍动^理器管理单元，用以掌理所述4<理器的初始化、才丸行、暂时中止、重新开始与分派。其中，所述代理器用以执行有关声音命令处理的功能。
2. 根据权利要求1所述的声音命令处理装置，其中所述行动代理器管理单元负责与所述代理器间进行通讯，并且进行有关声音命令处理的控制。
3. 根据权利要求1所述的声音命令处理装置，其中所述代理器中包含委派任务，以及用以4丸行所述委派任为所需的逻辑。
4. 根据权利要求3所述的声音命令处理装置，其中所述代理器为语音辨识代理器，包含执行语音辨识的电脑程序、声学才莫型、词汇及语言冲莫型，所述电脑程序用以才艮据所述声学才莫型处理原始声音资料，并且产生相应于所述词汇与所述语言才莫型的至少一声音字组。
5. 才艮据4又利要求4所述的声音命令处理装置，其中所述语音辨识代理器为目标装置中的语音辨识代理器的复制品。
6. 根据权利要求4所述的声音命令处理装置，其中所述行动代理器管理单元复制所述语音辨识代理器，并且传送所述复制的语音辨识代理器至远端装置的行动代理器才丸行平台中，用以通过所述远程装置扭J于语音辨识。
7. 根据权利要求3所述的声音命令处理装置，其中所述代理器为语言理解代理器，包含执行语言理解的电脑程序、句法模型及语意模型，所述电脑程序用以根据所述句法模型来分析至少一声音字组的句法，并且依据所述语意^f莫型来理解所述分析出的句法，用以产生陈述表达式。
8. 4艮据权利要求7所述的声音命令处理装置，其中所述语言理解代理器为目标装置中的语言理解代理器的复制品。
9. 一种声音命令处理方法，使用含有麦克风的电子装置执行，包括接收由目标装置所复制的语音辨识代理器，所述语音辨识代理器包含执行语音辨识的电脑程序、声学模型、词汇及语言才莫型；以及从所述麦克风接收原始声音资料，使用所述语音辨识代理器根据所述声学才莫型处理所述原始声音资料，并且产生相应于所述词汇与所述语言才莫型的至少一声音字组。
10. —种电子装置，所述电子装置包括输入装置，用以输入原始声音资料；声音命令控制器，用以辨识所述原始声音资料，所述语音辨识代理器包含语音辨识代理器、语言理解4义理器及意义呈现代理器；认证码；其中，当所述电子装置连接远端装置时，所述语音辨识 ^理器依据所述i人i正码选一奪性的更新所述语音辨识^理器、所述语言理解代理器及所述意义呈现代理器。
全文摘要
本发明实施例披露了一种声音命令处理装置，其中包括行动代理器执行平台。行动代理器执行平台包括内部平台、至少一个代理器、行动代理器执行情境与行动代理器管理单元。行动代理器执行情境提供应用程序介面，使得代理器通过应用程序介面使用内部平台的资源。行动代理器管理单元掌理代理器的初始化、执行、暂时中止、重新开始与分派。代理器用以执行有关声音命令处理的功能。
文档编号G10L15/00GK101312040SQ20071010614
公开日2008年11月26日申请日期2007年5月24日优先权日2007年5月24日
发明者胡志麟申请人:明基电通股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡志麟
技术所有人：明基电通股份有限公司
我是此专利的发明人

上一篇：电子乐器及记录电子乐器的处理程序的记录介质的制作方法
上一篇：一种播放与当前位置相关旅游信息的方法