语音辨识系统的制作方法

文档序号:6556164阅读:203来源:国知局
专利名称:语音辨识系统的制作方法
语音辨识系统技朮领域本发明是有关于一种语音辨识技术,特别是有关于一种应用于电子数据处 理装置中的语音辨识装置、系统以及方法。背景技朮随着电子数据处理技术的日新月异,集合体积小重量轻且功能强大的电子 数据处理装置已能透过相当合理的价格进入消费大众的日常生活中。举例而言,现今市面上的个人数字助理(PDA),不但能够让使用者处理个人的行程、文书 及/或电子邮件等数据,更能提供使用者随身享受影音或电子游戏等多媒体功 能。除了个人行动数据处理与多媒体播放功能外,拜行动通信技术发展之赐, 具有如拨打行动电话或提供卫星导航等行动通信功能的个人数字助理亦所在多有。由于体积縮小之故,该些电子数据处理装置的输入单元通常无法像个人计 算机或笔记型计算机般,能具备完整功能的输入键盘,当然也不便外接如鼠标 等接口设备。该些电子数据处理装置主要是利用简单的操作按钮搭配触控式的 液晶屏幕执行数据输入。此种输入方式除了必须改变使用者以往利用计算机的 键盘输入习惯外,在输入操作的效率上亦无法与键盘的输入方式相提并论。另一方面,这些体积适于随身携带的电子数据处理装置,搭配上前述行动 电话与卫星导航等行动通信功能时,使用者往往会将其运用在行车、登山等户 外行动中。然而在使用者携带电子数据处理装置移动的过程中,要准确且快速 的输入数据,对于使用者而言则是一种考验。为解决前述手动输入所产生的诸多不便,已知技术导入语音输入与辨识系 统,透过使用者以语音输入的方式,直接操作或输入数据至该电子数据处理装 置。语音输入固然较手动输入便利,同时不会因为输入而影响使用者移动时的 注意力或步调。然而语音辨识的正确率与速度却是语音辨识系统无法完全取代 手动输入的关键所在。进一步以具有卫星导航与行路指示功能的个人数字助理为例,当使用者欲 从甲地出发到达乙地时,至少须输入乙地数据,以供该个人数字助理取得相对 应的路线数据以进行由甲地至乙地的导航。数据的输入方式除了己知透过手动 输入或点选选项输入目的地数据的方式外,语音输入则成为另一种便利的输入 方式。但碍于现行个人数字助理软硬件的数据处理效能, 一旦输入的语音数据 过于复杂或数据库中相似的数据过多时,辨识的成功率与速度均无法令使用者
为解决前述已知技术的种种缺点,本发明的主要目的在于提供一种能够增 进语音辨识速度的语音辨识装置、系统以及方法。本发明的另一目的在于提供一种能够增进语音辨识正确率的语音辨识装 置、系统以及方法。为达成前述以及其它的目的,本发明的语音辨识系统是应用于电子数据处 理装置中,其包括若干个分别用以储存不同层级数据的不同层级数据库;用 以接收语音信号的接收模块;用以将该语音信号转换成数字信号的转换模块; 用以依据预设的切割规则将该数字信号切割成若干个具有先后时间顺序的次语 音数据的切割模块;以及用以依据该若干个具有先后时间顺序的次语音数据依 序地自相对应的层级数据库中检索出匹配的层级数据直至该些次语音数据检索 结束为止,并将该数字信号与该检索出匹配的层级数据进行比对的辨识模块。于本发明的一种型态中,该预设的切割规则是为预设的时间长度。于本发明的一种型态中,该若干个不同层级数据库是至少包括具有第一层 级数据的第一层级数据库以及与该第一层级数据库相关联且具有第二层级数据 的第二层级数据库。于本发明的一种型态中,该若干个具有先后时间顺序的次语音数据是至少 包括第一时间顺序的次语音数据以及接续着该第一时间顺序的次语音数据的第 二时间顺序的次语音数据。于本发明的一种型态中,该辨识模块是依据该第一时间顺序的次语音数据 自该第一层级数据库中检索出匹配的第一层级数据,接着依据该第二时间顺序 的次语音数据与由该第一层级数据库中所检索出的第一层级数据自该第二层级 数据库中检索出匹配的第二层级数据。透过前述本发明的语音辨识系统,执行本发明的语音辨识方法的步骤包括: 建立若干个分别用以储存不同层级数据的不同层级数据库;接收语音信号;将 该语音信号转换成数字信号;依据预设的切割规则将该数字信号切割成若干个 具有先后时间顺序的次语音数据;依据该若干个具有先后时间顺序的次语音数 据依序地自相对应的层级数据库中检索出至少一笔匹配的各个层级数据直至该 些次语音数据检索结束为止;以及将该数字信号与该检索出匹配的层级数据进 行比对。于本发明的一种型态中,该预设的切割规则是为预设的时间长度。 于本发明的一种型态中,该若干个不同层级数据库是至少包括具有第一层级数据的第一层级数据库以及与该第一层级数据库相关联且具有第二层级数据的第二层级数据库。
于本发明的一种型态中,该若干个具有先后时间顺序的次语音数据是至少 包括第一时间顺序的次语音数据以及接续着该第一时间顺序的次语音数据的第 二时间顺序的次语音数据。于本发明的一种型态中,该依据「该具有先后时间顺序的次语音数据依序 地自相对应的层级数据库中检索出匹配的各个层级数据直至该些次语音数据检 索结束为止的步骤」是依据该第一时间顺序的次语音数据自该第一层级数据库 中检索出匹配的第一层级数据,接着依据该第二时间顺序的次语音数据与由该 第一层级数据库中所检索出的第一层级数据自该第二层级数据库中检索出匹配 的第二层级数据。本发明也提供一种语音辨识装置,其包括若干个不同层级数据库,其至 少包括具有第一层级数据的第一层级数据库以及与该第一层级数据库相关联且 具有若干个第二层级数据的若干个第二层级数据库,上述若干个第二层级数据 位于不同的第二层级数据库中,至少有部份重复,或者第一层级数据库与第二 层级数据库具有部份重复的数据内容;接收模块,是用以接收语音信号;转换 模块,是用以将该接收模块所接收的语音信号转换成数字信号;以及辨识模块, 是用以将该数字信号与层级数据库的层级数据比对以完成匹配。于本发明的一种型态中,该辨识模块是依据该第一时间顺序的次语音数据 自该第一层级数据库中检索出匹配的第一层级数据,接着依据该第二时间顺序 的次语音数据与由该第一层级数据库中所检索出的第一层级数据自该第二层级 数据库中检索出匹配的第二层级数据。


图1是本发明的语音辨识系统的应用架构示意图。 图2是本发明的语音辨识方法于执行时的流程图。
具体实施方式
以下是通过特定的具体实施例说明本发明的实施方式,熟练此技艺的人士 可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可 通过其它不同的具体实施例加以施行或应用,本说明书中的各项细节亦可基于 不同观点与应用,在不悖离本发明的精神下进行各种修饰与变更。请参阅图1,其中显示本发明的语音辨识系统的应用架构示意图。如图所示, 本发明的语音辨识系统1是应用于电子数据处理装置2中。该电子数据处理装 置2是为个人数字助理,该电子数据处理装置2也包括卫星导航、行路规划与 行路指示等功能。于本发明的其它实施例中,该电子数据处理装置2也可为卫 星导航装置、行动电话、掌上型计算机、手持式计算机、笔记型计算机、个人 计算机、多媒体播放机等具有电子数据处理功能的装置。
本发明的语音辨识系统l包括数据库U、接收模块13、与该接收模块13 电性连接的转换模块15、与该转换模块15电性连接的切割模块17以及与该切 割模块17以及该数据库11电性连接的辨识模块19。该数据库11是用以储存不同层级数据。于本实施例中,该数据库11是划 分成第一层级数据库111以及与该第一层级数据库111相关联的第二层级数据 库113。其中第一层级数据库111是储存第一层级数据,第二层级数据库113则 是储存第二层级数据。该第一层级数据库lll中储存有至少一笔第一层级数据, 该第二层级数据库113则依据该第一层级数据的数量,划分出对应不同的第一 层级数据的第二层级数据域位,每一个第二层级数据域位下则用以储存对应于 该第一层级数据的至少一笔第二层级资料。上述若干个第二层级数据位于不同 的第二层级数据库中,至少有部份重复,或者第一层级数据库与第二层级数据 库具有部份重复的数据内容。具体而言,本发明的语音辨识系统1是应用于道路名称输入的语音辨识。以台湾地区的道路名称为例,目前台湾地区许多行政区域中的道路名称是相同 的,如中山路或中正路可能同时出现在三重市、新庄市与板桥市等行政区域。 在使用者以语音输入「新庄市中正路」时,则一次辨识的内容包括六个字。虽 然前述的不同行政区域会具有相同的道路名称,但各该行政区域中并不会出现 道路名称重复的情形。因此于本实施例中,将该第一层级数据库111中储存道 路名称不会重复的最小单位。另一方面,某些道路名称仅出现于特定的行政区 域,透过层级划分的方式将道路名称资料予以划分并限縮检索范围,则可以避 免辨识过程中因比对数据过多造成效率降低的情况发生。具体而言,包括二个直辖市、五个省辖市、三十个县辖市、六十个镇以及 二百十九个乡的行政区域名称。而第二层级数据库113则依据前述的三百十六 个行政区域名称划分成三百十六个数据域位,各该数据域位则分别储存对应各 该行政区域中所有的道路名称。须特别说明者,是该数据库ll可依据使用者的 需求做更进一步的层级划分,如可精细到各道路名称的段、巷、弄、号等等。 透过前述层级式的数据库划分,将使后续的语音数据比对更具效率。该接收模块13其是用以提供使用者输入语音信号至该电子数据处理装置2 中的具有集音功能的单元,于本实施例中,其是为一麦克风(microphorie)。该转换模块15是用以将该接收模块13所接收的语音信号转换成数字信号。 于本实施例中,该转换模块15是用以将使用者所输入的模拟语音信号转换成数 字信号,因此,当使用者透过该接收模块13输入一组语词「新庄市中正路」的 模拟语音信号时,该转换模块15随即将该模拟语音信号转换成数字信号加以处 理。该切割模块17是用以依据预设的切割规则将该转换模块15所转换的数字 信号切割成若干个具有先后时间顺序的次语音数据。于本实施例中,该预设的
切割规则是为预设的时间长度;该若干个具有先后时间顺序的次语音数据是至 少包括第一时间顺序的次语音数据以及接续着该第一时间顺序的次语音数据的 第二时间顺序的次语音数据。以前述透过该接收模块13所输入的「新庄市中正 路」语音信号为例,为区别出行政区域与道路名称的区别,本实施例是透过时 间区段作为区别标准,因此可在此一时间范围内设定切割点,如设定1.0秒, 则该切割模块17在数字信号1. 0秒的长度点将该数字信号作一切割,以令该数 字信号切割成不同时间顺序的二个次语音数据,如本例的「新庄市」与「中正 路」。须特别说明者,是该切割规则、时间长度及/或切割次数并不限定于前述 揭露的内容,而可依据实际需要进行调整。该辨识模块19是用以依据该若干个具有先后时间顺序的次语音数据依序地 自相对应的层级数据库中检索出匹配的层级数据直至该些次语音数据检索结束 为止。于本实施例中,该辨识模块19是依据该第一时间顺序的次语音数据自该 第一层级数据库111中检索出至少一笔相近似的第一层级数据,接着依据该第 二时间顺序的次语音数据与由该第一层级数据库中所检索出的至少一笔相近似 的第一层级数据自该第二层级数据库113中检索出匹配的第二层级数据。承前所述,该切割模块17将该「新庄巿中正路」的数字信号切割成不同时 间顺序的二次语音数据「新庄市」与「中正路」。其中「新庄市」是前1.0秒所 切割出的第一时间顺序次语音数据,相对的,「中正路」则为第二时间顺序次语 音数据。因此,该辨识模块19首先依据该第一时间顺序次语音数据「新庄市」针对该第一层级数据库111中所储存的数据进行检索,并于检索出该第一层级 数据库111中所储存的行政区域「新庄市」后,再依据该第二时间顺序次语音 数据「中正路」与先前所辨识出的行政区域「新庄巿」,针对该第二层级数据库 113中所储存于「新庄市」字段中的道路名称,藉以检索出是否有道路名称资料 与「中正路」匹配。于本实施例中,该辨识模块19是以该完整数字信号的辨识结果作为该检索 出的第一层级数据与第二层级数据的比对标准,若该检索出的第一层级数据与 第二层级数据与完整数字信号的辨识结果不同,则该辨识模块19重复执行前述 第一时间顺序次语音数据与第二时间顺序次语音数据的辨识。于本实施例中,该辨识模块19除可利用隐藏式马可夫模型(HiddenMarkov Model; H醒)作为语音识别的判断基准,亦可动态时间校正法(Dynamic Time Warping; DTW)来进行语音的辨识。于本发明的另一实施例中,本发明也提供一种语音辨识装置,本发明的语 音辨识装置与前述本发明的语音辨识系统的基本组件与功能相同,惟本发明的 语音辨识装置不包括该切割模块17,而该辨识模块19是直接辨识该转换模块 15所转换且未经过该切割模块17切割的完整数字信号。请参阅图2,其是本发 明的语音辨识方法透过前述本发明的语音辨识系统1执行时的步骤流程图。如
图所示,于步骤S201中,建立若干个分别用以储存不同层级数据的不同层级数 据库。于本实施例中,该若干个不同层级数据库是至少包括具有第一层级数据的第一层级数据库以及与该第一层级数据库相关联且具有第二层级数据的第二层级数据库,上述若干个第二层级数据位于不同的第二层级数据库中,至少有 部份重复,或者第一层级数据库与第二层级数据库具有部份重复的数据内容。接着进至步骤S202。于步骤S202中,接收语音信号。接着进至步骤S203。 于步骤S203中,将该语音信号转换成数字信号。于本实施例中,是用以将 使用者所输入的模拟语音信号转换成数字信号,因此,当使用者输入一组语词 「新庄市中正路」的模拟语音信号时,随即将该转换成数字信号以供处理。接 着进至步骤S204。于步骤S204中,依据预设的切割规则将该步骤S203转换后的数字信号切 割成若干个具有先后时间顺序的次语音数据。于本实施例中,该预设的切割规 则是为预设的时间长度;该若干个具有先后时间顺序的次语音数据是至少包括 第一时间顺序的次语音数据以及接续着该第一时间顺序的次语音数据的第二时 间顺序的次语音数据。以前述输入的「新庄市中正路」语音信号为例,本实施 例是透过时间区段作为区别标准,因此可在此一时间范围内设定切割点,如设 定1. 0秒,则该切割模块17在数字信号1. 0秒的长度点将该数字信号作一切割, 以令该数字信号切割成不同时间顺序的二个次语音数据,如本例的「新庄市」 与「中正路」。接着进至步骤S205。于步骤S205中,依据该第一时间顺序的次语音数据自该第一层级数据库111 中检索出至少一相似的第一层级数据。于本实施例中,是依据该第一时间顺序 次语音数据「新庄市」针对该第一层级数据库111中所储存的数据进行检索, 并于检索出该第一层级数据库111中所储存的行政区域「新庄市」时进至步骤 S206;若否则进至步骤S207。于步骤S206中,依据该第二时间顺序次语音数据,如本例中的「中正路」 与步骤S205所检索出的至少一相似的第一层级数据,如本例中的行政区域「新 庄市」,自该第二层级数据库113中检索出匹配的第二层级数据,亦即于本实施 例中,是针对该第二层级数据库113中所储存于「新庄市」字段中的道路名称, 藉以检索出是否有道路名称资料与「中正路」匹配。若检索出匹配的数据,则 提供该电子数据处理装置2检索成功的信息,俾供该电子数据处理装置2依据 该检索的数据进行行路指示;若否,则进至步骤S207。于步骤S207中,提供该电子数据处理装置2检索失败的信息,俾供该电子 数据处理装置2进行后续的处理。于本发明的另一实施例中,于步骤S206后也 包括将该数字信号与该检索出匹配的至少一相似的第一层级数据与相对应的第 二层级数据进行比对,以确认该数字信号与何一层级数据相同,透过此步骤能 大幅减少未切割的数字信号比对的数据数量,俾达到增进语音数据辨识的效率。 举例而言,若检索出来的第一层级资料与第二层级资料有「『新庄市』『中正路』」、「『新店市』『中正路』」以及「『新竹市』『中正路』」三组,而未切割的数字信号亦即使用者语音输入的完整数据假设为「新庄市中正路」,则将「新庄市中正路」与「『新庄市』『中正路』」、「『新店市』『中正路』」以及「『新竹市』 『中正路』」三组语音数据进行比对,由于比对范围被限縮在三笔语音数据内,故较已知以全部数据库中的语音数据做比对准确率与效率均大幅提升。综上所述,本发明的语音辨识装置、系统以及方法,透过不同层级数据库的建立,以及前述该接收模块、转换模块、切割模块与辨识模块间的相互运作,以增进语音辨识正确率与速度。
权利要求
1.一种语音辨识系统,是应用于电子数据处理装置中,其特征在于其包括若干个不同层级数据库,是分别用以储存不同层级数据;接收模块,是用以接收语音信号;转换模块,是用以将该接收模块所接收的语音信号转换成数字信号;切割模块,是用以依据预设的切割规则将该转换模块所转换的数字信号切割成若干个具有先后时间顺序的次语音数据;辨识模块,是用以依据该切割模块所切割成的若干个具有先后时间顺序的次语音数据依序地自相对应的层级数据库中检索出匹配的层级数据直至该些次语音数据检索结束为止,并将该数字信号与该检索出匹配的层级数据进行比对。
2. 根据权利要求1所述的语音辨识系统,其特征在于该预设的切割规则 是为预设的时间长度。
3. 根据权利要求1所述的语音辨识系统,其特征在于该若干个不同层级 数据库是至少包括具有第一层级数据的第一层级数据库以及与该第一层级数据 库相关联且具有第二层级数据的第二层级数据库。
4. 根据权利要求3所述的语音辨识系统,其特征在于该若干个具有先后时间顺序的次语音数据是至少包括第一时间顺序的次语音数据以及接续着该第 一时间顺序的次语音数据的第二时间顺序的次语音数据。
5. 根据权利要求4所述的语音辨识系统,其特征在于该辨识模块是依据该第一时间顺序的次语音数据自该第一层级数据库中检索出匹配的第一层级数 据,接着依据该第二时间顺序的次语音数据与由该第一层级数据库中所检索出 的第一层级数据自该第二层级数据库中检索出匹配的第二层级数据。
6. 根据权利要求5所述的语音辨识系统,其特征在于该第一层级数据库中储存有至少一笔第一层级数据,该第二层级数据库则依据该第一层级数据的 数量,划分出对应不同的第一层级数据的第二层级数据域位,且每一个第二层 级数据域位下则用以储存对应于该第一层级数据的至少一笔第二层级资料。
7. 根据权利要求5所述的语音辨识系统,其特征在于该辨识模块是以该数字信号的辨识结果作为该检索出的第一层级数据与第二层级数据的比对标 准,若该检索出的第一层级数据与第二层级数据与该数字信号的辨识结果不同, 则该辨识模块重复执行该第一时间顺序次语音数据与第二时间顺序次语音数据 的辨识。
8. 根据权利要求5所述的语音辨识系统,其特征在于各该第一层级数据与相对应的第二层级数据库中均不具有重复的数据内容。
9. 根据权利要求1所述的语音辨识系统,其特征在于该电子数据处理装 置是为个人数字助理、卫星导航装置、行动电话、掌上型计算机、手持式计算 机、笔记型计算机、个人计算机以及多媒体播放机其中的一者。
10. —种语音辨识装置,其特征在于其包括若干个不同层级数据库,至少包括具有第一层级数据的第一层级数据库以 及与该第一层级数据库相关联且具有若干个第二层级数据的若干个第二层级数 据库,上述若干个第二层级数据位于不同的第二层级数据库中,至少有部份重 复,或者第一层级数据库与第二层级数据库具有部份重复的数据内容;接收模块,是用以接收语音信号;转换模块,是用以将该接收模块所接收的语音信号转换成数字信号; 辨识模块,是用以将该数字信号与层级数据库的层级数据比对以完成匹配。
11. 一种语音辨识方法,是应用于电子数据处理装置中,其特征在于其包括(1) 建立若干个分别用以储存不同层级数据的不同层级数据库;(2) 接收语音信号;(3) 将该语音信号转换成数字信号;(4) 依据预设的切割规则将该数字信号切割成若干个具有先后时间顺序的 次语音数据;(5) 依据该若干个具有先后时间顺序的次语音数据依序地自相对应的层级 数据库中检索出匹配的层级数据直至该些次语音数据检索结束为止;(6) 将该数字信号与该检索出匹配的层级数据进行比对。
12. 根据权利要求11所述的语音辨识方法,其特征在于该预设的切割规则是为预设的时间长度。
13. 根据权利要求11所述的语音辨识方法,其特征在于该若干个不同层 级数据库是至少包括具有第一层级数据的第一层级数据库以及与该第一层级数 据库相关联且具有第二层级数据的第二层级数据库。
14. 根据权利要求13所述的语音辨识方法,其特征在于该若干个具有先 后时间顺序的次语音数据是至少包括第一时间顺序的次语音数据以及接续着该 第一时间顺序的次语音数据的第二时间顺序的次语音数据。
15. 根据权利要求14所述的语音辨识方法,其特征在于该步骤(5)是依据该第一时间顺序的次语音数据自该第一层级数据库中检索出匹配的第一层级数 据,接着依据该第二时间顺序的次语音数据与由该第一层级数据库中所检索出 的第一层级数据关联的第二层级数据库中检索出匹配的第二层级数据。
16. 根据权利要求15所述的语音辨识方法,其特征在于该第一层级数据库中储存有至少一笔第一层级数据,该第二层级数据库则依据该第一层级数据 的数量,划分出对应不同的第一层级数据的第二层级数据域位,且每一个第二 层级数据域位下则用以储存对应于该第一层级数据的至少一笔第二层级资料。
17. 根据权利要求15所述的语音辨识方法,其特征在于各该第一层级数 据与相对应的第二层级数据库中均不具有重复的数据内容。
18. 根据权利要求11所述的语音辨识方法,其特征在于该电子数据处理 装置是为个人数字助理、卫星导航装置、行动电话、掌上型计算机、手持式计 算机、笔记型计算机、个人计算机以及多媒体播放机其中之一。
全文摘要
一种语音辨识装置、系统以及方法,是应用于电子数据处理装置中,主要是依据预先设定的若干个数据层级建立相对应的若干个不同层级数据库,于接收到语音信号后,将该语音信号转换成数字信号,并依据预设的切割规则将该数字信号切割成若干个具有先后时间顺序的次语音数据,再依据该若干个具有先后时间顺序的次语音数据依序地自相对应的层级数据库中检索出匹配的层级数据直至该些次语音数据检索结束为止。因此,本发明是主要透过不同层级的阶段式数据检索,藉以达到增进语音辨识效率的目的。
文档编号G06F17/30GK101114448SQ20061003678
公开日2008年1月30日 申请日期2006年7月28日 优先权日2006年7月28日
发明者张建阳, 杨善智 申请人:佛山市顺德区顺达电脑厂有限公司;神达电脑股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1