通信终端处理声音信号的方法和使用该方法的通信终端的制作方法

文档序号:2829189阅读:325来源:国知局
专利名称:通信终端处理声音信号的方法和使用该方法的通信终端的制作方法
技术领域
本发明涉及通信终端处理声音信号的方法以及使用该方法的通信终 端,具体地涉及与不同声音获取系统一起使用该通信终端。 本发明可以特别地使用在移动电话中。
背景技术
有一些已知的、使用必需的语音识别功能的通信终端,例如通过说出 被叫方的姓名,或为了启动诸如日历的显示的某种功能,而发起呼叫。在通信终端中,特别是在移动通信终端的情况下,语音识别装置,特 别是处理和存储信息的装置都是受限的,因为重量、成本和整体尺寸的约 束是这些通信终端设计者必须遵从的。此外,如下文将详细描述的相同的通信终端,以及由此相同的语音识 别装置可以与不同的声音获取系统一起使用,该系统尤其包括不同的话筒 和/或不同的到通信终端的连接装置。图1概略地表示了现有技术的一个例子中的语音识别的操作。通信终端100,包括内部语音识别装置108,交替使用不同的声音获取 系统特别包括内部话筒102的系统101、特别包括位于通信终端100外 部的话筒104的行人免提工具包(pedestrian hand-free kit)系统103,或 者特别包括位于通信终端100外部的话筒106的车栽免提工具包(car hand-free kit)系统105。这些识别装置将从信号114、 116或118中提取的参数与包含在通信终 端内部的数据库IIO中的参数进行比较,其中信号114、 116或118信号由 系统101、 103或105之一发送,数据库110中的参数代表如名字或功能的
数据项。为此,该操作对每次比较一般采用识别得分,并选择具有超过特定识 别阈值的最高识别得分的存储参数集。如果存储参数集足够接近从接收信号中提取的参数,那么将该参数集发送到通信终端的管理装置112以执行操作,例如进行呼叫。此接近程度也称为通信终端的语音识别率。对于有效的语音识别方法,该成功率必须超过95%。数据库110尤其通过在工厂内存储所谓的多扬声器序列(multispeakersequence)而建立,因为对于相同的序列,它们结合了潜在的、不同人之间的声音差异。它也可以通过所谓的学习过程来建立,该过程涉及特定用户,所述特 定用户借助于专用于通信终端的功能将声音关联到通信终端100的数据或 功能项。根据针对本发明的观察,显而易见,用户能够将通信终端100与不同 的声音获取系统101、 103或105—起使用,这样,所述系统的每一个都会 引入其自身的失真到用户102发出的信号中(特别地,由此而来的谐波失 真和音量的特定失真,或灵敏度对背景噪声和回波的特定失真)。因此,对于用户使用其通信终端的通信终端的语音识别设施来说,如 果通信终端使用的是声音信号获取系统,而不是学习过程所引导的系统, 或多扬声器预记录的实现所基于的系统,则语音识别率经常被判断为不足。发明内容这就是为本发明涉及通信终端处理语音信号的方法的原因所在,该通 信终端使用语音识别装置,该装置将这些语音信号和存储在数据库中的数 据进行比较,以便识别对应于这些信号的数据,被识别的数据纟H送到管 理装置以触发动作,该方法特征在于,语音信号有可能由不同的声音获取 系统提供,单独的语音识别装置用于每个获取系统。由于本发明,对于通信终端的不同声音获取系统,可以获得满意的语
音识别率,因为信号的处理适合每个获取系统。因此用户能够满意地将语音识别功能与所有声音获取系统一起使用, 声音获取系统的使用与其通信终端相关。在一个实施例中,数据库包括独立的子数据库,每个子数据库关联到 一个声音获取系统,以便语音识别装置优先使用关联到用来实现比较的声 音获取系统的子数据库。在一个实施例中,对于每个子数据库,信号和存储数据之间的比较连 续地进行,直到通过所述比较达到必需的识别率。在一个实施例中,用不同语音识别系统完成语音识别学习过程,以产 生专用于每个语音识别系统的子数据库。在一个实施例中,通信终端的语音识别装置结合至少两个声音信号滤 波器,每个滤波器专用于通信终端的 一个声音获取系统。在一个实施例中,滤波器具有预定的滤波器特征。在一个实施例中,由滤波器传递的信号由语音识别装置相对于数据库 进行相同处理。在一个实施例中,语音识别装置包含关联到第 一语音识别系统的固定 滤波器装置,和关联到第二滤波器系统的动态滤波器装置,这些动态滤波 器检测固定滤波特征以传递信号,该信号类似于固定滤波传递的信号。本发明还涉及通信终端,其^f吏用语音识别装置处理语音信号,该装置 将这些语音信号和数据库内的存储数据进行比较,以^更识别对应于这些信 号的数据,被识别的数据被发送到管理装置以触发动作,该通信终端特征 在于,语音信号有可能由不同的声音获取系统提供,它包括用于每个获取 系统的单独的语音识别装置。在一个实施例中,通信终端的特征在于数据库位于通信终端外部的服 务器中。在一个实施例中,通信终端包括数据库中的独立子数据库,每个子数 据库关联到一个声音获取系统,以便语音识别装置优先使用关联到用户用 来实现比较的声音获取系统的子数据库。
在一个实施例中,通信终端包括在信号与所述存储数据之间对于每个 子数据库连续地进行比较直到通过所述比较达到要求的识别率为止的装 置。在一个实施例中,通信终端包括用不同的语音识别系统进行语音识别 学习过程以产生专用于每个语音识别系统的子数据库的装置。在一个实施例中,通信终端在所述通信终端的所述语音识别装置内, 包括至少两个声音信号滤波器,每个所述滤波器专用于所述通信终端的一 个声音获取系统。在一个实施例中,通信终端包括具有预定的固定滤波器特征的滤波器。在一个实施例中,通信终端包括由所述语音识别装置相对于所述数据 库对滤过的信号进行相同处理所凭借的装置。在一个实施例中,通信终端包括语音识别装置,该装置包含与第一语 音识别系统相关联的固定滤波器装置,和与第二滤波系统相关联的动态滤 波器装置,这些动态滤波器装置检测固定滤波特征以传递信号,该信号类 似于固定滤波传递的信号。在一个实施例中,通信终端包括话筒。在一个实施例中,所述声音获取系统之一是行人免提工具包、车载免 提工具包或集成到所述通信终端的识别系统。


才艮据下文通过非限制性例子给出的描述,并参考附图,本发明的其他特征和优点将变得显而易见,其中图1,已经描述过,表示通信终端的现有技术的一个语音识别例子。图2是使用本发明的应用的概略表示。图3是本发明的第一实施例的示意图。图4是本发明的第二实施例的示意图。图5是引入到本发明的不同实施例中的频傳校正示图,并且图6是本发明的第三实施例的概略表示。
具体实施方式
图2概略地表示根据本发明的语音识别方法针对用户202使用的同样 的移动通信终端204的三种声音获取系统的使用。在此情况下,认为所谓的语音识别学习步骤已经被执行,用户借助于 其语音或任何其他可识别的声音信号能够触发通信终端的功能。例如,用户202借助于他的语音203通过说出联络人的名字,简单地 命令他的通信终端204向该联络人发起呼叫。移动通信终端的语音识别功能的使用200例如与声音获取系统206 — 起使用,该声音获取系统206集成到通信终端204并包括话筒。正如已经描述过的,通信终端的语音识别装置将用户信号的^t与存 储在数据库中的参数集比较,所述信号接着将由系统206发送。如果比较是成功的,则通信终端204向请求的联络人发起呼叫。-在移动通信终端204与声音获取系统212 —起^f吏用210的情况下, 用户则可以决定将他的通信终端204夹在他的腰带上或放进他的口袋内, 该声音获取系统212通常称为行人免提工具包,特别地,行人免提工具包 集成了靠近用户嘴部202和耳朵214的话筒216、电缆,以及将其连接到 通信终端204的连接装置。由于本发明,用户能够对话筒216说出联络人的名字,并对联络人成 功命令呼叫。-在移动通信终端204与车栽免提工具包一起使用218的情况下,用 户202可以决定在车220内的另一个声音获取系统228的帮助下使用移动 通信终端204,该车栽免提工具包特别地集成了话筒230、电缆以及将它们 连接到通信终端204的连接装置222。用户对话筒230说出他的联络人的名字,并因此命令对联络人的呼叫。 因此,显而易见,如果使用根据本发明的方法,用户202能够将其通 信终端的语音识别功能与不同的声音获取系统206、 212或218 —起4吏用, 这些系统不会引起任何语音识别问题,下文中将描述本发明的三个优选实 施例。第一个实施例在图3中概略地表示,包括通信终端300,该终端特别 地配备有语音识别装置302;参数集数据库304,所述参数集的每一个对应 于要识别的功能;内部声音获取系统,特别地包括集成的话筒306;以及 通信终端300的管理装置312。通信终端也可以使用声音获取系统307和声音获取系统309,该声音 获取系统307对应于行人免提工具包例如包括话筒308,该声音获取系统 309对应于车栽免提工具包,例如特别地包括话筒310。然后,用户用集成了不同话筒306、 308和310的不同系统305、 307 和309,执行语音识别学习过程。此外,通信终端包括用于检测所使用的声音获取系统和抑制其他系统 的装置。因此,在第一操作中,用户使用其通信终端300的集成的话筒306, 例如通过在他的通信终端上选择他希望与声音序列相关联的功能,然后对 该声音序列进行一次或几次来执行学习过程。这产生了取决于系统305的特征的信号320。语音识别装置302从这 个信号320中提取参数集,该参数集然后被存储在数据库304的子数据库 或分区314中。-然后,在第二操作中,用户安装包括另一个话筒308的免提工具包 系统307,并且对先前处理的功能,用话筒308执行学习过程。语音识别 装置302从信号322中提取参数集,该信号取决于系统307,参数集存储 在数据库304的分区316中。-最后,在第三操作中,用户安装包括另一个话筒310的车载免提工 具包系统309,并对与前面一样的数据项或功能,执行一次或多次学习过 程。语音识别装置302从信号324中提取参数集,接着信号324由系统309 发送,参数集则存储在数据库304的分区318中。如果用户打算将它们启动,其他的声音获取系统也可以按照类似方式 被关联。在这种情况下,通过学习过程获得的参数集存储在与每个其它话 筒相关联的新分区中。总之,不同的*集(一个用于所使用的每个声音获取系统)与相同的功能相关它们被存储在数据库304的分区中,每个分区与给定系统关 联,并且因此集成了来自上述系统的信号的传输特征。此后,当用户希望使用语音识别时,通信终端识别所使用的系统,这 样已经使用的识别降低了回声和背景噪声。最后,它将装置302从信号320、 322或324中提取的参数,与存储在 对应于使用的系统的分区中的参数集进行比较。这就将需要比较的数目的 减少到三分之一。这个实施例有着许多变体。 一个变体将用户所说出的序列与在那个特 定时刻所使用的分区进行比较。如果比较不能满足所需的识别率,则继续在其他分区进行比较,直到 成功为止,或直到在存储器中没有找到满意的匹配为止。本发明的第二实施例在图4中概略表示,该图示出通信终端400,其 特别地包括语音识别装置402、数据库404、通信终端的管理装置412,和 特别地包括话筒406的声音获取系统405。通信终端也可以与包括两个其他的话筒的两个其他声音获取系统一起 操作系统407,特别地包括话筒408,例如所述系统407是免提工具包, 以及系统409,特别地包括话筒409,例如所述系统409是车载免提工具包。在该实施例中,在所述系统使用之前,与通信终端400相关联的不同 声音获取系统405、 407和409的信号传输特征是已知的。实际上,与通信终端400相关联的不同声音信号获取系统405、 407 和409的表现与滤波器类似。以下被集成到语音识别装置402:滤波器装置414,与位于通信终端400内部的声音信号获取系统405 相关联。滤波器装置416,与位于通信终端400外部的声音信号获取系统407 相关联。
滤波器装置418,与位于通信终端400外部的声音信号获取系统409 相关联。更详细地,图5是通过逆滤波的频谙特征适配的例子,其是可以用于 该实施例的滤波的特殊形式。例如,图5表示了三个衰减曲线,绘制在纵坐标轴502上衰减量dB 值是绘制在横坐标轴504上的频率的函数。曲线506表示声音信号获取系统405、 407或409的频率响应。曲线 508表示分别与系统405, 407或409相关联的滤波器装置414、 416、 418 之一的频率响应。这样,在逆滤波装置的输出端得到平坦响应510,其在所需通带内与 频率无关,也与所使用的声音获取系统无关。如果这些逆滤波器应用到每个获取系统,在不同逆滤波装置的输出端 得到可比较的信号。在该实施例中,仅使用一个获取系统就足以执行学习过程,或仅考虑 一个获取系统,尤其是内部系统405的特征,就足够产生多扬声器记录。实际上,通过语音识别装置420可以对存储在数据库404中的对应参 数集与所述语音识别装置420的输入信号422、 424或426之一进行同类比 较,该比较与下述事实无关所述信号422、 424或426基于信号428、 430 或432,在滤波器装置414、 416或418中被处理。这个实施例导致了各种各样的变体,例如,使用位于内部系统405的 外部的滤波器装置414。本发明的第三个实施例在图6中表示。在这个实施例中,通信终端600 特别地包括语音识别装置602、数据库614、通信终端的管理装置616和声 音信号获取装置607,特别地,所述装置607包括话筒608。另一个声音信号获取系统609可以连接到通信终端600,如果用户希 望的话。特别地,系统609可以是免提工具包或车栽免提工具包。语音识别装置602包括-用于声音信号获取系统607的信号处理装置604,-自适应滤波器装置612,—算法装置606,使用数据库614以执行语音识别算法。 自适应滤波器装置612通过将用户未i兌话时来自系统609的信号618与信号622进行比较,来检测来自系统609的信号的处理特征,以便识别滤波器装置612传递类似于信号622的信号620。换言之,取决于实施方式,交替或同时地贯穿于系统607和系统609,周围环境補t听两次。该实施例的变体不是在学习步骤内,而是在操作期间系统地实现这个二次监听,其中所述操作期间特别地是在给定时间间隔内或者是在发起与接收的每一个呼叫上。一旦参数612计算出来,它们必须被保留以在识别阶段处理信号618。 适合的信号618变成信号620,信号620接着能由算法装置606处理,以从中提取所述算法所需的参数,然后将这些参数与存储在数据库614的参数集进行比较。图6还示出装置604,其处理来自声音信号获取系统607的信号624 以使它附加地适应预定等级,并将其转换为信号622。在图7中,移动通信终端300、 400、 600在无线通信网内发送和接收 呼叫。数据库304、 404、 614位于移动通信终端外部的服务器700中,该 服务器也位于无线通信网中。
权利要求
1.一种用于通信终端(300、400、600)处理语音信号(320、322、324、428、430、432、618、624)的方法,该通信终端使用语音识别装置(302、402、602),该装置将所述语音信号与存储在数据库(304、404、604)中的数据进行比较,以便识别对应于所述信号的数据,被识别的数据被发送到管理装置(312、412、616)用于触发动作,该方法特征在于,所述语音信号有可能由不同的声音获取系统(305、307、309、405、407、409、607、609)提供,单独的语音识别装置用于每个获取系统。
2. 根据权利要求l的方法,其特征在于,所述数据库(304)包括独 立的子数据库(314、 316、 318),每个子数据库(314、 316、 318)关联 到一个声音获取系统(305、 307、 309),以便所述语音识别装置优先使用 关联到用于实现所述比较的所述声音获取系统(305、 307、 309)的子数据 库(314、 316、 318)。
3. 根据权利要求2的方法,其特征在于,对于每一个子数据库(314、 316、 318),信号(320、 322、 324)与所述存储数据之间的比较连续地进 行,直到通过所述比较达到要求的识别率。
4. 根据权利要求2或3的方法,其特征在于,用不同的语音识别系统 (305、 307、 309)完成语音识别学习过程,以产生专用于每个语音识别系统的子数据库(314、 316、 318)。
5. 根据权利要求l的方法,其特征在于,所述通信终端的所述语音识 别装置结合了至少两个声音信号滤波器(414、 416、 418),每个所述滤波 器专用于所述通信终端的一个声音获取系统(405、 407、 409)。
6. 根据权利要求5的方法,其特征在于,所述滤波器(414、 416、 418) 具有预定滤波器特征。
7. 根据权利要求5或6的方法,其特征在于,通过所述滤波器(414、 416、 418)传递的信号(422、 424、 426)由语音识别装置相对于所述数据 库(404)进行相同处理。
8. 根据权利要求l的方法,其特征在于,所述语音识别装置包含与第 一语音识别系统(607)相关联的固定滤波器装置(604),和与第二滤波 系统(609 )相关联的动态滤波器装置(612 ),所述动态滤波器装置(612 ) 检测固定滤波的特征以传递信号,该信号类似于所述固定滤波传递的信号。
9. 一种使用语音识别装置处理语音信号(320、 322、 324、 428、 430、 432、 618、 624)的通信终端(300、 400、 600),所述语音识别装置比较 这些语音信号和存储在数据库(304、 404、 614)中的数据,以便识别对应 于这些信号的数据,被识别的数据被发送给管理装置(312、 412、 616)用 于触发动作,其特征在于,所述语音信号有可能由不同的声音获取系统(305、 307、 309、 405、 407、 409、 607、 609)提供,该终端包括用于每 个获取系统的单独的语音识别装置。
10. 根据权利要求9的通信终端,其特征在于,所述数据库(304、 404、 614)位于通信终端外部的服务器(700)中。
11. 根据权利要求9的通信终端,其特征在于,其包括数据库(304、 404、 614)中的独立子数据库(314、 316、 318),每个子数据库(314、 316、 318)关联到一个声音获取系统(305、 307、 309),以便所述语音识 别装置优先使用关联到所述用户用来进行所述比较的所述声音获取系统的 子数据库。
12. 根据权利要求11的通信终端,其特征在于,包括在信号(320、 322、 324)与所述存储数据之间对于每个所述子数据库连续地进行比较直 到通过所述比较达到要求的识别率为止的装置。
13. 根据权利要求11或12的通信终端,其特征在于,包括用不同的 语音识别系统(305、 307、 309)进行语音识别学习过程以产生专用于每个 语音识别系统的子数据库(314、 316、 318)的装置。
14. 根据权利要求9的通信终端,其特征在于,在所述通信终端的所 述语音识别装置内,包括至少两个声音信号滤波器(414、 416、 418),每 个所述滤波器专用于所述通信终端的一个声音获取系统(405、 407、 409)。
15. 根据权利要求14的通信终端,其特征在于,所述滤波器(414、416、 418)具有预定的固定滤波器特征。
16. 根据权利要求14或15的通信终端,其特征在于,包括由所述语 音识别装置相对于所述数据库(404)对滤过的信号(422、 424、 426)进 行相同处理所凭借的装置。
17. 根据权利要求9的通信终端,其特征在于,所述语音识别装置包 含与第一语音识别系统(607)相关联的固定滤波器装置(604),和与第 二滤波系统(609)相关联的动态滤波器装置(612),这些动态滤波器装 置(612)检测固定滤波特征以传递信号,该信号类似于固定滤波传递的信 号。
18. 根据权利要求9到17任一项的通信终端,其特征在于,所述声音 获取系统之一包括话筒。
19. 根据权利要求9到18任一项的通信终端,其特征在于,所述声音 获取系统之一是行人免提工具包、车栽免提工具包或集成到所述通信终端 的识别系统。
全文摘要
本发明涉及通信终端(300)处理语音信号(320、322、324)的方法,该方法使用语音识别装置,该装置将这些语音信号和存储在数据库(304)的数据进行比较,以便识别对应于这些信号的数据,被识别的数据被发送到管理装置(312)用于触发动作。根据本发明,该方法的特征在于,语音信号有可能由不同的声音获取系统(305、307、309)提供,对于每个获取系统使用单独的语音识别装置。
文档编号G10L15/28GK101128865SQ200580027671
公开日2008年2月20日 申请日期2005年6月16日 优先权日2004年6月16日
发明者A·帕里塞尔, F·勒热 申请人:阿尔卡特朗讯公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1