非特定人语音识别拨号器的制作方法

文档序号:7612999阅读:425来源:国知局
专利名称:非特定人语音识别拨号器的制作方法
技术领域
本发明涉及一种语音识别拨号器,特别涉及非特定人语音识别拨号器。
背景技术
在先技术中,有个人数字助理(PDA,Personal Digital Assistant),如商务通,电子通讯簿等;它只能起到个人通讯簿管理的功能。有固定(普通)电话,这是人们最熟悉最普通的通讯工具,使用电话时,每按一下键,就会拨出一个号码;有IP电话拨号器,它的功能就是可以预存几组IP电话卡号的卡号,在需要打长途的时候,按一个键就可以拨出IP电话卡卡号。一次输入供多次使用。免去了每次输入很长的IP卡号的时间。它虽然能够进行快速拨号,但功能过于简单。
在人与人的沟通中,语音是最方便直接的沟通方式。在最古老的电话系统中,都有一个接线员的角色。例如用户可以告诉接线员,我要找“谁谁谁”,请帮我接线。
中国专利ZL92226812.6和ZL93210200.X提供了一种“语音控制拨号装置”。中国专利ZL02248794.8提供了一种拨号“车载无线语音拨号器”。在上述专利中都提到了“语音识别电路”的器件。同时都提到了需要用户在第一次使用前先要录音将语音特征存到随机存储器(RAM)中。也就是说,需要对用户就需要识别的语音特征临时录制,并保存在RAM中。可以从其专利中知道,这是一种“特定人语音识别”的器件。每一个用户需要使用该专利产品时,都需要先将自己的语音临时录入,然后才能够识别。这给用户带来了很大的不便。同时保存下来的是语音特征,而不是文本的通讯簿。没有与其他设备,如计算机(PC)中的通讯簿进行信息互换或者同步使用的可能。总之,用户使用很不便,同时影响产品的通用性。

发明内容
本发明的目的为了克服在先技术中的不足,将电子通讯簿、电话拨号器和语音识别结合在一起,提供一种非特定人语音识别拨号器。将利用非特定人的语音,找查预先制定的电子通讯簿。能够将相应的电话号码拨出去。并可以将计算机、手机、个人数字助理(PDA),等其他电话或电子设备中已编辑好的通讯簿复制到本发明的拨号器上,也可以将本发明拨号器上的通讯簿的内容备份到计算机等其他设备上。
本发明的拨号器为了达到上述的目的,所采取的技术措施是使它包含外壳,置于外壳内的电路板、电源,置于外壳上的显示屏,麦克风、通讯接口、拨号输出接口和包含控制语音键的控制按键组,置于电路板上的内部嵌有用于语音识别和通讯簿管理控制操作系统的中央处理单元,连接在中央处理单元与外壳上拨号输出接口之间的拨号器件;中央处理单元分别与显示屏、控制按键组和通讯接口相连。
所述的用于语音识别和通讯簿管理控制操作系统的中央处理单元是连接有闪存(FLASH)器和随机存储器(RAM)的微处理器,或者是连接有闪存器的微处理器,或者是连接有随机存储器的微处理器,或者是连接有只读存储器(ROM)、可擦除只读存储器(EEPROM)和随机存储器(RAM)的微处理器,或者是数字信号处理单元(DSP)等,是凡具有达到足够运算能力的微处理器和必需的存储空间均可。
所述的嵌入中央处理单元内部的控制操作系统包含空闲和消息队列控制部分,与空闲和消息队列部分相连的相互连接的通讯簿管理部分和语音识别发送拨号部分。
所述的通讯簿管理部分包含通讯接口管理模块,分别与通讯接口管理模块相连的用于将外部文本格式的通讯簿同步到本地的接收外部通讯簿模块,用于接收外部发送一条名片到本地的接收单条名片模块,用于将通讯簿备份到外部设备上的备份通讯簿模块,用于送一条名片到外部设备上的发送单条名片模块以及用于编辑管理名片的管理通讯簿模块;管理通讯簿模块还分别与接收单条名片模块、备份通讯簿模块和发送单条名片模块相连。
所述的语音识别发送拨号部分包含用于从模数转换器的输出采集语音数据流的语音数据流采集模块;用于接收语音数据流采集模块采集到的数据,并与通讯簿中名字进行对照的含有语音基元特征数据库的语音识别与通讯簿匹配模块;用于对语音识别与通讯簿匹配模块所识别的结果进行确认,在通讯簿中找到对应通讯号码的确认号码模块;用于将确认后的通讯号码发送到拨号器件上的发送号码模块;在发送号码模块与确认号码模块之间加入用于长途号码的IP电话卡号码模块。
所述的通讯接口包含红外接口、串行接口和普通串行总线(USB)接口,或者包含红外接口和串行接口,或者包含红外接口和普通串行总线接口,或者至少包含其中的一种通讯接口。
如上述的结构,由控制按键组控制,从麦克风传入非特定人的语音经过模数转换器将其模拟信号转换成数字信号后传入中央处理单元中。中央处理单元首先通过语音识别模块中的语音基元特征数据库中的语音基元特征进行语音识别,将识别出名字与预先存入在文本格式的通讯簿上的名字匹配,并在通讯簿上找到对应的通讯号码,确认后通过拨号器件将其发送出去。
本发明的非特定人语音识别拨号器的效益显著1.本发明的语音识别拨号器将电子通讯簿,语音识别和电话拨号结合在一起,能够将语音信号识别出相应的人名、单位名称,或者通讯簿中相应的条目,并拨号出去。起到了一个接线员的作用。
2.本发明的语音识别拨号器中的语音识别模块中含有语音基元特征数据库,能够识别任何人所发出的人名、单位名称以及通讯簿中相应的条目。无需像在先技术中,要用户预先录音进行这些内容的语音识别训练。
3.本发明的语音识别拨号器含有通讯接口,能够与计算机、手机、电话机、个人数字助理等其他通讯设备通讯或者联用。
4.本发明的语音识别拨号器中所含的通讯簿中的信息全部是文本格式,存储在中央处理单元中,不包含语音识别特征。所以能够与计算机、手机、电话机、个人数字助理,或其他设备互相交换通讯簿和名片,或者同步使用通讯簿。
5.本发明的语音识别拨号器可以自动对长途电话的号码加拨IP电话卡号。
6.本发明的语音识别拨号器中的控制按键组包含控制语音键,能够控制录音和选择显示出通讯簿上的最佳条目。结构简单,操作方便,获得的结果准确可靠。
7.本发明的语音识别拨号器可以方便地装在普通电话机上,与普通电话机连用。使普通电话机既可以拨打接听电话,又含有通讯簿管理和语音识别的功能。


图1是本发明的语音识别拨号器的内部结构示意图。
图2是本发明的语音识别拨号器的外壳表面结构的示意图。
图3是图1中央处理单元300嵌入的内部结构示意图。
图4是图3中通讯簿管理部分310的结构示意图。
图5是图3中语音识别和发送拨号部分320的结构及流程图。
图6是图5中确认号码模块323的流程图。
图7是图3中确认空闲和消息队列控制部分301的流程图。
图8-1、图8-2、图8-3、图8-4是图2中控制按键组108包含5个按键的结构示意图。
图9-1、图9-2是图2中控制按键组108包含4个按键的结构示意图。
图10是图2中控制按键组108包含3个按键的结构示意图。
图11是图2中控制按键组108包含数字按键的结构示意图。
具体实施例方式
下面结合附图进一步说明本发明的结构。
图1是本发明语音识别拨号器的内部结构。如图1所示。它包含外壳200,置于外壳200内的电源120和内部电路板100。置于内部电路板100上的中央处理单元300,分别与中央处理单元300相连的模数转换器(A/D)102,拨号器件109;置于外壳200上的显示屏107、控制按键组108和通讯接口104,麦克风106,拨号输出接口201。中央处理单元300通过模数转换器(ADC)与置于外壳200上的相连。通过拨号器件109与置于外壳200上的拨号输出接口201相连。或者还包含置于显示屏107与中央处理单元300之间的连接有扬声器111的数模转换器(DAC)110。加入数模转换器(DAC)110和扬声器111以后,经过中央处理单元300语音识别的结果不仅在显示屏上显示出。而且其结果由数模转换器将数据信号转换成模拟信号由扬声器发出声音。
本实施例中,如图1所示,中央处理单元300包含微处理器(MCU)101和与其连接的闪存(FLASH)器102以及随机存储器(RAM)103。在本实施例中,微处理器(MCU)是连接的核心,通过地址总线,数据总线以及控制总线连接到其他器件。DSP(数字信号处理单元)也可以认为是MCU的一种。本发明可以用通用的MCU实现。本发明需要MCU有足够的运算能力。同时本发明并不需要特别指定某种MCU,只要具有足够的运算能力的MCU即可。
本实施例中,所有的程序保存在Flash中,文本格式的通讯簿也存在Flash中。程序区和数据区用到了不同的地址。当然也可以用ROM(只读存储器)加EEPROM(可擦除只读存储器)等其他器件代替,也可以起到同样的效果。RAM是程序运行的器件。
通过通讯接口,本发明的设备可以与其他保存文本格式通讯簿的设备交换名片信息。
语音信号通过麦克风和模数转换器件ADC以数据流的形式发送到MCU,与语音基元特征数据库中的语音基元特征进行比较。识别比较结果是没有结果,或者1个结果,或者N个可能结果,显示在显示屏上。本实施例中的显示屏采用液晶显示屏(LCD)。
本实施例中用控制按键组控制录音以及结果的选择,并决定是否拨号。也可以选择用合成语音通过数模转换器件(DAC)110和扬声器111播放出来其识别结果,以达到确认的作用。
本实施例中,如图1所示。通讯接口104包含红外接口、串行接口、普通串行总线(USB)接口。当然,也可以是其他满足要求的通讯接口。可以与PC、手机、PDA等进行相互交换通讯簿,名片。
所说的拨号器件109采用普通的电话机上的拨号器件。
图2是本发明拨号器的外壳200表面的结构。外壳200表面上包含置于外壳200上的用于显示通讯簿信息的显示屏107。在本实施例中,显示屏107采用液晶显示屏(LCD)。麦克风106,控制按键组108,通讯接口104和拨号输出接口201。
图3是本发明嵌入在中央处理单元300内部的控制操作系统的结构。控制操作系统它包含空闲和信息队列控制部分301,与空闲和信息队列控制部分301相连的相互连接的通讯簿管理部分310和语音识别发送拨号部分320。
图4是所述的控制操作系统中,通讯簿管理部分310的结构及流程。它包含通讯接口管理模块312,分别与通讯接口管理模块312相连的接收外部通讯簿模块313,接收单条名片模块314,备份通讯簿模块315,发送单条名片模块316以及管理通讯簿模块311;管理通讯簿模块311还分别与接收单条名片模块314,备份通讯簿模块315和发送单条名片模块316相连。上述个模块的功能是●编辑管理通讯簿模块311,用于编辑名片,增加或减少名片,编辑好的通讯簿以供下步程序使用;●通讯接口管理模块312,用于接收外部设备传来的信息以及发送信息到外部设备;●接收外部通讯簿模块313,用于通过通讯接口管理模块312将外部通讯簿同步到本地,如将外部设备PC、PDA等设备上的通讯簿全部拷贝到本地内,或者覆盖掉本地的通讯簿;●接收单条名片模块314,用于通过通讯接口管理模块312接收从外部发送的一条名片信息到本地,并将这一条名片信息传送至编辑管理通讯簿模块311上,以便使其在通讯簿上增加这一条名片信息;●备份通讯簿模块315,用于将编辑管理通讯簿模块311中的通讯簿通过通讯接口管理模块3 12备份到外部设备上。如备份到PC,或PDA上;●发送单条模块316,用于从编辑管理通讯簿模块311中的通讯簿中查找到所要查找到的一条名片信息,通过通讯接口管理模块312将其发送出去。
图5是语音识别和发送拨号部分的结构及流程。如图5所示,它包含●采集语音数据流模块321,用于采集经模数转换器将其模拟信号转换成脉冲编码调制(PCM)格式的数字语音数据流,并为了传送和识别方便,将其分成分段语音数据流送入下一步语音识别模块322中;●语音识别模块322中含有语音基元特征数据库,它用于接收上面采集语音数据流模块321传来的分段语音数据流与其语音基元特征数据库中的语音基元特征进行识别,并将识别到的人名,或单位名称,或其它条目与通讯簿中相应的人名、或单位名称、或其它条目相匹配,并将其识别匹配的结果送入下一步的确认号码模块323中;所述的语音识别模块322可以采用以HMM(隐马尔可夫模型)作为算法基础的非特定人语音识别软件模块。对于该语音识别模块,可以按照HMM数学模型的算法编制软件。也可以选用已有的语音模块,如IBM,Microsoft等公司所提供的相关模块。例如,在本实施例中,选用了专业嵌入式软件开发公司(INTPORT INC公司)的“嵌入式非特定人语音识别模块”。选用该模块可以达到如下要求1)该模块为嵌入式软件模块,可以在MCU上运行;2)已经预先提取了语音基元特征的数据包含在了软件模块中,不需要再编程序引导用户临时录音;3)在语音匹配运算时,有编程接口可以添加待识别名字到该模块;达到了本发明所需要的要求。本发明的软件流程中,需要将待识别名字条目,一条一条送入语音识别模块;而在识别识流程中,本发明需要编程控制将无压缩的语音原始数据流分段送入语音识别模块。
●确认号码模块323,用于接收语音识别模块322送来的识别结果。利用控制按键组选择其最佳识别结果,并在文本格式的通讯簿中找到对应的通讯号码,送入下一步发送号码模块325中。如果是长途号码,则加入IP电话卡324。
图6所示的是所述的确认号码模块323具体的流程。当显示屏上显示出上述语音识别模块322的识别结果,如有N个最优候选结果显示在显示屏上,一般清况下,N是比较小的数字。利用翻转控制按键组的上下选择键,选择人名(或单位名称、或其它条目),当选择合适的名字后,按“确认”或“OK”键。如果名字下仅有一个号码,则为最终号码;否则,再按“上下键”,选择该条目下的N个号码中的一个,并“确定”。然后将选定的号码送入下序的发送号码模块325程序中;●发送号码模块325,用于接收到确认号码模块323发来的号码信息后,将号码发送到拨号器件上送出去;如果是长途号码,经过IP电话卡号码模块324后,发送到拨号器件上送出去。
图7是嵌入在中央处理单元中控制操作系统中的空闲和信息队列控制部分301的流程。这部分是用于控制嵌入MCU中的控制操作系统的等待和启动。当有从控制按键组输进的信息,或通过通讯接口从外部设备传来的通讯信息,或从内部传送的信息后,开始启动控制下序的相关模块开始工作。
图8-1、图8-2、图8-3、图8-4是控制按键组的一种实施例,含有5个按键的控制按键组。按键组有多种变化,但最基本的按键包含“DialingEasy(控制语音)键”“上箭头”“下箭头”“确认”键或“OK”键,和“取消”键,或“Cancel”键。可以有多种造型。并且具有兼容性、可简略性、以及可扩充性。其中“DialingEasy”键——“控制语音”键,“选择”键和“确认”键是最基本键。也就是说,本发明控制按键组的基本组成原则是a)需要有一个控制决定什么时候需要录音进行通讯簿名字的语音识别的“DialingEasy”键——控制语音键;b)有可能识别结果是N个最优结果,例如“王大明”“王大铭”“黄大明”“王大盟”都是最优识别结果,需要用户用“上下按键”选择的选择键;c)选择后用按键确认或者取消结果“确认”或“取消”的按键;d)对于通讯簿中的每一个名字,有可能有多个联系方式,例如“家庭号码”“公司号码”“移动电话”等,可以用“上下键”“确认键”进行选择。
图9-1、图9-2是控制按键组的第二种实施例,含有“DialingEasy”键等4个按键。其中反复按“向下键”可以循环,不按“确定”键,或者“OK”键也就意味着没有确定。
图10是控制按键组的第三种实施例,含有3个按键,道理同第二种实施例。
图11是控制按键组的第四种实施例,是一种扩充性、兼容性控制按键组。原理是在与其他控制按键的功能不发生逻辑冲突时,可以兼容使用按键。除了包含“DialingEasy”键,消除键-“Cancel”,减少键-“DEL”,“上箭头”、“下箭头”键外,还兼容0-9数字键,“菜单”-“Menu”键,增加键-“ADD”键,“*”和“#”键。
使用控制按键组对于语音按键的控制方法可以有几种方法a)按下“DialingEasy”键,开始用语音念出名字条目,念完后松开“DialingEasy”键,然后语音识别程序识别出N个最优候选;b)按下“DialingEasy”键,再松开“DialingEasy”键,开始用语音念出名字条目,在预先设定的时间内,如3秒钟内念完条目,然后语音识别程序识别出N个最优候选。根据用户喜欢,可以在开始录音前发出“哔”的声响,或者其他提示音。例如“请念出名字”等。这个提示音在上面使用“DialingEasy”按键的方法中包含。得到N个最优候选条目后,用“上、下”键,“确认”健,或“取消”键,选定是否某个条目为识别结果;再用“上,下”键,“确认”键,可以选择拨出这个条目中的哪一个号码,如手机号码,家里号码,公司号码中选定一个拨出。
权利要求
1.一种非特定人语音识别拨号器。它包含外壳,置于外壳内的电路板、电源,置于外壳上的显示屏、麦克风、通讯接口、拨号输出接口和控制按键组,其特征在于包含置于电路板上的内部嵌有用于语音识别和通讯簿管理控制操作系统的中央处理单元,连接在中央处理单元与外壳上麦克风之间的模数转换器;连接在中央处理单元与外壳上拨号输出接口之间的拨号器件;中央处理单元分别与显示屏、控制按键组和通讯接口相连。
2.根据权利要求1所述的非特定人语音识别拨号器,其特征在于所说的用于语音识别和通讯簿管理控制操作系统的中央处理单元是连接有闪存器和随机存储器的微处理器,或者是连接有闪存器的微处理器,或者是连接有随机存储器的微处理器,或者是连接有只读存储器、可擦除只读存储器和随机存储器的微处理器,或者是数字信号处理单元。
3.根据权利要求2所述的非特定人语音识别拨号器,其特征在于所说的嵌入中央处理单元内部的控制操作系统包含空闲和信息队列控制部分,与空闲和信息队列部分相连的相互连接的通讯簿管理部分和语音识别发送拨号部分。
4.根据权利要求3所述的非特定人语音识别拨号器,特征在于所说的通讯簿管理部分包含通讯接口管理模块,分别与通讯接口管理模块相连的用于将外部文本格式的通讯簿同步到本地的接收外部通讯簿模块,用于接收外部发送一条名片到本地的接收单条名片模块,用于将通讯簿备份到外部设备上的备份通讯簿模块,用于发送一条名片到外部设备上的发送单条名片模块以及用于编辑管理名片的管理通讯簿模块;管理通讯簿模块还分别与接收单条名片模块,备份通讯簿模块和发送单条名片模块相连。
5.根据权利要求3所述的非特定人语音识别拨号器,其特征在于所说的语音识别发送拨号部分包含用于从模数转换器的输出采集语音数据流的语音数据流采集模块;用于接收语音数据流采集模块采集到的数据,并与通讯簿中名字进行对照的含有语音基元特征数据库的语音识别与通讯簿匹配模块;用于对语音识别与通讯簿匹配模块所识别的结果进行确认,在通讯簿中找到对应通讯号码的确认号码模块;用于将确认后的电话号码发送到拨号器件上的发送号码模块;在发送号码模块与确认号码模块之间加入用于长途号码的IP电话卡模块。
6.根据权利要求1所述的非特定人语音识别拨号器,其特征在于所说的通讯接口包含红外接口、串行接口和普通串行总线(USB)接口,或者包含红外接口和串行接口,或者包含红外接口和普通串行总线接口,或者至少包含其中的一种通讯接口。
7.根据权利要求1所述的非特定人语音识别拨号器。其特征在于所说的控制按键组包含控制语音键,向上选择键,向下选择键,确认键和取消键。
8.根据权利要求1所述的非特定人语音识别拨号器,其特征在于所说的控制按键组包含控制语音键,向下选择键,确认键和取消键;或者包含作为控制语音的向上选择键,向下选择键,向左选择键和向右选择键。
9.根据权利要求1所述的非特定人语音识别拨号器,其特征在于所说的控制按键组包含控制语音键,菜单键(Menu),增加键(ADD),消除键(DEL),0至9的数字键,*号键和#号键。
10.根据权利要求1所述的非特定人语音识别拨号器。其特征在于或者还包含置于显示屏与中央处理单元之间的连接有扬声器的数模转换器。
全文摘要
一种非特定人语音识别拨号器,它包含置于外壳上的显示屏、麦克风、通讯接口、拨号输出接口和包含控制语音键的控制按键组;置于外壳内的电路板上的内部嵌有控制操作系统的中央处理单元,连接中央处理单元与麦克风之间的模数转换器,连接在中央处理单元与拨号输出接口之间的拨号器件。本发明将电子通讯簿、语音识别和电话拨号结合在一起。能够识别任何人所发出的人名、单位名、地名等通讯簿中相应的条目。并能够与计算机、手机、电话机、个人数字助理等其他设备互相交换或者同步使用通讯簿和名片。能够方便地连接在普通电话机上,使普通电话机具有非特定人语音识别和查询通讯簿的功能。结构简单,操作方便。
文档编号H04M1/27GK1649367SQ20051002382
公开日2005年8月3日 申请日期2005年2月4日 优先权日2005年2月4日
发明者孙远 申请人:孙远
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1