一种移动终端的语音识别联系人的方法

文档序号：7856890阅读：442来源：国知局

专利名称：一种移动终端的语音识别联系人的方法
技术领域：
本发明涉及移动终端，尤其涉及一种移动终端的语音识别联系人的方法。
背景技术：
移动终端，如手机、PDA等，在人们的日常生活中扮演着越来越重要的角色，逐步成为人们必不可少的通信和信息交互的工具。而目前语音识别技术已经非常成熟，并广泛应用于手机语音拨号等功能中，很多手机上都集成了相关的识别模块，能够识别出用户需要呼叫的联系人，并自动拨号到被叫。但是对于对方用户的识别，则仅限于对进入的电话号码的识别，手机等手持设备都没有在通话过程中通过语音去进行的识别对方是否是已记录的联系人本人的功能。因此当我们通话的时候，会出现不是本人接听的情况，而我们却不能第一时间知晓，导致说话的语气、方式可能不合适，甚至联系人本人的手机丢失后，不法分子可能通过拨打手机上记录的电话以骗取财物，在我们无法识别对方用户身份的情况下，则可能导致财物的损失。

发明内容
为了克服上述所指的现有技术中的不足之处，本发明提供一种移动终端的语音识别联系人的方法，以实现接通电话时，在对方发音的较短时间内匹配联系人，判断是否联系人本人接听使用户通话，从而避免对方用户非联系人本人接听所导致的不利后果。本发明是通过以下技术方案实现的一种移动终端的语音识别联系人的方法，所述方法基于语音识别技术，包括以下步骤
步骤I，采集联系人的语音样本，提取语音样本中的音色特征并保存为联系人的语音识别文件至电话本数据库中；
步骤2，接入或拨出呼叫，在通话过程中获取对方用户的语音信号，并提取该语音信号中的音色特征值；
步骤3，将步骤2中提取的音色特征值与步骤I中保存的语音识别文件进行匹配，若匹配失败则系统发出提示信号。所述步骤2中在通话过程中获取对方用户的语音信号是指截取自接收到对方用户的语音信号至达到预设时长T这一时间间隔内的语音信号，所述预设时长T的范围为
O.5-3 秒。所述步骤3中系统发出的匹配失败提示信号为预设的警示音或者振动动作。所述步骤3的匹配耗时为O. 1-2秒。所述电话本数据库的联系人表中设有一语音字段，该语音字段指向联系人的语音识别文件。所述联系人的语音识别文件中记录有语音样本的音色特征数据，该音色特征数据为声纹模型，包括谱包络参数、谐波能量比、共振峰频率及其带宽、倒谱、Mel频率倒谱系数。本发明与现有技术相比，利用现有的语音识别技术，通过音色特征的匹配，使用户能在电话接通的较短时间内知晓对方用户是否联系人本人。由于提取的是语音中个人特有的音色特征，因此可以截取较短的语音信号，从而使匹配的耗时很短，且匹配的成功率较高。可实现接通电话时，在对方发音的瞬间匹配联系人，来判断是否联系人本人接听使用户通话，从而避免对方用户非联系人本人接听所导致的不利后果。

附图I为本发明实施例提供的手机的语音识别联系人的方法的实现流程示意图。
具体实施例方式为了便于本领域技术人员的理解，下面结合实施例及附图对本发明作进一步的描述。一种移动终端的语音识别联系人的方法，所述方法基于语音识别技术，如附图I所示，包括以下步骤步骤I，采集联系人的语音样本，利用语音识别技术提取语音样本中的音色特征并保存为联系人的语音识别文件至电话本数据库中；
步骤2，接入或拨出呼叫，在通话过程中获取对方用户的语音信号，并提取该语音信号中的音色特征值；
步骤3，将步骤2中提取的音色特征值与步骤I中保存的语音识别文件进行比对匹配，若匹配失败则系统发出提示信号。在本实施例中，所述移动终端以手机为例。所述步骤2中在通话过程中获取对方用户的语音信号是指截取自接收到对方用户的语音信号至达到预设时长T这一时间间隔内的语音信号，所述预设时长T的范围为
O.5-3秒。在本实施例中，截取对方用户语音信号的的前I秒内的语音段来提取音色特征值。所述步骤3的匹配耗时为O. 1-2秒。由于本发明的目的是在电话接通后的最短时间使用户知晓对方用户是否为联系人本人，因此匹配完成的所需要时间需尽可能短，才能真正发挥本发明的作用。由于本发明中从语音信号中提取的是个人声音特有的音色特征，因此可截取较短的语段样本，在较短时间内结束采样，从而缩短匹配时的耗费的时间。在本实施例中，匹配耗时控制在O. 5秒左右，语音识别完成总耗时可以控制在2秒以内，这样就能使用户能在电话接通的较短时间内知晓对方用户是否联系人本人。所述电话本数据库的联系人表中设有一语音字段，该语音字段指向联系人的语音识别文件。当手机采集到某一联系人的语音样本时，经过提取音色特征后作为联系人的语音识别文件保存至该语音字段下。所述联系人的语音识别文件中记录有语音样本的音色特征数据。在本实施例中，该音色特征数据为声纹模型，所述声纹模型包含一组特征参数，包括基音轮廓、线性预测系数、谱包络参数、谐波能量比、共振峰频率及其带宽、倒谱(又称功率倒频谱)、Mel频率倒谱系数(即Mel Frequency Cepstrum Coefficient,缩写为MFCC)等反映音色特征的声学参数，且不限于前述所提及的音色特征参数。所述步骤2所述的音色特征值同样包括但不限于前述的基音轮廓、线性预测系数、谱包络参数、谐波能量比、共振峰频率及其带宽、倒谱、Mel频率倒谱系数。步骤3所述的匹配即是对两组声纹模型进行比对，若比对结果为相同或者达到预设的相似度，则匹配成功；否则，系统判断为匹配失败。所述步骤3中系统发出的匹配失败提示信号为预设的警示音或者振动动作。在本实施例中，当匹配失败，即匹配不吻合，手机即时发出预先设置的警示音来提示对方用户不是联系人本人，然后退出语音识别程序，通话继续。若匹配成功，则系统不作处理，退出语音识别程序，通话继续。音色是声音的感觉特性。音调的高低决定于发声体振动的频率，响度的大小决定于发声体振动的振幅，但不同的发声体由于材料、结构不同，发出声音的音色也就不同，这样我们就可以通过音色的不同去分辨不同的发声体音色是声音的特色，根据不同的音色，即使在同一音高和同一声音强度的情况下，也能区分出是不同乐器或人发出的。本发明由于采用个人声音特有的音色特征进行匹配，通过多次的调试后，可以达到较高的匹配成功率。上述实施例中提到的内容并非是对本发明的限定，在不脱离本发明构思的前提下，任何显而易见的替换均在本发明的保护范围之内。
权利要求
1.一种移动终端的语音识别联系人的方法，所述方法基于语音识别技术，包括以下步骤步骤I，采集联系人的语音样本，提取语音样本中的音色特征并保存为联系人的语音识别文件至电话本数据库中；步骤2，接入或拨出呼叫，在通话过程中获取对方用户的语音信号，并提取该语音信号中的音色特征值；步骤3，将步骤2中提取的音色特征值与步骤I中保存的语音识别文件进行匹配，若匹配失败则系统发出提示信号。
2.根据权利要求I所述的移动终端的语音识别联系人的方法，其特征在于所述步骤2中在通话过程中获取对方用户的语音信号是指截取自接收到对方用户的语音信号至达到预设时长T这一时间间隔内的语音信号，所述预设时长T的范围为O. 5-3秒。
3.根据权利要求2所述的移动终端的语音识别联系人的方法，其特征在于所述步骤3的匹配耗时为O. 1-2秒。
4.根据权利要求3所述的移动终端的语音识别联系人的方法，其特征在于所述步骤3中系统发出的匹配失败提示信号为预设的警示音或者振动动作。
5.根据权利要求4所述的移动终端的语音识别联系人的方法，其特征在于所述电话本数据库的联系人表中设有一语音字段，该语音字段指向联系人的语音识别文件。
6.根据权利要求5所述的移动终端的语音识别联系人的方法，其特征在于所述联系人的语音识别文件中记录有语音样本的音色特征数据，该音色特征数据为声纹模型，包括谱包络参数、谐波能量比、共振峰频率及其带宽、倒谱、Mel频率倒谱系数。
全文摘要
一种移动终端的语音识别联系人的方法，所述方法基于语音识别技术，包括以下步骤步骤1.采集联系人的语音样本，提取语音样本中的音色特征并保存为联系人的语音识别文件至电话本数据库中；步骤2.接入或拨出呼叫，在通话过程中获取对方用户的语音信号，并提取该语音信号中的音色特征值；步骤3.将步骤2中提取的音色特征值与步骤1中保存的语音识别文件进行匹配，若匹配失败则系统发出提示信号。本发明通过音色特征的匹配，使用户能在电话接通的较短时间内知晓对方用户是否联系人本人，匹配耗时短，且匹配的成功率较高，从而避免对方用户非联系人本人接听所导致的不利后果。
文档编号H04M1/725GK102780819SQ20121026322
公开日2012年11月14日申请日期2012年7月27日优先权日2012年7月27日
发明者曾元清申请人:广东欧珀移动通信有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曾元清
技术所有人：广东欧珀移动通信有限公司
我是此专利的发明人

上一篇：可级联的数字音频矩阵、数字音频通信系统及方法
上一篇：一种手机终端的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。