语音处理系统及语音处理方法

文档序号：2836124阅读：247来源：国知局

专利名称：语音处理系统及语音处理方法
技术领域：
本发明涉及语音处理系统及语音处理方法，特别涉及一种音视频拍摄过程中获取的语音的语音处理系统及语音处理方法。
背景技术：
目前，随着多媒体技术的发展，人们可以随时进行音频、视频的拍摄以备后续作为资料库或留念。例如，在开会时，一般采用摄影机拍摄或者录音的方式记录会议的过程。但在会后，当用户查询会议中某个发言者针对某话题所说的话时，需要将所拍摄的整个会议过程从头开始播放以寻找该发言者针对该话题的发言内容，如此浪费时间。

发明内容
鉴于以上内容，有必要提供一种语音处理系统及语音处理方法，方便查找发言者针对某话题的发言内容。一种语音处理系统，该语音处理系统包括:一特征获取模块，用于从一预存的语音文件中提取各发言者的语音特征，其中，该语音文件中包括有各发言者的发言；一语音识别模块，用于响应用户选择一预存的声纹模型的操作，判断该语音文件中是否有与该选择的声纹模型匹配的发言者语音；一语音转换模块，用于在该语音文件中有与该声纹模型匹配的发言者语音时，获取与该声纹模型匹配的发言者语音，并将该些发言者语音提取出来，按照在该语音文件的时间先后顺序组成一单一音频文件，复制该单一音频文件，并将该复制的单一音频文件转换成文本，其中，该文本包括词语；一关联模块，用于根据单一音频文件中各个词语对应的语音的播放时间点，将语音转换模块转换成的文本中的词语与对应的播放时间点相关联；一查询模块，用于响应用户输入的关键字的操作，判断该被转换的文本中是否存在该输入的关键字；及一执行模块，用于当该被转换的文本中存在该输入的关键字时，获取该转换的文本中的关键字所关联的播放时间点，根据该获取的播放时间点确定单一音频文件中该关键字对应语音的播放时间点，并控制一音频播放装置从该播放时间点开始播放该单一音频文件。一种语音处理方法，该方法包括:从一预存的语音文件中提取各发言者的语音特征，其中，该语音文件中记录有各发言者的发言；响应用户选择一预存的声纹模型的操作，判断该语音文件中是否有与该选择的声纹模型匹配的发言者语音；在该语音文件中有与该声纹模型匹配的发言者语音时，获取与该声纹模型匹配的发言者语音，并将该些发言者语音提取出来，按照在该语音文件的时间先后顺序组成一单一音频文件，将该单一音频文件复制，并将该复制的单一音频文件转换成文本，其中，该文本包括词语；根据单一音频文件中各个词语对应的语音的播放时间点，将被转换成的文本中的词语与对应的播放时间点相关联；响应用户输入的关键字的操作，判断该被转换的文本中是否存在该输入的关键字；及当该被转换的文本中存在该输入的关键字时，获取该文字中的关键字所关联的播放时间点，根据该获取的播放时间点确定单一音频文件中该关键字对应语音的播放时间点，并控制一音频播放装置从该播放时间点开始播放该单一音频文件。本发明通过从一预存的语音文件中提取各发言者的语音特征，通过在该语音文件
中有与该声纹模型匹配的发言者语音时，获取与该声纹模型匹配的发言者语音，并按照在
该语音文件的时间先后顺序组成一单一音频文件，通过将该单一音频文件转换成对应的文
本，并将该文本中的词语与对应的时间相关联，通过当该被转换的文本中存在该输入的关
键字时，获取该转换的文本中的关键字所关联的时间，根据该获取的时间确定单一音频文
件中该关键字对应语音的播放时间点，并控制一音频播放装置从该播放时间点开始播放该
单一音频文件。从而方便查找发言者针对某话题的发言内容。

图1是本发明一实施方式中语音处理系统的方框示意图。图2是本发明一实施方式中语音处理方法的流程图。主要元件符号说明
权利要求
1.一种语音处理系统，其特征在于，该语音处理系统包括: 一特征获取模块，用于从一预存的语音文件中提取各发言者的语音特征，其中，该语音文件中包括有各发言者的发言；一语音识别模块，用于响应用户选择一预存的声纹模型的操作，判断该语音文件中是否有与该选择的声纹模型匹配的发言者语音；一语音转换模块，用于在该语音文件中有与该声纹模型匹配的发言者语音时，获取与该声纹模型匹配的发言者语音，并将该些发言者语音提取出来，按照在该语音文件的时间先后顺序组成一单一音频文件，复制该单一音频文件，并将该复制的单一音频文件转换成文本，其中，该文本包括词语；一关联模块，用于根据单一音频文件中各个词语对应的语音的播放时间点，将语音转换模块转换成的文本中的词语与对应的播放时间点相关联；一查询模块，用于响应用户输入的关键字的操作，判断该被转换的文本中是否存在该输入的关键字；及一执行模块，用于当该被转换的文本中存在该输入的关键字时，获取该转换的文本中的关键字所关联的播放时间点，根据该获取的播放时间点确定单一音频文件中该关键字对应语音的播放时间点，并控制一音频播放装置从该播放时间点开始播放该单一音频文件。
2.如权利要求1所述的语音处理系统，其特征在于:该语音处理系统还包括一备注模块，该备注模块用于响应用户在播放单一音频文件时输入文字的操作，确定此时该单一音频文件的播放时间点，将该输入的文字转换成语音，并将该转换的语音插入在该单一音频文件中与该确定的时间点对应的位置中。
3.如权利要求1所述的语音处理系统，其特征在于:该特征获取模块通过梅尔倒频谱系数进行语音文件的语音特征的提取。
4.一种语音处理方法，其特征在于，该方法包括: 从一预存的语音文件中提取各发言者的语音特征，其中，该语音文件中记录有各发言者的发言；响应用户选择一预存的声纹模型的操作，判断该语音文件中是否有与该选择的声纹模型匹配的发言者语音；在该语音文件中有与该声纹模型匹配的发言者语音时，获取与该声纹模型匹配的发言者语音，并将该些发言者语音提取出来，按照在该语音文件的时间先后顺序组成一单一音频文件，将该单一音频文件复制，并将该复制的单一音频文件转换成文本，其中，该文本包括词语；根据单一音频文件中各个词语对应的语音的播放时间点，将被转换成的文本中的词语与对应的播放时间点相关联；响应用户输入的关键字的操作，判断该被转换的文本中是否存在该输入的关键字；及当该被转换的文本中存在该输入的关键字时，获取该文字中的关键字所关联的播放时间点，根据该获取的播放时间点确定单一音频文件中该关键字对应语音的播放时间点，并控制一音频播放装置从该播放时间点开始播放该单一音频文件。
5.如权利要求4所述的语音处理方法，其特征在于，该方法包括: 响应用户在播放单一音频文件时输入文字的操作，确定此时该单一音频文件的播放时间点，将该输入的文字转换成语音，并将该转换的语音插入在该单一音频文件中与该确定的时间所对应位置中。
6.如权利要求4所述的语音处理方法，其特征在于，该方法包括: 通过梅尔倒频谱系数进行语音文件的语音特征的提取。
全文摘要
一种语音处理方法包括从一预存的语音文件中提取各发言者的语音特征；响应用户的操作，在该语音文件中有与该选择的声纹模型匹配的发言者语音时，获取与该声纹模型匹配的发言者语音，按照在该语音文件的时间先后顺序组成一单一音频文件，复制该获取的单一音频文件，将该复制的单一音频文件转换成对应的文本；将该文本中的词语与对应的时间相关联；响应用户操作，当该被转换的文本中存在输入的关键字时，获取该文字中的关键字所关联的时间，根据该获取的时间确定单一音频文件中该关键字对应语音的播放时间点，并控制一音频播放装置从该播放时间点开始播放该单一音频文件。本发明还提供一种语音处理系统，方便查找发言者针对某话题的发言内容。
文档编号G10L17/02GK103165131SQ20111042639
公开日2013年6月19日申请日期2011年12月17日优先权日2011年12月17日
发明者林希申请人:富泰华工业(深圳)有限公司, 鸿海精密工业股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林希
技术所有人：富泰华工业（深圳）有限公司;鸿海精密工业股份有限公司
我是此专利的发明人

上一篇：汉柯电子辞典及其自动转译汉柯语的方法
上一篇：一种基于sopc的可进化的语音识别红外控制器的制作方法