本发明涉及电子技术领域,特别涉及一种识别语音信息的方法和装置。
背景技术:
随着电子技术的发展,各种各样的终端得到了广泛的应用,比如用户可以与之进行语音交互的智能电视机,此种情况下,终端需要对语音信息进行语音识别处理。
目前,终端对语音信息进行语音识别处理的方法是:终端对待识别的语音信息进行语音识别处理,得到语音信息对应的拼音,然后,根据拼音与文字的对应关系,确定每个拼音可能对应的文字,最后,可以根据预先存储的任意文字组合的概率,确定每个拼音对应的文字可能组成的每种文字组合的概率,其中,任意文字组合的概率是根据大量的文本信息统计得到的,进而,将概率大于预设概率阈值的文字组合作为语音信息对应的文本信息,若概率大于预设概率阈值的文字组合有多个时,终端将随机从中选取一个文本组合作为语音信息对应的文本信息。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
用户与终端交互的过程中,其输入的语音信息中往往存在持续时间比较短的短时语音信息,对于短时语音信息往往识别出的文本信息都是短文本信息,但是字数相同、语法结构一致的短文本信息对应的概率往往是相近的,且每个的概率都较高,即概率大于预设概率阈值的短文本往往是多个,终端最终随机选取的一个文本信息很可能不是用户想说的话,从而,导致语音信息的识别准确率较低。
技术实现要素:
为了解决现有技术的问题,本发明实施例提供了一种识别语音信息的方法和装置。所述技术方案如下:
第一方面,提供了一种识别语音信息的方法,所述方法包括:
获取待识别的语音信息,对所述语音信息进行语音识别处理,得到与所述语音信息相匹配的多个文本信息;
在所述多个文本信息对应的多个文字位中,确定第一类文字位和第二类文字位,其中,所述第一类文字位在所述多个文本信息中对应的文字满足预设的匹配条件,所述第二类文字位在所述多个文本信息中对应的文字不满足所述预设的匹配条件;
在所述语音信息中,获取所述第二类文字位对应的子语音信息,并对所述子语音信息进行语音识别处理,确定所述子语音信息对应的文字;
根据所述第一类文字位上出现次数最多的文字,及所述子语音信息对应的文字,确定所述语音信息对应的结果文本信息。
可选的,所述在所述多个文本信息对应的多个文字位中,确定第一类文字位和第二类文字位,其中,所述第一类文字位在所述多个文本信息中对应的文字满足预设的匹配条件,所述第二类文字位在所述多个文本信息中对应的文字不满足所述预设的匹配条件,包括:
对于每个文字位,根据所述多个文本信息在所述文字位上的文字,确定所述文字位上的文字在所述多个文本信息中对应的所述文字位上的出现次数;
如果所述文字位上的文字对应的最大出现次数满足预设的次数条件,则将所述文字位确定为第一类文字位;
如果所述文字位上的文字对应的最大出现次数不满足所述预设的次数条件,则将所述文字位确定为第二类文字位。
可选的,所述在所述多个文本信息对应的多个文字位中,确定第一类文字位和第二类文字位,其中,所述第一类文字位在所述多个文本信息中对应的文字满足预设的匹配条件,所述第二类文字位在所述多个文本信息中对应的文字不满足所述预设的匹配条件,包括:
确定所述文字位上的文字在所述多个文本信息中对应的所述文字位上的出现次数与所述多个文本信息的数量的比值,得到每个文字对应的出现次数比例;
如果所述文字位上的文字对应的最大出现次数比例达到预设比例阈值,则将所述文字位确定为第一类文字位;
如果所述文字位上的文字对应的最大出现次数比例未达到所述预设比例阈值,则将所述文字位确定为第二类文字位。
可选的,所述在所述语音信息中,获取所述第二类文字位对应的子语音信息,并对所述子语音信息进行语音识别处理,确定所述子语音信息对应的文字,包括:
对所述语音信息进行语音端点检测处理,得到所述第二类文字位对应的子语音信息,并对所述子语音信息进行孤立词语音识别处理,确定所述子语音信息对应的文字。
可选的,所述对所述子语音信息进行孤立词语音识别处理,确定所述子语音信息对应的文字,包括:
对所述子语音信息进行孤立词语音识别处理,得到与所述子语音信息相对应的概率最大的预设数目个文字;
如果所述预设数目个文字中包含所述子语音信息对应的文字位上的至少一个文字,则将所述至少一个文字中概率最大的文字确定为所述子语音信息对应的文字;
如果所述预设数目个文字中不包含所述子语音信息对应的文字位上的文字,则将所述预设数目个文字中概率最大的文字确定为所述子语音信息对应的文字。
第二方面,提供了一种识别语音信息的装置,所述装置包括:
第一语音识别模块,用于获取待识别的语音信息,对所述语音信息进行语音识别处理,得到与所述语音信息相匹配的多个文本信息;
第一确定模块,用于在所述多个文本信息对应的多个文字位中,确定第一类文字位和第二类文字位,其中,所述第一类文字位在所述多个文本信息中对应的文字满足预设的匹配条件,所述第二类文字位在所述多个文本信息中对应的文字不满足所述预设的匹配条件;
第二语音识别模块,用于在所述语音信息中,获取所述第二类文字位对应的子语音信息,并对所述子语音信息进行语音识别处理,确定所述子语音信息对应的文字;
第二确定模块,用于根据所述第一类文字位上出现次数最多的文字,及所述子语音信息对应的文字,确定所述语音信息对应的结果文本信息。
可选的,所述第一确定模块,用于:
对于每个文字位,根据所述多个文本信息在所述文字位上的文字,确定所述文字位上的文字在所述多个文本信息中对应的所述文字位上的出现次数;
如果所述文字位上的文字对应的最大出现次数满足预设的次数条件,则将所述文字位确定为第一类文字位;
如果所述文字位上的文字对应的最大出现次数不满足所述预设的次数条件,则将所述文字位确定为第二类文字位。
可选的,所述第一确定模块,用于:
确定所述文字位上的文字在所述多个文本信息中对应的所述文字位上的出现次数与所述多个文本信息的数量的比值,得到每个文字对应的出现次数比例;
如果所述文字位上的文字对应的最大出现次数比例达到预设比例阈值,则将所述文字位确定为第一类文字位;
如果所述文字位上的文字对应的最大出现次数比例未达到所述预设比例阈值,则将所述文字位确定为第二类文字位。
可选的,所述第二语音识别模块,用于:
对所述语音信息进行语音端点检测处理,得到所述第二类文字位对应的子语音信息,并对所述子语音信息进行孤立词语音识别处理,确定所述子语音信息对应的文字。
可选的,所述第二语音识别模块,用于:
对所述子语音信息进行孤立词语音识别处理,得到与所述子语音信息相对应的概率最大的预设数目个文字;
如果所述预设数目个文字中包含所述子语音信息对应的文字位上的至少一个文字,则将所述至少一个文字中概率最大的文字确定为所述子语音信息对应的文字;
如果所述预设数目个文字中不包含所述子语音信息对应的文字位上的文字,则将所述预设数目个文字中概率最大的文字确定为所述子语音信息对应的文字。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例中,终端得到与待识别语音信息相匹配的多个文本信息后,可以在多个文本信息对应的多个文字位中,确定需要重新进行语音识别处理的第二类文字位,和不需要重新进行语音识别处理的第一类文字位,其中,每个第一类文字位在多个文本信息中对应的各文字之间满足预设的匹配条件,每个第二类文字位在多个文本信息中对应的各文字之间不满足匹配条件,进而,终端可以在语音信息中获取每个第二类文字位对应的子语音信息,对每个子语音信息分别进行语音识别处理,得到每个子语音信息对应的文字,最后,终端可以将多个文本信息中每个第一类文字位上出现次数最多的文字,及每个子语音信息对应的文字进行组合,得到语音信息对应的结果文本信息。这样,对于语音信息对应有多个文本信息的情况,终端可以通过对文字不确定的文字位对应的子语音信息再次进行语音识别处理,得到语音信息最终的文本信息,无需终端在多个文本信息中毫无依据的随机选取其中的一个,从而,提高语音信息的识别准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种识别语音信息的方法流程图;
图2是本发明实施例提供的一种识别语音信息的装置结构示意图;
图3是本发明实施例提供的一种终端结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种识别语音信息的方法,该方法的执行主体为终端。其中,该终端可以是具有语音识别功能的终端,也可以是能够根据语音信息,执行相应处理的终端,比如可以是安装有语音助手应用程序的智能电视。该终端中可以设置有处理器和存储器,处理器可以用于确定待识别的语音信息对应的文本信息的相关处理,存储器可以用于存储下述处理过程中需要和产生的数据。本实施例中,以终端为安装有语音助手的智能电视为例进行方案的详细说明,其它情况与之类似,本实施例不再累述。
下面将结合具体实施方式,对图1所示的处理流程进行详细的说明,内容可以如下:
步骤101,获取待识别的语音信息,对语音信息进行语音识别处理,得到与语音信息相匹配的多个文本信息。
其中,文本信息可以是任一语言的文本信息,可以是中文文本信息,也可以是英文文本信息,本发明实施例对此不做限定。
在实施中,用户可以通过语音信息控制终端进行相应的处理。具体的,当用户需要终端执行某种处理时,可以发出相应的语音信息,此时,终端可以获取用户输入的语音信息(用户输入的语音信息即是终端待识别的语音信息),进而,可以对获取的语音信息进行语音识别处理,得到与语音信息对应的文本信息,进而,终端可以根据文本信息执行相应的处理。本发明实施例主要讲述终端确定语音信息对应的结果文本信息的处理过程,具体的,终端可以对语音信息进行预处理(比如进行滤波处理),对预处理后的语音信息进行分帧处理,得到多帧子语音信息,其中,每帧子语音信息的时长可以为25毫秒,然后,终端可以对每帧子语音信息进行特征提取,获取每一帧子语音信息对应的MFCC(Mel Frequency Cepstrum Coefficient,梅尔频率倒谱系数)特征,将每帧子语音信息的MFCC特征转化为与该MFCC特征相对应的概率最大的预设数目个状态,可以将每三个状态组合为一个音素(其中,音素可以是中文中的声母和韵母),得到语音信息可能对应的音素,之后,将得到音素进行组合,得到与语音信息相匹配的拼音(因为一个MFCC特征可能对应多个不同的状态,所以得到的语音信息对应的拼音也可能是多个),进而,终端可以根据记录有拼音与文字的对应关系的词典,将拼音转化为文字,最后,结合通过大量文本训练出来的任意文本组合对应的概率,确定与待识别的语音信息相对应的概率最大的多个文本信息,其中,最终确定的文本信息的数量可以是预先设置的。例如,终端对语音信息进行语音识别处理,得到的多个文本信息是“下一集”、“下一期”、“下一季”、“下一记”、“下一级”。
步骤102,在多个文本信息对应的多个文字位中,确定第一类文字位和第二类文字位,其中,第一类文字位在多个文本信息中对应的文字满足预设的匹配条件,第二类文字位在多个文本信息中对应的文字不满足预设的匹配条件。
其中,文字可以是任一语言的文字,可以是中文文字,也可以是英文单词,匹配条件可以是用于判断各文字是否匹配的条件。
在实施中,终端中可以预先存储有匹配条件,其中,预设的匹配条件可以是文字位上的各文字相同,也可以是文字位上存在出现次数大于预设次数阈值的文字。终端得到与语音信息相匹配的多个文本信息后,可以对多个文本信息对应的多个文字位上的文字进行分析,判断每个文本信息在每个文字位上的各文字之间是否满足预设的匹配条件,如果多个文本信息在某文字位上的各文字之间满足预设的匹配条件,则可以将该文字位确定为第一类文字位,如果多个文本信息在某文字位上的各文字之间不满足预设的匹配条件,则可以将该文字位确定为第二类文字位,终端可以按照上述方式,在多个文本信息对应的多个文字位中,确定第一类文字位和第二类文字位。
例如,多个文本信息是“下一集”(可以称为第一文本信息)、“下一期”(可以称为第二文本信息),预设的匹配条件为各文字相同,则可以看出,第一文本信息和第二文本信息在第一文字位上的文字相同,均为下,第一文本信息和第二文本信息在第二文字位上的文字相同,均为一,第一文本信息和第二文本信息在第三文字位上的文字不相同,第一文本信息在第三文字位上的文字为集,第二文本信息在第三文字位上的文字为期,因此,终端可以将第一文字位和第二文字位确定为第一类文字位,将第三文字位确定为第二类文字位。
可选的,可以将对应的最大出现次数满足预设的次数条件的文字位确定为第一类文字位,相应的,步骤102的处理过程可以如下:对于每个文字位,根据多个文本信息在文字位上的文字,确定文字位上的文字在多个文本信息中对应的文字位上的出现次数;如果文字位上的文字对应的最大出现次数满足预设的次数条件,则将文字位确定为第一类文字位;如果文字位上的文字对应的最大出现次数不满足预设的次数条件,则将文字位确定为第二类文字位。
在实施中,终端中可以预先存储有次数条件。终端得到与语音信息相匹配的多个文本信息后,对于每个文字位,终端可以对每个文本信息在该文字位上的文字进行分析,统计该文字位上的每个文字在该文字位上的出现次数。得到该文字位上的文字对应的各出现次数后,可以判断该文字位上的文字对应的最大出现次数是否满足预设的次数条件,如果该文字位上的文字对应的最大出现次数满足预设的次数条件,则终端可以将该文字位确定为第一类文字位;如果该文字位上的文字对应的最大出现次数不满足预设的次数条件,则终端可以将该文字位确定为第二类文字位。按照上述方式,终端对每个文本信息在所有文字位上的文字进行分析后,即可得到第一类文字位和第二类文字位。
例如,多个文本信息是“下一集”、“下一期”、“下一季”、“下一记”、“下一级”,则可以看出,第一文字位上的文字为下,下在第一文字位上的出现次数为5,即第一文字位上的文字对应的出现次数为5;第二文字位上的文字为一,一在第二文字位上的出现次数为5,即第二文字位上的文字对应的出现次数为5;第三文字位上的文字为集、期、季、记和级,集在第三文字位上的出现次数为1,期在第三文字位上的出现次数为1,季在第三文字位上的出现次数为1,记在第三文字位上的出现次数为1,级在第三文字位上的出现次数为1,即第三文字位对应的出现次数为1、1、1、1、1,进而,终端可以判断各文字位上的文字对应的最大出现次数是否满足预设的次数条件,示例的,预设的次数条件为4,即如果第一文字位和第二文字位上的文字对应的最大出现次数5满足预设的次数条件4,则终端可以将第一文字位和第二文字位确定为第一类文字位,如果第三文字位上的文字对应的最大出现次数1不满足预设的次数条件4,则终端可以将第三文字位确定为第二类文字位。
可选的,预设的次数条件可以是具体的数值,也可以是预设比例阈值,相应的,处理过程可以如下:确定文字位上的文字在多个文本信息中对应的文字位上的出现次数与多个文本信息的数量的比值,得到每个文字对应的出现次数比例;如果文字位上的文字对应的最大出现次数比例达到预设比例阈值,则将文字位确定为第一类文字位;如果文字位上的文字对应的最大出现次数比例未达到预设比例阈值,则将文字位确定为第二类文字位。
在实施中,对于每个文字位,终端确定出该文字位上的每个文字在该文字位上的出现次数后,还可以计算该文字位上的每个文字在该文字位上的出现次数与多个文本信息的数量的比值,得到该文字位上的每个文字对应的出现次数比例。然后,终端可以判断该文字位上的文字对应的最大出现次数比例是否达到了预设比例阈值,如果该文字位上的文字对应的最大出现次数比例达到预设比例阈值,则终端可以将该文字位确定为第一类文字位;如果该文字位上的文字对应的最大出现次数比例未达到预设比例阈值,则终端可以将该文字位确定为第二类文字位。按照上述方式,终端对每个文本信息在所有文字位上的文字进行分析后,即可得到第一类文字位和第二类文字位。
例如,多个文本信息是“下一集”、“下一期”、“下一季”、“下一记”、“下一级”,即文本信息的数量为5,预设比例阈值为0.8,则可以看出,第一文字位和第二文字位对应的出现次数比例分别为1,第三文字位对应的出现次数比例为0.2、0.2、0.2、0.2、0.2,由于第一文字位和第二文字位对应的最大出现次数比例1大于0.8,第三文字位对应的最大出现次数比例0.2小于0.8,因此,终端可以将第一文字位和第二文字位确定为第一类文字位,将第三文字位确定为第二类文字位。
步骤103,在语音信息中,获取第二类文字位对应的子语音信息,并对子语音信息进行语音识别处理,确定子语音信息对应的文字。
在实施中,终端得到第二类文字位后,可以对语音信息进行分析,得到每个第二类文字位对应的子语音信息,进而,终端可以分别对每个第二类文字位对应的子语音信息进行语音识别处理,得到每个子语音信息对应的文字。例如,多个文本信息是“下一集”、“下一期”、“下一季”、“下一记”、“下一级”,终端确定出的第二类文字位为第三文字位,则终端可以在语音信息中,确定第三文字位对应的子语音信息(即集/期/季/记/级对应的子语音信息),进而,对其进行语音识别处理,得到该子语音信息对应的文字。
可选的,终端可以通过对语音信息进行语音端点检测处理,得到每个第二类文字位对应的子语音信息,相应的,步骤103的处理过程可以如下:对语音信息进行语音端点检测处理,得到第二类文字位对应的子语音信息,并对子语音信息进行孤立词语音识别处理,确定子语音信息对应的文字。
在实施中,终端确定出每个第二类文字位后,可以对语音信息进行VAD(Voice Activity Detection,语音端点检测)处理,得到多个文本信息中每个文字位对应的子语音信息,再在多个子语音信息中获取每个第二类文字位对应的子语音信息,进而,终端可以分别对每个子语音信息进行孤立词语音识别处理,得到每个子语音信息对应的文字,其中,终端对每个子语音信息进行孤立词语音识别处理,可以得到与每个子语音信息相匹配的多个文字,此时,终端可以根据预设的选取规则,从多个文字中,确定子语音信息最终对应的文字,其中,预设的选取规则将在后续进行具体的表述。
此外,终端在对语音信息进行语音识别处理时,可以得到每帧子语音信息对应的状态,也即终端将会得到每个文字的拼音(即每个文字位)对应的多帧子语音信息,进而,终端可以将每个文字位与其对应的语音片段的时间起点和结束点对应存储。当终端确定出第二类文字位后,可以根据终端中预先存储的每个文字位与其对应的语音片段的时间起点和结束点的对应关系,以及语音信息,确定每个第二类文字位对应的语音片段(其中,语音片段可能比较粗糙,不是很精准,即可能不是对应文字位精准对应的子语音信息),进而,终端可以对每个语音片段进行VAD处理,得到第二类文字位精准对应的子语音信息,进而,分别对每个子语音信息进行孤立词语音识别处理,确定每个子语音信息对应的文字。也就是说,终端可以根据预先存储的每个文字位与语音片段的对应关系,确定每个第二类文字位对应的目标语音片段,进而,终端可以对目标语音片段进行VAD处理,得到每个第二类文字位对应的子语音信息。
可选的,终端可以根据子语音信息对应的各文字的概率,以及多个文本信息在第二类文字位上的文字,确定每个子语音信息最终对应的文字,相应的,处理过程可以如下:对子语音信息进行孤立词语音识别处理,得到与子语音信息相对应的概率最大的预设数目个文字;如果预设数目个文字中包含子语音信息对应的文字位上的至少一个文字,则将至少一个文字中概率最大的文字确定为子语音信息对应的文字;如果预设数目个文字中不包含子语音信息对应的文字位上的文字,则将预设数目个文字中概率最大的文字确定为子语音信息对应的文字。
在实施中,终端得到每个第二类文字位对应的子语音信息后,对于每个子语音信息,终端可以对子语音信息进行孤立词语音识别处理,得到与子语音信息相对应的多个文字以及每个文字对应的概率(其中,每个文字对应的概率可以是该文字与该子语音信息的匹配概率),进而,终端可以在得到的多个文字中确定概率最大的预设数目个文字。终端得到与子语音信息相匹配的预设数目个文字后,可以判断预设数目个文字中是否包含该子语音信息对应的文字位上的文字,如果不包含,则终端可以将预设数目个文字中概率最大的文字确定为子语音信息最终对应的文字,如果包含,则终端可以进一步判断预设数目个文字中包含几个该子语音信息对应的文字位上的文字,当预设数目个文字中包含多个该子语音信息对应的文字位上的文字时,终端可以将其中对应的概率最大的文字确定为该子语音信息最终对应的文字,当预设数目个文字中只包含一个该子语音信息对应的文字位上的文字时,终端可以将该文字确定为该子语音信息最终对应的文字。也就是说,终端按照上述方式,对每个子语音信息进行处理,即可得到每个子语音信息最终对应的文字。
例如,多个文本信息是“下一集”、“下一期”、“下一季”、“下一记”、“下一级”,第二类文字位为第三文字位,预设数目为4,如果终端对第三文字位对应的子语音信息进行孤立词语音识别处理,按照概率由大到小的顺序,得到的4个文字为集、及、计、即,则终端可以确定出4个文字中包含第三文字位上的文字,即“集”,进而,终端可以将“集”确定为该子语音信息对应的文字;如果终端对第三文字位对应的子语音信息进行孤立词语音识别处理,按照概率由大到小的顺序,得到的4个文字为计、及、机、即,则终端可以确定出4个文字中不包含第三文字位上的文字中的任意一个,进而,终端可以将4个文字中概率最大的文字(即计)确定为该子语音信息对应的文字;如果终端对第三文字位对应的子语音信息进行孤立词语音识别处理,按照概率由大到小的顺序,得到的4个文字为集、及、级、期,则终端可以确定出4个文字中包含第三文字位上的多个文字,即“集”、“期”和“级”,进而,终端可以将“集”、“期”和“级”中概率最大的“集”确定为该子语音信息对应的文字。
步骤104,根据第一类文字位上出现次数最多的文字,及子语音信息对应的文字,确定语音信息对应的结果文本信息。
在实施中,终端确定出每个子语音信息对应的文字后,可以将每个子语音信息对应的文字分别作为对应的文字位上的文字,也就是说,终端确定出每个子语音信息对应的文字,即确定出了每个第二类文字位上的最终文字。每个第一类文字位上最终的文字即是多个文本信息中每个第一类文字位上出现次数最多的文字。这样,终端即可将每个第一类文字位上最终的文字和第二类文字位上最终的文字,确定为语音信息对应的结果文本信息。
例如,多个文本信息是“下一集”、“下一期”、“下一季”、“下一记”、“下一级”,第二类文字位为第三文字位,第三文字位对应的子语音信息对应的文字为“集”,则终端可以确定语音信息对应的结果文本信息为“下一集”。
本发明实施例中,终端得到与待识别语音信息相匹配的多个文本信息后,可以在多个文本信息对应的多个文字位中,确定需要重新进行语音识别处理的第二类文字位,和不需要重新进行语音识别处理的第一类文字位,其中,每个第一类文字位在多个文本信息中对应的各文字之间满足预设的匹配条件,每个第二类文字位在多个文本信息中对应的各文字之间不满足匹配条件,进而,终端可以在语音信息中获取每个第二类文字位对应的子语音信息,对每个子语音信息分别进行语音识别处理,得到每个子语音信息对应的文字,最后,终端可以将多个文本信息中每个第一类文字位上出现次数最多的文字,及每个子语音信息对应的文字进行组合,得到语音信息对应的结果文本信息。这样,对于语音信息对应有多个文本信息的情况,终端可以通过对文字不确定的文字位对应的子语音信息再次进行语音识别处理,得到语音信息最终的文本信息,无需终端在多个文本信息中毫无依据的随机选取其中的一个,从而,提高语音信息的识别准确率。
基于相同的技术构思,本发明实施例还提供了一种识别语音信息的装置,如图2所示,该装置包括:
第一语音识别模块210,用于获取待识别的语音信息,对所述语音信息进行语音识别处理,得到与所述语音信息相匹配的多个文本信息;
第一确定模块220,用于在所述多个文本信息对应的多个文字位中,确定第一类文字位和第二类文字位,其中,所述第一类文字位在所述多个文本信息中对应的文字满足预设的匹配条件,所述第二类文字位在所述多个文本信息中对应的文字不满足所述预设的匹配条件;
第二语音识别模块230,用于在所述语音信息中,获取所述第二类文字位对应的子语音信息,并对所述子语音信息进行语音识别处理,确定所述子语音信息对应的文字;
第二确定模块240,用于根据所述第一类文字位上出现次数最多的文字,及所述子语音信息对应的文字,确定所述语音信息对应的结果文本信息。
可选的,所述第一确定模块220,用于:
对于每个文字位,根据所述多个文本信息在所述文字位上的文字,确定所述文字位上的文字在所述多个文本信息中对应的所述文字位上的出现次数;如果所述文字位上的文字对应的最大出现次数满足预设的次数条件,则将所述文字位确定为第一类文字位;如果所述文字位上的文字对应的最大出现次数不满足所述预设的次数条件,则将所述文字位确定为第二类文字位。
可选的,所述第一确定模块220,用于:
确定所述文字位上的文字在所述多个文本信息中对应的所述文字位上的出现次数与所述多个文本信息的数量的比值,得到每个文字对应的出现次数比例;
如果所述文字位上的文字对应的最大出现次数比例达到预设比例阈值,则将所述文字位确定为第一类文字位;如果所述文字位上的文字对应的最大出现次数比例未达到所述预设比例阈值,则将所述文字位确定为第二类文字位。
可选的,所述第二语音识别模块230,用于:
对所述语音信息进行语音端点检测处理,得到所述第二类文字位对应的子语音信息,并对所述子语音信息进行孤立词语音识别处理,确定所述子语音信息对应的文字。
可选的,所述第二语音识别模块230,用于:
对所述子语音信息进行孤立词语音识别处理,得到与所述子语音信息相对应的概率最大的预设数目个文字;
如果所述预设数目个文字中包含所述子语音信息对应的文字位上的至少一个文字,则将所述至少一个文字中概率最大的文字确定为所述子语音信息对应的文字;如果所述预设数目个文字中不包含所述子语音信息对应的文字位上的文字,则将所述预设数目个文字中概率最大的文字确定为所述子语音信息对应的文字。
本发明实施例中,终端得到与待识别语音信息相匹配的多个文本信息后,可以在多个文本信息对应的多个文字位中,确定需要重新进行语音识别处理的第二类文字位,和不需要重新进行语音识别处理的第一类文字位,其中,每个第一类文字位在多个文本信息中对应的各文字之间满足预设的匹配条件,每个第二类文字位在多个文本信息中对应的各文字之间不满足匹配条件,进而,终端可以在语音信息中获取每个第二类文字位对应的子语音信息,对每个子语音信息分别进行语音识别处理,得到每个子语音信息对应的文字,最后,终端可以将多个文本信息中每个第一类文字位上出现次数最多的文字,及每个子语音信息对应的文字进行组合,得到语音信息对应的结果文本信息。这样,对于语音信息对应有多个文本信息的情况,终端可以通过对文字不确定的文字位对应的子语音信息再次进行语音识别处理,得到语音信息最终的文本信息,无需终端在多个文本信息中毫无依据的随机选取其中的一个,从而,提高语音信息的识别准确率。
需要说明的是:上述实施例提供的识别语音信息的装置在识别语音信息时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将终端的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的识别语音信息的装置与识别语音信息的方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图3,其示出了本发明实施例所涉及的终端的结构示意图,该终端可以用于实施上述实施例中提供的识别语音信息的方法。具体来讲:
终端300可以包括RF(Radio Frequency,射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(wireless fidelity,无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解,图3中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路110可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器180处理;另外,将涉及上行的数据发送给基站。通常,RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(Code Division Multiple Access,码分多址)、WCDMA(Wideband Code Division Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service,短消息服务)等。
存储器120可用于存储软件程序以及模块,处理器180通过运行存储在存储器120的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端300的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器120还可以包括存储器控制器,以提供处理器180和输入单元130对存储器120的访问。
输入单元130可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器180,并能接收处理器180发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131,输入单元130还可以包括其他输入设备132。具体地,其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元140可用于显示由用户输入的信息或提供给用户的信息以及终端300的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的,触敏表面131可覆盖显示面板141,当触敏表面131检测到在其上或附近的触摸操作后,传送给处理器180以确定触摸事件的类型,随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图3中,触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面131与显示面板141集成而实现输入和输出功能。
终端300还可包括至少一种传感器150,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板141的亮度,接近传感器可在终端300移动到耳边时,关闭显示面板141和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端300还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路160、扬声器161,传声器162可提供用户与终端300之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号,传输到扬声器161,由扬声器161转换为声音信号输出;另一方面,传声器162将收集的声音信号转换为电信号,由音频电路160接收后转换为音频数据,再将音频数据输出处理器180处理后,经RF电路110以发送给比如另一终端,或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔,以提供外设耳机与终端300的通信。
WiFi属于短距离无线传输技术,终端300通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图3示出了WiFi模块170,但是可以理解的是,其并不属于终端300的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器180是终端300的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行终端300的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器180可包括一个或多个处理核心;优选的,处理器180可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器180中。
终端300还包括给各个部件供电的电源190(比如电池),优选的,电源可以通过电源管理系统与处理器180逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端300还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,终端300的显示单元是触摸屏显示器,终端300还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含用于进行以下操作的指令:
获取待识别的语音信息,对所述语音信息进行语音识别处理,得到与所述语音信息相匹配的多个文本信息;
在所述多个文本信息对应的多个文字位中,确定第一类文字位和第二类文字位,其中,所述第一类文字位在所述多个文本信息中对应的文字满足预设的匹配条件,所述第二类文字位在所述多个文本信息中对应的文字不满足所述预设的匹配条件;
在所述语音信息中,获取所述第二类文字位对应的子语音信息,并对所述子语音信息进行语音识别处理,确定所述子语音信息对应的文字;
根据所述第一类文字位上出现次数最多的文字,及所述子语音信息对应的文字,确定所述语音信息对应的结果文本信息。
可选的,所述在所述多个文本信息对应的多个文字位中,确定第一类文字位和第二类文字位,其中,所述第一类文字位在所述多个文本信息中对应的文字满足预设的匹配条件,所述第二类文字位在所述多个文本信息中对应的文字不满足所述预设的匹配条件,包括:
对于每个文字位,根据所述多个文本信息在所述文字位上的文字,确定所述文字位上的文字在所述多个文本信息中对应的所述文字位上的出现次数;
如果所述文字位上的文字对应的最大出现次数满足预设的次数条件,则将所述文字位确定为第一类文字位;
如果所述文字位上的文字对应的最大出现次数不满足所述预设的次数条件,则将所述文字位确定为第二类文字位。
可选的,所述在所述多个文本信息对应的多个文字位中,确定第一类文字位和第二类文字位,其中,所述第一类文字位在所述多个文本信息中对应的文字满足预设的匹配条件,所述第二类文字位在所述多个文本信息中对应的文字不满足所述预设的匹配条件,包括:
确定所述文字位上的文字在所述多个文本信息中对应的所述文字位上的出现次数与所述多个文本信息的数量的比值,得到每个文字对应的出现次数比例;
如果所述文字位上的文字对应的最大出现次数比例达到预设比例阈值,则将所述文字位确定为第一类文字位;
如果所述文字位上的文字对应的最大出现次数比例未达到所述预设比例阈值,则将所述文字位确定为第二类文字位。
可选的,所述在所述语音信息中,获取所述第二类文字位对应的子语音信息,并对所述子语音信息进行语音识别处理,确定所述子语音信息对应的文字,包括:
对所述语音信息进行语音端点检测处理,得到所述第二类文字位对应的子语音信息,并对所述子语音信息进行孤立词语音识别处理,确定所述子语音信息对应的文字。
可选的,所述对所述子语音信息进行孤立词语音识别处理,确定所述子语音信息对应的文字,包括:
对所述子语音信息进行孤立词语音识别处理,得到与所述子语音信息相对应的概率最大的预设数目个文字;
如果所述预设数目个文字中包含所述子语音信息对应的文字位上的至少一个文字,则将所述至少一个文字中概率最大的文字确定为所述子语音信息对应的文字;
如果所述预设数目个文字中不包含所述子语音信息对应的文字位上的文字,则将所述预设数目个文字中概率最大的文字确定为所述子语音信息对应的文字。
本发明实施例中,终端得到与待识别语音信息相匹配的多个文本信息后,可以在多个文本信息对应的多个文字位中,确定需要重新进行语音识别处理的第二类文字位,和不需要重新进行语音识别处理的第一类文字位,其中,每个第一类文字位在多个文本信息中对应的各文字之间满足预设的匹配条件,每个第二类文字位在多个文本信息中对应的各文字之间不满足匹配条件,进而,终端可以在语音信息中获取每个第二类文字位对应的子语音信息,对每个子语音信息分别进行语音识别处理,得到每个子语音信息对应的文字,最后,终端可以将多个文本信息中每个第一类文字位上出现次数最多的文字,及每个子语音信息对应的文字进行组合,得到语音信息对应的结果文本信息。这样,对于语音信息对应有多个文本信息的情况,终端可以通过对文字不确定的文字位对应的子语音信息再次进行语音识别处理,得到语音信息最终的文本信息,无需终端在多个文本信息中毫无依据的随机选取其中的一个,从而,提高语音信息的识别准确率。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。