语音输入方法和装置的制作方法

文档序号:6399982阅读:223来源:国知局
专利名称:语音输入方法和装置的制作方法
技术领域
本发明涉及语音信号处理领域,尤其涉及一种语音输入方法和装置。
背景技术
近年来,随着语音识别技术的发展,用户可以通过语音指令实现移动设备的操控,也可以通过语音实现文字的编辑输入等。其中,系统可以通过对用户输入的语音信号进行语音识别,并显示识别结果实现文字的编辑输入。然而,当用户输入语音信号中存在同音字或者有噪声等干扰时,识别结果的全部或部分可能出错;此时用户需要手动删除错误的部分后重新输入,操作复杂。

发明内容
本发明的实施例提供一种语音输入方法和装置,能够简化用户的操作。—方面,提供一种语音输入方法,包括:对用户输入的初始语音信息进行语音识另IJ,得到首次识别结果后显示;接收用户在所述初始语音信息后输入的二次语音信息;判断所述二次语音信息是否指示修改;如果指示,根据所述二次语音信息对所述首次识别结果进行修改后显示。另一方面,提供一种语音输入装置,包括:第一显示单元,用于对用户输入的初始语音信息进行语音识别,得到首次识别结果后显不;语音接收单元,用于接收用户在所述初始语音信息后输入的二次语音信息;指示确认单元,用于判断所述二次语音信息是否指示修改;修改显示单元,用于如果指示,根据所述二次语音信息对所述首次识别结果进行修改后显示。本发明实施例提供的语音输入方法和装置,当用户在初始语音信息后输入的二次语音信息指示修改时,可以直接根据用户输入的二次语音信息对首次识别结果进行修改后显示,从而实现语音输入。本发明实施例提供的技术方案,解决了现有技术中用户需要手动删除错误的部分后重新输入,操作复杂的问题,能够提高语音输入的效率。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例一提供的语音输入方法的流程图;图2为本发明实施例二提供的语音输入方法的流程图;图3为本发明实施例二提供的语音输入方法的示意图一;
图4为本发明实施例二提供的语音输入方法的示意图二 ;图5为本发明实施例三提供的语音输入装置的结构示意图一;图6为图5所示的语音输入装置中指示确认单元的结构示意图一;图7为图5所示的语音输入装置中指示确认单元的结构示意图二 ;图8为本发明实施例三提供的语音输入装置的结构示意图二。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明实施例提供一种语音输入方法和装置,能够解决现有技术语音输入复杂的问题。实施例一:如图1所示,本发明实施例提供的语音输入方法,包括:步骤101,对用户输入的初始语音信息进行语音识别,得到首次识别结果后显示。在本实施例中,用户需要通过语音输入文字时,可以按下语音输入装置上的启动按钮,使语音输入装置可以通过麦克风接收用户输入的语音信息。在首次接收到用户输入的初始语音信息时,可以对该初始语音信息进行语音识别,得到首次识别结果。为了使本发明实施例提供的语音输入方法适用范围更广,能够识别出不同领域、不同口音的用户语音信息,在本实施例中,步骤101可以采用非特定人语音识别技术对用户输入的初始语音信息进行识别、解析,得到首次识别结果。在本实施例中,步骤101可以以常规状态显示首次识别结果;为了便于用户使用,也可以以待确认状态显示首次识别结果,在此不作限制。其中,以待确认状态显示首次识别结果可以为以覆盖浮层的方式显示,也可以为以闪烁的方式显示。其中,以覆盖浮层的方式显示,可以与突出显示的方式类似,在此不再一一赘述。在本实施例中,以待确认状态显示首次识别结果时,用户可以对待确认状态的文字进行修改。为了避免需要输入同音词时,语音输入装置的误修改,可以在首次语音信息后预设时间内没有新的语音输入时,将待确认状态的文字标记为确认状态,如去掉覆层、取消闪烁等。步骤102,接收用户在初始语音信息后输入的二次语音信息。在本实施例中,语音输入装置通过步骤101显示首次识别结果后,如果用户需要对首次识别结果中部分或全部文字进行修改、或者需要继续输入其他文字,可以再次按下语音输入装置上的启动按钮,使语音输入装置可以通过麦克风接收用户输入的二次语音信肩、O步骤103,判断该二次语音信息是否指示修改。在本实施例中,语音输入装置通过步骤102接收到用户输入的二次语音信息后,需要首先通过步骤103判断该二次语音信息是用户需要对首次识别结果进行修改而输入的还是用户需要继续输入其他文字而输入的。
具体的,通过步骤103判断该二次语音信息是否指示修改的过程可以包括:将该二次语音信息与初始语音信息进行音频比对,得到相似度值;根据相似度值与预设的阈值的关系判断该二次语音信息是否指示修改。其中,将该二次语音信息与初始语音信息进行音频比对可以为提取音频特征参数实现音频比对,该提取音频特征参数的过程可以包括:首先利用小波变换分别将初始语音信息和二次语音信息进行压缩,得到初始压缩语音和二次压缩语音,该小波变换方法优选为哈尔小波变换,也可以为其他方法,在此不作限制;然后采用“音频帧”的方法分别提取初始压缩语音和二次压缩语音的音频特征参数,得到初始音频参数和二次音频参数,该音频特征参数优选为质心、均方根、Mel倒谱参数等;最后将初始音频参数和二次音频参数分别进行欧式距离计算,得到相似距离后,根据相似距离确定相似度值。也可以将首次语音信息和二次语音信息的音频同时转换为相同的时间轴模型,再利用图形识别技术实现音频比对;还可以通过其他方式实现二次语音信息与初始语音信息的音频比对,在此不再一一赘述。通过步骤103判断该二次语音信息是否指示修改的过程也可以包括:首先对二次语音信息进行语义分析,得到分析结果;然后根据分析结果判断该二次语音信息是否指示修改。其中,对二次语音进行语义分析,可以为判断二次语音信息中是否包含“将. 替换为. ”、“在. 位置添加. ”等;也可以通过其他方式对二次语音进行语义分析,在此
不再一一赘述。在本实施例中,通过音频比对、语义分析方法判断该语音信息是否指示修改,语音输入装置既可以根据用户需要选择上述方法中的一种,也可以将上述方法结合,能够方便用户使用;使用户需要对已输入的文字进行修改时,既可以通过重复需要修改部分的语音实现修改,也可以通过输入含有修改语义的语音(如将X修改为1,或在X后边添加I等)实现修改,无需用户进行手动删除等操作,方便用户使用,并且能够提高语音输入的效率。步骤104,如果指示,根据该二次语音信息对首次识别结果进行修改后显示。在本实施例 中,如果步骤103通过音频比对判断是否指示修改,步骤104根据该二次语音信息对首次识别结果进行修改可以包括:首先对二次语音信息进行语音识别,得到至少一个二次识别结果;然后从至少一个二次识别结果中获取目标识别结果;最后根据目标识别结果对首次识别结果进行修改后显示。如果步骤103通过语义分析判断是否指示修改,步骤104根据该二次语音信息对首次识别结果进行修改可以包括:首先根据分析结果获取修改位置和目标语音信息,如通过二次语音信息中“替换为”等之后的部分可以作为目标语音信息;对目标语音信息进行语音识别,得到至少一个二次识别结果;从至少一个二次识别结果中获取目标识别结果;根据该目标识别结果和修改位置对首次识别结果进行修改后显示。其中,从至少一个二次识别结果中获取目标识别结果,既可以为根据至少一个二次识别结果的使用频率获取目标识别结果,也可以为根据至少一个二次识别结果与首次识别结果的关联度获取目标识别结果。在本实施例中,步骤104中对首次识别结果进行修改可以包括:首先对首次识别结果进行修改,得到修改后的识别结果;然后自动删除已显示的首次识别结果;最后在显示首次识别结果的位置显示修改后的识别结果。其中,对首次识别结果进行修改可以为:首先确定首次识别结果的修改位置;然后根对首次识别结果进行修改。优选的,当指示对首次识别结果的全部或部分进行替换时,通过步骤104对首次识别结果进行修改,也可以包括:首先自动删除首次识别结果中待替换部分;然后在待替换部分相应的位置添加替换部分后显示。当指示在首次识别结果中进行添加时,通过步骤104对首次识别结果进行修改,可以为在首次识别结果中对应结果添加后显示。本发明实施例提供的语音输入方法,当用户在初始语音信息后输入的二次语音信息指示修改时,可以直接根据用户输入的二次语音信息对首次识别结果进行修改后显示,从而实现语音输入。本发明实施例提供的技术方案,解决了现有技术中用户需要手动删除错误的部分后重新输入,操作复杂的问题,能够提高语音输入的效率。实施例二:如图2所示,本发明实施例提供的语音输入方法,该方法与图1所示的相似,区别在于,如果通过步骤103确定二次语音信息未指示修改,本实施例提供的方法还包括:步骤105,对二次语音信息进行语音识别,得到二次识别结果。在本实施例中,如果通过步骤103确定二次语音信息未指示修改,说明需要在输入初始语音信息后继续输入,因此可以直接对二次语音信息进行语音识别,得到二次识别结果。为了使本发明实施例提供的语音输入方法适用范围更广,能够识别出不同领域、不同口音的用户语音信息,在本实施例中,步骤105可以采用非特定人语音识别技术对用户输入的初始语音信息进行识别、解析,得到首次识别结果。步骤106,在首次识别结果后显示二次识别结果。在本实施例中,通过步骤105得到二次识别结果后,可以紧接着首次识别结果显示该二次识别结果。为了使本领域技术人员能够理解本发明实施例提供的技术方案,以用户需要通过语音输入“叹息风云多变幻”为例进行说明,假设首次识别结果为“叹息风云多变换”,显示为覆盖浮层的叹息风云多变换”;由于“变换”二字错误,并且首次识别结果为待确认状态,因此用户可以在预设时间内,输入音频“bian huan”,使语音输入装置将“bian huan”与“tan xi feng yun duo bian huan”音频依次进行音频比对,确定输入的音频“bian huan”指示对首次识别结果进行修改;之后语音输入装置可以首先对“bian huan”进行语音识别,得到至少一个二次识别结果——变换、变幻、变缓、边患和便换;通过上述二次识别结果与首次识别结果中“叹息风云”的关联度可以确定“变幻”为目标识别结果;其后语音输入装置将音频“bian huan”对应的首次识别结果中的“变换”自动删除,显示为覆盖浮层的“叹息风云多”;然后语音输入装置可以将目标识别结果“变幻”添加到原有首次识别结果中“变换”相应位置,显示为覆盖浮层的“叹息风云多变幻”,并将首次识别结果标记为确认状态,如图3所示。特别的,如果用户在预设时间内未输入音频,可以将以覆盖浮层的方式显示的首次识别结果标记为确认状态,如图4所示,使用户在预设时间后再次输入语音时,能够继续首次识别结果输入,避免需要输入同音词时,语音输入装置的误修改的问题;如果用户再次输入的语音未指示对首次识别结果进行修改,也可以继续首次识别结果输入。本发明实施例提供的语音输入方法,当用户在初始语音信息后输入的二次语音信息指示修改时,可以直接根据用户输入的二次语音信息对首次识别结果进行修改后显示,从而实现语音输入。本发明实施例提供的技术方案,解决了现有技术中用户需要手动删除错误的部分后重新输入,操作复杂的问题,能够提高语音输入的效率。实施例三:
如图5所示,本发明实施例提供的语音输入装置,包括:第一显示单元501,用于对用户输入的初始语音信息进行语音识别,得到首次识别结果后显示;语音接收单元502,用于接收用户在初始语音信息后输入的二次语音信息;指示确认单元503,用于判断二次语音信息是否指示修改;修改显示单元504,用于如果指示,根据二次语音信息对首次识别结果进行修改后显不O在本实施例中,通过第一显示单元501、语音接收单元502、指示确认单元503和修改显示单元504实现语音输入的过程,与本发明实施例一提供的过程相似,在此不再一一赘述。进一步的,如图6所示,本实施例中指示确认单元503,包括:音频比对模块5031,用于将二次语音信息与初始语音信息进行音频比对,得到相似度值;第一确认模块5032,用于根据相似度值与预设的阈值的关系判断二次语音信息是否指示修改。如图7所示,该指示确认单元503也可以包括:语义分析模块5033,用于对二次语音信息进行语义分析,得到分析结果;第二确认模块5034,用于根据分析结果判断二次语音信息是否指示修改。在本实施例中,指示确认单元503可以只包括音频比对模块5031和第一确认模块5032,如图6所示;也可以只包括语义分析模块5033和第二确认模块5034,如图7所示;还可以既包括音频比对模块5031和第一确认模块5032,又包括语义分析模块5033和第二确认模块5034,在此不再一一赘述。在本实施例中,指示确认单元503包括音频比对模块5031和第一确认模块5032时,音频比对模块5031,可以包括:音频压缩子模块,用于分别将初始语音信息和二次语音信息进行压缩,得到初始压缩语音和二次压缩语音;参数提取子模块,用于分别提取初始压缩语音和二次压缩语音的音频特征参数,得到初始音频参数和二次音频参数;距离运算子模块,用于将初始音频参数和二次音频参数分别进行欧式距离运算,得到相似距离;相似度获取子模块,用于根据相似距离确定相似度值。此时,修改显示单元,可以包括:第一识别模块,用于对二次语音信息进行语音识别,得到至少一个二次识别结果;第一结果获取模块,用于从至少一个二次识别结果中获取目标识别结果;第一修改模块,用于根据目标识别结果对首次识别结果进行修改后显示。在本实施例中,指示确认单元503包括语义分析模块5033和第二确认模块5034时,修改显示单元,可以包括:位置获取模块,用于根据分析结果获取修改位置和目标语音信息;第二识别模块,用于对目标语音信息进行语音识别,得到至少一个二次识别结果;第二结果获取模块,用于从至少一个二次识别结果中获取目标识别结果;第二修改模块,用于根据目标识别结果和修改位置对首次识别结果进行修改后显示。在本实施例中,第一 /第二结果获取模块,可以包括:频率获取子模块或者关联度获取子模块。其中,频率获取子模块,用于根据至少一个二次识别结果的使用频率获取目标识别结果关联度获取子模块,用于根据至少一个二次识别结果与首次识别结果的关联度获取目标识别结果。进一步的,如果指示确认单元未指示修改,如图8所示,本实施例提供的语音输入装置,还可以包括:识别单元505,用于对二次语音信息进行语音识别,得到二次识别结果;第二显示单元506,用于在首次识别结果后显示二次识别结果。在本实施例中,通过识别单元505和第二显示单元506实现语音输入的过程,与本发明实施例二提供的相似,在此不再一一赘述。本发明实施例提供的语音输入装置,当用户在初始语音信息后输入的二次语音信息指示修改时,可以直接根据用户输入的二次语音信息对首次识别结果进行修改后显示,从而实现语音输入。本发明实施例提供的技术方案,解决了现有技术中用户需要手动删除错误的部分后重新输入,操作复杂的问题,能够提高语音输入的效率。本发明实施例提供的语音输入方法和装置,能够用于电脑、手机等用户终端上。以上所述,仅为本发明的具体实施方式
,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
权利要求
1.一种语音输入方法,其特征在于,包括: 对用户输入的初始语音信息进行语音识别,得到首次识别结果后显示; 接收用户在所述初始语音信息后输入的二次语音信息; 判断所述二次语音信息是否指示修改; 如果指示,根据所述二次语音信息对所述首次识别结果进行修改后显示。
2.根据权利要求1所述的语音输入方法,其特征在于,所述判断所述二次语音信息是否指示修改,包括: 将所述二次语音信息与所述初始语音信息进行音频比对,得到相似度值; 根据所述相似度值与预设的阈值的关系判断所述二次语音信息是否指示修改。
3.根据权利要求2所述的语音输入方法,其特征在于,所述将所述二次语音信息与所述初始语音信息进行音频比对,得到相似度值的步骤,包括: 分别将所述初始语音信息和所述二次语音信息进行压缩,得到初始压缩语音和二次压缩语音; 分别提取所述初始压缩语音和所述二次压缩语音的音频特征参数,得到初始音频参数和二次音频参数; 将所述初始音频参数和所述二次音频参数分别进行欧式距离运算,得到相似距离; 根据所述相似距离确定相似度值。
4.根据权利要求2所述的语音输入方法,其特征在于,所述根据所述二次语音信息对所述首次识别结果进行修改后显示,包括: 对所述二次语音信息进行语音识别,得到至少一个二次识别结果; 从所述至少一个二次识别结果中获取目标识别结果; 根据所述目标识别结果对所述首次识别结果进行修改后显示。
5.根据权利要求1所述的语音输入方法,其特征在于,所述判断所述二次语音信息是否指示修改,包括: 对所述二次语音信息进行语义分析,得到分析结果; 根据所述分析结果判断所述二次语音信息是否指示修改。
6.根据权利要求5所述的语音输入方法,其特征在于,所述根据所述二次语音信息对所述首次识别结果进行修改后显示,包括: 根据所述分析结果获取修改位置和目标语音信息; 对所述目标语音信息进行语音识别,得到至少一个二次识别结果; 从所述至少一个二次识别结果中获取目标识别结果; 根据所述目标识别结果和所述修改位置对所述首次识别结果进行修改后显示。
7.根据权利要求4或6所述的语音输入方法,其特征在于,所述从所述至少一个二次识别结果中获取目标识别结果,包括: 根据所述至少一个二次识别结果的使用频率获取目标识别结果;或者, 根据所述至少一个二次识别结果与所述首次识别结果的关联度获取目标识别结果。
8.根据权利要求1所述的语音输入方法,其特征在于,所述得到首次识别结果后显示,包括: 得到首次识别结果后以覆盖浮层的方式显示; 或者得到首次识别结果后以闪烁的方式显示。
9.根据权利要求1所述的语音输入方法,其特征在于,如果未指示,还包括: 对所述二次语音信息进行语音识别,得到二次识别结果; 在所述首次识别结果后显示所述二次识别结果。
10.一种语音输入装置,其特征在于,包括: 第一显示单元,用于对用户输入的初始语音信息进行语音识别,得到首次识别结果后显示; 语音接收单元,用于接收用户在所述初始语音信息后输入的二次语音信息; 指示确认单元,用于判断所述二次语音信息是否指示修改; 修改显示单元,用于如果指示,根据所述二次语音信息对所述首次识别结果进行修改后显不O
11.根据权利要求10所述的语音输入装置,其特征在于,所述指示确认单元,包括: 音频比对模块,用于将所述二次语音信息与所述初始语音信息进行音频比对,得到相似度值; 第一确认模块,用于根据所述相似度值与预设的阈值的关系判断所述二次语音信息是否指示修改。
12.根据权 利要求11所述的语音输入装置,其特征在于,所述音频比对模块,包括: 音频压缩子模块,用于分别将所述初始语音信息和所述二次语音信息进行压缩,得到初始压缩语音和二次压缩语音; 参数提取子模块,用于分别提取所述初始压缩语音和所述二次压缩语音的音频特征参数,得到初始音频参数和二次音频参数; 距离运算子模块,用于将所述初始音频参数和所述二次音频参数分别进行欧式距离运算,得到相似距离; 相似度获取子模块,用于根据所述相似距离确定相似度值。
13.根据权利要求11所述的语音输入装置,其特征在于,修改显示单元,包括: 第一识别模块,用于对所述二次语音信息进行语音识别,得到至少一个二次识别结果; 第一结果获取模块,用于从所述至少一个二次识别结果中获取目标识别结果; 第一修改模块,用于根据所述目标识别结果对所述首次识别结果进行修改后显示。
14.根据权利要求10所述的语音输入装置,其特征在于,所述指示确认单元,包括: 语义分析模块,用于对所述二次语音信息进行语义分析,得到分析结果; 第二确认模块,用于根据所述分析结果判断所述二次语音信息是否指示修改。
15.根据权利要求14所述的语音输入装置,其特征在于,所述修改显示单元,包括: 位置获取模块,用于根据所述分析结果获取修改位置和目标语音信息; 第二识别模块,用于对所述目标语音信息进行语音识别,得到至少一个二次识别结果; 第二结果获取模块,用于从所述至少一个二次识别结果中获取目标识别结果; 第二修改模块,用于根据所述目标识别结果和所述修改位置对所述首次识别结果进行修改后显示。
16.根据权利要求13或15所述的语音输入装置,其特征在于,所述第一/第二结果获取模块,包括:频率获取子模块或者关联度获取子模块; 所述频率获取子模块,用于根据所述至少一个二次识别结果的使用频率获取目标识别结果; 所述关联度获取子模块,用于根据所述至少一个二次识别结果与所述首次识别结果的关联度获取目标识别结果。
17.根据权利要求10所述的语音输入装置,其特征在于,所述得到首次识别结果后显示,包括: 得到首次识别结果后以覆盖浮层的方式显示;或者 得到首次识别结果后以闪烁的方式显示。
18.根据权利要求10所述的语音输入装置,其特征在于,如果未指示,所述装置还包括: 识别单元,用于对所述二 次语音信息进行语音识别,得到二次识别结果; 第二显示单元,用于在所述首次识别结果后显示所述二次识别结果。
全文摘要
本发明实施例提供一种语音输入方法和装置,涉及语音信号处理领域。为解决现有技术语音输入复杂的问题而发明。本发明实施例提供的技术方案包括对用户输入的初始语音信息进行语音识别,得到首次识别结果后显示;接收用户在所述初始语音信息后输入的二次语音信息;判断所述二次语音信息是否指示修改;如果指示,根据所述二次语音信息对所述首次识别结果进行修改后显示。该方案可以应用在电脑、手机等用户终端上。
文档编号G06F3/16GK103106061SQ20131006997
公开日2013年5月15日 申请日期2013年3月5日 优先权日2013年3月5日
发明者张然, 邵颖, 王力劭 申请人:北京车音网科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1