语音识别方法及装置的制造方法

文档序号：9889530阅读：347来源：国知局

语音识别方法及装置的制造方法
【技术领域】
[0001] 本发明实施例设及信息技术领域，尤其设及一种语音识别方法及装置。
【背景技术】
[0002] 语音识别技术是机器通过识别和理解过程将人发出的声音、字节或短语转换为相应的文字或符号，或者给出响应的一种信息技术。随着信息技术的飞速发展，语音识别技术已经广泛地应用于人们的日常生活中。例如：使用终端设备时，采用语音识别技术，用户可 W通过输入语音的方式方便地在终端设备中输入信息。
[0003] 现有的语音识别技术采用的语音识别方法有多种，例如:模型匹配法、概率模型法等。目前业界通常采用的是概率模型法语音识别技术。概率模型法语音识别技术，是通过云端对大量的不同用户输入的语音进行声学训练，得到一个通用的声学模型，根据所述通用的声学模型及语言模型将待识别的语音信号解码为文本输出。
[0004] 但是，由于现有技术中的语音识别方法采用的是对大量不同用户的输入语音进行训练得到的通用声学模型，当针对特定用户输入的语音进行识别时，识别结果不够精准。

【发明内容】

[0005] 本发明实施例提供一种语音识别方法及装置，用W解决现有技术中的语音识别方法针对特定用户输入的语音进行识别时，识别结果不够精准的问题。
[0006] 第一方面，本发明实施例提供一种语音识别方法。该方法包括:语音识别装置获取用于表示输入的语音信号与预设状态的映射关系的第一声学模型，其中，预设状态表示与语音信号对应的文本的基本组成元素。语音信号包括第一语音信号及第二语音信号。语音识别装置接收用户输入的第一语音信号后，根据第一语音信号及第二声学模型确定预设状态的概率值。其中，所述第二声学模型是语音识别装置根据相同用户输入的第二语音信号及第一声学模型确定得到的。语音识别装置内预设语言模型及词典，其中，语言模型用于表示预设状态与语音信号对应的文本之间映射关系的语言模型，词典中包括组成所述文本的词语的集合。语音识别装置根据预设的语言模型及词典将第一语音信号对应的预设状态的概率值解码为第一文本。
[0007] 本发明实施提供的语音识别方法，根据用户输入的第二语音信号及第一声学模型确定第二声学模型，使得所述第二声学模型与所述用户发音特征更加匹配，根据所述第二声学模型可W更准确地确定所述用户输入的第一语音信号对应的预设状态的概率值，将所述预设状态的概率值解码为文本时，可W得到更准确的语音识别结果。
[000引一种可能的实施方式中，该方法还包括:语音识别装置根据第二语音信号及第一声学模型确定第二声学模型。语音识别装置先根据第二语音信号及第一声学模型，计算得到第二语音信号对应的预设状态的实际概率值;然后根据第二语音信号对应的预设状态的实际概率值确定第二语音信号对应的状态的近似概率值;最后根据第二语音信号、第二语音信号对应的各个状态的实际概率值和近似概率值，W及第一声学模型，计算得到第二声学模型。
[0009] 通过上述可能的实施方式，根据近似概率值与实际概率值之间的差值对第一声学模型进行更新计算，可W对第二语音信号转换为预设状态过程中产生的误差进行修正，从而得到更加精确的针对该用户进行语音识别的第二声学模型，使得语音识别装置在使用所述第二声学模型对用户输入的语音进行识别时，能够得到更加精确的识别结果。
[0010] -种可能的实施方式中，所述第二语音信号还包括噪声信号，所述噪声信号的分贝值低于第一预设阔值。
[0011] 通过上述可能的实施方式，当所述噪声信号的分贝值小于所述第一预设阔值时，可W认为所述第二语音信号是用户在安静的环境下输入的。由于所述第二声学模型是根据安静环境下输入的所述第二语音信号确定得到的，可W使得所述第二语音信号中的用户发音特征可W更容易地被识别到，提升了语音识别的精准度。
[0012] -种可能的实施方式中，该方法还包括:语音识别装置根据第二语音信号确定代表用户的发音特征的第一频率;然后提取第一语音信号的信号特征值;并放大第一语音信号在所述第一频率上的信号特征值和第一语音信号在第二频率上的信号特征值，或者，仅放大第一语音信号在第一频率上的信号特征值，或者，仅缩小第一语音信号在与所述第一频率不同的第二频率上的信号特征值。
[0013] -种可能的实施方式中，语音识别装置通过W下方式确定代表用户的发音特征的第一频率:语音识别装置将第二语音信号转化为频域信号;并计算频域信号中出现的各个频率在频域信号的所有频率中出现的概率值;从所述计算得到的各频率的概率值中确定大于第二预设阔值的概率值对应的频率作为代表所述用户的发音特征的第一频率。
[0014] 通过上述可能的实施方式，当第二语音信号的一个或多个频率在所有频率中的出现概率大于第二预设阔值时，可W认为运一个或多个频率上的语音信号特征可W代表用户的发音特征，通过增强述第一语音信息中由用户输入的语音信号的强度，减弱第一语音信息中的噪音部分的强度，使得语音识别装置更容易识别出该用户的语音特征，对该用户的语音识别结果更加准确。
[0015] -种可能的实施方式中，所述词典中还包括与词语对应的识别概率值，该方法还包括:语音识别装置根据所述第二语音信号，确定所述词典中的用户常用词语;并在所述词典中增大所述用户常用词语对应的识别概率值，得到更新后的词典;语音识别装置根据语言模型及更新后的词典将第一语音信号对应的状态的概率值解码为第一文本。
[0016] -种可能的实施方式中，语音识别装置通过W下方式确定所述词典中的用户常用词语:语音识别装置对第二语音信号进行识别，获得与第二语音信号对应的第二文本。然后统计第二文本中每个词语在所有第二文本中的出现频率;确定出现频率大于第Ξ预设阔值的文本为所述用户常用词语。通过确定所述第二语音信号中的用户常用词语，可W确定出用户的发音习惯，从而增大用户常用词语的识别概率，可W使得对所述用户输入的第一语音信号进行识别时得出与用户发音习惯最为匹配的语音识别结果。
[0017] -种可能的实施方式中，本发明实施例语音识别方法还包括:语音识别装置检测语音识别装置上的语音输入端输入的语音信号的强度，并确定信号强度最高的语音信号作为需要识别的第一语音信号。
[0018] 通过上述实施方式，当语音识别装置上有多个语音输入端时，可W选择输入信号质量最好的输入端采集到的信号作为需要识别的语音信号，从而提高语音识别的精准度。
[0019] 第二方面，本发明实施例还提供一种语音识别装置，包括：
[0020] 用于获取表示输入的语音信号与预设状态的映射关系的第一声学模型的获取模块，预设状态为与语音信号对应的文本的基本组成元素，语音信号包括第一语音信号及第二语音信号；用于接收用户输入的第一语音信号的接收模块；W及用于根据所述第一语音信号及第二声学模型确定所述预设状态的概率值的处理模块。其中，所述第二声学模型是由处理模块根据相同的用户输入第二语音信号及第一声学模型确定得到的;语音识别装置内预设语言模型及词典，其中，语言模型用于表示预设状态与语音信号对应的文本之间映射关系的语言模型，词典中包括组成所述文本的词语的集合。所述处理模块还用于，根据预设的语言模型及词典将第一语音信号对应的预设状态的概率值解码为第一文本。
[0021] 本发明实施例提供的语音识别装置，根据用户输入的第二语音信号及第一声学模型确定第二声学模型，使得所述第二声学模型与所述用户发音特征更加匹配，根据所述第二声学模型可W更准确地确定所述用户输入的第一语音信号对应的预设状态的概率值，将所述预设状态的概率值解码为文本时，可W得到更准确的语音识别结果。
[0022] -种可能的实施方式中，所述处理模块还用于根据第二语音信号及第一声学模型计算得到第二声学模型。
[0023] -种可能的实施方式中，所述处理模块具体用于根据第二语音信号及第一声学模型，计算得到第二语音信号对应的预设状态的实际概率值;然后根据第二语音信号对应的预设状态的实际概率值确定第二语音信号对应的状态的近似概率值;再根据第二语音信号、第二语音信号对应的各个状态的实际概率值和近似概率值，W及第一声学模型，计算得到第二声学模型。
[0024] -种可能的实施方式中，所述第二语音信号中还包括噪声信号，所述噪声信号的分贝值低于第一预设阔值。当噪声信号的分贝值低于第一预设阔值时，可W认为第二语音信号是在安静环境下输入的。
[0025] -种可能的实施方式中，处理模块还用于根据用户输入的第二语音信号，确定代表用户的发音特征的第一频率;然后提取所述第一语音信号的信号特征值;并放大所述第一语音信号在所述第一频率上的信号特征值，和第一语音信号在第二频率上的信号特征值，或者，仅放大第一语音信号在第一频率上的信号特征值，或者，仅缩小第一语音信号在

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何占盈;徐斌;高海东;
技术所有人：华为技术有限公司;
我是此专利的发明人