语音识别方法及装置的制造方法

文档序号：9728466阅读：377来源：国知局

语音识别方法及装置的制造方法
【技术领域】
[0001 ]本公开涉及网络通信技术领域，尤其涉及语音识别方法及装置。
【背景技术】
[0002]随着网络通信技术的不断发展，具有语音识别功能的智能手机的使用也越来越广泛。相关技术中，智能手机可以安装语音助手，并通过该语音助手完成语音识别的功能，比如:通过语音识别，匹配手机通讯录，从而实现联系人关联查询。但是，相关技术中的语音识别受限于声学模型与词典之间的强关联关系，灵活性差，难以扩充，降低了用户体验。

【发明内容】

[0003]为克服相关技术中存在的问题，本公开提供了语音识别方法及装置。
[0004]根据本公开实施例的第一方面，提供一种语音识别方法，所述方法包括:
[0005]接收语音信号；
[0006]根据所述语音信号生成对应的拼音信息；
[0007]根据所述拼音信息检索指定数据库，得到与所述语音信号对应的文本信息。
[0008]可选的，所述语音信号是针对联系人信息的语音信号，所述联系人信息包括联系人姓名和昵称中的任意一种。
[0009]可选的，所述根据所述语音信号生成对应的拼音信息，包括:
[0010]对所述语音信号进行前端处理，所述前端处理包括端点检测和语音增强；
[0011]采用声学模型对所述前端处理后的语音信息进行声学处理，得到对应的音节信息;
[0012]将所述音节信息转换为对应的拼音信息。
[0013]可选的，所述将所述音节信息转换为对应的拼音信息，包括:
[0014]将所述音节信息转换为至少一种拼音形式的拼音信息，所述拼音形式包括全拼、缩写和简写中的至少一种。
[0015]可选的，所述根据所述拼音信息检索指定数据库，得到与所述语音信号对应的文本信息，包括:
[0016]在拼音索引库中查询所述拼音信息对应的文本信息；
[0017]当确定查询到所述拼音信息对应的至少一个文本信息时，计算所查询到的文本信息与所述拼音信息的匹配度；
[0018]根据所述匹配度确定所述语音信号对应的文本信息。
[0019]可选的，所述根据所述匹配度确定所述拼音信息对应的文本信息，包括:
[0020]显示所述匹配度超过预设匹配度阈值的文本信息；
[0021 ]接收用户针对所显示的文本信息的选择指令；
[0022]根据所述选择指令将用户所选的文本信息确定为所述语音信号对应的文本信息。
[0023]可选的，所述方法还包括:
[0024]建立所述拼音索引库，所述拼音索引库包括各个联系人信息对应的拼音信息，以及每个拼音信息对应的至少一个文本信息。
[0025]可选的，所述方法还包括:
[0026]当检测到所述联系人信息出现增加、减少或变更中任一种变化时，根据所述变化后的联系人信息更新所述拼音索引库。
[0027]根据本公开实施例的第二方面，提供一种语音识别装置，所述装置包括:
[0028]接收模块，被配置为接收语音信号；
[0029]拼音信息生成模块，被配置为根据所述接收模块接收到的所述语音信号生成对应的拼首?目息；
[0030]文本信息确定模块，被配置为根据所述拼音信息检索指定数据库，得到与所述语音信号对应的文本信息。
[0031]可选的，所述接收模块接收到的语音信号是针对联系人信息的语音信号，所述联系人信息包括联系人姓名和昵称中的任意一种。
[0032]可选的，所述拼音信息生成模块包括:
[0033]前端处理子模块，被配置为对所述语音信号进行前端处理，所述前端处理包括端点检测和语音增强；
[0034]声学处理子模块，被配置为采用声学模型对所述前端处理子模块处理后的语音信息进行声学处理，得到对应的音节信息；
[0035]第一转换子模块，被配置为将所述声学处理子模块得到的所述音节信息转换为对应的拼音信息。
[0036]可选的，所述第一转换子模块包括:
[0037]第二转换子模块，被配置为将所述音节信息转换为至少一种拼音形式的拼音信息，所述拼音形式包括全拼、缩写和简写中的至少一种。
[0038]可选的，所述文本信息确定模块包括:
[0039]查询子模块，被配置为在拼音索引库中查询所述拼音信息对应的文本信息；
[0040]计算子模块，被配置为当所述查询子模块确定查询到所述拼音信息对应的至少一个文本信息时，计算所查询到的文本信息与所述拼音信息的匹配度；
[0041]第一文本信息确定子模块，被配置为根据所述计算子模块计算得到的所述匹配度确定所述语音信号对应的文本信息。
[0042]可选的，所述第一文本信息确定子模块包括:
[0043]显示子模块，被配置为显示所述匹配度超过预设匹配度阈值的文本信息；
[0044]接收子模块，被配置为接收用户针对所述显示子模块所显示的文本信息的选择指令；
[0045]第二文本信息确定子模块，被配置为根据所述接收子模块接收到的所述选择指令将用户所选的文本信息确定为所述语音信号对应的文本信息。
[0046]可选的，所述装置还包括:
[0047]拼音索引库建立模块，被配置为建立所述拼音索引库，所述拼音索引库包括各个联系人信息对应的拼音信息，以及每个拼音信息对应的至少一个文本信息。
[0048]可选的，所述装置还包括:
[0049]拼音索引库更新模块，当检测到所述联系人信息出现增加、减少或变更中任一种变化时，根据所述变化后的联系人信息更新所述拼音索引库。
[0050]根据本公开实施例的第三方面，提供一种语音识别装置，所述装置包括:
[0051]处理器；
[0052]用于存储处理器可执行指令的存储器；
[0053]其中，所述处理器被配置为:
[0054]接收语音信号；
[0055]根据所述语音信号生成对应的拼音信息；
[0056]根据所述拼音信息检索指定数据库，得到与所述语音信号对应的文本信息。
[0057]本公开的实施例提供的技术方案可以包括以下有益效果:
[0058]本公开中终端可以接收语音信号，根据该语音信号生成对应的拼音信息，再根据该语音信号对应的拼音信息检索指定数据库，得到与语音信号对应的文本信息，从而实现了通过拼音信息将语音信号和文本信息进行隔离，并通过该拼音信息作为中间结果，提高了语音识别的准确度，还容易扩充新的文本信息，提高了用户体验。
[0059]本公开中终端还可以对语音信号进行前端处理，并采用声学模型对前端处理后的语音信息进行声学处理，得到对应的音节信息，再将音节信息转换为对应的拼音信息，从而实现了语音信号到拼音信息的转换，有利于提升语音识别的准确率。
[0060]本公开中终端还可以在拼音索引库中查询拼音信息对应的文本信息，当确定查询到该拼音信息对应的至少一个文本信息时，计算所查询到的文本信息与拼音信息的匹配度，根据计算得到的匹配度确定接收到的语音信号对应的文本信息，从而实现了拼音信息到文本信息的转换，提高了语音识别的准确率。
[0061 ]本公开中终端还可以当检测到联系人信息出现增加、减少或变更中任一种变化时，可以根据变化后的联系人信息更新拼音索引库，便于联系人信息的变动，提高了用户体验。
[0062]本公开中终端还可以显示计算得到的匹配度超过预设匹配度阈值的文本信息，接收用户针对所显示的文本信息的选择指令，根据用户选择指令将用户所选的文本信息确定为接收到的语音信号对应的文本信息，提高了语音识别的速度，满足了用户个性化需求，提尚了用户体验。
[0063]应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。
【附图说明】
[0064]此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。
[0065]图1是本公开根据一示例性实施例示出的一种语音识别方法流程图；
[0066]图2是本公开根据一示例性实施例示出的另一种语音识别方法流程图；
[0067]图3是本公开根据一示例性实施例示出的另一种语音识别方法流程图；
[0068]图4是本公开根据一示例性实施例示出的另一种语音识别方法流程图；
[0069]图5是本公开根据一示例性实施例示出的一种语音识别方法的应用场景图；
[0070]图6是本公开根据一示例性实施例示出的一种语音识别装置的框图；
[0071 ]图7是本公开根据一示例性实施例示出的另一种语音识别装置的框图；
[0072]图8是本公开根据一示例性实施例示出的另一种语音识别装置的框图；
[0073]图9是本公开根据一示例性实施例示出的另一种语音识别装置的框图；
[0074]图10是本公开根据一示例性实施例示出的另一种语音识别装置的框图；
[0075]

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐会生;王树圆;赵铁壮;汪仲伟;邱钺;浮强;
技术所有人：小米科技有限责任公司;
我是此专利的发明人

上一篇：一种语音识别方法及装置的制造方法
上一篇：室内空间服务机器人分布式语音识别系统与产品的制作方法