一种云端语音识别系统及方法

文档序号：9889529阅读：948来源：国知局

一种云端语音识别系统及方法
【技术领域】
[0001]本发明属于语言分析技术领域，尤其涉及一种云端语音识别系统及方法。
【背景技术】
[0002]随着移动互联网、车联网和智能家居的发展，语音识别发挥了越来越重要的作用。另一方面，语音识别技术，特别是DNN(深度神经网络)训练方法的发展，极大在提高了语音识别的准确率，反过来也促进了不同行业的应用。
[0003]但随着语音应用走向大众，特别是语音云的使用，目标人群未知、目标人群范围广泛，鲁棒性和适应性是难以回避的难题，训练数据与识别数据的不匹配会极大地降低识别准确度。目前的做法是用一个模型识别所有的说话人，在模型建模前收集尽量多的数据，以期达到覆盖范围广的目的。而如需要提高某个人的识别率，需要把这个人的数据和原有数据放在一起重新建模。这种方法有几个弊端:
[0004]训练数据不可能做到完全覆盖所有说话人，而且大数据量的模型建模困难。
[0005]因未从说话人的发音特征分布采样数据，训练数据会产生分布不均匀，有些人群口音未覆盖。
[0006]因未能实现动态更新识别资源，导致识别资源更新周期长，部分用户的识别率不能及时提尚。
[0007]因对不同领域的应用使用同一套识别资源，导致语言模型建模难以选择语料，垂直领域识别难以提高，可能会产生不同领域“此消彼涨”的难题。

【发明内容】

[0008]本发明的目的在于提供一种云端语音识别系统及方法，旨在解决如何在采样时保证人群口音分布的广泛性和均匀性，如何根据说话人动态更换及更新语音识别资源，如何提高多领域的语音识别率，如何提高多口音的识别率的问题。
[0009]该方法是这样实现的，该云端语音识别系统包括:性别层、年龄层、平台层、方言层、领域层；
[0010]用户标识和用户语言通过口音判别分别对性别层、年龄层、平台层、方言层进行数据采样；
[0011]所述的性别层包括:男、女；
[0012]所述的年龄层分为四个阶段:7?17岁，18?35岁，36?45岁，45岁以上；
[0013]所述的平台层包括:1S、Android、Windows；
[0014]所述的方言层包括粵语口音、闽语口音、吴语口音、赣语口音、湘语口音、客家话口音、官话口音和普通话的一种或多种组合
[0015]本发明还采取如下技术措施:
[0016]该云端语音识别方法包括以下步骤:
[0017]步骤一、对人群进行多维度发音特征划分，采样数据；
[0018]步骤二、利用用户语音和用户标识获取多个维度的信息，确定识别模型。
[0019]步骤三、对识别资源依据划分进行动态更新；
[0020]步骤四、利用用户语音识别文本确定领域模型。
[0021]在步骤一中，根据地域分布、口音分布、噪声分布、年龄分布、男女比例、设备平台六个维度采样数据。
[0022]所述的地域分布为分别将说话人分布定义在8个地区，每个地区选一到两个重点城市作为采样人群城市；
[0023]所述的口音分布分别为:粵语、闽语、吴语、赣语、湘语、客家话、官话、普通话；
[0024]所述的噪声分布分别为:车内、地铁、室内、街道、火车站、汽车站、餐厅、会议室、商场；
[0025]所述的年龄分布为根据应用的适用人群，预定义采样人群的年龄及比例；
[0026]所述的男女比例根据1:1比例采样；
[0027]所述的设备平台根据不同的移动设备平台，在采样时选用不同的平台设备采样数据。
[0028]所述的动态更新包括:领域识别资源选择动态更新和云端领域资源动态更新。
[0029]所述的领域识别资源选择动态更新的方法有以下三种方式:
[0030]用户标识在应用层，根据用户注册信息，直接选择识别资源的领域;在用户信息不全时，语音分别送到多个模型，选择置信度较高的模型。
[0031]语言特征选择领域模型;包括领域词发现算法和领域归类算法；
[0032]声学特征选择口音模型。
[0033]所述的云端领域资源动态更新包括更新声学模型和更新语言模型。
[0034]本发明具有的优点和积极效果是:该云端语音识别系统及方法结构简单，使用方便，有效提高了不同地域、不同领域、不同口音、不同性别、不同年龄段人群的语音识别率。
【附图说明】
[0035]图1是本发明实施例提供的云端语音识别系统的结构示意图；
[0036]图2是本发明实施例提供的云端语音识别方法流程图。
【具体实施方式】
[0037]为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
[0038]下面结合附图1、2及具体实施例对本发明的应用原理作进一步描述。
[0039]该云端语音识别系统包括:方言层、平台层、年龄层、性别层、领域层；
[0040]用户标识和用户语言通过口音判别分别对性别层、年龄层、平台层、方言层进行数据采样；
[0041 ]所述的性别层包括:男、女；
[0042]所述的年龄层分为三个阶段:7?17岁，18?35岁，36?45岁，45岁以上；
[0043]所述的平台层包括:1S、Android、Windows；
[0044]所述的方言层包括粵语口音、闽语口音、吴语口音、赣语口音、湘语口音、客家话口音、官话口音和普通话的一种或多种组合
[0045]该云端语音识别方法包括以下步骤:
[0046]SlOl、对多维度人群发音特征进行划分；
[0047]S102、进行动态更新；
[0048]S103、对多领域进行架构。
[0049 ]在S1I中，根据地域分布、口音分布、噪声分布、年龄分布、男女比例、设备平台六个维度采样数据。
[0050]所述的地域分布为分别将说话人分布定义在8个地区，每个地区选一到两个

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：胡云燎;何国涛;李全忠;蒲瑶;
技术所有人：普强信息技术（北京）有限公司;
我是此专利的发明人