一种云端语音识别系统及方法

文档序号:9889529阅读:948来源:国知局
一种云端语音识别系统及方法
【技术领域】
[0001]本发明属于语言分析技术领域,尤其涉及一种云端语音识别系统及方法。
【背景技术】
[0002]随着移动互联网、车联网和智能家居的发展,语音识别发挥了越来越重要的作用。另一方面,语音识别技术,特别是DNN(深度神经网络)训练方法的发展,极大在提高了语音识别的准确率,反过来也促进了不同行业的应用。
[0003]但随着语音应用走向大众,特别是语音云的使用,目标人群未知、目标人群范围广泛,鲁棒性和适应性是难以回避的难题,训练数据与识别数据的不匹配会极大地降低识别准确度。目前的做法是用一个模型识别所有的说话人,在模型建模前收集尽量多的数据,以期达到覆盖范围广的目的。而如需要提高某个人的识别率,需要把这个人的数据和原有数据放在一起重新建模。这种方法有几个弊端:
[0004]训练数据不可能做到完全覆盖所有说话人,而且大数据量的模型建模困难。
[0005]因未从说话人的发音特征分布采样数据,训练数据会产生分布不均匀,有些人群口音未覆盖。
[0006]因未能实现动态更新识别资源,导致识别资源更新周期长,部分用户的识别率不能及时提尚。
[0007]因对不同领域的应用使用同一套识别资源,导致语言模型建模难以选择语料,垂直领域识别难以提高,可能会产生不同领域“此消彼涨”的难题。

【发明内容】

[0008]本发明的目的在于提供一种云端语音识别系统及方法,旨在解决如何在采样时保证人群口音分布的广泛性和均匀性,如何根据说话人动态更换及更新语音识别资源,如何提高多领域的语音识别率,如何提高多口音的识别率的问题。
[0009]该方法是这样实现的,该云端语音识别系统包括:性别层、年龄层、平台层、方言层、领域层;
[0010]用户标识和用户语言通过口音判别分别对性别层、年龄层、平台层、方言层进行数据采样;
[0011]所述的性别层包括:男、女;
[0012]所述的年龄层分为四个阶段:7?17岁,18?35岁,36?45岁,45岁以上;
[0013]所述的平台层包括:1S、Android、Windows;
[0014]所述的方言层包括粵语口音、闽语口音、吴语口音、赣语口音、湘语口音、客家话口音、官话口音和普通话的一种或多种组合
[0015]本发明还采取如下技术措施:
[0016]该云端语音识别方法包括以下步骤:
[0017]步骤一、对人群进行多维度发音特征划分,采样数据;
[0018]步骤二、利用用户语音和用户标识获取多个维度的信息,确定识别模型。
[0019]步骤三、对识别资源依据划分进行动态更新;
[0020]步骤四、利用用户语音识别文本确定领域模型。
[0021]在步骤一中,根据地域分布、口音分布、噪声分布、年龄分布、男女比例、设备平台六个维度采样数据。
[0022]所述的地域分布为分别将说话人分布定义在8个地区,每个地区选一到两个重点城市作为采样人群城市;
[0023]所述的口音分布分别为:粵语、闽语、吴语、赣语、湘语、客家话、官话、普通话;
[0024]所述的噪声分布分别为:车内、地铁、室内、街道、火车站、汽车站、餐厅、会议室、商场;
[0025]所述的年龄分布为根据应用的适用人群,预定义采样人群的年龄及比例;
[0026]所述的男女比例根据1:1比例采样;
[0027]所述的设备平台根据不同的移动设备平台,在采样时选用不同的平台设备采样数据。
[0028]所述的动态更新包括:领域识别资源选择动态更新和云端领域资源动态更新。
[0029]所述的领域识别资源选择动态更新的方法有以下三种方式:
[0030]用户标识在应用层,根据用户注册信息,直接选择识别资源的领域;在用户信息不全时,语音分别送到多个模型,选择置信度较高的模型。
[0031]语言特征选择领域模型;包括领域词发现算法和领域归类算法;
[0032]声学特征选择口音模型。
[0033]所述的云端领域资源动态更新包括更新声学模型和更新语言模型。
[0034]本发明具有的优点和积极效果是:该云端语音识别系统及方法结构简单,使用方便,有效提高了不同地域、不同领域、不同口音、不同性别、不同年龄段人群的语音识别率。
【附图说明】
[0035]图1是本发明实施例提供的云端语音识别系统的结构示意图;
[0036]图2是本发明实施例提供的云端语音识别方法流程图。
【具体实施方式】
[0037]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0038]下面结合附图1、2及具体实施例对本发明的应用原理作进一步描述。
[0039]该云端语音识别系统包括:方言层、平台层、年龄层、性别层、领域层;
[0040]用户标识和用户语言通过口音判别分别对性别层、年龄层、平台层、方言层进行数据采样;
[0041 ]所述的性别层包括:男、女;
[0042]所述的年龄层分为三个阶段:7?17岁,18?35岁,36?45岁,45岁以上;
[0043]所述的平台层包括:1S、Android、Windows;
[0044]所述的方言层包括粵语口音、闽语口音、吴语口音、赣语口音、湘语口音、客家话口音、官话口音和普通话的一种或多种组合
[0045]该云端语音识别方法包括以下步骤:
[0046]SlOl、对多维度人群发音特征进行划分;
[0047]S102、进行动态更新;
[0048]S103、对多领域进行架构。
[0049 ]在S1I中,根据地域分布、口音分布、噪声分布、年龄分布、男女比例、设备平台六个维度采样数据。
[0050]所述的地域分布为分别将说话人分布定义在8个地区,每个地区选一到两个
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1