一种云端语音识别系统及方法_2

文档序号：9889529阅读：来源：国知局

重点城市作为采样人群城市；
[0051]分别将说话人分布定义在8个地区，每个地区选一到两个重点城市作为采样人群城市。
[0052]地区重点城市示例:东北:哈尔滨、沈阳；华北:北京、济南;西北:西安、兰州;华中:武汉、郑州;华东:南京、上海;华南:广州、南宁;西南:成都、昆明；东南:厦门、南昌；
[0053 ]所述的口音分布分别为:粵语、闽语、吴语、赣语、湘语、客家话、官话、普通话；
[0054]在选择米样时，同时考虑地域分布和口音分布，并对口音的轻重做出区分。
[0055]为适应不同噪声环境，在采样数据时预定义一些噪声环境，以下是采样数据时的主要噪声环境，所述的噪声分布分别为:车内、地铁、室内、街道、火车站、汽车站、餐厅、会议室、商场；
[0056]所述的年龄分布为根据应用的适用人群，预定义采样人群的年龄及比例；
[0057]年龄段在18-35之间，比例为:15% ;年龄段在18-35之间，比例为:50% ;年龄段在36-45之间，比例为:20% ;年龄段在45以上，比例为:15% ；
[0058]所述的男女比例根据1:1比例采样；
[0059]所述的设备平台根据不同的移动设备平台，在采样时选用不同的平台设备采样数据；
[0060]平台为1S，比例为35% ;平台为Android，比例为50% ;平台为Windows，比例为15% ；
[0061]所述的动态更新包括:领域识别资源选择动态更新和云端领域资源动态更新。
[0062]所述的领域识别资源选择动态更新的方法有以下三种方式:
[0063]用户标识在应用层，根据用户注册信息，直接选择识别资源的领域;在用户信息不全时，语音分别送到多个模型，选择置信度较高的模型。
[0064]语言特征选择领域模型;包括领域词发现算法和领域归类算法；
[0065]声学特征选择口音模型。
[0066]所述的云端领域资源动态更新包括更新声学模型和更新语言模型。
[0067]更新声学模型包括定期对识别出错的单词进行聚类、在识别结果上发现新词，对同一领域的语音作业人工标注，并用这些新数据做区分性训练。根据置信度，前期用高置信度的语音进行标注，中期用中等置信度的语音数据、待系统识别率稳定后，用低置信度数据。
[0068]更新语言模型包括定期采集用户的识别结果，基于凝固度和自由度，发现新词，添加到识别字典中，作为领域新词。
[0069]以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。
【主权项】
1.一种云端语音识别系统，其特征在于，该云端语音识别系统包括:方言层、平台层、年龄层、性别层、领域层；将识别模型分成多个维度，维度包括性别层、年龄层、平台层、方言层、领域层；所述的性别层包括:男、女；所述的年龄层分为多个阶段；所述的平台层包括:1S、Android、Windows; 所述的方言层包括粵语口音、闽语口音、吴语口音、赣语口音、湘语口音、客家话口音、官话口音和普通话的一种或多种组合。所述的领域层包括音乐类、导航类、地图类、聊天类、交通类、车载类。2.一种云端语音识别方法，其特征在于，该云端语音识别方法包括以下步骤: 步骤一、对人群进行多维度发音特征划分，采样数据；步骤二、利用用户语音和用户标识获取多个维度的信息，确定识别模型。步骤三、对识别资源依据划分进行动态更新；步骤四、利用用户语音识别文本确定领域模型。3.如权利要求2所述的云端语音识别方法，其特征在于，在步骤一中，根据地域分布、口音分布、噪声分布、年龄分布、男女比例、设备平台划分用户和采样数据。4.如权利要求3所述的云端语音识别方法，其特征在于，所述的地域分布为分别将说话人分布定义在8个地区，每个地区选一到两个重点城市作为采样人群城市；所述的口音分布分别为:普通话、粵语、闽语、吴语、赣语、湘语、客家话、官话；所述的噪声分布分别为:车内、地铁、室内、街道、火车站、汽车站、餐厅、会议室、商场；所述的年龄分布为根据应用的适用人群，预定义采样人群的年龄及比例；所述的男女比例根据1:1比例采样；所述的设备平台根据不同的移动设备平台，在采样时选用不同的平台设备采样数据。5.如权利要求2所述的云端语音识别方法，其特征在于，在步骤二中，所述的模型优化方法有以下二种方法: 在应用层，根据用户注册信息和用户标识，直接选择识别模型；在用户信息不全时，语音分别送到多个模型，选择置信度较高的模型。语言特征选择领域模型;包括领域词发现算法和领域归类算法；声学特征选择口音模型。6.如权利要求2所述的云端语音识别方法，其特征在于，所述的动态更新包括:领域识别资源选择动态更新和云端领域资源动态更新。7.如权利要求6所述的云端语音识别方法，其特征在于，所述的云端领域资源动态更新包括更新声学模型和更新语言模型。
【专利摘要】本发明公开了一种云端语音识别系统和方法，将识别模型分成多个维度，维度包括性别层、年龄层、平台层、方言层、领域层；性别层包括：男、女；所述的年龄层分为多个阶段，例如：7-17岁，18～35岁，36～45岁，45岁以上；所述的平台层包括：IOS、Android、Windows；所述的方言层包括粤语口音、闽语口音、吴语口音、赣语口音、湘语口音、客家话口音、官话口音和普通话的一种或多种组合。所述的领域层包括音乐类、导航类、地图类、聊天类、交通类、车载类。云端语音识别方法从地域、口音、噪声、年龄、性别、平台等多个维度采样数据；模型选择算法；模型动态更新算法；领域区分算法。有效提高了不同地域、不同领域、不同口音、不同性别、不同年龄段人群的语音识别率。
【IPC分类】G10L15/30, G10L15/06
【公开号】CN105654954
【申请号】
【发明人】胡云燎, 何国涛, 李全忠, 蒲瑶
【申请人】普强信息技术（北京）有限公司
【公开日】2016年6月8日
【申请日】2016年4月6日

完整全部详细技术资料下载

当前第2页1 2