一种云端语音识别系统及方法_2

文档序号:9889529阅读:来源:国知局
重点城市作为采样人群城市;
[0051]分别将说话人分布定义在8个地区,每个地区选一到两个重点城市作为采样人群城市。
[0052]地区重点城市示例:东北:哈尔滨、沈阳;华北:北京、济南;西北:西安、兰州;华中:武汉、郑州;华东:南京、上海;华南:广州、南宁;西南:成都、昆明;东南:厦门、南昌;
[0053 ]所述的口音分布分别为:粵语、闽语、吴语、赣语、湘语、客家话、官话、普通话;
[0054]在选择米样时,同时考虑地域分布和口音分布,并对口音的轻重做出区分。
[0055]为适应不同噪声环境,在采样数据时预定义一些噪声环境,以下是采样数据时的主要噪声环境,所述的噪声分布分别为:车内、地铁、室内、街道、火车站、汽车站、餐厅、会议室、商场;
[0056]所述的年龄分布为根据应用的适用人群,预定义采样人群的年龄及比例;
[0057]年龄段在18-35之间,比例为:15% ;年龄段在18-35之间,比例为:50% ;年龄段在36-45之间,比例为:20% ;年龄段在45以上,比例为:15% ;
[0058]所述的男女比例根据1:1比例采样;
[0059]所述的设备平台根据不同的移动设备平台,在采样时选用不同的平台设备采样数据;
[0060]平台为1S,比例为35% ;平台为Android,比例为50% ;平台为Windows,比例为15% ;
[0061]所述的动态更新包括:领域识别资源选择动态更新和云端领域资源动态更新。
[0062]所述的领域识别资源选择动态更新的方法有以下三种方式:
[0063]用户标识在应用层,根据用户注册信息,直接选择识别资源的领域;在用户信息不全时,语音分别送到多个模型,选择置信度较高的模型。
[0064]语言特征选择领域模型;包括领域词发现算法和领域归类算法;
[0065]声学特征选择口音模型。
[0066]所述的云端领域资源动态更新包括更新声学模型和更新语言模型。
[0067]更新声学模型包括定期对识别出错的单词进行聚类、在识别结果上发现新词,对同一领域的语音作业人工标注,并用这些新数据做区分性训练。根据置信度,前期用高置信度的语音进行标注,中期用中等置信度的语音数据、待系统识别率稳定后,用低置信度数据。
[0068]更新语言模型包括定期采集用户的识别结果,基于凝固度和自由度,发现新词,添加到识别字典中,作为领域新词。
[0069]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
【主权项】
1.一种云端语音识别系统,其特征在于,该云端语音识别系统包括:方言层、平台层、年龄层、性别层、领域层; 将识别模型分成多个维度,维度包括性别层、年龄层、平台层、方言层、领域层; 所述的性别层包括:男、女; 所述的年龄层分为多个阶段; 所述的平台层包括:1S、Android、Windows; 所述的方言层包括粵语口音、闽语口音、吴语口音、赣语口音、湘语口音、客家话口音、官话口音和普通话的一种或多种组合。 所述的领域层包括音乐类、导航类、地图类、聊天类、交通类、车载类。2.一种云端语音识别方法,其特征在于,该云端语音识别方法包括以下步骤: 步骤一、对人群进行多维度发音特征划分,采样数据; 步骤二、利用用户语音和用户标识获取多个维度的信息,确定识别模型。 步骤三、对识别资源依据划分进行动态更新; 步骤四、利用用户语音识别文本确定领域模型。3.如权利要求2所述的云端语音识别方法,其特征在于,在步骤一中,根据地域分布、口音分布、噪声分布、年龄分布、男女比例、设备平台划分用户和采样数据。4.如权利要求3所述的云端语音识别方法,其特征在于,所述的地域分布为分别将说话人分布定义在8个地区,每个地区选一到两个重点城市作为采样人群城市; 所述的口音分布分别为:普通话、粵语、闽语、吴语、赣语、湘语、客家话、官话; 所述的噪声分布分别为:车内、地铁、室内、街道、火车站、汽车站、餐厅、会议室、商场; 所述的年龄分布为根据应用的适用人群,预定义采样人群的年龄及比例; 所述的男女比例根据1:1比例采样; 所述的设备平台根据不同的移动设备平台,在采样时选用不同的平台设备采样数据。5.如权利要求2所述的云端语音识别方法,其特征在于,在步骤二中,所述的模型优化方法有以下二种方法: 在应用层,根据用户注册信息和用户标识,直接选择识别模型;在用户信息不全时,语音分别送到多个模型,选择置信度较高的模型。 语言特征选择领域模型;包括领域词发现算法和领域归类算法; 声学特征选择口音模型。6.如权利要求2所述的云端语音识别方法,其特征在于,所述的动态更新包括:领域识别资源选择动态更新和云端领域资源动态更新。7.如权利要求6所述的云端语音识别方法,其特征在于,所述的云端领域资源动态更新包括更新声学模型和更新语言模型。
【专利摘要】本发明公开了一种云端语音识别系统和方法,将识别模型分成多个维度,维度包括性别层、年龄层、平台层、方言层、领域层;性别层包括:男、女;所述的年龄层分为多个阶段,例如:7-17岁,18~35岁,36~45岁,45岁以上;所述的平台层包括:IOS、Android、Windows;所述的方言层包括粤语口音、闽语口音、吴语口音、赣语口音、湘语口音、客家话口音、官话口音和普通话的一种或多种组合。所述的领域层包括音乐类、导航类、地图类、聊天类、交通类、车载类。云端语音识别方法从地域、口音、噪声、年龄、性别、平台等多个维度采样数据;模型选择算法;模型动态更新算法;领域区分算法。有效提高了不同地域、不同领域、不同口音、不同性别、不同年龄段人群的语音识别率。
【IPC分类】G10L15/30, G10L15/06
【公开号】CN105654954
【申请号】
【发明人】胡云燎, 何国涛, 李全忠, 蒲瑶
【申请人】普强信息技术(北京)有限公司
【公开日】2016年6月8日
【申请日】2016年4月6日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1