一种基于场景的实时语音识别系统和方法

文档序号：9688745阅读：768来源：国知局

一种基于场景的实时语音识别系统和方法
【技术领域】
[0001] 本发明涉及语音识别技术，尤其涉及一种基于场景的实时语音识别系统和方法。
【背景技术】
[0002] 现有的语音识别中，通常基于各领域语料组建的通用语言模型，结合相应的声学模型来识别语音对应的文本。其中的通用语言模型中的语料一般比较庞杂、更新速度较慢，没有针对性，导致语音识别结果往往准确性不高。特别对于同音或近似的语音，现有的语音识别技术并不能较好地提供准确的识别结果，例如，采集到用户的语音为"xinxinjie"，现有的语音识别技术并不能较好地判断该语音对应的文本是"新星街"还是"欣欣街"还是其他相似文本。

【发明内容】

[0003] 本发明解决的技术问题之一是提升语音识别的准确率。
[0004] 根据本发明的一个方面的一个实施例，提供了一种基于场景的实时语音识别系统，包括：
[0005] 语音采集装置，被配置为采集当前用户的当前语音；
[0006] 静态语言模型构建装置，被配置为基于采集的历史场景信息，构建与不同场景类型相对应的静态语言模型；
[0007] 场景语言模型构建装置，被配置为实时采集当前用户的当前场景信息，构建当前用户对应的当前场景语言模型；
[0008] 语音识别装置，被配置为根据当前场景信息判断当前场景的类型，并从根据历史场景信息而构建的与不同场景类型相对应的静态语言模型中搜索与当前场景的类型相对应的静态语言模型，调用通用语言模型，基于通用语言模型、搜索出的静态语言模型、当前用户对应的场景语言模型的混合W及声学模型，识别当前用户的语音。
[0009] 现有技术的实时语音识别系统只用通用语言模型识别，通用语言模型不针对具体的场景，而类型的场景中很多对话上下文会重复出现，因此，利用基于具体的场景的模型识别可W提高实时语音识别的准确度和效率。由于本发明的实施例通过统计和分析大量的历史场景信息，构建与不同场景类型相对应的静态语言模型，也即为不同的场景类型关联不同的静态语言模型，送种针对场景的模型识别有利于提升语音识别的准确性；另外，本实施例通过在线实时构建对应的当前场景语言模型，送种实时构建的语言模型进一步结合了当前用户的个性化信息，提升了语音识别的准确性。
[0010] 根据本发明的一个实施例，所述语音识别装置包括：
[0011] 并行计算单元，被配置为并行计算当前用户的当前语音的各候选识别结果在通用语言模型、搜索出的静态语言模型和当前用户对应的当前场景语言模型下的概率分数；
[0012] 识别单元，被配置为基于各模型对应的权重对各候选识别结果在各模型下的概率分数进行加权，根据加权后的概率分数对各候选识别结果进行排序，识别当前用户的当前语音对应的文本。
[0013] 由于本实施例并行计算各语言模型下的概率分数，而不是顺序计算，可W有效保证语音识别的实时性。
[0014] 根据本发明的一个实施例，场景信息包括大致地理位置、时间、周边人物、周边活动，场景的类型是由大致地理位置、时间、周边人物、周边活动中的一项或多项限定的，静态语言模型构建装置根据历史场景信息而构建的与不同场景类型相对应的静态语言模型是如下构建的：
[0015] 将历史语料按照场景分类至特定场景的类型中，每个特定场景的类型对应于一个静态语言模型，用特定场景的类型下的历史语料训练相应静态语言模型。
[0016] 由于本实施例结合了诸如大致地理位置（如大的商圈，中关村商圈）、时间（如语言模型中的语料获取的时间、用户的当前时间等）、周边人物、周边活动等信息来限定不同的场景类型，相比于单一方式例如仅用地理位置限定的场景更能反映场景的不同特点，使场景的定义更贴近实际，从而使不同的场景对应的模型也能更好地被训练，进一步提升语音识别的准确率。
[0017] 根据本发明的一个实施例，场景语言模型构建装置被配置为：
[0018] 根据当前用户的具体地理位置，在信息库和/或互联网上实时搜索相关内容，根据实时搜索到的相关内容，构建当前用户对应的当前场景语言模型。
[0019] 由于本实施例可用户的具体地理信息为线索去实时获取更多的与该用户及该具体地理位置相关的信息，从而可W快速有效地构建与该用户相对应的个性化的当前场景语言模型，进一步提高了语音识别的效率和准确度。
[0020] 根据本发明的一个实施例，识别单元被配置为：
[0021] 预设各模型的权重，基于预设的权重对各模型下的概率分数进行加权，根据加权后的总概率分数对各候选识别结果进行排序，识别当前用户的当前语音对应的文本，并根据当前用户对该识别出的文本的反馈，调整所述预设的各模型的权重，用于下一次语音的识别；和/或
[0022] 预设各模型的权重，根据各候选识别结果在各模型下的概率分数的置信度，实时调整所述预设的各模型的权重，基于调整后的权重对各模型下的概率分数进行加权，根据加权后的概率分数对当前语音对应的文本进行排序，识别当前用户的当前语音对应的文本。
[0023] 本实施例提供的针对各模型的权重进行调整的方案相比于权重一成不变的方案，可W在每一次识别后通过反馈或根据置信度不断使识别更贴近客观实际。
[0024] 根据本发明的一个实施例，所述大致地理位置通过用户终端的定位系统定时上报或用户终端自动检测提供的地理位置中获得；
[00巧]周边人物通过获取其他用户终端自动检测提供的地理位置或GI^定位信息来确定；
[0026] 周边活动通过获取其他用户终端或商户终端自动检测提供的地理位置或GI^定位信息、用户终端存储的活动信息、商户终端提供的活动信息来确定。
[0027] 本实施例通过获取并综合当前用户终端和其他用户终端所提供的多维度的信息，相比于只从一个渠道获取，可W更准确地确定相应的场景信息。
[0028] 根据本发明的一个实施例，当前用户的具体地理位置通过实时查询用户终端的定位系统、获得用户终端的短信信息、获得用户终端存储的备忘信息中的一项或多项获得。
[0029] 本发明的一个实施例还提供了一种基于场景的实时语音识别方法，包括：
[0030] 采集当前用户的当前语音和当前场景信息；
[0031] 构建当前用户对应的当前场景语言模型；
[0032] 根据当前场景信息判断当前场景的类型，并从根据历史场景信息而构建的与不同场景类型相对应的静态语言模型中搜索与当前场景的类型相对应的静态语言模型；
[0033] 调用通用语言模型，基于通用语言模型、搜索出的静态语言模型、当前用户对应的场景语言模型的混合W及声学模型，识别当前用户的语音。
[0034] 根据本发明的一个实施例，所述基于通用语言模型、搜索出的静态语言模型、当前用户对应的当前场景语言模型的混合识别当前用户的语音的步骤包括：
[0035] 并行计算当前用户的当前语音的各候选识别结果在通用语言模型、搜索出的静态语言模型和当前用户对应的当前场景语言模型下的概率分数；
[0036] 基于各模型对应的权重对各候选识别结果在各模型下的概率分数进行加权，根据加权后的概率分数对各候选识别结果进行排序，识别当前用户的当前语音对应的文本。
[0037] 根据本发明的一个实施例，场景信息包括大致地理位置、时间、周边人物、周边活动，场景的类型是由大致地理位置、时间、周边人物、周边活动中的一项或多项限定的，所述根据历史场景信息而构建的与不同场景类型相对应的静态语言模型是如下构建的：
[0038] 将历史语料按照场景信息分类至特定场景的类型中，每个特定场景的类型对应于一个静态语言模型，用特定场景的类型下的历史语料训练相应静态语言模型。
[0039] 根据本发明的一个实施例，构建当前用户对应的当前场景语言模型的步骤包括：
[0040] 根据当前用户的具体地理位置，在信息库和/或互联网上实时搜索相关内容，根据实时搜索到的相关内容，构建当前用户对应的当前场景语言模型。
[0041] 根据本发明的一个实施例，基于各模型对应的权重对各候选识别结果在各模型下的概率分数进行加权，根据加权后的总概率分数对各候选识别结果进行排序，识别当前用户的当前语音对应的文本的步骤包括：
[0042] 预设各模型的权重，基于预设的权重对各模型下的概率分数进行加权，根据加权后的总概率分数对各候选识别结果进行排序，识别当前用户的当前语音对应的文本，并根据当前用户对该识别出的文本的反馈，调整所述预设的各模型的权重，用于下一次语音的识别；和/或
[0043] 预设各模型的权重，根据各候选识别结果在各模型下的概率分数的置信度，实时调整所述预设的各模型的权重，基于调整后的权重对各模型下的概率分数进行加权，根据加权后的概率分数对当前语音对应的文本进行排序，识别当前用户的当前语音对应的文本。
[0044] 根据本发明的一个实施例，所述大致地理位置通过用户终端的定位系统定时上报或用户终端自动检测提供的地理位置中获得；
[0045] 周边人物通过获取其他用户终端自动检

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：雷欣;沈李斌;
技术所有人：北京羽扇智信息科技有限公司;
我是此专利的发明人

上一篇：语音监听及处理方法和设备的制造方法
上一篇：基于语音的帕金森症检测方法及检测系统的制作方法