一种语音识别方法和装置与流程

文档序号：11924015阅读：370来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明涉及语音识别领域，尤其涉及一种语音识别方法和装置。

背景技术：

自然语言处理技术，是计算机科学领域与人工智能领域中的一个重要方向，研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法，让计算机“理解”自然语言，因此自然语言处理又叫做自然语言理解。

语音识别技术，是指将人类发出的语言声音转换为计算机可以识别的文字，编码，按键操作等。声纹识别技术。是指根据人的发声特征来区别不同人的身份。经研究发现，不同语言的发声特征也有所不同。

语音识别技术架构主要由以下几部分构成：

1、物理接口层：声音进入系统的物理接口，输入语音信号；

2、特征提取层：提取声学特征矢量，提供特征矢量序列；

3、音节感知层：声韵母因素单元结构，提供音节候选序列及可信度，把声韵母或因素合并成为音节单元，推断何礼音节，提供词语候选序列及可信度；

4、词语识别层，音字转换，推断词语单元，提供语句候选序列及可信度；

5、语句识别层，推断语句候选单元及可信度；

6、语义应用层，分析语义，映射应用，由任务语法约束。

一般语音识别系统的特征提取，是对输入的语音信号本身进行声学矢量分析，同时在语音识别上也是基于大规模语料标注实现。

随着移动互联网的发展，语音识别功能被广泛应用于各种业务、场景，以及各种类型的应用程序中。例如用户查询电影、天气、路线等语音识别请求时，对识别速度、识别准确度和实时互动的要求就较高。例如用户说“今天要去看电影bighero”以及“请搜索high歌”等语音信息，样本中除了包含多语种语音自身基本的物理声学声纹特征外、也包含业务场景、业务类型、行为模式等第三方信息特征，还包括手机等物联网智能终端硬件设备特征。

然而现有的语音识别技术中，仅是一般语音识别系统的特征提取，对输入的语音信号本身进行声学矢量分析，同时在语音识别上也是基于大规模语料标注实现。没有有效利用物联网提供的业务特征、场景特征、行业特征以及用户声纹特征等信息，造成识别效率和准确度较低，用户体验差。

技术实现要素：

本发明的发明人发现了上述现有技术中存在问题，并因此针对上述问题中的至少一个问题提出了一种新的技术方案。本发明公开了一种语音识别方法和装置，通过语音样本业务特征集的获取，可有效提高语音识别效率与准确率，同时进一步提高了语料库的细分化。

根据本发明的一个方面，提供了一种语音识别方法，包括：

对语音采样获得语音采样信息；

根据业务特征信息和语音采样信息获得前置特征参数集，业务特征信息包括地理位置信息、业务类型和业务场景，前置特征参数集包括位置标识、语种标识、行为标识和行业标识；

根据前置特征参数集选择结构化语料库对语音采样信息进行语音识别。

在一个实施例中，根据业务特征信息和语音采样信息获得前置特征参数集的步骤包括：对语音采样信息进行声纹特征提取；

将声纹特征与预置特征矩阵集进行比对，生成语音分段信息和语种标识，语种标识包括语音分段信息的语种信息和置信值。

在一个实施例中，对语音采样信息进行声纹特征提取的步骤包括：

对语音采样信息提取短时语音频谱特征和统计特征；

根据特征参数模型进行特征参数化，得到声纹特征。

在一个实施例中，特征参数模型包括梅尔频率倒谱系数和感知线性预测系数。

在一个实施例中，根据前置特征参数集和结构化语料库对语音采样信息进行语音识别的步骤包括：

根据前置特征参数集中的语种标识，选择相应语种的识别引擎；

根据位置标识、行为标识和行业标识检索结构化语料库，对语音采样信息进行语音识别。

在一个实施例中，还包括：根据语音识别结果调整前置特征参数集。

在一个实施例中，还包括：接收用户终端上报的业务特征信息。

在一个实施例中，还包括：根据语音采样信息获得业务特征信息。

根据本发明的另一方面，提供了一种语音识别装置，包括：

语音采样单元，用于对语音采样获得语音采样信息；

前置特征提取单元，用于根据业务特征信息和语音采样信息获得前置特征参数集，业务特征信息包括地理位置信息、业务类型和业务场景，前置特征参数集包括位置标识、语种标识、行为标识和行业标识；

语音识别单元，用于根据前置特征参数集和结构化语料库对语音采样信息进行语音识别。

在一个实施例中，前置特征提取单元具体包括：

语音接收模块，用于接收语音采样信息；

语种标识模块，用于对语音采样信息进行声纹特征提取；将声纹特征与预置特征矩阵集进行比对，生成语音分段信息和语种标识，语种标识包括语音分段信息的语种信息和置信值；

位置标识模块，用于根据语音采样信息和业务特征信息获得位置标识；

行为标识模块，用于根据语音采样信息和业务特征信息获得行为标识；

行业标识模块，用于根据语音采样信息和业务特征信息获得行业标识。

在一个实施例中，语种标识模块，具体用于对语音采样信息提取短时语音频谱特征和统计特征；根据特征参数模型进行特征参数化，得到声纹特征。

在一个实施例中，特征参数模型包括梅尔频率倒谱系数和感知线性预测系数。

在一个实施例中，语音识别单元，具体用于根据前置特征参数集中的语种标识，选择相应语种的识别引擎；根据位置标识、行为标识和行业标识检索结构化语料库，对语音采样信息进行语音识别。

在一个实施例中，前置特征提取单元，还用于根据语音识别结果调整前置特征参数集。

在一个实施例中，前置特征提取单元还包括业务特征信息模块，用于接收用户终端上报的业务特征信息。

在一个实施例中，前置特征提取单元还包括业务特征信息模块，用于根据语音采样信息获得业务特征信息。

本发明的语音识别方法和装置，通过语音采样信息中前置特征参数集的获取，可有效提高语音识别效率与准确率，同时进一步提高了语料库的细分化。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种语音识别方法的一个实施例的示意图。

图2为本发明一种语音识别方法中获得语种标识方法的一个实施例的示意图。

图3为本发明一种语音识别装置的一个实施例的示意图。

图4为本发明一种语音识别装置中前置特征提取单元一个实施例的示意图。

图5为本发明一种语音识别装置中前置特征提取单元另一个实施例的示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1为本发明一种语音识别方法的一个实施例的示意图。优选的，本实施例的方法由本发明的语音识别装置执行。如图1所示，本实施例的方法步骤如下：

步骤101，对语音采样获得语音采样信息。

步骤102，根据业务特征信息和语音采样信息获得前置特征参数集，业务特征信息包括地理位置信息、业务类型和业务场景，前置特征参数集包括位置标识、语种标识、行为标识和行业标识。

在一个实施例中，业务特征信息可以通过接收用户终端上报获得。例如，用户终端为手机时，手机安装有各类服务的应用程序，每个应用程序都有所属的业务类别。当用户使用手机端应用程序进行语音识别时，手机上报该应用程序的业务特征信息。业务特征信息可以包括用户的地理位置信息、业务类型和业务场景。

在一个实施例中，用户终端通过内置的GPS(Global Positioning System，全球定位系统)模块实现对用户的定位，从而获得用户的地理位置信息。业务类型可以包括服务类、资讯类、娱乐类、体育类、业务展示类、电子商城类和社交类等类型，业务场景可以包括诸如地图导航以及查询天气、电影上映时间、银行、餐饮、旅游、物流等场景。业务类型和业务场景信息可以通过用户终端应用程序与语音识别提供商之间进行授权许可、属性分类。从而可以接收用户终端上报的

在另一个实施例中，还可以基于对语音采样信息的内容进行预处理，从语音采样信息中提取关于地理位置信息、业务类型和业务场景的关键内容，从而获得业务特征信息，进而获得前置参数集。

在上述实施例中，前置特征参数集包括位置标识、语种标识、行为标识和行业标识。其中位置标识包括了用户终端地理位置信息；语种标识包括用户所使用语言的语种信息和相应的置信值，其中语种信息可以是英语、汉语、日语等语言，也可以是河南话、闽南话等地区方言；行为标识为用户在进行何种操作行为，例如是进行查询、导航还是语音输入文本信息等操作，具体的以餐饮为例，用户的行为标识可以包括用户在使用应用软件进行查询-点单-用餐-买单，也可以为买单-用餐，有利于之后语音识别的步骤中上下文语义理解，实现后续行为预测的功能；行业标识为用户在进行语音识别时所应用的行业类型，例如业务类型等。

步骤103，根据前置特征参数集选择结构化语料库对语音采样信息进行语音识别。在一个实施例中，结构化语料库为根据语种信息、地理位置信息、业务类型和业务场景等建立的。根据前置特征参数集中的位置标识、语种标识、行为标识和行业标识选择结构化语料库对语音采样信息进行语音识别。

例如，根据前置特征参数集中的语种标识，选择相应语种的识别引擎，然后根据位置标识、行为标识和行业标识检索结构化语料库，对语音采样信息进行语音识别。

优选的，本发明的语音识别方法还包括容错机制。可以根据前置特征参数集选择相应语种识别引擎，检索结构化语料库进行识别的结果，与正确的识别结果进行匹配，根据匹配结果调整在获取前置特征参数集时所用模型中经验参数范围，来训练算法模型，提高识别的准确率。

本发明的语音识别方法中由于进一步提高了语料库的细分化，生成结构化语料库，库中包含了语种信息、地理位置信息、业务类型和业务场景等相关内容，因此在语音识别时，通过前置特征参数集的获取，可有效提高语音识别效率与识别的准确率，在进行诸如天气查询、导航信息搜索等对实时性要求较高的业务时，显著改善用户体验。

图2为本发明一种语音识别方法中获得语种标识方法的一个实施例的示意图。如图2所示，本实施例中获得语种标识的方法步骤包括：

步骤201，对语音采样信息进行声纹特征提取。

例如，在一个实施例中，通过声学分析，对语音采样信息提取短时语音频谱特征和统计特征，然后根据特征参数进行特征参数化，得到声纹特征。可以采用梅尔频率倒谱系数和感知线性预测系数等相关的系数算法。

本领域技术人员通过本发明可以了解的是，声纹特征的提取并不是得到单一参数，而是多特征参数。例如常用的基于BP(Back Propagation)神经网络算法中，每个连接点即是一个函数算法，用以提取短时语音频谱特征。

步骤202，将声纹特征与预置特征矩阵集进行比对，生成语音分段信息和语种标识，语种标识包括语音分段信息的语种信息和置信值。

需要说明的是，现有技术中基于大规模语料标注的语音识别，对多语言，例如中英混合的场景识别准确率不高，会对英文也进行发音标注。而本发明的方法中通过将声纹特征与预置特征矩阵集进行比对，在该步骤中不对语音具体内容进行识别，仅识别所属语种，并进行分段，生成语音分段信息和语种标识，降低了识别的难度，语种识别准确率较高。并且，可以通过机器学习更新预置特征矩阵集，不断提高语种识别准确度。

图3为本发明一种语音识别装置的一个实施例的示意图。如图3所示，包括：

语音采样单元301用于对语音采样获得语音采样信息。

前置特征提取单元302用于根据业务特征信息和语音采样信息获得前置特征参数集，业务特征信息包括地理位置信息、业务类型和业务场景，前置特征参数集包括位置标识、语种标识、行为标识和行业标识。

在一个实施例中，前置特征参数集包括位置标识、语种标识、行为标识和行业标识。其中位置标识包括了用户终端地理位置信息；语种标识包括用户所使用语言的语种信息和相应的置信值，其中语种信息可以是英语、汉语、日语等语言，也可以是河南话、闽南话等地区方言；行为标识为用户在进行何种操作行为，例如是进行查询、导航还是语音输入文本信息等操作，具体的以餐饮为例，用户的行为标识可以包括用户在使用应用软件进行查询-点单-用餐-买单，也可以为买单-用餐，有利于之后语音识别的步骤中上下文语义理解，实现后续行为预测的功能；行业标识为用户在进行语音识别时所应用的行业类型，例如业务类型等。

语音识别单元303用于根据前置特征参数集和结构化语料库对语音采样信息进行语音识别。

在一个实施例中，结构化语料库为根据语种信息、地理位置信息、业务类型和业务场景等建立的。语音识别单元303根据前置特征参数集中的位置标识、语种标识、行为标识和行业标识选择结构化语料库对语音采样信息进行语音识别。例如，根据前置特征参数集中的语种标识，选择相应语种的识别引擎，然后根据位置标识、行为标识和行业标识检索结构化语料库，对语音采样信息进行语音识别。

本发明的语音识别装置通过前置特征提取单元302对前置特征参数集的获取，语音识别单元303根据前置特征参数集中的语种标识，选择相应语种的识别引擎，然后根据位置标识、行为标识和行业标识检索结构化语料库，对语音采样信息进行语音识别。可以有效提高语音识别效率与识别的准确率，在进行诸如天气查询、导航信息搜索等对实时性要求较高的业务时，显著改善用户体验。

图4为本发明一种语音识别装置中前置特征提取单元302一个实施例的示意图。如图4所示，前置特征提取单元302包括：

语音接收模块3021用于接收语音采样信息。

语种标识模块3022用于对语音采样信息进行声纹特征提取；将声纹特征与预置特征矩阵集进行比对，生成语音分段信息和语种标识，语种标识包括语音分段信息的语种信息和置信值。

具体的，在一个实施例中，语种标识模块3022通过声学分析，对语音采样信息提取短时语音频谱特征和统计特征，然后根据特征参数进行特征参数化，得到声纹特征。可以采用梅尔频率倒谱系数和感知线性预测系数等相关的系数算法。本领域技术人员通过本发明可以了解的是，声纹特征的提取并不是得到单一参数，而是多特征参数。例如常用的基于BP神经网络算法中，每个连接点即是一个函数算法，用以提取短时语音频谱特征。

然后，语种标识模块3022将声纹特征与预置特征矩阵集进行比对，生成语音分段信息和语种标识，语种标识包括语音分段信息的语种信息和置信值。

位置标识模块3023用于根据语音采样信息和业务特征信息获得位置标识。

行为标识模块3024用于根据语音采样信息和业务特征信息获得行为标识。

行业标识模块3025用于根据语音采样信息和业务特征信息获得行业标识。

优选的，本发明的语音识别装置中前置特征提取单元302的语种标识模块3022、位置标识模块3023、行为标识模块3024和行业标识模块3025还根据最终语音识别结果调整获取前置特征参数集时所用模型中经验参数范围，来训练算法模型，提高识别的准确率。

图5为本发明一种语音识别装置中前置特征提取单元302另一个实施例的示意图。如图5所示，前置特征提取单元302还包括业务特征信息模块3026。

在一个实施例中，业务特征信息模块3026用于接收用户终端上报的业务特征信息。例如，用户终端为手机时，手机安装有各类服务的应用程序，每个应用程序都有所属的业务类别。当用户使用手机端应用程序进行语音识别时，手机上报该应用程序的业务特征信息。

在另一个实施例中，业务特征信息模块3026用于根据所述语音采样信息获得所述业务特征信息。例如，基于对语音采样信息的内容进行预处理，从语音采样信息中提取关于地理位置信息、业务类型和业务场景的关键内容，从而获得业务特征信息。

下面，结合图1、2和5，对本发明的一个具体实施例进行说明。

例如，用户在使用手机应用程序查询电影信息时，输入语音“查询电影Big Hero上映日期”，其中包括中文信息和英文的电影名称。

语音采样单元301对该语音采样获得语音采样信息。前置特征提取单元302根据业务特征信息和语音采样信息获得前置特征参数集。其中业务特征信息模块3026可以通过手机应用程序上报的方式获得用户当前所在位置，业务类型为娱乐类，当前业务使用场景为查询业务。语种标识模块3022用于对语音采样信息进行声纹特征提取；将声纹特征与预置特征矩阵集进行比对，生成语音分段信息和语种标识，语种标识包括语音分段信息的语种信息和置信值。即，将该语音信息分段为“查询电影”、“Big Hero”和“上映日期”三段，位置标识模块3023根据语音采样信息和业务特征信息获得位置标识。行为标识模块3024根据语音采样信息和业务特征信息获得行为标识，本实施例中，行为标识为查询。行业标识模块3025用于根据语音采样信息和业务特征信息获得行业标识，本实施例中行业标识为娱乐、电影。

之后，语音识别单元303根据前置特征参数集和结构化语料库对语音采样信息进行语音识别。对“查询电影”和“上映日期”的分段采用中文搜索引擎，对“Big Hero”分段采用英文搜索引擎，根据前置特征参数集检索结构化语料库中与娱乐、电影相关内容。最终识别结果为“查询电影Big Hero上映日期”

本发明的语音识别方法和装置，通过语音采样信息中前置特征参数集的获取，可有效提高语音识别效率与准确率，同时进一步提高了语料库的细分化。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：龚晟;杨震;彭晓春;俞惠华
技术所有人：中国电信股份有限公司
我是此专利的发明人

上一篇：一种树脂母线绝缘定位板的制作方法与工艺
上一篇：一种用于塑料瓶盖生产的定量送料设备的制作方法与工艺