语音识别方法与流程

文档序号:16636342发布日期:2019-01-16 07:03阅读:272来源:国知局
语音识别方法与流程

本发明构思涉及一种语音识别方法及其装置。更详细而言,涉及一种如下的方法及执行该方法的装置:该方法为了提高端到端(end-to-end)语音识别的准确度,构建以深度神经网络为基础的声学模型,并且利用构建出的声学模型来识别输入的语音。



背景技术:

语音识别(speechrecognition)技术是指通过计算装置的分析来识别或理解如人类发出的语音等的声学信号(acousticspeechsignal)的技术。以往,主要使用利用从语音数据中提取出的频率特征等来识别语音的方式,在此主要使用隐马尔可夫模型(hiddenmarkovmodel;hmm)。这种基于hmm的语音识别方式从语音数据中分析发音,并且通过以分析出的发音为基础组合单词或句子的过程来识别语音。

近年来,随着基于深度学习(deeplearning)的机器学习(machinelearning)技术的成熟,正在活跃地进行关于端到端(end-to-end)语音识别技术的研究,该端到端语音识别技术利用由深度神经网络(deepneuralnetwork)构成的声学模型来从语音数据中直接识别单词或句子等的文本,而不会经过从语音数据中分析发音的过程。

但是,到目前为止提出的端到端语音识别技术即使在识别对象语言为通过字母的组合表达一个音节的组合型语言的情况下,也不会对所组合的辅音和元音进行区分,而是将以字母(letter)为单位构成的目标标签(targetlabel)用于学习中。例如,为了识别韩语语音,通过学习目标标签来构建声学模型,在所述目标标签中相同的字母与初声、中声及终声的排列位置无关地被定义为类。但是,由于在如此构建的声学模型中无法反映由初声、中声及终声的组合构成音节的识别对象语言的结构特性,因此具有语音识别的准确度下降的问题。

因此,为了提高端到端语音识别的准确度,需要一种通过反映识别对象语言的结构特性来学习声学模型的语音识别方法。



技术实现要素:

本发明构思所要解决的技术问题是提供一种利用基于深度神经网络的声学模型来执行语音识别的方法及执行该方法的装置。

本发明构思所要解决的另一技术问题是提供一种通过反映识别对象语言的结构特性来学习基于深度神经网络的声学模型的方法及执行该方法的装置。

本发明构思所要解决的又一技术问题是提供一种用于生成反映了识别对象语言的结构特性的学习数据组的方法及执行该方法的装置。

本发明构思所要解决的又一技术问题是提供一种能够利用反映了识别对象语言的结构特性的学习数据组来有效地学习基于深度神经网络的声学模型的方法及执行该方法的装置。

本发明构思所要解决的又一技术问题是提供一种利用反映了识别对象语言的结构特性的多个学习数据组来构建适合各识别对象语言的最佳声学模型的方法及执行该方法的装置。

本发明构思的技术问题并不限于上面提到的技术问题,本发明构思所属技术领域的技术人员能够从以下记载中明确理解未提到的其他技术问题。

为了解决上述技术问题,本发明构思的一实施例的语音识别方法可构成反映了语言的组合原则的目标标签(targetlabel),并且能够学习所构成的目标标签。

附图说明

图1是一实施例的语音识别系统的结构图。

图2是用于说明实施例的语音识别装置的输入及输出数据的图。

图3是表示另一实施例的语音识别装置的方框图。

图4及图5是用于说明作为语音识别装置的一结构要素的目标标签构成部的图。

图6a及图6b是在几种实施例中能够用于声学模型构成的深度神经网络的示意图。

图7是用于说明作为语音识别装置的一结构要素的解码部的图。

图8是又一实施例的语音识别装置的硬件结构图。

图9及图10是用于说明又一实施例的语音识别方法的流程图。

图11是用于说明可在几种实施例中参照的最佳声学模型构建方法的图。

图12是用于说明可在几种实施例中参照的声学模型学习方法的图。

图13是表示根据目标标签构成的性能实验结果的图。

具体实施方式

对于说明书中使用的“包括(comprises)”和/或“包含(comprising)”,所提及的结构要素、步骤、操作和/或元素并不排除一个以上的其他结构要素、步骤、操作和/或元素的存在或附加。

在说明本说明书之前,明确本说明书中使用的若干术语。

在本说明书中,“文字”是指文本信息及属于“文字类型”的个别文字实例。“文字类型”是指在特定语言的字母表中发现的个别文字。例如,单词“telephone”可视为由9个“文字”和6个“文字类型”(例如:t、e、l、p、h、n)构成。

在本说明书中,声学模型是指表示用于将声音组合成发音或单词的统计学模式信息的模型。然而,为了端到端语音识别而根据本发明构思的实施例构建的基于深度神经网络的声学模型可以被转换为不经过将声音转变为发音的过程而直接输出文本的模型。

在本说明书中,损失函数(lossfunction)是指求出学习模型的预测值和目标值的损失(loss)的函数。在端到端语音识别的情况下,算出将语音数据作为输入的基于深度神经网络的声学模型的预测值与目标标签之间的损失,并且沿使该损失最小化的方向执行学习。

在本说明书中,解码(decoding)是指通过考虑声学模型的概率统计学结果来组合字母、音节及语节等以输出最终文本的过程。

在本说明书中,目标标签(targetlabel)是指识别语音数据后的结果数据。对于根据本发明构思的实施例构建的基于深度神经网络的学习模型而言,学习由语音数据及与该语音数据对应的目标标签构成的学习数据,并且在识别对象语音数据被输入时输出预测的目标标签。

下面,根据附图对本发明构思的几种实施例进行详细说明。

图1是本发明构思的一实施例的语音识别系统的结构图。

参照图1,语音识别系统可包括用户终端200及语音识别装置100。但是,这只是用于实现本发明构思的目的的优选实施例,当然可根据需要附加或删除一部分结构要素。此外,图1所示的语音识别系统的各个结构要素表示按功能区分的功能要素,应注意在实际物理环境中也可以以彼此合并的形式实现至少一个结构要素。例如,虽然在图1中图示了语音识别装置100为一种服务器装置,但根据实施例,可以以内置在用户终端200中的形式实现语音识别装置100的各功能。

在所述语音识别系统中,用户终端200为接收用户输入的语音信号并提供由语音识别装置100识别的识别结果的终端。在图1中,虽然用户终端200被图示为智能手机,但也可以被实现为任何装置。

在所述语音识别系统中,语音识别装置100为被输入语音数据10并提供识别结果30的计算装置。在此,语音数据是将以波(wave)形式表示语音信号的波文件、以频率形式表示所述波文件的声谱图(spectrogram)和梅尔频率倒谱系数(mel-frequencycepstralcoefficient,mfcc)等都包括在内的总括性含义。此外,所述计算装置可以是笔记本、台式机(desktop)、便携式电脑(laptop)或智能手机(smartphone)等,但并不局限于此,可包括具备运算单元的所有种类的装置。

根据本发明构思的实施例,为了提供端到端语音识别,语音识别装置100可构建由深度神经网络构成的声学模型,并且利用构建出的所述声学模型来提供语音数据10的识别结果30。在此,所述深度神经网络例如可以是递归神经网络(recurrentneuralnetwork,rnn)、双向递归神经网络(bi-directionalrnn,brnn)、长短期记忆(longshorttermmemory,lstm)、双向长短期记忆(bi-directionallstm,blstm)、门控循环单元(gatedrecurrentunit,gru)或双向门控循环单元(bi-directionalgru,bgru)等,但并不限定于此。

此外,根据本发明构思的实施例,语音识别装置100可以从包含在原始学习数据组中的文本以反映识别对象语言的结构特性的方式构成目标标签,并且利用包含在原始学习数据组中的学习用语音数据及对应的目标标签来执行对声学模型的学习。由此,能够构建学习到识别对象语言的结构特性的基于深度神经网络的声学模型,并且能够提高端到端语言识别的准确度。关于此的详细说明将在后面参照图4至图7来进行描述。

到目前为止,参照图1对本发明构思的一实施例的语音识别系统进行了说明。接着,参照图2至图8对本发明构思的实施例的语音识别装置100的结构及操作进行说明。

首先,为了提供理解上的方便,参照图2对语音识别装置100的输入及输出数据的例子进行简单讨论。

参照图2,在输入表示的语音数据10的情况下,语音识别装置100可输出语音数据10的识别结果30a、30b。在此,识别结果30a图示由上述的声学模型预测的目标标签的例子,识别结果30b图示以预测的所述目标标签为基础解码的最终文本。在此,语音识别装置100可以为了从所述目标标签中导出最终文本而应用已定义的单词词典。关于此的说明将在后面参照图7进行描述。

下面,参照图3对本发明构思的实施例的语音识别装置100的方框图进行说明。

参照图3,语音识别装置100可包括学习数据获取部110、目标标签构成部120、声学模型构建部130、语音输入部150、目标标签预测部160及解码部170。但是,在图3中只图示了与本发明构思的实施例相关联的结构要素。因此,本发明构思所属技术领域的技术人员能够知道除图3所示的结构要素以外,还可以包括其他通用的结构要素。此外,图3所示的语音识别装置的各个结构要素表示按功能区分的功能要素,应注意在实际物理环境中也可以以彼此合并的形式实现至少一个结构要素。以下,对语音识别装置100的各结构要素进行说明。

学习数据获取部110获取用于构成目标标签的原始学习数据组。包含在所述原始学习数据组中的各个原始学习数据可由学习用语音数据及与所述学习用语音数据对应的文本构成。例如,原始学习数据可以是由表示的学习用语音数据及文本成对构成的数据。

学习数据获取部110获取原始学习数据组的方式也可以是任何方式。例如,学习数据获取部110可以从本地存储位置获取已存储的原始学习数据组,也可以从外部存储位置获取所述原始学习数据组。

目标标签构成部120从包含在原始学习数据组中的文本以反映识别对象语言的结构特性的方式构成目标标签,并且生成由包含在所述原始学习数据组中的学习用语音数据及所述目标标签构成的学习数据组。例如,在所述识别对象语言为如韩语等的组合型语言的情况下,即使为相同的字母,也可以以能够根据排列位置区分的方式构成目标标签。以下,参照图4对目标标签构成部120的功能进行更详细说明。

参照图4,目标标签构成部120可从包含在原始学习数据组310中的文本构成多种目标标签,并且生成包含有包含在原始学习数据组310中的学习用语音数据及所构成的所述目标标签的学习数据组330、350、370、390。学习数据组330、350、370、390为在实际声学模型的学习中所利用的学习数据组,各个学习数据组由彼此不同种类的目标标签构成。

具体而言,目标标签构成部120可将包含在原始学习数据组310中的文本以字母为单位进行分离并且以后述方式构成反映了识别对象语言的结构特性的四个级别(以下,为了区分各个级别而命名为“第一级别”、“第二级别”、“第三级别”和“第四级别”)的目标标签。

在图4中,第一学习数据组330是指由包含在原始学习数据组中的学习用语音数据与第一级别目标标签构成的多个学习数据,第二学习数据组350、第三学习数据组370及第四学习数据组390分别是指由包含在原始学习数据组中的学习用语音数据与第二级别目标标签、第三级别目标标签及第四级别目标标签构成的多个学习数据。以下,对目标标签构成部120以反映识别对象语言的结构特性的方式构成第一至第四级别目标标签的方法进行说明。此外,以下假设所述识别对象语言为韩语的情况来进行说明。但是,这只是为了提供理解上的方便,本发明构思的范围并不限定于此。

包含在学习数据330a中的第一级别目标标签可由能够表达所述识别对象语言的字母及分写构成。即,目标标签构成部120可通过根据字母单位及分写来分离包含在学习数据310a中的文本而构成所述第一级别目标标签。在此,通过在包含于学习数据330a的第一级别目标标签的字母中,对不同的字母赋予彼此不同的类标识符,从而可在基于深度神经网络的声学模型中将彼此不同的字母定义为彼此不同的类。此外,为了与字母区分,也可以将分写定义为其他类。

例如,如图5所示,在学习数据310a的文本为的情况下,第一学习数据330a的第一级别目标标签可由构成。在此,符号“$”表示分写。

举另一例子,在识别对象语言的字母自身作为一个文字使用的英语的情况下,当学习数据310a的文本为“nicetomeetyou”时,学习数据330a的第一级别目标标签可由“nice$to$meet$you”构成。

接着,包含在学习数据350a中的第二级别目标标签可由能够表达所述识别对象语言的字母及分写构成。此时,即使在由相同的字母表达的情况下,为了区分发音的字母和不发音的字母(例如,默音)并进行学习,也可以将发音的字母和不发音的字母定义为彼此不同的类。即,目标标签构成部120可通过根据字母单位及分写来分离包含在学习数据310a中的文本并对不发音的字母进行另外的识别处理而构成所述第二级别目标标签。在识别对象语言为韩语的情况下,不发音的字母可以举出排列位置为初声的辅音

例如,如图5所示,学习数据310a的文本为的情况下,学习数据350a的第二级别目标标签可由构成。在此,符号“[]”表示该字母为默音。

在识别对象语言为英语的情况下,在文本中位于“n”字母前的“k”字母、位于“r”字母前的“w”或位于“n”字母前的“g”等可被处理为默音。例如,在学习数据310a的文本为“iknowyouarewrong”的情况下,第二级别目标标签可由“i$[k]now$you$are$[w]rong”构成。除此之外,可根据各种默音规则进行定义使得不发音的字母在声学模型中被识别为其他类。

接着,包含在学习数据370a中的第三级别目标标签可由能够表达所述识别对象语言的字母及分写构成。但是,与包含在学习数据330a中的第一级别目标标签不同地,可以对不同的字母赋予彼此不同的类标识符,并且即便是相同的字母,也根据排列位置赋予彼此不同的类标识符。例如,在识别对象语言为韩语的情况下,在初声及终声的位置上使用的字母可被定义为彼此不同的类。这可理解成是为了反映由初声、中声及终声的组合形成一个音节的韩语结构特性。例如,即便是相同的字母也可以对位于初声的字母和位于终声的字母赋予单独的类标识符。

举具体例子,如图5所示,在学习数据310a的文本为的情况下,学习数据370a的第三级别目标标签可由构成。在此,字母和字母或字母和字母为相同的字母,但由于排列位置不同,因此被赋予彼此不同的类标识符。在此,符号“<>”是为了区分表达排列位置不同的相同字母而利用的符号。

在识别对象语言为英语的情况下,也可以根据字母的排列位置将相同的字母定义为不同的类。例如,在“c”字母位于“a”、“o”或“u”字母前的情况下,如“cake”、“cube”或“con”,发音为/k/音,在“c”字母位于“i”、“e”或“y”字母前的情况下,如“city”、“center”或“cycle”,发音为/s/音。如此,为了根据被规定为发音按字母的排列位置而不同的规则来区分字母,可以赋予彼此不同的类标识符。举更具体的例子,对于文本“youcanbuyacellphone”,可在以字母为单位进行分离后考虑排列位置而由“you$can$buy$a$<c>ell$phone”构成第三级别目标标签。除此之外,也可以通过按字母的排列位置区分字母的音的规则来区分字母,从而以多种方式构成目标标签。

接着,学习数据390a的第四级别目标标签可由能够表达待识别的语言的字母及分写构成,并且可以以字母的发音与否和字母的排列位置均可被区分的方式构成目标标签。即,与包含在学习数据350a中的第二级别目标标签不同地,对不同的字母赋予彼此不同的类标识符,并且即便是相同的字母,在排列位置不同的情况下也可以赋予彼此不同的类标识符。

例如,如图5所示,在学习数据310a的文本为的情况下,学习数据390a的第四级别目标标签可由构成。在此,虽然字母和字母或字母和字母为相同的字母,但由于排列位置不同,因此可被赋予彼此不同的类标识符,并且发音的字母和不发音的字母也可被赋予彼此不同的类标识符。

在识别对象语言为英语的情况下,对于文本“iknowyoucanbuyacellphone”,可在以字母为单位进行分离之后考虑默音和排列位置而由“i$[k]now$you$can$buy$a$<c>ell$phone”构成第四级别目标标签。

下述表1对在识别对象语言为韩语或英语的情况下能够构成各个学习数据组的目标标签的类标签进行了整理。

[表1]

再次参照图3,接着对语音识别装置100的其他结构要素进行说明。

声学模型构建部130通过学习由目标标签构成部120生成的至少一个学习数据组,来构建基于深度神经网络的声学模型140。在此,深度神经网络可以是rnn、brnn、lstm、blstm、gru或bgru等,但并不限定于此。

所述rnn是为了有效地学习输入数据的时间序列顺序而循环连接的神经网络模型,语音数据也是具有时间序列顺序的数据,因此能够有效地执行对语音识别的学习。此外,所述brnn是为了双向学习输入数据的时间序列顺序而变形的rnn模型,是沿学习方向包含前向层(forwardlayer)和反向层(backwardlayer)的神经网络模型。关于所述rnn和所述brnn的神经网络结构参照图6a及图6b。

此外,lstm、blstm、gru及bgru也是属于rnn的变形的神经网络模型。上述神经网络模型为本技术领域中公知的内容,因此省略进一步的说明。

根据本发明构思的实施例,声学模型构建部130可利用连接时序分类(connectionisttemporalclassification,ctc)方法以更新深度神经网络的加权值的方式执行对声学模型140的学习。ctc方法由于利用考虑了语音数据的发音时间的损失函数,因此对发音时间不同但指向相同的文本的语音数据也能执行有效的学习。由此,还可以提高语音识别的准确度。

根据本发明构思的实施例,在由gpu及并非gpu的其他处理单元来执行计算运算的情况下,声学模型构建部130可进行控制使得由gpu处理的运算量基于可从所述声学模型输出的类的个数而被调整。展开说明,则如表1所示,可知第三级别目标标签或第四级别目标标签的类个数比第一级别目标标签或第二级别目标标签的类个数多很多。如果所述类个数增加,则构成深度神经网络的输出层的输出结点的个数也需要增加,因此在执行对第三级别目标标签或第四级别目标标签的神经网络学习的情况下,有可能会产生学习速度缓慢的问题。具体而言,在调整神经网络的加权值的过程中频繁执行矩阵运算,如果类的个数增加,则矩阵的大小也会增加,运算量也会大幅增加。因此,声学模型构建部130可进行控制使得由gpu处理的运算量随着类的个数增加而增加,从而改善声学模型的学习速度。

下述表2呈现出当利用ctc来学习声学模型时根据gpu的运算量控制的学习速度改善结果。

[表2]

参照表2,可知在控制为gpu运算量增加的情况下,每时期(epoch)的学习时间减少三分钟左右。这表示在假设对3000个句子学习1000时期以上的声学模型才能呈现规定水平以上的语音识别率的情况下,学习时间可减少50小时以上。在假设为了构建有效的声学模型而需要学习大量语音数据的情况下,可根据上述实施例提高声学模型的学习速度,并且大幅缩短学习时间。

另外,根据本发明构思的实施例,声学模型构建部130可利用k折交叉验证(k-foldcrossvalidation)方法来构建各个识别对象语言的最佳声学模型。由此,能够进一步提高语音识别的准确度。关于此的详细说明将在后面参照图11进行描述。

此外,根据本发明构思的实施例,声学模型构建部130可通过两个阶段学习过程来有效地构建声学模型。由此,能够进一步提高语音识别的准确度。关于此的详细说明将在后面参照图12进行描述。

再次参照图3,语音输入部150被输入识别对象语音数据。以波形式表示语音信号的波文件、以频率形式表示所述波文件的声谱图或mfcc等均可被包含在所述识别对象语音数据中。语音输入部150可包括用于输入识别对象语音数据的输入装置,所述输入装置可包括麦克风等,但并不限定于此。此外,语音输入部150例如也可以从如台式电脑、笔记本或平板电脑等的通信设备被输入识别对象语音数据。

目标标签预测部160利用已构建的声学模型140来预测识别对象语音数据的目标标签。在此,预测的所述目标标签的结构与学习到的目标标签的结构对应。例如,在利用由第三级别目标标签学习到的声学模型的情况下,由目标标签预测部160预测的目标标签也将具有初声、中声及终声的排列位置被区分的结构。

解码部170通过以预测出的所述目标标签为基础组合字母、音节或语节等而输出最终文本。为了输出所述最终文本,解码部170可利用本技术领域中公知的至少一个算法,也可以利用任何算法。

例如,解码部170可利用已定义的单词词典来输出所述最终文本。具体而言,解码部170可利用预测的目标标签来从单词词典中提取多个候选单词,并且将所述多个候选单词中当组合包含在预测的目标标签中的字母时出现概率最高的单词作为最终文本来输出。

应注意,所述单词词典(未图示)可能在本技术领域中混用成语言模型或语言学模型等的多种用语,但是指相同的对象。以下,参照图7对解码部170输出最终文本的一示例进行说明。

参照图7,图示了学习第一级别目标标签的声学模型的预测目标标签411和学习第三级别目标标签的声学模型的预测目标标签413。

在利用所述第一级别目标标签来构建声学模型的情况下,解码部170从第一字母开始组合而从单词词典中提取在之后出现的所有候选单词,并且检索所述所有候选单词的概率。在此,假设在之后音节的初声为的候选单词为n个,作为的终声具有的候选单词为k个。于是,解码部170通过比较n+k个候选单词的概率而作为最终文本输出

接着,在利用所述第三级别目标标签来构建声学模型的情况下,解码部170知道后面出现的字母位于终声,因此可通过只比较k个候选单词的概率而作为最终文本输出

比较两种情况,可知在目标标签利用进一步反映了识别对象语言的结构特性的第三级别目标标签的情况下,候选单词的个数减少,由此解码部170的运算量减少。此外,提高语音识别结果的准确度,关于此的实验结果参照图13所示的图表。

图3的各结构要素可指软件(software)或者如现场可编程门阵列(fieldprogrammablegatearray,fpga)或专用集成电路(application-specificintegratedcircuit,asic)等的硬件(hardware)。但是,所述结构要素并不是限定于软件或硬件的含义,也可以被构成为位于可寻址(addressing)的存储介质中,还可以构成为运行一个或更多个处理器。在所述结构要素内提供的功能可通过进一步细化的结构要素来实现,并且也可以由通过将多个结构要素结合而执行特定功能的一个结构要素来实现。

下面,参照图8对本发明构思的又一实施例的语音识别装置100的硬件结构进行说明。

参照图8,语音识别装置100可包括:一个以上的处理器101;总线105;网络接口107;存储器103,用于加载(load)由处理器101执行的计算机程序;和贮存器109,用于存储语音识别软件109a。但是,在图8中只图示了与本发明构思的实施例相关联的结构要素。因此,本发明构思所属技术领域的技术人员能够知道可进一步包括除图8所示的结构要素以外的其他通用的结构要素。

处理器101控制语音识别装置100的各结构的总体操作。处理器101可包括中央处理器(centralprocessingunit,cpu)、微处理器(microprocessorunit,mpu)、图形处理器(graphicprocessingunit,gpu)或本发明构思的技术领域中公知的任意形式的处理器。此外,处理器101可执行对用于执行本发明构思的实施例的方法的至少一个应用或程序的运算。语音识别装置100可具备一个以上的处理器。

存储器103存储各种数据、指令和/或信息。存储器103可以为了执行本发明构思的实施例的语音识别方法而从贮存器109加载一个以上的程序109a。在图8中作为存储器103的示例图示了ram。

总线105提供语音识别装置100的结构要素之间的通信功能。总线105可以以地址总线(addressbus)、数据总线(databus)及控制总线(controlbus)等多种形式的总线来实现。

网络接口107支持语音识别装置100的有线无线互联网通信。此外,网络接口107也可以支持互联网通信以外的多种通信方式。为此,网络接口107可包括本发明构思的技术领域中公知的通信模块。

贮存器109非临时地存储所述一个以上的程序109a。在图8中作为所述一个以上的程序109a的示例图示了语音识别软件109a。

贮存器109可包括如只读存储器(readonlymemory,rom)、可擦除可编程rom(erasableprogrammablerom,eprom)、电可擦除可编程rom(electricallyerasableprogrammablerom,eeprom)、快闪存储器等的非易失性存储器,硬盘,可拆式硬盘或本发明构思所属技术领域中公知的任意形式的计算机可读存储介质。

语音识别软件109a可通过执行本发明构思的实施例的语音识别方法来构建基于深度神经网络的声学模型,并且利用所述声学模型来输出识别对象语音数据的最终文本。

具体而言,语音识别软件109a被加载在存储器103中而由一个以上的处理器101来执行如下的操作:获取关于识别对象语言的原始学习数据组,并且包含在所述原始学习数据组中的各个原始学习数据包含学习用语音数据及与所述学习用语音数据对应的文本信息;通过将包含在所述各个原始学习数据中的文本信息以字母(letter)为单位进行分离来构成目标标签(targetlabel);以及通过学习包含在所述各个原始学习数据中的学习用语音数据及与所述学习用语音数据对应的目标标签,构建基于深度神经网络(deepneuralnetwork)的声学模型。在此,所述目标标签例如可以是上述第一至第四级别目标标签中的至少一个目标标签。

到目前为止,参照图3至图8对本发明构思的实施例的语音识别装置100的结构及操作进行了说明。接着,参照图9至图11对本发明构思的又一实施例的语音识别方法进行详细说明。

以下后述的本发明构思的实施例的语音识别方法的各步骤可通过计算装置来执行。例如,所述计算装置可以是语音识别装置100。但是,为了方便说明,也可能省略包含在所述语音识别方法中的各步骤的操作主体的记载。此外,语音识别方法的各步骤可以是语音识别软件109a由处理器101执行而在语音识别装置100中执行的操作。

本发明构思的实施例的语音识别方法可包括执行对声学模型的学习的声学模型学习步骤和以学习到的声学模型为基础执行语音识别的语音识别步骤。以下,对各步骤进行说明。

图9是声学模型学习步骤的流程图。但是,这只是用于实现本发明构思的目的的优选实施例,当然也可根据需要附加或删除一部分步骤。

参照图9,语音识别装置100获取原始学习数据组(s100)。在此,包含在所述原始数据组中的各个原始数据组可由学习用语音数据及与所述学习用语音数据对应的文本构成,获取原始学习数据组的方法也可以是任何方式。

接着,语音识别装置100通过将包含在各个原始学习数据中的文本信息以字母为单位进行分离来构成目标标签(s120)。如参照图4所说明的,所述目标标签例如可包含第一级别目标标签至第四级别目标标签,语音识别装置100可根据识别对象语言的种类来构成适当的目标标签。为了排除重复说明,省略关于构成所述目标标签的方法的详细说明。

接着,语音识别装置100通过学习包含在各个原始学习数据中的学习用语音数据和构成的所述目标标签,构建基于深度神经网络的声学模型(s140)。具体而言,语音识别装置100可通过利用ctc方法使损失(loss)最小化的方式调整所述深度神经网络的加权值,从而执行对所述声学模型的学习。

接着,参照图10对利用构建出的声学模型来执行语音识别的步骤进行说明。

图10是语音识别步骤的流程图。但是,这只是用于实现本发明构思的目的的优选实施例,当然可根据需要附加或删除一部分步骤。

参照图10,语音识别装置100被输入识别对象语音数据(s200)。例如,可通过内置在语音识别装置100中的麦克风来输入所述识别对象语音数据,并且也可以从外部装置接收识别对象语音数据。

接着,语音识别装置100利用已构建的声学模型来预测识别对象语音信号的目标标签(s220)。即,语音识别装置100可以对所述声学模型输入所述识别对象语音信号并作为输出值获取预测的目标标签。作为所述预测的目标标签的示例参照图7。

接着,语音识别装置100利用已定义的单词词典来解码预测出的目标标签,并且将与识别对象语音信号对应的文本信息作为解码结果进行输出(s240)。例如,如图7所示,可以以统计学概率为基础执行通过解码目标标签来输出文本信息的方法,但也可以以任何方式执行该方法。

到目前为止,参照图9及图10对本发明构思的实施例的语音识别方法进行了说明。根据上述方法,可以以基于深度神经网络的学习模型的学习结果为基础,在没有对语音数据的发音分析过程的情况下,从语音数据中直接识别对应的文本并输出。由此,可以简化用于识别语音的总体进程。

接着,参照图11对可在本发明构思的几种实施例中参照的最佳声学模型构建方法进行说明。

由于语言的结构特性可根据识别对象语言而不同,因此可对所述识别对象语言提供最高识别率的学习数据组也可以不同。因此,根据本发明构思的实施例,可以以各个学习数据组为基础构建候选声学模型,并且通过评价来选择该识别对象语言的最佳声学模型。

如图11所示,语音识别装置100可以通过从原始学习数据组生成由彼此不同的目标标签构成的多个学习数据组410、430、450、470并且学习各个学习数据组来构建多个候选声学模型420、440、460、480。在图11中作为例子图示了对第一至第四学习数据组410、430、450、470中的每一个构建候选声学模型420、440、460、480,但也可以通过考虑语音识别装置100的性能或识别对象语言的结构特性等而只对一部分学习数据组构建候选声学模型。

语音识别装置100可通过评价过程而将语音识别的准确度满足规定条件的任一个声学模型490或多个声学模型选择为该识别对象语言的声学模型490。此时,为了执行上述评价过程,可利用k折交叉验证方法,但也可以以任何方式执行上述评价过程。所述k折交叉验证方法为该技术领域中已公知的方法,因此省略关于此的说明。

根据上述实施例,语音识别装置100可以对多个识别对象语言选择最佳声学模型。例如,可以在通过学习第一级别目标标签至第四级别目标标签中的任一个目标标签来构建候选声学模型之后,通过评价过程来构建第一识别对象语言的第一声学模型,并且可以以相同的方式构建第二识别对象语言的第二声学模型。此时,在所述第一声学模型的学习中利用的目标标签和在所述第二声学模型的学习中利用的目标标签的结构可以彼此不同。例如,所述第一声学模型可以是基于第二级别目标标签的声学模型,所述第二声学模型可以是基于第三级别目标标签的声学模型。这是因为,每个识别对象语言的结构特性可以不同,因此最佳声学模型也可以不同。

到目前为止,参照图11对可在本发明构思的几种实施例中参照的最佳声学模型构建方法进行了说明。根据上述方法,可以按识别对象语言构建最佳声学模型,能够进一步提高语音识别的准确度。

接着,参照图12对可在本发明构思的几种实施例中参照的声学模型学习方法进行说明。

根据本发明构思的实施例,如图12所示,语音识别装置100可通过由两个阶段构成的学习过程来有效地构建声学模型。在第一阶段学习过程中,可利用学习数据组510来执行对声学模型520的第一次学习。在此,学习数据组510可以是第一至第四学习数据组中的任一个学习数据组。

接着,在执行第二阶段学习之前,可执行对第一次学习的声学模型520的评价。在评价过程中,可以针对包含在测试数据组530中的各个测试数据算出所述第一次学习的声学模型的误差,并且从测试数据组530中选择所述误差为已设定的值以上的测试数据。如图12所示的数据组540是指已选择的测试数据的集合。

接着,在第二阶段学习过程中,通过将数据组540用作学习数据组540来执行对声学模型520的第二次学习。此时,为了增加学习数据组540的个数,可利用数据扩充(dataaugmentation)方法。即,语音识别装置100可通过使包含在学习数据组540中的语音数据变形来生成多个语音数据,从而生成数据个数增加的学习数据组550。

例如,当包含在学习数据组540中的学习数据由第一语音数据和所述第一语音数据的目标标签构成时,语音识别装置100可通过将噪声(noise)合成到所述第一语音数据来生成第二语音数据,并且通过将由所述第二语音数据及所述目标标签构成的学习数据添加到学习数据组550中来增加学习数据的个数。除此之外,语音识别装置100可通过以多种方式使所述第一语音数据变形来生成新的学习数据。

到目前为止,参照图12对可在本发明构思的几种实施例中参照的声学模型学习方法进行了说明。根据上述方法,在声学模型的评价过程中可选择语音识别的准确度较低的测试数据,并且通过将选择出的测试数据用作学习数据来执行再学习。此外,可通过对选择出的所述测试数据进行数据扩充(dataaugmentation)来确保附加的学习数据。由此,能够更有效地执行声学模型的学习,并且能够进一步提高语音识别的准确度。

最后,参照图13对关于根据目标标签构成的语音识别性能变化的实验结果进行简单讨论。在图13中图示了在识别对象语言为韩语的情况下,由第一级别目标标签学习的声学模型和由第三级别目标标签学习的第二声学模型的语音识别结果。

参照图13,可确认学习由第三级别目标标签构成的目标标签的基于深度神经网络的声学模型的识别率与学习由第一级别目标标签构成的目标标签的声学模型的识别率相比提高约14%左右。

如此,可确认在以可反映通过结合初声、中声及终声而形成音节的韩语的结构特性的方式构成目标标签,并且学习该目标标签的情况下,提高端到端语音识别的准确度。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1