一种语音转写方法、装置、设备及可读存储介质与流程

文档序号:15999215发布日期:2018-11-20 19:14阅读:187来源:国知局

本申请涉及语音信号处理技术领域,更具体地说,涉及一种语音转写方法、装置、设备及可读存储介质。



背景技术:

目前在企事业单位、政府部门及教育行业每年有数以万计场的会议,其中重要的会议需要进行记录并整理成会议纪要或工作简报。而在法院审理案件的应用中,需要法院的书纪员记录审理的过程。语音转写系统已被越来越多的应用于会议纪要的整理和庭审现场的记录,通过对音频的实时或离线转写,可将语音内容转写成文字,在转写文字的基础上进行编辑修改,可以明显的提高整理会议和记录庭审内容的效率。

现有的语音转写系统一般采用基于端点检测段进行语音转写。所谓端点检测即检测出录音中包含的语音部分。通过端点检测,在检测到语音前端点时开始进行转写,直至检测到语音后端点时停止转写,整个转写文本中不包含任何标点符号。显然,按照现有语音转写系统输出的内容仅仅是一大串文字的组合,由于不包含任何标点停顿,非常不便于编辑人员理解语音真实的表达意思,大大影响编辑效率。



技术实现要素:

有鉴于此,本申请提供了一种语音转写方法、装置、设备及可读存储介质,用于解决现有语音转写方法得到的转写结果不包含任何标点符号,导致编辑人员理解困难、影响编辑效率的问题。

为了实现上述目的,现提出的方案如下:

一种语音转写方法,包括:

获取语音数据;

对所述语音数据进行转写,得到转写文本;

根据所述转写文本的语义信息及停顿信息,对所述转写文本进行编辑操作,得到编辑后转写文本,编辑后转写文本包含标点。

优选地,还包括:

根据所述编辑后转写文本包含的标点,从所述编辑后转写文本中确定输出内容。

优选地,所述根据所述转写文本的语义信息及停顿信息,对所述转写文本进行编辑操作,得到编辑后转写文本,编辑后转写文本包含标点,包括:

根据所述转写文本的语义信息及停顿信息,确定所述转写文本的断句点及需添加的标点;

在所述转写文本中确定的断句点处添加对应的标点,得到编辑后转写文本。

优选地,所述根据所述转写文本的语义信息及停顿信息,对所述转写文本进行编辑操作,得到编辑后转写文本,编辑后转写文本包含标点,还包括:

根据所述转写文本的语义信息及停顿信息,对所述转写文本进行文字顺滑处理。

优选地,所述根据所述转写文本的语义信息及停顿信息,确定所述转写文本的断句点及需添加的标点,以及在所述转写文本中确定的断句点处添加对应的标点,得到编辑后转写文本,包括:

获取所述转写文本中每个编辑单元的向量表达及每个编辑单元的停顿标记特征,编辑单元的停顿标记特征表征编辑单元后是否有停顿;

将所述转写文本中每个编辑单元的向量表达及停顿标记特征输入预置的第一文本编辑模型,得到输出的编辑后转写文本;

所述第一文本编辑模型为,预先以文本训练数据包含编辑单元的向量表达及停顿标记特征为样本,以对所述文本训练数据中断句点处添加标点后的编辑后文本训练数据为样本标签进行训练得到。

优选地,根据所述转写文本的语义信息及停顿信息,对所述转写文本进行文字顺滑处理、确定断句点及需添加的标点,以及在转写文本中确定的断句点处添加对应的标点,得到编辑后转写文本的过程,包括:

获取所述转写文本中每个编辑单元的向量表达及每个编辑单元的停顿标记特征,编辑单元的停顿标记特征表征编辑单元后是否有停顿;

将所述转写文本中每个编辑单元的向量表达及停顿标记特征输入预置的第二文本编辑模型,得到输出的编辑后转写文本;

所述第二文本编辑模型为,预先以文本训练数据包含编辑单元的向量表达及停顿标记特征为样本,以对所述文本训练数据进行文字顺滑及在断句点处添加标点后的编辑后文本训练数据为样本标签进行训练得到。

优选地,所述将所述转写文本中每个编辑单元的向量表达及停顿标记特征输入预置的第一文本编辑模型,得到输出的编辑后转写文本,包括:

将所述转写文本中每个编辑单元的向量表达及停顿标记特征输入基于注意力机制的编解码类型的第一文本编辑模型;

通过第一文本编辑模型的编码层,对所述转写文本中每个编辑单元的向量表达及停顿标记特征进行编码,得到编码后隐层特征;

通过第一文本编辑模型的注意力层,对所述编码后隐层特征进行系数线性加权,得到当前时刻的加权后隐层特征;

通过第一文本编辑模型的解码层,将所述当前时刻的加权后隐层特征及上一时刻解码层的输出作为当前时刻解码层的输入,当前时刻解码层的输出作为编辑后转写文本。

优选地,所述将所述转写文本中每个编辑单元的向量表达及停顿标记特征输入预置的第二文本编辑模型,得到输出的编辑后转写文本,包括:

将所述转写文本中每个编辑单元的向量表达及停顿标记特征输入基于注意力机制的编解码类型的第二文本编辑模型;

通过第二文本编辑模型的编码层,对所述转写文本中每个编辑单元的向量表达及停顿标记特征进行编码,得到编码后隐层特征;

通过第二文本编辑模型的注意力层,对所述编码后隐层特征进行系数线性加权,得到当前时刻的加权后隐层特征;

通过第二文本编辑模型的解码层,将所述当前时刻的加权后隐层特征及上一时刻解码层的输出作为当前时刻解码层的输入,当前时刻解码层的输出作为编辑后转写文本。

优选地,还包括:

通过第二文本编辑模型的注意力层,计算当前时刻的加权后隐层特征及当前时刻之前的若干时刻的加权后隐层特征的相关性残差,并将当前时刻的加权后隐层特征与所述相关性残差的差值,作为更新后的当前时刻的加权后隐层特征。

优选地,所述根据所述编辑后转写文本包含的标点,从所述编辑后转写文本中确定输出内容,包括:

检测所述编辑后转写文本是否包含第一类型标点,所述第一类型标点为表征文本语义完整的标点;

若确定包含第一类型标点,则将所述编辑后转写文本中所述第一类型标点及其之前的内容确定为输出内容;

若确定不包含第一类型标点,则进一步检测所述编辑后转写文本包含编辑单元个数是否超过个数阈值;

若确定超过个数阈值,则将所述编辑后转写文本中最后一个标点及其之前的内容确定为输出内容。

一种语音转写装置,包括:

语音转写单元,用于对实时获取的语音数据进行转写,得到转写文本;

文本编辑单元,用于根据所述转写文本的语义信息及停顿信息,对所述转写文本进行编辑操作,得到编辑后转写文本,编辑后转写文本包含标点。

优选地,还包括:

输出内容确定单元,用于根据所述编辑后转写文本包含的标点,从所述编辑后转写文本中确定输出内容。

一种语音转写设备,包括存储器和处理器;

所述存储器,用于存储程序;

所述处理器,用于执行所述程序,实现如上介绍的语音转写方法的各个步骤。

一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如上介绍的语音转写方法的各个步骤。

从上述的技术方案可以看出,本申请实施例提供的语音转写方法,通过对获取的语音数据进行转写,得到转写文本,根据转写文本的语义信息及停顿信息,对所述转写文本进行编辑操作,得到编辑后转写文本,编辑后转写文本包含标点,也即本申请根据转写文本的语义信息及停顿信息确定了转写文本内需要添加标点的位置并进行了标点添加,得到的编辑后转写文本按照文本表达逻辑添加了标点。基于此,该编辑后转写文本更加便于编辑人员理解,因此提高了编辑效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种语音转写方法流程图;

图2为本申请实施例公开的另一种语音转写方法流程图;

图3示例了一种基于注意力机制的编解码类型的模型结构;

图4示例了一种改进后的基于注意力机制的编解码类型的模型结构;

图5为本申请实施例公开的一种确定输出内容方法流程图;

图6为本申请实施例公开的一种语音转写装置结构示意图;

图7为本申请实施例公开的一种语音转写设备的硬件结构框图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

对于会议、庭审现场等场景,编辑人员需要一边听语音,一边等待语音转写的结果,并对转写结果进行编辑操作。按照现有语音转写系统,其对语音数据转写后的结果不包含标点符号,导致编辑人员不能很好的理解真实语义,降低了编辑效率。

本案提出一种权衡方案,具体地,可以采用渐进式解码的方案,实时的将语音转换成文本;其次,根据渐进式解码得到的文本进行分句和标点预测,对解码得到的文本添加标点,得到编辑后转写文本,编辑后转写文本包含标点,也即本申请根据转写文本的语义信息及停顿信息确定了转写文本内需要添加标点的位置并进行了标点添加,得到的编辑后转写文本按照文本表达逻辑添加了标点。该编辑后转写文本更加便于编辑人员理解,因此提高了编辑效率。

接下来结合附图对本申请方案进行详细介绍。

参见图1,图1为本申请实施例公开的一种语音转写方法流程图。如图1所示,该语音转写方法包括:

步骤S100、获取语音数据。

具体地,可以采用音频采集设备,如麦克风等获取语音数据。当然,本申请还可以接收其他设备或模块发送的语音数据。

步骤S110、对获取的语音数据进行转写,得到转写文本。

具体地,本实施例可以采用端点检测方式,由检测到的前端点至后端点部分组成语音部分。端点检测方式可以采用基于能量规则和基于神经网络相结合的方法。

当检测到语音前端点时,可以对语音数据采用渐进式解码方式,进行解码转写,得到转写文本。语音转写的渐进式解码为一种实时解码方案,解码结果不断积累,并随着积累的语音时长增加,不断扩大搜索的空间,直至端点检测检测到后端点为止。由于语音的长时相关性,积累一定时长的解码结果也更加准确。

除此之外,本申请实施例还可以采用其它解码方案对语音数据进行解码,如采用现有的不考虑渐进解码的语音识别模型(包括声学模型和语义模型)对语音数据进行解码,得到解码后的转写文本。

步骤S120、根据所述转写文本的语义信息及停顿信息,对所述转写文本进行编辑操作,得到编辑后转写文本,编辑后转写文本包含标点。

具体地,在上一步骤得到转写文本之后,可以结合转写文本的语义信息及停顿信息,对转写文本进行编辑操作,该编辑操作可以包括按照转写文本的语义及停顿,为转写文本添加标点,得到包含标点的编辑后转写文本。

其中,标点可以分为两类,第一类型标点可以是表征文本语义完整的标点,如句号、问号、感叹号等。第二类型标点可以是表征文本语义还未完整的标点,如逗号、顿号等。

本申请实施例提供的语音转写方法,通过对获取的语音数据进行转写,得到转写文本,根据转写文本的语义信息及停顿信息,对所述转写文本进行编辑操作,得到编辑后转写文本,编辑后转写文本包含标点,也即本申请根据转写文本的语义信息及停顿信息确定了转写文本内需要添加标点的位置并进行了标点添加,得到的编辑后转写文本按照文本表达逻辑添加了标点。基于此,该编辑后转写文本更加便于编辑人员理解,因此提高了编辑效率。

在实际应用场景下,由于编辑人员需要边一边听语音,一边等待语音转写的结果,因此何时抛出解码的文字一定程度上决定了用户的编辑效率。现有的语音转写系统,通过端点检测,在检测到语音前端点时开始进行转写,直至检测到语音后端点时,将前端点至后端点间的语音的转写结果作为输出内容。显然,现有语音转写方式很大程度上与说话人语速和说话方式有关,对于语速较快的说话人,端点检测所检测到的前端点至后端点间包含的语音很长,对应的转写内容很多,编辑人员需要在一定时间段后接受一大段文字内容,大大影响编辑效率。而对于语速较慢的说话人,端点检测所检测到的前端点至后端点间包含的语音较短,对应的转写内容较少,编辑人员往往只能够间断性的得到片段文字内容,不便于理解语音真实的表达意思,也非常影响编辑效率。

为此本申请方案进一步提出了一种解决方案,在上述得到编辑后转写文本之后,可以根据编辑后转写文本包含的标点信息,从中确定输出内容,进行抛出。使用本申请方案,可较好的实现语音转写正确率和语音出文字速度之间的权衡,从而极大程度提高编辑效率,提升用户的使用体验。详细实施流程可以参照图2所示,该方法包括:

步骤S200、获取语音数据。

步骤S210、对获取的语音数据进行转写,得到转写文本。

步骤S220、根据所述转写文本的语义信息及停顿信息,对所述转写文本进行编辑操作,得到编辑后转写文本,编辑后转写文本包含标点。

本实施例中步骤S200-S220与前述实施例中步骤S100-S120相互对应,详细可以参照前述介绍,此处不再赘述。

步骤S230、根据所述编辑后转写文本包含的标点,从所述编辑后转写文本中确定输出内容。

本实施例中在确定需要抛出的输出内容时,并非直接将转写文本抛出,而是根据编辑后转写文本包含的标点,从编辑后转写文本中确定输出内容。

本申请实施例提供的语音转写方法,在确定抛出内容时参考了编辑后转写文本所包含的标点,即考虑了文本的表达逻辑,不受说话人的语速及说话方式影响,确定的输出内容与文本表达逻辑相关,因此更加合理,进而提高了编辑人员对输出内容的编辑效率。

在本申请的一个实施例中,对上述步骤S120,根据所述转写文本的语义信息及停顿信息,对所述转写文本进行编辑操作的过程进行介绍。

一种可选的情况下,该编辑操作过程可以包括:

S1、根据所述转写文本的语义信息及停顿信息,确定所述转写文本的断句点及需添加的标点。

S2、在所述转写文本中确定的断句点处添加对应的标点,得到编辑后转写文本。

为了便于表述,本申请定义转写文本由编辑单元组成,编辑单元可以是字、或词或其他可编辑的单位。

具体地,根据转写文本的语义信息及停顿信息,可以预测转写文本中每个编辑单元后面是否为断句点,以及断句点处所需添加的标点。进而在转写文本中确定的断句点处添加对应的标点,得到编辑后转写文本。

可选的,本实施例中可以采用序列标注模型来实现上述S1和S2的编辑操作。定义该序列标注模型为第一文本编辑模型。第一文本编辑模型可以是,预先以文本训练数据包含编辑单元的向量表达及停顿标记特征为样本,以对文本训练数据中断句点处添加标点后的编辑后文本训练数据为样本标签进行训练得到。

示例如,文本训练数据为“我想去这个新开的图书馆我们一起去”,将其中每个字的字向量以及停顿标记特征作为样本。样本标签是“我想去这个新开的图书馆,我们一起去。”。

基于该第一文本编辑模型,上述S1和S2的编辑操作的过程,可以包括:

1)获取所述转写文本中每个编辑单元的向量表达及每个编辑单元的停顿标记特征。

其中,编辑单元的停顿标记特征表征编辑单元后是否有停顿。

2)将所述转写文本中每个编辑单元的向量表达及停顿标记特征输入预置的第一文本编辑模型,得到输出的编辑后转写文本。

可选的,本实施例中第一文本编辑模型可以是基于注意力机制的编解码类型。基于此,步骤2)的实现过程可以包括:

21)将所述转写文本中每个编辑单元的向量表达及停顿标记特征输入基于注意力机制的编解码类型的第一文本编辑模型。

22)通过第一文本编辑模型的编码层,对所述转写文本中每个编辑单元的向量表达及停顿标记特征进行编码,得到编码后隐层特征。

23)通过第一文本编辑模型的注意力层,对所述编码后隐层特征进行系数线性加权,得到当前时刻的加权后隐层特征。

24)通过第一文本编辑模型的解码层,将所述当前时刻的加权后隐层特征及上一时刻解码层的输出作为当前时刻解码层的输入,当前时刻解码层的输出作为编辑后转写文本。

参见图3,图3示例了一种基于注意力机制的编解码类型的模型结构。

其中,X1-XT为输入,表示转写文本中第1-T个字的字向量及停顿标记特征。模型的编码层可以采用长短时记忆循环神经网络,因为文本是否断句及添加的标点与文本上下文均有一定关系,因此可以采用双向网络结构。

每个输入通过编码层得到对应的编码后隐层特征h。并通过注意力层对编码后隐层特征进行系数a线性加权,得到当前时刻t的加权后隐层特征Ct。

解码层可以使用单向长短时记忆循环神经网络。通过解码层,将当前时刻t的加权后隐层特征Ct及上一时刻t-1解码层的输出st-1作为当前时刻t解码层的输入,得到当前时刻t解码层的输出st作为编辑后转写文本。

进一步可以将解码层每一时刻的输出s进行规整处理得到y,基于此可以将规整处理后的当前时刻t解码层的输出yt作为编辑后转写文本。

此外,本实施例中还可以采用序列标注模型来单独实现上述S1的步骤。也即,仅通过序列标注模型来确定转写文本的断句点及需添加的标点。定义本实施例中序列标注模型为标点预测模型。

标点预测模型可以是,预先以文本训练数据包含编辑单元的向量表达及停顿标记特征为样本,以所述文本训练数据的断句点及需添加的标点为样本标签进行训练得到。

由此可见,与第一文本编辑模型相比,标点预测模型训练时的样本相同,均是以文本训练数据包含的编辑单元的向量表达及停顿标记特征为样本。区别在于,标点预测模型训练时的样本标签是文本训练数据的断句点及需添加的标点,而非对文本训练数据添加标点后的编辑后文本训练数据。

示例如,文本训练数据为“我想去这个新开的图书馆我们一起去”,将其中每个字的字向量以及停顿标记特征作为样本。样本标签是[(location:馆;punctuation:,)(location:去;punctuation:。)]。其中,location表示断句点位置,如“location:馆”表示断句点位置为“馆”后。Punctuation表示断句点处应添加的标点,如“(location:馆;punctuation:,)”表示在“馆”后应添加的标点为“,”。

基于该标点预测模型,上述S1的编辑操作的过程,可以包括:

1)获取所述转写文本中每个编辑单元的向量表达及每个编辑单元的停顿标记特征。

其中,编辑单元的停顿标记特征表征编辑单元后是否有停顿。

2)将所述转写文本中每个编辑单元的向量表达及停顿标记特征输入预置的标点预测模型,得到输出的所述转写文本中的断句点及需添加的标点。

在本申请的另一个实施例中,介绍了上述步骤S120,根据所述转写文本的语义信息及停顿信息,对所述转写文本进行编辑操作的另一种实现方式。该实现过程可以包括:

S1、根据所述转写文本的语义信息及停顿信息,对所述转写文本进行文字顺滑处理。

需要说明的是,对于会议、法院庭审等场景,其说话风格为无组织的自由发音风格,经常会出现“语气词”、“重复”、“犹豫”等口语化现象,给断句及标点预测带来很大影响。为此,本实施例中可以先对转写文本进行文字顺滑处理,将语气词、重复词等口语化词语去除。

S2、根据转写文本的语义信息及停顿信息,确定转写文本的断句点及需添加的标点。

S3、在转写文本中确定的断句点处添加对应的标点,得到编辑后转写文本。

相比于前述实施例,本实施例中在对转写文本进行断句及标点预测、添加的基础上,进一步增加了对转写文本进行文字顺滑处理的过程,使得转写文本文字表达更顺畅,进而断句及标点预测更加准确。

需要说明的是,S1和S2之间并无必然的先后执行顺序。

一种可选的情况下,本实施例可以采用序列标注模型来实现S1文字顺滑处理的过程。定义该进行文字顺滑处理的序列标注模型为文字顺滑处理模型,即由文字顺滑处理模型来预测转写文本中每个字是否应被去除。进一步采用前述实施例介绍的方式,对顺滑处理后的转写文本进行断句、标点预测及添加操作。

需要说明的是,这种方式串行方式可能会带来错误传递,即当文字顺滑处理模型预测结果出现错误时,会直接影响后续转写文本断句及标点预测的过程。

基于此,本实施例中提供了另外一种解决方案,即采用一个序列标注模型来一并实现S1-S3的编辑操作。定义这里的序列标注模型为第二文本编辑模型。

第二文本编辑模型可以是,预先以文本训练数据包含编辑单元的向量表达及停顿标记特征为样本,以对文本训练数据进行文字顺滑及在断句点处添加标点后的编辑后文本训练数据为样本标签进行训练得到。

示例如,文本训练数据为“我想去这个这个新开的图书馆啊我们一起去”,将其中每个字的字向量以及停顿标记特征作为样本。样本标签是“我想去这个新开的图书馆,我们一起去。”。

基于该第二文本编辑模型,上述S1-S3的编辑操作的过程,可以包括:

1)获取所述转写文本中每个编辑单元的向量表达及每个编辑单元的停顿标记特征,编辑单元的停顿标记特征表征编辑单元后是否有停顿。

2)将所述转写文本中每个编辑单元的向量表达及停顿标记特征输入预置的第二文本编辑模型,得到输出的编辑后转写文本。

可选的,本实施例中第二文本编辑模型可以是基于注意力机制的编解码类型。基于此,步骤2)的实现过程可以包括:

21)将所述转写文本中每个编辑单元的向量表达及停顿标记特征输入基于注意力机制的编解码类型的第二文本编辑模型。

22)通过第二文本编辑模型的编码层,对所述转写文本中每个编辑单元的向量表达及停顿标记特征进行编码,得到编码后隐层特征。

23)通过第二文本编辑模型的注意力层,对所述编码后隐层特征进行系数线性加权,得到当前时刻的加权后隐层特征。

24)通过第二文本编辑模型的解码层,将所述当前时刻的加权后隐层特征及上一时刻解码层的输出作为当前时刻解码层的输入,当前时刻解码层的输出作为编辑后转写文本。

仍参见图3示例的基于注意力机制的编解码类型的模型结构:

其中,X1-XT为输入,表示转写文本中第1-T个字的字向量及停顿标记特征。模型的编码层可以采用长短时记忆循环神经网络,因为文本包含的字是否需要顺滑处理,以及是否断句及添加的标点与文本上下文均有一定关系,因此可以采用双向网络结构。

每个输入通过编码层得到对应的编码后隐层特征h。并通过注意力层对编码后隐层特征进行系数a线性加权,得到当前时刻t的加权后隐层特征Ct。

解码层可以使用单向长短时记忆循环神经网络。通过解码层,将当前时刻t的加权后隐层特征Ct及上一时刻t-1解码层的输出st-1作为当前时刻t解码层的输入,得到当前时刻t解码层的输出st作为编辑后转写文本。

进一步可以将解码层每一时刻的输出s进行规整处理得到y,基于此可以将规整处理后的当前时刻t解码层的输出yt作为编辑后转写文本。

可选的,为了更好的解决文本信息中的重复、冗余等不流畅现象,本申请实施例可以对基于注意力机制的编解码类型的第二文本编辑模型进行改进。利用改进后的第二文本编辑模型来确定编辑后转写文本的过程,可以在上述步骤24)之前进一步增加如下步骤:

25)通过第二文本编辑模型的注意力层,计算当前时刻的加权后隐层特征及当前时刻之前的若干时刻的加权后隐层特征的相关性残差,并将当前时刻的加权后隐层特征与所述相关性残差的差值,作为更新后的当前时刻的加权后隐层特征。

其中,相关性残差可以用f来表示。以当前时刻为t,当前时刻的加权后隐层特征为Ct,相关性残差仅计算为当前时刻及前一时刻的加权后隐层特征为例,则更新后的当前时刻的加权后隐层特征Ct′:

Ct'=Ct-f(Ct-1,Ct)

通过使用相关性残差对当前时刻的加权后隐层特征进行更新,使得在编码过程中能够更加有效的过滤掉重复、冗余等不流畅现象。

其中,相关性残差计算过程可以通过预先训练神经网络模型来实现。如预先训练相关性残差计算模型,进而将当前时刻的加权后隐层特征及当前时刻之前的若干时刻的加权后隐层特征作为相关性残差计算模型的输入,通过模型输出得到相关性残差。

参见图4,图4示例了一种改进后的基于注意力机制的编解码类型的模型结构。

相比于图3示例的改进前的模型结构,改进后的模型结构中,输入至解码层的加权后隐层特征由Ct更新为Ct′。

图4仅示例了相关性残差计算过程,仅计算两个时刻的加权后隐层特征,可以理解的是,还可以计算更多时刻的加权后隐层特征,如t时刻、t-1时刻、t-2时刻…的加权后隐层特征,具体计算个数可以由用户设定。

此外,本实施例中还可以采用序列标注模型来实现预测转写文本中需要顺滑处理的编辑单元,以及转写文本中的断句点及需添加的标点。后续可以根据序列标注模型的预测结果,对转写文本进行具体编辑操作,得到编辑后转写文本。定义本实施例中序列标注模型为文字顺滑及标点预测模型。

所述文字顺滑及标点预测模型可以是,预先以文本训练数据包含编辑单元的向量表达及停顿标记特征为样本,以所述文本训练数据中所需顺滑处理的编辑单元、包含的断句点及需添加的标点为样本标签进行训练得到。

示例如,文本训练数据为“我想去这个这个新开的图书馆啊我们一起去”,将其中每个字的字向量以及停顿标记特征作为样本。样本标签是[(delete:这个、啊)(;location:馆;punctuation:,)(location:去;punctuation:。)]。其中,(delete:这个、啊)表示需要去除的字包括:“这个”和“啊”。location表示断句点位置,如“location:馆”表示断句点位置为“馆”后。Punctuation表示断句点处应添加的标点,如“(location:馆;punctuation:,)”表示在“馆”后应添加的标点为“,”。

基于该文字顺滑及标点预测模型,上述S1-S3的编辑操作的过程,可以包括:

1)获取所述转写文本中每个编辑单元的向量表达及每个编辑单元的停顿标记特征,编辑单元的停顿标记特征表征编辑单元后是否有停顿。

2)将所述转写文本中每个编辑单元的向量表达及停顿标记特征输入预置的文字顺滑及标点预测模型,得到输出的所述转写文本中需顺滑处理的编辑单元、包含的断句点及需添加的标点。

3)在转写文本中去除所述需顺滑处理的编辑单元,并在确定的断句点处添加对应的标点,得到编辑后转写文本。

在本申请的又一个实施例中,对前述步骤S230,根据所述编辑后转写文本包含的标点,从所述编辑后转写文本中确定输出内容的过程进行介绍。

其中,从编辑后转写文本中确定输出内容的流程可以参照图5所示:

步骤S300、检测所述编辑后转写文本是否包含第一类型标点,若是,执行步骤S310,否则,执行步骤S320。

其中,所述第一类型标点为表征文本语义完整的标点。如果编辑后转写文本包含第一类型标点,如包含句号、问号或感叹号,则代表编辑后转写文本已经包含了完整的语义,此时将第一类型标点及其之前内容抛出对转写正确率影响较小,因此,可以执行下述步骤S310。

步骤S310、将所述编辑后转写文本中所述第一类型标点及其之前的内容确定为输出内容。

步骤S320、检测所述编辑后转写文本包含编辑单元个数是否超过个数阈值,若是,执行步骤S330,否则,返回执行步骤S300。

具体地,如果上述步骤S300判断结果表明不包含第一类型标点,则继续判断编辑后转写文本包含编辑单元个数是否超过个数阈值。如果是,则说明编辑后转写文本已经包含足够多的文字,可以将其抛出,否则会导致积累的编辑后转写文本内容过多。

这里,编辑单元可以是字,对应的个数阈值可以是字数阈值。个数阈值可以是预先统计并设置的一个固定值,也可以是采用基于说话人语速的自适应方案,即对语速较快的说话人采用较大的个数阈值,对语速较慢的说话人采用较小的个数阈值,从而保证抛出的文本超过一定时长且语义完整。本实施例可以根据一定时间内转写文本总编辑单元个数除以语音数据中的有效语音时长来计算说话人的语速。

步骤S330、将所述编辑后转写文本中最后一个标点及其之前的内容确定为输出内容。

具体地,在上一步骤判定编辑后转写文本包含的编辑单元个数超过个数阈值时,可以考虑抛出部分内容。而考虑到抛出的内容的语义尽量完整,本步骤中可以将编辑后转写文本中最后一个标点及其之前的内容确定为输出内容,进行抛出。

接下来通过具体实例来介绍上述确定输出内容的过程。

假设编辑后转写文本为:“故事的开头总是这样,适逢其会,猝不及防。故事的结局总是这样,”。

通过检测发现,编辑后转写文本包含“。”,因此,将“。”及其之前内容确定为输出内容,即输出内容为:“故事的开头总是这样,适逢其会,猝不及防。”

再比如,编辑后转写文本为:“人生的路是追求幸福的路,孩子们的幸福就是每天随心所欲做自己喜欢的事,父母们的幸福就是盼望着孩子们快快乐乐长大,长大了又盼望着孩子们能幸福,老人们的”。编辑单元为字,预设的字数阈值为50。

通过检测发现,编辑后转写文本不包含第一类型标点,进一步判断编辑后转写文本包含的字数为73,超过字数阈值50,因此将最后一个标点及其之前内容确定为输出内容,即输出内容为:“人生的路是追求幸福的路,孩子们的幸福就是每天随心所欲做自己喜欢的事,父母们的幸福就是盼望着孩子们快快乐乐长大,长大了又盼望着孩子们能幸福,”。

下面对本申请实施例提供的语音转写装置进行描述,下文描述的语音转写装置与上文描述的语音转写方法可相互对应参照。

参见图6,图6为本申请实施例公开的一种语音转写装置结构示意图。如图6所示,该语音转写装置包括:

语音获取单元11,用于获取语音数据;

语音转写单元12,用于对实时获取的语音数据进行转写,得到转写文本;

文本编辑单元13,用于根据所述转写文本的语义信息及停顿信息,对所述转写文本进行编辑操作,得到编辑后转写文本,编辑后转写文本包含标点。

进一步可选的,本申请的语音转写装置还可以包括:

输出内容确定单元,用于根据所述编辑后转写文本包含的标点,从所述编辑后转写文本中确定输出内容。

可选的,所述文本编辑单元可以包括:

断句及标点确定单元,用于根据所述转写文本的语义信息及停顿信息,确定所述转写文本的断句点及需添加的标点;

标点添加单元,用于在所述转写文本中确定的断句点处添加对应的标点,得到编辑后转写文本。

可选的,所述文本编辑单元根据所述转写文本的语义信息及停顿信息,确定所述转写文本的断句点及需添加的标点,以及在所述转写文本中确定的断句点处添加对应的标点,得到编辑后转写文本的过程,具体可以包括:

获取所述转写文本中每个编辑单元的向量表达及每个编辑单元的停顿标记特征,编辑单元的停顿标记特征表征编辑单元后是否有停顿;

将所述转写文本中每个编辑单元的向量表达及停顿标记特征输入预置的第一文本编辑模型,得到输出的编辑后转写文本;

所述第一文本编辑模型为,预先以文本训练数据包含编辑单元的向量表达及停顿标记特征为样本,以对所述文本训练数据添加标点后的编辑后文本训练数据为样本标签进行训练得到。

可选的,所述文本编辑单元还可以包括:

文字顺滑处理单元,用于根据所述转写文本的语义信息及停顿信息,对所述转写文本进行文字顺滑处理。

可选的,所述文本编辑单元根据所述转写文本的语义信息及停顿信息,对所述转写文本进行文字顺滑处理、确定断句点及需添加的标点,以及在转写文本中确定的断句点处添加对应的标点,得到编辑后转写文本的过程,具体可以包括:

获取所述转写文本中每个编辑单元的向量表达及每个编辑单元的停顿标记特征,编辑单元的停顿标记特征表征编辑单元后是否有停顿;

将所述转写文本中每个编辑单元的向量表达及停顿标记特征输入预置的第二文本编辑模型,得到输出的编辑后转写文本;

所述第二文本编辑模型为,预先以文本训练数据包含编辑单元的向量表达及停顿标记特征为样本,以对所述文本训练数据进行文字顺滑及在断句点处添加标点后的编辑后文本训练数据为样本标签进行训练得到。

可选的,所述文本编辑单元将所述转写文本中每个编辑单元的向量表达及停顿标记特征输入预置的第一文本编辑模型,得到输出的编辑后转写文本的过程,具体可以包括:

将所述转写文本中每个编辑单元的向量表达及停顿标记特征输入基于注意力机制的编解码类型的第一文本编辑模型;

通过第一文本编辑模型的编码层,对所述转写文本中每个编辑单元的向量表达及停顿标记特征进行编码,得到编码后隐层特征;

通过第一文本编辑模型的注意力层,对所述编码后隐层特征进行系数线性加权,得到当前时刻的加权后隐层特征;

通过第一文本编辑模型的解码层,将所述当前时刻的加权后隐层特征及上一时刻解码层的输出作为当前时刻解码层的输入,当前时刻解码层的输出作为编辑后转写文本。

可选的,所述文本编辑单元将所述转写文本中每个编辑单元的向量表达及停顿标记特征输入预置的第二文本编辑模型,得到输出的编辑后转写文本的过程,具体包括:

将所述转写文本中每个编辑单元的向量表达及停顿标记特征输入基于注意力机制的编解码类型的第二文本编辑模型;

通过第二文本编辑模型的编码层,对所述转写文本中每个编辑单元的向量表达及停顿标记特征进行编码,得到编码后隐层特征;

通过第二文本编辑模型的注意力层,对所述编码后隐层特征进行系数线性加权,得到当前时刻的加权后隐层特征;

通过第二文本编辑模型的解码层,将所述当前时刻的加权后隐层特征及上一时刻解码层的输出作为当前时刻解码层的输入,当前时刻解码层的输出作为编辑后转写文本。

可选的,所述文本编辑单元将所述转写文本中每个编辑单元的向量表达及停顿标记特征输入预置的第二文本编辑模型,得到输出的编辑后转写文本的过程,还可以包括:

通过第二文本编辑模型的注意力层,计算当前时刻的加权后隐层特征及当前时刻之前的若干时刻的加权后隐层特征的相关性残差,并将当前时刻的加权后隐层特征与所述相关性残差的差值,作为更新后的当前时刻的加权后隐层特征。

可选的,所述输出内容确定单元可以包括:

标点检测单元,用于检测所述编辑后转写文本是否包含第一类型标点,所述第一类型标点为表征文本语义完整的标点;

第一输出内容确定子单元,用于若确定包含第一类型标点,则将所述编辑后转写文本中所述第一类型标点及其之前的内容确定为输出内容。

可选的,所述输出内容确定单元还可以包括:

字数阈值判断单元,用于若确定不包含第一类型标点,则进一步检测所述编辑后转写文本包含总编辑单元个数是否超过个数阈值;

第二输出内容确定子单元,用于若确定超过个数阈值,则将所述编辑后转写文本中最后一个标点及其之前的内容确定为输出内容。

本申请实施例提供的语音转写装置可应用于语音转写设备,如PC终端、云平台、服务器及服务器集群等。可选的,图7示出了语音转写设备的硬件结构框图,参照图7,语音转写设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;

在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;

处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;

存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;

其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:

获取语音数据;

对获取的语音数据进行转写,得到转写文本;

根据所述转写文本的语义信息及停顿信息,对所述转写文本进行编辑操作,得到编辑后转写文本,编辑后转写文本包含标点。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:

获取语音数据;

对获取的语音数据进行转写,得到转写文本;

根据所述转写文本的语义信息及停顿信息,对所述转写文本进行编辑操作,得到编辑后转写文本,编辑后转写文本包含标点。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1