一种语音信息转换、信息生成方法及装置与流程

文档序号:18263087发布日期:2019-07-27 08:49阅读:115来源:国知局
一种语音信息转换、信息生成方法及装置与流程

本申请涉及计算机技术领域,特别涉及一种语音信息转换、信息生成方法及装置。



背景技术:

随着计算机技术的快速发展,应用于用户终端的各种通信类客户端应运而生。用户可以借助这些通信类客户端与好友进行通信。

用户借助上述通信类客户端与好友进行通信时,可以通过文字信息进行通信,还可以通过语音信息进行通信,这样极大方便了用户,然而,有些情况下,例如,正在参加某个会议,或者周围环境嘈杂,或者用户不希望其他人听到的情况下,用户不方便收听接收到的语音信息,可以考虑对接收到的语音信息进行转换,转换成文字向用户展示。

鉴于上述情况,需提供一种语音信息转换方法,以将语音信息转换成文字信息。



技术实现要素:

本申请实施例公开了一种语音信息转换、信息生成方法及装置,以将语音信息转换成文字信息。

为达到上述目的,本申请实施例公开了一种语音信息转换方法,应用于电子设备,所述方法包括:

接收目标语音信息;

在满足信息转换条件的情况下,对所述目标语音信息进行语音识别获得文字转换信息,以使得客户端基于所述目标语音信息的展示位置展示所述文字转换信息。

为达到上述目的,本申请实施例公开了一种信息生成方法,所述方法包括:

接收源客户端发送的目标语音信息;

根据所述目标语音信息对应的第一用户的第一用户语音库,对所述目标语音信息进行语音识别;

将识别结果发送至所述源客户端;

接收所述源客户端发送的针对所述识别结果的修正信息;

根据所述修正信息更新所述第一用户语音库。

为达到上述目的,本申请实施例公开了一种语音信息转换装置,应用于电子设备,所述装置包括:

信息接收模块,用于接收目标语音信息;

语音识别模块,用于在满足信息转换条件的情况下,对所述目标语音信息进行语音识别获得文字转换信息,以使得客户端基于所述目标语音信息的展示位置展示所述文字转换信息。

为达到上述目的,本申请实施例公开了一种信息生成装置,所述装置包括:

信息接收模块,用于接收源客户端发送的目标语音信息;

语音识别模块,用于根据所述目标语音信息对应的第一用户的第一用户语音库,对所述目标语音信息进行语音识别;

结果发送模块,用于将识别结果发送至所述源客户端;

修正信息接收模块,用于接收所述源客户端发送的针对所述识别结果的修正信息;

语音库更新模块,用于根据所述修正信息更新所述第一用户语音库。

由以上可见,本申请实施例提供的方案中,接收到目标语音信息后,在满足信息转换条件的情况,对目标语音信息进行语音识别获得文字转换信息,这样客户端可以基于目标语音信息的展示位置展示上述文字转换信息。可见,应用本申请实施例提供的方案,能够将语音信息转换成文字信息。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的第一种语音信息转换方法的流程示意图;

图2为本申请实施例提供的第二种语音信息转换方法的流程示意图;

图3为本申请实施例提供的第三种语音信息转换方法的流程示意图;

图4为本申请实施例提供的第四种语音信息转换方法的流程示意图;

图5为本申请实施例提供的第五种语音信息转换方法的流程示意图;

图6为本申请实施例提供的第六种语音信息转换方法的流程示意图;

图7为本申请实施例提供的一种信息生成方法的流程示意图;

图8为本申请实施例提供的一种语音信息转换装置的结构示意图;

图9为本申请实施例提供的一种信息生成装置的结构示意图;

图10a为本申请实施例提供的第一种语音信息转换效果示意图;

图10b为本申请实施例提供的第二种语音信息转换效果示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

下面先对本申请实施例中涉及的概念进行介绍。

1、语音库

用于存储语音信息与文字信息之间的对应关系,语音库中包括至少一对上述对应关系。其中,语音信息对应的文字信息可以是单语的,也可以是双语的,本申请并不对此进行限定。

另外,语音库可以是系统自带的语音库,也可以是在使用过程中训练得到的语音库。

例如,发音“孩子”的语音信息对应“孩子”二字;或者对应“child”;发音“孩子”的语音信息,对应四川话的“鞋子”等等。

2、语音库集合

语音库集合中包含至少一个语音库,这些语音库可以分为:标准语音库、常用语音库、分类语音库等等。

其中,标准语音库可以理解为是针对标准语音的语音库,例如,针对汉语中普通话的语音库、针对英式英语的语音库、针对美式英语的语音库等等,常用语音库;

常用语音库,可以是根据自身情况选择的语音库,可以是客户端根据当前设备所处的地理位置选择语音库,还可以是客户端根据当前的语言模式选择的语音库。

分类语音库可以是基于不同的分类依据得到的语音库。

例如,依据语言的不同类型可以分为:汉语普通话语音库、汉语四川话语音库、汉语广东话语音库、汉语粤语语音库、英语语音库、德语语音库、法语语音库、俄语语音库等等;

依据不同的专业分类可以分为:法律类语音库、计算机类语音库、经济类语音库等等。

另外,现有技术存在的语音转换为文字的方法,往往只支持普通话的语音识别。但我们都知道每个人都是有方言的,对一些词汇有自己独特的发音,或者将某些词汇读错的可能性也比较多,而且不同国家用户之间用不同语言进行交流也变得更加频繁,而且这种交流往往都是通过无线通信方式,带宽和网络环境都较复杂,导致现有的语音转换为文字的方法不能有效的识别出所有的语音,并顺利转换为文字,不能满足大多数用户的需要。

从上述声音具有个性化特点,即每个用户的口音、发音、清晰度、语速、声调均不相同的角度出发,可以为每个用户建立语音库,可以称之为用户语音库,上述语音库集合中可以包含每个用户的用户语音库。

具体的,为每个用户建立语音库的时候可以先设置一个初始库,然后在使用过程中,根据用户的语音信息、识别结果以及修正信息不断对该初始库进行修正得到针对该用户的用户语音库,实现每个用户独特的声音可以对应到正确的中文文字或者英文文字。

其中,上述初始库可以是人为选定的,例如,用户常说的话是普通话,则该初始库可以选定为汉语普通话语音库,用户常说的话是四川话,则该初始库可以选定为汉语四川话语音库。另外,上述初始库还可以是默认语音库,本申请并不对此进行限定。

图1为本申请实施例提供的第一种语音信息转换方法的流程示意图,该方法应用于电子设备。

具体的,作为本申请实施例的执行主体,上述电子设备可以是服务器,也可以是用户终端,进一步的,在上述电子设备为用户终端的情况下,用户终端中往往安装有各种客户端,因此,这种情况下,本申请实施例所提供方案的执行主体也可以理解为客户端。

具体的,上述方法包括:

s101:接收目标语音信息。

s102:在满足信息转换条件的情况下,对目标语音信息进行语音识别获得文字转换信息,以使得客户端基于目标语音信息的展示位置展示文字转换信息。

上述目标文字转换信息包括至少一种形式的文字转换信息,例如,可以仅仅包含中文,还可以是中文、英文,还可以是中文、英文、法文、德文等等包含多种形式的文字转换信息。

具体的,在满足信息转换条件的情况下,对目标语音信息进行语音识别获得文字转换信息时,可以是接收到目标语音信息后,直接对目标语音信息进行语音识别获得文字转换信息,也可以是监测接收到针对目标语音信息的信息转换指令后,再对目标语音进行语音识别获得文字转换信息。

也就是,接收到目标语音信息即可以认为是满足了信息转换条件,或者只有在接收到信息转换指令之后才认为是满足了信息转换条件。

另外,对目标语音信息进行语音识别所获得的文字信息中可能有连续重复的词语,或者明显不符合语言习惯的词语,所以在获得上述文字信息后,可以按照预设的修正规则先对上述文字信息进行修正处理,然后再根据修正后的文字信息获得目标语音信息的文字转换信息。当然,也可以直接将上述文字信息确定为目标语音信息的文字转换信息,本申请只是以上述为例进行说明,并不对此进行限定。

具体的,上述预设的修正规则可以是,过滤掉重复的字、过滤掉重复的词语,将不符合语言习惯的词语修正为符合语言习惯的词语等等,本申请并不对上述预设的修正规则的具体内容进行限定。

例如,我的的的兴趣爱好,修正后为:我的兴趣爱好;

你的孩纸很可爱,修正后为:你的孩子很可爱。

下面以执行主体为服务器、客户端为例,分不同情况进行说明:

假设,第一客户端与第二客户端之间进行通信。

情况一、执行主体为服务器

第一客户端将上述目标语音信息发送至服务器,服务器接收到上述目标语音信息后,将上述目标语音信息发送至第二客户端,第二客户端接收到上述目标语音信息后在其展示界面上展示目标语音信息。

一种情况下,服务器在接收到上述目标语音信息后,便开始对目标语音信息进行语音识别获得文字转换信息,当服务器接收到第二客户端发送的信息转换指令时,将上述文字转换信息发送至第二客户端,由第二客户端基于目标语音信息的展示位置展示该文字转换信息。由于服务器在接收到目标语音信息后便开始进行语音识别,这样在接收到第二客户端发送的信息转换指令后,能够快速响应第二客户端,向第二客户端发送文字转换信息的延时小,用户体验较佳。

另一种情况下,服务器在接收到上述目标语音信息后,还可以不马上开始对目标语音信息进行语音识别,而是在接收到第二客户端发送的信息转换指令后,才进行语音识别获得文字转换信息,这样服务器只有在客户端有语音转换需求的情况下才进行语音识别,能够有效节省服务器资源。

情况二、执行主体为服务器

第一客户端将上述目标语音信息发送至第二客户端,同时第一客户端或者第二客户端还向服务器发送该目标语音信息,第二客户端接收到上述目标语音信息后,在其展示界面上展示目标语音信息。

一种情况下,服务器在接收到上述目标语音信息后,便开始对目标语音信息进行语音识别获得文字转换信息,当服务器接收到第二客户端发送的信息转换指令时,将上述文字转换信息发送至第二客户端,由第二客户端基于目标语音信息的展示位置展示该文字转换信息。由于服务器在接收到目标语音信息后便开始进行语音识别,这样在接收到第二客户端发送的信息转换指令后,能够快速响应第二客户端,向第二客户端发送文字转换信息的延时小,用户体验较佳。

另一种情况下,服务器在接收到上述目标语音信息后,还可以不马上开始对目标语音信息进行语音识别,而是在接收到第二客户端发送的信息转换指令后,才进行语音识别获得文字转换信息,这样服务器只有在客户端有语音转换需求的情况下才进行语音识别,能够有效节省服务器资源。

情况三、执行主体为服务器

第一客户端将上述目标语音信息发送至第二客户端,第二客户端接收到上述目标语音信息后,在其展示界面上展示目标语音信息。

在第二客户端有语音信息转换需求时,第二客户端向服务器发送信息转换指令,该信息转换指令中携带目标语音信息,服务器接收到上述信息转换指令后,从信息转换指令中解析出目标语音信息,然后进行语音识别获得文字转换信息,并将所获得的文字转换信息发送至第二客户端,由第二客户端进行展示。

情况四、执行主体为客户端

第一客户端将上述目标语音信息发送至第二客户端,第二客户端接收到目标语音信息后在其展示界面上展示目标语音信息,这种情况下进行语音通信时,第一客户端直接将目标语音信息发送至第二客户端,而没有借助于服务器,这样其他设备也就无法获得该目标语音信息,一定程度上来讲能够提高语音通信的安全性。

一种情况下,第二客户端接收到上述目标语音信息后,便开始对目标语音信息进行语音识别获得文字转换信息,当第二客户端接收到信息转换指令后,直接依据目标语音信息的展示位置,展示上述文字转换信息。

另一种情况下,第二客户端在接收到目标语音信息后还可以仅仅在其展示界面上展示目标语音信息,而不开始对目标语音信息进行语音识别,只有在接收到信息转换指令后,才开始进行语音识别获得文字转换信息,进而获得目标语音信息的文字转换信息,然后才依据目标语音信息的展示位置,展示上述文字转换信息。

上述情况一、情况二和情况三中提到的第二客户端向服务器发送信息转换指令,可以是在第二客户端接收到用户长按目标语音信息的指令后发送的,当然也可以是在第二客户端接收到用户针对语音转换的选择操作后发送的,本申请并不对触发第二客户端向服务器发送信息转换指令的条件进行限定。

上述情况四中,第二客户端接收到用户长按目标语音信息的指令可以认为是第二客户端接收到了信息转换指令,第二客户端接收到用户针对语音转换的选择操作也可以认为是第二客户端接收到了信息转换指令。

另外,客户端基于目标语音信息的展示位置展示文字转换信息时,可以在目标语音信息的展示页面中、目标语音信息的展示位置的预设方向,展示文字转换信息,例如,可以是在目标语音信息的展示位置的下方、上方等位置展示文字转换信息,文字转换信息与目标语音信息之间的距离可以根据实际情况设定,本申请并不限定上述文字转换信息的展示,具体位置可以根据实际情况确定。例如,参见图10a、图10b分别为在目标语音信息的展示页面中、目标语音信息的展示位置的上方和下方展示文字转换信息的示意图。

由以上可见,本实施例提供的方案中,接收到目标语音信息后,在满足信息转换条件的情况,对目标语音信息进行语音识别获得文字转换信息,这样客户端可以基于目标语音信息的展示位置展示上述文字转换信息。可见,应用本申请实施例提供的方案,能够将语音信息转换成文字信息。

在本申请的一种具体实现方式中,参见图2,提供了第二种语音信息转换方法的流程示意图,与前述实施例相比,本实施例中,在满足信息转换条件的情况下,对目标语音信息进行语音识别获得文字转换信息,以使得客户端基于目标语音信息的展示位置展示文字转换信息(s102),包括:

s102a:在满足信息转换条件的情况下,对目标语音信息进行语音分词处理,获得目标语音信息包含的语音分词。

具体的,对目标语音信息进行语音分词处理时,可以结合语音信息中声音的幅度信息,例如,表示停顿的声音的幅度信息等进行语音分词处理,还可以按照固定的数据长度进行语音分词处理,本申请并不对语音分词处理的具体方式进行限定。

从上述描述可以总结得知,对语音信息进行语音分词处理可以简单的理解为:对语音信息进行分段处理,经过分段处理后每一分段对应一个数据长度小的语音信息。也就是上述语音分词可以理解为:数据长度比目标语音信息的数据长度小的语音信息。

s102b:针对所获得的每一语音分词,按照预设的语音库选择规则,从语音库集合中选择语音库,并通过所选择的语音库对该语音分词进行语音识别获得文字转换信息,以使得客户端基于目标语音信息的展示位置展示文字转换信息。

上述预设的语音库选择规则可以为针对语音库选择顺序的规则,进行语音识别时,按照语音库选择规则中规定的语音库选择顺序,先选择一个语音库,用该语音库对语音分词进行语音识别,如果识别结果显示识别率低,则按照上述语音库选择顺序选择下一个语音库,再次对语音分词进行语音识别,直至识别结果显示识别率满足预设的要求。

例如,假设预设的语音库选择规则为:先选择用户语音库,在用户语音库的识别结果不满足预设的要求的情况下,选择标准语音库,则对一个语音分词进行语音识别时,先采用当前用户对应的用户语音库进行语音识别,若识别结果显示识别率高于预设的阈值,则将当前用户语音库对应的识别结果作为该语音分词的语音识别结果;若识别结果显示识别率不高于预设的阈值,则采用标准语音库对上述语音分词进行语音识别,并将识别结果作为该语音分词的语音识别结果。

当然上述预设的语音库选择规则也可以是:先选择标准语音库,在针对标准语音库的识别结果不满足预设的要求的情况下,选择用户语音库。

具体的,上述预设的语音库选择规则还可以为根据以下信息中的至少一种确定的规则:

发送目标语音信息的第一用户所属目标群组的类别,例如:第一用户所属目标群组的类别是法律类,则该群组内用户讨论的话题与法律相关的概率较高,优先选择法律类语音库,第一用户所属目标群组的类别是it类,则该群组内用户讨论的话题与it相关的概率较高,优先选择it类语音库等等;

上述目标群组名称的语言类型,例如,目标群组名称为中文,则优先选择汉语普通话语音库,目标群组名称为英文,则优先选择英语语音库等等;

上述第一用户的用户属性信息,上述用户属性信息可以包含性别、年龄等等,例如,第一用户的用户属性信息为:性别:女、年龄:5岁,则优先选择女性语音库以及小孩语音库;

发送目标语音信息的源客户端所处的地理位置,源客户端所处的地理位置一定程度上能够反映用户所使用的语言,例如,源客户端所处地理位置为:北京,则用户说普通话的概率较高,可以优先选择标准语音库,源客户端所处地理位置为:英国,则用户说英语的概率较高,可以优先选择英语语音库,另外,源客户端所处地理位置可以通过源客户端的ip地址、移动信号、gps信息等信息获得;

接收目标语音信息之前,已存储的第一用户的文字信息和/或语音信息对应语音分词中,出现次数排序靠前的第一预设数量个语音分词所属的语音库;

接收目标语音信息之前,已存储的目标群组的文字信息和/或语音信息对应语音分词中,出现次数排序靠前的第二预设数量个语音分词所属的语音库;

用户设置的语音库选择顺序。

需要说明的是,本申请只是以上述为例进行说明,实际应用中预设的语音库选择规则的具体内容并不仅限于此。

在本申请的一种实现方式中,依据上述方式确定的预设的语音库选择规则还可以与用户语音库相结合进行语音识别,具体的,对于群组而言,其中一般包含多个用户,语音库集合中可以包含每一用户的用户语音库,在进行语音识别时,还可以先采用发送语音信息的用户的用户语音库进行语音识别,在识别结果不能满足要求的情况下,再选择根据该群组的信息确定的语音库进行识别,若识别结果依然不能满足要求的话,可以继续选择常用语音库、标准语音库等等进行语音识别。例如,对法律类群组中的用户a发送的语音信息进行语音识别时,可以先采用用户a的用户语音库进行语音识别,在识别结果不能满足要求的情况下,选择法律类语音库进行语音识别。

另外,本步骤中,从语音库集合中选择语音库,并通过所选择的语音库对语音分词进行语音识别,是针对单个语音分词而言的,对于所获得的每一语音分词,均需要重复上述过程。

由以上可见,本实施例提供的方案中,先对目标语音信息进行语音分词处理,然后针对每个语音分词选择语音库进行语音识别,可以提高语音识别的准确率,尤其是对于目标语音信息中包含不同语言的语音信息、不同用户的语音信息的情况,能够更进一步提高语音识别的准确率。

可以理解的,即使对于同一用户而言,其口音也是有可能发生变化的,例如,有时使用普通话进行通信,有时使用方言进行通信,鉴于此,在本申请的一种具体实现方式中,参见图3,提供了第三种语音信息转换方法的流程示意图,与前述实施例相比,本实施例中,在满足信息转换条件的情况下,对目标语音信息进行语音识别获得文字转换信息,以使得客户端基于目标语音信息的展示位置展示文字转换信息(s102),包括:

s102c:在满足信息转换条件的情况下,按照预设的语音段确定规则,获得目标语音信息的第一个目标语音段。

具体的,上述预设的语音段确定规则可以是:检测目标语音信息中的第一个停顿,然后将目标语音信息起始位置开始至上述检测到的位置之间的语音信息确定为目标语音信息的第一个目标语音段。

其中,检测目标语音信息中的停顿时,可以参考声音的幅度信息,当然也可以参考其他信息,检测语音信息中的停顿的方法属于现有技术,这里不再详述。

另外,上述预设的语音段确定规则还可以是:从目标语音信息的起始位置开始,选择预设长度的语音信息作为目标语音信息的第一个目标语音段。

上述预设长度的取值可以是预先设定的固定值,还可以是根据目标语音信息的长度确定的数值。

s102d:分别采用语音库集合中的每一语音库,对目标语音段进行语音识别。

s102e:将识别率最高的语音库确定为目标语音库。

s102f:采用目标语音库对目标语音信息中除目标语音段以外部分进行语音识别,得到第一识别结果。

s102g:根据第一识别结果和第二识别结果,获得目标语音信息的文字转换信息,以使得客户端基于目标语音信息的展示位置展示文字转换信息。

其中,上述第二识别结果为:采用目标语音库对目标语音段进行语音识别的结果。

本领域内的技术人员可以理解的是,确定目标语音段可能会存在误差、采用语音库集合中的每一语音库对目标语音段进行语音识别时也可能存在误差,因此,最终所选择出的目标语音库可能并不是最佳的语音库。鉴于此,在本申请的一种可选实现方式中,根据第一识别结果和第二识别结果,获得目标语音信息的文字转换信息时,可以根据第一识别结果和第二识别结果,获得针对目标语音库的第一识别率,然后判断第一识别率是否小于预设的识别率阈值,若为是,采用预设默认语音库对目标语音信息进行语音识别,并根据针对预设默认语音库的识别结果,获得目标语音信息的文字转换信息。

具体的,上述预设默认语音库中可以包含一个语音库也可以包含多个语音库,例如,上述预设默认语音库中可以包含标准语音库、英语语音库、用户语音库等等,另外,还可以规定上述预设默认语音库中所包含语音库的使用优先级信息,例如,可以规定用户语音库的优先级高于标准语音库、标准语音库的优先级高于英语语音库的优先级,也就是优先选择用户语音库,在识别结果不理想的情况下,选择标准语音库进行语音识别,在识别结果不理想的情况下,再选择英语语音库进行语音识别,如果此次识别结果达到要求,则将此次识别结果作为最终识别结果,若此次识别结果也不理想,则可以将目标语音库、标准语音库、英语语音库对应的识别结果中最好的识别结果作为最终的识别结果。本申请只是以上述为例进行说明,实际应用中用户可以根据自己的需求设定预设默认语音库中各个语音库的优先级,并不对此进行限定,这样每个用户都可以拥有个性化的语音库识别顺序。

由以上可见,本实施例提供的方案中,根据目标语音信息中的第一个目标语音段确定用于进行语音识别的语音库,而非采用固定的语音库进行语音识别,有助于提高语音识别的准确度。

下面通过具体实例对上述语音信息转换方法进行更进一步的详细介绍。

假设,一个中国的四川用户与一个日本用户在进行语音交流,中国的四川用户发送的语音信息为:“孩子穿起来很不错,符合物理工学,verygood”的四川语调语音信息,日本用户接收到该语音信息后,选择进行语音转换,日本用户所使用终端选择的默认语言为:日语,

对“孩子穿起来很不错,符合物理工学”进行识别时,发现用用户语音库(四川语调)进行识别时,识别率较高,所以认为该段语音对应中文,得到的中文识别结果为“鞋子穿起来很不错,符合物理工学”,考虑到日本用户可能看不懂,可以为其提供英文和日文识别结果,具体的,可以先将上述中文识别结果转换为英文识别结果,然后再将英文识别结果转换为日文识别结果,当然也可以直接由中文识别结果得到英文识别结果和日文识别结果;

对“verygood”进行识别时,发现用英语语音库进行识别时,识别率较高,所以认为该段语音对应英文,可以直接得到英文识别结果为“verygood”,然后根据英文识别结果得到中文识别结果“很好”,根据英文识别结果得到日文识别结果;

最后将日文识别结果、英文识别结果和中文识别结果一起提供给日本用户。

另外,当语音信息中包含日语语音时,可以用日语语音库进行识别时,识别率较高,可以确定该段语音对应日语,直接得到日语识别结果并提供给日本用户,而不进行与其他语种之间的转换。

在本申请的一种具体实现方式中,参见图4,提供了第四种语音信息转换方法的流程示意图,与前述实施例相比,本实施例中,上述语音信息转换方法还包括:

s103:将文字转换信息发送至第一客户端。

其中,第一客户端为发送目标语音信息的客户端。

s104:接收第一客户端发送的针对文字转换信息的修正信息,并根据修正信息更新上述文字转换信息。

由前面的描述得知本实施例的执行主体可以是服务器,也可以是客户端。

对于服务器而言,根据第一客户端发送的修正信息对上述文字转换信息进行更新,有助于其他请求进行信息转换的客户端获得正确的转换结果,另外,在服务器的语音库集合中存在用户语音库的情况下,服务器还可以根据上述修正信息更新用户语音库,这样有助于提高后续进行语音识别的准确率。

值得一提的是,为提高用户通信信息的安全性,上述服务器可以仅仅在一段时间内存储第一客户端与第二客户端之间的语音信息、文字信息等,达到设定的时间后,删除上述两客户端之间的语音信息、文字信息。而对于用户语音库,其中仅仅存储根据用户的语音信息确定的分词信息,而不存储用户的完整的语音信息,所以可以很好的保证用户通信信息的安全性。

对于客户端而言,从第一客户端获得修正信息,可以对客户端的识别结果进行校正,使得用户看到准确的识别结果,有助于提高用户体验,另外,在客户端的语音库集合中也存在用户语音库的情况下,客户端也可以根据上述修正信息更新用户语音库,这样有助于提高后续进行语音识别的准确率。

本申请的一种具体实现方式中,在上述电子设备为服务器的情况下,上述语音信息转换方法还可以包括:

判断更新前的文字转换信息是否已发送至其他客户端,若为是,向已接收上述文字转换信息的第二客户端发送修正提示信息,并根据第二客户端针对上述修正提示信息的反馈结果,确定是否向第二客户端发送更新后的文字转换信息。

具体的,若第二客户端反馈不需要根据修正信息进行更新,则服务器无需向第二客户端发送更新后的文字转换信息;若第二客户端需要根据修正信息进行更新,则服务器可以直接将更新后的文字转换信息发送至第二客户端,第二客户端将更新后的文字转换信息展示给用户即可。

从前面的描述得知,可以采用用户语音库进行语音识别,所以,直接对目标语音信息进行语音识别时,可以采用第一用户对应的第一用户语音库,直接对目标语音信息进行语音识别,其中,第一用户为:发送目标语音信息的用户;

对目标语音信息进行语音识别时,采用第一用户语音库,对目标语音信息进行语音识别。

由于进行语音识别的时候所采用的是第一用户对应的用户语音库,而用户语音库可能存在误差,为保证后续再次使用该用户语音库进行语音识别时具有较高的准确率,接收到上述修正信息之后,还可以进一步根据上述修正信息,更新第一用户语音库。

由以上可见,本实施例中提供的方案中,在获得文字转换信息后,将文字转换信息发送至发送目标语音信息的第一客户端,并接收第一客户端发送的修正信息,根据修正信息更新文字转换信息,这样能够使得目标语音信息的文字转换信息更加准确。

在本申请的一种具体实现方式中,参见图5,提供了第五种语音信息转换方法的流程示意图,与前述实施例相比,本实施例中,在满足信息转换条件的情况下,对目标语音信息进行语音识别获得文字转换信息,以使得客户端基于目标语音信息的展示位置展示文字转换信息,包括:

s102h:在满足信息转换条件的情况下,获得目标语音信息所包含音频帧的频率。

s102i:按照所获得的频率,将目标语音信息划分为至少一个音频段。

可以理解的,目标语音信息中可能包含多个用户的语音信息,而每个用户的声音频率一般不相同,在对目标语音信息进行语音识别时,可以先根据音频帧的频率将目标语音信息划分为多个音频段。具体的,可以将频率位于某一频率范围内的音频帧划分为一个音频段。一个频率范围可以理解为一个用户,不同的频率范围对应不同的用户。

具体的,可以将频率位于某一频率范围内且相邻的音频帧划分为一个音频段,将频率位于另一频率范围且相邻的音频帧划分为另一个音频段。

s102j:基于划分得到的音频段的频率范围,从语音库集合中为每一频率范围选择对应的语音库,进而确定各个音频段对应的语音库。

假设,一个频率范围对应多个音频段,则可以仅仅先针对其中一个音频段,从语音库集合中选择语音库,然后将所选择的语音库作为该音频段对应语音库,进行语音识别。

s102k:采用各个音频段对应的语音库,对各个音频段分别进行语音识别。

具体的,对于每个音频段而言,若采用其对应的语音库进行语音识别时,识别结果不能满足要求,则可以进一步选择其他语音库进行识别,例如,根据群组信息确定的语音库、常用语音库、标准语音库等等,本申请并不对此进行限定。

s102l:根据各个音频段的识别结果,获得目标语音信息的文字转换信息。

由以上可见,本实施例提供的方案中,按照频率将目标语音信息划分为不同的音频段,然后针对不同的音频段分别选择语音库进行语音识别,这样可以根据不同音频段的不同特定,确定语音库,进而得到较佳的语音识别结果。

在本申请的一种具体实现方式中,参见图6,提供了第六种语音信息转换方法的流程示意图,与前述实施例相比,本实施例中,上述语音信息转换方法还包括:

s105:接收会议纪要生成指令。

s106:获得用于生成会议纪要的文字信息以及语音信息对应的文字转换信息。

需要说明的是,在获得上述语音信息对应的文字转换信息之前,可能已经完成了针对语音信息的语音识别,则可以直接获得语音识别后得到的文字转换信息,若还未完成针对语音信息的语音识别,则可以先进行语音识别,然后再根据识别结果得到文字转换信息。

s107:根据所获得的文字信息以及所获得的文字转换信息,按照预设的会议纪要格式,生成会议纪要。

上述预设的会议纪要格式可以包括:会议时间、会议时长、参加会议人员、发言人、会议记录、会议关键词等等信息。

具体的,上述会议时间、会议时长可以是根据用于生成会议纪要的文字信息、语音信息的最早发送时间和最晚发送时间确定的。

参见会议人员可以是根据群组中所包含的用户等信息确定的。

会议关键字可以是对所获得的文字信息以及所获得的文字转换信息进行关键字提取确定的,提取得到的关键字可能会比较多,可以按照出现次数由少到多的顺序等规则,选择一定数量个关键字作为最终的会议关键字,还可以按照预设的过滤规则,对提取出的关键字进行过滤,例如,过滤掉“的”、“得”等字,将过滤后的关键字确定为最终的会议关键字。

具体的,根据所获得的文字信息以及所获得的文字转换信息,按照预设的会议纪要格式,生成会议纪要,包括:

确定发送所获得的文字信息以及所获得的文字转换信息的用户的用户名以及ip地址;

根据所确定的用户名、ip地址以及用于生成会议纪要的语音信息中各个音频帧的频率,确定发言人;

根据所获得的文字信息、所获得的文字转换信息以及发言人,按照预设的会议纪要格式,生成会议纪要。

上述会议纪要可以是纯文字形式的,还可以是多媒体形式的,即可以包含语音信息、图片、视频、文字等信息。

具体的,在本申请的一种实现方式中,除了生成会议纪要外,还可以结合会议纪要生成一份语音备份信息和/或文字备份信息,以方便后期工作人员校对。

另外,还可以接收针对会议纪要的修正信息,并根据上述修正信息更新上述会议纪要。

由以上可见,本实施例提供的方案中,在会议结束后,无需工作人员手动编辑即可生成会议纪要,减轻了工作人员的工作压力,提高了工作效率。

图7为本申请实施例提供的一种信息生成方法的流程示意图,该方法包括:

s701:接收源客户端发送的目标语音信息。

s702:根据目标语音信息对应的第一用户的第一用户语音库,对目标语音信息进行语音识别。

s703:将识别结果发送至源客户端。

s704:接收源客户端发送的针对识别结果的修正信息。

s705:根据修正信息更新所述第一用户语音库。

具体的,第一用户语音库的初始语音库可以为预设的标准语音库。

由以上可见,本实施例提供的方案中,接收到源客户端发送的目标语音信息,并进行语音识别后,再将识别结果发送至源客户端,由源客户端针对识别结果进行校正,然后根据源客户端发送的修正信息进行语音库更新,这样可以生成针对用户的个性化语音库,有助于后期采用该用户语音库对用户的语音信息进行语音识别时,得到准确的识别结果。

与上述语音信息转换方法相对应,本申请实施例提供了一种语音信息转换装置。

图8为本申请实施例提供的一种语音信息转换装置的结构示意图,该装置应用于电子设备,包括:

信息接收模块801,用于接收目标语音信息;

语音识别模块802,用于在满足信息转换条件的情况下,对所述目标语音信息进行语音识别获得文字转换信息,以使得客户端基于所述目标语音信息的展示位置展示所述文字转换信息。

具体的,所述语音识别模块802可以具体用于对所述目标语音信息进行语音分词处理,获得所述目标语音信息包含的语音分词,针对所获得的每一语音分词,按照预设的语音库选择规则,从语音库集合中选择语音库,并通过所选择的语音库对该语音分词进行语音识别获得文字转换信息,以使得客户端基于所述目标语音信息的展示位置展示所述文字转换信息。

具体的,所述预设的语音库选择规则可以为根据以下信息中的至少一种确定的规则:

发送所述目标语音信息的第一用户所属目标群组的类别;

所述目标群组名称的语言类型;

所述第一用户的用户属性信息;

发送所述目标语音信息的源客户端所处的地理位置;

接收所述目标语音信息之前,已存储的所述第一用户的文字信息和/或语音信息对应语音分词中,出现次数排序靠前的第一预设数量个语音分词所属的语音库;

接收所述目标语音信息之前,已存储的所述目标群组的文字信息和/或语音信息对应语音分词中,出现次数排序靠前的第二预设数量个语音分词所属的语音库;

用户设置的语音库选择顺序。

具体的,所述语音识别模块802包括:

语音段获得子模块,用于按照预设的语音段确定规则,获得所述目标语音信息的第一个目标语音段;

第一语音识别子模块,用于分别采用语音库集合中的每一语音库,对所述目标语音段进行语音识别;

语音库确定子模块,用于将识别率最高的语音库确定为目标语音库;

第二语音识别子模块,用于采用所述目标语音库对所述目标语音信息中除所述目标语音段以外部分进行语音识别,得到第一识别结果;

第一信息获得子模块,用于根据所述第一识别结果和第二识别结果,获得所述目标语音信息的文字转换信息,其中,所述第二识别结果为:采用所述目标语音库对所述目标语音段进行语音识别的结果。

具体的,所述信息获得子模块可以包括:

识别率计算单元,用于根据所述第一识别结果和第二识别结果,获得针对所述目标语音库的第一识别率;

识别率判断单元,用于判断所述第一识别率是否小于预设的识别率阈值;

信息获得单元,用于在所述识别率判断单元的判断结果为是的情况下,采用预设默认语音库对所述目标语音信息进行语音识别,并根据针对所述预设默认语音库的识别结果,获得所述目标语音信息的文字转换信息。

具体的,所述语音识别模块802,具体用于接收到所述目标语音信息后,直接对所述目标语音信息进行语音识别获得文字转换信息,以使得客户端基于所述目标语音信息的展示位置展示所述文字转换信息;或

具体用于监测是否接收到针对所述目标语音信息的信息转换指令,若为是,对所述目标语音进行语音识别获得文字转换信息,以使得客户端基于所述目标语音信息的展示位置展示所述文字转换信息。

具体的,所述装置还可以包括:

结果发送模块,用于将所述文字转换信息发送至所述第一客户端,其中,所述第一客户端为发送所述目标语音信息的客户端;

结果更新模块,用于接收所述第一客户端发送的针对所述文字转换信息的修正信息,并根据所述修正信息更新所述文字转换信息。

具体的,在所述电子设备为服务器的情况下,所述装置还可以包括:

结果判断模块,用于判断更新前的所述文字转换信息是否已发送至其他客户端;

提示信息发送模块,用于在所述结果判断模块的判断结果为是的情况,向已接收所述文字转换信息的第二客户端发送修正提示信息,并根据所述第二客户端针对所述修正提示信息的反馈结果,确定是否向所述第二客户端发送更新后的所述文字转换信息。

具体的,所述语音识别模块802,具体用于采用第一用户对应的第一用户语音库,直接对所述目标语音信息进行语音识别获得文字转换信息,以使得客户端基于所述目标语音信息的展示位置展示所述文字转换信息,其中,所述第一用户为:发送所述目标语音信息的用户;或

所述语音识别模块802,具体用于采用所述第一用户语音库,对所述目标语音信息进行语音识别获得文字转换信息,以使得客户端基于所述目标语音信息的展示位置展示所述文字转换信息;

所述装置还可以包括:

语音库更新模块,用于根据所述修正信息,更新所述第一用户语音库。

具体的,所述语音识别模块802可以包括:

帧率获得子模块,用于在满足信息转换条件的情况下,获得所述目标语音信息所包含音频帧的频率;

音频段划分子模块,用于按照所获得的频率,将所述目标语音信息划分为至少一个音频段;

语音库选择子模块,用于基于划分得到的音频段的频率范围,从语音库集合中为每一频率范围选择对应的语音库,进而确定各个音频段对应的语音库;

第三语音识别子模块,用于采用各个音频段对应的语音库,对各个音频段分别进行语音识别;

第二信息获得子模块,用于根据各个音频段的识别结果,获得所述目标语音信息的文字转换信息。

具体的,所述语音信息转换装置还可以包括:

指令接收模块,用于接收会议纪要生成指令;

信息获得模块,用于获得用于生成会议纪要的文字信息以及语音信息对应的文字转换信息;

纪要生成模块,用于根据所获得的文字信息以及所获得的文字转换信息,按照预设的会议纪要格式,生成会议纪要。

具体的,所述纪要生成模块可以包括:

信息确定子模块,用于确定发送所获得的文字信息以及所获得的文字转换信息的用户的用户名以及ip地址;

发言人确定子模块,用于根据所确定的用户名、ip地址以及用于生成会议纪要的语音信息中各个音频帧的频率,确定发言人;

纪要生成子模块,用于根据所获得的文字信息、所获得的文字转换信息以及所述发言人,按照预设的会议纪要格式,生成会议纪要。

由以上可见,上述各个实施例提供的方案中,接收到目标语音信息后,在满足信息转换条件的情况,对目标语音信息进行语音识别获得文字转换信息,这样客户端可以基于目标语音信息的展示位置展示上述文字转换信息。可见,应用本申请实施例提供的方案,能够将语音信息转换成文字信息。

与上述信息生成方法相对应,本申请实施例还提供了一种信息生成装置。

图9为本申请实施例提供的一种信息生成装置的结构示意图,该装置包括:

信息接收模块901,用于接收源客户端发送的目标语音信息;

语音识别模块902,用于根据所述目标语音信息对应的第一用户的第一用户语音库,对所述目标语音信息进行语音识别;

结果发送模块903,用于将识别结果发送至所述源客户端;

修正信息接收模块904,用于接收所述源客户端发送的针对所述识别结果的修正信息;

语音库更新模块905,用于根据所述修正信息更新所述第一用户语音库。

具体的,所述第一用户语音库的初始语音库为预设的标准语音库。

由以上可见,本实施例提供的方案中,接收到源客户端发送的目标语音信息,并进行语音识别后,再将识别结果发送至源客户端,由源客户端针对识别结果进行校正,然后根据源客户端发送的修正信息进行语音库更新,这样可以生成针对用户的个性化语音库,有助于后期采用该用户语音库对用户的语音信息进行语音识别时,得到准确的识别结果。

对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:rom/ram、磁碟、光盘等。

以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1