一种基于多语言模型的语音转写系统及方法与流程

文档序号:26013864发布日期:2021-07-23 21:35阅读:239来源:国知局
一种基于多语言模型的语音转写系统及方法与流程

本发明涉及语音通信技术领域,具体为一种基于多语言模型的语音转写系统及方法。



背景技术:

据统计,全世界共有5000~6000种语言,较常用的有英语、汉语、日语法语、德语、俄语等。随着通信及交通的发展,各国间的商贸及旅游活动交往日益增多,国际长途电话费用大幅度降低,通话量大幅度增长。中国2000年入境外国旅游者人数已超千万人次,旅游人数位居世界第五位,亚洲首位。由于语言障碍对商贸及旅游造成很大的不便,也影响了商贸及旅游更进一步的发展。为扫除语言障碍,口语翻译成为一种重要的手段。世界上像中国这样一些旅游及投资大国,需要的翻译员数以万计。

但借助现场翻译人员时,现场翻译员要随时跟在身边,成本较高,通常翻译费用较高;翻译员工作效率低,机动性差,一些场合翻译员在场时也不方便。



技术实现要素:

本发明要解决的技术问题是克服现有的缺陷,提供一种基于多语言模型的语音转写系统及方法,以解决上述技术背景中现场翻译员要随时跟在身边,成本较高,通常翻译费用较高;翻译员工作效率低,机动性差,一些场合翻译员在场时也不方便的缺点。

为实现上述目的,本发明提供如下技术方案:一种基于多语言模型的语音转写系统及方法,包括平台、连接所述平台的客户端、储存模块和语音服务模块、以及连接所述客户端的显示模块;

所述平台,用于接收所述客户端和所述语音服务模块发送的信息、以及向客户端和语音服务模块发送信息;

所述客户端,用于输入用户个人信息并发送至平台、将平台发送的信息发送至用户、以及通过显示模块对信息进行显示;

所述储存模块、用于对语音数据进行储存;

所述语音服务模块,用于对用户的语音数据进行转写和翻译,并生成转写文本和翻译文本。

优选的,所述语音服务模块连接处理模块,所述处理模块连接提取模块、用于对语音服务模块发送的语音数据进行处理,并将数据发送至所述提取模块;所述提取模块连接语音服务模块,用于对处理模块发送的语音数据提取特征、并将语音数据发送至语音服务模块。

优选的,所述处理模块用于对语音服务模块发送的语音数据进行预加重、分帧、加窗和端点检测,并将处理后的语音数据发送至提取模块。

优选的,所述提取模块通过线性预测倒谱系数lpcc用于从处理模块发送的语音数据中提取出重要的、反映语音特征的相关信息和去除那些相对无关的信息,并将数据发送至语音服务模块。

优选的,还包括用于采集用户语音数据的语音采集模块、将语音采集模块采集的语音数据进行a/d转换的转换模块,所述语音采集模块连接转换模块,所述转换模块连接客户端。

优选的,包括以下步骤:

s1,用户登录客户端录入个人语音数据通过客户端将语音数据发送至平台,平台将语音数据同步发送至语音服务模块和储存模块;

s2,翻译时,语音采集模块采集用户语音数据,通过转换模块后发送至客户端,客户端将接收的语音数据发送至平台,其中平台将客户端推送的数据发送语音服务模块和储存于储存模块中;

当用户发送的语音数据与别的用户录入的语音数据一致时,语音服务模块仅将语音数据转写成文本,并将转写文本发送至平台,平台发送至各个客户端,通过各个客户端连接的显示模块对转写文本进行显示,同时将该用户的语音信息发送至各个客户端;

当用户发送的语音数据与个别的用户录入的语音数据不同时,语音服务模块会对语音数据进行翻译转写,并将翻译文本和转写文本发送至平台,平台将该翻译文本发送至个别对应的客户端和将转写文本发送至原用户的客户端,通过对应客户端连接的显示模块对翻译文本进行显示和通过原用户客户端连接的显示模块对转写文本进行显示;

s3,平台将各个用户的语音数据、转写文本和翻译文本同步发送至储存模块进行储存。

优选的,所述步骤s2中,多个用户进行交流时,用户的语音数据同步到平台,通过语音服务模块对语音数据进行翻译转写,将翻译文本发送至别的用户客户端上进行显示,将转写文本发送至原客户端上进行显示。

优选的,当用户需要查询交流信息时,登录客户端输入信息,客户端将需要查询的语音信息的翻译文本和转写文本发送至该用户的客户端,并通过该客户端连接的显示模块对转写文本和翻译文本进行显示。

与现有技术相比,本发明提供了一种基于多语言模型的语音转写系统及方法,具备以下有益效果:

本发明中通过用户登录到客户端上,并录入语音数据到客户端,并发送到平台,通过平台连接的语音服务模块对语音数据进行转写和翻译,并将转写文本和翻译文本发送至各个对应用户的客户端,通过客户端连接的显示模块对转写文本和翻译文本进行显示,以便于对多种语言进行转换,避免了翻译员要随时跟在身边,成本较高,翻译费用高的情况,提高了工作效率,也避免了一些场合翻译员在场时不方便的情况出现。

附图说明

附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制,在附图中:

图1为本发明提出的基于多语言模型的语音转写系统及方法简易结构示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施例和附图,进一步阐述本发明,但下述实施例仅为本发明的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其它实施例,都属于本发明的保护范围。

请参阅图1,一种基于多语言模型的语音转写系统及方法,包括平台、连接平台的客户端、储存模块和语音服务模块、以及连接客户端的显示模块;

平台,用于接收客户端和语音服务模块发送的信息、以及向客户端和语音服务模块发送信息,将数据发送至储存模块进行储存;

客户端与平台之间采用网络连接,用于输入用户个人信息并发送至平台、将平台发送的信息发送至用户、以及通过显示模块对信息进行显示,通过显示模块可以对转写文本和翻译文本进行显示,便于用户进行观看;

储存模块、用于对语音数据进行储存,储存通过平台发送和接收的数据;

语音服务模块与平台通过网络连接,用于对用户的语音数据进行转写和翻译,并生成转写文本和翻译文本。

语音服务模块连接处理模块,处理模块连接提取模块、用于对语音服务模块发送的语音数据进行处理,并将数据发送至提取模块;提取模块连接语音服务模块,用于对处理模块发送的语音数据提取特征、并将语音数据发送至语音服务模块。

处理模块用于对语音服务模块发送的语音数据进行预加重、分帧、加窗和端点检测,并将处理后的语音数据发送至提取模块,预加重也称高频提升,是语音信号的高频部分由于语音信号口鼻辐射等的影响部分语音信号容易出现丢失信息现象,因此要在模拟/数字转换之前进行预处理中进行预加重。预加重的目的是提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析;分帧是语音信号分析和处理中常用方法,是一段语音信号分段来处理的思想,语音信号在有限的时间段内可以看做特性保持相对稳定,也称短时平稳。在分析语音信号时,就可以将连续的语音信号分成很多个相对独立的部分来考虑,这样连续的语音处理起来比较简单了;分帧之后要加窗操作,加窗的目的是语音信号在开始和结尾部分比较平滑,在实际应用中矩形窗函数和汉明窗函数使用的比较多;预处理的最后一步是端点检测,是语音信号中音素、音节、词等识别基元的起点和终点的位置的技术。

提取模块通过线性预测倒谱系数lpcc用于从处理模块发送的语音数据中提取出重要的、反映语音特征的相关信息和去除那些相对无关的信息,并将数据发送至语音服务模块。

还包括用于采集用户语音数据的语音采集模块、将语音采集模块采集的语音数据进行a/d转换的转换模块,语音采集模块连接转换模块,转换模块连接客户端。

s1,用户登录客户端录入个人语音数据通过客户端将语音数据发送至平台,平台将语音数据同步发送至语音服务模块和储存模块;

s2,翻译时,语音采集模块采集用户语音数据,通过转换模块后发送至客户端,客户端将接收的语音数据发送至平台,其中平台将客户端推送的数据发送语音服务模块和储存于储存模块中;

当用户发送的语音数据与别的用户录入的语音数据一致时,语音服务模块仅将语音数据转写成文本,并将转写文本发送至平台,平台发送至各个客户端,通过各个客户端连接的显示模块对转写文本进行显示,同时将该用户的语音信息发送至各个客户端;

当用户发送的语音数据与个别的用户录入的语音数据不同时,语音服务模块会对语音数据进行翻译转写,并将翻译文本和转写文本发送至平台,平台将该翻译文本发送至个别对应的客户端和将转写文本发送至原用户的客户端,通过对应客户端连接的显示模块对翻译文本进行显示和通过原用户客户端连接的显示模块对转写文本进行显示;

s3,平台将各个用户的语音数据、转写文本和翻译文本同步发送至储存模块进行储存。

步骤s2中,多个用户进行交流时,用户的语音数据同步到平台,通过语音服务模块对语音数据进行翻译转写,将翻译文本发送至别的用户客户端上进行显示,将转写文本发送至原客户端上进行显示。

当用户需要查询交流信息时,登录客户端输入信息,客户端将需要查询的语音信息的翻译文本和转写文本发送至该用户的客户端,并通过该客户端连接的显示模块对转写文本和翻译文本进行显示,当不同语言的用户在登录客户端时,对用户语音数据进行录入,并通过语音采集模块对语音数据采集,并通过转换模块对模拟信号转换成数字信号,并发送至客户端,通过客户端发送至平台,平台将数据发送至储存模块进行储存,同时发送至语音服务模块,通过处理模块和提取模块再将数据发送至语音服务模块对语音数据进行转写和翻译,并生成转写文本和翻译文本,将转写文本和翻译文本发送至平台,平台将转写文本发送至原用户,翻译文本发送至别的用户,同时平台会将数据发送至储存模块内进行储存,并的用户通过客户端接收平台发送的翻译数据,并通过显示模块便于对翻译文本进行查看,避免了翻译员要随时跟在身边,成本较高,翻译费用高的情况,提高了工作效率,也避免了一些场合翻译员在场时不方便的情况出现。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1