实时云端语音翻译处理方法及系统与流程

文档序号:22478175发布日期:2020-10-09 22:22阅读:245来源:国知局
实时云端语音翻译处理方法及系统与流程

本发明涉及语音处理技术领域,尤其是指一种实时云端语音翻译处理方法及系统。



背景技术:

随着生活水平的日益提高,人们的出行范围逐渐从国内走向全球,但是语言始终是出游的最大障碍,于是出现语音翻译系统,但是目前的语音翻译系统存在以下问题:

1、跨地区或者跨国家响应速度慢不及时;

2、语音翻译结果数据无法追溯回放没有历史记录,无法浏览历史;

3、只能提供单一翻译服务,无法满足用户跨地区,不同翻译能力的服务切换。如翻译服务a能够更好的翻译中文,服务b能支持服务a无法支持的语言等。

需要一种新的翻译方法及系统。



技术实现要素:

本发明所要解决的技术问题是:针对现有技术的不足,提供一种实时云端语音翻译处理方法及系统。

为了解决上述技术问题,本发明采用的技术方案为:一种实时云端语音翻译处理方法及系统,应用于用户端、云端服务器和翻译服务器的交互中,所述实时云端语音翻译处理方法包括:

获取翻译请求并将所述翻译请求发送至云端服务器,所述翻译请求包括语音数据;

收集并暂存所述翻译请求;

根据所述翻译请求从预设的翻译服务器列表中匹配翻译服务器,并将所述语音数据推送至对应的翻译服务器;

接收由翻译服务器处理完毕的翻译文件,并将所述翻译文件分离为目标语言文字信息和目标语言音频数据;

将目标语言音频数据推送至存储服务器储存,生成目标语言音频数据访问地址信息;

将目标语言文字信息和目标语言音频数据访问地址信息推送至用户端。

进一步的,在根据所述翻译请求匹配翻译服务器的步骤之前,还包括:根据翻译服务器提供的服务质量进行统计与排序,并将排序结果更新至翻译服务器列表,根据翻译服务器提供的服务质量进行统计与排序具体包括:

验证翻译服务器的语言翻译支持种类;

验证翻译服务器的输入和输出接口能力;

验证翻译服务器的响应速度。

进一步的,在收集并暂存所述翻译请求的步骤中,还包括:

判断当前的语音数据是否符合翻译条件,不符合则将当前的语音数据与下一条语音数据合并后再次判断,直到当前的语音数据符合翻译条件。

进一步的,在将语音数据推送至翻译服务器的步骤之前,还包括对所述语音数据进行预处理的步骤,所述对语音数据进行预处理包括:

对语音数据进行降噪处理;

对语音数据进行静音检测处理;

对语音数据进行语调检测处理。

本发明还涉及一种实时云端语音翻译处理系统,应用于用户端、云端服务器和翻译服务器的交互中,所述实时云端语音翻译处理系统包括:

用户端,用于获取翻译请求并将所述翻译请求发送至云端服务器,所述翻译请求包括语音数据;

云端服务器,所述云端服务器包括请求响应模块、翻译服务选择模块和翻译结果数据处理模块,

所述请求响应模块用于收集和暂存来自用户端的翻译请求;

所述翻译服务选择模块用于根据所述翻译请求从预设的翻译服务器列表中匹配翻译服务器,并将语音数据推送至对应的翻译服务器;

所述翻译结果数据处理模块用于接收由翻译服务器处理完毕的翻译文件,并将所述翻译文件分离为目标语言文字信息和目标语言音频数据;将目标语言音频数据推送至存储服务器储存,并生成目标语言音频数据访问地址信息;以及将目标语言文字信息和目标语言音频数据访问地址信息推送至用户端。

进一步的,所述云端服务器还包括翻译服务分析模块,所述翻译服务分析模块用于根据翻译服务器提供的服务质量进行统计与排序,并将排序结果更新至翻译服务器列表,所述服务质量包括翻译服务器的语言翻译支持种类、翻译服务器的输入和输出接口能力和翻译服务器的响应速度。

进一步的,所述云端服务器还包括语义处理模块,所述语义处理模块用于判断当前的语音数据是否符合翻译条件,不符合则将当前的语音数据与下一条语音数据合并后再次判断,直到当前语音数据符合翻译条件。

进一步的,所述云端服务器还包括音频数据预处理模块,所述音频数据预处理模块用于对所述语音数据进行预处理,所述对语音数据进行预处理包括:

对语音数据进行降噪处理;

对语音数据进行静音检测处理;

对语音数据进行语调检测处理。

本发明还涉及一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明还涉及一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的方法的步骤。

本发明的有益效果在于:提供了一种实时云端语音翻译处理方法及系统,采用分布的服务部署,可按需调用的跨地区服务响应,将小数据包与大数据包分开存储与传输,利用mqtt服务的实时性,提供了快速的语音翻译服务,能够实现跨地域、跨国家的语音翻译服务无缝切换,提供翻译服务的同时保留大数据历史记录,方便移动设备计时计费。

附图说明

下面结合附图详述本发明的具体流程及结构:

图1为本发明的翻译请求处理流程图;

图2为本发明的翻译服务分析处理流程图;

图3为本发明的翻译请求响应处理流程图;

图4为本发明的翻译结果数据处理流程图;

图5为本发明的系统结构示意图;

图6为本发明的系统拓扑结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明,本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

实施例1

请参阅图1至图4,一种实时云端语音翻译处理方法,应用于用户端、云端服务器和翻译服务器的交互中,所述实时云端语音翻译处理方法包括:

获取翻译请求并将所述翻译请求发送至云端服务器,所述翻译请求包括语音数据、用户的ip信息和地理位置信息;

收集并暂存所述翻译请求;

根据所述翻译请求从预设的翻译服务器列表中匹配翻译服务器,并将所述语音数据推送至对应的翻译服务器;

接收由翻译服务器处理完毕的翻译文件,并将所述翻译文件分离为目标语言文字信息和目标语言音频数据;

将目标语言音频数据推送至存储服务器储存,生成目标语言音频数据访问地址信息;

将目标语言文字信息和目标语言音频数据访问地址信息推送至用户端。

本实施例中,用户端包括录音终端和移动设备,移动设备包括并不限于安装有特定app的智能手机、安装有特定app的平板电脑或安装有特定app的笔记本电脑等,录音终端与移动设备在逻辑上为两个独立的功能模块,包含且不限于独立的电子终端移动设备,录音终端可以集成于移动设备之中,也可以是与移动设备通过有线连接的音频设备;还可以是与移动设备通过无线连接的一台或多台音频设备,其中无线连接方式包括2.4g、5g、wifi、蓝牙等连接方式,蓝牙音频设备包括并不限于蓝牙耳机、蓝牙录音机、车载蓝牙等。

用户在移动设备选择需要翻译的源语言a与目标语言b,然后说出想要翻译的内容,录音终端捕获用户说出的语音数据,发送给移动设备,移动设备将用户的ip信息、地理位置信息和语音数据打包为翻译请求发送至云端服务器,云端服务器预设有翻译服务器列表,翻译服务器列表记录有世界各地的翻译服务器的地址、翻译服务器能提供的翻译服务以及翻译服务器的翻译评价,云端服务器根据翻译请求中的地理位置信息或/和用户的ip信息在服务器列表中寻找符合用户翻译需求、且位置最接近用户所在地区的翻译服务器,然后将语音数据发送至对应的翻译服务器,翻译服务器将语音数据翻译完成后生成翻译文件,并将翻译文件发送回云端服务器,云端服务器将所述翻译文件分离为目标语言文字信息(小数据包)和目标语言音频数据(大数据包),将目标语言音频数据推送至oss存储服务器储存,同时生成目标语言音频数据访问地址信息,最后将目标语言文字信息和目标语言音频数据访问地址信息通过mqtt消息服务器推送至用户端的移动设备,这样做的好处是可以让移动设备不用保存太多的语音数据,有效降低了终端空间的占用量。

从上述描述可知,本发明的有益效果在于:提供了一种实时云端语音翻译处理方法及系统,采用分布的服务部署,可按需调用的跨地区服务响应,将小数据包与大数据包分开存储与传输,利用mqtt消息服务的实时性,提供了快速的语音服务,能够实现跨地域、跨国家的语音服务无缝切换,提供翻译服务的同时保留大数据历史记录,方便移动设备计时计费。

实施例2

在实施例1的基础上,在根据所述翻译请求匹配翻译服务器的步骤之前,还包括:根据翻译服务器提供的服务质量进行统计与排序,并将排序结果更新至翻译服务器列表,根据翻译服务器提供的服务质量进行统计与排序具体包括:

验证翻译服务器的语言翻译支持种类;

验证翻译服务器的输入和输出接口能力;

验证翻译服务器的响应速度。

本实施例中,请参阅图2,云端服务器收到翻译请求后,根据预设的翻译服务器列表选择连接最优的翻译服务器,并向翻译服务器发送需翻译的数据,等接收到翻译结果,即翻译文件后,记录翻译服务所需要的时间,分析翻译结果的准确率,判断是否还有需翻译的数据,若有则继续发送需翻译的数据;若无则对当次翻译服务进行打分记录,继而断开翻译服务器。

由于翻译服务由不同的翻译服务提供者提供,而且不同的翻译服务提供者的翻译功能与性能有很大差异。

翻译功能在功能上的差异主要包含:

翻译语种的数量差异,有的翻译服务只提供少数的语言翻译能力,比如翻译服务t1只支持10种语言相互翻译,另外一个翻译服务t2可以支持100种语言的翻译;

翻译语种的语言差异,有的翻译服务虽然只提供了10种语言,但是这10种语言都是小语种(如斯瓦希里语)而翻译服务t2虽然支持100种语言,但恰好不支持这个语言的翻译;

翻译的方向性差异,有的翻译支持的翻译是双向的,既可以a到b翻译,又可以b到a翻译。但有些只支持a到b或者只支持b到a单向翻译。

翻译功能在性能上的差异主要包含:

翻译内容接口不同,有的翻译服务只支持文字输入输出,有的翻译服务可以同时输入文字或者语言,但输出都是文字结果,而更好的是既可以输入文字和语音又可以输出文字与语音;

翻译速度差异。速度的差异主要有两个因素:翻译服务本身的处理速度差异;翻译请求时用户所在地理位置到翻译服务提供者地理位置的差异导致传输速度的不同;

翻译结果数据不同,有的翻译服务只支持整句话的翻译,而有的翻译服务支持短语或者单词的翻译,还可以自动再根据上下文校正翻译的结果。最终导致,输入的语言内容要求不一样,输出的数据大小或者准确程度不同;

翻译结果的准确度不同,同样两个语言ab不同的翻译服务提供的翻译准确程度也有差异。

因而使用单一的翻译服务很有可能无法满足用户在使用翻译服务过程中对速度快、翻译准的要求。

因此,在使用翻译服务之前加入对翻译服务分析的处理,并对所有翻译服务提供者提供的翻译服务项目、以及服务质量进行统计,进而进行排序,并将翻译服务器的服务质量更新至翻译服务器列表,可以让后续的翻译服务中根据翻译服务器列表选择服务更好的翻译服务器。

用户在提交翻译请求时,云端服务器能够结合翻译服务器的地理位置、翻译服务项目以及翻译服务质量的情况选择出最佳的翻译服务或者服务组合执行翻译任务,同时记录翻译服务的执行过程与执行结果,收集用户为当次翻译服务的打分,以便后期对翻译服务器列表进行更新。

具体的,在根据翻译服务器提供的服务质量进行统计与排序的步骤之中,包括:

验证翻译服务器的语言翻译支持种类,包括验证翻译语种的数量、翻译语种的种类以及翻译的方向性;

验证翻译服务器的输入和输出接口能力,包括验证是否只支持文字输入输出,或者可以同时输入文字或者语音,但输出都是文字结果,又或者支持输入文字或者语音,同时也可以输出文字与语音;

验证翻译服务器的响应速度,翻译速度差异,包括翻译服务本身的处理速度差异和数据传输导致的差异。

实施例3

在实施例2的基础上,在收集并暂存所述翻译请求的步骤中,还包括:

判断当前的语音数据是否符合翻译条件,不符合则将当前的语音数据与下一条语音数据合并后再次判断,直到当前的语音数据符合翻译条件。

本实施例中,请参阅图3,为了保证能够快速响应用户的翻译需求,移动设备每录10ms的语音数据即向云端服务器发送一次数据包,接收到语音数据后需要对语音数据进行完整性分析,检测语音数据中是否包含完整的词干信息,或者说最小可翻译的语言单位,如果词干信息不完整则等待接收到后继的语音数据,并将当前语音数据与新接收到的语音数据合并,再次检测是否包含完整的词干信息,如果包含则等待下一步处理。如果在限定时间内无法检测到有效信息,则将当前语音数据抛弃并删除。

实施例4

在实施例3的基础上,在将语音数据推送至翻译服务器的步骤之前,还包括对所述语音数据进行预处理的步骤,所述对语音数据进行预处理包括:

对语音数据进行降噪处理;

对语音数据进行静音检测处理;

对语音数据进行语调检测处理。

本实施例中,对语音数据进行降噪处理,可以有效削弱语音中的噪声部分,让语音内容更容易被翻译服务器识别;

对语音数据进行静音检测处理,可以剔除语音数据中的无用部分,减少语音数据的体积,降低数据传输压力;

对语音数据进行语调检测处理,可以根据用户说话语调的不同提供更为准确的语意判断,增加翻译准确率。

实施例5

请参阅图5以及图6,本发明还涉及一种实时云端语音翻译处理系统,应用于用户端、云端服务器和翻译服务器的交互中,所述实时云端语音翻译处理系统包括:

用户端,用于获取翻译请求并将所述翻译请求发送至云端服务器,所述翻译请求包括语音数据;

云端服务器,所述云端服务器包括请求响应模块、翻译服务选择模块和翻译结果数据处理模块,

所述请求响应模块用于收集和暂存来自用户端的翻译请求;

所述翻译服务选择模块用于根据所述翻译请求从预设的翻译服务器列表中匹配翻译服务器,并将语音数据推送至对应的翻译服务器;

所述翻译结果数据处理模块用于接收由翻译服务器处理完毕的翻译文件,并将所述翻译文件分离为目标语言文字信息和目标语言音频数据;将目标语言音频数据推送至存储服务器储存,并生成目标语言音频数据访问地址信息;以及将目标语言文字信息和目标语言音频数据访问地址信息推送至用户端。

本实施例中,用户端包括录音终端和移动设备,移动设备包括并不限于安装有特定app的智能手机、安装有特定app的平板电脑或安装有特定app的笔记本电脑等,录音终端与移动设备在逻辑上为两个独立的功能模块,包含且不限于独立的电子终端移动设备,录音终端可以集成于移动设备之中,也可以是与移动设备通过有线连接的音频设备;还可以是与移动设备通过无线连接的一台或多台音频设备,其中无线连接方式包括2.4g、5g、wifi、蓝牙等连接方式,蓝牙音频设备包括并不限于蓝牙耳机、蓝牙录音机、车载蓝牙等。

移动设备通过网络连接到互联网,互联网云端部署有域名服务系统(dns),dns负责为移动设备提供域名解析服务,移动设备不需要知晓由于地域变换导致服务器地址的变化,该系统通过互联网与移动设备通信,移动设备与dns保持短连接,需要发送数据时才建立http连接的方式。dns与负载均衡系统elb通信,elb负责处理大规模数据请求时服务资源的合理分配,确保用户请求数据得到及时响应与处理;elb分布在全球各个主要地区。elb与虚拟主机ecs通信,ecs运行有服务响应与处理服务程序,同样ecs也分布在全球各个主要地区。此外ecs与各种翻译服务器连接,ecs会按照用户的不同翻译请求将请求转换到正确对应的翻译服务器,总之ecs会根据需求自动选用适合的翻译服务器。

除了翻译服务器的自动选择,还会根据用户所在不同地区自动调整最佳的翻译服务进行处理。例如用户在中国使用语音翻译服务,对应的翻译服务s01能提供更好更精准的处理结果,那么ecs会优先使用s01的服务;如果用户移动到美国,对应的语音翻译服务s02能够更好的处理,则会自动选用s02的服务处理。

所有移动设备接收服务的小数据包,都是通过与移动设备进行数据长连接的mqtt服务器发送。mqtt服务器也分布在全球不同地区或国家。mqtt服务器与移动设备保持长连接确保用户能够立刻接收小数据包的响应。如果需要反馈给用户语音数据大数据包,则先将语音数据大数据包存储在oss存储服务器,并为存储在oss存储服务器的语音数据大数据包生成访问连接url,再将该连接的url通过mqtt发送给移动设备。移动设备直接访问oss存储服务器接收语音数据大数据包,oss存储服务器的数据会存储在云端,该数据会通过定期清理服务autocleanup按照特定策略清理,以保持数据存储的时效与成本控制。

最后系统包含移动设备的管理服务器auth与记录服务器db。该服务主要负责管理与记录移动设备使用各种服务的时间以及次数。以此为依据进行计时与计费的管理。

实施例6

在实施例5的基础上,所述云端服务器还包括翻译服务分析模块,所述翻译服务分析模块用于根据翻译服务器提供的服务质量进行统计与排序,并将排序结果更新至翻译服务器列表,所述服务质量包括翻译服务器的语言翻译支持种类、翻译服务器的输入和输出接口能力和翻译服务器的响应速度。

本实施例中,由于语音内容的翻译即翻译服务由不同的翻译服务提供者提供,但是这些翻译服务提供的翻译功能与性能有很大差异。

因此,在使用翻译服务之前加入对翻译服务分析的处理,并对所有翻译服务提供者提供的翻译服务项目、翻译服务器的响应速度以及服务质量进行统计,进而进行排序,并将翻译服务器的服务质量更新至翻译服务器列表,用户在提交翻译请求时,云端服务器能够综合翻译服务器的地理位置、翻译服务项目以及翻译服务质量的情况选择出最佳的翻译服务或者服务组合执行翻译任务,同时记录翻译服务的执行过程与执行结果,收集用户为当次翻译服务的打分,以便后期对翻译服务器列表进行更新。

具体的,翻译服务分析模块用于验证翻译服务器的语言翻译支持种类,包括验证翻译语种的数量、翻译语种的种类以及翻译的方向性;

翻译服务分析模块还用于验证翻译服务器的输入和输出接口能力,包括验证是否只支持文字输入输出,或者可以同时输入文字或者语音,但输出都是文字结果,又或者支持输入文字或者语音,同时也可以输出文字与语音;

翻译服务分析模块还用于验证翻译服务器的响应速度,翻译速度差异,包括翻译服务本身的处理速度差异和数据传输导致的差异。

实施例7

在实施例6的基础上,所述云端服务器还包括语义处理模块,所述语义处理模块用于判断当前的语音数据是否符合翻译条件,不符合则将当前的语音数据与下一条语音数据合并后再次判断,直到当前语音数据符合翻译条件。

本实施例中,为了保证能够快速响应用户的翻译需求,移动设备每录10ms即向云端服务器发送一次语音数据,云端服务器的语义处理模块在接收到语音数据后对语音数据进行完整性分析,检测语音数据中是否包含完整的词干信息,或者说最小可翻译的语言单位,如果词干信息不完整则等待接收后继的语音数据,并将当前语音数据与新接收到的语音数据合并,得到新的当前语音数据,再次检测新的当前语音数据是否包含完整的词干信息,如果包含则等待下一步处理,否则继续与后续的语音数据合并再检测。

如果在限定时间内无法检测到有效信息,则将当前语音数据抛弃并删除。

实施例8

在实施例7的基础上,所述云端服务器还包括音频数据预处理模块,所述音频数据预处理模块用于对所述语音数据进行预处理,所述对语音数据进行预处理包括:

对语音数据进行降噪处理;

对语音数据进行静音检测处理;

对语音数据进行语调检测处理。

本实施例中,音频数据预处理模块用于对语音数据进行降噪处理,可以有效削弱语音中的噪声部分,让语音内容更容易被翻译服务器识别;

音频数据预处理模块用于对语音数据进行静音检测处理,可以剔除语音数据中的无用部分,减少语音数据的体积,降低数据传输压力;

音频数据预处理模块还用于对语音数据进行语调检测处理,可以根据用户说话的不同语调提供更为准确的语意判断,增加翻译准确率。

实施例9

本发明还涉及一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以上各个方法实施例中的步骤。

实施例10

本发明还涉及一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以上各个方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1