基于神经网络的全语通的实现方法及相关产品与流程

文档序号:18239288发布日期:2019-07-24 08:54阅读:179来源:国知局
基于神经网络的全语通的实现方法及相关产品与流程

本申请涉及通信以及终端领域,具体涉及一种基于神经网络的全语通的实现方法及相关产品。



背景技术:

终端,例如平板电脑、智能手机等。这里以智能手机为例,智能手机,是指像个人电脑一样,具有独立的操作系统,独立的运行空间,可以由用户自行安装软件、游戏、导航等第三方服务商提供的程序,并可以通过移动通讯网络来实现无线网络接入手机类型的总称。

目前的智能手机的通话仅仅只是通话的转发,例如张三与李四通话,张三的中文语音直接转发给李四,如果李四是美国人,那么需要李四懂得中文才能够听懂,反之,需要张三需要英文与李四交流,现有的翻译仅仅限于对于中文-英文等固定的翻译,现有的AI翻译器如果更换成中文-法语的翻译即无法实现对应的翻译,所以其无法实现全语通,用户体验度低。

申请内容

本申请实施例提供了一种基于神经网络的全语通的实现方法及相关产品,实现语音的全语通,一个AI翻译器能够实现任意两种语言之间的互通,提高了用户体验度。

第一方面,本申请实施例提供一种基于神经网络的全语通的实现方法,所述方法包括如下步骤:

终端接收用户的第一语言的第一语音,确定终端通话所需的第二语言;

终端将第一语言以及第二语言发送至网络侧,接收网络侧下发的神经网络模型的第一参数,终端将第一参数加载至神经网络模型;

终端将第一语音输入到神经网络模型执行多层神经网络运算得到符合第二语言的第二语音,将第二语音通过网络发送至通话端。

可选的,所述终端将第一语音输入到神经网络模型执行多层神经网络运算得到符合第二语言的第二语音具体包括:

终端依据第一语音得到输入数据,将输入数据输入到多层神经网络执行n层卷积运算得到卷积运算结果,将卷积运算结果输入到全连接运算得到第二语音的第二语音。

可选的,所述执行n层卷积运算中的第一层卷积运算具体包括:

确定输入数据矩阵【H】【W】,第一层卷积运算的卷积核【CI】【3】【3】,将输入矩阵【H】【W】划分成H/3个数据块,所述H/3个数据块中每个数据块中元素值按H方向相邻存储,将卷积核【CI】【3】【3】划分成CI个【3】【3】核块,所述CI个【3】【3】核块中每个核块的元素值相邻存储,将输入数据矩阵【H】【W】与卷积核【CI】【3】【3】执行卷积运算得到第一层卷积计算结果。

可选的,所述确定终端通话所需的第二语言具体可以包括:

终端提取通话端的用户,向网络侧请求该用户对应的国籍,接收网络侧返回的该用户登记的国籍,确定该国籍对应的母语为第二语言。

第二方面,提供一种终端,所述终端包括:

音频单元,用于接收用户的第一语言的第一语音;

处理单元,用于确定终端通话所需的第二语言;控制通信单元将第一语言以及第二语言发送至网络侧,控制所述通信单元接收网络侧下发的神经网络模型的第一参数,将第一参数加载至神经网络模型;将第一语音输入到神经网络模型执行多层神经网络运算得到符合第二语言的第二语音,控制所述通信单元将第二语音通过网络发送至通话端。

可选的,所述处理单元,具体用于依据第一语音得到输入数据,将输入数据输入到多层神经网络执行n层卷积运算得到卷积运算结果,将卷积运算结果输入到全连接运算得到第二语音的第二语音。

可选的,所述处理单元,具体用于确定输入数据矩阵【H】【W】,第一层卷积运算的卷积核【CI】【3】【3】,将输入矩阵【H】【W】划分成H/3个数据块,所述H/3个数据块中每个数据块中元素值按H方向相邻存储,将卷积核【CI】【3】【3】划分成CI个【3】【3】核块,所述CI个【3】【3】核块中每个核块的元素值相邻存储,将输入数据矩阵【H】【W】与卷积核【CI】【3】【3】执行卷积运算得到第一层卷积计算结果。

可选的,所述处理单元,具体用于提取通话端的用户,向网络侧请求该用户对应的国籍,接收网络侧返回的该用户登记的国籍,确定该国籍对应的母语为第二语言。

可选的,所述终端为:智能手机或平板电脑。

第三方面,提供一种计算机可读存储介质,其存储用于电子数据交换的计算机程序,其中,所述计算机程序使得计算机执行第一方面提供的所述的方法。

第四方面,提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行第一方面提供的方法。

实施本申请实施例,具有如下有益效果:

可以看出,本申请提供的技术方案在接收到第一语言的第一语音后,确定第二语言,然后从网络侧确定第一语言到第二语言的第一参数,加载该参数至神经网络模型,这样即能够实现对第一语言至第二语言的翻译,并且由于本申请中的参数由于是临时加载的,因此其在第二语言更换时,直接加载新的参数即可,这样即能够实现单个神经网络模型适应全语通的技术方案,提高了用户体验度。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种计算装置的结构示意图。

图2是本申请实施例公开的一种基于神经网络的全语通的实现方法的流程示意图。

图3为本申请实施例提供的一种终端的示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

参阅图1,图1为一种终端的结构示意图,如图1所示,该终端可以包括:处理器101、存储器102、显示屏103、音频部件104,其中,处理器101通过总线与存储器102、显示屏103、音频设备104连接。上述音频部件可以为麦克风,当然也可以包含耳麦。

本申请提供的一种基于神经网络的全语通的实现方法,该方法采用如图1所示的终端来实现,该方法如图2所示,包括如下步骤:

步骤S201、终端接收用户的第一语言的第一语音,确定终端通话所需的第二语言;

步骤S202、终端将第一语言以及第二语言发送至网络侧,接收网络侧下发的神经网络模型的第一参数,终端将第一参数加载至神经网络模型;

步骤S203、终端将第一语音输入到神经网络模型执行多层神经网络运算得到符合第二语言的第二语音,将第二语音通过网络发送至通话端。

本申请提供的技术方案在接收到第一语言的第一语音后,确定第二语言,然后从网络侧确定第一语言到第二语言的第一参数,加载该参数至神经网络模型,这样即能够实现对第一语言至第二语言的翻译,并且由于本申请中的参数由于是临时加载的,因此其在第二语言更换时,直接加载新的参数即可,这样即能够实现单个神经网络模型适应全语通的技术方案,提高了用户体验度。

可选的,上述终端将第一语音输入到神经网络模型执行多层神经网络运算得到符合第二语言的第二语音具体包括:

终端依据第一语音得到输入数据,将输入数据输入到多层神经网络执行n(大于等于2的整数)层卷积运算得到卷积运算结果,将卷积运算结果输入到全连接运算得到第二语音的第二语音。

可选的,上述执行n层卷积运算中的第一层卷积运算具体可以包括:

确定输入数据矩阵【H】【W】,第一层卷积运算的卷积核【CI】【3】【3】,将输入矩阵【H】【W】划分成H/3个数据块,所述H/3个数据块中每个数据块中元素值按H方向相邻存储,将卷积核【CI】【3】【3】划分成CI个【3】【3】核块,所述CI个【3】【3】核块中每个核块的元素值相邻存储,将输入数据矩阵【H】【W】与卷积核【CI】【3】【3】执行卷积运算得到第一层卷积计算结果。

上述输入数据矩阵【H】【W】中的【H】表示高度方向值,【W】表示宽度方向值,卷积核【CI】【3】【3】中的【3】【3】表示3*3基本卷积核,【CI】表示卷积核的深度值。

上述方案主要是对存储的顺序进行排列,这样提高内存数据提取的速度,对于内存的提取来说,每次提取的数据均为128bit数据,目前单个元素值为16比特或8bit,如果不将输入数据矩阵【H】【W】划分,那么在提取数据时,由于提取的为一个【3】【3】的卷积核,其在H方向以及W方向均具有相应的数据,以16比特为例,这样对于一个【3】【3】的卷积核其需要提取的次数为3次,即每次提取8个元素值,但是丢弃5个元素值,但是对于本申请的技术方案,其只需提取2次,即第一次提取8个元素值均是需要的,第二次提取的8个元素值第一个元素值需要,后面7个元素值丢弃,这样就减少了一次数据提取的次数,对于卷积核的提取也能够提高数据提取的效率,这样提高了卷积运算的速度。

上述确定终端通话所需的第二语言具体可以包括:

终端提取通话端的用户,向网络侧请求该用户对应的国籍,接收网络侧返回的该用户登记的国籍,确定该国籍对应的母语为第二语言。

参阅图3,图3提供了一种终端,所述终端包括:

音频单元,用于接收用户的第一语言的第一语音;

处理单元,用于确定终端通话所需的第二语言;控制通信单元将第一语言以及第二语言发送至网络侧,控制所述通信单元接收网络侧下发的神经网络模型的第一参数,将第一参数加载至神经网络模型;将第一语音输入到神经网络模型执行多层神经网络运算得到符合第二语言的第二语音,控制所述通信单元将第二语音通过网络发送至通话端。

上述终端具体可以为智能手机或平板电脑。

本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储用于电子数据交换的计算机程序,该计算机程序使得计算机执行如上述方法实施例中记载的任何一种基于神经网络的全语通的实现方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种基于神经网络的全语通的实现方法的部分或全部步骤。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取器(英文:Random Access Memory,简称:RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1