一种语音信息转换方法及装置制造方法

文档序号：6491471阅读：157来源：国知局

一种语音信息转换方法及装置制造方法
【专利摘要】本发明公开了一种语音信息转换方法及装置，涉及数据的处理领域，用以使交流的双方可进行无障碍交谈，不用担心语言的障碍，该方法包括：接收第一语言类别的语音信息，并动态识别为第一语言类别的文字信息；根据第一语言类别和需要输出的语音信息所属的第二语言类别，将所述第一语言类别的文字信息动态翻译为第二语言类别的文字信息；根据所述第二语言类别的文字信息，合成第二语言类别的语音信息并输出。本发明操作简单、便于携带、应用领域广阔，而且成本低廉，经济效益高。
【专利说明】一种语音信息转换方法及装置
【技术领域】
[0001]本发明涉及数据的处理领域，具体涉及一种语音信息转换方法及装置。
【背景技术】
[0002]随着经济的迅猛发展和人民生活水平的提高，国人与外国友人接触和交流的机会越来越多，包括出境旅游和工作原因甚至日常生活中也会接触。但是，要让每一个接触外籍人士的人都精通外籍人士的语音是不现实的，而且外语也有很多种类，这样必然会碰见一些语言不通的情况，对工作、生活、旅游等带来很多不便，当然，外籍人士也会遇到同样的问题。
[0003]现在的同声传译设备只应用在重要的会议场所，应用方式如图1所示，需要专业的设备和高水平的翻译人员，将演讲者的语言翻译为不同的语种，花费了大量的人力和物力，而且对不同国家的与会人员需要不同的翻译人员，翻译人员听取演讲人的演讲内容并翻译成相关语言，与会人员通过设备上的开关选择想要听到的语言。
[0004]所以，上面的设备不适应于社会交往的实际应用场合中，同样也出游等日常生活中也不可能携带。
[0005]综上所述，现有技术缺乏一种适用于大多数场合及普通人群的语言翻译设备及方法。

【发明内容】

[0006]本发明实施例提供了一种语音信息转换方法及装置，用以使交流的双方可进行无障碍交谈，不用担心语言的障碍。
[0007]本发明实施例提供一种语音信息转换方法，该方法包括:
[0008]接收第一语言类别的语音信息，并动态识别为第一语言类别的文字信息；
[0009]根据第一语言类别和需要输出的语音信息所属的第二语言类别，将所述第一语言类别的文字信息动态翻译为第二语言类别的文字信息；
[0010]根据所述第二语言类别的文字信息，合成第二语言类别的语音信息并输出。
[0011]本发明实施例提供一种语音信息转换装置，该装置包括:
[0012]第一音频接口，用于接收第一语言类别的语音信息和输出第二语言类别的语音信息；
[0013]语音识别模块，用于将所述第一语言类别的语音信息动态识别为第一语言类别的文字信息；
[0014]语言翻译模块，用于根据第一语言类别和需要输出的语音信息所属的第二语言类另IJ，将所述第一语言类别的文字信息动态翻译为第二语言类别的文字信息；
[0015]语音合成模块，用于根据所述第二语言类别的文字信息，合成第二语言类别的语音信息并输出。
[0016]本发明实施例，由于使用者在操作时只需要选择需要交流的语言就可以进行语言交流，所以操作简单，不需要太多繁琐的操作，便于使用；由于本装置通过语音识别模块、语言翻译模块和语音合成模块即可实现，结构简单，使得本装置小巧易携带，所以只要需要与外籍人士交流的场合都可以使用，特别适用于外语不好的人士，另外学习外语的人士也可以自己说自己听，应用领域广阔；由于本装置操作过程简单，采用嵌入式平台实现，这样本装置制作成本低廉，经济效益高。
【专利附图】

【附图说明】
[0017]图1为现有技术提供的同声传译设备的工作示意图；
[0018]图2为本发明实施例提供的语音信息转换方法的流程示意图；
[0019]图3为本发明实施例提供的语音信息转换装置的结构示意图；
[0020]图4为本发明实施例提供的语音信息转换装置的软件结构示意图；
[0021]图5为本发明实施例提供的语音信息转换装置的硬件结构示意图。
【具体实施方式】
[0022]本发明实施例提供了一种语音信息转换方法及装置，用以进行不同语言之间的动态转换，使不同语言和国家的人可进行无障碍交谈，不用担心语言的障碍。
[0023]首先，如图2所示，本发明实施例提供了一种语音信息转换方法，能够根据语音提供语言的动态翻译，该方法包括:
[0024]S101，接收第一语言类别的语音信息，并动态识别为第一语言类别的文字信息；
[0025]S102，根据第一语言类别和需要输出的语音信息所属的第二语言类别，将所述第一语言类别的文字信息动态翻译为第二语言类别的文字信息；
[0026]S103，根据所述第二语言类别的文字信息，合成第二语言类别的语音信息并输出。
[0027]本发明实施例以文字信息之间的转化作为桥梁，实现了不用语言类别的语音信息之间的动态相互转换，这样在交流过程中，完全不用翻译人员，交流双方可以直接进行无障碍对话，沟通更方便，而且本方法适用于绝大多数场合及人群使用。例如，一方为中国人，一方为美国人，使用本发明方法，可进行英文与汉语之间的语言转换，实现双方无障碍交流，非常简单而且易操作。
[0028]所述动态识别的规则可以根据需要设定，例如，根据使用者的语音输入的停顿进行区分，在其停顿时间超过阈值的情况下，将这一段的语音信息统一识别为文字信息，所述阈值的长短可以根据需要进行设定。
[0029]上述实施例为采用单一语音输入和输出的情况，该方法还可包括同时存在另一路语音的输入和输出方法:
[0030]接收第二语言类别的语音信息，并动态识别为第二语言类别的文字信息；
[0031]根据第二语言类别和需要输出的语音信息所属的第一语言类别，将所述第二语言类别的文字信息动态翻译为第一语言类别的文字信息；
[0032]根据所述第一语言类别的文字信息，合成第一语言类别的语音信息并输出。
[0033]需要说明的是，本发明方法可同时接收多路语音信息并行处理，并不局限于上述实施例所述的单路语音信息或双路语音信息的转换，也就是说，本方法还支持多人交谈时的相应的语音转换。在同时进行多路语音信息翻译时，所述多路语音信息的输入、输出和处理之间应相互隔离，避免互相之间产生影响，以影响到交流的质量。
[0034]在接收第一语言类别的语音信息或第二语言类别的语音信息之前，也就是交流的双方或多方在使用本发明方法在之前，所述第一语言类别和需要输出的语音信息所属的第二语言类别一般是预先根据用户选择设置的。
[0035]进一步地，上述根据第一语言类别和需要输出的语音信息所属的第二语言类别，将所述第一语言类别的文字信息动态翻译为第二语言类别的文字信息，包括:
[0036]根据第一语言类别和需要输出的语音信息所属的第二语言类别，确定对应文字转换算法；
[0037]采用该文字转换算法将所述第一语言类别的文字信息动态翻译为第二语言类别的文字信息。
[0038]当然，如在条件的允许下，也可不进行接收语言类别的预先设置，直接通过接收的语音信息进行识别而得出该语音信息的语言类别。
[0039]如上述任一实施例中所述，本发明方法中所述文字转换算法预先以动态链接库的方式存放于数据库中；
[0040]当需要添加新的文字转换算法时，通过动态链接库的方式将新的文字转换算法添加到所述数据库中。也就是说，本发明的文字转换算法的种类及数量是可以根据实际需要进行设定的，可以随时通过操作数据库进行更改。
[0041]为了配合本发明方法，如图3所示，本发明实施例还提供了一种语音信息转换装置，该装置包括:
[0042]第一音频接口 1，用于接收第一语言类别的语音信息和输出第二语言类别的语音信息；
[0043]语音识别模块2，用于将所述第一语言类别的语音信息动态识别为相应的第一语言类别的文字信息；
[0044]语言翻译模块3，用于根据第一语言类别和需要输出的语音信息所属的第二语言类别，将所述第一语言类别的文字信息动态翻译为第二语言类别的文字信息；
[0045]语音合成模块4，用于根据所述第二语言类别的文字信息，合成相应的第二语言类别的语音信息并输出。
[0046]使用者通过本发明装置，可以将一方的语言通过语音识别模块、语言翻译模块和语音合成模块的依次处理，动态转换为其它语种的语言并输出，使第二方使用者能够明白，这样在交流过程中，完全不用翻译人员，实现了交流双方的直接无障碍对话。
[0047]本发明实施例在实际使用中，所述的语音识别模块、语言翻译模块和语音合成模块可以选择集成在一块CPU芯片上配合不同的软件和操作系统集中运行和计算信息，并对需要控制的信号进行控制，例如语音识别软件，翻译软件等等。
[0048]所述动态识别的规则可以根据需要设定，例如，根据使用者的语音输入的停顿进行区分，在其停顿时间超过阈值的情况下，将这一段的语音信息统一识别为文字信息，所述阈值的长短可以根据需要进行设定。
[0049]所述音频接口可以为USB接口，可以外接音箱、麦克风等设备辅助使用者输入和输出语音。在所述装置只设置一个音频接口时，所述音频接口既用于接收第一语言类别的语音信息也用于输出第二语言类别的语音信息，输入和输出功能集成在一个接口上。[0050] 上述实施例为该装置采用单一音频接口的情况，该装置还可包括同时存在另一路语音的输入和输出，所以该装置还包括第二音频接口，所述第一音频接口与第二音频接口之间相互隔离。
[0051 ] 需要说明的是，该装置还包括多个音频接口，也就是说，本装置还支持多人交谈时的相应的语音转换，可同时接收多路语音信息并行处理，并不局限于上述实施例所述的单音频接口时的单路语音信息的转换，在同时进行多路语音信息翻译时，所述多个音频接口之间应相互隔离，各个模块在处理不同音频接口输入的语音信息时也应分隔处理，这样避免装置工作时，不同语音信息之间相互影响，输出的语音信息的质量不佳。
[0052]另外，在设置多音频接口的情况下，使用者可以对通过设置，限定任意一路输入的语音信息在转换后从哪一个或哪几个音频接口进行输出。
[0053]该装置还包括人机交互界面或人机交互接口，用于预先根据用户选择设置与第一音频接口对应的所述第一语言类别和需要输出的语音信息所属的第二语言类别。同理，该装置如设有其它音频接口，其输入语言类别和输出语言类别也应分别单独设置。使用者还可以通过所述人机交互界面或人机交互接口对本装置的一些其他功能进行控制，例如参数控制，音量选择，输入音频接口和对应输出输出接口的对应选择等等。
[0054]所述人机交互界面优选为显示屏；所述人机交互接口可以外接键盘进行输入控制。当然为方便人机交互和控制选择，所述人机交互界面或人机交互接口可以集合为触摸屏，既进行了操作结果及状态展示，又让使用者操作起来更为方便。
[0055]进一步地，所述语言翻译模块还用于:
[0056]根据第一语言类别和需要输出的语音信息所属的第二语言类别，确定对应文字转换算法；
[0057]采用该文字转换算法将所述第一语言类别的文字信息动态翻译为第二语言类别的文字信息
[0058]当然，如在条件的允许下，也可不进行接收的语音信息的语言类别预先设置，直接通过对接收的语音信息进行识别而得出该语音信息的语言类别。
[0059]该装置还包括存储单元，用于以动态链接库的方式存放所有的文字转换算法于所述存储单元的数据库中，本装置中其它的数据也可存放在本储存单元或数据库中；
[0060]当需要添加新的文字转换算法时，通过动态链接库的方式将新的文字转换算法添加到所述数据库中。也就是说，本发明的文字转换算法的种类及数量是可以根据实际需要进行设定的，可以随时操作通过数据库进行更改。因装置所需的存储的数据量不会很大，所以所述存储单元一般采取嵌入式存储单元即可，既达到了存储容量的要求，又节省了空间。
[0061]从上述介绍可知，本自动翻译语言的装置操作过程简单，效果明显，并不需要很复杂的数据处理过程即可实现，所以其装置本身体积很小，适用于大多数场合随时使用。
[0062]因本发明装置主要定位于便携设备，所以可采用锂电池给整个系统供电，并由充电电路为锂电池充电。
[0063]本自动翻译语言的装置的最主要的软硬件工作平台可以如下:
[0064]如图4所示，整体软件架构可以由底层驱动软件、嵌入式操作系统(iOS、Linux、Android或Wince等)、语音识别软件、语音合成软件、翻译软件和其他应用软件构成；
[0065]如图5所示，整体的硬件架构可以包括CPU及其运算器(R0M、RAM等)、音频接口(多个)、模数转换电路、显示屏、人机交互接口、电源接口等。
[0066]为了更好的理解本发明方法及装置，下面提供一种在两方之间交流时，本装置详细的工作实施例，该实施例中以汉语和英语举例:
[0067]第一使用者将第一音频接口的接收语言类别和输出语言类别设置为汉语和英语；
[0068]第二使用者将第二音频接口的接收语言类别和输出语言类别设置为英语和汉语；
[0069]第一使用者的汉语和第二使用者的英语的语音信息同时分别通过第一音频接口和第二音频接口输入，CPU先通过语音识别模块配合软件将分别其识别为对应的第一汉语文字信息和第二英语文字信息；
[0070]CPU再通过语言翻译模块将两方文字信息的语言种类相互转换，形成第一英语文字信息和第二汉语文字信息；
[0071 ] CPU最后通过语音合成模块将所述第一英语文字信息和第二汉语文字信息合成为第一英语语音信息和第二汉语语音信息；
[0072]所述第一英语语音信息通过第二音频接口输出给第二使用者，所述第二汉语语音信息通过第一音频接口输出给第一使用者。
[0073]至此，本装置实现了交流双方在使用不同语言时的无障碍交谈。
[0074]综上所述，本发明自动翻译语言的方法及装置，由于使用者在操作时只需要选择需要交流的语言就可以进行语言交流，所以操作简单，不需要太多繁琐的操作，便于使用；由于本装置通过语音识别模块、语言翻译模块和语音合成模块即可实现，结构简单，使得本装置小巧易携带，所以只要需要与外籍人士交流的场合都可以使用，特别适用于外语不好的人士，另外学习外语的人士也可以自己说自己听，应用领域广阔；由于本装置操作过程简单，采用嵌入式平台实现，这样本装置制作成本低廉，经济效益高。
[0075]本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0076]本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0077]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。[0078]这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0079]显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。
【权利要求】
1.一种语音信息转换方法,其特征在于,该方法包括: 接收第一语言类别的语音信息，并动态识别为第一语言类别的文字信息；根据第一语言类别和需要输出的语音信息所属的第二语言类别，将所述第一语言类别的文字信息动态翻译为第二语言类别的文字信息；根据所述第二语言类别的文字信息，合成第二语言类别的语音信息并输出。
2.根据权利要求1所述的一种语音信息转换方法，其特征在于，该方法还包括: 接收第二语言类别的语音信息，并动态识别为第二语言类别的文字信息；根据第二语言类别和需要输出的语音信息所属的第一语言类别，将所述第二语言类别的文字信息动态翻译为第一语言类别的文字信息；根据所述第一语言类别的文字信息，合成第一语言类别的语音信息并输出。
3.根据权利要求1所述的一种语音信息转换方法，其特征在于，所述第一语言类别和需要输出的语音信息所属的第二语言类别是预先根据用户选择设置的。
4.根据权利要求1所述的一种语音信息转换方法，其特征在于，根据第一语言类别和需要输出的语音信息所属的第二语言类别，将所述第一语言类别的文字信息动态翻译为第二语言类别的文字信息，包括: 根据第一语言类别和需要输出的语音信息所属的第二语言类别，确定对应文字转换算法; 采用该文字转换算法将所述第一语言类别的文字信息动态翻译为第二语言类别的文字信息。
5.根据权利要求4所述的一种语音信息转换方法，其特征在于，所述文字转换算法预先以动态链接库的方式存放于数据库中；当需要添加新的文字转换算法时，通过动态链接库的方式将新的文字转换算法添加到所述数据库中。
6.一种语音信息转换装置，其特征在于，该装置包括: 第一音频接口，用于接收第一语言类别的语音信息和输出第二语言类别的语音信息；语音识别模块，用于将所述第一语言类别的语音信息动态识别为第一语言类别的文字信息；语言翻译模块，用于根据第一语言类别和需要输出的语音信息所属的第二语言类别，将所述第一语言类别的文字信息动态翻译为第二语言类别的文字信息；语音合成模块，用于根据所述第二语言类别的文字信息，合成第二语言类别的语音信息并输出。
7.如权利要求6所述的一种语音信息转换装置，其特征在于，该装置还包括第二音频接口，所述第一音频接口与第二音频接口之间相互隔离。
8.如权利要求6所述的一种语音信息转换装置，其特征在于，该装置还包括人机交互界面或人机交互接口，用于预先根据用户选择设置与第一音频接口对应的所述第一语言类别和需要输出的语音信息所属的第二语言类别。
9.如权利要求6所述的一种语音信息转换装置，其特征在于，所述语言翻译模块还用于: 根据第一语言类别和需要输出的语音信息所属的第二语言类别，确定对应文字转换算法; 采用该文字转换算法将所述第一语言类别的文字信息动态翻译为第二语言类别的文字信息。
10.如权利要求9所述的一种语音信息转换装置，其特征在于，该装置还包括存储单元，用于以动态链接库的方式存放所有的文字转换算法于所述存储单元的数据库中；当需要添加新的文字转换算法时，通过动态链接库的方式将新的文字转换算法添加到所述数据库中。
【文档编号】G06F17/28GK103838714SQ201210478720
【公开日】2014年6月4日申请日期:2012年11月22日优先权日:2012年11月22日
【发明者】段作杰, 赵欣申请人:北大方正集团有限公司, 方正移动传媒技术（北京）有限公司

完整全部详细技术资料下载

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。