语音处理/语训方法,系统，存储介质、体外机及耳蜗与流程

文档序号：11213920阅读：673来源：国知局

本发明属于人工耳蜗技术领域，涉及一种处理方法及系统，特别是涉及一种语音处理/语训方法,系统，存储介质、体外机及耳蜗。

背景技术：

信息社会中，人与人之间的交流变得越来越重要，而丧失听力的聋人却不能使用语音这种方便有效的工具进行正常的人际交流，更无法享受诸如欣赏音乐这样的生活乐趣。帮助聋人重新回到有声世界，使他们过上正常人的生活，是一件具有重要社会意义的工作。为了这一目标，前人开展了大量的研究工作，探索出了一些可行的方法和技术，人工耳蜗植入技术就是较好的一种方法。

人工耳蜗的基本原理是利用体外语音处理器代替耳蜗对声音进行频率分析。对于语音处理器采用的语音处理方法，国外开展这方面的研究已经有几十年的历史。

但是现有的人工耳蜗具有以下几个缺点：

1、依赖专业发声装置；

2、依赖特定的安静环境；

3、无法随机进行语训训练。

因此，如何提供一种语音处理/语训方法，系统，存储介质、体外机及耳蜗，以解决现有技术中人工耳蜗需要依赖专业发声装置、依赖特定的安静环境，且无法随机进行语训训练等缺陷，实以成为本领域技术人员亟待解决的技术问题。

技术实现要素：

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种语音处理/语训方法，系统，存储介质、体外机及耳蜗，用于解决现有技术中人工耳蜗需要依赖专业发声装置、依赖特定的安静环境，且无法随机进行语训训练的问题。

为实现上述目的及其他相关目的，本发明一方面提供一种语音处理方法，所述语音处理方法包括：接收外部所导入的语训素材；将所述语训素材转换成数字信号；发送所述数字信号。

于本发明的一实施例中，所述将所述语训素材转换成数字信号的步骤包括：对所述语训素材进行高频补偿；对高频补偿后的语训素材进行分带滤波，得到分带滤波后的语音信号；过零点检测所述分带滤波后的语音信号，提取语音信号的包络；对包络进行压缩，以形成所述数字信号。

本发明另一方面提供一种基于所述的语音处理方法的语训方法，应用于包括植入体和耳蜗的人工耳蜗系统；所述语训方法包括：将所述数字信号转换成音频信号；将所转换的音频信号转换成用于驱动与该耳蜗内电极相应的电信号；待进入语训模式后，通过所述电信号刺激患者听神经纤维。

于本发明的一实施例中，所述将所转换的音频信号转换成用于驱动与该耳蜗内电极相应的电信号的步骤为：将所转换的音频信号与预存的标准音频信号进行比对，以判断所转换的音频信号是否适用于该植入体；若是，则直接将所转换的音频信号转换成用于驱动与该耳蜗内电极相应的电信号；若否，则将所转换的音频信号进行处理，以形成标准音频信号，并将所形成的标准音频信号转换成用于驱动与该耳蜗内电极相应的电信号。

于本发明的一实施例中，所述将所形成的标准音频信号转换成用于驱动与该耳蜗内电极相应的电信号的步骤还包括：将所形成的标准音频信号转换成仿真电极信号；在转换过程中，所述仿真点电极数与所述耳蜗内的电极数一致。

于本发明的一实施例中，将所转换的音频信号的电压值与预存的标准音频信号的电压值进行比对。

于本发明的一实施例中，所述语训方法还包括在进入进入语训模式的同时，显示与所转换的音频信号相对应的语训素材。

本发明另一方面还提供一种语音处理系统，包括：数据接收模块，用于接收外部所导入的语训素材；第一数据转换模块，用于将所述语训素材转换成数字信号；第一通信模块，用于发送所述数字信号

本发明另一方面又提供一种基于所述的语音处理系统的语训系统，应用于包括植入体和耳蜗的人工耳蜗系统；所述语训系统包括：第二数据转换模块，用于将所述数字信号转换成音频信号；处理模块，用于将所转换的音频信号转换成用于驱动与该耳蜗内电极相应的电信号；刺激模块，用于待进入语训模式后，通过所述电信号刺激患者听神经纤维，以形成听觉。

于本发明的一实施例中，所述语训系统还包括与所述第二数据转换模块耦合的第二通信模块，用于接收所述语音处理系统的第一通信模块所发送的数字信号；其中，所述第一通信模块和第二通信模块为wifi模块、蓝牙模块、zigbee模块、3g模块、或4g模块。

本发明又一方面提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现所述语音处理方法，或该程序被处理器执行时所述语训方法。

本发明又一方面还提供一种体外机，包括：第一处理器及第一存储器；所述第一存储器用于存储计算机程序，所述第一处理器用于执行所述第一存储器存储的计算机程序，以使所述体外机执行所述语音处理方法。

本发明最后一方面提供一种耳蜗，包括：第二处理器及第二存储器；所述第二存储器用于存储计算机程序，所述第二处理器用于执行所述第二存储器存储的计算机程序，以使所述耳蜗执行所述语训方法。

如上所述，本发明的语音处理/语训方法,系统，存储介质、体外机及耳蜗，具有以下有益效果：

本发明语音处理/语训方法,系统，存储介质、体外机及耳蜗通过将语音采集和言语处理功能移植到移动设备上，利用移动设备强大的运算能力改善现有人工耳蜗普遍处理能力不高的问题，能实现更为完善的语音信号的处理和更好的降噪效果；大幅提升语音信号的处理能力；省掉了麦克风和播放器，从而大大减小了人工耳蜗的体外机的体积；并可以不依赖专业发声装置、特定的安静环境随时进行语训训练，例如，除定期康复训练外，用户可以针对自身情况通过重复播放不易识别的词句，达到自我练习，提升模糊词句识别能力，以满足各种复杂环境使用需求，达到更好的使用效果。

附图说明

图1a显示为本发明的语音处理方法于一实施例中的流程示意图。

图1b显示为本发明的基于所述的语音处理方法的语训方法于一实施例中的流程示意图。

图2显示为本发明的语音处理系统于语训系统的交互原理示意图。

元件标号说明

21语音处理系统

211数据接收模块

212第一数据转换模块

213第一通信模块

22语训系统

221第二通信模块

222第二数据转换模块

223处理模块

224刺激模块

s11～s13步骤

s14～s18步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

实施例一

本实施例提供一种语音处理方法，其特征在于，所述语音处理方法包括：

接收外部所导入的语训素材；

将所述语训素材转换成数字信号；

发送所述数字信号。

以下将结合图示对本实施例所提供的语音处理方法进行详细描述。去请参阅图1，显示为语音处理方法于一实施例中的流程示意图。如图1a所示，所述语音处理方法具体包括以下几个步骤：

s11，接收外部所导入的语训素材。在本实施例中，所述语训素材为用于训练听觉患者的音频资料。

s12，将所述语训素材转换成数字信号。在本实施例，步骤s12具体包括以下几个步骤：

对所述语训素材进行高频补偿。在本实施例中，通过预加重语音信号经一阶fir高通滤波器提升信号中的高频成分。

对高频补偿后的语训素材进行分带滤波，得到分带滤波后的语音信号。在本实施例中，分带滤波根据人耳听觉特性对语音频带进行等bark尺度划分，分为若干子带，并基于傅氏变换的频域滤波技术对信号进行零相位失真滤波，得到每个子带的信号。在本实例中，该语训素材是针对与至对应的人工耳蜗中的每一个通道对应信号中的一个子带，分带滤波的作用即为提取每个子带的时域信号。由于本实施例中采用了基于傅氏变换的频域滤波技术实现分带滤波。这种技术的优点在于滤波过程中不会引入相位失真，是一种零相位失真的带通滤波器。

过零点检测所述分带滤波后的语音信号，提取语音信号的包络。在实施例中，通过过零点检测各个频带的信号正向过零点，作为该频带的零相位时刻。利用hilbert变换提取各个子带信号的包络。

对包络进行压缩，以形成所述数字信号。在本实施例中，对包络值的动态范围进行非线性压缩，以形成所述数字信号。

s13，发送步骤s12形成的数字信号。

本实施例还提供基于所述的语音处理方法的语训方法，应用于包括植入体和耳蜗的人工耳蜗系统；所述语训方法包括：

将所述数字信号转换成音频信号；

将所转换的音频信号转换成用于驱动与该耳蜗内电极相应的电信号；

待进入语训模式后，通过所述电信号刺激患者听神经纤维以下将结合图示对本实施例所提供的语训方法进行详细描述。请参阅图1b，显示为基于所述的语音处理方法的语训方法于一实施例中的流程示意图。如图1b所示，所述语训方法包括以下几个步骤：

s14，将所述数字信号转换成音频信号。将所述数字信号转换成模拟的音频信号。

s15，将所转换的音频信号转换成用于驱动与该耳蜗内电极相应的电信号。

具体地，将所转换的音频信号与预存的标准音频信号进行比对，以判断所转换的音频信号是否适用于该植入体；若是，则执行步骤s16，若否，则执行步骤s17。在本实施例中，所述标准音频信号为：使用通过实验室环境下对音频输入设备进行校准后，由该校准音频输入设备获得的音频信号的电压值相对于其他音频输入设备获得的音频信号电压值是一个参考标准。换句话说，步骤s15将所转换的音频信号的电压值与预存的标准音频信号的电压值进行比对。

s16，直接将所转换的音频信号转换成用于驱动与该耳蜗内电极相应的电信号。所述用于驱动与该耳蜗内电极相应的电信号是对所转换的音频信号利用ace算法得到的仿真电极信号，且在仿真过程中仿真电极数与电子耳蜗设备包含的工作电极数一致。

s17，将所转换的音频信号进行处理，以形成标准音频信号，并将所形成的标准音频信号转换成用于驱动与该耳蜗内电极相应的电信号。在本实施例中，对所转换的音频信号进行补偿，以形成标准音频信号。

s18，待进入语训模式后，通过所述电信号刺激患者听神经纤维。在本实施例中，用户可以通过程序选择开关选择进入语训模式。在调入训练音之前可以从用户上次使用的阶段开始，也可以由用户通过程序选择开关选择进入不同的训练阶段。在训练过程中，将有不同的提示音让用户知道训练的进程。在本实施例中，所述语训方法还包括在进入进入语训模式后，所述电信号刺激患者听神经纤维的同时，显示与所转换的音频信号相对应的语训素材。例如与音频信号对应的视频，或图片。

本实施例还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现所述语音处理方法，或该程序被处理器执行时实现所述语训方法。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于ram、rom、eeprom、cd-rom或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(dsl)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、dvd、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

本实施例所述语音处理方法，语训方法及存储介质通过将语音采集和言语处理功能移植到移动设备上，利用移动设备强大的运算能力改善现有人工耳蜗普遍处理能力不高的问题，能实现更为完善的语音信号的处理和更好的降噪效果；大幅提升语音信号的处理能力；省掉了麦克风和播放器，从而大大减小了人工耳蜗的体外机的体积；并可以不依赖专业发声装置、特定的安静环境随时进行语训训练，例如，除定期康复训练外，用户可以针对自身情况通过重复播放不易识别的词句，达到自我练习，提升模糊词句识别能力，以满足各种复杂环境使用需求，达到更好的使用效果。

实施例二

本实施例提供一种语音处理系统，请参阅图2，显示为语音处理系统于语训系统的交互原理示意图。如图2所示，所述语音处理系统21包括：数据接收模块211、第一数据转换模块212、及第一通信模块213。

所述数据接收模块211用于接收外部所导入的语训素材。在本实施例中，所述语训素材为用于训练听觉患者的音频资料。

与所述数据接收模块211耦合的第一数据转换模块212用于将所述语训素材转换成数字信号。在本实施例，所述第一数据转换模块212用于对所述语训素材进行高频补偿；对高频补偿后的语训素材进行分带滤波，得到分带滤波后的语音信号；过零点检测所述分带滤波后的语音信号，提取语音信号的包络；对包络进行压缩，以形成所述数字信号。在本实施例中，第一数据转换模块212通过预加重语音信号经一阶fir高通滤波器提升信号中的高频成分。第一数据转换模块212分带滤波根据人耳听觉特性对语音频带进行等bark尺度划分，分为若干子带，并基于傅氏变换的频域滤波技术对信号进行零相位失真滤波，得到每个子带的信号。在本实例中，该语训素材是针对与至对应的人工耳蜗中的每一个通道对应信号中的一个子带，分带滤波的作用即为提取每个子带的时域信号。第一数据转换模块212的过零点检测所述分带滤波后的语音信号，提取语音信号的包络。在本实施例中，通过过零点检测各个频带的信号正向过零点，作为该频带的零相位时刻。利用hilbert变换提取各个子带信号的包络。第一数据转换模块212用于对包络进行压缩，以形成所述数字信号。在本实施例中，对包络值的动态范围进行非线性压缩，以形成所述数字信号。本实施例所提供的语音处理系统可以使人工耳蜗系统省掉了麦克风、播放器，从而大大减小了人工耳蜗的体外机的体积。

与所述第一数据转换模块212耦合的第一通信模块213用于发送第一数据转换模块212形成的数字信号。

继续参阅图2，所述语训系统22包括第二通信模块221、第二数据转换模块222、处理模块223、及刺激模块224。

与所述语音处理系统21的第一通信模块213通信连接的第二通信模块221用于接收所述第一通信模块213在所述人工耳蜗系统进入语训模式后，接收所述语音处理系统的第一通信模块所发送的数字信号。在本实施例中，所述第一通信模块和第二通信模块为wifi模块、蓝牙模块、zigbee模块、3g模块、或4g模块。

与所述第二通信模块221耦合的第二数据转换模块222用于将所述数字信号转换成音频信号。将所述数字信号转换成模拟的音频信号。

与所述第二数据转换模块223耦合的处理模块223用于将所转换的音频信号转换成用于驱动与该耳蜗内电极相应的电信号。具体地，所述处理模块223用于将所转换的音频信号与预存的标准音频信号进行比对，以判断所转换的音频信号是否适用于该植入体；若是，则直接将所转换的音频信号转换成用于驱动与该耳蜗内电极相应的电信号；若否，则将所转换的音频信号进行处理，以形成标准音频信号，并将所形成的标准音频信号转换成用于驱动与该耳蜗内电极相应的电信号。在本实施例中，所述标准音频信号为：使用通过实验室环境下对音频输入设备进行校准后，由该校准音频输入设备获得的音频信号的电压值相对于其他音频输入设备获得的音频信号电压值是一个参考标准。换句话说，处理器223将所转换的音频信号的电压值与预存的标准音频信号的电压值进行比对。在本实施例中，所述用于驱动与该耳蜗内电极相应的电信号是对所转换的音频信号利用ace算法得到的仿真电极信号，且在仿真过程中仿真电极数与电子耳蜗设备包含的工作电极数一致。在本实施例中，所述处理模块223对所转换的音频信号进行补偿，以形成标准音频信号。

与所述处理模块223耦合的刺激模块224用于进入语训模式后，通过所述电信号刺激患者听神经纤维。在本实施例中，用户可以通过程序选择开关选择进入语训模式。在调入训练音之前可以从用户上次使用的阶段开始，也可以由用户通过程序选择开关选择进入不同的训练阶段。在训练过程中，将有不同的提示音让用户知道训练的进程。

与所述处理模块223和刺激模块224耦合的显示模块225用于进入进入语训模式后，在所述刺激模块224刺激患者听神经纤维的同时，显示与所转换的音频信号相对应的语训素材。例如与音频信号对应的视频，或图片。

需要说明的是，应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，x模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(applicationspecificintegratedcircuit，简称asic)，或，一个或多个微处理器(digitalsingnalprocessor，简称dsp)，或，一个或者多个现场可编程门阵列(fieldprogrammablegatearray，简称fpga)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(centralprocessingunit，简称cpu)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称soc)的形式实现。

实施例三

本实施例提供的一种体外机。本实例提供的体外机，包括：第一处理器、第一存储器、第一收发器、第一通信接口和第一系统总线；第一存储器和第一通信接口通过第一系统总线与第一处理器和第一收发器连接并完成相互间的通信，第一存储器用于存储计算机程序及导入的语训素材，第一通信接口用于和耳蜗进行通信，第一处理器和第一收发器用于运行计算机程序，使体外机执行如实施例一语音处理方法的各个步骤。

本实施例还提供一种耳蜗。本实例提供的耳蜗，包括：第二处理器、第二存储器、第二收发器、第二通信接口和第二系统总线；第二存储器和第二通信接口通过第二系统总线与第二处理器和第二收发器连接并完成相互间的通信，第二存储器用于存储计算机程序及预存的标准音频信号，第二通信接口用于和耳蜗进行通信，第二处理器和第二收发器用于运行计算机程序，使体外机执行如实施例一语训方法的各个步骤。

上述提到的系统总线可以是外设部件互连标准(peripheralpomponentinterconnect，简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture，简称eisa)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(randomaccessmemory，简称ram)，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(centralprocessingunit，简称cpu)、网络处理器(networkprocessor，简称np)等；还可以是数字信号处理器(digitalsignalprocessing，简称dsp)、专用集成电路(applicationspecificintegratedcircuit，简称asic)、现场可编程门阵列(field－programmablegatearray，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

综上所述，本发明语音处理/语训方法,系统，存储介质、体外机及耳蜗通过将语音采集和言语处理功能移植到移动设备上，利用移动设备强大的运算能力改善现有人工耳蜗普遍处理能力不高的问题，能实现更为完善的语音信号的处理和更好的降噪效果；大幅提升语音信号的处理能力；省掉了麦克风和播放器，从而大大减小了人工耳蜗的体外机的体积；并可以不依赖专业发声装置、特定的安静环境随时进行语训训练，例如，除定期康复训练外，用户可以针对自身情况通过重复播放不易识别的词句，达到自我练习，提升模糊词句识别能力，以满足各种复杂环境使用需求，达到更好的使用效果。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：许长建
技术所有人：上海力声特医学科技有限公司
我是此专利的发明人

上一篇：电动丝杠入滑道的听音设备的制造方法与工艺
上一篇：用于测井仪器的新型吸热体的制造方法与工艺