助听系统与助听系统的语音撷取方法与流程

文档序号：14655390发布日期：2018-06-12 02:58阅读：169来源：国知局

技术领域

本发明涉及一种助听系统与助听系统的语音撷取方法，特别是涉及一种结合影像辅助收音的助听系统与助听系统的语音撷取方法。

背景技术：

鸡尾酒会效应(cocktail party effect)是指人的一种听力选择能力，在这种情况下，注意力会集中在某一个人的谈话中，而忽略背景中其他的对话或噪音。使我们可以在吵杂环境中谈话。但是由于听损患者的听力阀值上升，导致这样的听觉选择性倾听的能力大幅降低，以致于目前的助听器使用者在面对众多语言讯号中，如何选取目标语言讯号，而不被其他语言讯号干扰，成了一个很大的挑战。

目前助听器利用声音讯号特性不同，虽然可以有效的区分语音(speech)及噪音(noise)，而将噪音讯号滤除，但是在日常生活环境却经常同时存在许多语音讯号，且其中大多数语音讯号是患者不想听的，如鸡尾酒会、市场、餐厅等地方，虽然使用方向性麦克风可以降低来自患者后方及侧面的声音讯号，但是来自患者前方的声音讯号中，除了谈话对象的语音外，可能仍然充斥着其他人的讲话声。

人类的听力系统本来就是双耳功能的加成，是利用声音传至双耳的时间及强度差异来进行声音定位，目前最先进的降低噪音与提高讯杂比的方法，就是双耳配戴助听器，应用无线技术可以使两侧助听器同步处理、互相沟通，这种技术称为耳对耳(ear-to-ear)通讯，保留讯号的双耳线索，并以波束成型法(beamforming)技术，过滤出患者正前方的声音，且提高讯噪比，而达到可在吵杂的环境里与人面对面交谈的目的。

虽然双耳通讯与波束成型的技术可以定位声音的方向，但是面对前方有多个语言讯号时，通常无法得知哪个方向的语音讯号是大脑要的，所以只能保留病患最正面的较强语言讯号，以致于在面临一个人对两个人讲话、一个人对三个人讲话，或者是患者前方有很多人在讲话的场面时，经常无法顺利取得所需的语音讯号。

技术实现要素：

本发明的目的在于提供一种通过影像辅助撷取语音，而有助于降低语音干扰的助听系统及助听系统的语音撷取方法。

本发明助听系统，包含一个助听装置，该助听装置包括一个影像撷取器、一个麦克风阵列单元、一个微处理器与至少一个声音输出器。该影像撷取器能够撷取使用者视野前方的视野影像。该麦克风阵列单元包括多个相间隔并能够撷取声音的麦克风。该微处理器是讯号连接于该影像撷取器与所述麦克风，包括一个影像分析模块，及一个声音处理模块，该影像分析模块能够分析输出该视野影像中的所有人脸影像相对于该使用者的距离与方位，并根据所述人脸影像的距离和方位，对所述人脸影像作为讲话对象的可能性进行分类，而对应输出一个可能性讯号源分类，该可能性讯号源分类规划有多个分别具有不同可能性的级别，该声音处理模块能够根据被分类于一个可能性最高的级别内的所有人脸影像的方位，以及所述麦克风撷取的声音讯号，通过波束成型方法过滤出该可能性最高的级别内的所有人脸影像的方位的语音讯号。该声音输出器是讯号连接于该微处理器，并能够将该微处理器输出的语音讯号输出以供聆听。

本发明所述助听系统，该影像分析模块包括一个能够分析出该视野影像中的所述人脸影像相对于使用者的距离远近的距离分析单元、一个能够分析出所述人脸影像相对于使用者的方位的方位分析单元，及一个内建有一个可能性分类基准的可能性分析单元，该可能性分类基准内建有用于分析运算出该可能性讯号源分类时的人脸影像的距离与方位的运算权重比，该可能性分析单元是根据每一个人脸影像的距离与方位的运算权重比，分析统计输出该可能性讯号源分类。

本发明所述助听系统，该影像分析模块还包括一个能够分析出所述人脸影像相对使用者左右偏转的偏转角度的偏转分析单元，该可能性分类基准还内建有用于分析运算出该可能性讯号源分类时的偏转角度的运算权重比，且该影像分析模块的该可能性分析单元是根据所述人脸影像的距离、方位与偏转角度的运算权重比，分析统计输出关于所述人脸影像的该可能性讯号源分类。

本发明所述助听系统，该影像分析模块还包括一个唇形分析单元，该唇形分析单元能够分析一个分类有至少一个人脸影像且可能性最高的级别内的所有人脸影像的嘴唇是否有开合变形，且会对应每一个嘴唇有开合变形的人脸影像输出一个讲话讯号，该声音处理模块能够被该讲话讯号触发，而过滤出该讲话讯号对应的人脸影像的方位的语音讯号。

本发明所述助听系统，该声音处理模块包括一个能够于分析所述麦克风接收输出的声音讯号中含有语音讯号时，触发启动该影像撷取器开始撷取影像的语音触发单元。

本发明所述助听系统，还包含一个能够配戴于使用者头部的载具，该载具包括一个左右延伸且位于使用者脸部前侧的前载体，及两个左右间隔地安装于该前载体并能够供配戴于双耳的侧载体，该影像撷取器是安装于该前载体，所述麦克风是分别安装于所述侧载体。

本发明所述助听系统，部分麦克风是左右间隔地安装于该前载体。

本发明助听系统的语音撷取方法，包含以下步骤：(a)将一个助听装置配置于使用者身上，该助听装置包括一影像撷取器与一麦克风阵列单元，该麦克风阵列单元包括多个相间隔的麦克风；(b)以该影像撷取器撷取该使用者视野前方的视野影像；(c)使该助听装置自该视野影像中辨识出人脸影像，并判断出所述人脸影像分别相对于该使用者的距离与方位；(d)使该助听装置根据所述人脸影像分别相对于该使用者的距离与方位，对所述人脸影像作为讲话对象的可能性进行级别分类，而对应输出一个可能性讯号源分类；及(e)使该助听装置利用所述麦克风感测输出的声音讯号，并通过波束成型方法，将步骤(d)的可能性讯号源分类中被分类于一个可能性最高的级别内的所有人脸影像的方位的语音讯号过滤出来。

本发明所述助听系统的语音撷取方法，步骤(d)是使该助听装置根据人脸影像偏离该视野影像的一个视野中心的偏离角度来定义出相对该使用者的方位，且针对人脸影像相对于该使用者的距离大小，及方位分别给予不同的运算权重比，并根据所述人脸影像的距离与方位分别对应的运算权重比，分析统计输出关于所述人脸影像作为谈话对象的可能性的可能性讯号源分类。

本发明所述助听系统的语音撷取方法，步骤(c)还使该助听装置分析辨识所述人脸影像相对使用者左右偏转的偏转角度，步骤(d)是使该助听装置针对人脸影像的偏转角度大小分别给予不同的运算权重比，且根据每一个人脸影像的距离、方位与偏转角度分别对应的运算权重比，分析统计输出该可能性讯号源分类。

本发明所述助听系统的语音撷取方法，还包含一个步骤(f)使该助听装置分析一个分类有至少一个人脸影像且可能性最高的级别内的所有人脸影像的嘴唇是否有开合变形，并对应嘴唇有开合变形的人脸影像分别输出一个讲话讯号，步骤(e)是使该助听装置只输出该讲话讯号对应的人脸影像的方位的语音讯号。

本发明所述助听系统的语音撷取方法，步骤(b)该助听装置是于所述麦克风接收的声音讯号中含有语音讯号时，才启动该影像撷取器开始撷取影像。

本发明所述助听系统的语音撷取方法，步骤(a)的助听装置具有一个能够供配戴于使用者头部的载具，该助听装置是配置于使用者头部。

本发明的有益的效果在于：通过先分析一个视野影像中的每一个人脸影像，以找出最可能为讲话对象的人脸影像后，再利用波束成型方法过滤出最可能为讲话对象的方位的语音讯号的设计，可大幅提高在人群中成功撷取到讲话对象的语音的成功率，而有助于降低语音干扰。

附图说明

图1是本发明助听系统的一个较佳实施例的立体示意图；

图2是该较佳实施例的功能方块图；

图3是本发明助听系统的语音撷取方法的较佳实施例的步骤流程图；

图4是该较佳实施例的一个助听装置撷取的视野影像的示意图；

图5是一个俯视示意图，示意说明图4的人脸影像所代表的讲话对象相对于一个视野中心的左右偏离角度。

具体实施方式

下面结合附图及实施例对本发明进行详细说明。

如图1、2、4，本发明助听系统的较佳实施例，适用于配戴在一位听力受损的使用者头部，以协助该使用者撷取讲话对象的语音讯号。该助听系统包含一个可供配戴于使用者头部的助听装置2，及一个与该助听装置2无线讯号连接而可遥控该助听装置2的遥控装置8。

该助听装置2包括一个供配戴于患者头部的载具3，及分别安装于该载具3的一个影像撷取器4、一个麦克风阵列单元5、一个微处理器6与两个声音输出器7。在本实施例中，该载具3是设计成眼镜型式，具有一个位于患者双眼前方且装设有镜片310的镜框状的前载体31，及两个左右间隔安装于该前载体31并供配挂于双耳的镜脚状的侧载体32。

该影像撷取器4是安装于该前载体31的中间区段处，可撷取使用者前方视野的影像，而输出一个视野影像40。

该麦克风阵列单元5包括多个麦克风51，麦克风51是左右成对地分别安装外露于两侧载体32，且前后间隔地分别沿侧载体32长度方向间隔设置，可分别感测周遭声音而输出一个声音讯号。实施时，麦克风可以采用指向性麦克风、全向性麦克风，或者是两种麦克风的组合。

该微处理器6是埋设固定于其中一个侧载体32中，且讯号连接于该影像撷取器4与麦克风51，包括一个影像分析模块61，及一个声音处理模块62。

该影像分析模块61可自该视野影像40中分析找出所有的人脸影像401，并进一步分析出人脸影像401分别相对于配戴此助听装置的使用者的距离与方位，及人脸影像401相对于使用者的左右偏转角度，并根据人脸影像401的距离、方位与偏转角度等参数，分析出人脸影像401作为讲话对象的可能性。该影像分析模块61包括一个距离分析单元611、一个方位分析单元612、一个偏转分析单元613、一个可能性分析单元614，及一个唇形分析单元615。

该距离分析单元611于分析人脸影像401相对于使用者的距离时，其内建有一般人脸影像在各种距离时的参考尺寸基准，会根据该参考尺寸基准来分析评估人脸影像401的尺寸所对应的距离，例如根据人脸影像401在该视野影像40中所占画素面积来进行尺寸分析，并对应输出人脸影像401的距离资料。但是实施时，分析计算出该视野影像40中的人脸影像401相对于该使用者的距离的方法众多，不以上述方法为限。

配合图5，该方位分析单元612于分析人脸影像401分别相对于该使用者的方位时，是以该视野影像40的左右向的视野中心402为基准，在已分析出人脸影像相对于使用者距离后，就可根据人脸影像相对于该视野中心402的左右间距，而进一步分析出人脸影像相对于该使用者视野中心的左右水平偏离夹角，如图5所示的θ1、θ2、θ3，而得出每一个人脸影像相对于使用者的方位，例如位于该视野中心402往右偏离30°处，并对应输出人脸影像401的方位资料。但是实施时，分析计算出该视野影像40中的人脸影像401相对于该视野中心402的方位的方法众多，不以上述方法为限。

该偏转分析单元613于分析人脸影像401的偏转角度时，主要是分析人脸影像401相对于使用者正面的左右偏转角度，并对应输出人脸影像401的偏转角度资料。

该可能性分析单元614内建有一个用于分析人脸影像401作为讲话对象的可能性的可能性分类基准，该可能性分类基准主要是参考一般人面对面进行讲话时的讲话习惯与礼仪，分别就人脸影像401相对于该使用者的距离远近、左右偏离角度大小，以及左右偏转角度大小设定有不同的运算权重比。

一般而言，人与人的讲话距离大致可区分为亲密距离、社交距离、礼仪距离与公共距离等四种，其中，亲密距离约在0.5公尺内，通常用于夫妻、情侣、父母、子女或知心好友等重要人物间；社交距离则在0.5～1.5公尺范围，伸手可握到对方的手，但是不易触碰到对方的身体；礼仪距离则大约在1.5～3公尺范围，适用于表示敬重，以及会议与仪式场合；公共距离则大于3公尺，适用于一般演讲者与听众间，以及不相识的人。基于此，越亲密或越重要的讲话对象通常会越接近使用者，且会越接近使用者的视野中心，同时会尽量面向使用者。

因此，该可能性分析单元614在分析人脸影像401作为讲话对象的可能性时，是以距离为优先考量，距离越近，可能性越高，然后再考量方位，越接近该视野中心402者，表示越接近使用者视野中心，作为谈话对象的可能性越高，最后，再考量人脸影像401的左右偏转角度，偏转角度越小者，表示该人脸影像401越是正面朝向使用者，作为谈话对象的可能性越高。此外，距离使用者越近的运算权重比越大，距离越远则相对越小；越接近该视野中心402，也就是越接近该使用者的视野中心者的运算权重比越大，越偏离该视野中心402的运算权重比越小；偏转角度越小，表示该人脸影像401越是正面面对使用者，其运算权重比越大，反之越小。

该可能性分析单元614于分析人脸影像401作为讲话对象的可能性时，会根据该可能性分类基准所设定的运算权重比，以及人脸影像401分别相对于使用者的距离、方位与偏转角度等参数，对人脸影像401进行作为讲话可能性的统计分析，并对应输出一个可能性讯号源分类，该可能性讯号源分类依据作为讲话对象的可能性高低，分设有多个不同可能性级别，例如最高可能性级别、中度可能性级别，及低可能性级别等，会将人脸影像401的各参数的运算权重比统计分析后，依据各可能性级别所设定的可能性门槛限制，以及人脸影像401的可能性分析结果，将人脸影像401分别分类于对应的可能性级别中。

该唇形分析单元615可于该可能性分析单元614分析输出该可能性讯号源分类后，对被分类有人脸影像401的可能性最高的级别中的所有人脸影像401进行唇形影像分析，嘴唇有开合变形就表示该人脸影像401可能是在讲话，并对应嘴唇有开合变形的每一个人脸影像401分别输出一个讲话讯号。例如先判断是否有人脸影像401被分类于最高可能性级别，若有，则对该最高可能性级别内的所有人脸影像401进行唇形影像分析，若无人脸影像401被分类于该最高可能性级别中，则接着判断是否有人脸影像401被分类于该中度可能性级别，若有，则对该中度可能性级别内的所有人脸影像401进行唇形分析。若中度可能性级别也无人脸影像401时，则停止判断，表示当下视野影像40中的所有人作为讲话对象的可能性非常低。

该声音处理模块62可接收处理麦克风51感测输出的声音讯号，例如进行模拟/数位转换、降噪处理等音源讯号常见的处理作业。该声音处理模块62包括一个语音触发单元621，及一个语音定位单元622。该语音触发单元621可接收分析麦克风51感测输出的使用者正面的声音讯号中是否含有语音讯号，若分析出含有语音讯号时，表示使用者正面有人在讲话，则触发启动该影像撷取器4开始撷取影像，并触发该影像分析模块61开始进行讲话对象的可能性分析。

该语音定位单元622会被该唇形分析单元615输出的所有讲话讯号驱动，而通过波束成型(beamforming)方法，撷取每一个讲话讯号所对应的人脸影像401的方位的声音讯号，也就是排除其他方位的声音讯号，然后，再进一步通过语音提取方法，自所得到的声音讯号中将不需要的噪音降噪滤除，并将语音讯号过滤放大输出，就可得到嘴唇有开合变形的人脸影像401的语音讯号，并将取得的所有语音讯号输出至声音输出器7。

由于通过波束成型(beamforming)方法撷取特定方位的声音讯号，以及自撷取的声音讯号中过滤出语音讯号，并对杂音进行降噪过滤处理等都是现有技术，且方法相当多，也非本发明的改良重点，因此不再详述。

声音输出器7为可供塞装于使用者耳中，可将该声音处理模块62撷取放大的语音讯号输出以供患者聆听。

该遥控装置8可通过无线通讯技术与该助听装置2进行无线通讯与资料传输，可接收显示该助听装置2的视野影像40，所述无线通讯可以是WiFi、ZigBee、NFC(近场通讯，Near Field Communication)或蓝牙(Bluetooth)等，但是不以上述类型为限。

该遥控装置8包括一个用于显示所接收的该视野影像40的触控显示模块81，及一个遥控模块82。该触控显示模块81可供触控点选其显示的视野影像40中的人脸影像401，该遥控模块82会对应该触控显示模块81被点选的每一个人脸影像401产生一个点选讯号，该遥控装置8会将所有点选讯号无线发送至该助听装置2，以控制该助听装置2运作。

该语音定位单元622可被该遥控装置8所传送的每一个点选讯号驱动，而撷取放大输出各点选讯号所对应的人脸影像401的方位的语音讯号，并将语音讯号传送至声音输出器7输出。

该遥控装置8为一般常见的行动装置，例如智慧型手机、平板电脑或笔记型电脑等，该遥控模块82是以APP模式程式化建构于该遥控装置8，可于被启动时，使该遥控装置8与该助听装置2无线讯号连结。但是实施时，该遥控装置8类型不以上述行动装置类型为限，且该遥控模块82设置于该遥控装置的型式不以APP方式为限，也可通过电子元件与软体程式建构而成。

如图2、3、4所示，以下接着说明本发明助听系统的语音撷取方法的步骤：该语音撷取方法包含以下步骤：

(一)于使用者头部配设该助听装置2。将该眼镜型式的载具3配置于使用者头部，而当作一般眼镜使用，并将声音输出器7分别塞装于两耳中。

(二)分析辨识语音。当使用者正面无语音讯号的环境时，该影像撷取器4与该影像分析模块61不会运作，只该麦克风阵列单元5会持续感测周遭声音讯号，该语音触发单元621会持续接收分析声音讯号内容，当该语音触发单元621分析出来自使用者正面的声音讯号含有语音讯号时，该语音触发单元621便会触发启动该影像撷取器4与该影像分析模块61。

(三)该影像撷取器4被触发启动而撷取该使用者视野前方的视野影像40。

(四)分析视野影像40中的人脸影像401作为讲话对象的可能性。当该影像撷取器4开始撷取输出该视野影像40时，该影像分析模块61会开始分析该视野影像40，并于分析出该视野影像40中含有人脸影像401时，该距离分析单元611、该方位分析单元612与该偏转分析单元613会分别开始进一步分析每一个人脸影像401相对于使用者距离、方位与偏转角度。然后，该可能性分析单元614会根据该可能性分类基准，统计分析出该视野影像40中的所有人脸影像401作为讲话对象的可能性的可能性讯号源分类。

步骤(五)分析人脸影像401的嘴唇是否开合变形。在该可能性分析单元614分析输出该可能性讯号源分类后，该唇形分析单元615会接续分析被分类有人脸影像401的可能性最高的级别内的所有人脸影像401的嘴唇是否开合变形，并对应嘴唇有开合变形的人脸影像401分别输出一个讲话讯号。当无人脸影像401被分类于该高度可能性级别时，会接着分析该中度可能性级别的人脸影像401的嘴唇开合，以便撷取被分类于该中度可能性级别的人脸影像401方位的语音讯号。

步骤(六)过滤输出嘴唇有开合变形的人脸影像401的方位的语音讯号。该语音定位单元622会被该讲话讯号驱动，而通过波束成型方法过滤出该讲话讯号对应的人脸影像401的方位的语音讯号。

步骤(七)遥控点选预定收音的讲话对象。若使用者想要自己选择要聆听的讲话对象时，可启动该遥控装置8的遥控模块82，使该遥控装置8开始与该助听装置2配对连结，并接收显示出该助听装置2的该视野影像40，并使该遥控装置8于其显示的该视野影像40中的人脸影像401被点选时，对应被点选的该人脸影像401发送一个点选讯号至该助听装置2。

步骤(八)过滤输出被遥控点选的人脸影像401的方位的语音讯号。在该助听装置2与该遥控装置8讯号连结后，该助听装置2会优先接受该遥控装置8的控制。该声音处理模块62会被该点选讯号驱动，通过波束成型方法过滤出被点选的人脸影像401的方位的语音讯号，让使用者自己聆听自己选择的讲话对象的语音。使用者点选人脸影像401时，可点选多个，或者是以圈选方式圈选出一个区域范围内的多个人脸影像401，而可选择聆听多位讲话对象的讲话声。

通过上述语音撷取方法设计，可方便使用者自行选择要通过该影像分析模块61来分析出最可能为讲话对象的人脸影像401后，自动过滤输出前述最可能为讲话对象的人脸影像401方位的语音讯号，或者是要通过该遥控装置8自行点选要过滤输出的人脸影像401方位的语音讯号，可方便使用者根据当下讲话环境的需求，自行选择较合适的语音撷取方式，以准确获得欲进行对话的对象或欲聆听对象的语音讯号。

在本实施例中，该影像分析模块61于对影像撷取器4撷取的视野影像40中的人脸影像401分析输出该可能性讯号源分类后，会再进一步配合分析最高可能性级别或中度可能性级别内的人脸影像401的嘴唇是否开合变形的技术，使得该声音处理模块62可准确地撷取出可能正在讲话的人脸影像401的方位的语音讯号，而可大幅提高在多人环境中取得最可能是讲话对象的语音讯号的成功率。

但是实施时，并不以设置该唇形分析单元615为必要，也就是说，在分析输出该可能性讯号源分类后，不需再进行嘴唇变形分析，若有人脸影像401被分类于最高可能性级别，表示于该最高可能性级别中的这些对象都是相当重要的，为了避免遗漏某位对象的讲话内容，所以可改成直接撷取输出该最高可能性级别内的所有人脸影像401的方位的语音讯号，或者是在无人脸影像401被分类于最高可能性级别时，直接撷取输出该中度可能性级别的所有人脸影像401的方位的语音讯号，若所有人脸影像401都被分类于低可能性级别时，则不对人脸影像进行语音撷取，此时，该助听装置2可进入一般常见的全面性收音模式，或者是只撷取使用者前方的声音的指向性收音模式，由于此两模式为现有助听器收音技术，因此不再详述。

此外，实施时，在分析输出该可能性讯号源分类时，也可不考虑人脸左右偏转的偏转角度的运算权重比，只通过相对于使用者的距离与方位，就足以有效提高在多人环境中取得最可能为讲话对象的语音讯号的成功率。

再者，实施时，该影像撷取器4不以设置在该载具3的前载体31的左右向中心位置为必要，也可设置在该前载体31左右侧，或者是改设在该载具3的其它部位。

综上所述，通过该麦克风阵列单元5所能提供的波束成型技术，并以该影像撷取器4的视野影像40辅助判断最可能的讲话对象的设计，使得该助听装置2可通过该视野影像40中的每一个人脸影像401相对于使用者距离、方位与偏转角度，先自该视野影像40中分析出最可能为讲话对象的人脸影像401后，再进一步利用波束成型方法，过滤出最可能为讲话对象的人脸影像401的方位的语音讯号，可大幅提高在人群中成功撷取到讲话对象的语音的成功率，且可进一步配合辨识人脸影像401的嘴唇是否开合变形，更准确地自最可能为讲话对象的多位对象中过滤输出正在讲话者的语音讯号，可改善目前助听装置2使用上的缺点。并可进一步配合该遥控装置8可供使用者自行选择要撷取语音的对象的设计，可方便使用者通过点选显示于该触控显示模块81的视野影像40中的人脸影像401，选择有兴趣聆听的对象所在方位的语音，可明显提高助听系统的功能性与使用方便性，是一种创新的助听装置2与助听系统设计。因此，确实能达成本发明的目的。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘璟锋;陈筱涵
技术所有人：刘璟锋;陈筱涵
我是此专利的发明人

上一篇：一种钣金冲压用废料清理装置的制作方法
上一篇：一种多级孔花瓣状SAPO-34分子筛及其制备与应用的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。