信号处理装置以及信号处理方法与流程

文档序号：15618983发布日期：2018-10-09 21:53阅读：249来源：国知局

本发明的实施方式涉及信号处理装置以及信号处理方法。

背景技术：

近年来，被称为voc(voiceofcustomer，客户之声)等的收集分析顾客的声音来实现业务改善等的活动被广泛进行。另外，伴随这样的状况，提出了各种各样的集音技术。

技术实现要素：

本发明要解决的技术问题是，提供不需要例如麻烦的事先设定等而能够区分特定说话人的语音和非特定说话人的语音的信号处理装置以及信号处理方法。

根据实施方式，信号处理装置具备分离单元和推定单元。所述分离单元将包括在不同的位置接收并从不同的方位到来的信号的多个信号通过分离滤波器进行分离，输出多个分离信号。所述推定单元按所述多个分离信号的各分离信号推定到来方位，进行所述多个分离信号与所述信号的发送源的关联。所述推定单元基于第1期间内的到来方位的推定结果，将第1属性和第2属性的某一方与进行了与所述信号的发送源的关联的分离信号进行关联，赋予表示所述第1属性的第1标签信息和表示所述第2属性的第2标签信息的某一方。

根据上述构成的信号处理装置，不需要例如麻烦的事先设定等而能够区分特定说话人的语音和非特定说话人的语音。

附图说明

图1是表示实施方式的信号处理装置的外观的一例的图。

图2是表示实施方式的信号处理装置的利用场景的一例的图。

图3是表示实施方式的信号处理装置的硬件结构的一例的图。

图4是表示实施方式的语音记录器应用程序的功能块的一构成例的图。

图5是表示通过实施方式的语音记录器应用程序计算的分离信号的方位特性分布的一例的图。

图6是表示实施方式的语音记录器应用程序进行显示的初始画面的一例的图。

图7是表示实施方式的语音记录器应用程序进行显示的录音中画面的一例的图。

图8是表示实施方式的信号处理装置的与特定说话人的语音和非特定说话人的语音的区分有关的处理流程的一例的流程图。

图9是表示实施方式的信号处理装置的与特定说话人的语音和非特定说话人的语音的区分有关的处理流程的一变形例的流程图。

(标号说明)

10…信号处理装置，11…触摸屏显示器，11a…lcd，11b…触摸面板，11c…数字转换器(digitizer)，12…语音输入设备，101…cpu，102…系统控制器，103…主存储器，104…gpu，105…bios-rom，106…非易失性存储器，107…无线通信设备，108…ec，210…os，220…语音记录器应用程序，221…声源分离部，222…说话人推定部，223…用户接口部，300…语音数据。

具体实施方式

以下，参照附图对实施方式进行说明。

图1是表示实施方式的信号处理装置的外观的一例的图。

该信号处理装置10例如作为能够受理用手指或笔(stylus，触笔)在显示画面上的触摸操作的电子设备来实现。例如，该信号处理装置10可以作为平板式计算机或智能手机等来实现。此外，该信号处理装置10不仅能够受理显示画面上的触摸操作，例如还能够受理外部连接的键盘或定点设备(pointingdevice)、设置于框体周壁的操作按钮等的操作。在此，设想为信号处理装置10能够受理显示画面上的触摸操作，但在该信号处理装置10中，能够受理显示画面上的触摸操作并不是必须的，例如即使只能受理键盘、定点设备、操作按钮等的操作也没有关系。

如图1所示，该信号处理装置10具有触摸屏显示器11。该信号处理装置10例如具有石板(slate)状的框体，触摸屏显示器11配置于该框体的例如上表面。触摸屏显示器11具有平板显示器(platpaneldisplay)和传感器。传感器检测手指或笔所接触的平板显示器的画面上的位置。平板显示器例如是lcd(liquidcrystaldisplay，液晶显示器)等。传感器例如是静电容量方式的触摸面板或电磁感应方式的数字转换器等。在此，设想为触摸屏显示器11具有触摸面板和数字转换器这两方。

另外，该信号处理装置10具有图1中未示出的语音输入端子，能够经由语音输入端子连接语音输入设备(麦克风阵列)12。语音输入设备12具有多个麦克风。另外，语音输入设备12形成为能够拆卸自如地安装于信号处理装置10的框体一角的形状。图1示出了经由语音输入端子与信号处理装置10连接的语音输入设备12安装在信号处理装置10的本体的一角的状态。此外，语音输入设备12不限于该形状。只要信号处理装置10能够从多个麦克风取得语音即可，例如，也可以经由通信与信号处理装置10连接。

图2是表示该信号处理装置10的利用场景的一例的图。

该信号处理装置10例如可以作为voc用的语音收集系统等而适用。图2示出了正在通过与信号处理装置10连接的语音输入设备12收集工作人员(staff)a2与顾客a1之间交谈的会话语音的情形。所收集到的语音通过信号处理装置10按各说话人(工作人员a2、顾客a1)进行分离，例如，工作人员a2的语音被用于帮助改善待客手册，顾客a1的语音被用于帮助掌握顾客需求。关于所收集到的语音的按各说话人的分离，在后面叙述。

可是，例如，为了对分离后的工作人员a2的语音和顾客a1的语音进行区分，需要事先登记好工作人员a2的语音或需要事先设定好工作人员a2与顾客a1的位置关系等，这很可能会成为使可用性(usability)降低的原因。

因此，该信号处理装置10是使得不需要例如麻烦的事先设定等而能够区分特定说话人(工作人员a2和顾客a1的一方)的语音和非特定说话人(工作人员a2和顾客a1的另一方)的语音的装置，以下，对这一点进行详细叙述。

图3是表示该信号处理装置10的硬件结构的一例的图。

如图3所示，该信号处理装置10具有cpu(centralprocessingunit，中央处理单元)101、系统控制器102、主存储器103、gpu(graphicsprocessingunit，图形处理单元)104、bios(basicinput/outputsystem，基本输入输出系统)-rom105、非易失性存储器106、无线通信设备107、ec(embeddedcontroller，嵌入式控制器)108等。

cpu101是控制信号处理装置10内的各种部件(component)的工作的处理器。cpu101将各种程序从非易失性存储器106装载到主存储器103来执行。这些程序包括os(operatingsystem，操作系统)210、包含语音记录器应用程序220的各种应用程序。关于语音记录器应用程序220，虽然在后面叙述，但语音记录器应用程序220具有如下功能：将语音输入设备12收集到的语音按各说话人进行分离，赋予表示该说话人是特定说话人还是非特定说话人的标签信息，并作为语音数据300保存于非易失性存储器106。另外，cpu101也执行bios-rom105所保存的bios。bios是用于进行硬件控制的程序。

系统控制器102是将cpu101的本地总线和各种部件之间连接的设备。在系统控制器102中，也内置有对主存储器103进行访问控制的存储器控制器。另外，系统控制器102也具有经由pcie标准的串行总线等进行与gpu104的通信的功能。进而，系统控制器102也具有前述的从经由语音输入端子连接的语音输入设备12输入语音的功能。

gpu104是对组装在触摸屏显示器11中的lcd11a进行控制的显示处理器。lcd11a基于由gpu104生成的显示信号来显示画面图像。在该lcd11a的上面侧配置有触摸面板11b，在下面侧配置有数字转换器11c。对于手指所接触的lcd11a的画面上的接触位置和/或接触位置的移动等，通过触摸面板11b来检测。另外，对于笔(触笔)所接触的lcd11a的画面上的接触位置和/或接触位置的移动等，通过数字转换器11c来检测。

无线通信设备107是构成为执行无线通信的设备。ec108是包含电力管理用的嵌入式控制器的单芯片微型计算机。ec108具有根据电源开关的操作使信号处理装置10通电或断电的功能。另外，ec108包括受理键盘、定点设备、操作按钮等的操作的键盘控制器。

图4是表示在具有以上那样的硬件结构的信号处理装置10上工作的语音记录器应用程序220的功能块的一例的图。

如图4所示，语音记录器应用程序220具有声源分离部221、说话人推定部222、用户接口部223等。此外，在此，设想为语音记录器应用程序220被cpu101从非易失性存储器106装载到主存储器103来执行。换言之，设想为声源分离部221、说话人推定部222以及用户接口部223的各处理部通过由处理器执行程序来实现。在图3中，仅示出了一个cpu101，但各处理部也可以通过多个处理器来实现。另外，各处理部不限定于通过由处理器执行程序来实现，例如也可以通过专用的电子电路来实现。

现在，设想正在通过语音输入设备12收集作为工作人员的说话人1(b1)和作为顾客的说话人2(b2-1)以及说话人3(b2-2)这三人之间交谈的会话语音的场景。

如前所述，语音输入设备12具有多个麦克风。声源分离部221从这些多个麦克风输入多个语音信号，将这些多个语音信号进行分离而输出多个分离信号。更详细而言，声源分离部221根据多个语音信号推定用于将该多个语音信号分离成各声源的信号的滤波器(分离滤波器)即分离矩阵，通过对该多个语音信号乘以该分离矩阵来获得多个分离信号。此外，用于将多个语音信号分离成各声源的信号的滤波器(分离滤波器)并不限定于分离矩阵。也就是说，也可以适用如下方法：不使用分离矩阵而对多个语音信号适用fir滤波器(finiteimpulseresponse，fir，有限脉冲响应)，对各声源的信号进行强调(分离成各声源的信号)。

说话人推定部222推定声源分离部221所输出的多个分离信号各自的到来方位。更详细而言，说话人推定部222使用由声源分离部221推定出的分离矩阵来计算多个分离信号各自的方位特性分布，根据该方位特性分布来推定多个分离信号各自的到来方位。方位特性是从某角度到来的确信度(似然)，方位特性分布是通过涉及大范围的角度求出方位特性而获得的分布。说话人推定部222基于该推定结果，能够获得说话人(声源)个数和各说话人的方位，另外，能够进行分离信号与说话人的关联。

图5是表示由说话人推定部222计算的分离信号的方位特性分布的一例的图。

图5中示出了分离信号1～4的方位特性分布。对于分离信号2、4，由于未包含预先确定的基准值以上的确信度的方位特性，因此说话人推定部222判断为噪音。对于分离信号1，由于45°的角度的方位特性为最大值、且为预先确定的基准值以上的值，因此说话人推定部222判断为从45°的角度到来。对于分离信号3，由于-45°的角度的方位特性为最大值、且为预先确定的基准值以上的确信度，因此说话人推定部222判断为从-45°的角度到来。换言之，分离信号1、3是以预先确定的基准值以上的确信度被推定出到来方位的分离信号。该说话人推定部222的推定结果，各说话人的语音信号(分离信号)被作为语音数据300保存于非易失性存储器106。

另外，说话人推定部222基于该推定结果，对被推定为作为工作人员的说话人1(b1)的语音信号的分离信号，赋予表示是特定说话人的标签信息，对被推定为作为顾客的说话人2(b2-1)或说话人3(b2-2)的语音信号的分离信号，赋予表示是非特定说话人的标签信息。关于使作为工作人员的说话人1(b1)为特定说话人、使作为顾客的说话人2(b2-1)或说话人3(b2-2)为非特定说话人的关联，在后面叙述。通过赋予这样的标签信息，能够将工作人员的语音和顾客的语音进行区分来处理，后面的处理效率会提高。此外，也可以将顾客(说话人2(b2-1)、说话人3(b2-2))设为特定说话人，将工作人员(说话人1(b1))设为非特定说话人。也就是说，标签信息是表示说话人的属性的信息。属性是指普遍认为某事物所共同具有的性质和/或特征。并且，在此，意味着特定说话人(工作人员和顾客的一方)或非特定说话人(工作人员和顾客的另一方)。例如，对于举行会议时的会议内容，也可以将担任引导员(facilitator)的人设为特定说话人(或非特定说话人)，将会议参加者设为非特定说话人(或特定说话人)。

用户接口部223执行经由触摸屏显示器11向用户输出信息、另外经由触摸屏显示器11从用户输入信息的输入输出处理。此外，用户接口部223例如也可以经由键盘、定点设备、操作按钮等从用户输入信息。

接着，参照图6以及图7，对该信号处理装置10不需要例如麻烦的事先设定等而区分特定说话人的语音和非特定说话人的语音的结构的概要进行说明。

图6是表示在语音记录器应用程序220启动时用户接口部223显示于触摸屏显示器11的初始画面的一例的图。

图6中，标号c1是用于开始语音的收集即开始录音的录音按钮。当录音按钮c1被操作时，用户接口部223向声源分离部221以及说话人推定部222通知处理的开始。由此，开始基于语音记录器应用程序220的录音。在触摸屏显示器11上的触摸操作是与录音按钮c1的显示区域对应的操作的情况下，进行从os210向语音记录器应用程序220、更详细而言向用户接口部223的通知，因此，用户接口部223能够认识到录音按钮c1被操作。此外，在放在录音按钮c1的显示区域上的手指等从触摸屏显示器11离开了的情况下，也进行从os210向用户接口部223的通知，因此，用户接口部223能够认识到录音按钮c1的操作被解除。关于录音按钮c1以外的其他按钮也同样。

另一方面，图7是表示录音开始之后用户接口部223显示于触摸屏显示器11的录音中画面的一例的图。

图7中，标号d1是用于停止语音的收集即停止录音的的停止按钮。当停止按钮d1被操作时，用户接口部223向声源分离部221以及说话人推定部222通知处理的停止。

另外，图7中，标号d2是用于设定对特定说话人的语音进行收集的期间的设定按钮。以下，有时将在该期间收集的语音称为学习语音。例如，在录音开始后，工作人员抓住仅自己发言的机会，在其发言期间中持续操作设定按钮d2。该情况下，持续操作设定按钮d2的期间被设定为学习语音的收集期间。另外，工作人员也可以在开始发言时操作设定按钮d2，在结束发言时再次操作设定按钮d2。该情况下，从第一次操作设定按钮d2到第二次操作设定按钮d2为止的期间被设定为学习语音的收集期间。也可以分别设置在开始发言时操作的按钮和在结束发言时操作的按钮。或者，也可以将从设定按钮d2被操作到经过一定时间为止的期间设定为学习语音的收集期间。进而，也可以使图6的录音按钮c1兼有设定按钮d2的作用，将从录音按钮c1被操作而开始录音到经过一定时间为止的期间设定为学习语音的收集期间。

在此，设想为在设定学习语音的收集期间的情况下持续操作设定按钮d2。

当设定按钮d2被操作时，用户接口部223向说话人推定部222通知学习语音收集的开始。另外，在设定按钮d2的操作结束时，用户接口部223也向说话人推定部222通知学习语音收集的结束。

说话人推定部222从多个分离信号中，选出在学习语音的收集期间中的预先确定的比例以上的期间内以预先确定的基准值以上的确信度推定出到来方位的分离信号。说话人推定部222对该选出的分离信号赋予表示是特定说话人的标签信息。另外，说话人推定部222对其他的分离信号赋予表示是非特定说话人的标签信息。如前所述，也可以使特定说话人和非特定说话人的定位反转。

也就是说，在该信号处理装置10中，仅通过以使特定说话人的发言占优势的期间成为对象期间的方式操作设定按钮d2，能够区分特定说话人的语音和非特定说话人的语音。由此，能够使可用性提高。

即，信号处理装置10作为具有生成部和赋予部的标签赋予装置发挥功能，所述生成部取得来自不同方向的多个语音并生成多个分离音，所述赋予部基于第1期间内的到来方向的推定结果，对所述分离音赋予表示特定说话人的属性的第1标签信息和表示与特定说话人不同的非特定说话人的属性的第2标签信息的某一方。另外，信号处理装置10还具有对第1期间和第1标签信息的赋予对象进行指示的用户指示受理部，赋予部作为根据用户的指示来赋予第1标签信息的标签赋予装置发挥功能。

图8是表示该信号处理装置10的与特定说话人的语音和非特定说话人的语音的区分有关的处理流程的一例的流程图。

信号处理装置10在预定按钮被操作时(步骤a1：是)，信号处理装置10开始学习语音的收集(步骤a2)。信号处理装置10在预定按钮被持续操作的期间(步骤a3：否)，继续进行步骤a2的学习语音的收集。

另一方面，当预定按钮的操作被解除时(步骤a3：是)，信号处理装置10结束步骤a2的学习语音的收集，基于所收集到的学习语音，取得特定说话人的方位信息(步骤a4)。更详细而言，将在学习语音的收集期间中的预先确定的比例以上的期间内以预先确定的基准值以上的确信度推定出到来方位的分离信号判定为特定说话人的语音信号。

通过该判定，信号处理装置10能够对被判定为特定说话人的语音信号的分离信号，赋予表示是特定说话人的标签信息，对其他的分离信号，赋予表示是非特定说话人的标签信息。

然而，在以上的说明中，说明了如下例子：使用该信号处理装置10收集与顾客之间交谈的会话语音的工作人员，抓住仅自己发言的机会，操作设定按钮d2。

例如，根据行业等不同，在会话开始时，有时(作为信号处理装置10的用户的)工作人员或职员发言的机会多，也有时顾客或来客发言的机会多。考虑这一点，进而，对连设定按钮d2的操作都不需要进行而区分特定说话人的语音和非特定说话人的语音的一变形例进行说明。

为了使得设定按钮d2的操作不需要，用户接口部223受理将在录音按钮c1被操作而开始了录音之后的一定期间发言多的说话人设为特定说话人还是非特定说话人的设定。例如，受理设为第1模式和第2模式的哪个模式的设定，所述第1模式设想在会话开始时工作人员或职员发言的机会多，将在录音按钮c1被操作而开始了录音之后的一定期间发言多的说话人设为特定说话人，所述第2模式设想在会话开始时顾客或来客发言的机会多，将在录音按钮c1被操作而开始了录音之后的一定期间发言多的说话人设为非特定说话人。此外，如前所述，也可以使特定说话人和非特定说话人的定位反转。

如果设定了第1模式，则信号处理装置10在录音按钮c1被操作而开始了录音之后，在一定期间收集学习语音，将在该收集期间中的预先确定的比例以上的期间内以预先确定的基准值以上的确信度推定出到来方位的分离信号判定为特定说话人的语音信号。

另一方面，如果设定了第2模式，则信号处理装置10在录音按钮c1被操作而开始了录音之后，在一定期间收集学习语音，将在该收集期间中的预先确定的比例以上的期间内以预先确定的基准值以上的确信度推定出到来方位的分离信号判定为非特定说话人的语音信号。

图9是表示该信号处理装置10的与特定说话人的语音和非特定说话人的语音的区分有关的处理流程的一变形例的流程图。

信号处理装置10在录音按钮被操作而开始了录音时(步骤b1：是)，开始学习语音的收集(步骤b2)。信号处理装置10在一定期间，继续步骤b2的学习语音的收集。也就是说，当经过预定期间时(步骤b3：是)，信号处理装置10结束步骤b2的学习语音的收集。

接着，信号处理装置10检查设定了第1模式和第2模式的哪个模式(步骤b4)。在设定了第1模式的情况下(步骤b4：是)，信号处理装置10基于所收集到的学习语音，取得特定说话人的方位信息(步骤b5)。更详细而言，将在学习语音的收集期间中的预先确定的比例以上的期间内以预先确定的基准值以上的确信度推定出到来方位的分离信号判定为特定说话人的语音信号。

另一方面，在设定了第2模式的情况下(步骤b4：否)，信号处理装置10基于所收集到的学习语音，取得非特定说话人的方位信息(步骤b6)。更详细而言，将在学习语音的收集期间中的预先确定的比例以上的期间内以预先确定的基准值以上的确信度推定出到来方位的分离信号判定为非特定说话人的语音信号。

如以上的说明，根据该信号处理装置10，不需要例如麻烦的事先设定等而能够区分特定说话人的语音和非特定说话人的语音。

此外，作为区分特定说话人的语音和非特定说话人的语音的方法，例如也可以适用如下方法等：具备语音识别部，将在如前述那样设定的学习语音的收集期间中识别到预先确定的关键字的语音(分离信号)推定为特定说话人的语音。

虽然对本发明的几个实施方式进行了说明，但是这些实施方式是作为例子提出的，并非旨在限定发明的范围。这些新的实施方式能够以其他各种方式实施，在不偏离发明宗旨的范围内，可以进行各种省略、替换、变更。这些实施方式及其变形包含在发明的范围和/或宗旨中，并且包含在权利要求书所记载的发明和其等同的范围内。

本实施方式包含以下的特征。

[方案1]

一种信号处理装置，其中，具备：

分离单元，其将包括在不同的位置接收并从不同的方位到来的信号的多个信号通过分离滤波器进行分离，输出多个分离信号；和

推定单元，其按所述多个分离信号的各分离信号推定到来方位，进行所述多个分离信号与所述信号的发送源的关联，

所述推定单元基于第1期间内的到来方位的推定结果，将第1属性和第2属性的某一方与进行了与所述信号的发送源的关联的分离信号的各分离信号进行关联，赋予表示所述第1属性的第1标签信息和表示所述第2属性的第2标签信息的某一方。

[方案2]

在方案1中，

所述推定单元对在所述第1期间中的第1比例以上的期间内以第1值以上的确信度推定出到来方位的分离信号关联所述第1属性，对其他的分离信号关联所述第2属性。

[方案3]

在方案1或方案2中，

所述第1期间是第1按钮被操作着的期间。

[方案4]

在方案1或方案2中，

所述第1期间是从第1按钮被操作到经过第1时间为止的期间。

[方案5]

在方案1或方案2中，

所述第1期间是从第1按钮被操作到第2按钮被操作为止的期间、或者从进行对所述第1按钮的第1操作到进行对所述第1按钮的第2操作为止的期间。

[方案6]

在方案1中，

具备将所述分离信号识别为语音的识别单元，

所述推定单元对在所述第1期间内被识别到第1信号的分离信号关联所述第1属性，对其他的分离信号关联所述第2属性。

[方案7]

在方案1或方案2中，

所述第1期间是从开始供给所述多个信号到经过第1时间为止的期间。

[方案8]

在方案1中，

所述第1期间是从开始供给所述多个信号到经过第1时间为止的期间，

所述推定单元对在所述第1期间中的第1比例以上的期间内以第1值以上的确信度推定出到来方位的分离信号，关联所述第1属性和所述第2属性中的预先设定的一方。

[方案9]

在方案8中，

具备用户接口单元，该用户接口单元受理对在所述第1期间中的所述第1比例以上的期间内以所述第1值以上的确信度推定出到来方位的分离信号关联所述第1属性和所述第2属性的哪一方的设定。

[方案10]

一种信号处理方法，包括：

将包括在不同的位置接收并从不同的方位到来的信号的多个信号通过分离滤波器进行分离，输出多个分离信号；

按所述多个分离信号的各分离信号推定到来方位，进行所述多个分离信号与所述信号的发送源的关联；以及

基于第1期间内的到来方位的推定结果，将第1属性和第2属性的某一方与进行了与所述信号的发送源的关联的分离信号的各分离信号进行关联，赋予表示所述第1属性的第1标签信息和表示所述第2属性的第2标签信息的某一方。

[方案11]

一种标签赋予装置，具备：

生成部，其取得来自不同方向的多个语音，生成多个分离音；和

赋予部，基于第1期间内的到来方向的推定结果，对所述分离音赋予表示特定说话人的属性的第1标签信息和表示与所述特定说话人不同的非特定说话人的属性的第2标签信息的某一方。

[方案12]

在方案11中，

还具有对所述第1期间和所述第1标签信息的赋予对象进行指示的用户指示受理部，

所述赋予部根据用户的指示来赋予所述第1标签信息。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：广畑诚;谷口彻;增田太郎
技术所有人：株式会社东芝
我是此专利的发明人

上一篇：吸声纺织复合材料的制作方法
上一篇：一种引擎盖的包装运输纸箱的制作方法