语音处理装置的制作方法

文档序号：2821734阅读：203来源：国知局

专利名称：语音处理装置的制作方法
技术领域：
本发明涉及一种语音处理装置，用于利用例如多个与会者发出的语音识别命令，并对这些命令进行处理。
背景技术：
具有对人类的语音执行声纹识别并对其(声纹识别)进行处理功能的语音处理装置基于连接到作为语音输入装置的诸如电话和个人计算机的控制装置上的扩音器的前提，被提供有这种扩音器的语音处理装置已经被应用于例如金融机构中的呼叫中心和网络中的个人识别。
然而，相关技术中的这些语音处理装置因为其使用环境而只能执行个体语音识别。因此，当在许多人团体工作的现场使用这种语音处理装置时，例如，在有许多人参加的会议里，它将错误地检测和错误地识别多个语音，因此就不能采用这种装置。
也就是，在两个或更多与会者同时讲话的状态下，由于多个语音被混合在一起并通过扩音器输入给语音处理装置，不可能在许多演讲者当中指定一与会者作为主讲者，也就不可能得到精确的声纹识别结果。
另一方面，按照惯例，在会议或其他团体工作中利用记录装置等将会议的内容记录在记录媒质里，并在会议后，通过确认每一个演讲者撰写备忘录。虽然已经存在将他们所进行会议的内容记录到记录媒体中的方法，但是组织每个演讲者的数据还是要花费一些时间，并且这项工作是需要的。
因此，就想到了利用上述声纹识别技术执行个人识别和为每个演讲者整理语音数据的方法。然而，在会议中多个与会者语音重叠等情况下，难以确定是谁正在讲话，因此，不可能通过应用上述声纹识别技术本身进行演讲者的个人识别。
而且，当演讲者正在会议上讲话时，存在演讲者的属性数据(名字和角色等等)不能通过实时处理输出的缺点。因此，与会者必须参考所分发的文档等，而不能专心于听演讲。
另外，会议主席必须操作PC来显示数据和通过发言来加入解释，这是十分苛求的，并且在会议效率方面是不利的。
因此，需要准确地确定主讲者并在屏幕上输出演讲者的属性数据，或者即使是在多个与会者同时讲话的时候只用一个语音通知所有的与会者。

发明内容
本发明的一个目的是提供一种语音处理装置，用于在多个演讲者中规定一个与会者为主讲者，并例如当通过识别由多个与会者发出语音的声纹进行处理时，通过声纹识别，准确地执行个人识别。
为了实现上述目的，提供一种语音处理装置，包括多个分别面向不同语音收集方向排列的扩音器；扩音器选择装置，用于根据由所述的多个扩音器收集的语音的声压选择一个扩音器；声纹识别装置，用于在声纹可识别的时间内根据由所述的一个扩音器收集的语音信号连续地执行声纹识别，并产生声纹数据；以及数据处理装置，用于根据由所述声纹识别装置产生的声纹数据处理由所述的一个扩音器收集的语音信号。
最好是，进一步提供一声纹数据存储装置，用于通过使两者相互关联存储演讲者数据和声纹数据，其中，所述的数据处理装置通过与通过对存储在所述声纹数据存储装置中的声纹数据进行检查所获得演讲者数据相关联对由声纹识别装置产生的声纹数据执行处理。演讲者做好是，还提供一语音转换装置，用于将语音信号转换为字符串数据，其中，所述的语音转换装置将由所述的一个扩音器收集的语音信号转换为字符串数据；并且通过与通过对所述语音信号进行检查所获得的演讲者数据相关联对所述字符串数据进行处理。演讲者为了实现上述目的，根据本发明的第二方面，提供一种语音处理装置，包括多个分别面向不同语音收集方向排列的扩音器；扩音器选择装置，用于根据由所述的多个扩音器收集的语音的声压选择一个扩音器；声纹识别装置，用于在声纹识别时间内根据由所述的一个扩音器收集的语音信号连续地执行声纹识别并产生声纹数据；声纹数据存储装置，用于通过使两者相互关联来存储演讲者数据和声纹数据；属性数据存储装置，用于通过使两者相互关联来存储演讲者数据和属性数据；以及数据处理装置，用于通过使由声纹识别装置产生的声纹数据和存储在所述的声纹数据存储装置中的声纹数据相互匹配规定演讲者数据，并通过将所述演讲者数据与相应的属性数据相关联对演讲者数据进行处理。演讲者属性数据根据本发明第一方面的语音处理装置的操作如下。
也就是，该扩音器选择装置根据由多个扩音器收集的声压选择一个扩音器。该声纹识别装置在声纹可识别时间内根据由该扩音器收集的语音信号连续地执行声纹识别并产生声纹数据。该数据处理装置依照由该声纹识别装置产生的声纹数据处理由该扩音器收集的语音信号。
根据本发明的第二方面语音处理装置的操作如下。
也就是，该扩音器选择装置根据由多个扩音器收集的声压选择一个扩音器。该声纹识别装置在声纹可识别时间内根据由该扩音器收集的语音信号连续地执行声纹识别并产生声纹数据。
该数据处理装置对照存储在声纹数据存储装置中的声纹数据检查由声纹识别装置产生的声纹数据，并定义演讲者数据。此外，它通过与通过对照属性数据存储装置进行检查和承受处理所获得的属性数据相关联对多定义的演讲者数据进行处理。
根据本发明，具有下述优点，即，即使在例如会议等过程中有多个演讲重叠的情况下，能非常准确地确定主讲者，该演讲者的属性数据等能同时在屏幕上显示给与会者，等等，因此，会议能顺利地进行。

通过下面结合附图对最佳实施例的描述，本发明的这些和其它目的和特征将变得更清楚，其中附图1是双向电话通信部分2的框图；附图2是双向电话通信部分2的DSP22的框图；附图3A到3D是双向电话通信部分2的单向扩音器的FFT结果视图；附图4是双向电话通信部分2的选择扩音器信号的输出图；附图5是第一实施例的语音处理装置1的框图；附图6A到6G用于解释第一实施例中语音处理装置1的操作；附图7是第一实施例中语音处理装置1的改进实例图；附图8是第二实施例的语音处理装置1a的框图；附图9是第二实施例的语音处理装置1a显示的属性数据实例图；附图10是第三实施例的语音处理装置1b的框图；以及附图11是第三实施例的语音处理装置1b改进实例图。
具体实施例方式
在随后说明的第一到第三实施例中，在任一实施例中都使用下面说明的双向电话通信部分2，因此，为了便于说明，首先参考图1到4解释双向电话通信部分2的操作和结构，然后，再解释各实施例。
双向电话通信部分2附图1是双向电话通信部分2的电路框图。
如图1所示，双向电话通信部分2包括A/D转换器组件21，数字信号处理器(DSP)22和23，中央处理单元(CPU)24，编解码器25，D/A转换组件26(D/A转换器261和262)，A/D转换器263和放大器组件27。
在图1的例子中，双向电话通信部分2从6个单向扩音器MC1到MC6中接收作为输入的语音。单向扩音器被安排成对对该扩音器位置前面具有极强的方向性。CPU24执行整个双向电话通信部分2的控制处理。
编解码器25编码语音。
DSP22执行各种信号处理，诸如是滤波处理和扩音器选择处理，这将在随后详细说明。
DSP23用做回波抵消器。
在图1中，A/D转换器211到213是作为A/D转换器组件21的例子示出的，A/D转换器263是作为A/D转换器的例子示出的，D/A转换器261和262是作为D/A转换器组件26的例子示出的，放大器271和272是作为放大器组件27的例子示出的。
各扩音器对MC1和MC4、MC2和MC5、MC3和MC6被输入给A/D转换器211到213，用于将两信道模拟信号转换为数字信号。
在A/D转换器211到213中转换的扩音器MC1到MC6的语音收集信号被输入给DSP22，并经受各种随后说明的信号处理。
作为DSP22的一个处理结果，扩音器MC1到MC6中的一个被选择。在DSP22中，使用上述的扩音器的单向特性来执行扩音器的选择。
DSP22的处理结果被输出给DSP23并经过回声消除处理。
DSP23的处理结果通过D/A转换器261和262转换为模拟信号。D/A转换器261的输出根据需要编解码器(CODEC)25编码，并通过放大器271输出。
同样，D/A转换器262的输出经过放大器272作为双向电话通信部分2的扬声器28的语音输出。也就是，使用双向电话通信部分2的与会者通过扬声器28能听到会议室里演讲者发出的语音。
双向电话通信部分2通过A/D转换器263将其它参与者的语音输入至DSP23，并执行回声消除处理。同样，其它参与者的语音通过未示出的路径施加于扬声器28并作为语音输出。
需要注意的是当使用没有方向性的扩音器时，扩音器周围的所有语音都被收集，因此，演讲者语音和周围噪声的S/N(信噪比)不佳。为了防止这一点，在本实施例中，通过采用单向扩音器收集语音，改进了具有周围噪声的信噪比(S/N)。
下一步，将说明DSP22执行的处理。
由DSP22执行的主处理是选择和转换扩音器的处理。即，当使用双向电话通信部分2的多个与会者同时讲话时，他们的语音被混合并且难以被其他人听见，因此，只有所选择的扩音器的语音信号才作为图1中的信号S271输出。
为了准确地执行当前的处理，执行下面作为例子而解释的各种信号处理。
(a)扩音器信号的频带分离和电平转换处理；(b)判断演讲开始和结束的处理；(c)与演讲者同方向的扩音器的检测处理，分析每个扩音器的语音收集信号和判断面向演讲者的扩音器；(d)与演讲者同方向的扩音器的转换定时判断处理，和面对被检测到的演讲者的扩音器信号的选择/转换处理。
下面，将说明上述各信号处理。
(a)扩音器信号的电平频带分离和电平转换。
对启动扩音器选择处理的触发器之一执行判断演讲开始和结束的处理。为了该目的，对每个扩音器信号都要进行带通滤波(下文中称为BPF)处理和电平转换处理。
图2仅示出了在BPF处理和电平转换处理中6个扩音器MC1道MC6中的一个信道(CE)。电平BPF处理和电平转换处理电路包括BPF221a到221f(总称之为BPF组件221)，其中的每一个具有100到600Hz、100到250Hz、250到600Hz、600到1500Hz、1500到4000Hz和4000到7500Hz的带通特征；以及电平转换器222a到222g(总称之为电平转换组件222)，用于对原始扩音器语音收集信号和上述带通语音收集信号执行电平转换。
每一个电平转换器包括信号绝对值处理部分223和峰值保持处理部分224。因此，如以作为例子的波形曲线所示，信号绝对值处理部分将由虚线指出的输入负信号的代码反相，和将该输入负信号转换为正信号。然后，峰值保持处理部分224保持信号绝对值处理部分223输出信号的绝对值。
b)判断演讲开始和结束的处理。
当在图2所示的扩音器信号电平转换处理部分222b中经过声压电平转换的声压电平数据通过100到600Hz的BPF变为预定的值或更大时，DSP22判断演讲开始；当预定时间内(例如0.5秒)该数据变为预定值或更小时，判断演讲结束。
c)与演讲者同方向的扩音器的检测处理图3实施例所示的单向扩音器的特征用于演讲者方向的检测。
如图3所示，在单向扩音器中，频率特征和电平特征根据语音从演讲者到达扩音器的角度而变化。演讲者图3中，演讲者位于离双向电话通信部分2有1.5m距离处，示出了以固定的时间间隔对由各扩音器收集的语音执行FFT的结果。该x轴表示频率，y轴表示时间，z轴表示信号电平。在XY平面上为每一特定频率绘制的线指出参考图2说明的BPF处理的截止频率，并且这些线之间的频带电平通过图2中的BPF221b到221f变成用于处理的数据。
各频带的BPF输出电平分别经过适当加权处理(例如，当假设1dBFs级时，0dBFs的加权值将为“0”，-3dBFs的加权值为“3”)。处理精度由该加权步骤决定。
利用每一取样时钟执行上述加权处理，各扩音器的加权值相加，取某一些抽样的平均值，具有最小(或最大)总值的扩音器被判定为面向演讲者的扩音器。在表1中可以看到这个结果。
在表1的实例里，MIC1有最小的总值，因此判断声源在扩音器1的方向。该结果以声源方向中的扩音器号码的形式被保存。
表1

d)演讲者方向的扩音器的转换定时判断处理，以及面向检测到的演讲者扩音器信号的选择/转换处理。
当某一演讲者的演讲(比如，扩音器MC1)结束时，其它方向(比如，扩音器MC2)有新的演讲发生，在b)判断演讲开始和结束的处理中已说明，从先前演讲者的扩音器(MC1)信号电平变为预定值或更小时的一定时间后(比如0.5秒)，判断该演讲者的演讲结束。
当由于后续演讲者的演讲开始而导致扩音器(MC2)的信号电平变为一预定值或更大时，面向该后续演讲者的扩音器被确定为语音收集扩音器并启动扩音器信号选择和转换处理。
当在先演讲者的演讲(扩音器MC1)正在进行的同时重新出现来自其他方向的更大声的演讲(该后续演讲者(扩音器MC2))时，扩音器的判断和转换处理在后续演讲者的演讲开始(当扩音器MC2的信号电平变为预定值或更大时)的某一时间后(比如0.5秒)开始。
扩音器的判断和转换处理按如下方式执行。
即，当在第一演讲者(扩音器MC1)演讲完成前出现了比当前选择的演讲者演讲语音更大的演讲者(扩音器MC2)时，来自扩音器MC2的声压电平变高。结果，在(c)演讲者方向的扩音器的检测处理中，在上表中MC1和MC2的值被倒置，声源方向的扩音器号就从扩音器MC1改变成MC2，并且执行扩音器信号选择/转换处理。
如图4中所示，扩音器信号选择/转换处理是由6个乘法器电路和具有6个输入端的加法器构成的。为了选择扩音器信号，通过把连接到将被选择的扩音器信号上的乘法器的信道增益(CH增益)设置为“1”和把其他乘法器的信道增益设置为“0”，[选择的扩音器信号×1]和[其它扩音器信号×0]的处理结果在加法器中相加，并且输出预期的扩音器选择信号。
注意在转换扩音器前后的信道增益(比如，CH1增益和CH2增益)是例如在10毫秒内逐渐变化的。如上详细描述，根据所述双向电话通信部分2，可以使用单向扩音器的特征利用最佳的S/N收集演讲者的语音和在多个扩音器信号中适当选择一个扩音器信号，并且将该选择的扩音器信号和选择的扩音器信息(扩音器号1到6)提供给后一级中的装置。
第一实施例下面，将说明第一实施例的语音处理装置。
图5是第一实施例的语音处理装置1的框图。
如图5所示，语音处理装置1包括上述说明的双向电话通信部分2、语音识别处理部分3和声纹寄存器4。
语音识别处理部分3包括A/D转换器31和识别处理部分32，识别处理部分32包括CPU321和声纹识别部分322。
注意的是本发明的扩音器选择装置相当于第一实施例中的双向电话通信部分2。
本发明中声纹识别装置相当于第一实施例中的声纹识别部分322。
本发明中数据处理装置相当于第一实施例中的CPU321。
例如通过将其设置于会议室圆桌中央使用根据第一实施例的语音处理装置1，双向电话通信部分2提供多个、比如6个面向各与会者的扩音器，接收与会者的语音，选择一个扩音器信号输出到语音识别处理部分3，并通知所选择的扩音器号。
语音识别处理部分在双向电话通信部分2中对选择的扩音器信号执行处理，确定演讲者和输出演讲者代码。
声纹积存器4存储演讲者代码，以通过两者相互关联识别演讲者和演讲者的声纹数据，而这将被CPU321参考用于声纹匹配。要注意的是在图5所示语音处理装置1的双向电话通信部分2中，A/D转换器组件21不是由结合图1所解释的两信道A/D转换器组成，而是由分别用于扩音器的一信道A/D转换器211到216组成。图5所示的语音处理装置1的双向电话通信部分2不使用扬声器28，因此，围绕它的部分和执行回声消除处理的DSP23不再需要，并在图5中省略。
另外，在图5所示的语音处理装置1中，在双向电话通信部分2和语音识别处理部分3被集成到一起的情况下，由双向电话通信部分2选择的扩音器信号S261不必作为模拟信号提供给语音识别处理部分3，因此，由虚线指出的数字信号S22被提供给语音识别处理部分3。然而，在下面的说明中假设提供了模拟信号(信号S261)。
如以上说明的，所选择的扩音器信息(1至6的扩音器号)作为MC_SEL提供给语音识别处理部分3。
语音识别处理部分3包括A/D转换器31和语音识别处理部分32，并且语音识别部分32包括CPU321和声纹识别部分322。
A/D转换器31接收双向电话通信部分2选择的输入扩音器的模拟信号并同样转换为数字信号。
语音识别装置部分32接收A/D转换器31的数字扩音器信号作为输入并得到双向电话通信部分2选择的扩音器信号。
因此，向语音识别处理部分32提供扩音器信号，该扩音器信号是通过双向电话通信部分2和其中的扩音器信息MC_SEL(扩音器号1到6)，按照扩音器的转换顺序更新的。
CPU321控制整个语音识别处理部分32，并通过检查后面说明的声纹数据具体地确定演讲者。
声纹识别部分322利用声纹可识别周期单元对经过A/D转换器31数字转换的扩音器信号执行声纹处理，并根据CPU321的指令产生声纹数据。
这里，可以使用各种方法设置声纹可识别周期。
例如，它可以是预定的3秒短周期，或者根据声纹识别部分322的声纹识别能力设置最小周期。可选择地，可以设置为比一个短语更短的周期。
因此，声纹可识别周期可以根据作为声纹识别引擎应用到语音识别装置1上的声纹识别部分322的声纹识别能力和使用语音处理装置1的应用和条件灵活地加以设置。只要应用和条件允许，就能设定最小周期。
在当前实施例中，声纹可识别周期单元被设置为3秒。
下面，将参考图6A到图6G说明声纹识别处理部分322的操作。
图6A到图6G示出了当个人A、个人B和个人C依次做演讲时语音处理装置1的处理操作。
首先，图6A中，朝上的箭头指出声纹识别开始，朝下的箭头指出声纹识别结束。此处，从声纹识别开始到结束占用3秒钟，并且声纹识别部分322以3秒为一单元执行声纹识别处理以产生声纹数据。
图6B中，个人A的演讲数据经过双向电话通信部分2和A/D转换器31被声纹识别部分322重新获得。
在声纹识别部分322中，作为一声纹识别单元，每3秒生成基于个人A演讲数据的声纹数据，并且将数据存储在未示出的识别处理部分32的缓存器中。
图6C示出了演讲数据承受声纹处理并且声纹数据被存储在缓存器中。
在图6C中，在个人A演讲数据中刚好在演讲结束之前的数据长度小于声纹处理所必须的3秒，因此，不能执行声纹处理。
图6D示出了利用CPU321对存储在缓存器中的声纹数据连续进行的处理。
在CPU321中，对照预先存储在声纹寄存器4中的声纹数据连续检查存储在该缓存器中的声纹数据。由于相应于演讲者数据的声纹数据被存储在声纹寄存器4中，CPU321基于作为检查结果的演讲者数据推定演讲者为个人A。
在个人识别处理中，根据由双向电话通信部分2提供的扩音器转换信号MC_SEL，识别精度能进一步改善。
即，当其中的扩音器号和演讲者数据相互关联的数据预先被存储到识别处理部分32中时，可以通过对照与该扩音器号对应的演讲者数据检查扩音器转换信号MC_SEL的数据(1到6)来确定演讲者。
例如，可以设置为将基于扩音器转换信号MC_SEL确定的演讲者数据与上述由声纹匹配所确定的演讲者数据进行比较，并只在两者匹配时才对扩音器信号执行处理。
另外，可以设置为，当基于扩音器转换信号MC_SEL确定的演讲者数据和上述由声纹匹配所确定的演讲者数据不匹配时，声纹匹配结果更为精确的被判定，并且在由声纹匹配所确定的演讲者数据的基础上执行对该处理扩音器信号的处理。
在图6D中，与图6C中情况相比没有发生时间滞后，但是由于如上所述，个人识别是在用于CPU321中执行的处理的时间之后执行的，所以，存在右移处理时间量的时间移动。
图6E示出了利用个人识别所完成的个人A的演讲数据。
如上所解释的，利用个人识别所完成的演讲数据(扩音器信号)可以作为图5所示的信号S3被连续地输出并且在未示出的硬盘驱动器(HDD)或其它外部存储器中累积以用于每个演讲者数据。
这里，由于在个人A的演讲数据里，正好在演讲结束前的数据长度小于3秒，所以不能对数据的执行识别处理，但是可以被添加和作为个体A的演讲数据输出。
可替换地，作为图5中信号S3的输出，只有由CPU321确定的演讲数据(在这种情况下是指出个体A的数据)才可以被输出。
之后，同样当在双向电话通信部分2中所选择的扩音器从#4变为#2、并且个人B的演讲开始时，操作与如上说明的对个人A演讲数据的处理相同。
在图6所示的个人B的演讲中，由于取样数据的时间长度小于作为一声纹识别处理周期单元的3秒，所以，不仅是在演讲结束时、而且还在演讲开始时，都存在不能对其执行个人识别的部分。在这种情况下，执行一处理以对作为个人B演讲的输出进行添加。
之后，同样，当在双向电话通信部分2中所选择的扩音器从#2移到#1且个人C开始演讲时，操作与如上说明的对个人A的演讲数据的处理操作相同。
上面解释了根据本发明语音处理装置的第一实施例。
根据第一实施例中的语音处理装置1，即使是在因分别面向多个与会者的扩音器而使许多人对着语音处理装置1的演讲重叠的情况下，也可以通过提供给语音处理装置1的双向电话通信部分2的特征分析声压电平以用于各语音的每个频带，规定主讲者的扩音器信号，并将该语音信号给予语音识别处理部分3。
因此，在语音识别处理部分3中，即使当多个语音被同时输入时，也能够尽可能地阻止导致错误识别处理的可能性，并且可以适当地判断主讲者的语音和执行处理。
语音识别处理部分3利用声纹可识别周期单元对给出的语音信号(扩音器信号)执行语音识别处理，针对存储在声纹寄存器4中的声纹数据进行检查，规定匹配演讲者数据并对该数据进行处理。
因此，扩音器信号能够被作为已经被用于执行了个人识别的演讲者数据而被处理。
本实施例不局限于图5所示的内容，并且可以做各种改进。
图7为图5所示当前实施例的语音处理装置1的结构改进的例子。
如图7所示，CPU321，声纹识别部分322和声纹寄存器4可以集成配置。
第二实施例下面，将解释本发明的第二实施例。
图8的框图示出了第二实施例中的语音处理装置1a的结构。
与第一实施例的语音处理装置1相比，语音处理装置1a的不同点在于还提供了属性数据处理部分5。
该属性数据处理部分5具有属性数据存储器51。
注意本发明中属性数据存储器装置相当于本实施例中的属性数据存储器51。
本发明的数据处理装置相当于本实施例中的属性数据处理部分5。
在本实施例中，语音识别处理部分3输出由语音识别结果规定的演讲者数据S3。
属性数据处理部分5接收演讲者数据S3作为输入，针对存储在属性数据存储器51中的属性数据进行检查并输出属性数据S5。
属性数据存储器51通过使两者关联存储各演讲者数据和属性数据。
属性数据是每个演讲者诸如姓名，团体，性别和业余爱好等的个人信息，并且能够通过从外部对属性存储器51进行访问来更新。
图9示出了对属性数据S5进行处理的例子。
如图9所示，使用一外部显示装置(未示出)能够将演讲者的属性数据输出到屏幕上。也可以通过语音输出。
根据本实施例的语音处理装置1a，即使是在经分别面向多个与会者的扩音器而使多个个人对语音处理装置1的演讲重叠的情况下，还是能够通过提供给语音处理装置1a的双向电话通信部分2的特征对声压电平进行分析以用于各语音的频带，由此规定主讲者的扩音器信号，并且该语音信号提供给语音识别处理部分3。
因此，在语音识别处理部分3中，即使当多个语音被同时输入时，仍能够尽可地避免导致错误的识别处理的可能性，并且可以适当判断主讲者的语音和执行处理。
语音识别处理部分3利用声纹可识别周期单元对给出的语音信号(扩音器信号)执行语音识别处理，针对存储在声纹寄存器4中的声纹数据进行检查，并将匹配演讲者数据给予属性数据处理部分5。
在属性数据处理部分5中，对照属性数据存储器51中的数据检查输入演讲者数据，并且其属性数据被显示在未示出的外部显示装置等上，因此，与会者不需要参考分发的文件等，和能够专注于演讲，使会议能顺利进行。
第三实施例下面将解释本发明的第三实施例。
图10的框图示出了第三实施例的语音处理装置1b的结构。
与第一实施例的语音处理装置1相比，语音处理装置1b的不同点在于语音识别部分323还被提供给识别处理部分32b。
需要注意的是，本发明中的语音转换装置对应于本实施例中的语音识别部分323。
语音识别部分323的语音识别与在第一实施例中解释的由声纹识别执行的个人识别处理并行执行，或者串行处理。
语音识别部分323将经过双向电话通信部分2和A/D转换器31取得的扩音器信号转换为作为语音识别结果的字符串数据(文本数据)。
转换后的字符串数据作为信号S3b输出。
根据当前实施例的语音处理装置1b带来如第一实施例中同样的效果。
也就是，根据本实施例的语音处理装置1b，即使是在经分别面向多个与会者的扩音器而使多个各人对着语音处理装置1b的演讲重叠的情况下，仍然可以能通过提供给语音处理装置1a的双向电话通信部分2的特征对声压电平进行分析一用于各语音的每个频带，规定主讲者的扩音器信号，并且该语音信号被提供给语音识别处理部分3。
因此，在语音识别处理部分3中，即使当多个语音被同时输入时，也能够尽可能地避免导致错误的识别处理的可能性，并且可以适当地判断主讲者的语音和执行处理。
语音识别处理部分3利用声纹可识别周期单元对给出的语音信号(扩音器信号)执行语音识别处理，针对存储在声纹寄存器4中的声纹数据进行检查，并规定匹配的演讲者数据。
当演讲者被规定，由语音识别部分323对语音信号(扩音器信号)执行语音识别处理，并且在外部存储器中为每个演讲者存储该演讲数据(扩音器信号)。
因此，例如，在会后创建备忘录的情况下，由于存储了与每个演讲者相关的各自的演讲数据，所以，数据整理就变得很容易。
本实施例并不局限于图10中所示的内容，和可以做各种修改。
图11是图10所示的本实施例语音处理装置1b的改进结构的例子。
在图10所示的语音处理装置1b中，CPU321b、语音识别部分322、语音识别部分323和声纹寄存器4被集成配置，并且还提供了演讲者数据存储部分6作为每一演讲者数据的输出目的。
演讲者数据存储部分6被结构成能够存储与多个演讲者中的每一个相关的演讲者数据，如图11所示。
根据图11所示的语音处理装置1b，特定演讲者的演讲数据可以根据该语音处理装置的使用状况以声音形式经声卡输出、作为视频(S3b_2)输出给外部显示装置、和作为演讲记录存储在上述演讲者数据存储部分6中。
上面解释的实施例是为了容易理解本发明，而并不是对本发明做出限制。因此，上述实施例所披露的各要素包括属于本发明技术领域设计和等效物中的所有修改。
权利要求
1.一种语音处理装置，包括被安排成指向各自不同声音收集方向的多个扩音器；扩音器选择装置，用于根据由所述多个扩音器收集的声音的声压选择一个扩音器；声纹识别装置，用于在一声纹可识别周期内基于由所述一个扩音器收集的语音信号连续地执行声纹识别并生成声纹数据；和数据处理装置，用于根据由所述声纹识别装置产生的声纹数据处理由所述一个扩音器收集的语音信号。
2.如权利要求1所述的语音处理装置，还包括一声纹数据存储装置，用于通过使两者相互关联存储演讲者数据和声纹数据。其中，通过与通过针对存储在所述声纹数据存储装置中的声纹数据进行检查获得的演讲者数据相互关联，所述的数据处理装置对由一声纹识别装置产生的声纹数据进行处理。
3.如权利要求2所述的语音处理装置，其中使得存储在所述声纹数据存储装置中的演讲者数据对应于所述多个扩音器中的每一个；以及在对通过针对存储在声纹数据存储器中的声纹数据执行检查所获得的第一演讲者数据和对应于所述一个扩音器的第二演讲者数据进行比较所得结果的基础上，所述数据处理装置对由所述一个扩音器收集的语音信号进行处理。
4.如权利要求3所述的语音处理装置，其中，所述数据处理装置比较所述第一演讲者数据和所述第二演讲者数据，和只有当两者相互匹配时，才通过与所述第二演讲者数据相关联对从所述一个扩音器输出的语音信号进行处理。
5.如权利要求3所述的语音处理装置，其中，所述的数据处理装置比较所述第一演讲者数据与第二演讲者数据，并且，只有当两者不匹配时，才通过与所述第一演讲者数据相关联对从所述一个扩音器输出的语音信号进行处理。
6.如权利要求2所述的语音处理装置，还包括一语音转换装置，用于将语音信号转换为字符串数据，其中所述的语音转换装置将由所述一个扩音器收集的语音信号转换为字符串数据；和所述的数据处理装置通过与针对所述语音信号执行检查所获得的演讲者数据相关联对所述的字符串数据进行处理。
7.如权利要求3所述的语音处理装置，还包括一语音转换装置，用于将语音信号转换为字符串数据，其中所述的语音转换装置将由所述一个扩音器收集的语音信号转换为字符串数据；并且所述的数据处理装置通过与针对所述语音信号执行检查所获得的演讲者数据相关联对所述字符串数据进行处理。
8.如权利要求4所述的语音处理装置，还包括一语音转换装置，用于将语音信号转换为字符串数据，其中所述的语音转换装置将由所述一个扩音器收集的语音信号转换为字符串数据；并且所述的数据处理装置通过与针对所述语音信号执行检查所获得的演讲者数据相关联来处理所述的字符串数据。
9.如权利要求5所述的语音处理装置，还包括一语音转换装置，用于将语音信号转换为字符串数据，其中所述的语音转换装置将由所述一个扩音器收集的语音信号转换为字符串数据；和所述的数据处理装置通过与针对所述的语音信号执行检查所获得的演讲者数据相关联处理所述的字符串数据。
10.一种语音处理装置，包括安排成指向各自不同声音收集方向的多个扩音器；扩音器选择装置，用于根据由所述多个扩音器收集的语音的声压选择一个扩音器；声纹识别装置，用于在声纹可识别周期内基于所述一个扩音器收集的语音信号连续地执行声纹识别并产生声纹数据；以及声纹数据存储器装置，用于通过两者的关联存储演讲者数据和声纹数据；属性数据存储装置，用于通过两者的关联存储演讲者数据和属性数据，以及数据处理装置，用于通过使由声纹识别装置生成的声纹数据和存储在所述声纹数据存储装置中的声纹数据相匹配规定演讲者数据，并通过使所述演讲者数据与对应的属性数据相互关联对演讲者数据进行处理。
11.如权利要求10所述的语音处理装置，其中使得存储在所述声纹数据存储装置中的演讲者数据对应于所述多个扩音器中的每一个；并且在将通过针对存储在声纹数据存储装置中的声纹数据执行检查所获得的第一演讲者数据与对应于所述一个扩音器的第二演讲者数据进行比较的比较结果的基础上，所述的数据处理装置处理对应于所述第一演讲者数据的属性数据。
12.如权利要求11所述的语音处理装置，其中，所述的数据处理装置比较所述第一演讲者数据和所述的第二演讲者数据，并且，只有当这两者相互匹配时，才处理对应于所述第二演讲者数据的属性数据。
13.如权利要求11所述的语音处理装置，其中，所述的数据处理装置比较所述第一演讲者数据和所述第二演讲者数据，并且，只有当这两者相互不匹配时，才处理对应于所述第一演讲者数据的属性数据。
14.一种语音处理装置，包括安排成指向各自不同声音收集方向的多个扩音器；扩音器选择装置，用于根据由所述许多扩音器收集的声音的声压选择一个扩音器；以及语音转换装置，用于将由所述一个扩音器收集的语音信号转换为字符串数据。
全文摘要
一种语音处理装置，用于即使是在会议中多个与会者同时讲话的情况下，也能高精度地执行声纹识别处理；其中双向电话通信部分接收作为输入的来自多个扩音器的各语音信号，基于该输入语音信号选择一扩音器，并且从扩音器输出语音信号；声纹识别部分322在一声纹可识别周期内根据输入的语音信号执行声纹识别，并将声纹数据连续地存储在缓存器中；和，CPU连续从缓存器中取出声纹数据，针对存储在声纹寄存器中的声纹数据执行检查，规定演讲者，并通过使该语音信号与该演讲者相关联，对从双向电话通信部分输出的语音信号进行处理。
文档编号G10L15/00GK1584982SQ200410079459
公开日2005年2月23日申请日期2004年8月4日优先权日2003年8月4日
发明者增田彰, 阿部义孝, 藤山英春申请人:索尼株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：增田彰;阿部义孝;藤山英春
技术所有人：索尼株式会社
我是此专利的发明人