多语者语音识别校正系统的制作方法

文档序号：14837988发布日期：2018-06-30 13:13阅读：265来源：国知局

本发明涉及语音识别校正系统，并且更具体地，涉及多语者语音识别校正系统，多语者语音识别校正系统用于在针对多个说话者的语音识别期间以简单方法确定话语的说话者并容易地校正语音识别文本。

背景技术：

语音识别技术是允许计算机将通过诸如麦克风的声音传感器获取的声学信号转换成单词或句子的技术。

第2008-0037402号韩国公开专利出版物公开了用于语音识别的“用于在移动终端中制作会议记录文件的方法”。

所公开的用于在移动终端中制作会议记录文件的方法包括：配置显示单元以浏览文本文件；配置麦克风单元以外部地接收多个说话者的声音；配置存储单元以存储说话者的声音信息和相应的说话者信息；控制单元，包括声音记录单元、语音分离单元、语音识别单元和文件管理单元，声音记录单元配置成记录输入声音的特定部分，语音分离单元配置成基于频带按照说话者对记录的声音文件进行分离，语音识别单元配置成确定分离的声音文件是否与预先存储的说话者的声音信息匹配，并且当确定分离的声音文件匹配预先存储的声音信息时，基于说话者信息将分离的声音文件转换成文本文件，文件管理单元配置成存储、浏览并传输转换的文本文件；以及配置无线收发单元以将转换的文本文件传输到另一用户，其中控制单元控制显示单元以基于说话者信息分类的多个说话者之间的时序对话信息的形式显示转换的文本文件。

然而，这种在移动终端中制作会议记录文件的方法具有这样的问题，即，通过用于基于语音文件的频带来分离说话者的复杂算法来识别说话者。

为了解决以上问题，第2014-0077514号韩国公开专利出版物公开了能够利用简单方法识别多个说话者的“会议记录管理装置”。

公开的会议记录管理装置包括：说话者识别单元，配置成从自多个麦克风输入到说话者识别单元的声音信号中识别说话者，其中根据每个麦克风的音量设置，将从每个麦克风输入的声音信号的音量调整并归一化成参考音量，并且根据归一化的声音信号来识别说话者；声音单一处理单元，配置成存储由说话者识别单元识别的说话者的声音信号；会议记录处理单元，配置成生成会议记录，将从由说话者识别单元识别的说话者的声音信号识别的话语转换成文本并将所述文本记录在会议记录中；以及会议记录存储单元，配置成存储由会议记录处理单元生成的会议记录。

即，以上相关领域公开了会议记录管理装置，其可以利用为多个说话者中的每个说话者提供麦克风的简单方法来识别说话者。

同时，通过具有语音识别引擎的语音识别公司来执行语音识别。语音识别引擎基于向其输入的语音的时间量来计算成本。

在此情况下，当通过多个麦克风输入的所有话语都通过麦克风传输时，如以上描述的会议记录管理装置中，出现的问题在于，除了引起用于语音识别的成本增加之外还要引起进行大量数据进行数据交换。

技术实现要素：

技术问题

因此，本发明旨在提供能够以简单方法确定话语的说话者的同时以低成本对多个说话者执行语音识别的多语者语音识别校正系统。

此外，本发明还旨在提供能够在对多个说话者的语音识别期间容易地校正语音识别文本的多语者语音识别校正系统。

技术方案

本发明的一个方面提供了多语者语音识别校正系统，所述多语者语音识别校正系统包括：语音信号检测器，配置成当从各自被提供到相应的多个说话者中的一个的多个麦克风接收到多个语音信号时，检测从每个语音信号的输入开始的时间点到语音信号的输入停止的时间点的语音会话；语音识别器，配置成接收包括时间信息和麦克风识别信息的语音会话，并将语音会话中的每个转换成文本；以及文本校正器，配置成从语音信号检测器接收语音会话，按照语音信号的输入开始的时间点的顺序排列并显示语音会话，并接收用于校正语音识别文本的信息。

语音会话可包括时间信息和麦克风识别信息。

文本校正器可接收用于改变麦克风识别信息的说话者信息，并且根据时间来排列并显示说话者信息和语音识别文本的片段。

多语者语音识别校正系统还可包括语音合并器，语音合并器配置成从语音信号检测器接收语音会话，并将语音会话按照语音信号的输入开始的时间点的顺序合并。

文本校正器可将由语音合并器合并的语音与语音识别文本一起输出。

文本校正器可输出通过拍摄多个说话者中的每个而获得的图像，并显示用于识别图像中的每个说话者的说话者标签。

文本校正器可包括实时输入模式、校正模式和说话者指定播放模式，在实时输入模式中，显示语音识别文本，并且突出显示与所显示的文本的说话者信息匹配的说话者标签以用于识别，在校正模式中，当输入用于校正语音识别文本的信息时，突出显示与待校正的文本的说话者信息匹配的说话者标签以用于识别，在说话者指定播放模式中，当针对每个说话者标签输入选择信号时，根据时间来输出与所选择的说话者标签匹配的说话者的语音识别文本或语音会话的话语。

文本校正器可在接收到用于校正语音识别文本的信息时暂停文本的显示，并且当校正完成时，文本校正器可通过以预定时间量返回到过去的时间点来恢复文本的显示。

文本校正器可通过确定从语音识别器接收的文本是否具有结尾来显示标点符号。

文本校正器可预先将与麦克风识别信息的每个片段对应的说话者的特征信息传输到语音识别器，并且语音识别器可将校正的文本传输到文本校正器，其中文本通过应用从文本校正器接收的特征信息进行校正。

特征信息可包括方言、外语词、感叹词或填充词，并且语音识别器可将方言转换成标准语言，将外语词转换成本地词，或去除作为说话者的习惯的感叹词或填充词，并且将所述语音识别器的结果传输到文本校正器。

多语者语音识别校正系统还可包括修订器，修订器配置成向多个说话者中的每个显示通过语音识别器获得的语音识别结果和通过文本校正器获得的校正结果。

修订器可接收用于校正的信息或修订完成信号，并将所述信号传输到文本校正器。

有益效果

根据本发明，当语音信号从各自被提供到多个说话者中的相应的一个的多个麦克风输入到多语者语音识别系统时，多语者语音识别校正系统可检测从每个语音信号的输入开始的时间点到语音信号的输入停止的时间点的语音会话，并且语音识别器可仅将检测的语音会话转换成文本，从而可通过简单方法识别话语的说话者，并且可以以低成本进行语音识别。

此外，在根据本发明的实施方式的多语者语音识别校正系统中，校正语音识别文本的文本校正器输出由说话者发出的话语以及语音识别文本，使得校正者可以在清楚地识别说话者的话语的同时校正文本。

附图说明

图1是示出根据本发明的一个实施方式的多语者语音识别校正系统的配置的框图。

图2是用于描述根据本发明的一个实施方式的语音信号检测器的语音信号检测的图。

图3是示出根据本发明的一个实施方式的语音合并器的语音合并过程的示意图。

图4是示出根据本发明的一个实施方式的在修订器上显示的画面的示例的图。

图5是示出根据本发明的一个实施方式的文本校正器的配置的框图。

图6至图8是显示根据本发明的一个实施方式的文本校正器的每个模式的图。

具体实施方式

在以下描述中，将省略众所周知的功能或结构的详细说明，因为它们将使本发明在不必要的细节上不清楚。

应该理解的是，说明书和所附权利要求中使用的术语不应被理解为限于它们的一般和词典含义，而是要基于允许发明人适当地定义术语以得到最佳解释的原则、基于对应于本发明的技术方面的含义和构思进行理解。因此，本文提出的描述仅为优选的示例，仅用于说明性的目的并且不旨在限制本发明的范围，并且因此，应该理解的是，在不偏离本发明的精神和范围的情况下，可以对本发明做出其他等效和修改。

在下文中，将详细描述本发明的示例性实施方式。

图1是示出根据本发明的一个实施方式的多语者语音识别校正系统的配置的框图，并且图2是用于描述根据本发明的一个实施方式的语音信号检测器的语音信号检测的图。

参照图1和图2，根据本发明的一个实施方式的多语者语音识别校正系统600包括语音信号检测器100、语音识别器200和文本校正器300。

语音信号检测器100从多个麦克风1中的每个麦克风接收语音信号。在此情况下，可将多个麦克风1提供给多个说话者。例如，可将麦克风1提供给说话者1，并且可将麦克风2提供给说话者2。即，为每个说话者提供多个麦克风1中的一个麦克风，使得可在不需要用于识别说话者的算法的情况下通过区分从麦克风输入到语音信号检测器100的语音信号来识别说话者。

此外，当语音信号检测器100从麦克风1接收语音信号时，语音信号检测器100检测从相应语音信号的输入开始的时间点到语音信号的输入停止的时间点的每段语音会话。即，语音信号检测器100将从麦克风1中的每个麦克风输入的模拟信号转换成数字信号，并确定以及检测语音信号的输入开始的时间点和语音信号的输入停止的时间点。在此情况下，可根据预定时间间隔来确定语音信号的输入是否停止，并且当在预定时间间隔内未输入语音信号时，可确定相应的语音信号是一个会话。

如上所述，当语音信号检测器100检测语音会话时，语音信号检测器100可包括用于识别语音会话的麦克风的麦克风识别信息和时间信息。语音信号检测器100可将检测的语音会话传输到语音识别器200和文本校正器300。在此情况下，语音信号检测器100可从麦克风1输入的信号中移除未输入语音的时间间隔，并将语音信号的语音基本被输入的时间间隔传输到语音识别器200或文本校正器300。

同时，语音信号检测器100可根据语音识别信号的输入开始的时间点的顺序来合并生成的语音会话，并将合并的语音传输到语音识别器200。例如，当存在从多个麦克风1输入的语音信号重叠的时间点时，语音信号检测器100可根据每个语音信号的输入开始的时间点来确定语音信号的优先级，通过将随后输入的语音信号附接到先前输入的语音信号的末尾来将语音信号合并成单个语音信号的形式，并将单个语音信号传输到语音识别器200。

语音识别器200从语音信号检测器100接收从多个麦克风1输入的多个语音会话，并将所接收的语音会话转换成文本形式。当语音会话被输入时，语音识别器200从语音会话提取语音识别所需的特征向量。在此情况下，特征向量设置为表示语音特征并且对其他因素(即，背景噪声、说话者差异、发音方式等)不敏感。然后，语音识别器200通过将特征向量与存储的词模型比较(即，与每个单词的音素特征或基于音素的声学模型进行比较)来执行用于提取潜在词的模式分类。

此外，语音识别器200以一系列候选词或候选音素的形式对模式分类的结果执行基于句子的检索。在此情况下，语音识别器200基于关于候选词或候选音素的信息通过确定词或音素是否匹配语法结构、整体句子上下文和特定主题来确定最合适词或音素。语音识别器200可将通过以上过程完成的文本传输到文本校正器300。

文本校正器300从语音识别器200接收语音识别文本。在此情况下，文本校正器300可从语音识别器200接收通过识别每段语音会话中的语音而获得的文本的片段，基于包含在语音会话中的时间信息和麦克风识别信息、以语音信号的输入开始的时间点的顺序对文本片段进行排列，并将匹配的麦克风识别信息列入每个文本片段中。

此外，文本校正器300可声学地再现提供有麦克风的多个说话者的图像和由多个说话者发出的话语，并将再现结果提供给校正者。然后，文本校正器300可从校正者接收用于校正语音识别文本的信息并基于接收的信息校正错误识别的文本。

如上所述，当语音信号从提供给多个说话者的多个麦克风1输入时，根据本发明的实施方式的多语者语音识别校正系统600可检测从每个语音信号的输入开始的时间点到语音信号的输入停止的时间点的语音会话，并且语音识别器仅将检测的语音会话转换成文本，并且因此，可通过简单方法来识别话语的说话者，并且可以以低成本进行语音识别。

此外，在根据本发明的实施方式的多语者语音识别校正系统600中，校正语音识别文本的文本校正器300将由说话者发出的话语与语音识别文本一起输出，并且因此校正者可以在清楚地识别说话者的语音的同时校正文本。

同时，多语者语音识别校正系统600还可包括语音合并器400和修订器500，其中，语音合并器400合并由语音信号检测器100检测的语音会话，修订器500向多个说话者中的每个说话者显示由语音识别器200获得的语音识别结果以及由文本校正器300获得的校正结果。

图3是示出根据本发明的一个实施方式的语音合并器的语音合并过程的示意图，以及图4是示出根据本发明的一个实施方式的在修订器上显示的画面的示例的图。

参照图1至图4，语音合并器400可从语音信号检测器100接收语音会话，将语音会话按照语音识别信号的输入开始的时间点的顺序合并，并将合并的语音传输到文本校正器300。例如，当存在从多个麦克风1输入的语音信号重叠的时间点时，语音合并器400可根据每个语音信号的输入开始的时间点来确定语音信号的优先级，并通过将随后输入的语音信号附接到先前输入的语音信号的末尾来将语音信号合并成单个语音信号的形式。

如图3所示，即，当通过麦克风1输入的语音信号在t0处开始且在t1处停止时，从t0到t1的间隔可为一个语音会话。在此时，当通过麦克风2输入另一语音会话(t2到t3)，并且同时通过麦克风3输入又一个语音会话(t4到t5)时，可出现重叠的语音区间。

语音合并器400可根据语音信号的输入开始时间点的顺序(即，按照从t0到t1的语音会话、从t4到t5的语音会话以及从t2到t3的语音会话的顺序)来合并此类重叠的语音会话，并将合并的语音传输到文本校正器300。

在此情况下，文本校正器300可将由语音合并器400合并的语音与语音识别文本一起输出。

修订器500可显示通过语音识别器200获得的语音识别结果和通过文本校正器300获得的校正结果。例如，修订器500可配置有诸如显示屏的显示设备和诸如键盘等的输入设备。例如，修订器500可显示语音识别文本并在显示的文本中区别地显示由文本校正器300校正的部分，并且因此说话者可以直接地查看和检查语音识别结果。在此情况下，修订器500可从说话者接收用于校正的信息并直接地校正文本，或可接收修订完成信号并将所述信号传输到文本校正器300。

在下文中，将详细描述根据本发明的一个实施方式的文本校正器。

图5是示出根据本发明的一个实施方式的文本校正器的配置的框图，以及图6至图8是示出根据本发明的一个实施方式的文本校正器的各个模式的图。

参照图5至图8，根据本发明的一个实施方式的文本校正器300包括输入器10、显示器20、存储单元30、语音重现器40、通信器50和控制器60。

输入器10接收诸如号码信息、字符信息等的多种信息，并将用于文本校正器300的多种功能设置和功能控制的输入的信号传输到控制器60。例如，输入器10可为诸如小键盘、鼠标、操纵杆等的输入设备，并且优选地可为能够快速地校正错误识别的单词或句子的速记键盘。输入器10可从校正者接收用于校正语音识别文本的信息。在此情况下，校正者可通过输入器10将用于校正的光标移动到显示器20上的语音识别文本上，并且通过向输入器10输入用于校正的信息(即，校正的词)来校正语音识别文本。

显示器20显示与文本校正器300的操作期间发生的一系列操作状态和操作结果有关的信息。此外，显示器20可显示文本校正器300的菜单和由用户输入的用户数据。这里，显示器20可配置有液晶二极管(LCD)、薄膜晶体管LCD(TFT-LCD)、发光二极管(LED)、有机LED(OLED)、有源矩阵OLED(AMOLED)、视网膜显示器、柔性显示器、三维显示器等。

显示器20可包括第一显示窗21、第二显示窗22、第三显示窗23、第四显示窗24、第五显示窗25和第六显示窗26。

第一显示窗21可显示佩戴麦克风的多个说话者的图像。在此情况下，第一显示窗21可显示说话者标签21a来识别图像中正在发言的说话者是谁。说话者标签21a可在说话者的头部上方或在能够识别说话者的位置处显示。

第二显示窗22可显示实时语音识别文本，并且第三显示窗23可根据时间来显示第二显示窗22上的实时语音识别文本的说话者信息和语音识别文本。

第三显示窗23可根据时间来显示第二显示窗22的实时语音识别文本以及说话者信息，并且第三显示窗23可包括检查CHK列以标记由校正者校正的文本。

第四显示窗24可针对每个说话者将显示在第三显示窗23上的文本片段进行分类和显示。

第五显示窗25可以以信号的形式显示来自上述语音合并器400的合并的语音，从而支持校正者来通过输入器10指定预期的语音位置。

第六显示窗26可显示能够对第一显示窗和第五显示窗25上显示的图像和话语进行控制的多种菜单。例如，第六显示窗26可包括诸如回放(BTW)、快进(FF)、录音(Rec)等的菜单。

执行文本校正器300的功能所需的应用程序存储在存储单元30中。在此情况下，当响应于用户的请求而激活每个功能时，存储单元30在控制器60的控制下执行相应的应用程序并提供相关的功能。存储单元30可存储用于实现每个模式(即，实时输入模式、校正模式和说话者指定播放模式)的程序。此外，存储单元30可存储自动文本数据库(DB)以便于校正者进行校正。此外，存储单元30可存储包括方言、外语词、感叹词或填充词的特征信息DB。

语音重现器40可在控制器60的控制下从语音信号检测器或语音合并器接收并重现语音会话，从而使得用户可以听到语音。例如，语音重现器40可包括用于听觉输出的扬声器。

通信器50可包括用于在控制器60的控制下使用多种通信方案进行数据传输的通信接口，并且通信器50可接收从语音信号检测器传输的语音会话或从语音识别器传输的语音识别文本。此外，通信器50可从修订器接收修订的文本。

控制器60可从语音识别器接收语音识别文本片段，并且按照语音信号的输入开始的时间点的顺序将文本片段排列并显示在第二显示窗22中。

控制器60可包括实时输入模式、校正模式和说话者指定播放模式，在实时输入模式中，显示语音识别文本，并且突出显示与所显示的文本的说话者信息匹配的说话者标签以用于识别，在校正模式中，当输入用于校正语音识别文本的信息时，突出显示与待校正的文本的说话者信息匹配的说话者标签以用于识别，在说话者指定播放模式中，当输入针对每个说话者标签的选择信号时，根据时间输出与所选择的说话者标签匹配的说话者的语音识别文本或语音会话的话语。

在实时输入模式中，控制器60可在第二显示窗22中显示来自实时语音识别器的语音识别文本，并可在第一显示窗21中显示多个说话者的图像。在此模式中，可区别地显示与由语音重现器40重现的语音匹配的说话者标签21a。例如，控制器60可改变匹配的说话者标签21a的颜色或形状，使得校正者可以分辨说话者标签21a。此外，控制器60可显示对应于第二显示窗22中的实时语音识别文本的说话者信息的说话者标签21a，使得说话者标签21a可以被识别。也就是说，控制器60可执行控制使得在实时语音识别文本被提供到第二显示窗22的同时通过语音重现器40重现相应的语音会话的语音，并且控制器60可执行控制使得匹配的说话者标签21a在第一显示窗21中突出显示。同时，控制器60可将包含在来自语音识别器的经转换文本中的麦克风信息改变成由校正者通过输入器10输入的匹配的说话者信息，并且可在第二显示窗22中显示改变的信息。如上所述，控制器60可解决当在远处显示图像时仅仅通过嘴型不能够识别说话者的问题。

在校正模式中，用于校正的信息可通过输入器10从校正者接收以校正语音识别文本。即，控制器60可在实时输入模式中通过输入器10从校正者接收用于校正的光标移动，在光标移动之后接收用于校正的信息，并允许校正语音识别文本。在此情况下，控制器60可突出显示与所校正的文本的说话者信息匹配的说话者标签21a，使得校正者可以识别对应于所校正的文本的说话者。在此情况下，当控制器60接收到用于校正语音识别文本的信息时，控制器60可暂停文本的显示，并且当完成校正时，可通过以预定时间量返回到过去的时间点来恢复文本的显示。

在说话者指定播放模式中，可通过输入器10从校正者接收针对每个说话者标签21a的选择信号，并且可根据时间间隔输出与所选择的说话者标签21a对应的说话者的语音识别文本或语音会话的话语。在此情况下，控制器60可执行控制使得在第一显示窗21中显示所选择的说话者的图像、在第二显示窗22中显示所选择的说话者的文本以及在语音重现器40中显示所选择的说话者的话语。

此外，控制器60可通过输入器10接收与麦克风识别信息中的每个片段对应的说话者的特征信息，并将所述信息预先传输至语音识别器。在这里，特征信息可包括方言、外语词、感叹词或填充词。填充词可为说话者自己的习惯，诸如“好(well)”、“所以(so)”、“像(like)”、“我的意思是(I mean)”、“实际上(actually)”和“你知道(you know)”。当语音识别器识别语音并将语音转换成文本时，这样的特征信息可作为线索。控制器60可通过显示器20将存储在存储单元30中的特征信息DB提供给校正者。例如，当校正者在特征信息DB中选择庆尚道(Gyeongsang-do)方言时，控制器60可将用于将庆尚道方言转换成标准语言的信息片段传输至语音识别器。同时，在本发明的实施方式中，控制器60配置成将特征信息传输到语音识别器，并控制语音识别器来执行到标准语言的转换，但是控制器60不限于此。控制器60可配置成直接地校正从语音识别器接收的文本。

此外，控制器60可通过确定从语音识别器接收的文本是否具有结尾来显示标点符号。例如，当位于句子末尾处的诸如“da( )”、“kka( )”的字符的前面存在另一字符时，控制器60可附加对应于所述字符的标点符号，或者当语音会话结束时，控制器60可显示相应的标点符号。

在本说明书中，本发明的示例性实施方式已经被分类成第一示例性实施方式、第二示例性实施方式和第三示例性实施方式且为了简明的目的而进行描述。然而，示例性实施方式的步骤或功能可与另一示例性实施方式的步骤或功能结合以实施本发明的又一示例性实施方式。

附图标记：

1:麦克风 10:输入器

20:显示器 21:第一显示窗

22:第二显示窗 23:第三显示窗

24:第四显示窗 25:第五显示窗

26:第六显示窗 30:存储单元

40:语音重现器 50:通信器

60:控制器

100:语音信号检测器

200:语音识别器 300:文本校正器

400:语音合并器 500:修订器

600:多语者语音校正系统

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：安文学
技术所有人：株式会社速录抓吧
我是此专利的发明人

上一篇：语音识别系统及其方法与词汇建立方法与流程
上一篇：一种数据处理方法及系统与流程