音频角色分割与识别文字的交互系统、方法、终端及介质与流程

文档序号：15562103发布日期：2018-09-29 02:29阅读：428来源：国知局

本发明涉及音频识别技术领域，具体涉及一种对话音频角色分割与识别文字的交互系统、方法、终端及介质。

背景技术：

现有的自动识别对话角色并进行语音分割和角色归属的技术还存在精度不高的问题，难免存在识别和切割不准确的情况发生，还需要搭配手动切割语音与分配角色来进行精调，现有的手动实现音频分割的交互方式主要为在一段音频内设置起始和结束分割点，再把音频截取出来，但无法自动把分割出来的对话进行角色归属，且同时将语音转为文字内容。也就是说，需要实现分割语音、分配语音所属角色和将语音转为文字内容功能的交互方式目前尚未被整合，操作起来效率较低。

技术实现要素：

针对现有技术中的缺陷，本发明的目的之一在于提供一种对话音频角色分割与识别文字的交互系统，实现自动对不同角色的对话音频进行分割和文字转换，快速、高效、准确地实现对话音频角色分割和文字识别。

第一方面，本发明实施例提供的对话音频角色分割与识别文字的交互系统，包括服务器和用户终端，所述服务器接收用户终端发送的待识别对话音频数据流；所述服务器包括语音处理模块、语音识别文字模块和输出模块，所述语音处理模块被配置为对待识别对话音频数据流进行播放；获取用户终端对语音角色的分配操作并识别语音角色分配；按角色对音频数据流进行标记；根据角色标记分割出不同角色所对应的音频数据流；所述语音识别文字模块被配置为将不同角色的音频数据流识别为文字信息；所述输出模块被配置为输出文字信息。

可选地，所述语音处理模块包括语音播放模块,所述语音播放模块被配置为播放待识别对话音频数据流。

可选地，所述语音处理模块还包括角色标记模块，所述角色标记模块被配置为根据所述语音角色分配信息对播放的音频数据流进行角色标记，且记录角色标记所对应的音频数据流的时间点。

可选地，所述语音处理模块还包括语音分割模块，所述语音分割模块被配置为将相邻时间点的音频数据流被标记为不同角色的音频数据流进行分割处理，对相邻时间点的音频数据流被标记为同一角色的相邻音频数据流则不进行分割处理，分割出不同角色对应的音频数据流。

第二方面，本发明实施例提供的音频角色分割与识别文字的交互方法，具体包括以下步骤：

服务器接收并获取用户终端发送的待识别对话音频数据流；

服务器获取用户终端对所述待识别对话音频数据流进行编辑请求；

服务器对待识别对话音频数据流进行播放；

服务器获取用户终端对语音角色的分配操作并识别语音角色分配，将对话音频数据流按所述角色分配对对话音频数据流进行角色标记，并记录角色标记所对应的音频数据流的时间点；

服务器根据角色标记分割出不同角色所对应的音频数据流；

服务器将所述不同角色所对应的音频数据流进行识别转换为文字信息；

服务器输出所述文字信息。

可选地，所述服务器根据角色标记分割出不同角色所对应的音频数据流的具体方法包括：将相邻时间点的音频数据流被标记为不同角色的音频数据流进行分割处理，对相邻时间点的音频数据流被标记为同一角色的相邻音频数据流则不进行分割处理。

第三方面，本发明实施例提供的移动终端，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述方法。

第四方面，本发明实施例提供的计算机可读存储介质，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述方法。

本发明的有益效果：

本发明实施例提供的对话音频角色分割与识别文字的交互系统、方法、终端及介质，通过获取用户在用户终端上的操作交互手势获取用户对角色的区分，服务器根据用户终端对角色的区分对对话音频数据流进行角色标记、分割，再将分割的语音数据流转换成对应的文字信息输出，实现自动对不同角色的对话音频进行分割和文字转换，快速、高效、准确地实现对话音频角色分割和文字识别。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1示出了本发明提供的一种对话音频角色分割与识别文字的交互系统的第一实施例的原理框图；

图2示出了本发明提供的对话音频角色分割与识别文字的交互系统的第二实施例的原理框图；

图3示出了本发明提供的对话音频角色分割与识别文字的交互方法的第一实施例的流程图；

图4示出了本发明提供的移动终端的第一实施例的结构示意图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只是作为示例，而不能以此来限制本发明的保护范围。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

如图1所示，示出了本发明提供的一种对话音频角色分割与识别文字的交互系统的第一实施例的原理框图，该系统包括服务器1和用户终端2，所述服务器1接收用户终端2发送的待识别对话音频数据流；所述服务器1包括语音处理模块11、语音识别文字模块12和输出模块13，所述语音处理模块11被配置为对待识别对话音频数据流进行播放；获取用户终端2对语音角色的分配操作并识别语音角色分配；按角色对音频数据流进行标记；根据角色标记分割出不同角色所对应的音频数据流；所述语音识别文字模块12被配置为将不同角色的音频数据流识别为文字信息；所述输出模块13被配置为输出文字信息。

用户终端向服务器发送待识别的对话音频数据流，服务器接收并获取待识别对话音频数据流，对话音频为a和b两个角色的对话语音片段。用户通过用户终端发送编辑待识别对话音频的请求，服务器向用户终端反馈对话音频编辑页面，服务器的语音处理模块对待识别对话音频数据流进行播放，用户判断对话音频角色，用户听完一句，判断这句话是a说的，然后在用户终端语音编辑页面上按下a角色控键，语音处理模块将该段视频数据流的对话角色标记为a角色，用户继续播放对话音频数据流，用户听完一句，判断这句话是b说的，在用户终端编辑页面上按下b角色控键，语音处理模块将该段音频数据流的对话角色标记为b角色，然后继续播放，按照上述方法继续对角色进行标记，对话音频播放完毕后，语音处理模块将被标记为不同角色的音频数据进行分割，用户按下语音转文字控键，语音识别文字模块将分割后的音频数据流进行语音转换为文字信息处理，识别出语音对应的文字信息，输出模块输出识别出的文字信息。

本发明实施例的对话音频角色分割与识别文字的交互系统，通过获取用户在用户终端上的操作交互手势获取用户对角色的区分，服务器根据用户终端对角色的区分进行标记、分割，再将分割的语音数据流转换成对应的文字信息输出，实现自动对不同角色的对话音频进行分割和文字转换，快速、高效、准确地实现对话音频角色分割和文字识别。

如图2所示，示出了本发明提供的对话音频角色分割与识别文字的交互系统的第二实施例的原理框图，与第一实施例不同之处在于，语音处理模块11包括语音播放模块111、角色标记模块112和语音分割模块113,所述语音播放模块111被配置为播放待识别对话音频数据流；所述角色标记模块112被配置为根据所述语音角色分配信息对播放的音频数据流进行角色标记，且记录角色标记所对应的音频数据流的时间点；语音分割模块113被配置为将相邻时间点的音频数据流被标记为不同角色的音频数据流进行分割处理，对相邻时间点的音频数据流被标记为同一角色的相邻音频数据流则不进行分割处理，分割出不同角色对应的音频数据流。

用户终端向服务器发送待识别的对话音频数据流，服务器接收并获取待识别对话音频数据流，对话音频为a和b两个角色的对话语音片段。用户通过用户终端发送编辑待识别对话音频的请求，服务器向用户终端反馈对话音频编辑页面，语音播放模块对待识别对话音频数据流进行播放，用户判断对话音频的角色归属，用户听完一句，判断这句话是a说的，然后在用户终端语音编辑页面上按下a角色控键，语音播放模块暂停语音播放，角色标记模块将该段视频数据流的角色标记为a角色，并记录下用户在按下a角色控键的时间点。用户继续播放对话音频数据流，用户听完一句，判断这句话是b说的，在用户终端编辑页面上按下b角色控键，语音播放模块暂停语音播放，角色标记模块将该段语音数据流的角色标记为b角色，并记录下用户在按下b角色控键的时间点。服务器中的语音分割模块将相邻时间点的音频数据流被标记为不同角色的音频数据流进行分割处理，对相邻时间点的音频数据流被标记为都属于同一角色的相邻音频数据流则不进行分割处理，分割出不同角色对应的音频数据流。服务器中的语音识别文字模块将不同角色的音频数据流识别为文字信息；输出模块将每个角色的音频数据流对应的文字信息分配给对话角色，输出文字信息。

如图3所示，示出了本发明提供的对话音频角色分割与识别文字的交互方法的第一实施例的流程图，该方法适用于上述实施例中的音频角色分割与识别文字的交互系统，该方法具体包括以下步骤：

s1:用户终端向服务器发送待识别对话音频数据流。

s2:服务器接收并获取用户终端发送的待识别对话音频数据流。待识别对话音频为不同角色对话音频数据流。

s3:服务器获取用户终端对待识别对话音频数据流进行编辑请求。

s4:服务器对待识别对话音频数据流进行播放。

s5:服务器获取用户终端对语音角色的分配操作并识别语音角色分配，将对话音频数据流按所述角色分配对对话音频数据流进行角色标记，并记录角色标记所对应的音频数据流的时间点。

s6:服务器根据角色标记分割出不同角色所对应的音频数据流。

具体的，将相邻时间点的音频数据流被标记为不同角色的音频数据流进行分割处理，对相邻时间点的音频数据流被标记为同一角色的相邻音频数据流则不进行分割处理。

s7:服务器将所述不同角色所对应的音频数据流进行识别转换为文字信息。

s8:服务器输出所述文字信息。

以下以对话音频包括a和b角色的对话语音片段为例详细说明该方法的实现：

用户终端向服务器发送待识别的对话音频数据流，服务器接收并获取待识别对话音频数据流，用户通过用户终端发送编辑待识别对话音频的请求，服务器向用户终端反馈对话音频编辑页面，语音播放模块对待识别对话音频数据流进行播放，用户判断对话音频的角色归属，用户听完一句，判断这句话是a说的，然后在用户终端语音编辑页面上按下a角色控键，语音播放模块暂停语音播放，角色标记模块将该段视频数据流的角色标记为a角色，并记录下用户在按下a角色控键的时间点。用户继续播放对话音频数据流，用户听完一句，判断这句话是b说的，在用户终端编辑页面上按下b角色控键，语音播放模块暂停语音播放，角色标记模块将该段语音数据流的角色标记为b角色，并记录下用户在按下b角色控键的时间点。服务器中的语音分割模块将相邻时间点的音频数据流被标记为不同角色的音频数据流进行分割处理，对相邻时间点的音频数据流被标记为都属于同一角色的相邻音频数据流则不进行分割处理，分割出不同角色对应的音频数据流。服务器中的语音识别文字模块将不同角色的音频数据流识别为文字信息；输出模块将每个角色的音频数据流对应的文字信息分配给对话角色，输出文字信息。

本发明实施例的对话音频角色分割与识别文字的交互方法，通过获取用户在用户终端上的操作交互手势获取用户对角色的区分，服务器根据用户终端对角色的区分进行标记、分割，再将分割的语音数据流转换成对应的文字信息输出，实现自动对不同角色的对话音频进行分割和文字转换，快速、高效、准确地实现对话音频角色分割和文字识别。

如图4所示，示出了本发明提供的移动终端的第一实施例的结构示意图，移动终端包括处理器31、输入设备32、输出设备33和存储器34，所述处理器31、输入设备32、输出设备33和存储器34相互连接，所述存储器34用于存储计算机程序，所述计算机程序包括程序指令，所述处理器31被配置用于调用所述程序指令，执行上述实施例描述的方法。

本发明实施例提供的移动终端，通过获取用户在用户终端上的操作交互手势获取用户对角色的区分，服务器根据用户终端对角色的区分进行标记、分割，再将分割的语音数据流转换成对应的文字信息输出，实现自动对不同角色的对话音频进行分割和文字转换，快速、高效、准确地实现对话音频角色分割和文字识别。

本发明的实施例还提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述实施例描述的方法。

计算机可读存储介质可以是前述实施例所述的终端的内部存储单元，例如终端的硬盘或内存。所述计算机可读存储介质也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(smartmediacard,smc)，安全数字(securedigital,sd)卡，闪存卡(flashcard)等。进一步地，所述计算机可读存储介质还可以既包括所述终端的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述终端所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的终端和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露终端和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐涌
技术所有人：徐涌
我是此专利的发明人