一种语音音频切分手动调整切分点的系统及方法

文档序号：8944169阅读：664来源：国知局

一种语音音频切分手动调整切分点的系统及方法
【技术领域】
[0001] 本发明属于语音识别技术领域，具体涉及以一种语音音频切分手动调整切分点的系统及方法。
【背景技术】
[0002] 通过语音识别技术将连续的自然语音转换成文字，首先需要将语音流切分成若干语音分段。目前连续语音的识别技术是按词、按句进行的，所以理想的切分点最好是在每一句话的完结处或语音的停顿处，这在语音声能的表现上，应该是能量的低点。但在计算机根据算法进行自动切分的时候，往往不能做到100%的正确，而连续自然语音切分点的正确与否，直接关系到语音识别率。因此，手动修改、调整切分点是连续自然语音识别不可缺少的一步。也是语音精准文本化过程中，进行后期校对方便性所必须的。

【发明内容】

[0003] 为了有效解决上述问题，本发明提供一种语音音频切分手动调整切分点的系统及方法。本发明要解决的技术问题是：能够快速修改、调整语音音频切分点，弥补计算机根据算法进行自动切分所产生的差误。从而有效的提高语音识别的正确率，并为后期的校对工作提供方便。
[0004] 本发明的技术方案是：提供一种语音音频切分手动调整切分点的系统及方法，所述系统包括显示单元、处理单元、手动操作单元；所述显示单元及手动操作单元均连接在所述处理单元上。
[0005] 进一步地，所述处理单元包括语音音频分划处理判断模块、语音音频波形图显示模块、中央处理模块及发送模块。
[0006] 进一步地，所述语音音频分划处理判断模块、语音音频波形图显示模块及发送模块均连接在所述中央处理模块上，所述中央处理模块逻辑连接所述显示单元，所述手动操作单元连接所述中央处理模块上。
[0007] 进一步地，所述语音音频分划处理判断模块进行识别判断手动操作单元发送的操作方式，并传给处理单元。处理单元接收手动操作单元的指令，反馈在显示单元上，显示手动操作单元的操作步骤，所述该显示单元还显示包括显示视频波形图栏及处理显示栏。
[0008] 进一步地，所述语音波形图显示模块，手动操作单元的操作步骤通过中央处理模块发送至显示单元，显示单元将切分点调整好的波形图进行显示。
[0009] 进一步地，所述发送模块，将语音音频切分点调整后的语音片段发送至云端识别。
[0010] -种语音音频切分手动调整切分点的方法，所述方法具体包括以下步骤： A) 首先获取计算机自动切分的音视频语音文件及对应的语音音频波形图显示； B) 手动操作修改、调整切分点； C) 将切分点调整后的语音段发送至云端再次识别。
[0011] 进一步的，步骤A中所述获取计算机自动切分的音视频语音文件及对应的语音音频波形图，是一种精准完成连续自然语音文本化的处理系统中，经过预处理后的音视频语音文件及对应的波形图。
[0012] 进一步的，步骤B中所述手动操作修改、调整切分点，包括： Bl :打开调整切分点开关，通过鼠标任意键单击或双击波形图新切分点的位置，完成切分点的调整； B2 :按住鼠标任意键，并拖动波形图中语音片段的开始点或结束点，结束拖动完成切分点调整； B3 :按住鼠标任意键，拖动调整切分点定位线到新切分点出，结束拖动完成切分点调整； B4 :通过鼠标任意键直接双击波形图新切分点的位置，完成调整切分点； B5 :通过鼠标任意键或快捷键弹出菜单项，增加切分点、修改切分点、删除切分点。
[0013] 进一步的，步骤C中所述将切分点调整后的语音段发送至云端再次识别，是经过上述方法调整切分点并确认后，通过发送开关将新调整的语音段送到云端识别。
[0014] 本发明的有益效果：1、将连续自然语音音频的切分点调整到自然语句一句话的完结处或语句的停顿处，进一步提高了语音识别率；2、将较长的（一般在40-100字以上）若干语句组成的过长语句，重新切分成若干个短语句，方便了后期依据语音进行文本校对。
【附图说明】图1为语音音频切分手动调整切分点的第一流程图；图2为语音音频切分手动调整切分点的第二流程图；图3为语音音频切分手动调整切分点的第三流程图；图4为语音音频切分手动调整切分点的第四流程图；图5为语音音频切分手动调整切分点的第五流程图；图6为语音音频切分手动调整切分点的第六流程图；图7为语音音频切分手动调整切分点的切分调整流程图。具体实施例：
[0016] 下面结合实例对本发明的技术方案进行详细说明，显然，所描述的实例仅仅是本发明中很小的一部分，而不是全部的实例。基于本发明中的实例，本领域人员在没有做出创造性劳动前提下所获得的所有其他实例，都属于本发明保护的范围。本发明涵盖任何由权利要求定义的在本发明的精髓和范围上做的替代、修改、等效方法以及方案。进一步，为了使公众对本发明有更好的了解，在下文对本发明的细节描述中，详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明。
[0017] 如图1所示，为本发明提供一种语音音频切分手动调整切分点的方法。具体包括以下步骤： A、按下任意键或任意组合键打开调整切分点功能开关；设定任意键或任意键的组合，作为修改、调整切分点的开关。可设定开关模式是按下还是按住，选择模式为按住表示：按住键或组合键打开开关，抬起键或组合键则关闭开关；选择模式为按下表示：第一次按下键或组合键打开开关，再次按下键或组合键关闭开关。 B、通过鼠标任意键单击或双击波形图新切分点的位置，完成切分点调整； C、确认新切分点，将新调整的语音段送到云端识别。
[0018] 如图2所示，为本发明提供一种语音音频切分手动调整切分点的方法。具体包括以下步骤： A、通过按住鼠标任意键，拖动波形图中语音片段的开始点或结束点，结束拖动完成切分点调整；首先按住设定的鼠标任意键，然后，将鼠标放在高亮波形图的开始或结束虚线位置时，鼠标会变为左右箭头卜、、> ,此时可按住鼠标

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：徐信;
技术所有人：徐信;
我是此专利的发明人

上一篇：语音识别语法树的构图方法及装置的制造方法
上一篇：一种判断说话人数目的方法及系统的制作方法