语音的处理方法、装置和计算机可读存储介质与流程

文档序号：19145707发布日期：2019-11-15 23:29阅读：223来源：国知局

本发明涉及录音转写领域，尤其涉及一种语音的处理方法、装置和计算机可读存储介质。

背景技术：

随着社会的发展，人们的生活越来越高效化，尤其在现代会议过程或采访过程中，经常需要用到录音转写设备将语音转换为文字进行记录，提高工作效率。因此，录音转写设备就为文字工作者提供了便捷高效的语音转文字服务。

但是，目前市面上的录音设备时间缺乏连续性，一般app或录音设备，由于断网需要重新连接，每次重新连接提交的数据，产生的时间戳都是相对于当前重新连接时间的，与断网前的录音的时间没有联系，断网后相当于开始一段新的录音，而实际过程中，用户在断网前后的录音是连续的，并没有产生中断，这样就会导致整个过程的时间戳不连续。

技术实现要素：

本发明的主要目的在于提供一种语音的处理方法、装置和计算机可读存储介质，旨在保证整个语音数据时间戳的连续性。

为实现上述目的，本发明提供一种语音的处理方法，所述语音的处理方法包括以下步骤：

获取异常时刻前的第一音频信息和异常时刻后的第二音频信息；

根据所述第一音频信息和第二音频信息对所述第二音频信息的时间进行计算，确定所述第二音频信息正确的时间戳；

根据所述时间戳对所述第二音频信息进行校正，获得包括连续时间戳的第三音频信息。

可选地，所述根据所述第一音频信息和第二音频信息对所述第二音频信息的时间进行计算，确定所述第二音频信息正确的时间戳的步骤包括：

确定所述第一音频信息的起始时间信息和音频数据大小；

根据所述音频数据大小利用第一公式计算出所述第二音频信息的偏移时间；

根据所述偏移时间和所述起始时间信息利用第二公式进行计算，得到所述第二音频信息正确的时间戳。

可选地，所述第一公式为：

t1＝(q*8.0)/(s*m*n)*1000，

其中t1为偏移时间，q为第一音频信息的音频数据大小，s为采样率，m为每次采样位数，n为通道数。

可选地，所述第二公式为：

t＝t2+t1，

其中，t1为第二音频信息的偏移时间，t2为第一音频信息的起始时间信息，t为第二音频信息正确的时间戳。

可选地，所述语音的处理方法还包括：

对所述第三音频信息进行语音转换，获得包括连续时间戳的的文字信息。

可选地，所述对所述第三音频信息进行语音转换，获得包括连续时间戳的的文字信息的步骤包括：

根据所述第三音频信息确定所述第三音频信息的语言类型；

根据所述语言类型对所述第三音频信息进行语音转换，获得包括连续时间戳的的文字信息。

可选地，所述语音的处理方法还包括以下步骤：

将所述包括连续时间戳的文字信息发送到移动终端，以使得移动终端同步所述包括连续时间戳的的文字信息。

可选地，所述语音的处理方法还包括以下步骤：

根据所述文字信息获得所述文字信息对应的角色信息；

将所述角色信息与所述包括连续时间戳的的文字信息进行关联显示。

此外，为实现上述目的，本发明还提供一种语音的处理装置，所述语音的处理装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的语音的处理程序，所述语音的处理程序被所述处理器执行时实现如上所述的语音的处理方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语音的处理程序，所述语音的处理程序被处理器执行时实现上述的语音的处理方法的步骤。

本发明提供一种语音的处理方法、装置和计算机存储介质。在该方法中，获取异常时刻前的第一音频信息和异常时刻后的第二音频信息；根据所述第一音频信息和第二音频信息对所述第二音频信息的时间进行计算，确定所述第二音频信息正确的时间戳；根据所述时间戳对所述第二音频信息进行校正，获得包括连续时间戳的第三音频信息。通过上述方式，本发明能够在断网等异常情况时，获取断网等异常情况时前后的两段音频信息，根据前后两段音频信息对音频信息的时间进行修正，使音频信息的时间与没有异常情况时的时间即实际时间保持一致，保证录音过程中整个录音过程音频信息时间的连续性，对断网前后的音频信息进行拼接，保证时间戳连续。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图；

图2为本发明语音的处理方法第一实施例的流程示意图；

图3为本发明语音的处理方法第二实施例的流程示意图；

图4为本发明语音的处理方法第三实施例的流程示意图；

图5为本发明语音的处理方法第四实施例的流程示意图；

图6为本发明语音的处理方法第五实施例的流程示意图；

图7为本发明语音的处理方法第六实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的装置结构示意图。

本发明实施例终端可以是pc，也可以是智能手机、平板电脑、便携计算机等具有数据处理功能的终端设备。

如图1所示，该终端可以包括：处理器1001，例如cpu，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、rf(radiofrequency，射频)电路，传感器、音频电路、wi-fi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在移动终端移动到耳边时，关闭显示屏和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；当然，移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音的处理程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的语音的处理程序，并执行以下操作：

获取异常时刻前的第一音频信息和异常时刻后的第二音频信息；

根据所述第一音频信息和第二音频信息对所述第二音频信息的时间进行计算，确定所述第二音频信息正确的时间戳；

根据所述时间戳对所述第二音频信息进行校正，获得包括连续时间戳的第三音频信息。