在传真透传模式下切回语音模式方法、装置、设备及介质与流程

文档序号：19422465发布日期：2019-12-14 01:42阅读：618来源：国知局

本发明涉及嵌入式驱动领域，特别是涉及一种在传真透传模式下切回语音模式方法及装置、计算机设备、可读存储介质。

背景技术：

在voip(基于ip的语音传输)系统中，传真有两种工作模式：透传和t38工作模式。所谓透传模式，即采用g711的编码方式透明传输(pass-through)，指的是在通讯中不管传输的业务内容如何，只负责将传输的内容由源地址传输到目的地址，而不对业务数据内容做任何改变。

当前设备关注的是如何快速尽可能减少信号损伤的情况下从语音模式切到传真模式来提高传真的成功率，可在传真结束后的语音质量就很少关注了。在t38模式下，由于传真完毕后设备能检测到dcn事件(dcn：disconnectx1011111indication:theinitiationofphasee(callrelease).noresponserequired.一种传真切断的事件，表示传真结束了)，设备根据dcn事件通过信令将传真的两终端切回到语音模式，可在透传模式下，没有一个很明确的事件让传真切回到语音模式，由于透传模式也能传语音，只是有回声，语音质量不好，这个切回语音模式的功能往往被忽略掉了。为了提高传真结束后用户的通话感受，还是有必要实现切回到语音通道的操作；但是现有技术中在透传模式下，让传真切回到语音模式不容易实现，并且由于透传模式也能传语音，但有回声，在某些极端点的场合，回声过大引起用户通话感受不好。

技术实现要素：

本发明要解决的技术问题是，提供一种在传真透传模式下切回语音模式方法及装置、计算机设备、可读存储介质，本发明可以解决即现有技术中在透传模式下，让传真切回到语音模式不容易实现，并且由于透传模式也能传语音，但有回声，在某些极端点的场合，回声过大引起用户通话感受不好的技术问题。

一种在传真透传模式下切回语音模式方法，其中，所述方法包括：

当进入到传真的透传模式时，打开dsp的静音检测器和语音检测器；

当传真结束后，检测到预定时间段的静音事件和语音事件，则控制切到语音模式；

当切到语音模式时，控制打开dsp的回声消除器，把回声作为干扰信号从实际语音数据中去除。

所述在传真透传模式下切回语音模式方法，其中，所述当进入到传真的透传模式时，打开dsp的静音检测器和语音检测器的步骤包括：

当终端进入到传真的透传模式时，接收操作指令打开dsp的静音检测器和语音检测器。

所述在传真透传模式下切回语音模式方法，其中，所述当传真结束后，检测到预定时间段的静音事件和语音事件，则控制切到语音模式的步骤包括：

当传真结束后，判断是否检测到超过预定时间段的静音和是否检测到语音；

当检测到了预定时间段的静音事件和检测到语音事件，则控制切到语音模式。

所述在传真透传模式下切回语音模式方法，其中，所当切到语音模式时，控制打开dsp的回声消除器，把回声作为干扰信号从实际语音数据中去除的步骤具体包括：

当切到语音模式时，控制打开dsp的回声消除器，将静态的防抖动缓冲区设置为动态的；使用指定时间段的防抖动缓冲区；

打开语音端点检测功能，把回声作为干扰信号从实际语音数据中去除。

所述在传真透传模式下切回语音模式方法，其中，所述预定时间段为10秒，。

所述在传真透传模式下切回语音模式方法，其中，所述指定时间段为0-200毫秒。

一种在传真透传模式下切回语音模式装置，其中，所述装置包括：

打开控制模块，用于当进入到传真的透传模式时，打开dsp的静音检测器和语音检测器；

检测控制模块，用于当传真结束后，检测到预定时间段的静音事件和语音事件，则控制切到语音模式；

回声处理模块，用于当切到语音模式时，控制打开dsp的回声消除器，把回声作为干扰信号从实际语音数据中去除。

所述的在传真透传模式下切回语音模式装置，其中，所述回声处理模块包括：

打开单元，用于当切到语音模式时，控制打开dsp的回声消除器，将静态的防抖动缓冲区设置为动态的；使用指定时间段的防抖动缓冲区；

回声处理单元，用于打开语音端点检测功能，把回声作为干扰信号从实际语音数据中去除。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现任一项所述的方法的步骤。

根据本发明实施方式提供的方法，首先在终端进入到传真的透传模式，打开dsp(数字信号处理)的10s的静音检测器和语音检测器；传真结束后，设备的事件监控程序检测到了10s的静音事件和语音事件，切到语音模式。切到语音模式的方法是打开dsp的回声消除器，将静态的jitterbuffer设置为动态的，打开vad功能。传真模式刚好和语音模式是相反的过程，传真模式是关闭ec,关闭vad,静态jitterbuffer。本发明分析传真结束后的信号特征，检测到10s的静音和语音可以判断传真结束；在进入传真的透传模式时将dsp的静音检测和语音检测器打开，同时检测到这2个事件后将传真模式切到语音模式；通过本发明实现了可在透传模式下，让传真快速切回到语音模式，提高了语音传输质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中一种在传真透传模式下切回语音模式方法的流程示意图

图2为本发明实施例中防抖动缓冲区在接收侧软件框图中的位置结构示意图。

图3为本发明实施例中一种在传真透传模式下切回语音模式装置的结构示意图。

图4为本发明实施例中计算机设备的内部结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图，详细说明本发明的各种非限制性实施方式。

请参阅图1，本发明实施例提供的一种在传真透传模式下切回语音模式方法，包括以下步骤：

步骤s1、当进入到传真的透传模式时，打开dsp的静音检测器和语音检测器。

本发明实施例所述在传真透传模式下切回语音模式方法，可选地：当终端进入到传真的透传模式时，接收操作指令打开dsp的静音检测器和语音检测器。例如，在终端进入到传真的透传模式，打开dsp(数字信号处理)的10s的静音检测器和语音检测器；主要用于检测是否静音和是否有语音。

步骤s2、当传真结束后，检测到预定时间段的静音事件和语音事件，则控制切到语音模式；

本发明实施例所述在传真透传模式下切回语音模式方法，可选地：当传真结束后，判断是否检测到超过预定时间段的静音和是否检测到语音；当检测到了预定时间段的静音事件和检测到语音事件，则控制切到语音模式。

例如，传真结束后，设备的事件监控程序检测到了10s的静音事件和语音事件，切到语音模式。

步骤s3、当切到语音模式时，控制打开dsp的回声消除器，把回声作为干扰信号从实际语音数据中去除。

本发明实施例所述在传真透传模式下切回语音模式方法，可选地：当切到语音模式时，控制打开dsp的回声消除器，将静态的防抖动缓冲区设置为动态的；使用指定时间段的防抖动缓冲区；打开语音端点检测功能，把回声作为干扰信号从实际语音数据中去除。其中，所述预定时间段为10秒，所述指定时间段为0-200毫秒。

例如，切到语音模式的方法是打开dsp的回声消除器，将静态的jitterbuffer(防抖动缓冲区)设置为动态的，打开vad(语音端点检测)功能。传真模式刚好和语音模式是相反的过程，传真模式是关闭ec,关闭vad,静态jitterbuffer。

在本发明实施例的语音通信中jitterbuffer((防抖动缓冲区)下面简称jb)是接收侧一个非常重要的模块，它是决定音质的重要因素之一。一方面它会把收到的乱序的语音包排好序放在buffer里正确的位置上，另一方面它把接收到的语音包放在buffer中缓冲一些时间使播放的更平滑从而获得更好的语音质量。

如图2所示，是jitterbuffer(防抖动缓冲区)在接收侧软件框图中的位置；从图2可以看出，从网络上收到的语音包会放在jb(防抖动缓冲区)里(这个操作叫做put)，在需要的时候便从jb(防抖动缓冲区)里取出来(这个操作叫做get)解码直到播放出来。jb有两种模式：adaptive(自适应的)和fixed(固定的)。adaptive是指buffer的大小可以根据网络环境的状况自适应的调整；fixed是指buffer的大小固定不变。自适应的模式实现难度大，要求高，fixed相对简单，现在基本上都用adaptive的模式。jb在生命周期里也有两种状态：prefetching(预存取)和processing(处理中)，只有在processing时才能从jb中取到语音帧。初始化时把状态置成prefetching，当在jb中的语音包个数达到指定的值时便把状态切到processing。如果从jb里取不到语音帧了，它将又回到prefetching。等buffer里语音包个数达到指定值时又重新回到processing状态。

另外，本发明实施例的vad，也就是语音端点检测技术，是voiceactivitydetection的缩写。这个技术的主要任务是从带有噪声的语音中准确的定位出语音的开始和结束点，因为语音中含有很长的静音，也就是把静音和实际语音分离开来，因为是语音数据的原始处理，所以vad是语音信号处理过程的关键技术之一。它的好坏，直接影响成败，由于技术本身的特殊性，所以在涉及语音信号处理的领域，端点检测技术的应用非常广泛。语音识别系统在识别或者声学模型训练阶段所遇到的第一个技术就是端点检测，把回声作为干扰信号从原始数据中去除，并且端点检测对于语音识别系统的性能至关重要。

本发明实施例中vad的作用主要是：

因为在识别的过程中，经常存在实际语音因背景噪声的干扰而与训练失配的情况，实际这也是造成语音识别系统鲁棒性差的一个根本原因(另一个主要的是无法处理非预期的输入)，从而导致识别错误，性能下降。哪怕是两段内容上是完全一致的语音信号，可能由于语速不一样，所以语音信号的时间也不相同，音素之间的时间间隙也就不一样，对于时变而非平稳的语音信号来说，其特征就完全不相同了。有音素之间的间隙，也有静音和语音本身的间隙，为了对数据从时间上进行相对的校准，语音端点检测技术就应运而生了，因此端点检测技术可以决定这种校准的相对精度，大大提高了语音传输质量。

由上可见，根据本发明实施方式提供的方法，首先在终端进入到传真的透传模式，打开dsp(数字信号处理)的10s的静音检测器和语音检测器；传真结束后，设备的事件监控程序检测到了10s的静音事件和语音事件，切到语音模式。切到语音模式的方法是打开dsp的回声消除器，将静态的jitterbuffer设置为动态的，打开vad功能。传真模式刚好和语音模式是相反的过程，传真模式是关闭ec,关闭vad,静态jitterbuffer。本发明分析传真结束后的信号特征，检测到10s的静音和语音可以判断传真结束；在进入传真的透传模式时将dsp的静音检测和语音检测器打开，同时检测到这2个事件后将传真模式切到语音模式；使本发明实现了可在透传模式下，让传真快速切回到语音模式，提高了语音传输质量。

在一个实施例中，如图3所示，本发明提供了一种在传真透传模式下切回语音模式装置，包括：

打开控制模块41，用于当进入到传真的透传模式时，打开dsp的静音检测器和语音检测器；具体如上所述。

检测控制模块42，用于当传真结束后，检测到预定时间段的静音事件和语音事件，则控制切到语音模式；具体如上所述。

回声处理模块43，用于当切到语音模式时，控制打开dsp的回声消除器，把回声作为干扰信号从实际语音数据中去除；具体如上所述。

可选地，所述的在传真透传模式下切回语音模式装置，其中，所述回声处理模块包括：

打开单元，用于当切到语音模式时，控制打开dsp的回声消除器，将静态的防抖动缓冲区设置为动态的；使用指定时间段的防抖动缓冲区；具体如上所述；

回声处理单元，用于打开语音端点检测功能，把回声作为干扰信号从实际语音数据中去除；具体如上所述。

在一个实施例中，本发明提供了一种计算机设备，该设备可以是终端，内部结构如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种自然语言模型的生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4所示的仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本发明实施例提供的一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

当进入到传真的透传模式时，打开dsp的静音检测器和语音检测器；

当传真结束后，检测到预定时间段的静音事件和语音事件，则控制切到语音模式；

当切到语音模式时，控制打开dsp的回声消除器，把回声作为干扰信号从实际语音数据中去除；具体如上所述。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现以下步骤：

当进入到传真的透传模式时，打开dsp的静音检测器和语音检测器；

当传真结束后，检测到预定时间段的静音事件和语音事件，则控制切到语音模式；

当切到语音模式时，控制打开dsp的回声消除器，把回声作为干扰信号从实际语音数据中去除；具体如上所述。

综上所述，与现有技术相比，本发明实施例具有以下优点：

根据本发明实施方式提供的方法，首先在终端进入到传真的透传模式，打开dsp(数字信号处理)的10s的静音检测器和语音检测器；传真结束后，设备的事件监控程序检测到了10s的静音事件和语音事件，切到语音模式。切到语音模式的方法是打开dsp的回声消除器，将静态的jitterbuffer设置为动态的，打开vad功能。传真模式刚好和语音模式是相反的过程，传真模式是关闭ec,关闭vad,静态jitterbuffer。本发明分析传真结束后的信号特征，检测到10s的静音和语音可以判断传真结束；在进入传真的透传模式时将dsp的静音检测和语音检测器打开，同时检测到这2个事件后将传真模式切到语音模式；使本发明实现了可在透传模式下，让传真快速切回到语音模式，提高了语音传输质量。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孟庆晓;吴闽华;谭兵;黄照津;郭军勇
技术所有人：深圳震有科技股份有限公司
我是此专利的发明人