用于防止语音延迟的语音数据处理装置及方法与流程

文档序号：17051381发布日期：2019-03-05 20:11阅读：236来源：国知局

导航： X技术> 最新专利>乐器;声学设备的制造及制作,分析技术

本发明的实施例涉及一种用于防止语音延迟的语音数据处理装置及方法。

背景技术：

通常，通过网络接收语音而实时输出的装置(例如，语音流装置、互联网协议电话(voiceoverinternetprotocol；voip)装置等)在例如产生丢包、包延迟等问题的情况下，无法顺利地输出语音数据。

为了解决上述问题，开发了如下的技术：将接收的语音数据存储于抖动缓冲区(jitterbuffer)，在抖动缓冲区存储预定量以上的语音数据以后输出语音数据。

但是，在产生过度的由于发送装置或接收装置的过负荷引起的延迟(例如，发送端或接收端侧的计算机cpu(centralprocessingunit)过负荷引起的延迟)、由网络环境引起的延迟等的情况下，依然存在无法顺利输出语音数据的问题。

技术实现要素：

本发明的实施例的目的在于在没有音质损失的情况下防止语音发生延迟，从而将语音数据顺利输出。

根据本发明的一实施例的语音数据处理装置包括：接收部，接收语音数据；存储部，将接收的所述语音数据存储于缓冲区；区间分类部，将存储的所述语音数据分割为一个以上的区间，并将被分割的所述一个以上的区间分别分类为语音区间或静音区间；语音输出部，将被分类为所述静音区间的语音数据丢弃或者加速播放速度而输出。

根据本发明的一实施例的语音数据处理装置还包括：语音延迟判断部，将存储的所述语音数据的大小与设定的基准值进行比较而判断是否产生语音延迟，在由所述语音延迟判断部判断为产生了语音延迟的情况下，所述语音输出部可以将被分类为所述静音区间的语音数据丢弃或者加速播放速度而输出。

根据本发明的一实施例的语音数据处理装置还包括：静音区间测量部，测量静音区间的持续时间，在所述静音区间的持续时间超过设定的第一基准时间及设定的第二基准时间的情况下，所述语音输出部可以将被分类为所述静音区间的语音数据丢弃。

根据本发明的一实施例的语音数据处理装置还包括：静音区间测量部，测量静音区间的持续时间，在所述静音区间的持续时间超过设定的第一基准时间且为设定的第二基准时间以下的情况下，所述语音输出部可以将被分类为所述静音区间的语音数据的播放速度加速而输出。

根据本发明的一实施例的语音数据处理方法包括如下步骤：接收语音数据；将接收的所述语音数据存储于缓冲区；将存储的所述语音数据分割为一个以上的区间；将被分割的所述一个以上的区间分别分类为语音区间或静音区间；将被分类为所述静音区间的语音数据丢弃或者加速播放速度而输出。

根据本发明的一实施例的语音数据处理方法在进行输出的所述步骤之前还包括如下步骤：将存储的所述语音数据的大小与设定的基准值进行比较而判断是否产生语音延迟，进行输出的所述步骤中，在判断为产生了所述语音延迟的情况下，可以将被分类为所述静音区间的语音数据丢弃或者加速播放速度而输出。

根据本发明的一实施例的语音数据处理方法在进行输出的所述步骤之前还包括如下步骤：测量静音区间的持续时间，进行输出的所述步骤中，在所述静音区间的持续时间超过设定的第一基准时间及设定的第二基准时间的情况下，可以将分类为所述静音区间的语音数据丢弃。

根据本发明的一实施例的语音数据处理方法在进行输出的所述步骤之前还包括如下步骤：测量静音区间的持续时间，进行输出的所述步骤中，在所述静音区间的持续时间超过设定的第一基准时间且为设定的第二基准时间以下的情况下，可以将分类为所述静音区间的语音数据的播放速度加速而输出。

根据本发明的实施例，在没有音质损失的情况下防止语音延迟，从而能够顺利输出语音数据。

附图说明

图1是用于说明根据本发明的一实施例的语音数据处理系统的框图。

图2是用于说明根据本发明的一实施例的语音数据处理装置的框图。

图3是用于说明根据本发明的另一实施例的语音数据处理装置的框图。

图4是用于说明根据本发明的一实施例的语音数据处理装置的操作的流程图。

图5是用于说明根据本发明的一实施例的语音区间及静音区间的图。

图6是由根据本发明的一实施例的语音数据处理装置执行的语音数据处理方法的流程图。

图7是举例说明包括适用于示例性的实施例的计算装置的计算环境的框图。

符号说明

100：语音数据处理系统102：外部装置

104：网络106：语音数据处理装置

202：数据接收部204：存储部

206：区间分类部208：语音输出部

302：语音延迟判断部304：静音区间测量部

具体实施方式

以下，参照附图对本发明的具体实施形态进行说明。以下的详细说明是为了有助于全面理解本说明书中记载的方法、装置和/或系统而提供的。然而这些仅为示例，本发明并不限于此。

在对本发明的实施例进行说明的过程中，如果判断为对有关本发明的公知技术的具体说明有可能对本发明的主旨造成不必要的混乱，则省略其详细说明。此外，后述的术语均为考虑到本发明中的功能而定义的术语，其可能根据使用者、运用者的意图或惯例等而不同。因此，需要以贯穿本说明书整体的内容为基础而对其下定义。在详细说明中使用的术语只用于记载本发明的实施例，而绝不用于限定本发明。除非明确不同地使用，否则单数形态的表述包括复数形态的含义。在本说明书中，如“包括”或“具有”等术语用于指代某种特性、数字、步骤、操作、要素及其一部分或组合，不可被解释为排除所记载项之外的一个或一个以上的其他特性、数字、步骤、操作、要素及其一部分或组合的存在或可存在性。

图1是用于说明根据本发明的一实施例的语音数据处理系统100的框图。

参照图1，根据本发明的一实施例的语音数据处理系统100可以是如下的系统：将从外部装置102输入或在外部装置102生成的语音数据通过网络104传输至语音数据处理装置106，并从语音数据处理装置106实时输出语音数据。

外部装置102可以是如下的装置：从用户接收语音数据而通过网络104发送至语音数据处理装置106，或者将已生成的语音数据发送至语音数据处理装置106。外部装置102例如可以是笔记本电脑、平板电脑、智能手机、个人数字助理(pda)等移动设备、voip(voiceoverinternetprotocol)装置、流服务器等。

网络104为传递语音数据的通信网络，例如，可以是互联网、一个以上的局域网(localareanetworks)、广域网(wideareanetworks)、蜂窝网络、移动网络等有线或无线网络。

语音数据处理装置106通过网络104从外部装置102接收语音数据，并且可以输出接收的语音数据。具体地，语音数据处理装置106可以将接收的语音数据中的一部分语音数据丢弃(drop)或者调节播放速度，从而能够在没有音质损失或语音延迟的情况下将语音数据顺利地输出。

并且，语音数据处理装置106可以参照接收的数据包的序列号(sequencenumber)等而将语音数据按照生成顺序存储于缓冲区并以存储于缓冲区的顺序输出。据此，即使通过外部装置102依次发送的包的顺序被改变之后被语音数据处理装置106接收，语音数据处理装置106也能够以语音数据的生成顺序输出语音数据。

图2是用于说明根据本发明的一实施例的语音数据处理装置106的框图。

参照图2，根据本发明的一实施例的语音数据处理装置106包括数据接收部202、存储部204、区间分类部206及语音输出部208。

数据接收部202接收语音数据。具体地，数据接收部202可以通过网络104从外部装置102以包为单位接收语音数据。

存储部204将通过数据接收部202接收的语音数据存储于缓冲区。此时，缓冲区用于直到输出为止临时存储通过数据接收部202接收的语音数据，例如可以是抖动缓冲区(jitterbuffer)。例如，通过存储部204存储于缓冲区的语音数据通过语音输出部208被丢弃或输出，并且可以从缓冲区删除。

具体地，存储部204可以将通过数据接收部202以包单位接收的语音数据按照语音数据的生成顺序依次存储。例如，存储部204可以参照通过数据接收部202接收的包的序列号(sequencenumber)或时间戳(timestamp)而将包按照生成语音数据的顺序存储于缓冲区。

区间分类部206将通过存储部204存储于缓冲区的语音数据分为一个以上的区间，并且可以将分割的一个以上的区间分别分类为语音区间或静音区间。此时，语音区间表示语音数据的整个区间中存在用户的语音的区间，静音区间表示语音数据的整个区间中的不存在用户的语音的区间(例如，用户中断说话的区间)。只不过，这将在图5中进行详细说明。

具体地，区间分类部206将存储于缓冲区的语音数据分割为具有预设长度的多个区间，并且可以从包含首先生成的语音数据的区间依次分类为语音区间或静音区间。此时，预设的长度可以是由用户设定的区间的长度，例如可以是10ms。

例如，在缓冲区存储对应于0ms至500ms区间的语音数据的情况下，区间分类部206可以将存储于缓冲区的语音数据分割为分别具有10ms的长度的50个区间。并且，区间分类部206可以从包含首先生成的语音数据的区间(例如，0ms至10ms的区间)依次分类为语音区间或静音区间。

并且，在区间分类部206要分类的区间的语音数据的一部分不存在的情况下(例如，通过网络104接收了0ms至10ms区间的语音数据，但是由于包损失等的原因没有接收到3ms至5ms区间的语音数据的情况下)，区间分类部206待机直到相应区间的数据(例如，3ms至5ms区间的语音数据)存储于缓冲区，或者可以将除了相应区间的数据以外的其余区间(例如，0ms至3ms区间及5ms至10ms区间)分类为语音区间或静音区间。

此时，区间分类部206例如可以分析语音数据的频谱(spectrum)而计算语音概率(speechprobability)或者基于对于语音数据的声音强度的正态分布应用语音活动检测(voiceactivitydetection；vad)方式而将已分割的一个以上的区间分类为语音区间或静音区间。

语音输出部208可以将通过区间分类部206分类为静音区间的语音数据丢弃或者加速播放速度而输出。并且，语音输出部208可以将通过区间分类部206分类为语音区间的语音数据直接输出。

例如，当存储于缓冲区的语音数据中的0ms至3000ms区间通过区间分类部206被分类为语音区间，且3000ms至5000ms区间通过区间分类部206被分类为静音区间时，语音输出部208可以将0ms至3000ms区间的语音数据直接输出并将3000ms至5000ms区间的语音数据丢弃或者加速播放速度(例如，将播放速度加速为1.5倍)而输出。

图3是用于说明根据本发明的另一实施例的语音数据处理装置106的框图。对于图2中记载的构成，在图3中使用相同的附图符号而示出，在此，省略对于与上述内容重复的内容的说明。

参照图3，根据本发明的另一实施例的语音数据处理装置106还可以包括语音延迟判断部302、静音区间测量部304。

语音延迟判断部302将存储于缓冲区的语音数据的大小与设定的基准值进行比较而判断是否产生语音延迟。此时，设定的基准值可以是为了补偿抖动(jitter)而在抖动缓冲区的大小内设定的值，所述抖动是指包传输时因发送端和接收端之间的包延迟(delay)而产生的包到达的延迟差异。此时，如果设定的基准值的大小过度地增加，则终端间的延迟(end-to-enddelay)增加，如果设定的基准值的大小过度地减少，则丢包(packetdrop)概率增加，因此设定的基准值可以考虑终端间延迟和丢包而适当地设置。并且，设定的基准值可以考虑网络可变延迟或包接收的突发(burst)程度而改变。具体地，在存储于缓冲区的语音数据的大小超过设定的基准值的情况下，语音延迟判断部302可以判断为产生了语音延迟。

此时，在由语音延迟判断部302判断为产生了语音延迟的情况下，语音输出部208可以将通过区间分类部206分类为静音区间的语音数据丢弃或者加快播放速度而输出。

相反，在由语音延迟判断部302判断为没有产生语音延迟的情况下，语音输出部208可以将通过区间分类部206分类为静音区间或语音区间的语音数据直接输出。

静音区间测量部304测量静音区间的持续时间。此时，静音区间的持续时间可以表示静音区间所延续的时间。

具体地，静音区间测量部304可以利用区间分类部206的分类结果测量静音区间的持续时间。例如，500ms以后的区间通过区间分类部206而持续地被分类为静音区间，且在当前由区间分类部206将将1000ms至1010ms区间分类为静音区间时，当前静音区间的持续时间可以被测量为510ms。

并且，在某一区间通过区间分类部206被分类为语音区间的情况下，静音区间测量部304可以将静音区间的持续时间初始化为0。例如，500ms以后的区间通过区间分类部206而被持续地分类为静音区间，但是在当前由区间分类部206将1000ms至1010ms区间分类为语音区间的情况下，当前静音区间的持续时间可以初始化为0。

此时，在静音区间的持续时间超过设定的第一基准时间及设定的第二基准时间的情况下，语音输出部208可以将通过区间分类部206被分类为静音区间的语音数据丢弃。此时，第一基准时间可以是为了将存在于语音区间与语音区间之间的短的静音区间维持原样而预设的区间。具体地，第一基准时间可以为了防止在语音区间和语音区间之间的短的静音区间(例如，在用户读一个文章的情况下由于文章内的隔写等而产生的静音区间)的语音数据被丢弃的情况下相应语音的收听人有可能感受到的不自然而适当地设置，例如可以为500ms。并且，第二基准时间可以是为了在语音区间和语音区间之间维持预定时间以上的静音区间而预设的时间。具体地，第二基准时间可以为了防止在语音区间与语音区间之间的静音区间过短的情况(例如，判断为静音区间的语音数据全部被丢弃的情况)下相应语音的收听人有可能感受到的不自然而适当地设置，例如可以为1000ms。例如，第二基准时间可以适当地选择以使静音区间的持续时间相对短的语音数据的播放速度被加速，且使静音区间持续时间相对长的语音数据被丢弃。

并且，在静音区间的持续时间超过设定的第一基准时间且为设定的第二基准时间以下的情况下，语音输出部208可以将通过区间分类部206被分类为静音区间的语音数据的播放速度加速而输出。

图4是用于说明根据本发明的一实施例的语音数据处理装置106的操作的流程图400。

参照图4，根据本发明的一实施例的语音数据处理装置106可以将存储于缓冲区的语音数据分割为一个以上的区间，并将各个区间分类为语音区间或静音区间(402)。在被分类的区间被分类为语音区间的情况下，语音数据处理装置106可以将分类的区间的语音数据直接输出(404)。

相反，在分类的区间被分类为静音区间的情况下，语音数据处理装置106可以判断是否产生语音延迟(406)。在判断为没有产生语音延迟的情况下，语音数据处理装置106可以将被分类的区间的语音数据直接输出(404)。

相反，在判断为产生了语音延迟的情况下，语音数据处理装置106可以判断静音区间的持续时间是否超过第一基准时间(408)。在静音区间的持续时间不超过第一基准时间的情况下，语音数据处理装置106可以将被分类的区间的语音数据直接输出(404)。

相反，在静音区间的持续时间超过第一基准时间的情况下，语音数据处理装置106可以判断静音区间的持续时间是否超过第二基准时间(410)。在静音区间的持续时间不超过第二基准时间的情况下，语音数据处理装置106可以将被分类的区间的语音数据的播放速度加速而输出(414、404)。

相反，在静音时间的持续时间超过第二基准时间的情况下，语音数据处理装置106可以将被分类的区间的语音数据丢弃(412)。

图5是用于说明根据本发明的一实施例的语音区间及静音区间的图。

参照图5的(a)，根据本发明的一实施例的语音数据处理装置106例如可以利用语音数据的频谱、语音数据的声音强度等信息而将语音数据的各个区间分类为语音区间或静音区间。

具体地，语音数据处理装置106可以将存在人的语音的区间及存在语音的区间之间的短的静音区间(502至512)分类为语音区间。

参照图5的(b)，根据本发明的一实施例的语音数据处理装置106可以将静音区间的语音数据丢弃或者将播放速度加速而输出。

在语音数据属于静音区间且静音区间的持续时间为第一基准时间以下的情况下(514)，语音数据处理装置106可以不改变语音数据的播放速度而直接输出。并且，在语音数据属于静音区间且静音区间的持续时间超过第一基准时间且为第二基准时间以下的情况下(516)，语音数据处理装置106可以将语音数据的播放速度加速而输出。并且，在语音数据属于静音区间且静音区间的持续时间超过第一基准时间及第二基准时间的情况下(518)，语音数据处理装置106可以将语音数据丢弃。

图6是由根据本发明的一实施例的语音数据处理装置106执行的语音数据处理方法的流程图600。

参照图6，根据本发明的一实施例的语音数据处理装置106接收语音数据(602)。

语音数据处理装置106将接收的语音数据存储于缓冲区(604)。

语音数据处理装置106将存储于缓冲区的语音数据分割为一个以上的区间(606)。

语音数据处理装置106将被分割的一个以上的区间分别分类为各个语音区间或静音区间(608)。

语音数据处理装置106可以将存储于缓冲区的语音数据的大小与设定的基准值进行比较而判断是否产生语音延迟。

语音数据处理装置106可以测量静音区间的持续时间。

语音数据处理装置106可以将分类为静音区间的语音数据丢弃，或者将播放速度加速而输出(610)。此时，在语音数据处理装置106判断为产生了语音延迟的情况下，可以将分类为静音区间的语音数据丢弃，或者加速播放速度而输出。并且，在静音区间的持续时间超过设定的第一基准时间及设定的第二基准时间的情况下，语音数据处理装置106可以丢弃分类为静音区间的语音数据。并且，在静音区间的持续时间超过设定的第一基准时间且为设定的第二基准时间以下的情况下，语音数据处理装置106可以加速分类为静音区间的语音数据的播放速度而输出。

另外，图6中示出的流程图中将所述方法分为多个步骤而记载，但至少一部分步骤可以改变顺序而执行、或者与其他步骤结合而执行、或者被省略、或者被分为细分的步骤而执行、或者添加未示出的一个以上的步骤而执行。

图7是举例说明包括适用于示例性的实施例的计算装置的计算环境的框图。在图示的实施例中，各组件可以具有除了以下描述的内容以之外的不同的功能及能力，并且除了以下描述的组件之外也可以包括追加的组件。

图示的计算环境1包括计算装置12。一实施例中，计算装置12可以是被包含于语音数据处理装置106的一个以上的组件。

此外，计算装置12包括至少一个的处理器14、计算机可读存储介质16及通信总线18。处理器14可以使计算装置12根据上述的示例性的实施例而工作。例如，处理器14可以运行存储于计算机可读存储介质16的一个以上的程序。所述一个以上的程序可以包括一个以上的计算机可执行指令，所述计算机可执行指令可以构成为在通过处理器14运行的情况下，使计算装置12执行根据示例性实施例的操作。

计算机可读存储介质16构成为存储计算机可执行指令乃至程序代码、程序数据和/或其他合适形态的信息。存储于计算机可读存储介质16的程序20包括可通过处理器14执行的指令的集合。在一实施例中，计算机可读存储介质16可以是诸如存储器(随机存取存储器等易失性存储器、非易失性存储器，或其适当的组合)、一个以上的磁盘存储设备、光盘存储设备、闪存设备、除此外的计算装置12可访问并可存储所期望的信息的其他形态的存储介质，或者也可以是这些装置的合适的组合。

通信总线18用于将包括处理器14、计算机可读存储介质16在内的计算装置12的其他多样的组件相互连接。

计算装置12还可以包含提供用于一个以上的输入输出装置24的接口的一个以上的输入输出接口22以及一个以上的网络通信接口26。输入输出接口22以及网络通信接口26连接到通信总线18。输入输出装置24可以通过输入输出接口22而连接到计算装置12的其他组件。示例性的输入输出装置24可以包括：指点装置(鼠标或者触控板(trackpad)等)、键盘、触摸输入装置(触摸板或者触摸屏等)、语音或者声音输入装置、多样的种类的传感器装置和/或拍摄装置等的输入装置；和/或诸如显示装置、打印机、扬声器和/或网卡(networkcard)等的输出装置。示例性的输入输出装置24可以作为用于构成计算装置12的一组件而被包含在计算装置12的内部，也可以作为区别于计算装置12的独立的装置而连接到计算装置12。

以上，通过具有代表性的实施例对本发明进行了详细的说明，然而在本发明所属的技术领域中具有基本知识的人员可以理解上述的实施例可在不脱离本发明的范围的限度内实现多种变形。因此，本发明的权利范围不应局限于所说明的实施例，本发明的权利范围需要根据权利要求书记载的范围以及与该权利要求书的记载等同的范围来确定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金商范;赵相范;姜俊豪;申成勋;尹熙兑
技术所有人：三星SDS株式会社
我是此专利的发明人

上一篇：一种双面玉米花织物的编织方法与流程
上一篇：蜂窝布及其编织方法与流程