一种语音数据的传输方法及装置制造方法

文档序号：2825576阅读：295来源：国知局

一种语音数据的传输方法及装置制造方法
【专利摘要】本发明公开了一种语音数据的传输方法及装置。其中，该方法包括：基于预设的待调整语句数据库，对发送端发送的语音数据进行监测；在监测到上述语音数据需要调整时，按照设定的标准语音格式，对上述语音数据进行调整；将调整后的语音数据传输至接收端。通过本发明，基于预设的待调整语句数据库对发送端发送的语音数据进行监测，在监测到所述语音数据需要调整时，按照设定的标准语音格式对上述语音数据进行调整，然后将调整后的语音数据传输至接收端，解决了相关技术中移动终端用户处于非正常情绪状态时影响沟通效果的问题，有利于维护个人形象，改善工作效果，提高人际交往的能力。
【专利说明】一种语音数据的传输方法及装置
【技术领域】
[0001]本发明涉及移动通讯领域，特别是涉及一种语音数据的传输方法及装置。
【背景技术】
[0002]现代通信技术的快速发展，极大的扩展了人们的工作范围，手机等移动终端逐渐成为“地球村”中人与人之间沟通和交流的最重要手段之一。当用户使用手机等移动终端与他人进行语音通话，解决工作和生活中大量繁杂事务时，难免会出现情绪激动或失控的情形，从而影响沟通效果，甚至可能会造成不可挽回的后果。
[0003]如果在通话过程中用户处于非正常情绪状态，例如愤怒。生气等，很容易影响到用户之间的沟通。尤其是对于从事市场销售和公关等工作的用户，在通话过程中由于暂时情绪失控而造成言语失当，从而被对方误会，将直接影响个人形象和工作效果。
[0004]针对相关技术中移动终端用户处于非正常情绪状态时影响沟通效果的问题，目前无法提供有效的解决方案。

【发明内容】

[0005]针对相关技术中移动终端用户处于非正常情绪状态时影响沟通效果的问题，本发明提出了一种语音数据的传输方法及装置，用以上述技术问题。
[0006]根据本发明实施例的一方面，本发明提供一种语音数据的传输方法，该方法包括:基于预设的待调整语句数据库，对发送端发送的语音数据进行监测；在监测到上述语音数据需要调整时，按照设定的标准语音格式，对上述语音数据进行调整；将调整后的语音数据传输至接收端。
[0007]进一步地，基于预设的待调整语句数据库，对发送端发送的语音数据进行监测可以包括:提取上述语音数据中的特征参数；基于上述特征参数与上述待调整语句数据库中存储的第一特征参数是否匹配，对上述语音数据进行监测；和/或，提取上述语音数据中的词汇；基于上述词汇与上述待调整语句数据库中存储的预设词汇是否匹配，对上述语音数据进行监测。
[0008]进一步地，在监测到上述语音数据需要调整之后，上述方法还可以包括:向上述发送端发送提示信号。
[0009]进一步地，按照设定的标准语音格式对上述语音数据进行调整可以包括:获取上述语音数据的基频参数，按照设定的标准语音格式，根据时域同步算法和基频调整参数对上述语音数据的基频参数进行调整；和/或，获取上述语音数据的语音能量，按照设定的标准语音格式，根据能量调整参数对上述语音能量进行调整；和/或，按照设定的标准语音格式延长上述语音数据的语句时长。
[0010]进一步地，按照设定的标准语音格式对上述语音数据进行调整可以包括:在上述语句调整数据库中搜索，是否存在与上述预设词汇相对应的礼貌词汇；如果存在，则根据上述礼貌词汇替换上述预设词汇。[0011]根据本发明实施例的另一方面，本发明还提供一种语音数据的传输装置，该装置包括:监测模块，用于基于预设的待调整语句数据库，对发送端发送的语音数据进行监测；调整模块，用于在监测到上述语音数据需要调整时，按照设定的标准语音格式，对上述语音数据进行调整；传输模块，用于将调整后的语音数据传输至接收端。
[0012]进一步地，上述监测模块可以包括:第一监测单元，用于提取上述语音数据中的特征参数；基于上述特征参数与上述待调整语句数据库中存储的第一特征参数是否匹配，对上述语音数据进行监测；和/或，第二监测单元，用于提取上述语音数据中的词汇；基于上述词汇与上述待调整语句数据库中存储的预设词汇是否匹配，对上述语音数据进行监测。
[0013]进一步地，上述装置还可以包括:提示模块，用于向上述发送端发送提示信号。
[0014]进一步地，上述调整模块可以包括:第一调整单元，用于获取上述语音数据的基频参数，按照设定的标准语音格式，根据时域同步算法和基频调整参数对上述语音数据的基频参数进行调整；和/或，第二调整单元，用于获取上述语音数据的语音能量，按照设定的标准语音格式，根据能量调整参数对上述语音能量进行调整；和/或，第三调整单元，用于按照设定的标准语音格式延长上述语音数据的语句时长。
[0015]进一步地，上述调整模块可以包括:搜索单元，用于在上述语句调整数据库中搜索，是否存在与上述预设词汇相对应的礼貌词汇；替换单元，用于在上述搜索单元的搜索结果为是的情况下，根据上述礼貌词汇替换上述预设词汇。
[0016]通过本发明，基于预设的待调整语句数据库对发送端发送的语音数据进行监测，在监测到所述语音数据需要调整时，按照设定的标准语音格式对上述语音数据进行调整，然后将调整后的语音数据传输至接收端，解决了相关技术中移动终端用户处于非正常情绪状态时影响沟通效果的问题，有利于维护个人形象，改善工作效果，提高人际交往的能力。
【专利附图】

【附图说明】
[0017]图1是根据本发明实施例的语音数据的传输方法的流程图；
[0018]图2是根据本发明实施例的语音数据的传输装置的结构框图；
[0019]图3是根据本发明实施例的语音数据的传输装置的第一种具体结构框图；
[0020]图4是根据本发明实施例的语音数据的传输装置的第二种具体结构框图；
[0021]图5是根据本发明实施例的移动终端框架的结构框图；
[0022]图6是根据本发明实施例的情感语音数据库的自学习过程示意图；
[0023]图7是根据本发明实施例的过激语句修正模块进行语音数据调整流程的示意图；
[0024]图8是根据本发明实施例的语句基音频率调整效果示意图；
[0025]图9是根据本发明实施例的语句时长调整效果示意图；
[0026]图10是根据本发明实施例的语音通话时情绪控制和调整过程的流程图。
【具体实施方式】
[0027]为了解决现有技术中由于移动终端用户处于不良情绪，从而影响沟通效果的问题，本发明提供了一种语音数据的传输方法及装置，以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。[0028]本实施提供了一种语音数据的传输方法，该方法可以在移动终端侧实现。图1是根据本发明实施例的语音数据的传输方法的流程图，如图1所示，该方法包括以下步骤(步骤 S102-步骤 S106):
[0029]步骤S102，基于预设的待调整语句数据库，对发送端发送的语音数据进行监测；
[0030]步骤S104，在监测到上述语音数据需要调整时，按照设定的标准语音格式，对上述语音数据进行调整；
[0031]步骤S106，将调整后的语音数据传输至接收端。
[0032]通过上述方法，基于预设的待调整语句数据库对发送端发送的语音数据进行监测，在监测到所述语音数据需要调整时，按照设定的标准语音格式对上述语音数据进行调整，然后将调整后的语音数据传输至接收端，解决了相关技术中移动终端用户处于非正常情绪状态时影响沟通效果的问题，有利于维护个人形象，改善工作效果，提高人际交往的能力。
[0033]在本实施例中，监测语音数据是否需要调整，对于语音数据是否需要调整的监测可以通过多种方式实现，无论采用何种方式，只要能够监测到语音数据是否需要调整，即监测到语音数据的发送端是否处于非正常情绪状态即可。基于此，本实施例提供了一种优选实施方式，即基于预设的待调整语句数据库，对发送端发送的语音数据进行监测包括:提取上述语音数据中的特征参数；基于上述特征参数与上述待调整语句数据库中存储的第一特征参数是否匹配，对上述语音数据进行监测；和/或，提取上述语音数据中的词汇；基于上述词汇与上述待调整语句数据库中存储的预设词汇是否匹配，对上述语音数据进行监测。通过上述优选实施方式，实现了对发送端是否处于非正常情绪状态的监测，为后续对上述情况下的发送端发送的语音数据进行调整提供了基础。
[0034]用户在非正常情绪状态(例如愤怒、生气等)下，其语音与正常状态下的语音会有区别，因此，上述优选实施例根据语音数据中提取的特征参数，判断用户是否处于非正常情绪状态下，从而提高非正常情绪状态监测的效率和准确度。该特征参数可以是语速、平均基音、基音范围、强度、基音变化等。另外，
[0035]上述第一特征参数可以是用户在处于非正常情绪状态下的特征参数，上述预设词汇可以是用户在处于非正常情绪状态下的不雅词汇。当然，上述特征参数也可以与正常情绪状态下的用户所具备的特征参数进行对比，在二者不匹配时，对语音数据进行调整。对于正常情绪状态下的特征参数，以及非正常状态下的特征参数，可以存储在预设的待调整语句数据库中，从而提高上述对比操作的执行效率和执行准确度。
[0036]对于监测语音数据中是否包括预设词汇，可以通过以下优选实施方式实现:提取语音数据中的词汇；将提出的词汇与预设词汇进行对比；根据对比结果确定语音数据中是否包括预设词汇。优选地，上述预设词汇可以存储在预设的待调整语句数据库中，并且可以自动设定预设的待调整语句数据库中的预设词汇，也可以根据发送端的实际情况活着用户的需求进行预设词汇的实时更新。
[0037]在监测到发送端发送的语音数据需要调整，即发送端处于非正常情绪状态之后，本实施例提供了一种优选实施方式，即向发送端发送提示信号。该提示信号可以是提示音或者振动，用于提醒用户在与其他用户进行沟通交流时控制情绪以及控制语气措辞等。
[0038]另外，向发送端发送提示信号，以及对语音数据进行监测，这两个动作的执行时机并无限定。例如，可以先向发送端发送提示信号，在得到发送端的用户允许的情况下，对语音数据进行调整；或者，向发送端发送提示信号和对语音数据进行监测同时执行。即，发送端的用户可以设置为自动执行语音数据的调整操作，也可以设置一个确认步骤，在接收到提示信号后，确认是否执行语音数据的调整操作。具体如何设置可以根据实际情况确定。
[0039]在监测到发送端发送的语音数据需要调整，即发送端处于非正常情绪状态之后，需要对该语音数据进行调整，对于具体的调整策略，可以通过多种方式实现，只要能够将处于非正常情绪状态的发送端发送的语音数据调整为正常状态下的语音数据即可。基于此，本实施例提供了一种优选实施方式，即获取上述语音数据的基频参数，按照设定的标准语音格式，根据时域同步算法和基频调整参数对上述语音数据的基频参数进行调整；和/或，获取上述语音数据的语音能量，按照设定的标准语音格式，根据能量调整参数对上述语音能量进行调整；和/或，按照设定的标准语音格式延长上述语音数据的语句时长。
[0040]另外一种调整方式，还可以在语句调整数据库中搜索，是否存在与预设词汇相对应的礼貌词汇；如果存在，则根据礼貌词汇替换预设词汇。
[0041]对于上述两种调整方式，可以根据上述语音数据中是否包括预设词汇的两种监测方式选择性执行，或者，根据实际情况具体确定。通过上述优选实施方式，实现了对不良情绪状态下的语音数据的调整，从而避免了不良情绪对沟通交流的不利影响，有利于维护个人形象，改善工作效果，提高人际交往的能力。
[0042]对应于上述实施例介绍的语音数据的传输方法，本发明实施例提供了一种语音数据的传输装置，该装置可以设置在移动终端侧，用于实现上述实施例。图2是根据本发明实施例的语音数据的传输装置的结构框图，如图2所示，该装置包括:监测模块10、调整模块20和传输模块30。下面对该结构进行详细介绍。
[0043]监测模块10，用于基于预设的待调整语句数据库，对发送端发送的语音数据进行监测；
[0044]调整模块20，连接至监测模块10，用于在监测到上述语音数据需要调整时，按照设定的标准语音格式，对上述语音数据进行调整；
[0045]传输模块30，连接至调整模块20，用于将调整后的语音数据传输至接收端。
[0046]通过上述装置，基于预设的待调整语句数据库对发送端发送的语音数据进行监测，在监测到所述语音数据需要调整时，按照设定的标准语音格式对上述语音数据进行调整，然后将调整后的语音数据传输至接收端，解决了相关技术中移动终端用户处于非正常情绪状态时影响沟通效果的问题，有利于维护个人形象，改善工作效果，提高人际交往的能力。
[0047]在本实施例中，对于语音数据是否需要调整的监测可以通过多种方式实现，对此本实施例提供了一种优选实施方式，如图3所示的语音数据的传输装置的第一种具体结构框图，该装置除了包括上述图2所示的各个模块之外，上述监测模块10还包括:第一监测单元12，和/或，第二监测单元14。下面对该结构进行详细介绍。
[0048]第一监测单元12，用于提取上述语音数据中的特征参数；基于上述特征参数与上述待调整语句数据库中存储的第一特征参数是否匹配，对上述语音数据进行监测；和/或，
[0049]第二监测单元14，用于提取上述语音数据中的词汇；基于上述词汇与上述待调整语句数据库中存储的预设词汇是否匹配，对上述语音数据进行监测。[0050]在本优选实施方式中，监测模块10可以采用第一监测单元12的结构对语音数据是否需要调整进行监测，或者可以采用第二监测单元14的结构对语音数据是否需要调整进行监测，或者，也可以一起采用上述第一监测单元12以及上述第二监测单元14的结构，从而提高监测准确度。图3仅以监测模块10包括第一监测单元12和第二监测单元14的优选结构为例进行介绍。
[0051]对于语音数据是否需要调整，即发送端是否处于非正常情绪状态的监测，第一监测单元12可以通过多种优选结构实现，优选地，第一监测单元12可以根据语音数据中的特征参数进行语音数据是否满足预设条件的判断，下面对第一监测单元12的一种优选结构进行介绍。
[0052]上述第一监测单元12包括:对比子单元，用于将特征参数与第一特征参数进行对比；其中，该第一特征参数是发送端处于非正常情绪状态时，发送的语音数据的特征参数；确定子单元，用于根据对比结果确定语音数据是否需要调整。
[0053]通过上述优选结构，提高了发送端(即用户)处于非正常情绪状态监测的效率和准确度。上述特征参数可以是语速、平均基音、基音范围、强度、基音变化等。当然，上述特征参数也可以与正常情绪状态下的用户所具备的特征参数进行对比，在二者不匹配时，对语音数据进行调整。对于正常情绪状态下的特征参数，以及非正常状态下的特征参数，可以存储在预设的待调整语句数据库中，从而提高上述对比操作的执行效率和执行准确度。
[0054]对于预设词汇的监测，第二监测单元14可以通过多种优选结构实现，优选地，第二监测单元14可以根据语音数据中是否包括预设词汇进行语音数据是否满足预设条件的监测，下面对第二监测单元14的一种优选结构进行介绍。
[0055]上述第二监测单元14包括:词汇提取子单元，用于提取语音数据中的词汇；词汇对比子单元，用于将上述词汇提取子单元提取的上述词汇，与预设词汇进行匹配；词汇确定子单元，用于根据对比结果确定语音数据中是否包括预设词汇。优选地，上述预设词汇可以存储在预设的待调整语句数据库中，并且可以自动设定预设的待调整语句数据库中的预设词汇，也可以根据发送端的实际情况活着用户的需求进行预设词汇的实时更新。通过上述优选结构，提高了不良情绪状态监测的效率和准确度。
[0056]在监测模块10监测到语音数据需要调整，即发送端处于非正常情绪状态之后，本实施例提供了一种优选实施方式，即上述装置除了包括上述图3所示的各个模块之外，还包括:提示模块，用于在上述监测模块10的监测结果为语音数据需要调整的情况下，向上述发送端发送提示信号。该提示信号可以是提示音或者振动，用于提醒用户在与其他用户进行沟通交流时控制情绪以及控制语气措辞等。另外，向发送端发送提示信号，以及对语音数据进行监测，这两个动作的执行时机并无限定。前面已经进行了具体介绍，在此不再赘述。
[0057]在监测模块10监测到语音数据需要调整，即发送端处于非正常情绪状态之后，调整模块20需要对该语音数据进行调整，对于调整模块20的具体调整策略，可以通过多种方式实现，只要能够将非正常情绪状态下发送端发送的语音数据调整为正常状态下的语音数据即可。基于此，本实施例提供了一种优选结构，如图4所示的语音数据的传输装置的第二种具体结构框图，该装置除了包括上述图3所示的各个模块之外，上述调整模块20还包括:第一调整单元22、第二调整单元24和第三调整单元26。下面对该结构进行具体介绍。[0058]第一调整单元22，用于获取上述语音数据的基频参数，按照设定的标准语音格式，根据时域同步算法和基频调整参数对上述语音数据的基频参数进行调整；和/或，
[0059]第二调整单元24，连接至第一调整单元22，用于获取上述语音数据的语音能量，按照设定的标准语音格式，根据能量调整参数对上述语音能量进行调整；和/或，
[0060]第三调整单元26，连接至第二调整单元24，用于按照设定的标准语音格式延长上述语音数据的语句时长。
[0061]图4以上述调整模块20包括上述三个调整单元为例进行介绍。
[0062]另外，本实施例还提供了一种优选结构，即上述调整模块20还包括:搜索单元，用于在上述语句调整数据库中搜索，是否存在与上述预设词汇相对应的礼貌词汇；替换单元，用于在上述搜索单元的搜索结果为是的情况下，根据上述礼貌词汇替换上述预设词汇。
[0063]通过上述优选结构，实现了对非正常情绪状态下的语音数据的调整，从而避免了非正常情绪对沟通交流的不利影响，有利于维护个人形象，改善工作效果，提高人际交往的能力。
[0064]基于上述实施例介绍的语音数据的传输装置，下面通过优选实施例对语音数据的传输方法进行介绍。图5是根据本发明实施例的移动终端框架的结构框图，该移动终端框架包括:语音输入器(图5中未示出)、语音缓冲区、语音情感识别模块、情感语音数据库、提醒模块、过激语句修正模块、不雅词汇数据库、以及语音编码模块。对于各个模块的基本功能和特点，下面分别进行介绍。 [0065]语音输入器，用于根据一定的采样频率、通道、bit位，从发送端接收语音信息。因为电话的语音频率范围大约是60-3400ΗΖ左右，因而采样率一般取8ΚΗΖ。声音从手机麦克输入，通过8ΚΗΖ的采样率，16bit的单声道音频格式，录制成标准的脉冲编码调制(Pulse-code modulation，简称为PCM)编码格式的WAV文件，存放在语音缓冲区。
[0066]语音缓冲区，用于接收并存放输入器输入的无压缩语音文件，待后续模块进行分析和处理。
[0067]语音情感识别模块，其主要功能与上述实施例中的监测模块的功能相当，用于实时提取语音缓冲区内语音数据的情感特征参数，然后，根据特征参数判断和识别发送端(即用户)通话时情绪是否失控(即处于非正常情绪状态)，同时判断此时通话中是否存在不雅词汇。
[0068]人在愤怒或生气等非正常情绪状态时，情绪一般会失控。根据声学专家研究，人在愤怒、恐惧、高兴的情感状态下，交感神经占有主导作用，主要表现为语音洪亮，语速较快，发音能量大。但愤怒时，具有音调高，且变化较大，一般句首基频低，句尾基频高。另外，语音中包含很多重度音节，但最后一个词不重读。表1介绍的是常用的情感特征参数。其中，声带每开启和闭合一次的时间即振动周期称为音调周期或基音周期(pitchperiod),其倒数称为基音频率，也可简称为基频。
[0069]表1
[0070]
【权利要求】
1.一种语音数据的传输方法，其特征在于，所述方法包括以下步骤: 基于预设的待调整语句数据库，对发送端发送的语音数据进行监测；在监测到所述语音数据需要调整时，按照设定的标准语音格式，对所述语音数据进行调整；将调整后的语音数据传输至接收端。
2.如权利要求1所述的方法，其特征在于，基于预设的待调整语句数据库，对发送端发送的语音数据进行监测包括: 提取所述语音数据中的特征参数；基于所述特征参数与所述待调整语句数据库中存储的第一特征参数是否匹配，对所述语音数据进行监测；和/或，提取所述语音数据中的词汇；基于所述词汇与所述待调整语句数据库中存储的预设词汇是否匹配，对所述语音数据进行监测。
3.如权利要求1所述的方法，其特征在于，在监测到所述语音数据需要调整之后，所述方法还包括:向所述发送端发送提示信号。
4.如权利要求1所述的方法，其特征在于，按照设定的标准语音格式对所述语音数据进行调整包括: 获取所述语音数据的基频参数，按照设定的标准语音格式，根据时域同步算法和基频调整参数对所述语音数据的基频参数进行调整；和/或，获取所述语音数据的语音能量，按照设定的标准语音格式，根据能量调整参数对所述语音能量进行调整；和/或，按照设定的标准语音格式延长所述语音数据的语句时长。
5.如权利要求2所述的方法，其特征在于，按照设定的标准语音格式对所述语音数据进行调整包括: 在所述语句调整数据库中搜索，是否存在与所述预设词汇相对应的礼貌词汇；如果存在，则根据所述礼貌词汇替换所述预设词汇。
6.一种语音数据的传输装置，其特征在于，包括: 监测模块，用于基于预设的待调整语句数据库，对发送端发送的语音数据进行监测；调整模块，用于在监测到所述语音数据需要调整时，按照设定的标准语音格式，对所述语音数据进行调整；传输模块，用于将调整后的语音数据传输至接收端。
7.如权利要求6所述的装置，其特征在于，所述监测模块包括: 第一监测单元，用于提取所述语音数据中的特征参数；基于所述特征参数与所述待调整语句数据库中存储的第一特征参数是否匹配，对所述语音数据进行监测；和/或，第二监测单元，用于提取所述语音数据中的词汇；基于所述词汇与所述待调整语句数据库中存储的预设词汇是否匹配，对所述语音数据进行监测。
8.如权利要求6所述的装置，其特征在于，所述装置还包括: 提示模块，用于向所述发送端发送提示信号。
9.如权利要求6所述的装置，其特征在于，所述调整模块包括: 第一调整单元，用于获取所述语音数据的基频参数，按照设定的标准语音格式，根据时域同步算法和基频调整参数对所述语音数据的基频参数进行调整；和/或，第二调整单元，用于获取所述语音数据的语音能量，按照设定的标准语音格式，根据能量调整参数对所述语音能量进行调整；和/或，第三调整单元，用于按照设定的标准语音格式延长所述语音数据的语句时长。
10.如权利要求7所述的装置，其特征在于，所述调整模块包括: 搜索单元，用于在所述语句调整数据库中搜索，是否存在与所述预设词汇相对应的礼貌词汇；替换单元，用于在所述搜索单元的搜索结果为是的情况下，根据所述礼貌词汇替换所述预设词汇。
【文档编号】G10L25/90GK103903627SQ201210578430
【公开日】2014年7月2日申请日期:2012年12月27日优先权日:2012年12月27日
【发明者】余立艳申请人:中兴通讯股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余立艳
技术所有人：中兴通讯股份有限公司
我是此专利的发明人

上一篇：一种用于智能钢琴的转换板的制作方法
上一篇：一种新型音乐指挥棒的制作方法