语音处理方法及系统与流程

文档序号：12787796研发日期：2017年阅读：344来源：国知局

技术简介：
本专利针对传统语音处理情感识别准确度低、输出形式单一的问题，提出融合语音、面部表情及生理参数的多模态识别方法，通过提取多源特征生成情感标签，并结合语义文本实现文本、图片、语音、视频等多形式输出，显著提升情感识别精度与交互多样性。
关键词：多模态情感识别,语音处理系统,情感标签生成

本申请涉及语音处理技术领域，尤其是涉及一种语音处理方法及系统。

背景技术：

随着人工智能技术的发展，人机对话的需求也越来越多，对相关的技术也提出了更高的要求。其中，声音信息与文本信息的相互转化技术，即人机对话的关键技术之一。

其中，语音转换成文字的技术已经比较成熟，但是，传统的语音转换成文字的技术在语音输入方面只能识别用户的基本语义，不能很好的识别用户说话时的情感。

为了解决上述问题，一些现有技术通过分析语音信息的相关参数(例如音频、分贝、用词)来确定语音信息中包含的用户情感信息，但是，上述现有技术中，采集的参数较为片面，判断结果的准确性不够高。

此外，现有技术的人机交互中，当识别到用户的情感信息后，一般会将情感信息作为参考值返回到处理模块，处理模块会依据此参考值对待输出的语音信息进行修正及调整，最终输出较为准确的语音。综上所述，现有技术中，对识别的情感信息的应用较为单一。

技术实现要素：

本申请的目的在于提供一种语音处理方法及系统，以解决现有技术中对识别的情感信息应用单一的技术问题，能够以更丰富的形式表现情感信息。

本申请提供的语音处理方法，包括：

获取用户的语音信息，以及用户做出上述语音信息时的面部表情信息和生理参数信息；

提取语音信息、面部表情信息和生理参数信息的相关特征值，并根据特征值生成情感标签；

根据语音信息生成语义文本信息；

将语义文本信息和情感标签合成，以文本、图片、声音、视频中的一种或几种相结合的方式输出。

在上述技术方案中，进一步的，将语义文本信息和情感标签合成后，输出带有表情符号的文本。

在上述技术方案中，进一步的，将语义文本信息和情感标签合成后，输出另一种语言的语音，该语音与获取的用户语音信息语义相同，且具有相同的情感特征。

在上述技术方案中，进一步的，将语义文本信息和情感标签合成后，输出具有能够表达不同情感的表情或动作的虚拟人物的视频。

在上述技术方案中，进一步的，将语义文本信息和情感标签合成后，生成与语义文本信息和情感标签对应的具有情感的对话语音。

在上述任一技术方案中，进一步的，根据语音信息生成语义文本信息的过程，会参考情感标签。

在上述任一技术方案中，进一步的，根据特征值生成情感标签的方法包括：

提取语音信息中的第一特征值，并根据所述第一特征值生成语音情绪指标；提取面部表情信息中的第二特征值，并根据所述第二特征值生成表情情绪指标；提取生理参数信息中的第三特征值，并根据所述第三特征值生成生理情绪指标；

根据语音情绪指标、表情情绪指标以及生理情绪指标生成情感标签。

在上改技术方案中，进一步的，所述第一特征值包括基频、强度、时长、元音共振峰中的一种或几种；所述第二特征值包括面部特征的位移或形变；所述第三特征值包括心率、血氧、体温、瞳孔中的一种或几种。

相较于现有技术，本申请提供的语音处理方法，在获取用户的语音信息的同时，还会获取用户做出上述语音信息时的面部表情信息和生理参数信息；并结合提取语音信息、面部表情信息和生理参数信息的相关特征值，生成情感标签；所参考的参数较为全面，因此，情感识别的准确度更高。尤为重要的是，将语义文本信息和情感标签合成后，会以文本、图片、声音、视频中的一种或几种相结合的方式输出，输出方式多样化，能够满足不同用户、不同场景的需求。

此外，本申请还提供了一种语音处理系统，包括：

语音信息采集模块，用于采集用户输出的语音信息；

面部表情信息采集模块，用于采集用户输出上述语音信息时的面部表情信息；

生理参数信息采集模块，用于采集用户输出上述语音信息时的生理参数信息；

处理分析模块，所述处理分析模块的输入端分别与语音信息采集模块、面部表情信息采集模块以及生理参数信息采集模块连接，以根据语音信息、面部表情信息和生理参数信息生成情感标签和语义文本信息；

内容输出模块，所述内容输出模块与处理分析模块的输出端连接，以根据情感标签和语义文本信息，输出具有情感的语音以及虚拟人物视频。

在上述技术方案中，进一步的，语音信息采集模块包括至少一个麦克风，所述面部表情信息采集模块包括至少一个摄像头，所述生理参数信息采集模块包括血氧传感器、脉搏传感器、体温传感器和瞳孔分析设备中的一种或几种；

所述处理分析模块包括语音处理器、图像处理器以及医疗信息处理器。

综上所述，相较于现有技术，本申请提供的语音处理系统，设置了语音信息采集模块、面部表情信息采集模块以及生理参数信息采集模块，能够在获取用户的语音信息的同时，获取用户做出上述语音信息时的面部表情信息和生理参数信息；并结合提取语音信息、面部表情信息和生理参数信息的相关特征值，生成情感标签；所参考的参数较为全面，因此，情感识别的准确度更高。尤为重要的是，将语义文本信息和情感标签合成后，会以文本、图片、声音、视频中的一种或几种相结合的方式输出，输出方式多样化，能够满足不同用户、不同场景的需求。

本申请的附加方面和优点将在下面的描述部分中变得明显，或通过本申请的实践了解到。

附图说明

为了更清楚地说明本申请具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请的一些实施例提供的网络环境系统的示例性示意图；

图2是根据本申请的一些实施例提供的电子设备的示例性单元示意图；

图3是根据本申请的一些实施例提供的语音处理方法的示例性流程图；

图4是根据本申请的一些实施例提供的语音处理系统的结构图。

具体实施方式

以下参考附图的描述为便于综合理解有权利要求及其等效内容所定义的本申请的各种实施例。这些实施例包括各种特定细节以便于理解，但这些仅被视为示例性的。因此，本领域技术人员可以理解对在此描述的各种实施例进行各种变化和修改而不会脱离本申请的范围和精神。另外，为简要并清楚地描述本申请，本申请将省略对公知功能和结构的描述。

在以下说明书和权利要求书中使用的术语和短语不限于字面含义，而是仅为能够清楚和一致地理解本申请。因此，对于本领域技术人员，可以理解，提供对本申请各种实施例的描述仅仅是为说明的目的，而不是限制所附权利要求及其等效定义的本申请。

下面将结合本申请一些实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请实施例中使用的术语是仅仅处于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一”、“一个”、“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相绑定的列出项目的任何或所有可能组合。表达“第一”、“第二”、“所述第一”和“所述第二”是用于修饰相应元件而不考虑顺序或者重要性，仅仅被用于区分一种元件与另一元件，而不限制相应元件。

根据本申请一些实施例的终端可以是电子设备，该电子设备可以包括智能手机、个人电脑(PC，例如平板电脑、台式电脑、笔记本、上网本、掌上电脑PDA)、移动电话、电子书阅读器、便携式多媒体播放器(PMP)、音频/视频播放器(MP3/MP4)、摄像机、虚拟现实设备(VR)和可穿戴设备等中的一种或几种的组合。根据本申请的一些实施例，所述可穿戴设备包括附件类型(例如手表、戒指、手环、眼镜、或头戴式装置(HMD))、集成类型(例如电子服装)、装饰类型(例如皮肤垫、纹身或内置电子装置)等中的一种或几种的组合。在本申请的一些实施例中，所述电子设备可以是灵活的，不限于上述设备，或者可以是上述各种设备中的一种或几种的组合。在本申请中，术语“用户”可指示使用电子设备的人或使用电子设备的设备(例如人工智能电子设备)。

本申请实施例提供了一种语音处理方法及处理装置。为了便于理解本申请实施例，以下将参考附图对本申请实施例进行详细描述。

图1是根据本申请的一些实施例提供的网络环境系统100的示例性示意图。如图1所示，网络环境系统100可以包括电子设备110、网络120和服务器130等。

在一些实施例中，网络环境100可以进一步包括电子设备140。作为示例，所述设备之间的通信可以包括电子设备110和其他设备(例如，服务器130或电子设备140)之间的通信。

所述无线通信可以包括微波通信和/或卫星通信等。所述无线通信可以包括蜂窝通信(例如，全球移动通信(GSM，Global System for Mobile Communications)、码分多址(CDMA，Code Division Multiple Access)、第三代移动通信(3G，The 3rd Generation Telecommunication)、第四代移动通信(4G)、第五代移动通信(5G))、长期演进技术(LTE，Long Term Evolution)、长期演进技术升级版(LTE-A，LTE-Advanced)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、通用移动通信系统(UMTS，Universal Mobile Telecommunications System)、无线宽带(WiBro，Wireless Broadband)等，或几种的组合。根据本申请的一些实施例，所述无线通信可以包括无线局域网(WiFi，Wireless Fidelity)、蓝牙、低功耗蓝牙(BLE，Bluetooth Low Energy)、紫蜂协议(ZigBee)、近场通讯(NFC，Near Field Communication)、磁安全传输、射频和体域网(BAN，Body Area Network)等，或几种的组合。根据本申请的一些实施例，所述有线通信可以包括全球导航卫星系统(Glonass/GNSS，Global Navigation Satellite System)、全球定位系统(GPS，Global Position System)、北斗导航卫星系统或伽利略(欧洲全球卫星导航系统)等。所述有线通信可以包括通用串行总线(USB，Universal Serial Bus)、高清多媒体接口(HDMI，High-Definition Multimedia Interface)、推荐标准232(RS-232，Recommend Standard 232)、和/或简易老式电话服务(POTS，Plain Old Telephone Service)等中的一种，或几种的组合。

网络120可以包括通信网络。所述通信网络可以包括计算机网络(例如，局域网(LAN，Local Area Network)或广域网(WAN，Wide Area Network))、互联网和/或电话网络等，或几种的组合。网络120可以向网络环境系统100中的其他设备(例如，电子设备110、服务器130、电子设备140等)发送信息。

服务器130可以通过网络120连接网络环境系统100中的其他设备(例如，电子设备110、电子设备140等)。

电子设备140可以与电子设备110相同或不同的类型。根据本申请的一些实施例，在电子设备110中执行的部分或全部操作可以在另一设备或多个设备(例如，电子设备140和/或服务器130)中执行。

在一些实施例中，当电子设备110自动或响应于请求执行一种或多种功能和/或服务时，电子设备110可以请求其他设备(例如，电子设备140和/或服务器130)替代执行功能和/或服务。在一些实施例中，其他设备(例如，电子设备140)可以执行所请求的功能或其它相关的一种或多种功能，可以将执行结果发送给电子设备110。

需要说明的是，以上对于网络环境系统100的描述，仅为描述方便，并不能把本申请限制在所举实施例的范围之内。可以理解，对于本领域技术人员，基于本系统的原理，可能在不背离该原理的前提下，对各个元件进行任意组合，或者构成子系统与其他元件连接，对实施上述方法和系统的应用领域进行形式和细节上的各种修正和改变。例如，网络环境系统100可以进一步包括数据库等。诸如此类的变形，均在本申请的保护范围之内。

图2是根据本申请的一些实施例提供的电子设备功能配置的示例性单元框图，也即申请提供的语音处理系统的示例性单元框图。

如图2所示，电子设备110可以包括语音信息采集模块111、面部表情信息采集模块112、生理参数信息采集模块113、处理分析模块114以及内容输出模块115。

语音信息采集模块111可以为麦克风、录音机、录音笔等，中的一种或几种；面部表情信息采集模块112包括DV、照相机、网络摄像头等，中的一种或几种；生理参数信息采集模113块包括血氧传感器、脉搏传感器、体温传感器和瞳孔分析设备中的一种或几种。

处理分析模块114的输入端分别与语音信息采集模块111、面部表情信息采集模块112以及生理参数信息采集模块113连接，以根据语音信息、面部表情信息和生理参数信息生成情感标签和语义文本信息；

内容输出模块115与处理分析模块114的输出端连接，以根据情感标签和语义文本信息，输出用户所需内容。输出模式可以是直接显示文本、图片、声音、视频中的一种或几种，也可以是输出相关的中间数据，而由其他电子设备显示。

图3是根据本申请的一些实施例提供的语音处理方法的示例性流程图。如图3所示，流程200可以通过电子设备110实现，也可以通过电子设备110和电子设备140结合实现。

在210中，获取用户的语音信息，以及用户做出上述语音信息时的面部表情信息和生理参数信息；

语音信息的获取可以通过电子设备110自带的麦克风实现，也可通过电子设备140实现，此时电子设备140可以为录音机、录音笔等设备。

面部表情信息的获取可以通过电子设备110自带的摄像头实现，，也可通过电子设备140实现，此时电子设备140可以为DV机、摄像头、网络摄像头、视频阅读器等设备。此外，还可通过视频阅读器实现。

生理参数信息的获取可以通过电子设备110自带的设备实现，例如可以采用自带的摄像头获取瞳孔信息；此外，还可通过电子设备140实现，此时电子设备140可以为血氧传感器、脉搏传感器、体温传感器和瞳孔分析设备中的一种或几种。

在220中，提取语音信息、面部表情信息和生理参数信息的相关特征值，并根据特征值生成情感标签；根据语音信息生成语义文本信息；

在一些实施例中，根据特征值生成情感标签的方法包括：

提取语音信息中的第一特征值，并根据所述第一特征值生成语音情绪指标；提取面部表情信息中的第二特征值，并根据所述第二特征值生成表情情绪指标；提取生理参数信息中的第三特征值，并根据所述第三特征值生成生理情绪指标；根据语音情绪指标、表情情绪指标以及生理情绪指标生成情感标签。

具体来说，所述第一特征值包括基频、强度、时长、元音共振峰中的一种或几种；所述第二特征值包括面部特征的位移或形变；所述第三特征值包括心率、血氧、体温、瞳孔中的一种或几种。

此外，根据语音信息生成语义文本信息时，会参考情感标签，即结合情感标签更为准确的反应语音信息的语音。

在230中，将语义文本信息和情感标签合成，以文本、图片、声音、视频中的一种或几种相结合的方式输出。

在本申请的一些实施例中，将语义文本信息和情感标签合成后，输出带有表情符号的文本。表情符号可以是静止图片或者动画图片，可以是预制的表情符号，也可以是自定义的图片。

此外，还可用文本描述代替表情符号，举例来说，在将本申请的语音处理方法应用到人机交互中时，当用户对机器讲话时，机器输出的文字，既包括语义部分也包括情感修饰部分，例如“小美微笑着对你说，欢迎回家！”

在本申请的一些实施例中，将语义文本信息和情感标签合成后，输出带有表情符号的文本。举例来说，在将本申请的语音处理方法应用到人机交互中时，当用户对机器讲话时，机器输出的文字，既包括语义部分也包括情感修饰部分，例如“小美微笑着对你说，欢迎回家！”

在本申请的一些实施例中，将语义文本信息和情感标签合成后，输出另一种语言的语音，该语音与获取的用户语音信息语义相同，且具有相同的情感特征。举例来说，在将本申请的语音处理方法应用到同声传译或者影视作品翻译配音时，能够生成带有情感的语音。

在本申请的一些实施例中，将语义文本信息和情感标签合成后，输出具有能够表达不同情感的视频内容。例如，可以生成生成带有丰富表情、动作的虚拟人物或玩偶的视频内容，可以生成卡通版西游记中孙悟空的说话视频、或模拟成某个明星的演讲视频。

在本申请的一些实施例中，将语义文本信息和情感标签合成后，生成与语义文本信息和情感标签对应的具有情感的对话语音。例如，识别用户的情感后并用匹配对应感情的语调与其对话，生成和蔼的带有磁性的中年女性声音来安抚伤心的小女孩。

此外，本申请还提供了一种语音处理系统，可参阅图2。

在一些实施例中，语音处理系统具体包括手机310和智能手环320。

手机310包括用于采集用户输出的语音信息的语音信息采集模块、用于采集用户的面部表情信息的面部表情信息采集模块、处理分析模块以及内容输出模块；智能手环320包括用于采集用户输出上述语音信息时的生理参数信息的生理参数信息采集模块。

处理分析模块的输入端分别与语音信息采集模块、面部表情信息采集模块以及生理参数信息采集模块连接，以根据语音信息、面部表情信息和生理参数信息生成情感标签和语义文本信息；处理分析模块的输出端与内容输出模块连接，以根据情感标签和语义文本信息，输出具有情感的语音以及虚拟人物视频。

当然，以上仅是本申请所述语音处理系统的一些具体实施例中，本申请所述的语音处理系统并不局限于此，也可不包括手机，而采用集合了所有所需功能的专用设备，用于与用户进行人机交互。

相较于现有技术，本申请提供的语音处理系统，设置了语音信息采集模块、面部表情信息采集模块以及生理参数信息采集模块，能够在获取用户的语音信息的同时，获取用户做出上述语音信息时的面部表情信息和生理参数信息；并结合提取语音信息、面部表情信息和生理参数信息的相关特征值，生成情感标签；所参考的参数较为全面，因此，情感识别的准确度更高。尤为重要的是，将语义文本信息和情感标签合成后，会以文本、图片、声音、视频中的一种或几种相结合的方式输出，输出方式多样化，能够满足不同用户、不同场景的需求。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2 3

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！