一种基于语音情感识别的信息反馈方法和系统的制作方法

文档序号：2827413阅读：243来源：国知局

一种基于语音情感识别的信息反馈方法和系统的制作方法
【专利摘要】本发明提出一种基于语音情感识别的信息反馈方法和系统，其中方法包括：预先保存语音韵律特征与用户类别的对应关系和用户类别与情感识别所需特征参数类型的对应关系；获取用户输入的语音数据，根据该语音数据的韵律特征查找所述语音韵律特征与用户类别的对应关系，获取所述该用户所属的类别；根据所述用户所属的类别查找所述用户类别与情感识别所需参数类型的对应关系，获取该用户的语音数据所需提取的特征参数类型；从该用户的语音数据中提取对应的特征参数值；采用匹配算法对提取的特征参数值进行处理，得到所述语音数据所对应的情感数据，将所述情感数据作为该用户反馈的信息。本发明能够支持用户以语音的方式反馈信息。
【专利说明】一种基于语音情感识别的信息反馈方法和系统
【技术领域】
[0001]本发明涉及计算机网络【技术领域】，尤其涉及一种基于语音情感识别的信息反馈方法和系统。
【背景技术】
[0002]电子商务从本质上来说是一种线上购物方式，因而对于购物的流程，如售前推销、购买、售后服务等它都具备，当消费者第一次选择某个网站购物时，可能随机性比较大，但是之后再去选择这个网站时，就会考虑在这个网站已有的购物体验。毫无疑问，售后服务是整个购物过程的一个重要环节，由于都是通过线上完成，因而对于商品的评价机制便成为能够得到用户购物体验的最佳方式。
[0003]电子商务从诞生之初便离不开计算机技术的发展，从静态网页到动态的人机交互网站，计算机技术一次又一次的使在线购物更加方便。目前，大多数购物网站都将注意力放在购物前和购物中，而购物完成后的售后服务却饱受诟病，究其原因，很大程度由于不能及时得到消费者在购物后的体验。
[0004]目前对于用户对于购物体验的信息反馈都是基于网站对相关商品的手动输入方式，如图1所示，如通过文字评价、到评星级以及晒单等，完成用户向网站反馈购物体验的过程。商品评价系统会记录消费者反馈的信息，进行显示，一方面给予其他消费者做出购物决策提供信息，另一方面会给电子商务公司提供用户体验信息。用户反馈的评价信息的应用流程如图2所示，当电子商务公司收集到评价信息后，通过评估和分析，更正或者提高相关服务，以便能更好提高用户满意度，增加用户粘性。
[0005]用户体验归根结底是消费者对于此次购物过程的情绪表达，而传统的文字输入式反馈信息并不能完全真实的反映消费者的购物体验，由于有些人不善于通过文字去表达情绪或者由于家庭职业等原因，对于文字的使用有所保留。这就使得评价系统所得到的信息有很大失真，因而通过评价系统得到的数据对于网站端商品推荐和更正营销决策上的帮助微乎其微。这就使得电子商务公司提供的购物环境没有充分考虑消费者的体验，必然带来用户流失的严重后果；
[0006]另一方面，系统不得不耗费大量的空间去保存用户反馈的文字信息，而模糊不清的评价信息对于后续的数据分析上贡献度非常低，保存这部分信息会浪费已有空间，如果不保存，又会造成数据丢失。
[0007]最后，单一的信息反馈方式无法满足人们所要求的购物便捷，如用户通过移动端购物时，以文字的方式输入反馈信息不方便。

【发明内容】

[0008]本发明提供了一种基于语音情感识别的信息反馈方法，能够支持用户以语音的方式反馈信息。
[0009]本发明还提供了一种基于语音情感识别的信息反馈系统，能够支持用户以语音的方式反馈信息。
[0010]本发明的技术方案是这样实现的:
[0011]一种基于语音情感识别的信息反馈方法，包括:
[0012]预先保存语音韵律特征与用户类别的对应关系和用户类别与情感识别所需特征参数类型的对应关系；
[0013]获取用户输入的语音数据，根据该语音数据的韵律特征查找所述语音韵律特征与用户类别的对应关系，获取所述该用户所属的类别；
[0014]根据所述用户所属的类别查找所述用户类别与情感识别所需参数类型的对应关系，获取该用户的语音数据所需提取的特征参数类型；从该用户的语音数据中提取对应的特征参数值；
[0015]采用匹配算法对提取的特征参数值进行处理，得到所述语音数据所对应的情感数据，将所述情感数据作为该用户反馈的信息。
[0016]上述方法中，特征参数类型可以为梅尔频率倒谱系数或线性倒谱系数。
[0017]匹配算法可以为最优模糊量化算法、隐马尔科夫模型算法或人工神经网络算法；
[0018]其中，最优模糊量化算法具体可以为:
[0019]通过矢量量化训练得到预先保存的各个标准情感语音所对应的标准码本，所述标准码本为多维向量；
[0020]分别以各个标准情感语音对应的标准码本为中心确定多维环空间，其中，确定多维环空间的方式为:将作为中心的标准情感语音对应的标准码本作为圆心，分别计算作为中心的标准情感语音对应的标准码本与其他标准情感语音对应的标准码本的欧式距离，将计算出的多个欧式距离作为半径，形成环域，将各个环域所划分的的区域分别作为各个标准情感语音对应的区域；
[0021]确定所述用户输入的语音数据的特征参数值所组成的多维向量在各个多维环空间中的位置，选取出现次数最多的区域所对应的标准情感语音作为该语音数据所对应的情感数据。
[0022]上述方法可以进一步包括:
[0023]保存所述情感数据；
[0024]根据所述情感数据查找预先保存的情感数据与影响因子的对应关系，获取所述情感数据所对应的情感因子，采用所述影响因子对相关决策系统提供决策支持。
[0025]获取用户输入的语音数据的方式可以为:
[0026]接收用户输入的语音数据，当所述语音数据的时长不超过预先设定的阈值时，获取该语音数据。
[0027]一种基于语音情感识别的信息反馈系统，包括:
[0028]数据库，用于保存语音韵律特征与用户类别的对应关系和用户类别与情感识别所需特征参数类型的对应关系；
[0029]参数提取模块，用于获取用户输入的语音数据，根据该语音数据的韵律特征查找所述语音韵律特征与用户类别的对应关系，获取所述该用户所属的类别；根据所述用户所属的类别查找所述用户类别与情感识别所需参数类型的对应关系，获取该用户的语音数据所需提取的特征参数类型；从该用户的语音数据中提取对应的特征参数值；[0030]识别模块，用于采用匹配算法对提取的特征参数值进行处理，得到所述语音数据所对应的情感数据，将所述情感数据作为该用户反馈的信息。
[0031]上述系统中，特征参数类型可以为梅尔频率倒谱系数或线性倒谱系数。
[0032]识别模块采用的匹配算法可以为最优模糊量化算法、隐马尔科夫模型算法或人工神经网络算法；
[0033]其中，最优模糊量化算法具体可以为:
[0034]通过矢量量化训练得到预先保存的各个标准情感语音所对应的标准码本，所述标准码本为多维向量；
[0035]分别以各个标准情感语音对应的标准码本为中心确定多维环空间，其中，确定多维环空间的方式为:将作为中心的标准情感语音对应的标准码本作为圆心，分别计算作为中心的标准情感语音对应的标准码本与其他标准情感语音对应的标准码本的欧式距离，将计算出的多个欧式距离作为半径，形成环域，将各个环域所划分的的区域分别作为各个标准情感语音对应的区域；
[0036]确定所述用户输入的语音数据的特征参数值所组成的多维向量在各个多维环空间中的位置，选取出现次数最多的区域所对应的标准情感语音作为该语音数据所对应的情感数据。
[0037]上述系统还可以包括:
[0038]决策支持模块，用于保存所述情感数据，并根据所述情感数据查找预先保存的情感数据与影响因子的对应关系，获取所述情感数据所对应的情感因子，采用所述影响因子对相关决策系统提供决策支持。
[0039]上述系统中，参数提取模块获取用户输入的语音数据的方式可以为:接收用户输入的语音数据，当所述语音数据的时长不超过预先设定的阈值时，获取该语音数据。
[0040]可见，本发明提出的基于语音情感识别的信息反馈方法和系统，通过识别用户输入的语音数据所对应的情感数据，并将该情感数据作为用户反馈的信息，从而支持用户以语音的方式反馈信息。
【专利附图】

【附图说明】
[0041]图1现有技术中用户的购物体验信息反馈方式示意图；
[0042]图2现有技术中用户的购物体验信息应用方式示意图；
[0043]图3为本发明提出的基于语音情感识别的信息反馈方法实现流程图；
[0044]图4为本发明实施例一的实现流程图；
[0045]图5为本发明实施例一中的最优模糊量化算法示意图；
[0046]图6为本发明实施例二的实现流程图；
[0047]图7为本发明提出的基于语音情感识别的信息反馈装置结构示意图。
【具体实施方式】
[0048]本发明提出一种基于语音情感识别的信息反馈方法，预先保存保存语音韵律特征与用户类别的对应关系和用户类别与情感识别所需特征参数类型的对应关系，如图3为该方法实现流程图，包括:[0049]步骤301:获取用户输入的语音数据，根据该语音数据的韵律特征查找所述语音韵律特征与用户类别的对应关系，获取该用户所属的类别；
[0050]步骤302:根据所述用户所属的类别查找所述用户类别与情感识别所需参数类型的对应关系，获取该用户的语音数据所需提取的特征参数类型；从该用户的语音数据中提取对应的特征参数值；
[0051]步骤303:采用匹配算法对提取的特征参数值进行处理，得到所述语音数据所对应的情感数据，将所述情感数据作为该用户反馈的信息。
[0052]上述步骤302中，特征参数类型可以为梅尔频率倒谱系数或线性倒谱系数等，可以根据用户类型(即用户群)的特点综合选择所需特征参数类型的个数，并根据实际测试选择适用性强的特征参数类型。
[0053]上述步骤303中，匹配算法可以为本发明提出的最优模糊量化算法、隐马尔科夫模型算法或人工神经网络算法等；得到的情感数据可以用单一字符标识，例如“O”标识高兴、“ I”标识愤怒、“ 2 ”标识平静，等等。
[0054]其中，最优模糊量化算法具体可以为:
[0055]通过矢量量化训练得到预先保存的各个标准情感语音所对应的标准码本，所述标准码本为多维向量；
[0056]分别以各个标准情感语音对应的标准码本为中心确定多维环空间，其中，确定多维环空间的方式为:将作为中心的标准情感语音对应的标准码本作为圆心，分别计算作为中心的标准情感语音对应的标准码本与其他标准情感语音对应的标准码本的欧式距离，将计算出的多个欧式距离作为半径，形成环域，将各个环域所划分的的区域分别作为各个标准情感语音对应的区域；
[0057]确定所述用户输入的语音数据的特征参数值所组成的多维向量在各个多维环空间中的位置，选取出现次数最多的区域所对应的标准情感语音作为该语音数据所对应的情感数据。
[0058]上述方法可以进一步包括:保存情感数据；
[0059]根据情感数据查找预先保存的情感数据与影响因子的对应关系，获取所述情感数据所对应的情感因子，采用影响因子对相关决策系统提供决策支持，以便得到最佳的营销方案，从而提高用户满意度和用户粘性。
[0060]此外，上述步骤101中，为了防止恶意评价，可以预先设定阈值来限定用户输入语音的时长，当语音数据的时长不超过预先设定的阈值时，获取该语音数据。在处理用户输入的语音数据时，根据语音数据的特点，可以采用分段处理的方式，将语音数据划分成多个语音片段进行处理。
[0061]以下举具体的实施例详细介绍。
[0062]实施例一:
[0063]本实施例在用户评价系统应用语音情感识别技术，开设语音评价功能；为了满足不同用户群的需要，可以保留传统的文本输入方式，用户可以自由选择文本输入式评价或者语音评价。
[0064]如图4为本实施例的实现流程图，包括以下步骤:
[0065]步骤401:判断用户是否选择语音评价的输入方式，如果是，则继续执行步骤402 ；否则，根据用户的选择，采用其他评价方式处理。
[0066]步骤402:接收用户输入的语音数据。
[0067]步骤403:为了方式恶意评价，设定动态阈值限定用户的输入时长。
[0068]步骤404:判断用户输入的语音数据是否有效，判断的方式可以具体为:如果用户输入语音数据的时长超过预先设定的动态阈值，则判定该语音数据无效，返回执行步骤402 ;如果用户输入语音数据的时长不超过预先设定的动态阈值，则判定该语音数据有效，继续执行步骤405。[0069]步骤405:针对用户输入的语音数据，通过语音情感识别系统进行处理。语音情感识别系统的处理过程包括:语音数据的特征参数提取和语音数据的情感识别。
[0070]其中，在语音数据的特征参数提取阶段，可以根据用户群的特点设定提取特征参数的个数及类型，在设定时具体可以先选取几个不同的特征参数类型，例如梅尔频率倒谱系数或线性倒谱系数等，然后可以根据实际测试选择适应性强的特征参数类型。在对用户的语音数据提取特征参数时，首先根据语音数据的韵律特征判断该用户所属的类别(即用户群，可以根据性别、年龄等划分不同类别)，然后确定该类别用户的语音数据需要提取的特征参数类型，之后提取相应的特征参数值。
[0071]在语音数据的情感识别阶段，可以选择不同的匹配算法对提取的特征参数值进行处理，如隐马尔科夫模型算法或人工神经网络算法等，考虑到评价系统需要时效性和准确性，需要采用计算相对简洁并不失准确性的匹配算法，本发明提出最优模糊量化(MFVQ—Most Fuzzy Vector Quantization)算法:它以矢量量化技术为基础,结合评价系统实际识别的情感状态的粗粒度模糊性，故在确定情感状态的计算上不采用以最小欧氏距离为最终标准，而是通过得到待匹配情感语音处在各标准情感语音作为多个环域中心时形成的混合多维环空间的最终位置，得出最终所属的那种情感语音。处理结果为用户此次语音评价的情感数据，即情感状态。情感数据可以用单一字符标识。
[0072]结合附图5，介绍本实施例提出的最优模糊量化算法。
[0073]首先，通过矢量量化训练得到预先保存的各个标准情感语音所对应的标准码本，所述标准码本为多维向量；以取3个标准情感语音为例，
[0074]标准情感语音A对应的标准码本为Vl= (al, bl,......)
[0075]标准情感语音B对应的标准码本为V2= (a2, b2,......)
[0076]标准情感语音C对应的标准码本为V3= (a3,b3,……)
[0077]之后，分别以各个标准情感语音对应的标准码本为中心确定多维环空间，确定用户输入的待识别语音数据对应的多维向量在各个多维环空间中的位置。
[0078]以采用标准情感语音A为中心为例，如图5显示了以标准情感语音A对应的标准码本为中心确定的多维环空间，其中，圆心为Vl确定出的点，小圆的半径为Vl与V2的欧式距离，大圆的半径为Vl与V3的欧式距离；两个圆形将整个空间划分为3个区域，其中，小圆内的区域为标准情感语音A对应的区域，小圆外大圆内的区域为标准情感语音B对应的区域，大圆外的区域为标准情感语音C对应的区域。然后，计算用户输入的待识别语音数据对应的多维向量与Vl的欧式距离，根据该距离确定待识别语音数据在多维环空间中的位置；在图5中，待识别语音数据位于标准情感语音B对应的区域内，则得到标准情感语音B位置票数I。[0079]再分别以标准情感语音B和C为中心确定多维环空间，确定待识别语音数据在多维环空间中的位置，最终票数最多的标准情感语音即为最终确定的待识别语音数据的情感数据。如果每种票数相等，则可以通过计算待识别语音数据对应的的多维向量与标准情感语音对应的多维向量的欧式距离确定待识别语音数据的情感数据。
[0080]步骤406:将上述情感数据保存入数据库中，并在前端展示。
[0081]在本实施例中，应用语音情感识别技术进行语音数据处理，得到情感数据，显示并保存情感数据。这里的语音信号处理可以得到不依赖说话人和说话内容的特征，这样就可以得到具有普适性的训练集。在处理用户输入语音时，根据语音所具有的特点，可以采用分治思想，设定段长，将用户一次输入的语音数据划分成一个个语音片段进行处理。
[0082]实施例二:
[0083]在本实施例中，通过上述实施例一保存的情感数据可以作为用户体验的直接信息(好坏)，应用这些直接信息，可以为相关系统提供决策支持，做出最佳的营销方式，从而提升用户满意度以及用户粘性。
[0084]如图6为本实施例的实现流程图，包括:
[0085]根据预先设定的情感数据与影响因子的对应关系，将情感数据映射为影响因子，例如影响因子越高表示用户的满意度越高。
[0086]之后，系统根据大量用户反馈的情感数据所对应的影响因子调整相关系统的营销决策，例如，购物前端系统、运营系统和客服系统等。
[0087]本发明还提出一种基于语音情感识别的信息反馈系统，如图7为该系统的结构示意图，包括:
[0088]数据库701，用于保存语音韵律特征与用户类别的对应关系和用户类别与情感识别所需特征参数类型的对应关系；
[0089]参数提取模块702，用于获取用户输入的语音数据，根据该语音数据的韵律特征查找所述语音韵律特征与用户类别的对应关系，获取所述该用户所属的类别；根据所述用户所属的类别查找所述用户类别与情感识别所需参数类型的对应关系，获取该用户的语音数据所需提取的特征参数类型；从该用户的语音数据中提取对应的特征参数值；
[0090]识别模块703，用于采用匹配算法对提取的特征参数值进行处理，得到所述语音数据所对应的情感数据，将所述情感数据作为该用户反馈的信息。
[0091]上述系统中，特征参数类型可以为:梅尔频率倒谱系数或线性倒谱系数等。
[0092]上述系统中，识别模块703采用的匹配算法可以为本发明提出的最优模糊量化算法、隐马尔科夫模型算法或人工神经网络算法等；
[0093]其中，最优模糊量化算法具体可以为:
[0094]通过矢量量化训练得到预先保存的各个标准情感语音所对应的标准码本，所述标准码本为多维向量；
[0095]分别以各个标准情感语音对应的标准码本为中心确定多维环空间，其中，确定多维环空间的方式为:将作为中心的标准情感语音对应的标准码本作为圆心，分别计算作为中心的标准情感语音对应的标准码本与其他标准情感语音对应的标准码本的欧式距离，将计算出的多个欧式距离作为半径，形成环域，将各个环域所划分的的区域分别作为各个标准情感语音对应的区域；[0096]确定所述用户输入的语音数据的特征参数值所组成的多维向量在各个多维环空间中的位置，选取出现次数最多的区域所对应的标准情感语音作为该语音数据所对应的情感数据。
[0097]上述系统还可以包括:
[0098]决策支持模块704，用于保存所述情感数据，并根据所述情感数据查找预先保存的情感数据与影响因子的对应关系，获取所述情感数据所对应的情感因子，采用所述影响因子对相关决策系统提供决策支持。
[0099]上述系统中，参数提取模块702获取用户输入的语音数据的方式可以为:接收用户输入的语音数据，当所述语音数据的时长不大于预先设定的阈值时，获取该语音数据。
[0100]综上可见，本发明能够改进目前电子商务网站的评价系统，提供了多种评价方式选择，方便了不同消费者进行购物体验的反馈，并且可以获得相对真实有效的购物体验信息。有利于后续使用这些数据提供相关决策支持。在数据存储上也提高了系统性能，方便后续的操作。总体说来，基于语音情感识别技术的用户评价信息反馈系统可以获得相对真实的用户体验，在后续制定营销策略时相对来说会更准确，进而提升了用户粘性。
[0101]以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。
【权利要求】
1.一种基于语音情感识别的信息反馈方法，其特征在于，所述方法包括: 预先保存语音韵律特征与用户类别的对应关系和用户类别与情感识别所需特征参数类型的对应关系；获取用户输入的语音数据，根据该语音数据的韵律特征查找所述语音韵律特征与用户类别的对应关系，获取所述该用户所属的类别；根据所述用户所属的类别查找所述用户类别与情感识别所需参数类型的对应关系，获取该用户的语音数据所需提取的特征参数类型；从该用户的语音数据中提取对应的特征参数值；采用匹配算法对提取的特征参数值进行处理，得到所述语音数据所对应的情感数据，将所述情感数据作为该用户反馈的信息。
2.根据权利要求1所述的方法，其特征在于，所述特征参数类型为梅尔频率倒谱系数或线性倒谱系数。
3.根据权利要求1所述的方法，其特征在于，所述匹配算法为最优模糊量化算法、隐马尔科夫模型算法或人工神经网络算法；所述最优模糊量化算法为: 通过矢量量化训练得到预先保存的各个标准情感语音所对应的标准码本，所述标准码本为多维向量；分别以各个标准情感语音对应的标准码本为中心确定多维环空间，其中，确定多维环空间的方式为:将作为中心的标准情感语音对应的标准码本作为圆心，分别计算作为中心的标准情感语音对应的标准码本与其他标准情感语音对应的标准码本的欧式距离，将计算出的多个欧式距离作为半径，形成环域，将各个环域所划分的的区域分别作为各个标准情感语音对应的区域；确定所述用户输入的语音数据的特征参数值所组成的多维向量在各个多维环空间中的位置，选取出现次数最多的区域所对应的标准情感语音作为该语音数据所对应的情感数据。
4.根据权利要求1、2或3所述的方法，其特征在于，所述方法进一步包括: 保存所述情感数据；根据所述情感数据查找预先保存的情感数据与影响因子的对应关系，获取所述情感数据所对应的情感因子，采用所述影响因子对相关决策系统提供决策支持。
5.根据权利要求1、2或3所述的方法，其特征在于，所述获取用户输入的语音数据的方式为: 接收用户输入的语音数据，当所述语音数据的时长不超过预先设定的阈值时，获取该语音数据。
6.一种基于语音情感识别的信息反馈系统，其特征在于，所述系统包括: 数据库，用于保存语音韵律特征与用户类别的对应关系和用户类别与情感识别所需特征参数类型的对应关系；参数提取模块，用于获取用户输入的语音数据，根据该语音数据的韵律特征查找所述语音韵律特征与用户类别的对应关系，获取所述该用户所属的类别；根据所述用户所属的类别查找所述用户类别与情感识别所需参数类型的对应关系，获取该用户的语音数据所需提取的特征参数类型；从该用户的语音数据中提取对应的特征参数值；识别模块，用于采用匹配算法对提取的特征参数值进行处理，得到所述语音数据所对应的情感数据，将所述情感数据作为该用户反馈的信息。
7.根据权利要求6所述的系统，其特征在于，所述特征参数类型为梅尔频率倒谱系数或线性倒谱系数。
8.根据权利要求6所述的系统，其特征在于，所述识别模块采用的匹配算法为最优模糊量化算法、隐马尔科夫模型算法或人工神经网络算法；所述最优模糊量化算法为: 通过矢量量化训练得到预先保存的各个标准情感语音所对应的标准码本，所述标准码本为多维向量；分别以各个标准情感语音对应的标准码本为中心确定多维环空间，其中，确定多维环空间的方式为:将作为中心的标准情感语音对应的标准码本作为圆心，分别计算作为中心的标准情感语音对应的标准码本与其他标准情感语音对应的标准码本的欧式距离，将计算出的多个欧式距离作为半径，形成环域，将各个环域所划分的的区域分别作为各个标准情感语音对应的区域；确定所述用户输入的语音数据的特征参数值所组成的多维向量在各个多维环空间中的位置，选取出现次数最多的区域所对应的标准情感语音作为该语音数据所对应的情感数据。
9.根据权利要求6、8或8所述的系统，其特征在于，所述系统还包括: 决策支持模块，用于保存所述情感数据，并根据所述情感数据查找预先保存的情感数据与影响因子的对应关系，获取所述情感数据所对应的情感因子，采用所述影响因子对相关决策系统提供决策支持。
10.根据权利要求6、8或8所述的系统，其特征在于，所述参数提取模块获取用户输入的语音数据的方式为:接收用户输入的语音数据，当所述语音数据的时长不超过预先设定的阈值时，获取该语音数据。
【文档编号】G10L25/63GK103886869SQ201410138889
【公开日】2014年6月25日申请日期:2014年4月9日优先权日:2014年4月9日
【发明者】郝建钧申请人:北京京东尚科信息技术有限公司, 北京京东世纪贸易有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郝建钧
技术所有人：北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
我是此专利的发明人

上一篇：通讯终端及其声音处理方法
上一篇：一种语音识别的方法及移动终端的制作方法