语音情绪辨识方法与流程

文档序号:12837741阅读:3442来源:国知局
语音情绪辨识方法与流程

本发明涉及一种语音情绪辨识方法,且特别涉及一种语音情绪分类模型的建立方法,与使用所建立的语音情绪分类模型来辨识所接收的语音信号所对应的情绪的方法,以及使用此方法的语音情绪辨识系统。



背景技术:

近年来,由于人工智能、机器学习与网络信息的快速发展,人们与智能型电子装置之间的沟通模式,已不再是过去以指令输入至电子装置,而电子装置再以文字回应的方式所能满足。因此,通过最自然且方便的“语音”沟通媒介来进行智能型电子装置的控制将成为未来的趋势。举例而言,在不同领域都已经有许多事情可以由机器取代,如会议安排、语言学习、语音服务、新闻播报、汽车驾驶等等,但如果仅仅只是由机器单方面提供制式化的回应服务,容易忽略使用者实际的感受与使用状况,导致使用者的使用经验不佳,因此让机器检测人类所要表达的情绪讯息,接着给予最适当的回应是一项重要的机制。据此,为了使人机接口系统更为多样性与人性化,许多学者、厂商则莫不开始着手研究情绪的辨识。

目前语音情绪辨识技术是采用将语音信号进行音框的切割,并对所切割的音框进行特征提取,再经由既有语音情绪数据库讯练出蕴含能够区分语音情绪种类的超平面(hyper-plane)的分类模型。然而,此传统的语音情绪辨识技术一般仅藉由微观的音框角度来分析情绪,而无法展现出人类完整的微观与宏观情绪变化,由此使得语音情绪辨识结果容易受限于藉由音框所采集的微观或局部的语音特征量。再者,由录音所得的一维语音信号无法全部表示出真实语音的三维传递特性,且传统语音特征也较难完整描述真实语音的非线性特性。因此,如何提高情绪辨识的正确率,亦为目前研究的重要一环。



技术实现要素:

本发明提供一种语音情绪辨识方法,其能够藉由提取语音数据库所提供 的语音信号的三大类特征来建立语音情绪分类模型,以提升所建立的语音情绪分类模型的情绪辨识率,所述三大类特征包含语音特征、非线性特征与宏观特征。特别是,通过准确地分辨使用者或他人目前的情绪,可有效地提升人机互动的成效与沟通效果。

本发明的一范例实施例提出一种语音情绪辨识方法,此方法包括:从一语音数据库中取得多个语音信号,将多个语音特征、多个非线性特征以及多个宏观特征组合成多组特征组合,且提取此些语音信号中每一个第一语音信号的所述语音特征,所述非线性特征以及所述宏观特征以获得多个已计算特征,其中每一个特征组合包括至少一语音特征,至少一非线性特征与至少一宏观特征的其中之一或其组合。本方法还包括:从此些已计算特征中选出多个目标特征量;使用此些目标特征量训练一语音情绪分类模型以获得对应所述特征组合的多个辨识率;以及使用此些目标特征组合训练一语音情绪分类模型。本方法还包括:根据所述辨识率从所述特征组合中选出多个目标特征组合,以及根据所述目标特征组合与语音情绪分类模型执行语音情绪辨识操作。

在本发明的一范例实施例中,上述提取所述语音信号中的每一个第一语音信号的语音特征,非线性特征以及宏观特征以获得所述已计算特征的步骤包括:切割每一个第一语音信号为多个音框,并计算每一个第一语音信号的每一个音框的语音特征与非线性特征;以及获得对应每一个未切割的第一语音信号的情绪起伏趋势,并计算对应每一个未切割的第一语音信号的所述情绪起伏趋势的非线性特征。

在本发明的一范例实施例中,上述获得对应每一个未切割的第一语音信号的所述情绪起伏趋势的步骤包括:使用经验模态分解算法或移动平均算法分析每一个整段的第一语音信号,以获得对应每一个未切割的第一语音信号的情绪起伏趋势。其中使用经验模态分解算法分析每一个整段的第一语音信号的步骤包括:将每一个整段的第一语音信号分解为多个本质模态函数,并根据所述本质模态函数中最末项的本质模态函数取得所述情绪起伏趋势。

在本发明的一范例实施例中,上述从所述已计算特征中选出所述目标特征量的步骤包括:统计每一个第一语音信号的音框所对应的已计算特征与每一个第一语音信号的情绪起伏趋势所对应的已计算特征,以获得每一个第一语音信号对应于一个已计算特征的多个统计量。

在本发明的一范例实施例中,上述从所述已计算特征中选出所述目标特征量的步骤包括:使用费雪鉴别比算法与基因算法从每一个第一语音信号对应于一个已计算特征的统计量中选出多个特征统计量,并获得所述特征统计量所对应的所述目标特征量。

在本发明的一范例实施例中,上述使用所述目标特征量训练所述语音情绪分类模型以获得对应所述特征组合的辨识率的步骤包括:根据所述目标特征量取得可区分所述语音信号的情绪的一最佳分割超平面;使用所述语音信号中每一个第二语音信号验证此最佳分割超平面,其中所述第二语音信号不同于所述第一语音信号;以及根据所述语音情绪分类模型获得对应此些特征组合的辨识率。

在本发明的一范例实施例中,上述根据所述辨识率从所述特征组合中选出所述目标特征组合的步骤包括:选择所述特征组合中具有较高辨识率的特征组合作为目标特征组合,其中所述目标特征组合的辨识率大于未被选出的特征组合的辨识率。

在本发明的一范例实施例中,上述根据目标特征组合与所述语音情绪分类模型执行所述语音情绪辨识操作的步骤包括:接收一第三语音信号;仅提取所述第三语音信号的所述目标特征组合所包括的已计算特征;根据所述语音情绪分类模型识别所述第三语音信号所对应的情绪,其中所述情绪至少包括生气、无聊、厌恶、害怕、开心、中性和伤心。

在本发明的一范例实施例中,上述语音情绪辨识操作是通过一电子装置所执行。

在本发明的一范例实施例中,上述语音数据库为一柏林语音情绪数据库,并且语音特征至少包括音高、能量、共振峰、过零率、teager能量运算子以及梅尔倒频谱系数,而非线性特征至少包括赫斯特指数、曲率指标、香农熵、lempel-ziv复杂度、交互信息、关联维度以及李亚普诺夫指数。

基于上述,本发明的范例实施例所提出的语音情绪辨识方法藉由分别对切割为多个音框的语音信号以及整段的语音信号进行特征提取,来提升所接收的使用者的语音信号所对应的情绪的辨识率,由此更避免语音情绪辨识结果受限于每一音框的语音的特征量。如此一来,有效地提升具语音情绪辨识的电子装置的实用性并提供使用者更良好的操作体验。

为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合 附图作详细说明如下。

附图说明

图1是根据本发明一范例实施例所绘示的具备语音情绪辨识功能的语音情绪辨识系统的方块图。

图2a~图2c是根据本发明一范例实施例所绘示的将语音情绪辨识方法实施于各种电子装置的示意图。

图3是依照本发明一实施例所绘示的语音情绪辨识方法的流程图。

图4是根据本发明一范例实施例所绘示的多组特征组合及其辨识率的示意图。

图5是依照本发明一实施例所绘示的根据语音情绪分类模型执行语音情绪辨识操作的流程图。

【符号说明】

10:语音情绪辨识系统

100:服务器

200:电子装置

102、202:存储装置

104、204:处理器

106、206:通信装置

108、208:收音器

110、210:特征提取模块

120、220:特征选择模块

130:训练模块

140、240:语音情绪辨识模块

150、250:语音接收模块

s301、s303、s305、s307、s309、s311:语音情绪辨识方法的步骤

401-a、401-b、402-a、402-b、402-c、402-d、402-e、402-f、402-g:条状

s311-1、s311-3、s311-5:根据语音情绪分类模型执行语音情绪辨识操作的步骤

具体实施方式

为了提升具语音情绪辨识功能的电子装置对使用者的语音信号进行辨识所获得的情绪的辨识率,本发明藉由分别对切割为多个音框的语音信号以及整段的语音信号进行特征提取,不仅提升语音信号所对应的情绪的辨识率,更避免语音情绪辨识结果受限于每一音框的语音的特征量。基此,有效地提升具语音情绪辨识的电子装置的实用性并提供使用者更良好的操作体验。

图1是根据本发明一范例实施例所绘示的具备语音情绪辨识功能的语音情绪辨识系统的方块图。图2a~图2c是根据本发明一范例实施例所绘示的将语音情绪辨识方法实施于各种电子装置的示意图。必须了解的是,图1与图2a~图2c的范例仅是为了方便说明,并不用以限制本发明。

请参照图1与图2a~图2c,语音情绪辨识系统10包括服务器100与电子装置200,服务器100包括存储装置102、处理器104以及通信装置106,在本范例实施例中,服务器100为用以执行高速运算与具备大量存储能力的整合式计算机,且其可以是本地端或是远端服务器,本发明不在此设限。电子装置200包括存储装置202、处理器204、通信装置206以及收音器208。在本范例实施例中,电子装置200可以是头戴式电子装置(如图2a所示)、移动装置、平板计算机(如图2b所示)、笔记型计算机(如图2c所示)等各种电子装置。值得注意的是,本发明并不加以限制图2a~图2c中各电子装置200的收音器208的配置位置,例如,在另一范例实施例中,电子装置200的收音器208可根据设计需求而有不同的配置。特别是,本发明亦不加以限制电子装置200的形式与态样,例如,在又一范例实施例中,本发明的语音情绪辨识方法可应用于智能型机器人、智能家庭与照护系统、智能型电子装置的应用程序、娱乐产品、各行业的客服系统、公共安全系统以及学习系统的辅助设备。此外,必须了解的是,本范例实施例以一个服务器与一个电子装置为例进行说明,但本发明并不限于此。例如,语音情绪辨识系统10可包括多个服务器与多个电子装置。

服务器100的存储装置102可以是任何形态的固定式或可移动式随机存取存储器(randomaccessmemory,ram)、只读存储器(read-onlymemory,rom)、快闪存储器(flashmemory)、固态硬盘(solidstatedrive,ssd)或类似元件或上述元件的组合。在本范例实施例中,存储装置102用以存储多个模块,此些模块包括特征提取模块110、特征选择模块120与训练模块130等软件程序。

服务器100的处理器104耦接至存储装置102。处理器104可以是具有单内核或多内核的中央处理单元(centralprocessingunit,cpu),或是其他可编程的一般用途或特殊用途的微处理器(microprocessor)、数字信号处理器(digitalsignalprocessor,dsp)、可编程控制器、特殊应用集成电路(applicationspecificintegratedcircuit,asic)或其他类似元件或上述元件的组合。在本实施例中,处理器104用以存取并执行上述存储装置102中所记录的模块,以实现本发明实施例的语音情绪辨识的方法。

服务器100的通信装置106例如是支持电机和电子工程师协会(instituteofelectricalandelectronicsengineers,ieee)等无线通信标准的无线收发器,其可通过无线方式与外部的其他装置建立网络连结。例如,服务器100可通过通信装置106与电子装置200通信。

电子装置200的存储装置202、处理器204与通信装置206分别相同或相似于上述服务器100的存储装置102、处理器104与通信装置106,在此不再重述。特别是,电子装置200还包括收音器208,具体而言,收音器208可由麦克风来实现,本发明并不加以限制收音器208的类型,例如,收音器208可以是电容式麦克风、动圈式麦克风或铝带式(ribbon)麦克风,而不同类型的麦克风亦具有不同的指向性,例如,全指向、单指向(心型、超心型、枪型)、双指向。在本范例实施例中,收音器208可以接收使用者的声音所产生的声波,并且输出语音信号。处理器204耦接至收音器208,并接收所述语音信号。此外,电子装置200的存储装置202亦存储多个模块,此些模块包括特征提取模块210、特征选择模块220、语音情绪辨识模块240与语音接收模块250等软件程序。类似地,电子装置200的处理器204会存取并执行存储装置202中所记录的模块,以实现本发明实施例的语音情绪辨识的方法。

图3是依照本发明一实施例所绘示的语音情绪辨识方法的流程图。请同时参照图1与图3,本实施例的方法适用于上述语音情绪辨识系统10中的服务器100与电子装置200,以下即搭配图1中服务器100与电子装置200的各项元件,说明本实施例方法的详细流程。

在步骤s301中,服务器100的特征提取模块110会从语音数据库中取得多个语音信号,举例而言,语音数据库可存储于服务器100的存储装置102中,亦或是存储在语音情绪辨识系统10中其他远端服务器或云端服务器中,亦即特征提取模块110可通过有线或无线的方式从语音数据库取得所述语音 信号。具体而言,在本发明范例实施利中,语音数据库为来自德国的柏林语音情绪数据库(berlinemotiondatabase),此语音数据库包含了生气(anger)、无聊(boredom)、厌恶(disgust)、害怕(fear)、开心(joy)、中性(neutral)和伤心(sadness)共七种情绪,并且此些语音信号是由十位专业演员(五位男性、五位女性)各别演示上述七种情绪所对应的句子组成。值得注意的是,本发明并不加以限制所欲识别的情绪的种类,换句话说,在另一范例实施例中,语音数据库可还包括上述七种情绪以外的其他情绪。具体而言,在本发明范例实施例中,是从所录制的700句语句中选择较完整且较好的535句语句做为训练语音情绪分类模型的数据。然而,本发明并不限于此,例如,在另一范例实施例中,随着语音数据库中数据的更新与数据的增加,特征提取模块110亦会从语音数据库中取得此些更新与增加的数据中较完整的句语来训练语音情绪分类模型。

一般而言,用以描述情绪的方法可分为离散与维度两大类,在本发明范例实施例中,上述所采用的七种情绪是属于离散的,然而,情感状态的描述也可以连续的方式来描述,亦即,使用维度来描述情绪。具体而言,上述维度可以是两个维度,即,启动度-效价情感空间(arousal-valenceemotionalspace)或是三个维度,即,激励-效价-控制空间(activation-valence-dominancespace)。换句话说,在空间中连续的某一点会对应于不同的(即,离散的)情绪,其好处在于,其所描述的情绪会具有程度差异,而此程度差异会导致不容易对其进行标签,也就是说,语音数据库更不容易被建立。然而,在本范例实施例中,语音数据库所提供的每一笔数据皆具有用以标示情绪的标签,因此,可以依照类似的过程去训练得到语音情绪分类模型。

特别是,在本发明范例实施例中,上述用以训练语音情绪分类模型的数据(即,所取得的多个语音信号)会被分为作为训练数据(trainingdata)的语音信号(亦称为第一语音信号)与作为验证数据(validationdata)的语音信号(亦称为第二语音信号),以使得验证数据可作为所训练的语音情绪分类模型好坏的判断依据。例如,在本发明范例实施例中,是以80%与20%的比例随机地将所取得的多个语音信号分为作为训练数据的第一语音信号与作为验证数据的第二语音信号。然而,本发明并不限于此,例如,在另一范例实施例中,训练数据与验证数据的分配比例可依据实际操作时的需求动态地调整。

在步骤s303中,服务器100的特征提取模块110会将多个语音特征、多 个非线性特征以及多个宏观特征组合成多组特征组合,且提取所述语音信号中每一个第一语音信号的多个语音特征、多个非线性特征以及多个宏观特征以获得多个已计算特征,其中每一个特征组合包括至少一语音特征,至少一非线性特征与至少一宏观特征的其中之一或其组合。在此,将特征提取模块110于步骤s303中对每一个第一语音信号所提取的三大类特征(即,语音特征、非线性特征以及宏观特征)统称为已计算特征。

首先,在计算语音特征与非线性特征的操作中,特征提取模块110会切割每一个第一语音信号为多个音框,并计算每一个第一语音信号的每一个音框的语音特征与非线性特征。语音特征至少包括音高(pitch)、能量(energy)、共振峰(formant)、过零率(zerocrossingrate,zcr)、teager能量运算子(teagerenergyoperator,teo)以及梅尔倒频谱系数(mel-scalefrequencycepstralcoefficients,mfcc);而非线性特征至少包括赫斯特指数(hurstexponent)、曲率指标(curvatureindex)、香农熵(shannonentropy)、lempel-ziv复杂度(lemple-zivcomplexity,lzc)、交互信息(mutualinformation)、关联维度(correlationdimension)以及李亚普诺夫指数(lyapunovexponent)。

接着,在计算宏观特征的操作中,特征提取模块110会获得对应每一个未切割的第一语音信号的一情绪起伏趋势,并计算对应每一个未切割的第一语音信号的所述情绪起伏趋势的多个非线性特征。在此,特征提取模块110是使用经验模态分解(empiricalmodedecomposition,emd)算法或移动平均(movingaverage,ma)算法分析每一个整段的第一语音信号来获得对应每一个第一语音信号的情绪起伏趋势。例如,征提取模块110会将每一个整段的第一语音信号分解为多个本质模态函数(intrinsicmodefunctions,imf),并根据此些本质模态函数中最末项的本质模态函数来取得情绪起伏趋势。之后,征提取模块110即可对对应每一个第一语音信号的情绪起伏趋势进行多个非线性特征的计算。

在步骤s305中,特征选择模块120会从所述多个已计算特征中选出多个目标特征量。具体而言,特征选择模块120会先统计每一个第一语音信号的音框所对应的已计算特征与每一个第一语音信号的情绪起伏趋势所对应的已计算特征,以获得每一个第一语音信号对应于一个已计算特征的多个统计量。

如上所述,由于在本范例实施例中是以语音数据库中535句语句做为训练语音情绪分类模型的数据且以80%与20%的比例随机地将此些数据分为训 练数据与验证数据,因此,对应第一语音信号的语句共有428句(即,535*80%)。在此以提取非线性特征的曲率指标为例,假设特征提取模块110欲对428个第一语音信号中的某一第一个语音信号进行曲率指标的计算,特征提取模块110会先将此第一语音信号切割为300音框,并得到对应此300个音框的300个曲率指标的特征量(即,已计算特征),接着,特征选择模块120会将此300个特征量进行统计量的计算。例如,统计量的计算包含最小值(min)、最大值(max)、最大与最小值的差(range)、平均(mean)、中位数(median)、切尾均值(trimmedmean)的10%与25%、第1、5、10、25、75、90、95、99的百分位数(percentile)、四分差(interquartilerange)、平均差(averagedeviation)、标准差(standarddeviation)、偏态(skewness)和峰度(kurtosis),特征选择模块120除了计算上述统计量外,亦会计算相邻两音框的一阶与二阶倒数的统计量,以表示两音框间的变化程度。最后,特征选择模块120即可获得此第一语音信号对应于曲率指标的20个统计量,换句话说,在特征提取模块110共提取了三大类特征中15个特征(例如,6个语音特征、7个非线性特征与2个宏观特征)的例子中,若特征选择模块120对每一个第一语音信号进行对应于三大类特征的统计量计算之后,则可以得到128400(即,428*20*15)个统计量。值得注意的是,上述特征提取模块110提取三大类特征的操作中,第一语音信号被切割为300音框且共15个特征被提取;而上述特征选择模块120计算统计量的操作中,每一个第一语音信号对应于一个特征量会产生20个统计量,然而,此些数值仅作为范例说明,而非用以限制本发明。例如,在另一范例实施例中,对语音信号所切割的音框数量可根据语音信号的大小来调整,且对所欲提取的特征个数可依据经验或需求来增减,类似地,对所欲产生的统计量数量可根据计算流程与机器效能等因素做适当地调整。

在获得每一个第一语音信号对应于一个已计算特征的多个统计量之后,特征选择模块120会进一步地使用费雪鉴别比(fisherdiscriminateratio,fdr)算法与基因算法(geneticalgorithm,ga)从每一个第一语音信号对应于一个已计算特征的统计量中选出多个特征统计量。例如,特征选择模块120通过费雪鉴别比算法先将不适用的特征量排除,再经基因算法挑出最后用来训练语音情绪分类模型所使用的特征量(亦称为目标特征量)。

在步骤s307中,训练模块130会使用所选出的目标特征量训练语音情绪分类模型以获得对应上述所有特征组合的辨识率,例如,训练模块130是根 据此些目标特征量取得可区分此些语音信号的情绪的最佳分割超平面,并且使用此些语音信号中每一个第二语音信号验证此最佳分割超平面。更详细地说,训练模块130会将目标特征量导入支持向量机(supportvectormachine,svm)、高斯混合模型(gaussianmixturemodel,gmm)、隐马尔可夫模型(hiddenmarkovmodel,hmm)或类神经网络(artificialneuralnetwork,ann)来建立所述最佳分割超平面。

具体而言,支持向量机与高斯混合模型是一种分类(classification)算法,属于机器学习(machinelearning)或是统计学习(statisticallearning)中的监督式学习方法,以输入物件做为训练数据以建立出一个模型或函数,并依此模型或函数预测输出结果。在本范例实施例中,以支持向量机为例,语音数据库所提供的每一笔数据皆具有用以标示情绪的标签,藉由比对每一笔数据的输出结果及其所对应的标签即可得知其准确率(即,辨识率)。例如,训练模块130即是将每一组特征组合所对应的目标特征量导入支持向量机以计算其辨识率,由此获得对应所有特征组合的辨识率。

之后,在步骤s309中,服务器100的特征选择模块120会根据所述辨识率从所有特征组合中选出多个目标特征组合,例如,特征选择模块120是选择特征组合中具有较高辨识率的特征组合作为目标特征组合。换句话说,目标特征组合的辨识率大于未被选出的特征组合的辨识率。

值得一提的是,在本发明范例实施例所计算的非线性特征中,曲率指标为本发明所提出的藉由动态平均的方式来描述的一个或一组极限值,所述极限值的数目是根据维度而定,以n维空间为例,所述极限值的数目为n-1。上述的一个或一组极限值可将所接收的一维语音信号重建为高维的语音信号,并且当不同情绪变化表现在语音信号时,其对应的曲率指标也会有所不同。由于通过录音所得到的语音信号为一维的语音信号,因此会丧失一些信息,在此范例实施例中,特征选择模块120在计算曲率指标之前会先重建对应语音信号的高维度曲线,此高维度曲线虽然无法完全真实重现原本的语音信号,但所重建的空间与真实原始空间会具有一样的拓朴特征,而所述曲率指标即为一种拓朴特征。也就是说,藉由重建对应语音信号的高维度曲线可改善由录音所获得的一维语音信号无法完整表现出真实语音信号的三维特性的问题。

在本发明范例实施例中,上述步骤s301~步骤s309的建立语音情绪分类 模型的操作可针对男性的语音信号、女性的语音信号及两者混合的语音信号个别建立出对应的语音情绪分类模型。例如,请参照表(1),表(1)为男性的语音信号、女性的语音信号及两者混合的语音信号分别对应于仅提取语音特征与提取语音特征及非线性特征所获得的识别率。特别是,在未加入非线性特征时,所获得的男性、女性及两者混合的整体的情绪辨识率分别为84.44%、84.48%及72.38%;而加入曲率指标等非线性特征之后,男性整体的辨识率提高至86.21%,女性整体的辨识率提高至88.89%,两者混合整体的辨识率则提高至88.35%。

表(1)

图4是根据本发明一范例实施例所绘示的多组特征组合及其辨识率的示意图。其中,图4所示的长条图的横轴以特征编号的组合表示各种组特征组合,而纵轴为辨识率。举例而言,图4中的128个条状对应至上述步骤s303中三大类特征组合成的所有特征组合,换句话说,在本发明范例实施例中,多个语音特征、多个非线性特征以及多个宏观特征共组合成128组特征组合,然而,此数值仅作为范例说明,而非用以限制本发明。表(2)为对应图4长条图的横轴特征编号所代表的特征,其中特征编号为“0”的语音特征至少包括音高、能量、共振峰、过零率、teager能量运算子及梅尔倒频谱系数的其中之一或其组合;特征编号“1”至“6”则分别代表各种非线性特征;而特征编号“7”则代表宏观特征。

表(2)

请同时参照图4与表(2),在特征选择模块120根据所计算的每一组特征组合的辨识率选择具有较高辨识率的特征组合作为目标特征组合的操作(即,步骤s309)中,特征选择模块120例如是选择所有特征组合中辨识率大于85%的特征组合(即,图4中以横线表示的条状所对应的特征组合)作为目标特征组合。其中条状401-a与条状401-b所对应的特征组合为所有特征组合中辨识率最高的特征组合,其辨识率高达“88.35%”。条状401-a所对应的特征组合包括特征编号为0的语音特征、特征编号为2的曲率指标、特征编号为4的lempel-ziv复杂度、特征编号为5的交互信息以及特征编号为7的宏观特征;而条状401-b所对应的特征组合包括特征编号为0的语音特征、特征编号为2的曲率指标、特征编号为3的香农熵、特征编号为4的lempel-ziv复杂、特征编号为5的交互信息以及特征编号为6的关联维度。此外,条状402-a、条状402-b、条状402-c、条状402-d、条状402-e、条状402-f、条状402-g所对应的特征组合为所有特征组合中辨识率(即,“87.38%”)次高的特征组合,其中条状402-a所对应的特征组合具有曲率指标,条状402-d所对应的特征组合同时具有曲率指标与宏观特征;而条状402-f与条状402-g所对应的特征组合皆具有宏观特征。由此可知,加入本发明的曲率指标与宏观特征的特征组合可有效提升所语音信号所对应的情绪的辨识率。

具体而言,人类的情绪具有起、承、转、合的起伏变化,倘若使用传统的仅对切割为多个音框的语音信号进行特征提取,则所训练的语音情绪分类模型将容易受限于对每一音框的语音的特征量的分析,亦即,仅能由微观的角度来分析情绪。然而,人类的情绪发展事实上是很细微的,例如,除了瞬间(ms,微秒)的反应变化之外还有长期(s,秒)的发展变化。本发明所提出的对语音信号进行宏观特征的提取操作,目的即在于以宏观的角度来分析情绪,并藉由对整段的语音信号进行特征提取来解决以微观的角度分析情绪所导致的无法展现完整的情绪起伏变化的问题。特别是,加入本发明的宏观特征来进行特征提取后,确实有效提升了语音信号所对应的情绪的辨识率。

请再参照图3,在步骤s311中,电子装置200的语音情绪辨识模块240 会根据上述服务器100所建立的语音情绪分类模型执行语音情绪辨识操作。例如,服务器100在通过上述步骤s301~步骤s309建立语音情绪分类模型后,会将所述语音情绪分类模型以及目标特征组合通过通信装置106传送给电子装置200的通信装置206,而电子装置200的处理器204会将所接收的语音情绪分类模型存储至存储装置202。

图5是依照本发明一实施例所绘示的根据语音情绪分类模型执行语音情绪辨识操作的流程图。请参照图5,图5的步骤s311-1~s311-5即为图3中步骤s311中执行语音情绪辨识操作的详细操作。首先,在步骤s311-1中,电子装置200的语音接收模块250通过收音器208接收语音信号(亦称为第三语音信号),例如,使用者可利用电子装置200接收自己或他人所说的语句,而收音器208会将此语句的声波转换为语音信号,并传送至语音接收模块250。

接着,在步骤s311-3中,电子装置200的特征提取模块210会仅提取此第三语音信号的目标特征组合所包括的已计算特征。在此,特征提取模块210对第三语音信号进行特征提取的操作相同于在上述步骤s303中的详细说明,在此不再重述。特别是,对第三语音信号所提取的特征是在步骤s309中服务器100的特征选择模块120所选出的,换句话说,特征提取模块210仅会提取在步骤s309中被判断为具有辨识率大于未被选出的特征组合的辨识率的特征组合中的特征。并且,特征选择模块220亦会统计第三语音信号的音框所对应的已计算特征与第三语音信号的情绪起伏趋势所对应的已计算特征,以获得第三语音信号对应于一个已计算特征的多个统计量。特征选择模块220对语音信号进行统计量的计算已于上述步骤s305中详细说明,在此不再重述。

之后,在步骤s311-5中,电子装置200的语音情绪辨识模块240会根据在步骤s307中所训练的语音情绪分类模型识别此第三语音信号所对应的情绪是生气、无聊、厌恶、害怕、开心、中性或伤心中的哪一类,从而准确地分辨使用者或他人目前的情绪,可有效地提升人机互动的成效与沟通效果。

值得一提的是,在上述范例实施例中,是通过具高运算能力与大量存储能力的服务器100执行以大量语音数据训练语音情绪分类模型的操作,以及将此语音情绪分类模型应用于各种形式与态样的电子装置200,以使得电子装置200可通过服务器100所建立的语音情绪分类模型来辨识所接收的语音 信号所对应的情绪。然而,本发明并不限于此。例如,在另一范例实施例中,如图1所示,服务器100可还包括收音器108,且其存储装置102可还包括语音情绪辨识模块140与语音接收模块150,据此,服务器100也可根据其所训练的语音情绪分类模型执行语音情绪辨识操作(即,步骤s311-1~步骤s311-5)。

综上所述,本发明所提出的语音情绪辨识方法藉由分别对切割为多个音框的语音信号以及整段的语音信号进行特征提取,来提升所接收的使用者的语音信号所对应的情绪的辨识率,由此可避免语音情绪辨识结果受限于仅以微观的角度来分析情绪所造成的情绪辨识率下降。另一方面,藉由对语音数据库所提供的语音信号提取本发明所提出的三大类语音特征的特征组合来建立语音情绪分类模型,确实提升了使用所建立的语音情绪分类模型来辨识接收的语音信号所对应的情绪的辨识率。基此,有效地提升具语音情绪辨识的电子装置的实用性并提供使用者更良好的操作体验。

虽然本发明已以实施例公开如上,然其并非用以限定本发明,本领域技术人员在不脱离本发明的精神和范围内,当可作些许的更动与润饰,故本发明的保护范围当视所附权利要求书界定范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1