基于语音的服务推荐方法及装置的制造方法

文档序号:10516406阅读:199来源:国知局
基于语音的服务推荐方法及装置的制造方法
【专利摘要】本发明实施例提供一种基于语音的服务推荐方法及装置。接收到用户发出的语音输入时,调用预先训练的身份认证矢量提取器获取所述语音输入的身份认证矢量;根据所述身份认证矢量,调用预先训练得到的每个用户类别对应的参考认证矢量,判断所述用户所属的用户类别;根据所述用户所属的所述用户类别为用户推荐相应的服务。实现了根据用户语音特征的个性化服务推荐。
【专利说明】
基于语音的服务推荐方法及装置
技术领域
[0001] 本发明实施例设及语音识别技术领域,尤其设及一种基于语音的服务推荐方法及 装置。
【背景技术】
[0002] 近些年来,传统电视纷纷向智能电视发展。随着智能电视的普及,越来越多的用户 使用智能电视进行节目的观看及其他服务。
[0003] 与传统电视相比,智能电视可接入互联网,并可支持各种应用及更多的交互方式。 但是在收看电视节目时,仍然存在问题:电视节目的数量增加后,用户对电视节目的选择也 需要越来越多的时间。如果没有良好的工具来挖掘数字电视所具有的丰富内容,用户就无 法从大量的节目信息中快速地捜寻出自己需要的节目。因此,智能电视的推荐系统逐渐普 及,该系统将帮助用户从众多的节目中筛选出其所需要的节目,使得用户对智能电视的使 用过程更加舒适方便。
[0004] 目前的智能电视推荐系统中,可W根据用户的历史观看记录为用户推荐相关类型 的节目、同一演员的电视节目或者时下点击率最高的节目。
[0005] 然而,上述推荐系统对电视节目或智能电视其他服务的推荐是不分用户类别W及 用户属性的。例如,对于儿童和老人,智能电视在节目推荐时就显得不那么智能了。儿童喜 欢动画片等少儿类的节目,老人可能更加偏爱戏曲类的电视节目,若是面对运两种不同的 用户,推荐同样的电视节目,很难提升用户体验。
[0006] 综上所述,一种新的服务推荐方法亟待提出。

【发明内容】

[0007] 本发明实施例提供一种基于语音的服务推荐方法及装置,用W解决现有技术中不 能根据用户属性特征推荐用户可能喜欢的服务的缺陷,实现了更加个性化的智能推荐。
[000引本发明实施例提供一种基于语音的服务推荐方法,包括:
[0009] 接收到用户发出的语音输入时,调用预先训练的身份认证矢量提取器获取所述语 音输入的身份认证矢量;
[0010] 根据所述身份认证矢量,调用预先训练得到的每个用户类别对应的参考认证矢 量,判断所述用户所属的用户类别;
[0011] 根据所述用户所属的所述用户类别为用户推荐相应的服务。
[0012] 本发明实施例提供一种基于用户属性的服务推荐装置,包括:
[0013] 参数提取模块,用于接收到用户发出的语音输入时,调用预先训练的身份认证矢 量提取器获取所述语音输入的身份认证矢量;
[0014] 判断模块,用于根据所述身份认证矢量,调用预先训练得到的每个用户类别对应 的参考认证矢量,判断所述用户所属的用户类别;
[0015] 推荐模块,用于根据所述用户所属的所述用户类别为用户推荐相应的服务。本发 明实施例提供的基于语音的服务推荐方法及装置,通过提取用户语音输入的身份认证矢 量,并根据所述身份认证矢量对用户进行分类,根据用户的分类结果为用户提供个性化的 服务推荐,改变了现有技术中进行服务推荐时,不分用户属性特征,提供千篇一律推荐结果 对用户造成的糟糕的用户体验。
【附图说明】
[0016]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可W根 据运些附图获得其他的附图。
[0017]图巧本申请实施例一的技术流程图;
[0018] 图2为本申请实施例二的技术流程图;
[0019] 图3为本申请实施例Ξ的装置结构示意图。
【具体实施方式】
[0020] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员 在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0021] 图1是本申请实施例一的技术流程图,结合图1,本申请实施例一种基于语音的服 务推荐方法,可由如下的步骤实现:
[0022] 步骤S110:接收到用户发出的语音输入时,调用预先训练的身份认证矢量提取器 获取所述语音输入的身份认证矢量;
[0023] 步骤S120:根据所述身份认证矢量,调用预先训练得到的每个用户类别对应的参 考认证矢量,判断所述用户所属的用户类别;
[0024] 步骤S130:根据所述用户所属的所述用户类别为用户推荐相应的服务。
[0025] 具体的,在步骤S110中,所述身份认证矢量用于判断用户的特征属性,所述特征属 性可W包括用户的性别、所处年龄段等。所述身份认证矢量即i-vector,将输入的高维特征 向量映射到一个低维的特征空间中,同时保留输入特征绝大部分相关信息。
[0026] 具体的,在步骤S120中,所述用户类别是根据用户的特征属性进行划分的,例如用 户的年龄、用户的性别等等。其分类目的主要考虑到不同性别不同年龄用户对推荐服务的 需求不同。
[0027] 本步骤中,根据用户的所述身份认证矢量判断用户所属的用户类别主要方法是, 计算所述身份认证矢量与每个用户类别对应的所述参考认证矢量之间的余弦距离,将最大 值余弦距离对应的参考认证矢量对应的用户类别作为所述用户所属的用户类别。
[0028] 其中,所述参考认证矢量是预先根据每种用户类别所属的混合高斯模型提取得到 的,具体提取方法将由实施例二进一步进行介绍。在本步骤中,分别计算上一步骤中提取到 的所述身份认证矢量与每个用户类别对应的参考认证矢量的余弦距离。具体计算公式如 下:
[0029]
[0030] 其中,Wi为每种用户分类对应的所述参考认证矢量,W'l为所述身份认证矢量,i表 示i-vector向量的维数,ie[l,n]。
[0031] 本步骤中,对于每一个用户分类,所述身份认证矢量都将与之计算一次余弦距离, 将对大余弦距离值对应的参考认证矢量对应的分类作为用户所属的用户分类。
[0032] 具体的,在步骤S130中,由上一步骤的计算结果,得到了用户的分类,本步骤中将 根据后台配置为用户推荐适合其分类特征的服务。
[0033] 例如,在智能电视的应用中,预先根据用户的年龄段W及性别配置相应的分类推 荐,可W为儿童推荐益智类的小游戏、流行的动画片、在线教学等服务;为青少年女性推荐 偶像剧或者时尚类节目,老年人推荐戏剧、养生节目等等。
[0034] 当检测到用户的语音输入时,首先根据用户的语音输入判断用户的性别W及年龄 段分层,其次可W根据判断的结果为用户推荐符合用户特征的节目。
[0035] 本实施例中,通过提取用户语音输入的身份认证矢量,并根据所述身份认证矢量 对用户进行分类,根据用户的分类结果为用户提供个性化的服务推荐,改变了现有技术中 进行服务推荐时,不分用户属性特征,提供千篇一律推荐结果对用户造成的糟糕的用户体 验。
[0036] 图2是本申请实施例二的技术流程图,结合图2,本申请实施例中,的参考认证矢量 可由如下步骤获取:
[0037] 步骤S210:采集混合语音训练样本,提取所述混合语音训练样本的语音特征;
[0038] 步骤S220:根据所述语音特征训练得到适用于所有用户类别的通用混合高斯模 型;
[0039] 步骤S230:对所述混合语音训练样本进行分类得到不同的用户类别;
[0040] 步骤S240:使用不同的所述用户类别的语音样本,采用最大后验概率法,对所述通 用混合高斯模型的均值做自适应更新,得到不同的所述用户类别对应的混合高斯模型。
[0041] 步骤S250:根据不同的所述用户类别对应的混合高斯模型获取所述身份认证矢量 提取器T矩阵W及每一用户类别的参考认证矢量W。
[0042] 具体的,在步骤S210中,收集不同年龄段的音频数据用来进行语音特征的提取从 而训练语音模型。在智能电视运一应用中,可W将年龄段具体地划分为0~6岁为儿童,6~ 13岁为少年,13~17岁为青少年男、女,18岁W后为成年男、女类别。
[0043] 在语音识别(Speech Recognition)和话者识别(Speaker Recognition)方面,最 常用到的语音特征是梅尔倒谱系数(Mel-scale Rrequency C邱stral Coefficients,简称 MFCC),MFCC特征包含了年龄段识别的重要信息。
[0044] MFCC提取过程主要经历W下几个步骤:
[0045] 首先,对输入的语音信号进行前端处理,包括对语音信号进行预加重(Pre? emphasis) 和加窗、分帖处理。假设语音信号的采样值表示为 s(n),n 表示第 η 个采样点。信号 预加重的公式表示为:
[0046] spe(n) = s(n)-a*s(n-l)
[0047] 其中,α表示为预加重系数,一般取a = 0.97,spe(n)为预加重后的语音信号。
[0048] 所述加窗是指对预加重信号乘W窗函数,并设定每个窗口内的采样点数N(分帖), 具体如W下公式所示:
[0049]
[0050] 其中,sw(n)表示加窗W后的信号,N表示每一帖的采样点数。
[0051] 第二,对分帖W后的信号进行离散傅里叶变换(FFT);
[0052] 第Ξ,对傅里叶变换W后的频谱进行梅尔频带分析;
[0053] 具体的,首先,采用如下公式将频率尺度转换为梅尔尺度:
[0054] Mel(f)=25951og(l+f/700)
[0055] 其次,在梅尔频率轴上配置L个通道的Ξ角滤波器并对FFT变化得到的频谱进行滤 波。L的个数由信号的截止频率决定。每一个Ξ角滤波器的中屯、频率c(l)在mel频率轴上等 间隔分配。相邻Ξ角滤波器之间的下限、中屯、、上限频率相等。经过梅尔滤波器W后,可W得 到每个梅尔频带内的能量值。
[0056] 第四,对梅尔滤波W后的能量进行对数非线性变换;
[0057] 最后,对每个对数能量进行离散余弦变换DCT,保留DCT变换W后得到19个较大的 系数,其余系数去除。
[005引经过上述过程,就可W得到19维的MFCC特征,加上每帖信号的能量特征,最终得到 20维的MFCC原始特征。
[0059] 提取每帖音频数据原始的MFCC特征是20维的,通过计算一阶差分MFCC(20维)和二 阶差分MFCC(20维),得到60维的MFCC特征。一阶差分的计算公式如下:
[0060] X'[η] =χ[η]-χ[η-1]
[0061] 二阶差分计算公式:
[0062] X'[η] =χ'[η]-χ'[η-1]
[0063] 当计算的是MFCC特征的差分运算时,X [ η ]表示每帖音频的MFCC特征,η表示第η帖 音频,其中x[n]表示的维数不定,可根据用户提取的相关特征维数确定。计算二阶差分是在 一阶差分的基础上运行的,二阶差分公式中X'[η]表示第η帖计算得到的一阶差分值。
[0064] 具体的,在步骤S220中,由于不同年龄段音频数据量较少,因此,本申请实施例中 采用UBM-GMM方案获取不同年龄段类别的GMM模型,其中UBM,即加 iversal Background Model,一个通用的混合高斯模型,GMM,即Gaussian MixUire Model),混合高斯模型。利用 上一步骤中提取到的所有不同类别音频的MFCC特征,训练得到一个包含不区分年龄段和性 别信息的通用高斯混合模型UBM,在本实施例中,作为经验值,混合高斯的数目取值512个, 效果佳。
[0065] 具体的,在步骤S230中,将步骤S210中采集到的混合语音训练样本进行分类,分类 原则是用户的属性特征,包括年龄性别等。本实施例中,将所述混合语音训练样本分为六种 不同类别,即儿童、少年、青少年男,青少年女、成年男、成年女六类。当然,需要说明的是,步 骤S210和步骤S230在实际执行时,并无严格的先后顺序,可W在预先按照不同用户分类采 集语音训练样本,再将不同类别的样本混合进行通用混合高斯模型的训练。
[0066] 具体的,在步骤S240中,得到UBM模型W后,分别使用不同类别的语音特征数据,在 UBM模型的基础上,按照最大后验概率准则MAP(maximum a posterior),分别得到各自类别 的GMM模型。其中,在UBM模型的自适应过程中,只对模型均值进行自适应,权重和方差不做 改变,如下述公式所示。
[0067]
[0068] 其中,表示第i个高斯自适应时的权重系数,该值影响自适应均值的大小,μι表 示自适应前的GMM均值,A是在UBM模型基础上自适应出的GMM高斯均值向量,向量X表示提 取的语音特征,Ei(x)是特征向量X在UBM模型上的均值表示,是计算自适应均值向量A前需 计算的一部分。计算特征值在UBM模型第i个高斯的概率值公式如下
[0069]
[0070] xt表示第t帖语音特征,町表示UBM模型中第j个高斯的权重,pi(xt)表示特征xt在第 j个高斯上的概率值。
[0071 ]其中,Ei(x)的计算公式如下:
[0074]由此,计算得到A之后便得到了不同用户分类的自适应GMM模型。
[00巧]具体的,在步骤S250中,使用总变因子TV(total variability)建模技术,假设GMM 均值超向量U可W表示成如下式子:
[0076] y=m+Tw
[0077] 其中,U表示具体某类GMM模型的均值超向量,m表示UBM模型提取的均值超向量,矩 阵T表示了一个低维的总变向量子空间,Tw描述了不同类别模型均值向量的偏置情况。将W 向量称为i-vector,并且符合标准的正态分布,T表示一个低秩矩阵,并通过矩阵分解进行 估计。在UBM-GMM系统的基础上,进一步使用i-vector技术,不仅能够克服语音样本采集时 的信道干扰,而且能够尽量避免同一年龄段不同说话人个体之间的差异性干扰。
[0078] 为提取每段音频的i-vector W特征,需要训练得到低秩映射矩阵T。基于最大似然 准则的TV训练过程如下:
[0079] i-vector提取器的参数为T,表示为Λ,语音特征的参数MFCC表示为向量0。
[0080] 优化目标函数表示为:maxP( Λ |〇),依据梯度下降准则参数求偏导优化得:
[0081]
[0082] 通过Bayes公式推导,最终得到i-vector提取器矩阵Τ的迭代公式如下
[0083]
[0084] i-vector w参数的迭代公式如下:
[00 化]E(wh(s))=Ah(s)
[0086] E(wh(s)wh(s)T) =Ah(s)Ah(s)T+Lh(s)
[0087] 其中,s表示不同类别年龄段的数目,h表示每个类别中训练语句的个数,t表示帖 数。
[008引 其中,
[0094] 通过上述迭代过程,就可W得到不同用户分类对应的i-vector向量W,即每个用户 分类对应的参考认证矢量,同时得到i-vector提取器矩阵T。
[0095] 本实施例中,根据用户的属性特征对用户进行分类,并根据语音训练样本训练得 到每种用户分类的语音模型,从而根据语音模型获得每种用户分类的参考认证矢量W及身 份认证矢量提取器。当输入一段语音音频时,首先利用身份认证矢量提取器提取得到运段 音频的i-vector向量,然后分别计算所述i-vector向量与不同用户分类对应的i-vector向 量之间的余弦距离即可判断输入音频的最终判别类别,并将该结果反馈给推荐端,根据用 户的类别为用户推荐相应服务,进一步缩小了服务推荐的粒度,提升了用户体验。
[0096] 图3是本申请实施例Ξ的装置结构示意图,结合图3,本申请实施例一种基于语音 的服务推荐装置,包括如下的模块:
[0097] 参数提取模块310,用于接收到用户发出的语音输入时,调用预先训练的身份认证 矢量提取器获取所述语音输入的身份认证矢量;
[0098] 判断模块320,用于根据所述身份认证矢量,调用预先训练得到的每个用户类别对 应的参考认证矢量,判断所述用户所属的用户类别;
[0099] 推荐模块330,用于根据所述用户所属的所述用户类别为用户推荐相应的服务。
[0100] 其中,所述判断模块320具体用于:计算所述身份认证矢量与每个用户类别对应的 所述参考认证矢量之间的余弦距离,将最大值余弦距离对应的参考认证矢量对应的用户类 别作为所述用户所属的用户类别。
[0101] 其中,所述装置还包括训练模块340,所述训练模块340用于,采用如下步骤训练所 述身份认证矢量提取器:
[0102] 根据总变因子建模技术,假设y=m+Tw,其中,μ为每一用户类别的混合高斯模型的 均值超向量,m为所有用户类别的通用混合高斯模型的均值超向量,矩阵Τ为所述身份认证 矢量提取器,W为每一用户类别的参考认证矢量;采用最大似然估计法计算每一所述用户类 别的所述参考认证矢量并获取所述身份认证矢量提取器矩阵T。
[0103] 其中,所述训练模块340用于,采用如下步骤训练所述每一用户类别的混合高斯模 型:采集混合语音训练样本,提取所述混合语音训练样本的语音特征;根据所述语音特征训 练得到适用于所有用户类别的通用混合高斯模型;对所述混合语音训练样本进行分类得到 不同的用户类别;使用不同的所述用户类别的语音样本,采用最大后验概率法,对所述通用 混合高斯模型的均值做自适应更新,得到不同的所述用户类别对应的混合高斯模型。
[0104] 图3所示装置可W执行图及图2所示实施例的方法,实现原理和技术效果参考 图1W及图2所示实施例,不再寶述。
[0105] 应用实例
[0106] 在一种应用场景中,本申请实施例的一种基于语音的服务推荐功能内置于智能电 视中。用户通过向电视发出语音指令来观看节目并使用智能电视的其他服务。电视中预先 保存有不同用户属性的参考认证矢量,例如,儿童的参考认证矢量、成人男性的参考认证矢 量、成人女性的参考认证矢量、老年男性的参考认证矢量W及老年女性的参考认证矢量等 共五种类型的参考认证矢量。
[0107] 当用户向电视发出开启指令时,电视采集用户的语音输入,并提取用户语音输入 的身份认证矢量。之后,电视根据预先保存的五种类型的参考认证矢量,分别计算用户输入 语音的身份认证矢量与五种参考认证矢量之间的余弦距离,将得到的最大余弦值对应的参 考认证矢量对应的分类类别作为用户的属性分类。
[0108] 当判定用户是儿童时,为儿童推荐热口动画片或者少儿益智类节目;当判定用户 是成年男性时,可为用户推荐各类热口体育比赛等。
[0109] W上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可 W是或者也可W不是物理上分开的,作为单元显示的部件可W是或者也可W不是物理单 元,即可W位于一个地方,或者也可W分布到多个网络单元上。可W根据实际的需要选择其 中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性 的劳动的情况下,即可W理解并实施。
[0110] 通过W上的实施方式的描述,本领域的技术人员可W清楚地了解到各实施方式可 借助软件加必需的通用硬件平台的方式来实现,当然也可W通过硬件。基于运样的理解,上 述技术方案本质上或者说对现有技术做出贡献的部分可软件产品的形式体现出来,该 计算机软件产品可W存储在计算机可读存储介质中,如R0M/RAM、磁碟、光盘等,包括若干指 令用W使得一台计算机装置(可W是个人计算机,服务器,或者网络装置等)执行各个实施 例或者实施例的某些部分所述的方法。
[0111] 最后应说明的是:W上实施例仅用W说明本发明的技术方案,而非对其限制;尽管 参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可 W对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换; 而运些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和 范围。
【主权项】
1. 一种基于语音的服务推荐方法,其特征在于,包括如下的步骤: 接收到用户发出的语音输入时,调用预先训练的身份认证矢量提取器获取所述语音输 入的身份认证矢量; 根据所述身份认证矢量,调用预先训练得到的每个用户类别对应的参考认证矢量,判 断所述用户所属的用户类别; 根据所述用户所属的所述用户类别为用户推荐相应的服务。2. 根据权利要求1所述的方法,其特征在于,判断所述用户所属的用户类别,具体包括: 计算所述身份认证矢量与每个用户类别对应的所述参考认证矢量之间的余弦距离,将 最大值余弦距离对应的参考认证矢量对应的用户类别作为所述用户所属的用户类别。3. 根据权利要求2所述的方法,其特征在于,所述方法还包括,采用如下步骤训练所述 身份认证矢量提取器: 根据总变因子建模技术,假设y=m+Tw,其中,μ为每一用户类别的混合高斯模型的均值 超向量,m为所有用户类别的通用混合高斯模型的均值超向量,矩阵Τ为所述身份认证矢量 提取器,w为每一用户类别的参考认证矢量; 采用最大似然估计法计算每一所述用户类别的所述参考认证矢量并获取所述身份认 证矢量提取器矩阵T。4. 根据权利要求3所述的方法,其特征在于,采用如下步骤训练所述每一用户类别的混 合高斯模型: 采集混合语音训练样本,提取所述混合语音训练样本的语音特征; 根据所述语音特征训练得到适用于所有用户类别的通用混合高斯模型; 对所述混合语音训练样本进行分类得到不同的用户类别; 使用不同的所述用户类别的语音样本,采用最大后验概率法,对所述通用混合高斯模 型的均值做自适应更新,得到不同的所述用户类别对应的混合高斯模型。5. 根据权利要求1所述的方法,其特征在于,所述用户类别,具体包括: 预先根据用户所处年龄段对所述用户进行分类得到所述用户类别;和/或,预先根据用 户的性别对所述用户进行分类得到所述用户类别。6. -种基于语音的服务推荐装置,其特征在于,包括如下的模块: 参数提取模块,用于接收到用户发出的语音输入时,调用预先训练的身份认证矢量提 取器获取所述语音输入的身份认证矢量; 判断模块,用于根据所述身份认证矢量,调用预先训练得到的每个用户类别对应的参 考认证矢量,判断所述用户所属的用户类别; 推荐模块,用于根据所述用户所属的所述用户类别为用户推荐相应的服务。7. 根据权利要求6所述的装置,其特征在于,所述判断模块具体用于: 计算所述身份认证矢量与每个用户类别对应的所述参考认证矢量之间的余弦距离,将 最大值余弦距离对应的参考认证矢量对应的用户类别作为所述用户所属的用户类别。8. 根据权利要求7所述的装置,其特征在于,所述装置还包括训练模块,所述训练模块 用于,采用如下步骤训练所述身份认证矢量提取器: 根据总变因子建模技术,假设y=m+Tw,其中,μ为每一用户类别的混合高斯模型的均值 超向量,m为所有用户类别的通用混合高斯模型的均值超向量,矩阵Τ为所述身份认证矢量 提取器,W为每一用户类别的参考认证矢量; 采用最大似然估计法计算每一所述用户类别的所述参考认证矢量并获取所述身份认 证矢量提取器矩阵T。9. 根据权利要求8所述的装置,其特征在于,所述训练模块用于,采用如下步骤训练所 述每一用户类别的混合高斯模型: 采集混合语音训练样本,提取所述混合语音训练样本的语音特征; 根据所述语音特征训练得到适用于所有用户类别的通用混合高斯模型; 对所述混合语音训练样本进行分类得到不同的用户类别; 使用不同的所述用户类别的语音样本,采用最大后验概率法,对所述通用混合高斯模 型的均值做自适应更新,得到不同的所述用户类别对应的混合高斯模型。10. 根据权利要求6所述的装置,其特征在于,所述用户类别,具体包括: 预先根据用户所处年龄段对所述用户进行分类得到所述用户类别;和/或,预先根据用 户的性别对所述用户进行分类得到所述用户类别。
【文档编号】H04N21/466GK105872792SQ201610180268
【公开日】2016年8月17日
【申请日】2016年3月25日
【发明人】闫志勇
【申请人】乐视控股(北京)有限公司, 乐视致新电子科技(天津)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1