语音质量评估方法和系统的制作方法

文档序号:2830102阅读:319来源:国知局
专利名称:语音质量评估方法和系统的制作方法
技术领域
本发明涉及语音质量评估。
技术背景随着现代电信网络正变得越来越复杂,并从电路交换网络演变到基于分组的网络,诸如基于互联网协议的话音(VoIP),遇到新型的影 响感知的语音质量的失真。因此,保持和改进服务网络(in-service network)的服务质量(QoS)—直是重要的问题。在当前的技术中,主观 语音质量评估是最可靠的和通常接受的用于估计语音质量的方法。在 主观语音质量评估中,收听人被使用来评价所处理的语音的语音质量, 其中处理的语音是在接收机处被处理,例如被译码的,传送的语音信 号。这个技术是主观的,原因在于它是基于各个人的感觉。然而,由 于为了得到统计上可靠的结果,需要足够大数目的语音样本和收听人, 所以主观语音质量评估是昂贵和费时的技术。这些主观结果,例如评 定语音质量为1到5的标度,被平均以得到平均意见分数(MOS)。客观语音质量评估是用于评估语音质量的另一个技术。不像主观 语音质量评估,客观语音质量评估不是基于各个人的感觉。客观语音 质量评估可以是两种类型之一。第一种类型的客观语音质量评估是基 于已知的源语音,常常被称为侵入评估。在这种第一种类型的客观语 音质量评估中,例如,移动站发送从已知的源语音得到的,例如编码 的,语音信号。发送的语音信号被接收、处理和随后被记录。通过使 用诸如语音质量感知评价(PESQ)那样的熟知的语音估计技术把记录 的处理后的语音信号与已知的源语音进行比较,以确定语音质量。如 果源语音信号不是已知的或发送的语音信号不是从已知的源语音得到 的,则不能利用这种第一种类型的客观语音质量评估。第二种类型的客观语音质量评估不是基于已知的源语音,被称为 非侵入的、单端的或基于输出的。这种第二种类型的客观语音质量评 估的大多数实施例牵涉到根据处理的语音估计源语音,然后通过使用 熟知的语音估计技术把估计的源语音与处理的语音进行比较。非侵入 方法在实际的应用中具有很大的潜力,例如,监视服务网络的语音质 量,其中源语音信号是不可得到的。曾试图通过测量退化的语音信号 的特征向量与从非退化的源语音数据库得到的码字组的偏差或通过将对于电信网络失真敏感的声道模型(vocal tract model)参数化而构建非 侵入测量系统。最近在ITU-T中,创建了被称为P.SEAM(单端评估模 型)的标准化活动,以把用于语音质量的非侵入估计的算法标准化。提 出了几种模型,其中的一种模型被采纳为标准推荐书P.563。然而, ITUT P.563显示非常有限的性能,即使对于在模型的开发中使用的已 知的MOS数据-对于24次MOS测试,主观与客观分数之间的约0.88相 关值的平均值。发明内容本发明提供客观语音质量评估。在一个实施例中,通过使用根据主观质量评估数据被训练的至少 一个模型来估计在接收的语音信号中的失真。然后根据估计的失真确 定接收的语音信号的语音质量评估。例如,估计步骤可包括通过使用根据主观质量评估数据被训练的 第一模型来估计在接收的语音信号中的语音失真。估计步骤还可包括 通过使用根据主观质量评估数据被训练的第 一模型来估计在接收的语 音信号中的背景噪声失真。第 一模型可以给在语音信号中的失真的主观确定建模。估计步骤还可包括通过使用根据主观质量评估数据被训练的第 二模型来估计在接收的语音信号中由于静默造成的失真。在本发明的另一个实施例中,用于语音质量评估的设备包括至少 一个估值器,用于通过使用根据主观质量评估数据被训练的至少一个模型来估计在接收的语音信号中的失真;以及映射单元,把估计的失 真映射到语音质量度量值。本发明的再一个实施例提供用于估计帧失真的方法。在这个实施 例中,通过使用根据主观质量评估数据被训练的模型来估计在接收信 号中的语音失真,以及通过使用根据主观质量评估数据被训练的模型 来估计在接收信号中的背景噪声失真。估计的语音失真和估计的背景 噪声失真被组合以得到帧失真估值。本发明的另一个实施例提供用于估计静默失真的方法。在这个实 施例中,在接收的语音信号中的静默被检测,以及通过使用根据主观 质量评估数据被训练的模型来估计由检测的静默造成的失真。本发明还提供训练质量评估系统的方法。在实施例中,该方法包 括训练系统的第 一失真估计路径,同时通过使用第 一主观质量评估数 据来排除来自系统的第二失真估计路径的影响。第一主观质量评估数 据包括第一语音信号和第一相关的主观质量度量值,以及第一语音信 号缺乏静默失真。然后,系统的第二失真估计路径通过使用第二主观 质量评估数据被训练。第二主观质量评估数据包括第二语音信号和第 二相关的主观质量度量值,以及第二语音信号包括静默失真。通过使 用第一和第二质量评估数据重新训练第一失真路径,同时所述第一失 真路径包括第二失真路径的影响。


通过这里在下面给出的详细说明和仅仅作为说明给出的附图,将 更全面地了解本发明,图上相同的标号表示在各个图上的相应部件, 其中图l显示按照本发明的实施例的语音质量评估系统的框图。 图2显示估计的客观失真对由查找表代表的MOS的曲线。 图3显示按照本发明的实施例的、在发音分析单元中利用的语音 质量评估装置。图4显示按照本发明的一个实施例的、用于在图3的发音分析模块中处理多个包络a"t)的流程图。图5显示以功率对频率表示的调制频镨Ai(m,f)的例子。图6显示诸如在图1的帧失真估值器中使用的多层感知的例子。图7显示话音活动随时间的分布的示意性例子。图8A-8C显示图1的帧失真估值器和静默失真估值器的训练。
具体实施方式
图l显示按照本发明的实施例的语音质量评估系统的框图。如图 所示,滤波器10对于语音信号x(n)执行电平归一化和修改后的接收中 间参考系统(receive intermediate reference system, RX-IRS)滤波。滤 波器10通过使用熟知的P.56语音电压表把语音信号x(n)归一化到 -26dBov。然后,由滤波器10应用反映在主观列表测试中使用的手机的 特性的熟知的RX-IRS滤波。因为归一化和RX-IRS滤波是熟知的,所 以对这些操作不作详细描述。归一化和滤波后的语音信号经受由发音分析单元12进行的发音 分析。发音分析单元12生成特征向量,每个特征向量包括平均发音 功率分量,其反映与自然的人的语音有关的信号分量;和平均非发音 功率分量,其反映以超出人的发音系统的速度的速率产生的在感觉上 令人讨厌的失真。然后,帧失真估值器14根据每个帧m的特征向量, 估计每个帧m的语音失真和背景噪声失真。帧失真估值器14积累多个 帧的语音和背景失真,并归一化积累的语音和背景失真,以产生帧失 真。下面将详细地描述帧失真估值器14的操作。来自滤波器10的滤波后的语音信号还被提供给静默检测单元16。 静默检测单元16检测静默,其是例如由于分组丢失而造成的非预期的 和不想要的暂停。更具体地,静默检测单元16检测在时间上静默的位 置和静默的长度(也称为深度)。下面将详细地描述静默检测单元16的 操作。静默失真估值器18接收来自静默检测单元16的信息,并估计由于 静默造成的感知的失真(此后称为"静默失真")。下面将详细地描述静默失真估值器18的操作。组合器20组合帧和静默失真估值,以产生客观失真估值。映射单 元22把客观失真估值映射到有价值的相应的主观语音质量数字,诸如 MOS。例如,映射单元22可以存储用于把客观失真估值变换成MOS 的查找表。对于处在查找表中的失真估值点之间的值,可以执行内插, 以得到MOS。图2显示估计的客观失真对由查找表代表的MOS的曲线。 作为替换例,映射单元22可以存储表征图2中的曲线的方程和把估计的 客观失真作为输入应用到该方程,以得到作为结果的MOS。例如,对 于图2, MOS值Qx可以等于(-3.5x客观失真估值+4.5),这样,最大的 MOS是4.5,以及最小的MOS是l.O。接着,将描述发音分析单元12、帧失真估值器14、静默检测单 元16和静默失真估值器18的操作。发音分析单元图3显示按照本发明的实施例的、在图l的发音分析单元中利用的 语音质量评估装置。语音质量评估装置包括蜗形滤波器组2、包络分析 模块4和发音分析模块6。在语音质量评估装置中,归一化和RX-IRS 滤波后的语音信号s(t)作为输入被提供到蜗形滤波器组2。蜗形滤波器 组2包括多个蜗形滤波器hi(t),用于按照外围听觉系统的第 一级来处理 语音信号s(t),其中i-l,2,…,N代表特定的蜗形滤波器信道,以及Nc表 示蜗形滤波器信道的总数。具体地,蜗形滤波器组2对语音信号s(t)进行滤波,产生多个临界频带信号Si(t),其中临界频带信号Si(t)等于s(t"h州。多个临界频带信号Si(t)作为输入被提供到包络分析模块4。在包络分析模块4中,多个临界频带信号Si(t)被处理,以得到多个包络3i(t),其中<formula>formula see original document page 8</formula>和<formula>formula see original document page 8</formula>是Si(t)的Hilbert变换。然后多个包络ai(t)作为输入被提供到发音分析模块6。在发音分析 模块6中,多个包络a"t)被处理,以得到对于语音信号s(t)的语音质量评 估。具体地,发音分析模块6根据与从人发音系统生成的信号有关的功 率(此后称为"发音功率PA(m,i),,)和与不是从人发音系统生成的信号有关的功率(此后称为"非发音功率PNA(m,i),,),生成特征向量。图4显示按照本发明的一个实施例的、用于在发音分析模块6中处 理多个包络aKt)的流程图200。在步骤210,对于多个包络ai(t)的每个包 络的帧m执行傅立叶变换,以产生调制频镨Ai(m,t),其中f是频率。图5显示以功率对频率表示的调制频i脊Ai(m,f)的例子。如图所示, 发音功率PA(m,i)是与频率2-30Hz有关的功率,而非发音功率PNA(m,i) 是与大于30Hz的频率有关的功率。与小于2Hz的频率有关的功率 PN。(m,i)是临界频带信号ai(t)的帧m的直流分量。在本例中,根据人的 发音的速度是2-30Hz的事实选择发音功率PA(m,i)为与频率2-30Hz有 关的功率,并且与发音功率PA(m,i)和非发音功率PNA(m,i)有关的频率 范围(以后分别称为"发音频率范围"和"非发音频率范围,,)是相邻的、 非重叠的频率范围。应当看到,对于本申请,术语"发音功率PA(m,i)" 不应当限于人的发音的频率范围或上述的频率范围2-30Hz。同样地。 术语"非发音功率PNA(m,i)"不应当限于大于与发音功率PA(m,i)有关的 频率范围的频率范围。非发音频率范围可以与发音的频率范围重叠或 相邻或可以不与发音的频率范围重叠或相邻。非发音频率范围也可以 包括小于在发音频率范围中的最低频率的频率,诸如,与临界频带信 号ai(t)的帧m的直流分量有关的那些频率。 然后特征向量"(m)被定义为《(m)+^(m),^,"/n)] (1) 其中 l^(m)-一ix(/n,/) (2)是反映与自然的人的语音有关的信号分量的平均发音功率,以及^,w(附)、"、—,£ P似(附") (3)L/v W —、 +1是代表以超过人的发音系统的速度的速率产生的在感觉上令人 烦恼的失真的平均非发音功率。为了覆盖相应于人的发音系统的移动 速度的2-30Hz的频率范围,在公式(2)和(3)中的LA例如被设置为4。为了计算平均非发音功率^^m),从第(LA+l)直到第LN(k)频带的调制频 带功率被认为是在公式(3)中看到的那个。这意味着,对于不同的临界 频带选择不同的在估计非发音功率时的最高调制频率(应当指出,LN 是k的函数)。这样做的理由是基于由Ghitza对于临界频带包络检测器 的上部截止频率执行的研究。在他的心理物理实验中,表明在给定的 听觉信道中,对于保留语音质量所需要的包络信息的最小带宽大约是 该信道的临界带宽的一半。这表示,仅仅高达临界带宽的一半的调制 频率分量是与语音质量的感知有关的。因此,LN(k)被确定为使得在计 算^AKm)时考虑的调制滤波器信道接近覆盖高达临界带宽的一半。 帧失真估值器帧失真估值器14从发音分析单元12接收每个帧m的特征向量 gk(m)。通过使用每个帧m的特征向量作为加到神经网络的输入;例如 多层感知,形成帧失真估值器14的一部分,每个帧的客观失真通过多 层感知被估计。图6显示诸如在帧失真估值器14中使用的多层感知的例 子。对于第m帧的输入向量gk(m)的多层感知的输出O(m)被表示为J' A; (4)其中Wjk和Wj分别是输入和隐藏层的连接权因子,以及g(x)是非线 性S形函数。语音的第m帧失真Ds(m)随时间进行积累,然后用语音帧 的总数Ts进行归一化,以得出语音失真Ds。由于背景噪声也影响感知 的语音质量,帧失真Dv用语音失真Ds与背景噪声失真Db的和(还被积累 和用背景噪声或非发音帧Tb的总数进行归 一化)被建模,被表示为<formula>formula see original document page 10</formula>(5)其中Pb(m)是第m帧的信号的能量,P化是可听见的背景噪声的阈 值,以及Ts和Tb分别是语音和背景噪声的帧的数目。正如将会看到的那样,因为帧失真估值器14是神经网络,在本实施例中是多层感知,神经网络被训练成产生〉有意义的输出。帧失真估值器14的训练在下面详细地描迷。 静默检测单元现代电信网络正变得越来越复杂。除了现有的传统的公共交换电 话网(PSTN)以外,诸如全球移动通信系统(GSM)、码分多址(CDMA)、 通用移动电信系统(UMTS)和基于互联网协议的话音(VoIP)那样的各 种类型的网络被广泛使用于日常生活中或正准备部署在全球。由于电 话网络正从电路交换网络演进到分组网络(特别是对于VoIP),分组丢 失和延时抖动是使传送的语音质量恶化的重要失真类型。这些失真类 型常常在语音信号中产生不想要的静默。在静默检测单元16中,帧对数功率每4毫秒被计算为其中s(l;n)是s(n)的第l帧信号,它是滤波器10的输出,以及hw(n) 是长度为64(=8毫秒,对于8kHz釆样速率)的Hamming窗。e(l)的时间 导数被得到为话音活动分布通过使用e(l)的数值被生成。图7显示话音活动随时 间的分布的示意性例子。如图所示,Vi是话音活动的持续时间,Gw,i 是在两个相邻的话音活动V w与V j之间的间隙。如果满足以下的条件,则位于Vj的末端的帧lM被识别为异常的突然停止厶e(〖w)〈Ae加,一7 阁 A啤"聊"m )) ^- 0.55其中丄鄉(Z考(/M))是对于异常停止的神经网络检测器的输出,其 中Zst。p(/M)作为在两个时刻,即时刻/w和在/M之前15毫秒,处提取的输入特征向量。对于每个时间帧,第12阶Mel频标倒^潜系数(Mel Frequency Cepstrum Coefficient, MFCC)和话音因子通过30 ms的分 析长度而得到,以产生输入特征向量Zst。p(lM)26的维数(dimension)。话e(/) = 101og J>2(Z;")/^(rt) + l , (6)音因子表示语音分段可以包含多少周期分量,并被定义为在50-400Hz 的音高(pitch)周期范围(其相应于时间样本中的20-160)内的归 一化的 自相关值v= max — \ -1 (9).神经网络检测器是在训练数据库上训练的多层感知,正如下面详 细地讨论的那样。如果满足以下的条件,则位于Vi的开始端的帧/M被识别为异常的突然开始厶《)> =13 U;(〖m))",—=0.55其中^"w(Z^(/一)是对于异常开始的神经网络检测器的输出,其 中&aw(/w)是在两个时刻,即时刻&和在/M之后15亳秒,处提取的输入特征向量。对于每个时间帧,第12阶Mel频标倒谱系数(MFCC)、在(9) 中定义的话音因子和频i脊质心通过30 ms的分析长度而得到。频谱质心 被定义为,VI其中lx(k)l是语音分段的FFT幅度。用于异常停止和开始的神经 网络检测器每个都可以是多层感知。例如,用于突然停止的神经网络 可以具有26个输入神经元,至少一个隐藏层和一个输出神经元。这个 网络被训练成当有突然停止时产生"l,,作为输出,否则产生"0"。可以 使用诸如利用误差成本函数的梯度的传统误差后向传播算法那样的任 何熟知的训练算法。用于突然开始的神经网络可以以相同的方式被构 建和训练成对于突然开始产生"l,否则产生"0"。静默失真估值器最近的实验还揭示,人可以不断地随时评估语音质量,以及在感 知的总体质量方面有某些近因效应(recency effect)。即,失真(例如, 不想要的静默)越近,对于语音质量的影响越大。这涉及到生物短期记 忆,并意味着,新近的事件比起过去的事件可以起更大的作用。虽然没有已知的机制,但按照本发明的实施例的模型将静默的影响建模为 突然的瞬时失真后面跟随模拟短期记忆效果的衰减的组合。因此,正 如下面显示的那样,除了考虑静默和它的持续时间以外,静默失真估
值器18也考虑在估计静默失真中近因效应。
假设语音信号包含K个静默,以及ti, i-l,2,…,M是当每个静默结束 时的时刻。由静默造成的客观失真由静默失真估值器18建模为
<formula>formula see original document page 13</formula>
其中u(x)是单位阶跃函数,它是l,对于x二0,和它是0,对于x〈0; hj是在时间ti时第i个静默的瞬时失真;T是语音信号的时间长度;以及
T是静默事件的影响随时间的衰减的时间常数。对于每个静默,感觉的
失真在静默事件的结束时上升hi的量,并且按时间常数T随时间衰减。 即,如公式(12)表示的,静默事件越迟,对估计的静默失真DM的影响 越大。
第i个静默的瞬时失真hi通过下式计算 hi = pilog(Li) + p2 (13)
其中Li是第i个静默的长度,以及pl和p2是由训练数据确定的常 数,如在下面详细地描述的那样。
训练帧失真估值器和静默失真估值器
图8A-8C显示帧失真估值器14和静默失真估值器18的训练。图8A 显示其中帧失真估值器14被初始训练的训练过程中的第一步骤。因此, 为了清晰起见,没有显示图1上没有参加这个训练过程的元件(例如, 静默检测单元16、静默失真估值器18、组合器20和映射单元22)。如图 所示,提供了数据库24。数据库24包括多个语音信号和以熟知的方式 确定的它们的相关的主观MOS。在数据库24中的语音信号可包含失 真,但不包含时间不连续性(例如,静默)失真。
在数据库中的每个语音信号(或至少它们的子集)被提供到滤波器 10。相应的主观MOS被提供到逆映射单元30,它把MOS变换成主观失真。逆映射单元30的变换操作是由映射单元22执行的变换操作的相反
操作。因此,逆映射单元30通过使用查找表、公式等等执行该变换。
例如,参照图2,逆映射公式可以是主观失真等于-(min(MOS(p),
4.5)-4.5)/3.5,其中MOS^是在数据库中的第p个语音信号的MOS。
滤波器IO、发音分析单元12和帧失真估值器14按以上参照图1讨
论的方式操作,除了帧失真估值器14的权因子Wj和Wjk初始地被设置为
非常小的随机数以外。误差生成器32接收帧失真估值和来自逆映射单
元30的主观失真,以及生成误差信号。更具体地,在一个实施例中,
误差生成器32从主观失真中减去帧失真估值,以生成误差信号。
帧失真估值器14通过使得由以下的失真模型iv产生的、在主观失
真Dsbj与客观帧失真估值DvW之间的在整个训练样本上累加的平方差 最小化而被训练<formula>formula see original document page 14</formula>
其中上标(p)表示第p个语音信号。在(14)中要被最小化的成本函 数可以通过使用(5)被表示为
<formula>formula see original document page 14</formula>取梯度下降法则(gradient descent rule)在第t步骤给出更新法
则为<formula>formula see original document page 14</formula><formula>formula see original document page 15</formula>并且权因子被更新为
<formula>formula see original document page 15</formula>其中
c(P)(m) - a(P(P)(m) - Pth) + p<formula>formula see original document page 16</formula>
直至成本函数(15)达到预定的误差界限为止。
这是监管和非监管训练的混合,其中提供包含一 系列输入帧的语 音文件的总体目标,但没有给出每个帧的各个目标。通过足够大量的 一致的语音样本,训练过程可以得出帧失真模型,它学习把帧特征向 量与帧质量相关联的固有法则。
在帧失真估值器14的初始训练后,静默失真估值器18的静默影响 模型被训练。图7B显示这个训练过程步骤。为了清晰起见,没有显示 图l上没有参加这个训练过程的元件(例如,映射单元22)。如图所示, 提供了数据库26。数据库26包括多个语音信号和以熟知的方式确定的 它们的相关的主观MOS。在数据库24中的语音信号可包含确实包括时 间不连续性(例如,静默)失真的失真。
在数据库中的每个语音信号(或至少它们的子集)被提供到滤波器 10。相应的主观MOS被提供到逆映射单元30,它把MOS变换成失真。 滤波器10、发音分析单元12和帧失真估值器14按以上参照图1讨论的方 式操作,除了帧失真估值器14的权因子Wj和Wjk如在训练过程的第 一 步 骤中那样地被训练以外。另外,静默检测单元16和静默失真估值器18 如以上参照图l讨论的那样操作。在这个训练步骤中,组合器20被包括 在训练环路中,并把帧和静默失真估值的组合提供到误差信号生成器<formula>formula see original document page 16</formula>32。误差信号生成器32接收来自组合器20的总体失真估值和来自逆映 射单元30的主观失真,并生成误差信号。更具体地,在一个实施例中, 误差信号生成器32从主观失真中减去总体失真,以生成误差信号。
训练是通过回归在(13)中找出最佳参数组Am,即,pl和p2,以使

<formula>formula see original document page 17</formula>(21)
其中使用以前训练的帧失真模型足。
训练过程的第三和最后的步骤是重新训练帧失真估值器14。图7C 显示这个最后的训练。如图所示,数据库28,包括数据库24和数据库 26,提供语音信号和主观MOS。来自误差信号生成器32的误差信号被 提供到帧失真估值器14。这个重新训练步骤允许帧失真模型补偿静默 影响模型的剩余误差。这是通过使得由以下的失真模型《产生的在主 观失真Dsbj与客观帧失真估值DvW之间的在整个训练样本上累加的平 方差最小化而被完成的
<formula>formula see original document page 17</formula>
(22)
训练可以以与用疋作为模型的初始参数的训练步骤l相同的方式 被执行。
正如从上述的实施例可以看到的,语音质量估计系统可被体现为 在计算机上运行的软件、硬件电路、数字信号处理器等等。
在这样地描述本发明后,显然可以以许多方式变化本发明。这样 的变化不被看作为背离本发明,意欲将所有这样的修改包括在本发明 的范围内。
权利要求
1.一种语音质量评估方法,包括通过使用基于主观质量评估数据被训练的至少一个模型来估计在接收的语音信号中的失真;以及基于估计的失真确定所述接收的语音信号的语音质量评估。
2. 如权利要求l所述的方法,其中所述估计步骤包括通过使用 基于所述主观质量评估数据被训练的第 一模型来估计在所述接收的语 音信号中的语音失真。
3. 如权利要求2所述的方法,其中所述估计步骤包括通过使用 基于所述主观质量评估数据被训练的所述第 一模型来估计在所述接收 的语音信号中的背景噪声失真。
4. 如权利要求3所述的方法,还包括根据所述接收的语音信号确定平均发音功率和平均非发音功率; 并且其中所述估计语音失真步骤通过使用所确定的平均发音功率、所确定 的平均非发音功率和所述第一模型来估计所述语音失真;以及所述估计背景噪声失真步骤通过使用所确定的平均发音功率、所 确定的平均非发音功率和所述第一模型来估计所述背景噪声失真。
5. 如权利要求3所述的方法,其中所述估计步骤包括通过使用 基于所述主观质量评估数据被训练的第二模型来估计在所述接收的语 音信号中的静默所造成的失真。
6. 如权利要求5所述的方法,其中所述估计所检测的静默所造成 的失真的步骤估计静默失真,以使得在所述接收的语音信号中以后的 静默比起在所述接收的语音信号中早先的静默具有更大的影响。
7. 如权利要求l所述的方法,其中所述估计步骤包括通过使用 基于主观质量评估数据被训练的模型来估计在所述接收的语音信号中 的静默失真。
8. 如权利要求l所述的方法,其中所述确定步骤把估计的失真映射到主观质量评估度量值。
9. 一种用于语音质量评估的设备,包括至少 一个估值器,通过使用基于主观质量评估数据被训练的至少 一个模型来估计在接收的语音信号中的失真;以及映射单元,把所估计的失真映射到语音质量度量值。
10. —种训练质量评估系统的方法,包括训练系统的第一失真估计路径,同时通过使用第 一主观质量评估 数据排除来自该系统的第二失真估计路径的影响,其中所述第一主观 质量评估数据包括第一语音信号和第一相关的主观质量度量值,所述 第一语音信号缺乏静默失真;通过使用第二主观质量评估数据来训练该系统的所述第二失真 估计路径,所述第二主观质量评估数据包括第二语音信号和第二相关 的主观质量度量值,所述第二语音信号包括静默失真;和通过使用所述第一和第二质量评估数据重新训练所述第一失真 路径,同时所述第一失真路径包括所述第二失真路径的影响。
全文摘要
在一个实施例中,通过使用基于主观质量评估数据被训练的至少一个模型来估计在接收的语音信号中的失真。然后,根据估计的失真来确定接收的语音信号的语音质量评估。
文档编号G10L19/00GK101218627SQ200680024568
公开日2008年7月9日 申请日期2006年6月30日 优先权日2005年7月5日
发明者金度锡 申请人:朗迅科技公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1