预测通话品质的制作方法

文档序号:13186880阅读:145来源:国知局


背景技术:
可能要求诸如在因特网上实现的VoIP系统的通信系统向全世界的人服务数十亿通话分钟数。当今,用户期望高品质的通话体验。满足该高的期望取决于通信系统提供商定义、分析、测量、改善和监控通话品质的能力。这涉及到理解技术状况(由技术参数所测量的)对用户主观通话体验的影响和频率的能力;例如,对在诸如传输品质、服务品质(QoS)、媒体品质(QoM)和体验品质(QoE)等类别中的网络和媒体特性的理解。当前存在多种用于客观地评估媒体品质的方法。最简单的方法使用基本工程度量,诸如常用于音频的信噪比(SNR)以及用于视频的峰值信噪比(PSNR)。这些简单的度量还能够经过修改以便更多的考虑感觉品质。例如,通过适配视频的空间-时间复杂度来细化PSNR已经被提出,使得与人类感觉更相关。PSNR的替选是结构相似标示(SSIM),其与主观品质具有更高的相关。近期在视频编码方面的工作已经瞄准了使用SSIM作为编码失真度量。用于音频和视频品质评估的更先进的方法模仿了整体(以及非常复杂的)人类听觉或视觉系统,并且试图预测通过(例如)平均意见得分(MOS)测量的平均用户感觉品质。当今最先进的模型的示例是ITU-TP.863(POLQA)中的语言品质工具和ITU-TJ.247和J.341中的视频品质工具。客观测试方法能够基于提供给模型的输入而划分成三组:全参考模型,减量参考模型和无参考模型。该分类考虑到模型是否使用原始音频或视频信号作为分析的参考。在全参考模型中(诸如上述的度量PSNR,SSIM,PQLQA),原始音频或视频信号与处理后的(或所谓的降级的)音频或视频信号进行比较。基于比较,模型预测用户感觉品质。减参考模型仅使用原始信号属性的部分用于品质评估。在该类模型中的示例包括设计用于MPEG-2品质评估的标准化视频品质度量(VQM)。无参考模型不使用原始音频或视频信号来评估品质。相反,这些模型对原始信号的属性做出假设。可能最公知的无参考模型是设计用于语言品质评估的E模型(ITU-TG.107)。近期出现E模型的扩展(ITU-TG.1070),其包括视频品质(编码、帧率、分组丢失以及显示分辨率)以及音频和视频品质(延时和同步)组合到总品质得分中两者。G.1070中的音频部分是G.107模型的简化版本。这两个模型都设计用于辅助电信运营商进行他们的网络基础结构设计从而确保特定水平的品质。G.107E模型已经从窄带使用和宽带使用朝向超宽带使用扩展,以支持诸如Silk的现代语言编译码器。G.1070模型的进一步的细化还考虑到视频内容,例如空间-时间复杂度。

技术实现要素:
这些现有的模型先前仅用作离线分析工具以为开发者和运营者提供信息,例如,在发布给公众之前在设计阶段中分析编译码器的性能。另一方面,在本公开中,提供了一种模型,该模型从真实通话得到用户反馈得分,将这些与通话的客观技术参数关联来建模,然后将结果动态地输出返回系统,以适于进一步的通话。结果的这种使用被认为是动态的,因为在系统已经部署且并且处于实况的真实操作之后其“在现场”自动地进行。模型接收当前运行于用户终端上的客户端所进行的通话的技术参数,并且作为响应发布用于自动适配通话的信息。根据本文公开的一个方面,提供了一种通信客户端应用,运行于诸如台式计算机或膝上型计算机、平板设备或智能手机的用户终端上从而经由网络进行一个或多个通话,例如,经由因特网的VoIP通话(其可包含视频)。通信客户端被配置为访问模型,该模型基于每个通话的一技术参数集合对通话的用户体验品质建模。例如,技术参数可以是诸如回波、噪声、分组往返时间、接收带宽、分辨率或帧率的性质的测量。在实施例中,模型寄主于服务器上(包括跨一个或多个站点的一个或多个服务器),并且通过客户端经由网络来访问。然而,还可能的是用户终端可被在本地提供模型的实例,或者模型可实现在对等分布式网络上。模型本身基于指示多个用户所体验的多个过去通话的主观品质的用户反馈,而针对从每个过去通话采集到的技术参数进行建模。用户反馈可以呈现为对用户所体验到的通话的主观品质进行评价的用户反馈得分的形式。因此,模型能够基于客观技术参数与主观用户反馈得分之间的关联来定义预测用户体验品质的客观度量。用户反馈得分可以例如以五种得分进行评价,例如,用户给通话评一至五个星。预测的得分可试图在该同一标度上预测通话品质,例如,包括一与五之间的离散或连续值的平均意见得分(MOS),或者可选地预测得分可以不同的形式输出,例如,将通话分类为对应于“良好”通话和“差”通话的两个类别。一般地,可以使用任何标度用于用户反馈。当通话实现时,模型通过从接收侧和/或发送侧接收测量来获得通话的技术参数(和/或如果通话经由服务器寄主,则其可以自身执行一些或全部的测量)。作为响应,这使得模型基于在所讨论的通话的技术参数上的应用来生成预测当前通话的用户体验品质的预测通话品质得分。基于该预测通话品质得分,模型还判定通话的改变是否可以提高预测的用户体验品质,即,通过改变通话的一个或多个技术参数。在通话的至少一次结束时,模型将任何判定的改变的指示返回客户端应用,客户端应用使用该指示来相应地改变通话的一个或多个技术参数。可选地,可能的是模型本身返回预测得分,客户端可使用该预测得分来通过调节一个或多个技术参数进行实验(可能再次返回参考模型以查看变化如何影响预测品质)。通过任一方式,因此基于模型生成预测品质得分来改变当前通话。在实施例中,该模型可以基于技术参数以及模型本身的一个或多个模型参数,并且模型可基于训练算法对模型参数的训练。此外,在实施例中,不仅可以动态地改变通话,而且通话可用于获得进一步的用户反馈从而动态地改变模型本身。也即,模型可以实况的方式自动改变,因为在现实系统操作期间或者“在现场”(与仅基于一组在先训练或测试数据预配置不同)采集关于通话的反馈。因此,根据本文公开的进一步的方面,可以提供一种服务器,包括模型和网络接口,所述网络接口布置成从多个用户接收对多个进一步通话的主观品质进行评价的进一步用户反馈得分,以及获得进一步通话的技术参数。在该方面,模型被配置为动态地合并用户反馈得分和进一步通话的技术参数以及因此随着接收到进一步的用户反馈得分而动态地改变模型。在实施例中,通信客户端可配置为接收来自用户终端的用户的用于改变后通话的用户反馈得分,以及将该用户反馈得分提交给模型,该用户反馈得分连同相应的通话的技术参数一起并入模型中从而改变模型。当通信客户端随后进行经由网络的第二通话时,模型基于应用于第二通话的技术参数的改变后模型来生成预测第二通话的用户体验品质的预测通话品质得分。因此,第二通话能够基于改变后模型的预测而改变,方式与基于模型的在先版本的预测来改变第一通话是相同的。在实施例中,该过程可以在多个用户之间进行的许多通话上按这种方式继续:即,改变通话,接收关于改变后通话的用户反馈以改变模型,然后基于改变后模型来改变进一步的通话,接收关于进一步通话的用户反馈以进一步改变模型,然后使用模型的这一版本来改变又进一步的通话,等等;所有这些都是在实况系统操作期间以进行中的方式动态地在现场自动执行。提供该概述以便以在下面的发明详述中进一步描述的简化形式来介绍概念的选择。该概述不意在确定权利要求主题的关键特征或重要特征,也不意在用于限制权利要求主题的范围。权利要求主题也不限于解决任意或全部特定缺点或者提供本文提到的任意特定优点的实现方式。附图说明为辅助理解本公开内容以及显示出如何将实施例投入实用,通过示例的方式参考附图,在附图中:图1是通信系统的示意性框图;图2是用户体验品质的示意性表示;图3是用于给出用户反馈的用户接口的示意性表示;图4是特征空间中的聚类(clustering)技术参数的示意性表示;以及图5是在特征空间中的技术参数聚类以及基于该聚类根据模型来预测通话品质的示意性表示。具体实施方式图1示出了根据本文公开的实施例的通信系统的示例。通信系统包括多个用户终端102,用户终端102连接到或者能够操作以便连接到网络100,在实施例中,网络是诸如因特网的基于分组的网络。每个用户终端102由相应的用户101来使用。每个用户终端102安装有通信客户端应用103的相应实例,用于经由网络与其它用户终端进行通话,例如VoIP客户端。通话是两个或更多个用户终端之间的实况的、实时的通信,包括一个或多个媒体类型的媒体内容,包括至少一个音频流、视频流或两者。还可能的是通话包括一种或多种其它的媒体,诸如屏幕共享流。通信系统进一步包括连接到网络100的服务器104。服务器104可由例如VoIP提供商的所讨论的通信系统的提供商或者通过与一个或多个这样的通信提供商相结合操作的第三方提供商来拥有和/或操作。注意,本文所使用的术语服务器不一定限于单个服务器单元或单个物理站点。服务器104包括网络接口105,网络接口布置成用于经由网络100与用户终端102的客户端应用103通信。服务器104还布置成运行通话品质预测模型106。每个客户端103能够操作以经由网络100和接口105来访问模型106。可选地或者另外地,模型106的实例可以本地地提供在一个或多个用户终端102上,例如,并入客户端103中或者提供作为诸如插件的附随应用。模型106被配置为基于能够密切地接近主观通话品质的客观通话品质度量来自动化通话品质监测;以及利用技术参数和客观品质度量来预测客观通话品质。模型提供了在线(在通话期间)通话品质预测器,其运行于服务器104上或客户端103中,从而识别通话期间的可能的技术权衡和/或其它可起诉项(例如,在视频帧率和分辨率之间权衡或者进行麦克风选择)。特征选择通话品质的分析可以从体验品质(QoE)方面来考虑。欧洲多媒体系统和服务体验品质网络(Qualinet)给出的一个关于QoE提议的定义如下:“QoE是应用或服务的用户的愉快或烦扰程度。其源自于他或她关于应用或服务的实用和/或享受的期望就用户的个人和当前状态而言的满足”。对于图1的通信系统,该定义意味着,QoE是用户102在使用客户端103来进行通话时的总的体验。图2给出了通话品质与通话可靠性组件之间的关系的高级表示。在实施例中,对QoE建模可以涉及到媒体流(QoM)的QoE和传输品质的建模。这意味着,即使通话品质和通话可靠性通常是单独地被研究,事实上通话品质取决于通话可靠性。各种可观察网络参数贡献于输送到媒体流的服务的品质(QoS)。转而,QoS、情景和媒体栈确定了媒体流(QoM)的QoE。例如,一组可观测网络参数可包括单向网络延时、分组丢失、可用带宽和/或对话延时。情景可包括从中捕获通话媒体的环境的视觉和/或听觉参数,和/或捕获通话媒体的设备的选择(诸如网络照相机、麦克风等)。QoS密切地关联于特定的使用情况或应用,在该公开内容中该特定使用情况或应用包括实施音频和/或视频通信。各种可观察网络参数还影响传输品质,这些是反映通话可靠性的参数。虽然与媒体处理无关,如上所述,传输品质对主观通话品质具有影响。例如,诸如通话建立时间和掉话次数的传输属性会对用户的体验品质有影响。QoM和传输品质组合而给出总的QoE。QoM是媒体的QoE并且受各种媒体参数影响。例如,影响音频QoM的参数可以包括与环境或捕获有关的参数,诸如语音水平、噪声、回声、房间反响、和/或麦克风频率响应。影响视频QoM的参数还可以包括与环境(场景)和捕获有关的参数,诸如:噪声(尤其当在弱光中捕获时)、亮度、对比度、颜色、和/或测量捕获的视频内容的性质(例如,视频中的面部相对于其它对象的纹理、运动和/或识别)的参数。影响音频QoM的参数可以包括与编码和译码有关的参数,诸如:音频频率范围(尤其在频率范围相比于期望内容例如语音相对受限的情况下),处理失真和静噪、编码失真、隐藏失真(例如,时间标度语音修正和/或语音外推),延时、和/或测量与视频同步有关的问题的一个或多个参数。影响视频QoM的参数还可以包括与编码和译码有关的参数,诸如:块效应、瞬时振荡、假边沿信号的测量、急动、帧率、冻结(丢失)、延时、和/或测量与音频同步有关的问题的一个或多个参数。影响音频QoM的参数可包括与呈现有关的参数,诸如扬声器频率响应、声音大和/或噪声。影响视频QoM的参数也可以包括与呈现有关的参数,诸如显示器尺寸、分辨率和观看距离。为对品质进行建模,特定的一组客观技术参数被选择以代表每个通话。本公开的作者实际上已经识别出多达1800个可能的参数,这些参数能够用于描述通话,但是实现实际的模型,这些将缩减至可管理集合,例如,缩减至大约3个参数与150个参数之间的集合。在实施例中,该集合不多于40个参数。关于要选择哪些参数没有正确答案,但是这些参数可被选择以反映通话的各种各样的方面,同时还提供复杂度以及该组对于通话的代表性之间的平衡。在实施例中,描述每个通话的技术参数集合可以包括:与从中捕获通话的环境有关的一个或多个参数,与通话的通话媒体的捕获有关的一个或多个参数,与通话的媒体内容有关的一个或多个参数,与通话的编码和/或译码有关的一个或多个参数,与经由网络的通话的服务品质有关的一个或多个参数,与通话的通话媒体的呈现有关的一个或多个参数,和/或与通话的发送和/或接收终端的处理资源有关的一个或多个参数。该技术参数集合可包括与通话的视频有关的一个或多个参数,和/或与通话的音频有关的一个或多个参数。在实施例中,该技术参数集合可包括来自如下一个或多个类别的参数:网络特征(例如,网络延时、带宽、网络接口类型);音频特征(例如,回声、噪声、隐藏使用);以及视频特征(例如,分辨率、帧率)。其它可能的参数可包括客户端的版本、编译码器的指示、和/或传输流类型(其可以具有可能的值,诸如:UDP、UDP中继、TCP和TCP中继)。在实施例中,该技术参数集合可基于假设QoE≈QoM来进行选择。通过做出该假设,模型不显式地考虑传输品质对QoE的影响。在实施例中,模型可以仅通过使用对应于成功建立的通话和无掉话通话的数据来消除对传输品质的影响(至少在一定程度上)。然而,不排除的是,在其它实施例中,该集合可包括与传输品质(可靠性)有关的一个或多个参数。一些示例的参数阐述如下。适合的集合可由这些参数中的一些或全部、和/或其它参数的任意组合而构成。-呈现帧率(接收侧)-编码流的帧率(另一侧)-帧冻结时间-即,视频帧之间的延时(接收侧)-发送、接收或总的带宽-带宽管理器视频超调(另一侧)-带宽管理器音频稳定性(另一侧)-扬声器变化率-例如,扬声器变化帧百分比(两侧)-回声-例如回声延时或回声近端比(两侧)-接收分组丢失(接收侧)-往返时间-编码流、播出或显示的分辨率-音频抖动缓冲延时(接收侧)-音频抖动缓冲外推比(接收侧)-发送帧率(另一侧)-回声近端比(两侧)-发送比特率(两侧)-双端会话帧百分比-过载帧百分比-传输协议按类别带示例单位列出的一些更具体的示例为:注意,一般地,技术参数可以是在通话整个过程中以任何适合的粒度级被采样的值,和/或可以是在某些或全部通话上被聚集的聚集参数(例如,在通话结束时被确定)。上述参数中的任一个可以例如从任何适合的点估计来评估,诸如瞬时值、最大值、最小值、均值、中值、模式、方差和/或标准差。意见得分除了定义一技术参数集合之外,提供商收集多个过去通话的反馈。客户端应用103别配置成为其相应的用户101提供在通话期间或者恰好在通话之后的某点的用户反馈得分的提示,并且响应于用户输入反馈到客户端103中,其将该反馈提交给模型106。图3示出了在客户端103的屏幕或窗口302的形式中用于用户反馈的图形提示的示例。在该示例中,用户被提示对来自一星或五星的通话进行评价。因此,如模型106中表示的反馈得分可以是来自集合{1,2,3,4,5
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1