实例加权学习机器学习模型的制作方法_2

文档序号:9240049阅读:来源:国知局
本消息的长度)。虽然在LRM的上下文中总 体说明了本文中所公开的示例方法,但是要理解的是,本文中所公开的示例方法可W用于 解决任何单输出问题、多输出问题或MOD问题。
[0027] 将参照附图来说明示例实施例。
[002引图1是示出示例LRM系统100的示意性框图。如所示地,示例LRM系统100包括各 种部件,诸如公用交换电话网络(PSTN) 110、用户通信和/或计算装置112、将PSTN100连 接至互联网130的TDM网关120、远程代理站121、工作站128、呼叫中屯、140、将局域网160 连接至互联网130的互联网网关150、网络服务器170、联系服务器200、潜在客户数据服务 器190、本地代理工作站192W及控制工作站194。示例LRM系统100的各种部件可操作地 互联,来W使联系率或资格鉴定率最优化的方式协同地改进响应潜在客户的过程。
[002引如图1中所公开的,远程代理121包括无线电话122、有线电话124、无线计算装置 126W及工作站128。在某些实施例中,无线电话122或有线电话124可W为互联网协议语 音(V0I巧电话。在一些实施例中,计算装置126或工作站128可W配备有软电话。远程代 理站121使得代理能够W类似于被安置在工作站192处并且直接地连接至局域网160的代 理的方式来从远程位置响应潜在客户。
[0030] 在一个示例实施例中,局域网160驻留在呼叫中屯、140内,呼叫中屯、140使用VoIP 和其他发送消息服务来联系连接至PSTN110和/或互联网130的用户。呼叫中屯、140中 的各种服务器协作地起作用W;获取潜在客户;存储潜在客户信息;分析潜在客户信息W决定如何最佳地响应每个潜在客户;例如经由代理终端--诸如本地代理工作站192和远 程代理站121 -一向代理分配潜在客户;便于经由例如PSTN110或互联网130来在代理与 潜在客户之间进行通信;跟踪所尝试并且成功的代理与潜在客户的交互;W及存储所更新 的潜在客户信息。网络服务器170可W经由浏览器可显示网页来向用户提供一个或更多个 网络表单172。可W经由配备有浏览器的各种通信和/或计算装置112来向用户显示网络 表单,用户通信和/或计算装置包括电话、智能电话、平板计算机、膝上型计算机、桌上型计 算机、媒体播放器等。网络表单172可W向用户提示联系数据,诸如名称、头衔、行业、公司 信息、地址、电话号码、传真号码、电子邮件地址、即时发送消息地址、推荐信息、可用性信息 W及感兴趣的信息。网络服务器170可W响应于用户提交网络表单来接收与用户相关联的 潜在客户信息,并且向例如联系服务器200和潜在客户数据服务器190提供潜在客户信息。
[0031] 联系服务器200和潜在客户数据服务器190可W接收潜在客户信息并且检索与相 关联的用户相关联的另外的数据,诸如网络分析数据、反向查找数据、信用检查数据、网站 数据、网站排名信息、不呼叫注册数据、来自客户关系管理(CRM)数据库的数据W及背景检 查信息。潜在客户数据服务器190可W将所收集的数据存储在潜在客户简档(profile)(未 示出)中并且使用户与LRM方案(未示出)相关联。
[0032] 联系服务器200可W根据相关联的LRM方案来联系潜在客户并且向代理递送潜在 客户信息,W使得代理能够W使联系率或资格鉴定率最优化的方式来响应潜在客户。该样 的联系或资格鉴定的特定目的可W包括例如;建立与潜在客户的关系;感谢潜在客户对产 品的关注;回答来自潜在客户的问题;向潜在客户告知产品或服务供应;销售产品或服务; 调查潜在用户的需求和偏好;W及向潜在客户提供支持。联系服务器200可W使用例如下 述的各种递送服务来向代理递送信息;诸如电子邮件服务、即时发送消息服务、短消息服 务、高级发送消息服务、文本发送消息服务、基于电话的文本转语音服务W及多媒体递送服 务。代理终端121或192可W向代理呈现潜在客户信息并且使得代理能够通过与潜在客户 通信来响应潜在客户。
[0033] 图2是示出图1的示例联系服务器200的另外的细节的示意性框图。如图2中 所公开地,联系服务器200包括联系管理器210、拨号模块220、发送消息模块230、PBX模 块240化及终端硬件250。在所描绘的实施例中,联系管理器包括IWL机器学习模块212、 LM方案选择模块214、代理选择模块216化及潜在客户数据服务器访问模块218。虽然被 示出为在联系服务器200内,但是例如所描绘的模块也可W部分地或整体地驻留在其他服 务器诸如网络服务器170和潜在客户数据服务器190上。联系服务器200使得代理能够结 合LRM方案来与潜在客户通信。
[0034] 联系管理器210在需要时建立与用户与代理的联系并且管理联系会话。联系管理 器210可W经由拨号模块220和/或发送消息模块230来对联系进行初始化。
[0035] 根据本文中所公开的示例方法,IWL机器学习模块212采用IWL机器学习模型来训 练分类器,然后采用所训练的分类器来预测MOD输出决策的多个相互依赖的输出分量。在 至少一些示例实施例中,IWL机器学习模块212利用潜在客户数据服务器访问模块208来 访问并且分析存储在图1的潜在客户数据服务器190上的潜在客户信息。当针对特定潜在 客户预测一个或更多个响应决策时,可W将一个或更多个响应决策传送至LRM方案选择模 块 214。
[0036] LRM方案选择模块214呈现和/或选择针对特定潜在客户和/或供应的一个或更 多个LRM方案。类似地,代理选择模块216选择在每个LRM方案中指定的代理、代理类别或 代理技能集。
[0037]潜在客户数据服务器访问模块218使得联系管理器210能够访问对于联系潜在客 户而言有用的潜在客户信息。在一个实施例中,数据存储访问模块218使得联系管理器210 能够访问潜在客户数据服务器190。
[003引拨号模块220建立电话呼叫,包括VOIP电话呼叫和PSTN呼叫。在一个实施例中, 拨号模块220接收唯一的呼叫标识符,建立电话呼叫并且向联系管理器210通知该呼叫已 经被建立。拨号模块220的各种实施例合并了辅助功能,诸如从数据库中检索电话号码、将 电话号码与所限制的呼叫列表进行比较、转移呼叫、进行会议呼叫、监视呼叫、播放所记录 的消息、检测答录机、记录语音消息W及提供交互式话音响应(IVR)能力。在一些实例中, 拨号模块220引导PBX模块240执行辅助功能。
[0039] 发送消息模块230对代理和潜在客户发送消息W及接收消息。为了发送和接收消 息,发送消息模块230可W利用一个或更多个递送或发送消息服务,诸如电子邮件服务、即 时发送消息服务、短消息服务、文本消息服务W及高级发送消息服务。
[0040]PBX模块240将私人电话网络连接至PSTN110。联系管理器210或拨号模块220 可W引导PBX模块240将私人电话网络上的线路与PSTN110或互联网130上的号码相连 接。在一些实施例中,PBX模块240提供由拨号模块220调用的辅助功能中的一些辅助功 能。
[00川终端硬件250将来自本地网络的呼叫路由至PSTN110。在一个实施例中,终端硬 件250对接至常规的电话终端。在一些实施例和实例中,终端硬件250提供由拨号模块220 调用的辅助功能中的一些辅助功能。
[004引已经关于图1和图2描述了特定环境(LRM系统)和特定应用(LRM),要理解的是, 该特定环境和应用仅为其中可W采用示例实施例的无数环境和应用中的一者。并非意在将 示例实施例的范围限于任何特定环境或应用。
[0043] 本文中所公开的至少一些示例实施例采用IWL机器学习模型,通过将质量值分配 给每个训练实例来反映训练实例中的质量差异,W解决不同训练实例具有不同相关性的问 题。在传统的监督式学习中,对每个训练实例相同地加权,因此没有考虑每个训练实例的质 量的影响。相反,传统的监督式学习训练分类器W与特定的训练实例是具有低的质量还是 具有高的质量无关地从训练实例集合中的每个训练实例同等地学习。相比之下,IWL采用 下述实例加权训练方法;通过基于每个训练实例的质量值q对每个训练实例进行加权W反 映每个训练实例的质量值q的影响。因此,因为IWL使得分类器能够从高质量的训练实例 比从低质量的训练实例更多地学习,所WIWL优于传统的监督式学习。
[0044] 在一类最常见的强化学习算法中,函数Q(s,a)用于表示当在状态S下进行动作a 时所期望的最大奖励。可W从Q(s,a)导出下述:给定状态S,采取的最佳动作a是使Q(s, a)最大化的所有允许的动作中的一个动作。该种强化学习算法的主要训练目标是从训练数 据学习准确的Q(s,a)。下面的讨论将主要集中在已经成功地在许多现实应用中应用的基 于Q学习的强化学习算法(QLB-化)。
[0045]QLB-化使用Q学习算法通过在输入状态空间中的探索和开发来学习Q(s,a)。通 常需要经历很大量的动作W便准确地学习Q(s,a)并且找到最佳策略。对于小的状态空间, 强化学习可W使用表来表示针对所有可能的(S,a)对的Q(s,a)。对于非常大的状态空间 (例如,连续状态空间),可W使用功能映射来近似Q(S,a)。
[0046]如果应用具有非常大的输入状态空间(例如LRM),则化B-化可能很难用功能映 射来获得准确的泛化。该困难的一个原因是当输入状态空间变得非常大时会难W准确地近 似Q(s,a)。对于QLB-化,针对仅记录的训练实例可W应用于训练(诸如LRM)的应用,该 个问题变得甚至更严重。在该些应用中,QLB-化不能使用探索策略来探索大的输入状态空 间。例如,当应用强化学习来学习怎样玩象棋时,强化学习可W探索象棋规则所允许的任 何类型的移动,然后观察动作的奖励。但是对于LRM,由于该样做代价会非常高并且还非常 慢,因此尝试现实设置中的各种新类型的动作(诸如,如在下面将要详细讨论的不同响应 代理头衔、响应方法、响应消息类型W及响应定时)可能不可行。另外,新动作的影响开始 时通常是未知的,在知道新动作对序列中的随后的状态-动作对的影响之前可能需要花费 长的时间段。在不知道新动作的影响的情况下,不能将新动作应用为训练数据。因此,对于 QLB-化,甚至更难W获得针对该些类型的应用的Q(s,a)的准确近似。
[0047] 相比之下,IWL可W使用标准机器学习算法诸如用于MLP的反向传播学习W在不 需要函数近似的情况下直接根据状态-动作对和其q值来学习最佳策略。IWL可W使用实 例加权训练方法,并且使得q值能够诸如经由用于MLP训练的学习率直接反映在学习算法 中。因此,IWL可W提供针对该些类型应用的更高效并且更准确的学习模型。
[004引IWL训练实例集合可W用下面的格式来表示;T= {(Xi,y。Qi), (X2, 72,屯),...,(X D,yD,q。)};其中,XiGX是来自输入空间X的样本;yiEY是来自输出空间Y的标记;W及 QiER是与训练实例(X。Yi)(iG(1,2, . . .,n})关联的质量值。Qi的值可W是与(X。yi) 的质量成比例并且在范围[-1.0,1.0]中的实数值。例如在一些应用中,可W将值1.0分配 给质量值〇1用于高质量的训练实例W及将值-1.0分配给质量值qi用于低质量训练实例。 在其他应用中,质量值(11可^在反映训练实例的相对质量的范围化0,1.0]中。在另外的 其他应用中,质量值Qi可W在范围[-1. 0, 1. 0]之外。例如,如在本文中结合图3所讨论地, 在时间策略学习中训练实例的质量值(11可^从根据之前动作的所累积的折算奖励中导出。
[0049] 在图3至图4和图6至图IOB的示例LRM实现方式中,采用IWL机器学习模型来训 练示例多层感知(ML巧神经网络分类器MLP1、MLP2、ML
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1