实例加权学习机器学习模型的制作方法_4

文档序号:9240049阅读:来源:国知局
然而,在其他应用中,动作向量at= at,2,…,at,Y)可W包括多个动作分量(即v〉l)。在一些情况下,多个动作分量可W是相互依 赖的,诸如具有多输出依赖性(MOD)的应用。
[006引例如,针对LRM问题做出的决策是MOD问题,其中输出决策分量(即响应代理头 衔、响应方法、响应消息类型W及响应定时)是相互依赖的。通常,针对MOD问题的学习比 针对具有单分量的问题的学习或比针对具有独立的多个分量(非mod)的问题的学习更具 挑战性。然而,要注意的是,可W采用IWL来解决上面列举的每种问题,包括单分量问题、非 MOD问题W及MOD问题。
[0066]在图4的LRM实现方式中,动作向量at= (at,i,屯,2,…,3t,v)可W包括下面的动作 分量;从{销售副总裁、销售经理、销售代表}中选择代理头衔;a从{呼叫、电子邮 件、传真}中选择动作方法;屯,3;从{MT1,MT2,MTW中选择消息类型;W及3 1,4;从{短、中 等、长}中选择定时。在图4中,如在图7中所公开地,将分类器MLPl训练成预测动作at,i,W及将类似的分类器MLP2、MLP3和MLP4分别训练成预测动作at,2、at,3和at,4。
[0067] 在多层感知(ML巧神经网络分类器的常规训练诸如反向传播中,在每次迭代时基 于下述公式来更新训练实例的权重;Aw(i,如=C? 5 (j) ?z(U。在该公式中,针对在节 点j处的权重W(i,j)的改变量Aw(i,j)与在节点j处的误差5 (j)W及来自节点i的输 入值Z(i)成比例。还可W通过控制权重的改变量的学习速率C来控制MLP神经网络的权 重,该使得迭代之间的权重更新能够平滑地过渡并且防止有噪声的训练实例带来显著的影 响。因此,在MLP的常规的反向传播训练中,上面的用于更新权重的公式对于所有训练实例 是相同的,因此所有训练实例被相同地加权。
[006引相比之下,在图4的LRM实现方式中,IWL可W采用质量值q加权因子u(q)来基 于训练实例的质量值q对训练实例进行加权。IWL的该些实施例对上面的公式作如下修 改;Aw(i, _]') =u(q) ?C? 5 (j) ?Z(;〇。用于加权因子u(q)的一个示例公式如下;u(q) =(a+b?q),其中a反映使用常规权重更新的权重,b反映q值对权重更新的权重。因此, 如果训练实例具有较大的q值,则U(q)将会更大并且分类器将会更积极地从训练实例中学 习。可W通过采用不同的值进行试验来根据试验设置a和b的值,并且a和b的值可W依 赖于特定的应用而改变。一个示例参数集如下;a= 0,b= 1. 0。另一示例参数集如下;a =0. 5,b= 2. 0。使用该修改的公式,将会对具有不同q值的训练实例不同地进行加权。
[0069] 在图4的实现方式中,使用参数值a= 0.5和b= 2.0,状态-动作训练实例 302将会有为(0.5+2. 0 ? 1.0 = 2. 5)的加权因子U(q),状态-动作训练实例304将会有 为(0.5+2. 0 ? 0.81 = 2. 12)的加权因子U(q),W及状态-动作训练实例306将会有为 (0. 5+2. 0 ?0. 31 = 1. 12)的加权因子U(q)。因此,由于状态-动作训练实例302具有比状 态-动作训练实例306更大的质量值q(即,1. 0〉0. 31),所W状态-动作训练实例302将会 具有比状态-动作训练实例306更大的加权因子U(q)(即,2. 5〉1. 21)。状态-动作训练实 例302与状态-动作训练实例306之间的加权因子u(q)的该种不同将会导致图4的分类 器MLPl从状态-动作训练实例302比从状态-动作训练实例306更多地学习。
[0070] 图5是采用IWL机器学习模型来训练分类器的示例方法400的示意性流程图。可 W在至少一些实施例中,通过图1的联系服务器210的联系管理器210的IWL机器学习模 块212来实施方法400。例如,IWL机器学习模块212可W被配置成执行计算机指令W进行 如由方法400的一个或更个框402、404及406所表示的下述操作;采用IWL机器学习模型 来训练图4的分类器MLPlW最终预测LRMMOD输出决策Z的多个相互依赖的输出分量zi、 Z2、Z3和Z4的第一输出分量Z1。尽管被示出为独立的框,但是可W依赖于期望的实现方式将 各种框分成另外的框,将各种框组合成更少的框或消除各种框。现在将参照图1至图5来 讨论方法400。
[0071] 方法400可W在框402处开始,其中,对应与强化学习机器学习训练实例集合中的 每个机器学习训练实例关联的质量值进行确定。例如,IWL机器学习模块212可W确定应 与强化学习状态-动作训练实例302至306集合中的每个机器学习训练实例关联的质量值 q。可W用许多方式来确定该些质量值q,包括使用图3的通过传播折算奖励来导出训练实 例的质量的方法来确定该些质量值q。
[0072] 特别地,可W确定时间序列中的当前的机器学习训练实例的奖励,并且还可W确 定应与时间序列中的之前的机器学习训练实例中的每个关联的奖励的折算部分。例如,如 结合图3所公开地,可W将状态-动作训练实例302的奖励rt确定为具有值1. 0,然后,可 W确定应与之前的状态-动作训练实例304和306关联的奖励rt的折算部分。
[0073] 在框404中,将对应的所确定的质量值与机器学习训练实例中的每个关联。例如, IWL机器学习模块212可W将所确定的质量值q与状态-动作训练实例302至306中的每 个关联。
[0074] 在框406中,使用机器学习训练实例中的每个来训练分类器,其中,在训练期间基 于机器学习训练实例中的每个的所关联的质量值对机器学习训练实例中的每个进行加权。 例如,IWL机器学习模块212可W使用状态-动作训练实例302至306中的每个来训练分 类器MLPl。在训练期间,IWL机器学习模块212可W基于机器学习训练实例302至306中 的每个的所关联的质量值q对机器学习训练实例302至306中的每个进行加权。在训练期 间,可W使用对不同质量值进行不同地进行加权的加权因子诸如在本文中所讨论的加权因 子u(q)来完成该种加权。该种基于所关联的质量值q的加权可W导致分类器MLPl从具有 高质量值1. 0的机器学习训练实例302比从具有低质量值0. 31的机器学习训练实例306 更多地学习。
[0075] 要注意的是,在训练实例集合的训练实例中的每个都是MOD训练实例的情况下, 其中每个训练实例包括多个相互依赖的输出分量,可W采用方法400。还可W采用方法400 针对多个相互依赖的输出分量中的每一个输出分量来训练分离的分类器。可W使用在下 述相关的美国专利申请中所公开的基于分层的排序化B巧机器学习模型来完成该种训练, 该美国专利申请于2012年8月20日提交,序号为No. 13/590,000,名称为"HIERARCHICAL BASEDSEQ肥NCINGMACHI肥LEARNINGM孤化",其全部内容通过引用明确地合并在本 文中。替选地或另外地,可W使用在下述相关的美国专利申请中所公开的多输出松弛 (MOR)机器学习模型来完成该种训练,该美国专利申请于2012年8月20日提交,序号为 No. 13/590, 028,名称为"MULTIPLEOUTPUTRELAXATIONMACHI肥LEARNINGMO呢L",其全部 内容通过引用明确地合并在本文中。
[0076] 因此,可W使用方法400采用IWL机器学习模型来训练分类器。本文中的示例方法 400可W将质量值与训练实例集合中的每个训练实例进行关联W反映不同训练实例之间的 质量差异。然后,在使用训练实例集合训练分类器期间,可W采用每个质量值来对对应的训 练实例进行加权使得分类器从具有较高质量值的训练实例比从具有较低质量值的训练实 例更多地学习。
[0077] 除了在MLP神经网络的训练中采用IWL之外,还可W结合其他的机器学习分类器 来采用IWL。例如,可W在最近邻(NN)分类器的训练中采用IWL。k最近邻化-NN)分类器 基于来自k个最近邻的表决来进行预测。假定未知的实例S要通过来分类,k个最近 邻被定义为就特征空间中的距离而言S的k个最接近实例。k值的最优值可W依赖于特定 的应用而变化。例如,k的最优值可W是k= 1,k= 3,或k= 5。
[007引可W通过基于训练实例的q值按比例调节训练实例的表决的权重来在k-順的训 练中采用IWL。例如,与具有较低q值的训练实例相比,可W与训练实例的q值成比例地对 具有较高q值的训练实例更重地加权。因此,表决的决策相比于受到来自低q值的最近邻 的影响将会更多地受到来自高q值的最近邻的影响,该可W增加生成准确的k-順分类器的 概率。
[0079] 在另一示例中,可W在生成决策树分类器中采用IWL。在机器学习中用于生成决策 树分类器的最常用的算法中的一个算法是ID3算法。在使用ID3算法生成决策树期间,对 在每个树节点处的分支子树的决策基于针对每个特征及其特征值的信息增益。信息增益的 计算基于针对每个特征及其特征值的训练实例的计数器。
[0080] 当计算信息增益时,通过基于每个训练实例的q值对每个训练实例的权重计数器 进行加权来在使用ID3算法生成决策树中采用IWL。与具有较低q值的训练实例相比,可W 对具有较高q值的训练实例W与训练实例的q值成比例地更多地计数。因此,使用IWL生 成的决策树相比于考虑来自具有低q值的训练实例的影响将更多地考虑来自高q值的训练 实例的影响,该可W增加生成准确的决策树分类器的概率。
[0081] 图6是示出示例输入特征向量X的文本图。图6的示例输入特征向量X包括关 于特定潜在客户的信息。特别地,示例输入特征向量X包括关于潜在客户的恒定特征一一 诸如潜在客户头衔和潜在客户行业一一W及与代理和潜在客户之间的交互有关的交互特 征一一诸如之前的拨号次数和之前的动作。通过示例输入特征向量X提供的潜在客户信息 可W用作图3A的模型300的输入,W便确定应执行使对潜在客户的联系或资格鉴定最优化 的下一个顺序响应是什么。
[0082] 要理解的是,潜在客户源、潜在客户头衔、潜在客户行业、潜在客户所在州、潜在客 户创建日期、潜在客户公司规模、潜在客户的状态、之前的拨号次数、之前的电子邮件数目、 之前的动作W及自上次动作之后的小时数的输入特征仅为至LRMMOD输出决策的示例输 入特征。其他示例输入特征可W包括但不限于响应代理头衔、响应方法、响应消息类型、响 应定时、代理或潜在客户人口统计简档、代理或潜在客户组织简档、代理或潜在客户的屯、理 简档、代理或潜在客户社交网络简档、代理或潜在客户的地理简档、响应频率W及响应持续 性。另外地,输入特征可W包括关于诸如与政治、经济、自然现象、社会和文化有关的当前事 件的数据。
[008引图7是多个正确的MOD输出决策的示意性流程图500。如图500中所公开地,皿S机器学习模型或MOR机器学习模型或两者的结合可W针对给定输入特征向量X来生成多个 正确的输出决策502和504。虽然在典型决策做出过程中,通常假定给定固定的输入存在唯 一的正确决策,但是针对LRMMOD决策,可W存在多个正确的决策,其全部可W产生相似的 有利结果。可W基于可用资源在多个正确决策当中选择决策。例如,如果具有响应代理头 衔Zi= "销售经理"的特定响应代理在特定时间不可用,则可W做出具有响应代理头衔Zi= "销售代表"的另外的正确决策。在同时认为多个输出决策正确的情况下,术语"正确"可W 指代每个具有基本上相似的输出值的多个输出决策。例如,图7的输出决策502和504中 的每个可W具有相同或基本上相似的输出值,该表示执行任一输出决策将产生相似的有利 结果。另外地或替选地,术语"正确"可W指代每个具有在预定阔值之上的输出值的多个输 出
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1