实例加权学习机器学习模型的制作方法_3

文档序号：9240049阅读：来源：国知局

P3W及MLP4。然后，可W采用该些 MLP神经网络分类器W基于图3B的输入特征向量X并且基于所有其他预测分量来预测MOD 输出决策Z的多个相互依赖的输出分量，即分别为Zi、Z2、Z3和Z4。可W义用MOD输出决策 ZW针对给定的潜在客户来决定在将使潜在客户的联系或资格鉴定最优化的序列中接下来应执行何种响应。
[0050]在图3至图4和图6至图IOB的示例LRM实现方式中，Zi=响应代理头衔，Z2= 响应方法，Zs=响应消息类型，并且Z4=响应定时。根据（X，Z2,Z3,Z4;Zi)来训练分类器 MLPl W使用X、Z2、Zg及Z4作为输入来预测响应代理头衔Z1;根据（X，Z1，Z3,Z4;Z2)来训练分类器MLP2 W使用X、Zi、Zs及Z4作为输入来预测响应方法Z2;根据（X，Z1，Z2,Z4;Z3)来训练分类器MLP3 W使用X、Zi、Z2及Z4作为输入来预测响应消息类型Z3;并且根据（X，Z1，Z2， Z3;Z4)来训练分类器MLP4 W使用X、Zi、Z2及Z3作为输入来预测响应定时Z4。分量Zi、Z2、 Z3及Z4中的每个分量具有如下的S个（3)可能的值；ZiG{Z。，Zi2,Zis} = {销售副总裁、销售经理、销售代表}!ZgG{Z21，Z22，Z23} = {呼叫、电子邮件、传真}!ZgG{Z31，Z32，Z33}= {MT1，MT2，MT3} 及Z4G{z"，Z42，Z43} = {短、中等、长}。
[0051] 要理解的是，分量Zi、Z2、Zg和Z4之间存在相互依赖性。例如，对分量Z2(响应方法）的决策可W对分量Z4(响应定时）的决策具有影响。例如，如果Z2=拨号，则代理可能需要考虑潜在客户何时有空可W在电话上讲话（例如，通常在潜在客户所属的时区的工作时间期间）。如果Z2=电子邮件，则代理可W在任何时间发送电子邮件。
[0052] 还要理解的是，响应代理头衔、响应方法、响应消息类型W及响应定时该些分量仅为LRMMOD输出决策的示例分量。其他示例分量可W包括但不限于：代理或潜在客户的人口统计简档；代理或潜在客户的组织简档（即，可W包括代理与潜在客户之间的过去的交互的代理或潜在客户的生活中的事件的简档）；潜在客户联系人头衔（即，潜在客户组织内的特定联系人的头衔）；代理或潜在客户的屯、理简档（即，代理或潜在客户的屯、理特征的简档）；代理或潜在客户的社交网络简档（即，在线社交网络诸如LinkedIn⑩或 FaceBook?或者离线社交网络诸如化化巧reneursOrganization⑩、市民俱乐部、联谊会或团体中的代理与潜在客户的接近度）；代理或潜在客户的地理简档（即，定义代理或潜在客户的当前和/或过去位置的城市、州或其他地理指定）；响应频率（即，代理多久联系潜在客户一次）；W及响应持续性（即，代理在联系潜在客户时持续多久）。
[005引尽管在图3至图4和图6至图IOB中的示例LRM实现方式中公开的基分类器是MLP神经网络分类器，但是要理解的是IWL可W可替选地采用其他类型的机器学习基分类器，包括但不限于其他多层神经网络、决策树、最近邻分类器W及支持向量机。此外，尽管训练MLP分类器W学习准确的策略来按照时间序列进行最优动作，W及使用LRM作为一个示例应用来更详细地说明IWU但是要理解的是，可W将IWL应用于不同于MLP算法的标准机器学习算法，应用于不同于时间序列的训练数据的类型，W及应用于不同于LM的应用领域。
[0054] 图3是示出了通过传播折算奖励来导出训练实例的质量的示例方法300的示意性流程图。如在图3中所公开地，在时间序列中的动作对整个序列的影响可W不完全由即时奖励来反映。该动作还可W对序列中的随后的动作的结果有影响。例如，当在序列中的上一动作中由代理结束交易时，序列中的之前动作中的一些动作也可能对该正结果有贡献。因此，针对每个动作，将每个动作的即时奖励中的一些即时奖励反向传播至序列中的之前动作是合理的。
[0055] 特别地，针对每个状态-动作训练实例（S。at)，存在奖励值IVrt是动作at的即时奖励并且取决于动作at的结果。奖励值rt可W是在范围[-1.0,1.0]中的实数值。如果针对在步骤t处的状态-动作对（S。at)，rt〉0,则意味着动作at在状态St处是期望的动作并且机器学习分类器应学习模仿该动作。如果针对在步骤t处的状态-动作对（St，at)，qt<0，则意味着动作at在状态at处是不期望的动作并且机器学习分类器应学习避免该动作。例如，当潜在客户合格或与潜在客户结束交易时可W分配正的奖励IV而当潜在客户要求被放在"不联系"列表上时可W分配负的奖励当存在既不是正的结果也不是负的结果时可W分配零奖励。
[0056] 为了将动作at的即时奖励rt中的一些即时奖励反向传播至序列中的之前的动作，针对在时间步骤t处的状态-动作对（S。at)的每个即时奖励IV所有之前的状态-动作对 (St，at), (St_i，at_i)，...，（Si，ai)可W接收根据Tt的折算奖励。当d是折算率时（0<d<l)，可 W将折算奖励?d,Tt?d2,…，Tt? 分配给之前的状态-动作对（St_i, 3t_i)，（St_2, 3t_2)， ...，（Si,ai)W反向传播奖励。要注意的是，在时间序列中之前的状态-动作对中的每个状态-动作对离当前的状态-动作对越远，折算奖励的该种分配结果将减小。因此，将组合奖励分配给每个状态-动作对（S。at)，该组合奖励是每个状态-动作对的即时奖励与来自随后的动作反向传播的所有折算奖励的和。在IWL中，该组合奖励可W定义为每个状态-动作对的质量值q或者贡献于每个状态-动作对的质量值q。
[0057] 例如，具有奖励（St，at，qt)的每个状态-动作训练实例可W重新表示为 (S。a。Qt),其中，屯是在传播所有奖励之后在步骤t处的质量值。换句话说，序列L=Ks 。a。Tl)，（S2, 32,心，...，（Sn,a。，O}可W重新表示为L= {(S。a。Tl)，（S2, 32,O，. ..，（Sn ，a。,O}。针对具有n个状态-动作对的每个序列L= {(Si,a。Tl)，枯，32,O，. ..，（Sn,a。， O}，可W从该序列导出n个训练实例化及将该n个训练实例添加到训练集合。然后，针对具有m个时间序列T= {Li，L,，. . .，Lm}的训练数据，可W根据被加到训练集合的每个序列导出训练实例。因此，可W添加到训练集合的训练实例的总数为N(Li)+N(Ls)+...，+N(Lm)，其中N(Li)是LiQ=1，2,…，m)的长度或者是LiQ=1，2,…，m)的状态-动作训练实例的数量。在根据时间序列T= (Li,L2，...，Lm}建立训练集合之后，可W训练分类器W学习用于决策做出的策略。训练的目的是使得机器学习分类器能够在给定输入特征向量（状态向量S)的情况下学习用于做出决策（选择动作向量a)的最优策略。针对时间序列，IWL使得分类器能够相比于从低质量训练实例学习更偏重于从高质量训练实例（该动作具有高的产生正结果的可能性）学习。例如，当训练实例具有负的质量值q时，IWL可W将负的权重分配给训练实例，因此使得分类器能够学习W避免由该训练实例采取的动作。因此，正的质量值倾向于鼓励对支持与训练实例类似的实例进行学习，而负的质量值倾向于阻止对支持与训练实例类似的实例进行学习。
[0058] 在图3的示例实现方式中，状态-动作对302至306中的每个状态-动作对具有即时奖励。例如，状态-动作对302的动作33接收为1.0的即时奖励r3308,表示在步骤3 处执行的动作曰3导致正的结果，诸如与潜在客户交易的结束。此外，状态-动作对304的动作32接收为0. 0的即时奖励r2,表示在步骤2处执行的动作32导致对于潜在客户既非正也非负的结果。另外，状态-动作对306的动作ai接收为-0. 5的即时奖励r1，表示在步骤 1处执行的动作ai导致负的结果，诸如潜在客户在销售人员的代理下一步联系之前要求延期。
[0059] 然后，可朗尋即时奖励r3308反向传播至在步骤2处发生的状态-动作对304,并且将即时奖励r3308反向传播至在步骤1处发生的状态-动作对306。当折算率是0. 9时，可W通过将折算奖励310(1.0 ? 0.9 = 0.9)与状态-动作对304的即时奖励r23〇6相加 (0. 0+0. 9 = 0. 9)并且通过将折算奖励312 (1. 0 ? 0. 9 ? 0. 9 = 0. 81)与状态-动作对306 的即时奖励Tl相加（-0. 5+0. 81 = 0. 31)来反向传播状态-动作对302的为1. 0的即时奖励r33〇8。因此，状态-动作对306的奖励是1. 0,状态-动作对304的组合奖励是0. 9,W 及状态-动作对302的组合奖励是0. 31。如在下面结合图4所讨论地，当将状态-动作对 302至306用作分类器的训练中的状态-动作训练实例时，该些值可W用作质量值q。
[0060] 图4是示出了在示例多层感知（MLP)神经网络分类器MLPl的训练中采用的示例实例加权学习（IWL)机器学习模型的示意性流程图。如在图4中所讨论地，使用状态-动作训练实例302至306的时间序列L来训练分类器MLPl。还可W使用状态-动作训练实例的时间序列的集合T或训练数据T来训练分类器MLP1，该可W表示为T= {Li，L2,. . .，Lm}; 其中Lm是用于序列i(i= 1，2,. . .，m)的状态-动作训练实例的序列。在图4的示例实现方式中，训练数据T可W包括根据m个唯一的潜在客户的m个时间序列。每个序列可W具有不同数量的状态-动作训练实例。
[0061] 特别地，每个时间序列L包括n个状态-动作对，通过时间步骤t来排序。每个时间序列可W由L= {(Si,ai), (S2, 32)，. . .，（S。，a。)}来表示；其中（S。at)表示在步骤t(t= 1，2,…，n)处的状态-动作训练实例。在图4的示例LRM中实现方式中，每个时间序列L可 W包括在数据库中记录的历史数据的序列。例如，针对在图1的潜在客户数据服务器190 中的每个唯一的潜在客户，可W存在针对销售代理与潜在客户之间的所有交互所记录的动作和结果的序列。
[0062]对于状态-动作训练实例序列L= {(Si,ai)，枯，32)，. ..，（S。，a。)};存在相关联的奖励的序列R=Iti,枯.?.，r。}，其中是针对状态-动作训练实例（S。3t)(t= 1，2,..，n) 的即时奖励。状态-动作训练实例序列L可W为如下组合的形式L= {(si，a。ri)，（S2, 32,r 2)，. . .，（s。，a。，r。)}来表示，其中，:Tt是在步骤t(t= 1，2,…，n)处的状态-动作训练实例 k"Bt)的即时奖励。
[0063]每个状态St可W由下述特征向量来表示；S t= (S t，i，，St，2，'''，St，u)，状态St表征在步骤t处的状态。例如，特征向量St= …，St,u)可W包括下面的分量；潜在客户源、潜在客户头衔、潜在客户行业、潜在客户所在州、潜在客户创建日期、潜在客户公司规模、潜在客户状态、之前的拨号次数、之前的电子邮件数目、之前的动作、自上次动作之后的小时数。
[0064] 在步骤t处的每个动作at可W由动作向量at=(at，i，，at，2,…，3t，v)来表示，其中 at，j(j= 1，2,…，V)表示动作的动作分量j。每个动作分量at，j可W采取来自用于at，j的允许动作的集合的动作。在传统强化学习的典型场景中，动作向量通常仅包括一个分量at =(atj。例如，对于玩象棋，仅有的动作分量是移动棋子。可W基于象棋的规则和当前的状态来从所有允许的移动集合中选择移动。

完整全部详细技术资料下载

当前第3页1 2 3 4 5