用于策略部署的风险量化的制作方法_2

文档序号：9866421阅读：来源：国知局

块122。策略管理模块122代表生成策略120和/或计算统计保证W确保策略120对于部署来说是安全的（例如，至少显示出先前部署的策略的性能等级）的功能。
[0042] 该功能的实例被示为强化学习模块124,其被用于部署强化学习技术来保证新策略的部署将相对于当前使用的策略（即，部署策略）具有改进。强化学习是机器学习的类型，其中软件代理被执行W在使累计奖励的一些概念最大化的环境中采取动作，在运种情况下使策略120的性能最大化W选择导致相关商品或服务的用户交互（例如，点击）或转换的广告118。
[0043] 例如，强化学习模块124使用强化学习来生成新策略将相对于部署策略显示出增加的性能的置信值并由此提供运种增加性能的统计保证。W各种方式生成置信值，诸如通过内容提供器102使用描述先前策略（即，现有或当前策略）的部署的部署数据。强化学习模块124然后使用新策略来处理该部署数据W计算统计保证，如此可W在不具有新策略的实际部署的情况下进行。W运种方式，内容提供器102被保护不受潜在坏策略的部署的影响，而运种坏策略会通过较低的交互和/或转换而导致降低的收益。
[0044] 作为统计保证的计算的一部分，强化学习模块124使用置信不等式126,诸如确保新策略至少显示出部署策略的量的"安全性"。集中不等式被用于解决统计保证的置信度的函数与其预期（即，期望值）的偏离。运用于约束置信值的分布，并由此提高统计保证的精度。例如，集中不等式可W约束置信值，使得阔值之上的置信值被移动到阔值处，可用于塌陷分布的尾部等等。W下描述集中不等式和强化学习的进一步讨论。
[0045] 如此，W下使用强化学习来支持与用于选择广告的策略120的选择和生成相关联的各种不同功能或其他功能。例如，强化学习和集中不等式被用于通过使用统计保证基于先前策略的部署数据量化新策略的部署中设及的风险的量。在另一实例中，强化学习和集中不等式用于选择多个策略（如果具有的话）中的哪些被部署W替代当前策略。在又一实例中，强化学习和集中不等式被用于通过迭代技术（包括策略的参数调整W及使用部署数据计算统计保证）生成新策略。W下描述并在对应附图中示出运些和其他实例的进一步讨论。
[0046] 尽管W下描述了广告的选择，但本文所描述的技术可用于各种不同类型的策略。其他策略使用的实例包括市场效应系统、新闻推荐系统、患者诊断系统、神经义肢控制、自动药品管理等中的寿命值优化。
[0047] 图2示出了详细示出强化学习模块124的示例性实施方式中的系统200。系统200 被示为包括第一实例202、第二实例204和第Ξ实例206。在第一实例中，部署策略208被用于选择广告118包括内容112 (例如，网页），其如先前所述被传输至客户设备106的用户。因此，部署数据210被策略管理模块122收集，其描述内容提供器102对部署策略208 的部署。
[0048] 在运种情况下，策略管理模块112还提出了新策略212用于替换部署策略208。然后，策略管理模块122利用强化学习模块124来确定是否部署新策略212,其包括使用参照图1所描述的集中不等式126的使用W增加新策略的可能性能的统计保证的精度。如果新策略212是"坏的"（例如，具有低于部署策略208的性能分数），则新策略212的部署例如由于失去用户交互、转换和上述其他性能测量而昂贵。
[0049] 为了执行运种确定，策略管理器模块122访问部署数据210,其描述图1的内容提供器102使用部署测量208。运种访问用于基于新策略212具有比部署策略208更好的性能的置信度来预测是否部署新策略212。W运种方式，运种预测在不具有新策略212的实际部署的情况下进行。
[0050] 在所示实例中，强化学习模块124包括置信评估模块214,其表示生成统计保证 216的功能，其实例在W下被描述为算法1和"安全"。通过使用集中不等式，统计保证216 被用于基于被图1的集中不等式126约束的部署数据210使用针对新策略212计算的置信值量化新策略212的部署的风险。运提高了相对于传统技术的精度。因此，不同于传统技术，统计保证216指示由强化学习模块124学习的置信值表示的估计是正确的置信量。例如，给出部署策略208、来自部署策略208的部署的部署数据210化及性能等级"fmm"，通过限定估计精度的统计保证216来表示新策略212性能处于至少"fmm"的等级的置信度。
[0051] 如图3A所不，考虑不图300。水平轴是"fmiti"，其是策略的性能。垂直轴是置?目度，并且部署策略208在示图300中具有性能302。使用从部署策略208的部署收集的部署数据210来评估新策略212,其导致示图300中绘制的置信值304。置信值304表示性能至少为水平轴上指定的值的置信度，并由此为该性能的统计保证。在所示实例中，性能为至少 0.08的置信度几乎为1。性能为至少0.086的置信度接近0。应该注意，运不意味着新策略 212的实际性能不是运么好，而是意味着还不能利用任何实际置信度来保证性能。
[0052] 该实例中的统计保证的置信值304支持强论证来部署新策略212,因为该值表示新策略212将比部署策略208执行得更好的高置信度。在该实例中表示实际部署的新策略 212的性能306也在示图300中示出。可W在W下算法1的讨论中找到并且在对应附图中示出该实例的进一步讨论。
[0053] 在第二实例204中，还示出了描述部署策略208的部署的部署数据210。在该实例中，策略改进模块218用于处理多个策略220 W进行策略选择222,其具有性能大于部署策略208的相关统计保证。如前所述，传统方法不包括生成统计保证的技术，其中一个策略将相对于另一个显示出改进。如此，难W使用运些传统方法来证明新策略的部署，尤其是由于坏策略的部署会是昂贵的（例如，具有低点击率）。
[0054] 由策略改进模块218实施W进行运种选择的功能被称为"策略改进算法"并且在 W下还称为"算法2"。在该实例中，策略改进模块218捜索一组策略220并且如果选择被确定为"安全"则进行策略选择222。如果策略220的性能好于性能等级（例如，"fmi。"）并且在置信等级内（例如，"1-δ ")，则选择是安全的。
[00巧]可通过用户来限定性能等级（例如Z'fmin")和置信等级（例如，"1-δ ")。例如，用户选择"δ =0.5"且"fmm= 1. 1乘W (部署策略的性能）"意味着W95%的置信度保证性能的10%改进。因此，如果可W根据安全的定义保证是安全的，则策略改进模块218将在该实例中仅建议新策略。策略改进模块218可各种方式来进行运种确定，诸如采用在第一实例202 (例如，W下为算法1)中描述的置信评估模块214。
[0056] 在第Ξ实例206中，示出了用于安全策略部署的自动系统。在先前实例中，描述了数据用于选择策略的分布，例如作为其采用现有数据并提出单个新策略的"批量"。然而，在该实例中，描述了上述分布的迭代版本，其功能被示为可用于生成新策略226的策略生成模块224。例如，迭代可用于调整策略的参数，利用置信度的限定等级确定具有调整的策略是否将比部署策略208显示出更好的性能，如果是，则部署新策略226作为替换。因此，策略生成模块224被配置为进行一系列改变W生成新策略226,诸如连续多次应用由策略改进模块218所表示的功能，添加记录本来跟踪对策略参数进行的改变。
[0057] 在第二实例204中，针对部署策略208在一时间段（例如，一月）内收集部署数据 210 W进行新策略220的策略选择222。在第Ξ实例206中，收集部署数据210直到找到新策略226为止，然后策略管理模块122使得立即切换到执行新策略226,例如来替代部署策略208。可W针对多个"新"策略重复该处理W替换部署策略。W运种方式，可W通过容易地实施新策略26来实现改进的性能，可W在W下实例中的"算法3"和"代达罗斯值aedalus)" 的描述中找到进一步的描述。
[0058] 连施示例
[0059] 用"S"和"A"表示可能状态和动作的集合，其中状态描述对内容（例如，用户或用户访问的特性）的访问，W及动作源于使用策略120进行的判定。尽管W下使用马尔克夫判定处理（MDP)，但通过用观察结果代替状态，结果可W直接利用反应策略对P0MDP执行。假设奖励被约束"rte bmi。，rmJ"，并且"te擬'"被用于索引时间，从"t = 1"开始，其中相对于状态具有一些固定分布。表达"η (S，a，Θ)"被用于表示当使用策略参数"沒- 时状态"S"下的动作"a"的可能性（密度或质量），其中"ne "是整数，策略参数空间的维度。
[0060] 假设"f;歴@ 潑"是将策略120的策略参数看作"31 (.，.，Θ )"的期望返回值，良P，对于任何"Θ "来说，
[0061]
[0062] 其中，"丫 "是指定随时间的奖励的折扣的[0, 1]间隔中的参数。问题可W包括有限范围，其中每个轨迹在"T"时间步内到达终端状态。因此，每个轨迹"τ "是状态（或观察结果）、动作和奖励的排序集合："τ={Sl，al，;rl，S2，a2，r2，…，Sτ，aτ，rτ}"。为了简化分析，不损失普遍性，可^进行返回值"^^...1}，'$~"3?'6"总是在间隔[0，1]中的要求。运可^ 通过缩放和转换奖励来实现。
[0063] 获取数据集合"D"，其包括"η"个轨迹，用策略参数来标记，如下生成它们：
[0064] D 二{(下 i 目 i) :i Ε (1，. . .，η}，I i generated using 目 J，
[0065] 其中，"Θ/'表示第i个参数矢量/< Θ "不是"Θ "的第i个元素。最后，获取 ΕΕ"和置信等级"δ e [oa]"。
[0066] 当利用置信度"1- δ "确定"f ( θ ) > fmm"时，如果仅提出了新策略参数"θ "，则认为算法是安全的。如果利用置信度"1- δ "确定"f ( Θ ) > fmm"测量参数"Θ "(与算法相对）被认为是安全的。注意，说明策略是安全的是关于给出一些数据的策略的信任的申明而不是关于策略本身的申明。此外，注意，确保"Θ "是安全的等效于确保利用显著等级 "δ "拒绝"f( Θ )《fmi。"的假设。运种置信度和假设测试框架被

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6