用于策略部署的风险量化的制作方法_2

文档序号:9866421阅读:来源:国知局
块122。策略管理模块122代表生成策 略120和/或计算统计保证W确保策略120对于部署来说是安全的(例如,至少显示出先 前部署的策略的性能等级)的功能。
[0042] 该功能的实例被示为强化学习模块124,其被用于部署强化学习技术来保证新策 略的部署将相对于当前使用的策略(即,部署策略)具有改进。强化学习是机器学习的类 型,其中软件代理被执行W在使累计奖励的一些概念最大化的环境中采取动作,在运种情 况下使策略120的性能最大化W选择导致相关商品或服务的用户交互(例如,点击)或转 换的广告118。
[0043] 例如,强化学习模块124使用强化学习来生成新策略将相对于部署策略显示出增 加的性能的置信值并由此提供运种增加性能的统计保证。W各种方式生成置信值,诸如通 过内容提供器102使用描述先前策略(即,现有或当前策略)的部署的部署数据。强化学 习模块124然后使用新策略来处理该部署数据W计算统计保证,如此可W在不具有新策略 的实际部署的情况下进行。W运种方式,内容提供器102被保护不受潜在坏策略的部署的 影响,而运种坏策略会通过较低的交互和/或转换而导致降低的收益。
[0044] 作为统计保证的计算的一部分,强化学习模块124使用置信不等式126,诸如确保 新策略至少显示出部署策略的量的"安全性"。集中不等式被用于解决统计保证的置信度的 函数与其预期(即,期望值)的偏离。运用于约束置信值的分布,并由此提高统计保证的精 度。例如,集中不等式可W约束置信值,使得阔值之上的置信值被移动到阔值处,可用于塌 陷分布的尾部等等。W下描述集中不等式和强化学习的进一步讨论。
[0045] 如此,W下使用强化学习来支持与用于选择广告的策略120的选择和生成相关联 的各种不同功能或其他功能。例如,强化学习和集中不等式被用于通过使用统计保证基于 先前策略的部署数据量化新策略的部署中设及的风险的量。在另一实例中,强化学习和集 中不等式用于选择多个策略(如果具有的话)中的哪些被部署W替代当前策略。在又一实 例中,强化学习和集中不等式被用于通过迭代技术(包括策略的参数调整W及使用部署数 据计算统计保证)生成新策略。W下描述并在对应附图中示出运些和其他实例的进一步讨 论。
[0046] 尽管W下描述了广告的选择,但本文所描述的技术可用于各种不同类型的策略。 其他策略使用的实例包括市场效应系统、新闻推荐系统、患者诊断系统、神经义肢控制、自 动药品管理等中的寿命值优化。
[0047] 图2示出了详细示出强化学习模块124的示例性实施方式中的系统200。系统200 被示为包括第一实例202、第二实例204和第Ξ实例206。在第一实例中,部署策略208被 用于选择广告118包括内容112 (例如,网页),其如先前所述被传输至客户设备106的用 户。因此,部署数据210被策略管理模块122收集,其描述内容提供器102对部署策略208 的部署。
[0048] 在运种情况下,策略管理模块112还提出了新策略212用于替换部署策略208。然 后,策略管理模块122利用强化学习模块124来确定是否部署新策略212,其包括使用参照 图1所描述的集中不等式126的使用W增加新策略的可能性能的统计保证的精度。如果新 策略212是"坏的"(例如,具有低于部署策略208的性能分数),则新策略212的部署例如 由于失去用户交互、转换和上述其他性能测量而昂贵。
[0049] 为了执行运种确定,策略管理器模块122访问部署数据210,其描述图1的内容提 供器102使用部署测量208。运种访问用于基于新策略212具有比部署策略208更好的性 能的置信度来预测是否部署新策略212。W运种方式,运种预测在不具有新策略212的实际 部署的情况下进行。
[0050] 在所示实例中,强化学习模块124包括置信评估模块214,其表示生成统计保证 216的功能,其实例在W下被描述为算法1和"安全"。通过使用集中不等式,统计保证216 被用于基于被图1的集中不等式126约束的部署数据210使用针对新策略212计算的置信 值量化新策略212的部署的风险。运提高了相对于传统技术的精度。因此,不同于传统技 术,统计保证216指示由强化学习模块124学习的置信值表示的估计是正确的置信量。例 如,给出部署策略208、来自部署策略208的部署的部署数据210化及性能等级"fmm",通过 限定估计精度的统计保证216来表示新策略212性能处于至少"fmm"的等级的置信度。
[0051] 如图3A所不,考虑不图300。水平轴是"fmiti",其是策略的性能。垂直轴是置?目度, 并且部署策略208在示图300中具有性能302。使用从部署策略208的部署收集的部署数 据210来评估新策略212,其导致示图300中绘制的置信值304。置信值304表示性能至少 为水平轴上指定的值的置信度,并由此为该性能的统计保证。在所示实例中,性能为至少 0.08的置信度几乎为1。性能为至少0.086的置信度接近0。应该注意,运不意味着新策略 212的实际性能不是运么好,而是意味着还不能利用任何实际置信度来保证性能。
[0052] 该实例中的统计保证的置信值304支持强论证来部署新策略212,因为该值表示 新策略212将比部署策略208执行得更好的高置信度。在该实例中表示实际部署的新策略 212的性能306也在示图300中示出。可W在W下算法1的讨论中找到并且在对应附图中 示出该实例的进一步讨论。
[0053] 在第二实例204中,还示出了描述部署策略208的部署的部署数据210。在该实例 中,策略改进模块218用于处理多个策略220 W进行策略选择222,其具有性能大于部署策 略208的相关统计保证。如前所述,传统方法不包括生成统计保证的技术,其中一个策略将 相对于另一个显示出改进。如此,难W使用运些传统方法来证明新策略的部署,尤其是由于 坏策略的部署会是昂贵的(例如,具有低点击率)。
[0054] 由策略改进模块218实施W进行运种选择的功能被称为"策略改进算法"并且在 W下还称为"算法2"。在该实例中,策略改进模块218捜索一组策略220并且如果选择被 确定为"安全"则进行策略选择222。如果策略220的性能好于性能等级(例如,"fmi。")并 且在置信等级内(例如,"1-δ "),则选择是安全的。
[00巧]可通过用户来限定性能等级(例如Z'fmin")和置信等级(例如,"1-δ ")。例如, 用户选择"δ =0.5"且"fmm= 1. 1乘W (部署策略的性能)"意味着W95%的置信度保 证性能的10%改进。因此,如果可W根据安全的定义保证是安全的,则策略改进模块218将 在该实例中仅建议新策略。策略改进模块218可各种方式来进行运种确定,诸如采用 在第一实例202 (例如,W下为算法1)中描述的置信评估模块214。
[0056] 在第Ξ实例206中,示出了用于安全策略部署的自动系统。在先前实例中,描述了 数据用于选择策略的分布,例如作为其采用现有数据并提出单个新策略的"批量"。然而,在 该实例中,描述了上述分布的迭代版本,其功能被示为可用于生成新策略226的策略生成 模块224。例如,迭代可用于调整策略的参数,利用置信度的限定等级确定具有调整的策略 是否将比部署策略208显示出更好的性能,如果是,则部署新策略226作为替换。因此,策 略生成模块224被配置为进行一系列改变W生成新策略226,诸如连续多次应用由策略改 进模块218所表示的功能,添加记录本来跟踪对策略参数进行的改变。
[0057] 在第二实例204中,针对部署策略208在一时间段(例如,一月)内收集部署数据 210 W进行新策略220的策略选择222。在第Ξ实例206中,收集部署数据210直到找到新 策略226为止,然后策略管理模块122使得立即切换到执行新策略226,例如来替代部署策 略208。可W针对多个"新"策略重复该处理W替换部署策略。W运种方式,可W通过容易地 实施新策略26来实现改进的性能,可W在W下实例中的"算法3"和"代达罗斯值aedalus)" 的描述中找到进一步的描述。
[0058] 连施示例
[0059] 用"S"和"A"表示可能状态和动作的集合,其中状态描述对内容(例如,用户或用 户访问的特性)的访问,W及动作源于使用策略120进行的判定。尽管W下使用马尔克夫判 定处理(MDP),但通过用观察结果代替状态,结果可W直接利用反应策略对P0MDP执行。假 设奖励被约束"rte bmi。,rmJ",并且"te擬'"被用于索引时间,从"t = 1"开始,其中相 对于状态具有一些固定分布。表达"η (S,a,Θ)"被用于表示当使用策略参数"沒- 时状态"S"下的动作"a"的可能性(密度或质量),其中"ne "是整数,策略参数空间的维 度。
[0060] 假设"f;歴@ 潑"是将策略120的策略参数看作"31 (.,.,Θ )"的期望返回值, 良P,对于任何"Θ "来说,
[0061]
[0062] 其中,"丫 "是指定随时间的奖励的折扣的[0, 1]间隔中的参数。问题可W包括有 限范围,其中每个轨迹在"T"时间步内到达终端状态。因此,每个轨迹"τ "是状态(或观 察结果)、动作和奖励的排序集合:"τ={Sl,al,;rl,S2,a2,r2,…,Sτ,aτ,rτ}"。为了简化 分析,不损失普遍性,可^进行返回值"^^...1},'$~"3?'6"总是在间隔[0,1]中的要求。运可^ 通过缩放和转换奖励来实现。
[0063] 获取数据集合"D",其包括"η"个轨迹,用策略参数来标记,如下生成它们:
[0064] D 二{(下 i 目 i) :i Ε (1,. . .,η},I i generated using 目 J,
[0065] 其中,"Θ/'表示第i个参数矢量/< Θ "不是"Θ "的第i个元素。最后,获取 ΕΕ"和置信等级"δ e [oa]"。
[0066] 当利用置信度"1- δ "确定"f ( θ ) > fmm"时,如果仅提出了新策略参数"θ ",则 认为算法是安全的。如果利用置信度"1- δ "确定"f ( Θ ) > fmm"测量参数"Θ "(与算法 相对)被认为是安全的。注意,说明策略是安全的是关于给出一些数据的策略的信任的申 明而不是关于策略本身的申明。此外,注意,确保"Θ "是安全的等效于确保利用显著等级 "δ "拒绝"f( Θ )《fmi。"的假设。运种置信度和假设测试框架被
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1