用于策略部署的风险量化的制作方法

文档序号:9866421阅读:371来源:国知局
用于策略部署的风险量化的制作方法
【技术领域】
[0001] 本发明的各实施方式总体上设及计算机领域,具体地设及用于策略部署的风险量 化。
【背景技术】
[0002] 用户经由因特网接触越来越多的各种内容(诸如网页)。一种用于使内容提供器 提供运些内容货币化的技术是通过加入广告。例如,用户可W访问包括各种广告的网页并 且可W选择(例如,"点击")感兴趣的广告来得到关于该广告中提到的商品或服务的附加 信息。因此,商品或服务的提供器可W向内容提供器提供报酬用于包括广告W及用于潜在 消费者选择广告。
[0003] 可W使用策略W选择哪些广告被呈现给特定用户或用户组。例如,可W收集描述 用户、用户与内容的交互等的数据。然后,该数据可被策略用于确定哪些广告被呈献给用 户,诸如增加用户将选择所包括广告中的一个或多个的可能性。然而,用于选择策略部署的 传统技术不具有用于保证新选择的策略将比当前策略执行得更加好的机制。
[0004] 例如,存在被称为"策略脱离(off-policy)评价技术"的用于估计策略性能的传 统解决方案。然而,运些传统的策略脱离评价技术不能W任何方式约束或描述运种评价的 精度。例如,运些现有技术不提供新策略实际上要差于所部署策略的机会的知识。从而,运 些传统技术可能潜在地损失收益W及源于较差表现策略的低效。

【发明内容】

[0005] 描述了风险量化、策略捜索和自动安全策略部署技术。在一个或多个实施方式中, 运些技术用于确定策略的安全性,诸如表示新策略将相对于当前部署的策略显示出增加的 性能(例如,交互或转换)测量的置信等级。为了进行运种确定,使用强化学习和集中不等 式,其生成和约束关于策略的性能测量的置信值,因此提供该性能的统计保证。运些技术可 用于量化策略部署中的风险,基于估计的性能和运种估计中的置信等级(例如,可W包括 使用策略空间来减少被处理数据的量)选择用于部署的策略,用于通过交互(其中,策略的 参数被迭代调整,并且运些调整的效果被评估等等)创建新策略。
[0006] 该
【发明内容】
部分W简化形式介绍了概念的选择,在W下【具体实施方式】部分进行进 一步的描述。如此,该
【发明内容】
部分不用于表示所要求主题的主要特征,也不用于帮助确定 所要求主题的范围。
【附图说明】
[0007] 参照附图描述【具体实施方式】。在附图中,参考标号最左边的数字表示参考标号首 先出现的附图。说明书和附图中的不同实例中使用相同的参考标号可W表示类似或相同的 项目。附图中表示的实体可W表示一个或多个实体,由此可W在讨论中W单个或多个实体 形式来互换地进行参考。
[0008] 图1是可用于使用本文描述的技术的示例性实施方式的环境的示图。
[0009] 图2示出了详细示出强化学习模块的示例性实施方式的系统。
[0010] 图3A示出了策略的性能和置信的示图。
[0011] 图3B包括提供概率密度函数的经验估计的曲线。
[0012] 图4示出了不同的集中不等式函数的结果的图表。
[0013] 图5示出了确定策略参数的安全性的实例。
[0014] 图6示出了 W下算法1的伪码的实例。
[0015] 图7示出了 W下算法2的伪码的实例。
[0016] 图8示出了 W下算法3的伪码的实例。
[0017] 图9是示出描述用于策略改进的风险量化的技术的示例性实施方式中的程序的 流程图。
[0018] 图10是示出描述包括策略捜索的一个或多个部署策略的替换控制的示例性实施 方式中的程序的流程图。
[0019] 图11是示出通过利用策略空间执行选择策略W替换部署策略来提高效率的示例 性实施方式中的程序的流程图。
[0020] 图12是示出迭代生成新策略并用于替换部署策略的示例性实施方式中的程序的 流程图。
[0021] 图13示出了执行策略改进技术和算法3的结果。
[002引图14表示NAC的性能与手动优化超参数进行比较的示例性结果。
[0023] 图15示出了算法3的应用的结果。
[0024] 图16示出了包括可W如所描述的和/或参照图1至图15使用的实施为任何类型 的计算设备的示例性设备的各个部件W实施本文所描述技术的实施例的示例性系统。
【具体实施方式】 [00巧]歷
[0026] 策略被用于确定哪些广告被选择用于包括将被发送给特定用户的内容。例如,用 户可W经由网络访问内容提供器W获取内容,诸如通过使用浏览器来获取特定网页。运种 访问被内容提供器用于识别与运种访问相关的特性,诸如用户的特性(例如,人口统计资 料)W及访问本身的特性(例如,日期、地理位置等)。运些特性被内容提供器使用策略进 行处理W确定哪些广告将被选择用于包括在传输回用户的网页中。因此,策略可用于基于 访问的不同特性选择不同的广告用于包括在内容中。
[0027] 然而,用户部署策略的传统技术不具有约束或量化新策略是否比当前部署的策略 执行得更好的精度的机制。为此,运些传统技术通常迫使用户进行关于新策略是否具有更 好性能的最佳猜测,例如使得增加广告的选择数量,使得增加用户购买商品或服务的转换 的数量等等。
[0028] 因此,描述用于部署策略的风险可被量化的技术,其用于支持各种功能。例如,描 述现有策略的部署的数据被访问和处理W确定新策略是否将相对于现有策略显示出提高 的性能。运通过计算表示新策略的性能将至少满足限定值(例如,其可W基于部署策略的 性能)的置信度的置信值来进行,因此用作该性能的统计保证。
[0029] 为了计算统计保证,集中不等式被用作W下强化学习的一部分。强化学习是机器 学习的一种类型,其中软件代理被执行W在使累积奖的一些概念最大化的环境中采取动 作。在该实例中,奖励是使测量的性能最大化W选择广告,诸如增加广告的选择数量(例 如,"点击")、广告的转换(例如,导致"购买")等。
[0030] 集中不等式被用作强度学习的一部分W确保安全性,新策略显示出至少为部署策 略的量的性能。例如,集中不等式被用于解决独立随机变量的函数与它们的期望值的偏离。 因此,集中不等式提供了对运些分配的约束并且确保结果的精度。例如,如下面进一步描述 的集中不等式可约束值使得阔值W上存在的值被移动到阔值处,可用于塌陷分布的尾部等 等。
[0031] W下,首先在算法1中表示集中不等式,其允许关于策略是否安全用于部署并由 此选择广告而不降低性能的有效确定。第二,在算法2中表示安全批量强化学习算法,其被 配置为利用强化学习和集中不等式来选择用于部署的策略。第Ξ,在算法3中表示安全迭 代算法,其被配置为使用强化学习和集中不等式通过参数和分析的迭代调整生成新策略W 确定何时运些调整可能增加性能。即使算法3确保安全性,但其与通过使用策略空间如W 下进一步描述的最先进的重度调整的非安全算法相比具有合理的采样效率。
[0032] 首先描述可采用本文描述的技术的示例性环境。然后,描述可W在示例性环境W 及其他环境中执行的示例性程序和实施实例。从而,示例性程序的执行不限于示例性环境 和实施实例,并且示例性环境不限于示例性程序的执行。
[0033] 示例忡环培
[0034] 图1是可用于采用本文描述的强化学习和集中不等式的示例性实施方式中的环 境100的示图。所示环境100包括内容提供器102、策略服务104和客户设备106,它们经 由网络108相互通信禪合。实施运些实体的计算设备可各种方式进行配置。
[0035] 例如,计算设备可配置为桌上型计算机、膝上型计算机、移动该设备(例如,假设 诸如平板或移动电话的手持结构)等。因此,计算设备包括从全资源设备(具有重要的存 储器和处理器资源)(例如,个人计算机、游戏控制台)到低资源设备(具有有限的存储器 和/或处理资源)(例如,移动设备)的范围。此外,尽管示出了单个计算设备,但计算设备 还代表多个不同的设备,诸如被企业用于"在云上"执行操作的多个服务器,如内容提供器 102和策略范围104所示并且参照图16所进一步描述的。
[0036] 客户设备106被示为包括通信模块110,其表示经由网络108访问内容112的功 能。通信模块110例如被配置为浏览器、能够联网的应用、第Ξ方插件等。如此,通信模块 110经由网络108访问内容提供器102的各种不同内容112,其被示为存储在存储器114中。 内容112可各种方式进行配置,诸如网页、图像、音乐、多媒体文件等。
[0037] 内容提供器102包括内容管理器模块116,其表示管理内容112的提供的功能,从 而包括哪些广告118与内容112 -起被包括。为了确定哪些广告118包括内容112,内容管 理器模块116采用策略120。
[0038] 当用户导航到诸如网页的内容112时,例如,包含用户的已知属性的列表被形成 为特征矢量,其中特征矢量的值反映用户的当前状态或观察。例如,特征矢量的值可W描述 开始访问内容112的用户的特性(例如,诸如年龄和性别的人口统计)和/或如何执行访 问,诸如用于执行访问的客户设备106或网络106的特性、访问本身的特性(诸如时间、星 期几)、什么导致访问(例如,网页上链接的选择)等。
[0039] 因此,特征矢量被配置为表示用户的数量和被观察的访问的数字特征的η维矢 量。W下,策略120基于关于用户的被观察当前状态(例如,通过上述特征矢量表示)的判 定来执行动作。例如,内容管理器模块116首先观察用户的状态,然后使用策略120判定将 采取何种动作。在所示情况下,可能的动作是哪些广告118被选择用于被客户设备106显 示。因此,如果存在十个可能的广告,则在该实例中存在十种可能的动作。
[0040] 策略120的性能可W通过各种方式进行测量。例如,性能被定义为与广告118的 用户交互的测量(例如,用户"点击"的频繁程度),因此在W下讨论中越高越好。在另一实 例中,性能被定义为广告118的转换率,例如在选择广告118之后购买商品或服务,因此在 该实例中也是越高越好。应该注意,不同的策略可具有不同的性能。例如,一些策略可导致 对广告的高点击率,而其他策略不会。随后,该实例的目标是部署具有最好可能性能的策略 120,即支持最多的交互、转换等等。
[0041] 为了确保安全策略被部署至少显示性能的限定等级(例如,至少等于部署策略的 性能W及限定裕度),策略服务104利用策略管理模
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1