一种用于农资电子商务的基于Q学习的多agent主动推荐方法

文档序号:6544025阅读:191来源:国知局
一种用于农资电子商务的基于Q学习的多agent主动推荐方法
【专利摘要】本发明公开了一种用于农资电子商务的基于Q学习的多agent主动推荐方法,其特征在于,包括如下步骤:1构建多agent主动推荐系统;2状态定义;3初始化;4?Q学习计算与推荐方向选择;5推荐动作执行;6状态转换;7迭代与更新,直到满足终止条件为止。本发明有利于在大规模数据环境下消减信息过载带来的消费盲区,实现对海量信息的筛选和快速定位。
【专利说明】—种用于农资电子商务的基于Q学习的多agent主动推荐方法
【技术领域】
[0001]本发明涉及一种Q强化学习算法的多agent主动推荐方法应用到农资商品电子商务中,是智能决策在电子商务中的一种应用,属于人工智能、自动控制【技术领域】。
【背景技术】
[0002]农业生产资料主要包括化肥、农药、农膜、种子、饲料、农机具等几大类商品,是重要的农业生产要素,其中种子、化肥、农药等农资作为农业关键生产材料,直接关系农产品的产量与质量,对于保障农业生产,增加农民收入,维护国家粮食安全都有着特别重要的意义。[0003]由于农资商品需求具有季节性强;品种、品牌繁多;地域性广且分散等行业特殊属性,目前农资经营流通模式已不能适应现代农业生产的要求。又由于农资商品与农业种植密切相关,配套性、技术性强,因此,农资商品在实施电子商务过程中,必须区分与普通商品电子商务的消费模式不同,前者是生产型消费,以农业生产需要驱动消费,后者是生活型消费,以个人生活需求或兴趣习惯驱动消费。
[0004]用户主动推荐技术是应对互联网信息过载的产物。目前常规电子商务和资讯类网站多数面向用户物质或精神生活消费需求,其推荐依据用户之间的兴趣、爱好和习惯。常见的推荐方法为基于社会化的推荐和基于协同过滤的推荐,均以用户在社交网络中的交互行为及其共同爱好出发,采用图或相似度计算模型实现用户主动推荐。显然,这些推荐方法本质上由顾客生活消费行为而驱动,无法应用到以生产需求为驱动的农资电子商务领域的主动推荐系统中。同时,在大规模数据集上,为维持用户以及兴趣无规则的迁移,这类推荐算法会带来巨大存储和运算开销,一定程度上影响系统对用户的响应速度。

【发明内容】

[0005]本发明为克服现有技术的不足之处,提出一种用于农资电子商务的基于Q学习的多agent主动推荐方法,有利于在大规模数据环境下消减信息过载带来的消费盲区,实现对海量信息的筛选和快速定位。
[0006]本发明为解决技术问题采用如下技术方案:
[0007]本发明一种用于农资电子商务的基于Q学习的多agent主动推荐方法的特点包括如下步骤:
[0008]步骤1、构建多agent主动推荐系统
[0009]将多agent主动推荐系统描述为四元组S = (O, H, M, Agt),所述四元组S中,O为用户集合,所述用户集合O = 11, 02,...0j ;0i为第i个用户出为用户属性集合,所述用户属性集合H= Ih1, h2,...hj,比为用户Oi的属性集合,所述用户Oi的属性集合Iii包括用户个性化信息和用户反馈行为信息…为推荐信息全集;Agt为多智能体集合,所述多智能体集合 Agt = {agentl, agent2, agent3, agent4} ;agentl 为认知 agent, agent2 为市场 agent,agent3 为知识 agent, agent4 为决策 agent ;
[0010]步骤2、状态定义
[0011]定义系统状态集S={S(I,st, st+1},S0为初始状态,表示系统初始时刻对用户登陆行为的观察状态;st为当前状态,表示系统t时刻对用户登陆行为的观察状态;st+1为下一状态,表示系统在t+Ι时刻对用户登陆行为的观察状态;
[0012]步骤3、初始化
[0013]3.1、初始化Q学习中的参数,所述参数包括学习率α、奖惩因子r、时间衰减因子β、当前强化因子Qt、终止时刻T2、观察间隔天数T1 ;
[0014]3.2、所述决策agent通过与所述认知agent进行通信获得用户Oi在初始状态S。下的属性集合比并存入用户个性化信息库和用户行为库;
[0015]3.3、所述决策agent根据所述用户个性化信息与所述市场agent和知识agent进行通信,从所述推荐信息全集M中提取推荐信息子集a推荐给用户0i,〃 C= M,并将所述推荐信息子集a存入推荐历史库中;
[0016]3.4所述多agent主动推荐系统由初始状态Stl转换为当前状态St ;
[0017]步骤4、Q学习计算与推荐方向选择
[0018]4.1、所述决策agent通过与所述认知agent进行通信获得用户Oi在当前状态St下的属性集合h并更新所述用户个性化信息库和用户行为库;
[0019]4.2、利用式⑵获得用户Oi在当前状态St下的观察累计评估值P:
[0020]
【权利要求】
1.一种用于农资电子商务的基于Q学习的多agent主动推荐方法,其特征在于,包括如下步骤: 步骤1、构建多agent主动推荐系统 将多agent主动推荐系统描述为四元组S= (O,H,M,Agt),所述四元组S中,O为用户集合,所述用户集合O= 11, 02,...0j ;0i为第i个用户出为用户属性集合,所述用户属性集合H= Ih1, h2,...hj,比为用户Oi的属性集合,所述用户Oi的属性集合Iii包括用户个性化信息和用户反馈行为信息…为推荐信息全集;Agt为多智能体集合,所述多智能体集合Agt={agentl, agent2, agent3, agent4} ;agentl 为认知 agent, agent2 为市场 agent, agent3为知识agent, agent4为决策agent ; 步骤2、状态定义 定义系统状态集s={S(l,st, st+1},S0为初始状态,表示系统初始时刻对用户登陆行为的观察状态;st为当前状态,表示系统t时刻对用户登陆行为的观察状态;st+1为下一状态,表示系统在t+Ι时刻对用户登陆行为的观察状态; 步骤3、初始化 `3.1、初始化Q学习中的参数,所述参数包括学习率α、奖惩因子r、时间衰减因子β、当前强化因子Qt、终止时刻T2、观察间隔天数T1 ; `3.2、所述决策agent通过与所述认知agent进行通信获得用户Oi在初始状态Sci下的属性集合比并存入用户个性化信息库和用户行为库; `3.3、所述决策agent根据所述用户个性化信息与所述市场agent和知识agent进行通信,从所述推荐信息全集M中提取推荐信息子集a推荐给用户0i,acM,并将所述推荐信息子集a存入推荐历史库中; `3.4所述多agent主动推荐系统由初始状态Stl转换为当前状态St ; 步骤4、Q学习计算与推荐方向选择 `4.1、所述决策agent通过与所述认知agent进行通信获得用户Oi在当前状态St下的属性集合h并更新所述用户个性化信息库和用户行为库; `4.2、利用式(2)获得用户Oi在当前状态St下的观察累计评估值P:
【文档编号】G06F17/30GK103914560SQ201410153650
【公开日】2014年7月9日 申请日期:2014年4月16日 优先权日:2014年4月16日
【发明者】方薇, 王儒敬, 徐玲玲, 李娇娥 申请人:中国科学院合肥物质科学研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1