数据处理系统中的自动配对选择方法和装置的制作方法

文档序号：6440122阅读：115来源：国知局

专利名称：数据处理系统中的自动配对选择方法和装置的制作方法
技术领域：
本发明涉及网络数据处理技术，尤其涉及一种在网络数据处理系统中的自动配对选择方法和装置。
背景技术：
目前，随着互联网络技术的发展，各种细分领域的网络数据处理系统也纷纷出现和发展，满足了不同细分领域用户的特殊需求。例如通信网络系统可以满足用户的实名或匿名通信需求、社交网络系统可以满足用户的社交需求，电子商务平台系统可以满足用户的商品选购需求，网络博客系统可以满足用户的日志展示需求，文学网络系统可以满足用户的阅读需求等等。在网络数据处理系统中，在许多情况下系统需要根据用户的请求进行选择配对处理。例如:在匿名通信系统中为用户选择匿名通信对象，在即时通信网络或社交网络系统等其他通信网络中为用户选择推荐好友，在电子商务平台系统中为用户推荐特定的商品，在网络博客系统中为用户推荐特定的日志，在文学网络系统中为用户推荐文章等等。目前的网络数据处理系统中，后台服务系统应请求方的配对请求从众多候选的配对对象中选择一个进行配对的方式通常有以下两种。(一)米用完全随机配对方式。这种方式在收到用户的配对请求后，为用户随机选择配对对象。例如在匿名通信系统中，信息收取方发出的通信请求即为配对请求，系统收到该通信请求后从数量众多的配对对象即信息传播单元中选择一个给信息收取方，并进一步建立该信息传播单元发起方与所述收取方之间的通信。这种随机配对方式的缺点是:随机选择出的配对对象与配对请求方的相关度极低，用户往往不满意系统随机选择的配对对象，导致最终的配对成功率极低。(二)根据人工经验设置的静态配对方式。例如在现有的某一款叫做“漂流瓶”的匿名通信系统中，其中的“定向瓶”，“交往瓶”都是根据用户的地域或性别信息人工设定了配对的概率。这种根据用户的属性特征设置固定配对策略的方法，相对于完全随机的配对策略，选择出的信息传播单元与收取方的状态信息的相关度有了一些提高，但是这种方法仍然存在着以下缺点:I)这种方法人为地根据大多数用户的喜好而设计配对策略并作用于全局用户，而忽略了不同用户的个性化需求，造成部分用户状态信息与配对出的配对对象的相关度不闻。2)用户对匿名交流对象的喜好很可能会随着不同的日期(如工作日或节假日会有不同)、不同时段而发生变化，采用这种人工静态配对方式将无法适应这种动态的用户状态变更的需求，造成在某些动态条件下用户状态信息与配对出的配对对象的相关度不高。3)由于这种方法是通过人工根据经验来进行配对，因此在设定配对概率的时候一般采用的是估计值，因此很难给出与收取方高度相关的配对对象。
4)对用户反馈的应对速度慢。虽然人工设置的静态配对策略可以通过观察分析用户在一段时期的使用情况来调整配对策略，但是这种反馈机制周期较长，无法迅速对用户的使用情况做出策略的调整。总之，现有的网络数据处理系统为配对请求方选择配对对象的方法，选择出的配对对象与配对请求方的状态(包括静态状态和动态状态)的相关度不高，所述配对请求方往往不满意配对结果，导致最终的配对成功率不高。

发明内容
有鉴于此，本发明的主要目的在于提供一种数据处理系统中的自动配对选择方法和装置，以提高选择出的配对对象与配对请求方的相关度。本发明的技术方案是这样实现的:一种数据处理系统中的自动配对选择方法，包括:A、接受针对用户的配对请求；B、检测所述用户当前时刻的状态信息，利用预设的增强学习函数中的状态与配对对象类型选择概率的映射关系，计算用户当前时刻的状态信息对应的不同配对对象类型的选中概率；C、根据所述选中概率选择一种配对对象；D、检测用户对所选的配对对象的反应动作信息，根据所获取的反应动作信息对所述增强学习函数中的相应状态与相应配对对象类型选择概率进行反馈修正。一种数据处理系统中的自动配对选择装置，包括:请求接收模块，用于接受针对用户的配对请求，在接收到后触发状态信息检测模块；状态信息检测模块，用于检测所述用户当前时刻的状态信息，并输入到增强学习模块；增强学习模块，其中存储增强学习函数中的状态与配对对象类型选择概率的映射关系，用于利用所述映射关系计算用户当前时刻的状态信息对应的不同配对对象类型的选中概率；对象选择模块，用于根据所述增强学习模块计算出的选中概率选择一种配对对象；反应信息检测模块，用于检测用户对所选的配对对象的反应动作信息；修正模块，用于根据反应信息检测模块检测的反应动作信息对所述增强学习函数中的相应状态与相应配对对象类型的选择概率进行反馈修正。与现有技术相比，本发明将用户的状态信息输入到增强学习函数中，利用增强学习函数中的状态与配对对象类型选择概率的映射关系，计算用户状态信息对应的不同配对对象类型的选中概率，根据该选中概率选择配对对象，并根据用户的反应对增强学习函数进行反馈修正。从而可以根据用户状态选择配对对象，提高选择出的配对对象与配对请求方的相关度，进而提闻最终的配对成功率。

图1本发明所述自动配对选择方法的一种流程图；图2本发明所述自动配对选择装置的一种组成示意图；图3为本发明所述自动配对选择装置在匿名通信系统中自动配对选择通信对象的一种实施方法的示意图；图4为本发明所述的自动配对选择装置的一种类型和分布图；图5为本发明所述初始化自动配对选择装置的一种详细流程图；图6为本发明所述通过阈值移动进行选择策略外部干预的一种实施例的示意图。
具体实施例方式下面结合附图及具体实施例对本发明再作进一步详细的说明。图1本发明所述数据处理系统中的自动配对选择方法的一种流程图。参见图1，本发明的方法主要包括:步骤101、接受针对用户的配对请求；步骤102、检测所述用户当前时刻的状态信息，利用预设的增强学习函数中的状态与配对对象类型选择概率的映射关系，计算用户当前时刻的状态信息对应的不同配对对象类型的选中概率；步骤103、根据所述选中概率选择一种配对对象；步骤104、检测用户对所选的配对对象的反应动作信息，根据所获取的反应动作信息对所述增强学习函数中的相应状态与相应配对对象类型选择概率进行反馈修正。本发明所述的针对用户的配对请求可以是:在线用户在线发起的配对请求，该配对请求针对发起请求的用户，如匿名通信系统中用户发起的配对请求；也可以是系统侧在用户离线情况下，针对某个用户或系统内的各个用户发起的配对请求，如在电子商务平台系统中为用户推荐特定的商品而发起的用户与商品配对的请求，在网络博客系统中为用户推荐特定的日志而发起的用户与特定日志配对的请求等等。之后如果用户发起新的配对请求再返回到步骤101重新进行选择和对应的修正过程，通过大量的选择和修正过程使得不同状态与相应配对对象类型的选择概率逼近用户的真实需求。从而可以根据用户状态选择配对对象，提高选择出的配对对象与配对请求方的相关度，进而提闻最终的配对成功率。图2本发明所述数据处理系统中的自动配对选择装置的一种组成示意图。参见图2，该装置200包括:请求接收模块201，用于接受针对用户的配对请求，在接收到后触发状态信息检测模块202。状态信息检测模块202，用于检测所述用户当前时刻的状态信息，并输入到增强学习模块203。增强学习模块203，其中存储增强学习函数中的状态与配对对象类型选择概率的映射关系，用于利用所述映射关系计算用户当前时刻的状态信息对应的不同配对对象类型的选中概率；所述增强学习模块203中包括逼近函数学习器，所述增强学习函数中的状态与配对对象类型选择概率的映射关系由该逼近函数学习器存储。对象选择模块204，用于根据所述增强学习模块203计算出的选中概率选择一种配对对象。反应信息检测模块205，用于检测用户对所选的配对对象的反应动作信息。修正模块206，用于根据反应信息检测模块检测的反应动作信息对所述增强学习函数中的相应状态与相应配对对象类型的选择概率进行反馈修正。所述修正模块206还可以用于通知状态信息检测模块202检测最新时刻的用户状态信息，并根据所述最新的用户状态信息和反应信息检测模块检测的反应动作信息对所述增强学习函数中的相应状态与相应配对对象类型的选择概率进行反馈修正。本发明所述的配对选择方案基于增强学习函数。所述增强学习(reinforcementlearning)又称为再励学习，是一种重要的人工智能在线策略学习方法。增强学习把行为学习看成是反复试验的过程，从而把动态环境状态映射成相应的动作。在增强学习问题中，控制系统从某一个状态转移到另一个状态时将获得一个称为报酬(payoff)的数值，该报酬值用于表示对本次状态转移的奖惩，用于调整后续的状态转移动作，系统的控制目标是找到一个动作控制策略使得未来所获得的报酬乘以折扣因子后的和值最大化。该值的函数式是对每个状态的返回变量的一个预测，如下述公式(I):
权利要求
1.一种数据处理系统中的自动配对选择方法，其特征在于，包括: A、接受针对用户的配对请求； B、检测所述用户当前时刻的状态信息，利用预设的增强学习函数中的状态与配对对象类型选择概率的映射关系，计算用户当前时刻的状态信息对应的不同配对对象类型的选中概率； C、根据所述选中概率选择一种配对对象； D、检测用户对所选的配对对象的反应动作信息，根据所获取的反应动作信息对所述增强学习函数中的相应状态与相应配对对象类型选择概率进行反馈修正。
2.根据权利要求1所述的方法，其特征在于，所述增强学习函数中的状态与配对对象类型选择概率的映射关系具体由逼近函数学习器存储。
3.根据权利要求2所述的方法，其特征在于，所述逼近函数学习器为后向传播神经网络。
4.根据权利要求1所述的方法，其特征在于，该方法进一步包括: 先针对指定范围内的所有用户的配对请求，使用同一个增强学习函数执行所述步骤A至步骤D ；在对所有配对对象类型的选择概率的反馈修正次数超过预设的阈值后，将所述增强学习函数分别拷贝给所述指定范围内的每一位用户；不同的用户发出配对请求后，使用该用户对应的增强学习函数执行所述步骤A至步骤D。
5.根据权利要求1所述的方法，其特征在于，所述配对请求为匿名通信系统中的匿名通信请求，所述配对对象类型为匿名通信系统中的通信对象类型；所述步骤C具体包括:根据所述选中概率选择一种通信对象类型，并从中选择通信对象与所述发起配对请求的用户配对，在该通信对象与所述用户之间建立通信；或者，所述配对请求为即时通信系统或社交网络系统中的好友推荐请求，所述配对对象类型为即时通信系统或社交网络系统中的用户类型；所述步骤C具体包括:根据所述选中概率选择一种用户类型，并从中选择用户作为好友推荐给所述发起配对请求的用户；或者，所述配对请求为电子商务平台系统中的商品推荐请求，所述配对对象类型为电子商务平台系统中的商品类型；所述步骤C具体包括:根据所述选中概率选择一种商品类型，并从中选择商品作为推荐商品推荐给所述发起配对请求的用户；或者，所述配对请求为网络博客系统或文学网络系统中的文章推荐请求，所述配对对象类型为文章类型；所述步骤C具体包括:根据所述选中概率选择一种文章类型，并从中选择文章作为推荐文章推荐给所述发起配对请求的用户。
6.根据权利要求1至5任一项所述的方法，其特征在于，所述增强学习函数为Q学习函数，该Q学习函数中的状态与配对对象类型的选择概率为对应的Q值。
7.根据权利要求6所述的方法，其特征在于，步骤B具体包括: 检测所述用户的当前时刻的状态信息St ; 将所述用户的状态信息输入到Q学习函数中，根据Q学习函数中的状态与配对对象类型Q值的映射关系，得到在状态St下的每种配对对象类型对应的Q值Q(st，a)；根据公式
8.根据权利要求7所述的方法，其特征在于，在得到配对对象类型对应的Q值之后，进一步包括:将该Q值乘以一外部的干预系数，得到阈值移动Q值，以该阈值移动Q值作为相应配对对象类型的Q值计算该配对对象类型的选中概率。
9.根据权利要求6所述的方法，其特征在于，步骤D具体包括: 检测用户对所选的配对对象的反应动作信息；根据用户对所选的配对对象的反应动作信息确定立即奖惩值R(st，at)，其中at为t时刻选中的配对对象类型；根据公式
10.根据权利要求6所述的方法，其特征在于，所述步骤D中进一步包括: 检测用户对所选的配对对象的反应动作信息；根据用户对所选的配对对象的反应动作信息确定立即奖惩值R(st，at)，其中at为t时刻选中的配对对象类型；检测最新时刻的用户状态信息st+1 ;将st+1输入到Q学习函数中，根据Q学习函数中的状态与配对对象类型Q值的映射关系，得到在st+1状态下的每种配对对象类型对应的Q值Q (St+i，a); 根据公式:
11.一种数据处理系统中的自动配对选择装置，其特征在于，包括: 请求接收模块，用于接受针对用户的配对请求，在接收到后触发状态信息检测模块；状态信息检测模块，用于检测所述用户当前时刻的状态信息，并输入到增强学习模块；增强学习模块，其中存储增强学习函数中的状态与配对对象类型选择概率的映射关系，用于利用所述映射关系计算用户当前时刻的状态信息对应的不同配对对象类型的选中概率；对象选择模块，用于根据所述增强学习模块计算出的选中概率选择一种配对对象；反应信息检测模块，用于检测用户对所选的配对对象的反应动作信息；修正模块，用于根据反应信息检测模块检测的反应动作信息对所述增强学习函数中的相应状态与相应配对对象类型的选择概率进行反馈修正。
12.根据权利要求11所述的装置，其特征在于，所述增强学习模块中包括逼近函数学习器，所述增强学习函数中的状态与配对对象类型选择概率的映射关系由该逼近函数学习器存储。
13.根据权利要求12所述的装置，其特征在于，所述逼近函数学习器为后向传播神经网络。
14.根据权利要求11所述的装置，其特征在于，所述增强学习函数为Q学习函数，该Q学习函数中的状态与配对对象类型的选择概率为对应的Q值。
15.根据权利要求11所述的装置，其特征在于，所述修正模块进一步用于通知状态信息检测模块检测最新时刻的用户状态信息，并根据所述最新的用户状态信息和反应信息检测模块检测的反应动作信息对所述增强学习函数中的相应状态与相应配对对象类型的选择概率进行反馈修正。
全文摘要
本发明公开了一种自动配对选择方法和装置，方法包括A.接受针对用户的配对请求；B.检测所述用户当前时刻的状态信息，利用预设的增强学习函数中的状态与配对对象类型选择概率的映射关系，计算用户当前时刻的状态信息对应的不同配对对象类型的选中概率；C.根据所述选中概率选择一种配对对象；D.检测用户对所选的配对对象的反应动作信息，根据所获取的反应动作信息对所述增强学习函数中的相应状态与相应配对对象类型选择概率进行反馈修正。装置包括请求接收模块、状态信息检测模块、增强学习模块、对象选择模块、反应信息检测模块、以及修正模块。利用本发明，可提高选择出的配对对象与配对请求方的相关度，进而提高最终的配对成功率。
文档编号G06N3/08GK103150595SQ20111040034
公开日2013年6月12日申请日期2011年12月6日优先权日2011年12月6日
发明者佘锡伟, 谭志远, 杜嘉辉申请人:腾讯科技(深圳)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：佘锡伟;谭志远;杜嘉辉
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：免疫程序图及建立方法、处理接种信息的方法和系统的制作方法
上一篇：一种测试功能链生成方法与装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。