大数据环境下的目标推送方法

文档序号：10655347阅读：389来源：国知局

大数据环境下的目标推送方法
【专利摘要】本发明提供了一种大数据环境下的目标推送方法，该方法包括：在分布式检索系统中对输入数据集进行数据转换和采样，执行检索过程，对检索结果进行评价，将检索结果及其评价结果展现至用户，以修改检索算法参数。本发明提出了一种大数据环境下的目标推送方法，分布式检索系统对数据集进行统一收集管理，并基于用户的反馈和评价对检索结果进一步优化，更高效率地满足了用户个性化的需求。
【专利说明】
大数据环境下的目标推送方法
技术领域
[0001] 本发明设及数据推送，特别设及一种大数据环境下的目标推送方法。
【背景技术】
[0002] 在信息时代的今天，随着互联网技术和社会信息化技术的不断发展，信息量W爆炸式的速度增长，互联网正不断地影响和改变着人们的日常生活方式。然而，随着网络信息变得越来越纷繁复杂，人们如何从如此浩滿的信息海洋中高效地找到符合需求的信息就成了一个越来越值得关注的课题。虽然有相关分布式检索系统可W帮助人们更精确的找到所需要的信息，但在某些应用领域，如电影、音乐、社交网络捜索，用户一般不能很好的提出很好的检索需求，通过研究用户的历史记录、用户的社会化信息W及对应领域数据的属性信息，将用户的信息建模或者领域数据资源建模，通过可靠方式将用户潜在感兴趣的数据资源推荐给用户。然而现有的分布式检索系统在工作效率和用户的满意度各不相同，并且缺少通用的接口来处理异构数据的输入。

【发明内容】

[0003] 为解决上述现有技术所存在的问题，本发明提出了一种大数据环境下的目标推送方法，包括：
[0004] 在分布式检索系统中对输入数据集进行数据转换和采样，
[0005] 执行检索过程，对检索结果进行评价，
[0006] 将检索结果及其评价结果展现至用户，W修改检索算法参数。
[0007] 优选地，所述分布式检索系统具有评价单元，该评价单元包括数据管理模块、检索执行模块W及展现模块；
[000引数据文件输入系统后经过数据管理模块的数据汇总子模块将数据文件转换成可识别的数据资源，经过数据整理子模块处理，成为系统可计算的数据，所述数据整理包括将来自文本文件，数据库文件，W及日志文件的输入数据进行格式的统一，转换为二维矩阵或多维列表，W使后续的数据操作继续执行；
[0009]在检索执行模块请求数据的时候，检索执行模块在对应的请求参数中包含请求数据的格式，然后数据管理模块的数据传输子模块根据该参数来处理经过数据采样的数据；数据管理模块中数据采样子模块的采样时间在数据集处理的时候进行采样，或者在算法配置完成的时候对其进行采样，前一种方式是在数据管理模块内部完成，其具体包括是当用户选择数据集采样，然后选择数据集，接着选择对应的采样方式，如果操作成功则将对应的采样后的数据集存储起来，原数据集不变，新的采样过后的数据集有标记字段指示原数据集;后一种方式是算法经过配置之后请求数据，而数据收到具体的数据集名称，采样方式W 及其他信息后，检查检索执行模块传来的消息中是否能够完成数据采样的操作，如果是则进行数据采样，采样完毕后将采样后的数据集在本地数据库备份，然后将对应的采样数据集发给请求的执行端，检索算法的运行采用分布式处理，数据管理模块发送给检索执行模块中对应的不同执行端，执行模块在请求数据采样每次数据传输都会检查它要求的采样方式是否已经在数据库中存在，如果是，则取出数据，如果不是，重新发送该请求。
[0010] 本发明相比现有技术，具有W下优点：
[0011] 本发明提出了一种大数据环境下的目标推送方法，分布式检索系统对数据集进行统一收集管理，并基于用户的反馈和评价对检索结果进一步优化，更高效率地满足了用户个性化的需求。
【附图说明】
[0012] 图1是根据本发明实施例的大数据环境下的目标推送方法的流程图。
【具体实施方式】
[0013] 下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合运样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节W 便提供对本发明的透彻理解。出于示例的目的而提供运些细节，并且无运些具体细节中的一些或者所有细节也可W根据权利要求书实现本发明。
[0014] 本发明的一方面提供了一种大数据环境下的目标推送方法。图1是根据本发明实施例的大数据环境下的目标推送方法流程图。
[0015] 本发明在分布式检索系统中对于检索输入数据集进行统一的管理与存储，并且对其进行数据转换，根据获得的反馈结果进行结果评价，分布式检索系统评价单元包括数据管理模块、检索执行模块和展现模块。
[0016] 数据管理模块用于接收数据输入、统一格式W及数据集的特征分析和采样。数据文件输入系统后，经过数据管理模块的数据汇总子模块将其转换成系统可识别的数据资源，经过数据整理子模块处理，成为系统可计算的数据，数据整理包括将来自文本文件，数据库文件，W及日志文件的输入数据进行格式的统一，转换为二维矩阵或多维列表，W使后续的数据操作继续执行。在检索执行模块请求数据的时候，检索执行模块在对应的请求参数中包含请求数据的格式，然后数据传输子模块根据该参数来处理经过数据采样的数据。
[0017] 数据集根据各服务器的存储情况存储在不同的服务器上，检索执行模块向数据管理模块请求数据时，数据管理模块先进行缓存查找，采用的是客户端的散列策略，如果缓存命中，直接从缓存中将数据集取出，若不命中，则在数据库中请求相关数据。
[0018] 在数据管理模块访问缓存服务器时，首先，数据管理模块请求数据集时的key经过预定算法映射到其中一台缓存服务器，然后从该服务器上取出相应的数据值。为使其命中率尽量高，采取了 W下策略:使用环形散列队列，将对应查找的对象映射到32位key,从0- 的数值空间，将其链接成首尾相连的环。缓存和对象经过同一个散列算法映射到同一个数值空间；在整个环形队列，沿顺时针方向找到对象的key值出发，直到遇到一个缓存，贝U 就将此对象存储在该缓存中。当移除缓存时，逆时针遍历此缓存至下一个缓存中的对象；当增加缓存时，将此缓存映射的位置逆时针找到与下一个缓存区间中的对象，将它们从顺时针的下一个缓存中删去，映射到该缓存中。
[0019] 由于用户输入的数据集形式多样，系统通过创建数据集板，每输入一种数据集时则实例化一个数据集，配置W不同的参数，由于不同的算法所需要的数据集不同，所W不同的算法使用到不同格式的数据集，对数据集格式整理包括:识别冗余的输入的字段或信息，将其过滤;根据用户的配置文件，来对输入数据集的各个字段信息进行保存;设置数据集的稀疏性阔值，如果输入数据集低于阔值，可W根据用户的输入参数将低于该阔值的用户过滤。
[0020] 通过数据汇总将数据文件输入分布式检索系统，保存至数据库之后，运些数据可 W直接进入数据整理子模块，数据整理子模块先根据用户的需求将某些字段过滤。接下来将处理后的数据构造成评分矩阵，构造完毕后将其保存至数据库，如果该数据整理前的数据集非其他用户所私有，通过此整理后的数据集保存的向前引用，找到原始的数据集。
[0021] 数据管理模块中，数据采样子模块的采样时间可W选择在数据集处理的时候进行采样，或者在算法配置完成的时候对其进行采样。前一种方式是在数据管理模块内部完成，其具体的逻辑是当用户选择数据集采样，然后选择数据集，接着选择对应的采样方式，如果操作能成功完成则将对应的采样后的数据集存储起来，原数据集不变，新的采样过后的数据集有标记字段指示原数据集，而且有对应的采样方式W及其他信息。后一种方式是算法经过配置之后请求数据，而数据收到具体的采样需求，如数据集名称，采样方式W及其他信息后，检查检索执行模块传来的消息中是否能够完成数据采样的操作，如果是，则进行数据采样，采样完毕后将采样后的数据集在本地数据库备份，然后将对应的采样数据集发给请求的执行端，一次算法执行过程中可能会有多次数据传输，鉴于算法运行时间比较久，所W 算法的运行采用分布式处理，为了算法执行的高效性，数据管理模块发送给检索执行模块中对应的不同执行端，执行模块在请求数据采样每次数据传输都会检查它要求的采样方式是否已经在数据库中存在，如果是，则取出数据，如果不是，重新发送该请求。
[0022] 当进行数据采样的时候，首先将数据的尺寸读入数据采样子模块，系统构造一个布尔矩阵，初始值全为化Ise，接着选择采样方式，如果只是单次采样，生成的对应训练集和测试集都将只生成一次，如果是循环多次采样，将生成多个，根据采样方式不同，将把此矩阵的一些值填充为化Ue，另外一些仍为false,运个布尔矩阵将它命名为训练集的模表，通过运个模表，可W计算出对应的训练集，只需将它与对应的数据集按位相与，同理可W计算出测试集，只需将训练集的模表按位取反即可。据此生成的训练集与测试集表即可发送给检索执行模块执行，检索执行模块根据训练集去预测测试集表中值为True的数据项评分即可。
[0023] 在测试集中对检索结果进行评价，该测试集中的内容是用户感兴趣的项目集合。由于在数据采样的时候在本地保存了测试集，当算法执行执行完毕返回结果时，系统先从通信的报文中取出所对应的序列码，根据此序列码将数据库中所对应的测试集取出，然后将其与返回的结果进行比较，从而得出评价结果。检索执行模块保存着W算法类型为主键，算法配置概要信息的表，待算法执行完毕后将其非主键信息发送回来。结合算法执行完毕后传来的各个参数，进行结果的评价输出。
[0024] 检索执行模块返回数据的时候，附带双方约定的序列码，传回的算法执行结果，并附加上算法的执行类型表中所带的配置算法所需的参数，传回本地W后对结果进行评价和展现，W供用户反馈修改参数。
[0025] 在用户提供相关反馈后，对检索结果进行重新排序处理，具体为，结合检索结果评分、用户反馈中相关和不相关结果的近似度距离差来进行重新排序。
[0026] 在度量检索结果间的相关性之前，首先需要将其进行量化表示，将每个检索结果 di表示成一个矢量，矢量的维度是文本中至少出现过一次的词构成集合的大小，每一维的值是相应的词在该结果中逆向词频指标表示的权值。然后采用W下公式评价结果和检索式之间的相关性评分：
[0027]
[002引
[0029]
[0030] 式中W(t|di)为词t在di中的权值；
[0031] w(t Iq)为词t在检索式Q中的权值；
[0032] Kdi)为结果di的长度；
[0033] tf (t I di)为词t在结果di中出现的频率；
[0034] tf (t I Q)为词t在检索式Q中出现的频率；
[0035] 壯(11 C)为词t在整个结果集C中的频率；
[0036] ki，k2，b为预设调节参数。
[0037] 最后根据结果的最终评分，对初始的检索结果进行重新排序，即按结果的Score的评分由高到低进行排序。
[0038] 本发明在W下实施例使用可选的结果排序方法，包括检索结果的领域表示和基于近似度计算的检索结果排序。
[0039] 首先是将用户的检索词提交给分布式检索系统，然后获取分布式检索系统的检索结果，并提取出检索结果标题、描述和URL，并进行分词，根据停用词表，将无用的词删除;根据逆向词频算法计算结果标题和描述的每个词的加权值，然后合并;检查每个词所属的细分领域，如果有两个词所属的细分领域相同，则将其加权值相加，作为该细分领域的加权值，最后可得到该检索结果的细分领域矢量;检查每个细分领域所属的主领域，如果相同则继续合并，最后可得到该检索结果的主领域矢量;对分布式检索系统结果集执行W上步骤，得到分布式检索系统结果集的领域矢量表。
[0040] 设UF为用户的主兴趣矢量，US为用户的细分兴趣矢量，依次计算用户兴趣和每个结果的近似度。设DF是检索集中某个检索结果的主领域矢量，DS该检索结果的细分领域矢量。
[0041 ]计算用户兴趣和检索结果的细分领域集合的边界差：
[0042] 化=DS-US HDS
[0043] 计算用户兴趣和检索结果的细分领域集合的近似度：
[0044]
[0045] 其中Z (dswixuswa是该检索结果和用户兴趣中都存在的细分领域的权值乘把 USr\DS 积的和，rmm (BL)和rmm (DS)分别是化和DS的数量。
[0046] 计算用户兴趣和检索结果的主领域集合的边界差：
[0047] Bu=DF-(UFnDF)
[0048] 计算用户兴趣和检索结果的主领域集合的近似度：
[0049]
[0化0]其中(dfWiXufWi)是该检索结果和用户兴趣中都存在的主领域的权值乘积 i&USnDS 的和，num (BU)和num (D巧分别是Bu和DF的数量；
[0051]最后计算该检索结果和用户兴趣的总近似度：
[0化2] Sim = CXSimL化S，DS) + (l-〇 XSi皿化F，DF)
[0053] 其中C为细分领域集合近似度的加权值。
[0054] 依据运个步骤，对分布式检索系统返回的每个结果依次计算总近似度Sim,得到每个检索结果新的权值，然后从大到小排序，得到新的结果顺序。
[0055] 在上述用户兴趣的向量表示中，本发明采用获取本地浏览记录W进行兴趣分析的方式。首先获取用户访问的检索结果的标题和描述，并对运些标题和描述进行分词，分词后根据停用词表将无用的词删除;对照特征词表，检查浏览记录中所有检索结果的所有词，统计每个细分领域出现的特征词数，得到矢量{化31，(31)，化32,02)，，，，，化3。，(3。）}，其中1131指第i个细分领域，Cl指第i个细分领域出现了多少个特征词;计算每个细分领域的权值，计算公式夫
最后得到一个细分兴趣矢量HS= Khsi，hswi)，化S2，hsW2)，…，化Sn, hswn)};细分兴趣矢量与用户选择的兴趣领域合并后，一起生成主领域兴趣矢量。
[0056] 综上所述，本发明提出了一种大数据环境下的目标推送方法，分布式检索系统对数据集进行统一收集管理，并基于用户的反馈和评价对检索结果进一步优化，更高效率地满足了用户个性化的需求。
[0057] 显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可W用通用的计算系统来实现，它们可W集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可W用计算系统可执行的程序代码来实现，从而，可W将它们存储在存储系统中由计算系统来执行。运样，本发明不限制于任何特定的硬件和软件结合。
[005引应当理解的是，本发明的上述【具体实施方式】仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者运种范围和边界的等同形式内的全部变化和修改例。
【主权项】
1. 一种大数据环境下的目标推送方法，其特征在于，包括：在分布式检索系统中对输入数据集进行数据转换和采样，执行检索过程，对检索结果进行评价，将检索结果及其评价结果展现至用户，以修改检索算法参数。2. 根据权利要求1所述的方法，其特征在于，所述分布式检索系统具有评价单元，该评价单元包括数据管理模块、检索执行模块以及展现模块；数据文件输入系统后经过数据管理模块的数据汇总子模块将数据文件转换成可识别的数据资源，经过数据整理子模块处理，成为系统可计算的数据，所述数据整理包括将来自文本文件，数据库文件，以及日志文件的输入数据进行格式的统一，转换为二维矩阵或多维列表，以使后续的数据操作继续执行；在检索执行模块请求数据的时候，检索执行模块在对应的请求参数中包含请求数据的格式，然后数据管理模块的数据传输子模块根据该参数来处理经过数据采样的数据;数据管理模块中数据采样子模块的采样时间在数据集处理的时候进行采样，或者在算法配置完成的时候对其进行采样，前一种方式是在数据管理模块内部完成，其具体包括是当用户选择数据集采样，然后选择数据集，接着选择对应的采样方式，如果操作成功则将对应的采样后的数据集存储起来，原数据集不变，新的采样过后的数据集有标记字段指示原数据集;后一种方式是算法经过配置之后请求数据，而数据收到具体的数据集名称，采样方式以及其他信息后，检查检索执行模块传来的消息中是否能够完成数据采样的操作，如果是则进行数据采样，采样完毕后将采样后的数据集在本地数据库备份，然后将对应的采样数据集发给请求的执行端，检索算法的运行采用分布式处理，数据管理模块发送给检索执行模块中对应的不同执行端，执行模块在请求数据采样每次数据传输都会检查它要求的采样方式是否已经在数据库中存在，如果是，则取出数据，如果不是，重新发送该请求。
【文档编号】G06F17/30GK106021509SQ201610345569
【公开日】2016年10月12日
【申请日】2016年5月23日
【发明人】董政, 吴文杰, 陈露, 李学生
【申请人】成都陌云科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：董政;吴文杰;陈露;李学生;
技术所有人：成都陌云科技有限公司;
我是此专利的发明人

上一篇：一种网络账号的处理方法及装置的制造方法
上一篇：基于社交媒体的突发事件应急信息挖掘方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。