一种基于混合数据源的标签数据筛选方法及装置制造方法

文档序号：6552303阅读：178来源：国知局

一种基于混合数据源的标签数据筛选方法及装置制造方法
【专利摘要】本发明涉及一种基于混合数据源的标签数据筛选方法及装置，包括以下步骤：根据各类用户的所有属性数据信息分别建立多个标签表，根据标签表的名称建立第一配置表；根据每个标签表中的各个属性数据信息和与各个属性数据信息对应的标签表的名称之间的关联关系，建立第二配置表；获取用户输入的标签配置信息，根据标签配置信息选择若干个标签表的名称，根据标签表的名称与标签表之间的关联关系建立混合数据源标签表；创建阈值定义文件；根据阈值定义文件，通过执行混合数据源标签表获取多个属性数据信息，生成数据筛选结果，将数据筛选结果进行输出并存储。本发明采用虚拟化混合数据源，减少冗余字段的使用和刷新，同时能够减少存储冗余。
【专利说明】一种基于混合数据源的标签数据筛选方法及装置

【技术领域】
[0001] 本发明涉及一种基于混合数据源的标签数据筛选方法及装置。

【背景技术】
[0002] 目前标签应用使用采用单一画像表结构，以"大宽表"的方式进行用户分群、标记、提取用户数据，从分类精度与属性维度支持上都存在限制与瓶颈。标签结果以实体表形式存在，存储方式上分为（1)多标签标记存在于一张物理表中；(2) -个标签标记一张物理表两种方式。第一种方式对标签的个数有限制，支持度有较大局限性，第二种方式在存储上占用较大空间。
[0003] 目前标签应用采用的"大宽表"方式存储数据源，标签结果多采用单标签分物理模型存储和多标签单物理模型存储方式，均存在问题。
[0004] (1). "大宽表"数据源对于数据源的全面性有较大制约，特别是在增值业务的分析支持与营销数据支持上，成为致命硬伤。在当下精细化营销需求日益增加，对分群结果的准确性要求也越来越高，全面的数据源支持显的更为重要，"大宽表"字段个数的限制（字段越多，效率越低），新增和更新字段更是"伤一发，动全身"，不仅制约了数据源的全面性，频繁修改代码所带来的风险更是非常严重。
[0005] (2).多标签单模型存储在实现上较为简单，但实际使用中存在对标签条数的限制，当修改一个标签时，需要更新整体标签表，导致全标签库无法使用等问题。
[0006] (3).单标签分表存储模型可解决标签库更新时不影响标签库使用的问题，但在复合标签使用方面存在瓶颈，同时大量不必要的存储占用，使得其在优势上大打折扣。

【发明内容】

[0007] 本发明所要解决的技术问题是提供一种采用虚拟化混合数据源、减少冗余字段的使用和刷新、减少存储冗余的基于混合数据源的标签数据筛选方法及装置。
[0008] 本发明解决上述技术问题的技术方案如下：一种基于混合数据源的标签数据筛选方法，包括以下步骤：
[0009] 步骤1 :根据各类用户的所有属性数据信息分别建立多个带有不同名称的标签表，每个标签表分别存储于各类用户的所有属性数据信息所在的物理表上，根据每个标签表的名称建立第一配置表；
[0010] 步骤2 :根据每个标签表中的各个属性数据信息和第一配置表中与各个属性数据信息对应的标签表的名称之间的关联关系，建立第二配置表；
[0011] 步骤3 :获取用户输入的标签配置信息，根据标签配置信息在第二配置表中选择满足标签配置信息的若干个标签表的名称，根据所述若干个标签表的名称与对应的标签表之间的关联关系建立混合数据源标签表；
[0012] 步骤4 :创建用于设定所有属性数据信息的阈值的阈值定义文件；
[0013] 步骤5 :根据阈值定义文件，通过执行混合数据源标签表获取各个标签表中的、在设定阈值范围内的多个属性数据信息，生成数据筛选结果，将数据筛选结果进行输出并存储。
[0014] 本发明的有益效果是：本发明大大提高系统（应用）的生命周期，减少投入成本，提高系统效率与资源利用，符合中移动信息化建设要求；降低了系统（应用）升级上线的代码级安全风险，创新采用软件热机上线模式完成分析模型的更替，符合中移动安全风险管控要求；整体方案采用混合数据源，配置管理方式，满足业务扩展的无限延展性；整体方案创新采用软件热机上线模式，提高需求上线响应速度，并具备高扩展性，符合相关要求。
[0015] 在上述技术方案的基础上，本发明还可以做如下改进。
[0016] 进一步，所述属性数据信息包括用户基本属性数据信息和根据用户基本属性数据信息衍生出的用户衍生属性数据信息。
[0017] 进一步，所述步骤3中的标签配置信息具体为，包含所有待筛选的属性数据信息。
[0018] 进一步，一种基于混合数据源的标签数据筛选装置，包括第一建立模块，第二建立模块，混合数据源模块，创建阈值文件模块和筛选模块；
[0019] 所述第一建立模块，用于根据各类用户的所有属性数据信息分别建立多个带有不同名称的标签表，每个标签表分别存储于各类用户的所有属性数据信息所在的物理表上，根据每个标签表的名称建立第一配置表；
[0020] 所述第二建立模块，用于根据每个标签表中的各个属性数据信息和第一配置表中与各个属性数据信息对应的标签表的名称之间的关联关系，建立第二配置表；
[0021] 所述混合数据源模块，用于获取用户输入的标签配置信息，根据标签配置信息在第二配置表中选择满足标签配置信息的若干个标签表的名称，根据所述若干个标签表的名称与对应的标签表之间的关联关系建立混合数据源标签表；
[0022] 所述创建阈值文件模块，用于创建用于设定所有属性数据信息的阈值的阈值定义文件；
[0023] 所述筛选模块，用于根据阈值定义文件，通过执行混合数据源标签表获取各个标签表中的、在设定阈值范围内的多个属性数据信息，生成数据筛选结果，将数据筛选结果进灯输出并存储。
[0024] 进一步，所述属性数据信息包括用户基本属性数据信息和根据用户基本属性数据信息衍生出的用户衍生属性数据信息。
[0025] 进一步，所述混合数据源模块获取的标签配置信息具体为，包含所有待筛选的属性数据信息。

【专利附图】

【附图说明】
[0026] 图1为本发明方法步骤流程图；
[0027] 图2为本发明装置结构图。
[0028] 附图中，各标号所代表的部件列表如下：
[0029] 1、第一建立模块，2、第二建立模块，3、混合数据源模块，4、仓ij建阈值文件模块，5、筛选模块。

【具体实施方式】
[0030] 以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。
[0031] 如图1所示，为本发明方法步骤流程图；图2为本发明装置结构图。
[0032] 实施例1
[0033] -种基于混合数据源的标签数据筛选方法，包括以下步骤：
[0034] 步骤1 :根据各类用户的所有属性数据信息分别建立多个带有不同名称的标签表，每个标签表分别存储于各类用户的所有属性数据信息所在的物理表上，根据每个标签表的名称建立第一配置表；
[0035] 步骤2 :根据每个标签表中的各个属性数据信息和第一配置表中与各个属性数据信息对应的标签表的名称之间的关联关系，建立第二配置表；
[0036] 步骤3 :获取用户输入的标签配置信息，根据标签配置信息在第二配置表中选择满足标签配置信息的若干个标签表的名称，根据所述若干个标签表的名称与对应的标签表之间的关联关系建立混合数据源标签表；
[0037] 步骤4 :创建用于设定所有属性数据信息的阈值的阈值定义文件；
[0038] 步骤5 :根据阈值定义文件，通过执行混合数据源标签表获取各个标签表中的、在设定阈值范围内的多个属性数据信息，生成数据筛选结果，将数据筛选结果进行输出并存储。
[0039] 所述属性数据信息包括用户基本属性数据信息和根据用户基本属性数据信息衍生出的用户衍生属性数据信息。
[0040] 所述步骤3中的标签配置信息具体为，包含所有待筛选的属性数据信息。
[0041] -种基于混合数据源的标签数据筛选装置，包括第一建立模块1，第二建立模块 2,混合数据源模块3,创建阈值文件模块4和筛选模块5 ;
[0042] 所述第一建立模块1，用于根据各类用户的所有属性数据信息分别建立多个带有不同名称的标签表，每个标签表分别存储于各类用户的所有属性数据信息所在的物理表上，根据每个标签表的名称建立第一配置表；
[0043] 所述第二建立模块2,用于根据每个标签表中的各个属性数据信息和第一配置表中与各个属性数据信息对应的标签表的名称之间的关联关系，建立第二配置表；
[0044] 所述混合数据源模块3,用于获取用户输入的标签配置信息，根据标签配置信息在第二配置表中选择满足标签配置信息的若干个标签表的名称，根据所述若干个标签表的名称与对应的标签表之间的关联关系建立混合数据源标签表；
[0045] 所述创建阈值文件模块4,用于创建用于设定所有属性数据信息的阈值的阈值定义文件；
[0046] 所述筛选模块5,用于根据阈值定义文件，通过执行混合数据源标签表获取各个标签表中的、在设定阈值范围内的多个属性数据信息，生成数据筛选结果，将数据筛选结果进灯输出并存储。
[0047] 所述属性数据信息包括用户基本属性数据信息和根据用户基本属性数据信息衍生出的用户衍生属性数据信息。
[0048] 所述混合数据源模块3获取的标签配置信息具体为，包含所有待筛选的属性数据信息。
[0049] 混合标签数据源：通过将各类用户属性数据进行分组分类（以用户基本属性、业务属性、行为属性等），生成不同的画像模型，如：用户基本信息表、飞信业务画像表等。通过用户ID等唯一标识进行关联，以配置关系实现应用展示，从而解决了"大宽表"字段限制与效率问题，最大化减少冗余字段的使用和刷新，同时在应用的功能扩展方面，新生成画像或更新旧的画像表，只需要增加或修改对应的配置表信息，即可完成上线工作，而不需要进行停机作业。
[0050] 虚拟化标签存储：标签分群信息以配置形式存在，只有在首次使用时（或定时）生成一次，且使用生成，不使用，不生成，减少存储冗余的同时，也为融合标签应用提供了基础。在标签修改过程中，不会对以有标签产生影响。
[0051] 以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
【权利要求】
1. 一种基于混合数据源的标签数据筛选方法，其特征在于，包括以下步骤：步骤1:根据各类用户的所有属性数据信息分别建立多个带有不同名称的标签表，每个标签表分别存储于各类用户的所有属性数据信息所在的物理表上，根据每个标签表的名称建立第一配置表；步骤2 :根据每个标签表中的各个属性数据信息和第一配置表中与各个属性数据信息对应的标签表的名称之间的关联关系，建立第-配置表；步骤3 :获取用户输入的标签配置信息，根据标签配置信息在第二配置表中选择满足标签配置信息的若干个标签表的名称，根据所述若干个标签表的名称与对应的标签表之间的关联关系建立混合数据源标签表；步骤4 :创建用于设定所有属性数据信息的阈值的阈值定义文件；步骤5 :根据阈值定义文件，通过执行混合数据源标签表获取各个标签表中的、在设定阈值范围内的多个属性数据信息，生成数据筛选结果，将数据筛选结果进行输出并存储。
2. 根据权利要求1所述的标签数据筛选方法，其特征在于：所述属性数据信息包括用户基本属性数据信息和根据用户基本属性数据信息衍生出的用户衍生属性数据信息。
3. 根据权利要求1所述的标签数据筛选方法，其特征在于：所述步骤3中的标签配置信息具体为，包含所有待筛选的属性数据信息。
4. 一种基于混合数据源的标签数据筛选装置，其特征在于：包括第一建立模块（1)，第二建立模块（2)，混合数据源模块（3)，创建阈值文件模块（4)和筛选模块（5); 所述第一建立模块（1)，用于根据各类用户的所有属性数据信息分别建立多个带有不同名称的标签表，每个标签表分别存储于各类用户的所有属性数据信息所在的物理表上，根据每个标签表的名称建立第一配置表，将第一配置表发送给第二建立模块（2); 所述第二建立模块（2)，用于根据每个标签表中的各个属性数据信息和接收的第一配置表中与各个属性数据信息对应的标签表的名称之间的关联关系，建立第二配置表，将第二配置表发送给混合数据源模块（3); 所述混合数据源模块（3)，用于获取用户输入的标签配置信息，根据标签配置信息在接收的第二配置表中选择满足标签配置信息的若干个标签表的名称，根据所述若干个标签表的名称与对应的标签表之间的关联关系建立混合数据源标签表，将混合数据源标签表发送给筛选模块（5); 所述创建阈值文件模块（4)，用于创建用于设定所有属性数据信息的阈值的阈值定义文件；所述筛选模块（5)，用于根据阈值定义文件，通过执行接收的混合数据源标签表获取各个标签表中的、在设定阈值范围内的多个属性数据信息，生成数据筛选结果，将数据筛选结果进行输出并存储。
5. 根据权利要求4所述的标签数据筛选装置，其特征在于：所述属性数据信息包括用户基本属性数据信息和根据用户基本属性数据信息衍生出的用户衍生属性数据信息。
6. 根据权利要求4所述的标签数据筛选装置，其特征在于：所述混合数据源模块（3) 获取的标签配置信息具体为，包含所有待筛选的属性数据信息。
【文档编号】G06F17/30GK104111994SQ201410317595
【公开日】2014年10月22日申请日期:2014年7月4日优先权日:2014年7月4日
【发明者】白岩石申请人:北京思特奇信息技术股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：白岩石
技术所有人：北京思特奇信息技术股份有限公司
我是此专利的发明人

上一篇：基于独立分量分析的x射线医学图像目标重建的制作方法
上一篇：信息处理设备和方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。