基于大数据的标签推送方法、装置、电子设备及存储介质与流程

文档序号:23053638发布日期:2020-11-25 17:30阅读:93来源:国知局
基于大数据的标签推送方法、装置、电子设备及存储介质与流程

本发明涉及大数据技术领域,具体涉及一种基于大数据的标签推送方法、装置、电子设备及存储介质。



背景技术:

传统的标签技术,是基于数据源进行提取,通过埋点等手段,获取用户的行为数据,根据用户的行为习惯及基本信息打上各种各样的标签,并且传统的标签都是从业务或产品角度出发,依靠经验进行相关维度组合和阈值设定,绝大多数标签都是无人问津。

现有的执行业务系统的标签库是基于执行业务流程来做的,标签库中的标签包含了大量的手工操作,并且大部分标签来源于数据的简单归集整理,未对每个业务节点的数据进行清洗处理,提取有价值的信息创建标签库,导致用户无法根据推荐的标签快速的得到想要的资料和数据,在确定每步操作前需要查阅大量的资料和数据,推荐的标签的准确率低。



技术实现要素:

鉴于以上内容,有必要提出一种基于大数据的标签推送方法、装置、电子设备及存储介质,通过清洗原始数据并提取多维度目标特征得到每个节点的初始标签,并聚类为不同对象的标签体系,提高了标签推荐的准确率。

本发明的第一方面提供一种基于大数据的标签推送方法,所述基于大数据的标签推送方法包括:

从预设的多个数据源中采集多个原始数据,其中,每个所述原始数据中对应有节点标识;

对每个所述原始数据按照预设的数据清洗策略进行数据清洗,得到样本数据;

从每个节点对应的样本数据中提取多维度的目标特征,将所述多维度的目标特征按照预设的归类模型进行归类,得到每个节点的初始标签;

对所述每个节点的初始标签进行聚类分析形成不同对象的标签体系;

当监测到所述多个节点中的目标节点被触发时,推送所述目标节点对应的标签体系中的初始标签。

优选的,所述对所述每个节点的初始标签进行聚类分析形成不同对象的标签体系包括:

根据k均值聚类算法对所述每个节点的初始标签进行聚类,获得多个对象;

以所述多个对象中的任一对象作为所述目标对象,将所述目标对象及所述目标对象对应的初始标签设置为所述目标对象对应的标签体系。

优选的,在对所述每个节点的初始标签进行聚类分析形成不同对象的标签体系之后,所述方法还包括:

实时监控预设周期内每个初始标签的点击率及转化率;

判断所述每个初始标签的点击率是否大于对应的点击率阈值,及判断所述每个初始标签的转化率是否大于对应的转化率阈值;

当所述每个初始标签的点击率大于或者等于所述对应的点击率阈值,及所述每个初始标签的转化率大于或者等于所述对应的转化率阈值时,将所述初始标签划分为热门标签;

当所述每个初始标签的点击率小于所述对应的点击率阈值,或者所述每个初始标签的转化率小于所述对应的转化率阈值时,将所述初始标签划分为无用标签。

优选的,所述对所述原始数据按照预设的数据清洗策略进行数据清洗,得到样本数据包括:

识别每个原始数据的节点标识;

获取所述节点标识对应的预设的数据清洗策略;

按照所述预设的数据清洗策略清洗所述节点标识对应的原始数据;

将清洗过的所述原始数据转换成预设类型的结构化数据;

将所述结构化的数据按照所述节点标识进行归类得到样本数据,并将所述样本数据存放至预设的数据库中。

优选的,所述从每个节点对应的样本数据中提取多维度的目标特征,将所述多维度的目标特征按照预设的归类模型进行归类,得到每个节点的初始标签包括:

根据每个节点的节点标识和面向所述节点标识的查询语言hql语法规则从预设的数据库中读取每个节点的样本数据;

根据预置算法从所述读取的每个节点的样本数据中提取多维度的目标特征;

将所述多维度的目标特征输入至所述预设的归类模型中进行归类得到每个节点的初始标签,其中,所述初始标签存储于区块链节点中。

优选的,所述根据预置算法从所述读取的每个节点的样本数据中提取多维度的目标特征包括:

根据预置特征维度从所述读取的每个节点的样本数据中提取第一特征;

通过训练好的模型对所述读取的每个节点的样本数据进行处理,得到第二特征;

将所述第一特征和所述第二特征进行合并,得到多维度的目标特征。

优选的,在所述推送所述目标节点对应的标签体系中的初始标签之后,所述方法还包括:

当监测到用户对推送的初始标签的再加工指令时,解析所述再加工指令得到所述用户的再加工条件;

将所述再加工条件输入至所述预设的归类模型中得到新的标签,将所述新的标签与所述推送的初始标签进行组合运算得到高级标签;

推送所述高级标签。

本发明的第二方面提供一种基于大数据的标签推送装置,所述基于大数据的标签推送装置包括:

采集模块,用于从预设的多个数据源中采集多个原始数据,其中,每个所述原始数据中对应有节点标识;

清洗模块,用于对每个所述原始数据按照预设的数据清洗策略进行数据清洗,得到样本数据;

归类模块,用于从每个节点对应的样本数据中提取多维度的目标特征,将所述多维度的目标特征按照预设的归类模型进行归类,得到每个节点的初始标签;

分析模块,用于对所述每个节点的初始标签进行聚类分析形成不同对象的标签体系;

推送模块,用于当监测到目标节点被触发时,推送所述目标节点对应的标签体系中的初始标签。

本发明的第三方面提供一种电子设备,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述基于大数据的标签推送方法。

本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于大数据的标签推送方法。

综上所述,本发明所述的基于大数据的标签推送方法、装置、终端及存储介质,一方面通过预设的数据清洗策略清洗从不同的数据源采集的原始数据,对所述原始数据进行清洗得到每个节点的样本数据,删除问题数据,确保了得到的样本数据的一致性和完整性,提高了样本数据的质量,另一方面通过提取每个节点的样本数据中的多维度目标特征,将所述多维度的目标特征输入预设的归类模型进行归类得到每个节点的初始标签,提高了计算得到初始标签的效率,同时针对每个节点的初始标签聚类为不同对象的标签体系,提高了标签的推荐的准确率。

此外,通过预设周期内实时监控每个初始标签的点击率和转换率,删除无用标签,不断通过训练学习优化整个标签体系,确保了标签体系中的初始标签的时效性,同时提高了推荐标签的准确率。

附图说明

图1是本发明实施例一提供的基于大数据的标签推送方法的流程图。

图2是本发明实施例二提供的基于大数据的标签推送装置的结构图。

图3是本发明实施例三提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

实施例一

图1是本发明实施例一提供的基于大数据的标签推送方法的流程图。

在本实施例中,所述基于大数据的标签推送方法可以应用于电子设备中,对于需要进行基于大数据的标签推送的电子设备,可以直接在电子设备上集成本发明的方法所提供的基于大数据的标签推送的功能,或者以软件开发工具包(softwaredevelopmentkit,skd)的形式运行在电子设备中。

如图1所示,所述基于大数据的标签推送方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。

s11:从预设的多个数据源中采集多个原始数据,其中,每个所述原始数据中对应有节点标识。

本实施例中,所述原始数据包括:被执行对象的基本信息、案件的基本信息、执行主体信息和财产信息等,其中,所述被执行人指老赖,被执行人信息主要包括:姓名、身份证号、年龄、性别、职业和所在单位等;执行主体信息主要包括:案号、被执行人身份信息、用户信息、涉及环节、返回状态、操作时间等等;财产信息指被执行人名下的所有财产,例如:银行存款、房产、车辆等。以房产为例:房产所在的省市、楼层、朝向、面积等等。所述数据源可以为执行业务系统,从所述执行业务系统的各个流程节点中采集原始数据。

s12:对每个所述原始数据按照预设的数据清洗策略进行数据清洗,得到样本数据。

本实施例中,可以预先根据每个节点对应的标签的清洗条件设置数据清洗策略,所述预设的数据清洗策略可以为对缺失值清洗、格式内容清洗、逻辑错误清洗和非需求数据清洗,当采集到原始数据后,按照所述预设的数据清洗策略对所述原始数据进行清洗,得到样本数据。

本实施例中,所述缺失值清洗对应的预设的数据清洗策略为直接删除带有缺失值数据记录或者补全带有缺失值数据记录。

示例性的,带有缺失值的数据记录的目标标签主要集中于某一类或几类,如果删除这些数据记录将使对应分类的数据样本丢失大量特征信息,导致模型过拟合或分类不准确,采用的预设的数据清洗策略为补全带有缺失值数据记录。

本实施例中,所述格式内容清洗对应的预设的数据清洗策略为对时间、日期、数值、全半角等显示格式不一致、内容中有不该存在的字符及、内容与该字段应有内容不符的数据进行清洗。

示例性的,当时间、日期、数值、全半角等显示格式不一致时,预设的数据清洗策略为将所述时间、日期、数值、全半角等显示格式处理成一致的格式;当内容中有不该存在的字符时,预设的数据清洗策略为以半自动校验半人工方式来找出可能存在的问题,并去除不需要的字符,例如:身份证号中出现汉字。

本实施例中,所述逻辑错误清洗对应的预设的数据清洗策略为去重、去除不合理值及修正矛盾内容。

示例性的,针对去重设置的预设的数据清洗策略为将重复的字段进行删除,只保留一个;针对去除不合理值设置的预设的数据清洗策略如年龄200岁,删除年龄对应的不合理值;针对修正矛盾内容设置的预设的数据清洗策略为需要根据字段的数据来源,来判定哪个字段提供的信息更为可靠,去除或重构不可靠的字段,如身份证号是1101031980xxxxxxxx,然后年龄填18岁,需要判断身份证号和年龄那个更可靠进行重构或者删除矛盾内容。

本实施例中,所述非需求数据清洗对应的预设的数据清洗策略为是指将不要的字段进行删除。

优选的,所述对所述原始数据按照预设的数据清洗策略进行数据清洗,得到样本数据包括:

识别每个原始数据的节点标识;

获取所述节点标识对应的预设的数据清洗策略;

按照所述预设的数据清洗策略清洗所述节点标识对应的原始数据;

将清洗过的所述原始数据转换成预设类型的结构化数据;

将所述结构化的数据按照所述节点标识进行归类得到样本数据,并将所述样本数据存放至预设的数据库中。

本实施例中,所述预设数据库可以为hive数据库,hive是基于hadoop的一个数据仓库工具,可以存储结构化的数据,并提供完整的sql查询功能,可以将sql语句转换为mapreduce任务进行运行,通过预设的数据清洗策略将所述原始数据进行清洗后转换成预设类型的结构化数据,将所述结构化的数据按照所述节点标识进行归类得到样本数据,并将所述样本数据存放至预设的数据库中。

进一步的,所述方法还包括:

将所述原始数据中不符合所述预设的数据清洗策略的问题数据放置于问题数据库中;

在预设时间段内未收到再次清洗指令时,结束对所述问题数据的处理;

同时删除所述问题数据。

本实施例中,在通过预设的数据清洗策略清洗数据过程中,若出现问题数据,可以将所述问题数据存入问题数据库中,若在预设时间段内未收到再次清洗指令,确定所述问题数据可以删除。

本实施例中,通过预设的数据清洗策略清洗原始数据,删除问题数据,确保了得到的样本数据的一致性和完整性,提高了样本数据的质量。

s13:从每个节点对应的样本数据中提取多维度的目标特征,将所述多维度的目标特征按照预设的归类模型进行归类,得到每个节点的初始标签。

本实施例中,由于不同的节点对应的数据不同,不同的节点对应不同的样本数据,从每个节点对应的样本数据中提取多维度的目标特征,并在预先训练好的归类模型中训练所述多维度目标特征得到每个节点的初始标签,并将多个节点的初始标签整理形成标签库。

优选的,所述从每个节点对应的样本数据中提取多维度的目标特征,将所述多维度的目标特征按照预设的归类模型进行归类,得到每个节点的初始标签包括:

根据每个节点的节点标识和面向所述节点标识的查询语言hql语法规则从预设的数据库中读取每个节点的样本数据;

根据预置算法从所述读取的每个节点的样本数据中提取多维度的目标特征;

将所述多维度的目标特征输入至所述预设的归类模型中进行归类得到每个节点的初始标签,其中,所述初始标签存储于区块链节点中。

本实施例中,不同节点的样本数据不同,从所述预设的数据库中采用查询语言hql语法规则读取对应节点的样本数据,使用预置算法从所述读取的每个节点的样本数据中提取多维度的目标特征,所述预置算法为现有技术,本发明在此不做详细阐述。

需要强调的是,为进一步保证上述初始标签的私密和安全性,上述初始标签还可以存储于一区块链的节点中。

本实施例中,通过将所述多维度的目标特征输入预设的归类模型进行归类得到每个节点的初始标签,提高了计算得到初始标签的效率。

进一步的,所述根据预置算法从所述读取的每个节点的样本数据中提取多维度的目标特征包括:

根据预置特征维度从所述读取的每个节点的样本数据中提取第一特征;

通过训练好的模型对所述读取的每个节点的样本数据进行处理,得到第二特征;

将所述第一特征和所述第二特征进行合并,得到多维度的目标特征。

本实施了中,所述多维度的目标特征包括基本特征和行为特征,所述基础特征是被执行对象的自然属性描述,例如,被执行对象的性别和年龄;所述行为特征是被执行对象的行为产生的特征,例如,无财产、无房、无车等。

本实施例中,与传统的标签体系不同的是,所述标签体系是通过分析业务流程中每个节点的原始数据,对所述原始数据进行清洗得到每个节点的样本数据,并提取每个节点的样本数据中的多维度目标特征得到每个节点的初始标签,确保了初始标签的准确性。

s14:对所述每个节点的初始标签进行聚类分析形成不同对象的标签体系。

本实施例中,所述对象可以根据初始标签所属的主体维度来分,例如,可以分为案件标签、被执行人标签、财产信息标签等;所述对象也可以根据初始标签的应用的策略模型来分,例如,可以分为财产控制模型标签等。

优选的,所述对所述每个节点的初始标签进行聚类分析形成不同对象的标签体系包括:

根据k均值聚类算法对所述每个节点的初始标签进行聚类,获得多个对象;

以所述多个对象中的任一对象作为目标对象,将所述目标对象及所述目标对象对应的初始标签设置为所述目标对象对应的标签体系。

本实施例中,所述k均值聚类算法是一种迭代求解的聚类分析算法,其步骤是随机选取k个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心;聚类中心以及分配给它们的对象就代表一个聚类;每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算;这个过程将不断重复直到满足预设终止条件,其中,预设终止条件可以是没有对象被重新分配给不同的聚类,没有聚类中心再发生变化,误差平方和局部最小。

本实施例中,通过采用k均值聚类算法将所述初始标签进行聚类获得多个对象,提高了得到不同对象的标签体系的准确性。

进一步的,在对所述每个节点的初始标签进行聚类分析形成不同对象的标签体系之后,所述方法还包括:

实时监控预设周期内每个初始标签的点击率及转化率;

判断所述每个初始标签的点击率是否大于对应的点击率阈值,及判断所述每个初始标签的转化率是否大于对应的转化率阈值;

当所述每个初始标签的点击率大于或者等于所述对应的点击率阈值,及所述每个初始标签的转化率大于或者等于所述对应的转化率阈值时,将所述初始标签划分为热门标签;

当所述每个初始标签的点击率小于所述对应的点击率阈值,或者所述每个初始标签的转化率小于所述对应的转化率阈值时,将所述初始标签划分为无用标签。

进一步的,所述方法还包括:

当所述初始标签为热门标签时,保留所述初始标签;

当所述初始标签为无用标签时,删除所述初始标签。

本实施例中,所述转化率是指初始标签转化为高级标签的比率。

本实施了中,通过预设周期内实时监控每个初始标签的点击率和转换率,删除无用标签,不断通过训练学习优化整个标签体系,确保了标签体系中的初始标签的时效性,同时提高了推荐标签的准确率。

s15:当监测到目标节点被触发时,推送所述目标节点对应的标签体系中的初始标签。

示例性的,当监测到触发了财产控制的节点时,推送所述财产控制模型对应的标签体系中的财产控制模型标签,辅助用户快速的做出决策,确定控制财产的优先级,如先冻结被执行人的银行存款,还是先查封被执行人的本地房产等,提高了用户的办案的效率。

本实施例中,通过标签直接给到不同的应用模型,减少模型策略运算过程。

进一步的,在所述推送所述目标节点对应的标签体系中的初始标签之后,所述方法还包括:

当监测到用户对推送的初始标签的再加工指令时,解析所述再加工指令得到所述用户的再加工条件;

将所述再加工条件输入至所述预设的归类模型中得到新的标签,将所述新的标签与所述推送的初始标签进行组合运算得到高级标签;

推送所述高级标签。

本实施中,通过解析用户反馈的再加工指令,将所述再加工条件输入至所述预设的归类模型中得到新的标签,将所述新的标签与所述推送的初始标签进行组合运算得到高级标签,及时的响应了用户,提高了推荐标签的及时性,提升办案效率。

综上所述,本实施例所述的一种基于大数据的标签推送方法,通过从预设的多个数据源中采集原始数据,其中,所述原始数据中对应有节点标识;对所述原始数据按照预设的数据清洗策略进行数据清洗,得到多个节点的样本数据;从每个节点的样本数据中提取多维度的目标特征,将所述多维度的目标特征按照预设的归类模型进行归类,得到每个节点的初始标签;对所述每个节点的初始标签进行聚类分析形成不同对象的标签体系;当监测到所述多个节点中的目标节点被触发时,推送所述目标节点对应的标签体系中的初始标签。

本实施例所述的一种基于大数据的标签推送方法,一方面通过预设的数据清洗策略清洗从不同的数据源采集的原始数据,对所述原始数据进行清洗得到每个节点的样本数据,删除问题数据,确保了得到的样本数据的一致性和完整性,提高了样本数据的质量,另一方面通过提取每个节点的样本数据中的多维度目标特征,将所述多维度的目标特征输入预设的归类模型进行归类得到每个节点的初始标签,提高了计算得到初始标签的效率,同时针对每个节点的初始标签聚类为不同对象的标签体系,提高了标签的推荐的准确率。

此外,通过预设周期内实时监控每个初始标签的点击率和转换率,删除无用标签,不断通过训练学习优化整个标签体系,确保了标签体系中的初始标签的时效性,同时提高了推荐标签的准确率。

实施例二

图2是本发明实施例二提供的基于大数据的标签推送装置的结构图。

在一些实施例中,所述基于大数据的标签推送装置20可以包括多个由程序代码段所组成的功能模块。所述基于大数据的标签推送装置20中的各个程序段的程序代码可以存储于电子设备的存储器中,并由所述至少一个处理器所执行,以执行(详见图1描述)基于大数据的标签的推送。

本实施例中,所述基于大数据的标签推送装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:采集模块201、清洗模块202、归类模块203、分析模块204、监控模块205、判断模块206及推送模块207。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。

采集模块201:用于从预设的多个数据源中采集多个原始数据,其中,每个所述原始数据中对应有节点标识。

本实施例中,所述原始数据包括:被执行对象的基本信息、案件的基本信息、执行主体信息和财产信息等,其中,所述被执行人指老赖,被执行人信息主要包括:姓名、身份证号、年龄、性别、职业和所在单位等;执行主体信息主要包括:案号、被执行人身份信息、用户信息、涉及环节、返回状态、操作时间等等;财产信息指被执行人名下的所有财产,例如:银行存款、房产、车辆等。以房产为例:房产所在的省市、楼层、朝向、面积等等。所述数据源可以为执行业务系统,从所述执行业务系统的各个流程节点中采集原始数据。

清洗模块202:用于对每个所述原始数据按照预设的数据清洗策略进行数据清洗,得到样本数据。

本实施例中,可以预先根据每个节点对应的标签的清洗条件设置数据清洗策略,所述预设的数据清洗策略可以为对缺失值清洗、格式内容清洗、逻辑错误清洗和非需求数据清洗,当采集到原始数据后,按照所述预设的数据清洗策略对所述原始数据进行清洗,得到样本数据。

本实施例中,所述缺失值清洗对应的预设的数据清洗策略为直接删除带有缺失值数据记录或者补全带有缺失值数据记录。

示例性的,带有缺失值的数据记录的目标标签主要集中于某一类或几类,如果删除这些数据记录将使对应分类的数据样本丢失大量特征信息,导致模型过拟合或分类不准确,采用的预设的数据清洗策略为补全带有缺失值数据记录。

本实施例中,所述格式内容清洗对应的预设的数据清洗策略为对时间、日期、数值、全半角等显示格式不一致、内容中有不该存在的字符及、内容与该字段应有内容不符的数据进行清洗。

示例性的,当时间、日期、数值、全半角等显示格式不一致时,预设的数据清洗策略为将所述时间、日期、数值、全半角等显示格式处理成一致的格式;当内容中有不该存在的字符时,预设的数据清洗策略为以半自动校验半人工方式来找出可能存在的问题,并去除不需要的字符,例如:身份证号中出现汉字。

本实施例中,所述逻辑错误清洗对应的预设的数据清洗策略为去重、去除不合理值及修正矛盾内容。

示例性的,针对去重设置的预设的数据清洗策略为将重复的字段进行删除,只保留一个;针对去除不合理值设置的预设的数据清洗策略如年龄200岁,删除年龄对应的不合理值;针对修正矛盾内容设置的预设的数据清洗策略为需要根据字段的数据来源,来判定哪个字段提供的信息更为可靠,去除或重构不可靠的字段,如身份证号是1101031980xxxxxxxx,然后年龄填18岁,需要判断身份证号和年龄那个更可靠进行重构或者删除矛盾内容。

本实施例中,所述非需求数据清洗对应的预设的数据清洗策略为是指将不要的字段进行删除。

优选的,所述清洗模块202对所述原始数据按照预设的数据清洗策略进行数据清洗,得到样本数据包括:

识别每个原始数据的节点标识;

获取所述节点标识对应的预设的数据清洗策略;

按照所述预设的数据清洗策略清洗所述节点标识对应的原始数据;

将清洗过的所述原始数据转换成预设类型的结构化数据;

将所述结构化的数据按照所述节点标识进行归类得到样本数据,并将所述样本数据存放至预设的数据库中。

本实施例中,所述预设数据库可以为hive数据库,hive是基于hadoop的一个数据仓库工具,可以存储结构化的数据,并提供完整的sql查询功能,可以将sql语句转换为mapreduce任务进行运行,通过预设的数据清洗策略将所述原始数据进行清洗后转换成预设类型的结构化数据,将所述结构化的数据按照所述节点标识进行归类得到样本数据,并将所述样本数据存放至预设的数据库中。

进一步的,在数据清洗的过程中,将所述原始数据中不符合所述预设的数据清洗策略的问题数据放置于问题数据库中;在预设时间段内未收到再次清洗指令时,结束对所述问题数据的处理;同时删除所述问题数据。

本实施例中,在通过预设的数据清洗策略清洗数据过程中,若出现问题数据,可以将所述问题数据存入问题数据库中,若在预设时间段内未收到再次清洗指令,确定所述问题数据可以删除。

本实施例中,通过预设的数据清洗策略清洗原始数据,删除问题数据,确保了得到的样本数据的一致性和完整性,提高了样本数据的质量。

归类模块203:用于从每个节点对应的样本数据中提取多维度的目标特征,将所述多维度的目标特征按照预设的归类模型进行归类,得到每个节点的初始标签。

本实施例中,由于不同的节点对应的数据不同,不同的节点对应不同的样本数据,从每个节点对应的样本数据中提取多维度的目标特征,并在预先训练好的归类模型中训练所述多维度目标特征得到每个节点的初始标签,并将多个节点的初始标签整理形成标签库。

优选的,所述归类模块203从每个节点对应的样本数据中提取多维度的目标特征,将所述多维度的目标特征按照预设的归类模型进行归类,得到每个节点的初始标签包括:

根据每个节点的节点标识和面向所述节点标识的查询语言hql语法规则从预设的数据库中读取每个节点的样本数据;

根据预置算法从所述读取的每个节点的样本数据中提取多维度的目标特征;

将所述多维度的目标特征输入至所述预设的归类模型中进行归类得到每个节点的初始标签,其中,所述初始标签存储于区块链节点中。

本实施例中,不同节点的样本数据不同,从所述预设的数据库中采用查询语言hql语法规则读取对应节点的样本数据,使用预置算法从所述读取的每个节点的样本数据中提取多维度的目标特征,所述预置算法为现有技术,本发明在此不做详细阐述。

需要强调的是,为进一步保证上述初始标签的私密和安全性,上述初始标签还可以存储于一区块链的节点中。

本实施例中,通过将所述多维度的目标特征输入预设的归类模型进行归类得到每个节点的初始标签,提高了计算得到初始标签的效率。

进一步的,所述根据预置算法从所述读取的每个节点的样本数据中提取多维度的目标特征包括:

根据预置特征维度从所述读取的每个节点的样本数据中提取第一特征;

通过训练好的模型对所述读取的每个节点的样本数据进行处理,得到第二特征;

将所述第一特征和所述第二特征进行合并,得到多维度的目标特征。

本实施了中,所述多维度的目标特征包括基本特征和行为特征,所述基础特征是被执行对象的自然属性描述,例如,被执行对象的性别和年龄;所述行为特征是被执行对象的行为产生的特征,例如,无财产、无房、无车等。

本实施例中,与传统的标签体系不同的是,所述标签体系是通过分析业务流程中每个节点的原始数据,对所述原始数据进行清洗得到每个节点的样本数据,并提取每个节点的样本数据中的多维度目标特征得到每个节点的初始标签,确保了初始标签的准确性。

分析模块204:用于对所述每个节点的初始标签进行聚类分析形成不同对象的标签体系。

本实施例中,所述对象可以根据初始标签所属的主体维度来分,例如,可以分为案件标签、被执行人标签、财产信息标签等;所述对象也可以根据初始标签的应用的策略模型来分,例如,可以分为财产控制模型标签等。

优选的,所述分析模块204对所述每个节点的初始标签进行聚类分析形成不同对象的标签体系包括:

根据k均值聚类算法对所述每个节点的初始标签进行聚类,获得多个对象;

以所述多个对象中的任一对象作为目标对象,将所述目标对象及所述目标对象对应的初始标签设置为所述目标对象对应的标签体系。

本实施例中,所述k均值聚类算法是一种迭代求解的聚类分析算法,其步骤是随机选取k个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心;聚类中心以及分配给它们的对象就代表一个聚类;每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算;这个过程将不断重复直到满足预设终止条件,其中,预设终止条件可以是没有对象被重新分配给不同的聚类,没有聚类中心再发生变化,误差平方和局部最小。

本实施例中,通过采用k均值聚类算法将所述初始标签进行聚类获得多个对象,提高了得到不同对象的标签体系的准确性。

进一步的,在所述分析模块204对所述每个节点的初始标签进行聚类分析形成不同对象的标签体系之后,监控模块205:用于实时监控预设周期内每个初始标签的点击率及转化率。

判断模块206:用于判断所述每个初始标签的点击率是否大于对应的点击率阈值,及判断所述每个初始标签的转化率是否大于对应的转化率阈值。

本实施例中,当所述每个初始标签的点击率大于或者等于所述对应的点击率阈值,及所述每个初始标签的转化率大于或者等于所述对应的转化率阈值时,将所述初始标签划分为热门标签。

本实施例中,当所述每个初始标签的点击率小于所述对应的点击率阈值,或者所述每个初始标签的转化率小于所述对应的转化率阈值时,将所述初始标签划分为无用标签。

进一步的,在将所述初始标签化分为无用标签和热门标签之后,判断所述初始标签的类型,当所述初始标签为热门标签时,保留所述初始标签;当所述初始标签为无用标签时,删除所述初始标签。

本实施例中,所述转化率是指初始标签转化为高级标签的比率。

本实施了中,通过预设周期内实时监控每个初始标签的点击率和转换率,删除无用标签,不断通过训练学习优化整个标签体系,确保了标签体系中的初始标签的时效性,同时提高了推荐标签的准确率。

推送模块207:用于当监测到目标节点被触发时,推送所述目标节点对应的标签体系中的初始标签。

示例性的,当监测到触发了财产控制的节点时,推送所述财产控制模型对应的标签体系中的财产控制模型标签,辅助用户快速的做出决策,确定控制财产的优先级,如先冻结被执行人的银行存款,还是先查封被执行人的本地房产等,提高了用户的办案的效率。

本实施例中,通过标签直接给到不同的应用模型,减少模型策略运算过程。

进一步的,在所述推送模块207所述推送所述目标节点对应的标签体系中的初始标签之后,当监测到用户对推送的初始标签的再加工指令时,解析所述再加工指令得到所述用户的再加工条件;将所述再加工条件输入至所述预设的归类模型中得到新的标签,将所述新的标签与所述推送的初始标签进行组合运算得到高级标签;推送所述高级标签。

本实施中,通过解析用户反馈的再加工指令,将所述再加工条件输入至所述预设的归类模型中得到新的标签,将所述新的标签与所述推送的初始标签进行组合运算得到高级标签,及时的响应了用户,提高了推荐标签的及时性,提升办案效率。

综上所述,本实施例所述的一种基于大数据的标签推送装置,通过从预设的多个数据源中采集原始数据,其中,所述原始数据中对应有节点标识;对所述原始数据按照预设的数据清洗策略进行数据清洗,得到多个节点的样本数据;从每个节点的样本数据中提取多维度的目标特征,将所述多维度的目标特征按照预设的归类模型进行归类,得到每个节点的初始标签;对所述每个节点的初始标签进行聚类分析形成不同对象的标签体系;当监测到所述多个节点中的目标节点被触发时,推送所述目标节点对应的标签体系中的初始标签。

本实施例所述的一种基于大数据的标签推送方法,一方面通过预设的数据清洗策略清洗从不同的数据源采集的原始数据,对所述原始数据进行清洗得到每个节点的样本数据,删除问题数据,确保了得到的样本数据的一致性和完整性,提高了样本数据的质量,另一方面通过提取每个节点的样本数据中的多维度目标特征,将所述多维度的目标特征输入预设的归类模型进行归类得到每个节点的初始标签,提高了计算得到初始标签的效率,同时针对每个节点的初始标签聚类为不同对象的标签体系,提高了标签的推荐的准确率。

此外,通过预设周期内实时监控每个初始标签的点击率和转换率,删除无用标签,不断通过训练学习优化整个标签体系,确保了标签体系中的初始标签的时效性,同时提高了推荐标签的准确率。

实施例三

参阅图3所示,为本发明实施例三提供的电子设备的结构示意图。在本发明较佳实施例中,所述电子设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解,图3示出的电子设备的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述电子设备3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。

在一些实施例中,所述电子设备3是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述电子设备3还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是,所述电子设备3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。

在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如安装在所述电子设备3中的基于大数据的标签推送装置20,并在电子设备3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(read-onlymemory,rom)、可编程只读存储器(programmableread-onlymemory,prom)、可擦除可编程只读存储器(erasableprogrammableread-onlymemory,eprom)、一次可编程只读存储器(one-timeprogrammableread-onlymemory,otprom)、电子擦除式可复写只读存储器(electrically-erasableprogrammableread-onlymemory,eeprom)、只读光盘(compactdiscread-onlymemory,cd-rom)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(centralprocessingunit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述电子设备3的控制核心(controlunit),利用各种接口和线路连接整个电子设备3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行电子设备3的各种功能和处理数据,例如执行基于大数据的标签推送的功能。

在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出,所述电子设备3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备3还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。

应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。

上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述电子设备3的操作装置以及安装的各类应用程序(如所述的基于大数据的标签推送装置20)、程序代码等,例如,上述的各个模块。

所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到基于大数据的标签推送的目的。

在本发明的一个实施例中,所述存储器31存储多个指令,所述多个指令被所述至少一个处理器32所执行以实现基于大数据的标签推送的目的。

具体地,所述至少一个处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1