一种基于标签化的数据分析方法与流程

文档序号:20839668发布日期:2020-05-22 17:20阅读:425来源:国知局
本发明涉及数据挖掘分析领域,特别指一种基于标签化的数据分析方法。
背景技术
::在新型智慧城市和智慧政务领域,面临着需要集中数据资源以便支撑新型智慧城市或者智慧政务的智慧化应用的挑战,大数据是其中重要的战略资源,数据驱动成为新型智慧城市和智慧政务的核心特征,因此产生了数据分析的需求,在别的领域也存在相同的需求。要实现智慧化应用,精细化管理和数据赋能尤为重要,画像分析的概念也因此应运而生。画像分析是指在大数据时代,通过对海量数据信息进行清洗、聚类、分析,将数据抽象成标签,再利用这些标签将业务实体形象具体化的过程,画像分析能够帮助用户更好地开展针对性服务和监管。虽然目前市场上存在一些平台或者系统通过标签来刻画目标对象,例如用户画像分析、广告营销以及企业画像分析等,但是这些平台或者系统存在仅能针对单一的业务对象进行分析,按特定的模板进行展示,应用范围狭窄,无法实现跨应用以及自助多维分析等的缺点。因此,如何提供一种基于标签化的数据分析方法,实现提升数据分析的应用范围,适用于各行业,并能对数据进行自助多维分析,进而提升数据的应用价值,成为一个亟待解决的技术问题。技术实现要素:本发明要解决的技术问题,在于提供一种基于标签化的数据分析方法,实现提升数据分析的应用范围,适用于各行业,并能对数据进行自助多维分析,进而提升数据的应用价值。本发明是这样实现的:一种基于标签化的数据分析方法,包括如下步骤:步骤s10、从数据库获取各实体的原始数据;步骤s20、定义一标签体系、一计算规则以及一逻辑规则;步骤s30、基于所述标签体系、计算规则以及逻辑规则对各条原始数据进行打标签,生成标签数据;步骤s40、对所述标签数据进行分群;步骤s50、对分群的所述标签数据或者单个实体的标签数据进行自助多维分析与展示。进一步地,所述步骤s10具体为:从各数据库获取待分析的各实体的原始数据,并对所述原始数据进行解析和适配,转换为格式统一的数据。进一步地,所述步骤s20具体为:依据业务需求定义一包括至少一个标签的标签体系;各所述标签均包括一标签属性以及一标签生成规则;各所述标签均基于所述标签属性设定上一层级的标签,即父节点,进而建立树形结构的标签体系;定义一包括计算表达式的计算规则以及一包括逻辑表达式的逻辑规则,用于依据所述标签生成规则对原始数据进行计算。进一步地,所述标签属性至少包括名称、业务分类、存储类型、经纬度以及取值范围;所述业务分类至少包括事实型、规则型、统计型以及复杂型;所述存储类型包括数值、字符、地理位置以及枚举;所述标签生成规则为各条原始数据与标签属性进行一一对应的规则。进一步地,所述步骤s30具体包括:步骤s31、利用计算引擎基于所述计算规则对各条原始数据分别进行计算生成第一计算结果,基于所述第一计算结果以及标签生成规则对各条原始数据进行打标签,生成第一标签数据;利用规则引擎基于所述逻辑规则对各条原始数据分别进行计算生成第二计算结果,基于所述第二计算结果以及标签生成规则对各条原始数据进行打标签,生成第二标签数据;步骤s32、判断是否所有的所述原始数据均已打标签,若是,则进入步骤s40;若否,则进入步骤s33;步骤s33、基于神经网络模型以及所述标签生成规则,对各条未打标签的原始数据进行打标签,生成第三标签数据,并进入步骤s40。进一步地,所述打标签具体为设置各条原始数据的标签属性。进一步地,所述步骤s40具体为:基于聚类算法,利用所述标签属性对各标签数据进行分群。进一步地,所述步骤s50具体为:利用索引技术检索需要分析的分群的所述标签数据或者单个实体的标签数据,并依据所述标签体系设置分析维度,基于可视化工具以及所述分析维度,对检索的标签数据进行统计,并以图表的形式进行展示。本发明的优点在于:通过自定义所述标签体系、计算规则以及逻辑规则,进而对各条所述原始数据进行打标签,即能够对不同类型的实体、不同的应用场景动态、灵活的设置不同的规则进行打标签,相对于传统上仅能针对单一的业务对象进行分析,极大的提升了数据分析的应用范围,适用于不同行业的实体数据画像、用户行为分析、精准营销以及个性化推荐;利用计算引擎、规则引擎以及神经网络模型进行计算打标签,极大的提升了打标签的能力;通过设置所述分析维度,并利用索引技术以及可视化工具实现对数据进行自助多维分析,可以对业务关注点进行多角度的融合分析,显著的提升了数据的应用价值。附图说明下面参照附图结合实施例对本发明作进一步的说明。图1是本发明一种基于标签化的数据分析方法的流程图。图2是本发明从数据库获取原始数据的示意图之一。图3是本发明从数据库获取原始数据的示意图之二。图4是本发明计算引擎的示意图之一。图5是本发明计算引擎的示意图之二。图6是本发明规则引擎的示意图之一。图7是本发明规则引擎的示意图之二。图8是本发明规则引擎的示意图之三。图9是本发明地理分群配置的示意图。图10是本发明地理分群结果的示意图。图11是本发明条件分群配置的示意图。图12是本发明自助多维分析与展示的设置界面的示意图。图13是本发明自助多维分析与展示的展示界面的示意图。具体实施方式本申请实施例中的技术方案,总体思路如下:通过自定义标签体系、计算规则以及逻辑规则进而对原始数据进行打标签,提升数据分析的应用范围;通过自定义分析维度,并利用索引技术以及可视化工具实现对数据进行自助多维分析。请参照图1至图13所示,本发明一种基于标签化的数据分析方法的较佳实施例,包括如下步骤:步骤s10、从数据库获取各实体的原始数据;实体即要进行数据分析的对象、画像要描述的对象或者画像的主题,如人口画像的实体或主题就是自然人;实体是对概念对象上的统一,但从数据角度一个实体包含实体生命周期的各项数据信息;步骤s20、定义一标签体系、一计算规则以及一逻辑规则;步骤s30、基于所述标签体系、计算规则以及逻辑规则对各条原始数据进行打标签,生成标签数据;步骤s40、对所述标签数据进行分群;分群就是将全部标签数据通过规则划分成较小的,有共同特征的群组,以此来帮助我们更好地对某类特征群体进行分析,更快得到业务关注点的对象信息,进行精确决策和针对性运营;步骤s50、对分群的所述标签数据或者单个实体的标签数据进行自助多维分析与展示。标签是通过对实体的信息分析而来的高度精炼的特征标识,是对实体(entity)属性特征的描述,代表着所描述实体某一个具体的客观事实的抽象表达,是一种以业务视角出发的数据建模方法;标签的值标记了实体的一个特征信息,既可能是数值、也可能是枚举值。标签体系用于解决数据之间的关联问题,往往涉及到多个维度、大量标签的复杂结构设计,标签体系一般为扁平化。所述步骤s10具体为:从各数据库获取待分析的各实体的原始数据,并对所述原始数据进行解析和适配,转换为格式统一的数据。具体为先利用各数据库的连接属性以及jdbc包构建数据库连接,连接属性包括ip地址、用户名以及密码等。连接上数据库后,通过数据库jdbc包或者数据库操作api以及指定目标数据实例的名称或者编写sql语句进行查询数据库的元数据表,对查询出的元数据信息进行字段解析并存储为统一格式即可得到相关数据库元数据。解析得到元数据后,根据用户选择的所需字段,通过拼接sql语句,如selectf1,f2,f3fromtable1,其中f1,f2,f3即用户选择的元数据字段,最后再利用jdbc包通过执行sql语句即查询得到最终的原始数据。所述步骤s20具体为:依据业务需求定义一包括至少一个标签的标签体系;各所述标签均包括一标签属性以及一标签生成规则;各所述标签均基于所述标签属性设定上一层级的标签,即父节点,进而建立树形结构的标签体系,即层级化的标签体系;定义一包括计算表达式的计算规则以及一包括逻辑表达式的逻辑规则,用于依据所述标签生成规则对原始数据进行计算。所述标签属性至少包括名称、业务分类、存储类型、经纬度以及取值范围;所述业务分类至少包括事实型、规则型、统计型以及复杂型;所述存储类型包括数值、字符、地理位置以及枚举;所述标签生成规则为各条原始数据与标签属性进行一一对应的规则。所述步骤s30具体包括:步骤s31、利用计算引擎基于所述计算规则对各条原始数据分别进行计算生成第一计算结果,基于所述第一计算结果以及标签生成规则对各条原始数据进行打标签,生成第一标签数据;计算引擎支持统计型的原始数据的标签生成;计算引擎优选为spark;利用规则引擎基于所述逻辑规则对各条原始数据分别进行计算生成第二计算结果,基于所述第二计算结果以及标签生成规则对各条原始数据进行打标签,生成第二标签数据;规则引擎支持事实型和规则型的原始数据的标签生成;规则引擎由推理引擎发展而来,是一种嵌入在应用程序中的组件,实现了将业务决策从应用程序代码中分离出来,并使用预定义的语义模块编写业务决策;接受数据输入,解释业务规则,并根据业务规则做出业务决策;步骤s32、判断是否所有的所述原始数据均已打标签,若是,则进入步骤s40;若否,则进入步骤s33;步骤s33、基于神经网络模型以及所述标签生成规则,对各条未打标签的原始数据进行打标签,生成第三标签数据,并进入步骤s40;神经网络模型支持复杂型原始数据的标签生成。传统上对数据进行打标签实际上是需要编辑代码的,即通过编辑代码设定数据和标签的对应关系,而业务人员并不知道如何编辑代码将数据和标签进行结合,而本发明通过计算引擎和规则引擎的下拉菜单或者简单填表设定计算规则或者逻辑规则进行计算,再利用所述标签生成规则进行打标签,即将编辑代码的工作进行了可视化与简单化,对业务人员进行简单的讲解即可自行完成数据与标签的构建工作,为业务人员提供了极大的便利。所述打标签具体为设置各条原始数据的标签属性。所述步骤s40具体为:基于聚类算法,利用所述标签属性对各标签数据进行分群,例如基于所述经纬度对各标签数据进行分群;分群能加速群体特征的暴露和预警。所述步骤s50具体为:利用索引技术检索需要分析的分群的所述标签数据或者单个实体的标签数据,并依据所述标签体系设置分析维度,基于可视化工具以及所述分析维度,对检索的标签数据进行统计,并以图表的形式进行展示;例如以折线图、柱状图、饼状图、雷达图、气泡图、词云或者表格的形式进行展示;所述设置分析维度,可以根据所述标签属性进行任意组合,例如分析经纬度取值为北京范围内,取值范围为1至10的标签数据。传统上将标签数据生成图表进行展示是需要编辑代码的,即通过编辑代码设定标签数据的展示形式,业务人员并不知道如何编辑代码将标签数据进行展示,而本发明通过利用索引技术以及可视化工具实现对数据进行自助多维分析,即下拉菜单或者简单填表的方式即可实现将标签数据以图表展示,将编辑代码的工作进行了可视化与简单化,对业务人员进行简单的讲解即可自行完成展示图表的工作,无需编程知识,为业务人员开展业务,向领导汇报工作提供了极大的便利。综上所述,本发明的优点在于:通过自定义所述标签体系、计算规则以及逻辑规则,进而对各条所述原始数据进行打标签,即能够对不同类型的实体、不同的应用场景动态、灵活的设置不同的规则进行打标签,相对于传统上仅能针对单一的业务对象进行分析,极大的提升了数据分析的应用范围,适用于不同行业的实体数据画像、用户行为分析、精准营销以及个性化推荐;利用计算引擎、规则引擎以及神经网络模型进行计算打标签,极大的提升了打标签的能力;通过设置所述分析维度,并利用索引技术以及可视化工具实现对数据进行自助多维分析,可以对业务关注点进行多角度的融合分析,显著的提升了数据的应用价值。虽然以上描述了本发明的具体实施方式,但是熟悉本
技术领域
:的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1