一种画像标签数据的计算及存储方法和计算及存储系统与流程

文档序号:16781729发布日期:2019-02-01 19:11阅读:198来源:国知局
一种画像标签数据的计算及存储方法和计算及存储系统与流程
本发明涉及画像数据的计算及存储技术,尤其涉及一种标签数据计算及存储方法和计算及存储系统。
背景技术
:目前随着画像技术的广泛应用,以及数据资产的运营日趋成熟,画像技术有效支撑了数据资产的数据价值提炼,为客服人员与营销人员有效把握用户的行为属性提供了良好基础。画像技术输出画像标签需要海量的数据资源作为基础支撑,根据业务需求,画像技术的计算过程包含了海量的临时数据,标签输入数据具有数据复杂、数据量庞大的特点,标签输出数据具有关联多样、调用需求多的特点。因此,画像标签计算及存储系统需要考虑标签输入数据、过程数据的临时存储,同时还要考虑标签历史数据的长期存储问题。画像标签的输入数据包括诸如业务系统记录等的结构化数据、诸如客服工单等的半结构化数据以及诸如系统日志等的非结构化数据,计算画像标签完成后,其附带的许多相关数据,包括标签元数据、用户特征数据、用户策略数据等,同时,画像标签可以按照不同的实体对象建立不同的画像体系,画像标签相关数据多种多样。进一步,系统可以根据不同的数据查询请求,调用不同时间的标签,纵向分析标签数据情况,所以当前大部分画像标签计算及存储系统存在查询效率慢的问题。综合考虑画像标签具备的特点,本发明人认为,有必要提出一种通过高效计算与存储的系统与方法,有效管理数据存储空间,迅速反馈业务应用端的标签数据查询请求。技术实现要素:为了解决现有技术所存在的上述问题,本发明提供了一种画像标签数据的计算及存储方法,用以提高标签数据查询的效率。本发明还提供了一种画像标签数据的计算及存储系统。本发明的画像标签数据的计算及存储方法,包括以下步骤:s1、获取并存储业务数据;s2、对过程数据进行两级缓存:对业务数据按照时间周期汇总计算,获得并缓存一级过程数据,对一级过程数据按照时间窗口汇总计算,获得并缓存二级过程数据;s3、对结果数据进行两级缓存:对二级过程数据根据机器学习算法计算,获得并缓存三级结果数据,对三级结果数据按照画像标签计算规则计算,获得并缓存四级画像标签数据;s4、将四级画像标签数据转化为画像标签实时数据、画像标签历史数据及标签分析数据,对画像标签实时数据、画像标签历史数据进行存储并对标签分析数据进行缓存,并对数据查询请求进行判断处理。优选地,步骤s2获取步骤s1的每条业务数据,根据设定的时间周期对业务数据进行预处理,将预处理后形成的一级过程数据发送出去进行缓存;还获取每条一级过程数据,按照设定的时间窗口对该一级过程数据进行集成处理,将集成处理后形成的二级过程数据发送出去进行缓存。优选地,步骤s3获取二级过程数据后,利用机器学习算法对二级过程数据进行计算,并将计算后获得优选地,级结果数据进行计算,将计算后形成的四级画像标签数据发送出去进行缓存。优选地,步骤s4对四级画像标签数据的更新时间进行判断,对最新的画像标签实时数据由关系型数据库存储,对小于最新更新时间的画像标签历史数据由非关系型数据库存储,对标签分析数据由应用缓存服务器缓存;并对数据查询请求进行判断,根据判断结果确定数据查询调用区域。优选地,步骤s4根据查询请求,检查近期是否存在相同的查询请求,若有,直接从应用缓存服务器中返回数据;若无,则根据查询请求向关系型数据库或非关系型数据库发出查询请求,关系型数据库或非关系型数据库基于查询请求向应用缓存服务器返回查询的标签分析数据,并由应用缓存服务器返回数据,同时由应用缓存服务器根据设定周期缓存标签分析数据。本发明的画像标签数据的计算及存储系统,包括:数据仓库,用于获取并存储业务数据;第一分布式缓存服务器集群,用于存储一级过程数据及二级过程数据,其包括:计算服务器和多个业务数据一级缓存服务器;计算服务器从数据仓库获取业务数据并按照时间周期汇总计算,获得并缓存一级过程数据到相应的业务数据一级缓存服务器,还对一级过程数据按照时间窗口汇总计算,获得并缓存二级过程数据到相应的业务数据一级缓存服务器;第二分布式缓存服务器集群,用于存储三级结果数据及四级画像标签数据,其包括:计算服务器和多个业务数据二级缓存服务器;计算服务器对二级过程数据根据机器学习算法计算,获得并缓存三级结果数据到相应的业务数据二级缓存服务器,还对三级结果数据按照画像标签计算规则计算,获得并缓存四级画像标签数据到相应的业务数据二级缓存服务器;第三分布式存储服务器集群,用于将四级画像标签数据转化为画像标签实时数据、画像标签历史数据及标签分析数据,其包括:存储画像标签实时数据的关系型数据库服务器、存储画像标签历史数据的非关系型数据库服务器和存储标签分析数据的应用缓存服务器,以及用于对数据查询请求进行判断处理的数据查询调用服务器。优选地,所述数据查询调用服务器,用于接收到数据查询请求后,判断该查询请求在近期内是否有相同的查询请求,并根据判断结果对关系型数据库、非关系数据库或者应用缓存服务器进行数据调用。可见,本发明的技术方案采用三级集群服务器计算并存储海量混合画像标签过程数据与结果:系统接收业务数据后,由第一级缓存服务器集群根据业务数据的画像对象类型的汇总周期与时间窗口进行集成合并,之后由第二级缓存服务器集群按照机器学习算法与画像标签规则对集成数据进行计算输出,由第三级存储服务器集群接收并存储在相应的关系型数据库中,同时对标签历史数据转入相应的非关系型数据库中,根据数据查询请求,迅速确定并返回需要查询的标签分析数据,提高了海量混合类型的画像标签数据查询效率。附图说明图1为本发明实施例提供的画像标签数据的计算及存储系统流程图;图2为本发明实施例提供的画像标签数据的计算及存储物理流程图;图3为本发明实施例提供的画像标签数据的查询方法流程示意图。具体实施方式以下将结合附图及实施例对本发明的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其他实施例,都属于本发明所保护的范围。本申请使用的“模块”、“系统”等术语旨在包括与计算机相关的实体,例如但不限于硬件、固件、软硬件组合、软件或者执行中的软件。例如,模块可以是,但不仅限于:处理器上运行的进程、处理器、对象、可执行程序、执行的线程、程序和/或计算机。举例来说,计算机设备上运行的应用程序和此计算设备都可以是模块。一个或多个模块可以位于执行中的一个进程和/或线程内,一个模块也可以位于一台计算机上和/或分布于两台或更多台计算机之间。本实施例的技术方案中,采用三级集群服务器计算并存储海量混合画像标签过程数据与结果数据:计算及存储系统接收业务数据后,由第一级缓存服务器集群根据业务数据的画像对象类型的汇总周期与时间窗口进行集成合并,之后由第二级缓存服务器集群按照机器学习算法与画像标签规则对集成数据进行计算输出,由第三级存储服务器集群接收并存储在相应的关系型数据库中,同时对标签历史数据转入相应的非关系型数据库中,根据数据查询请求,迅速确定并返回需要查询的标签分析数据,提高了海量混合类型的画像标签数据查询效率。下面结合附图详细说明本发明实施例的技术方案。本发明实施例提供的画像标签数据的计算及存储系统的结构如图1所示。包括:数据仓库101、第一分布式缓存服务器集群102、第二分布式缓存服务器集群103、第三分布式存储服务器集群104;其中,数据仓库101用于获取并存储包含画像对象类型、画像对象标识、对象行为记录、行为记录时间的海量历史业务数据,表1示出了数据仓库101存储的业务数据。表1画像对象类型画像对象标识对象行为记录(计费电量)行为记录时间用电客户0306000012350.122018-01-01用电客户030600001234.682018-01-23用电客户0306000014469.472018-02-01上述画像对象类型包括:用户、设备、工单、员工等。具体的,第一分布式缓存服务器集群102,用于存储一级过程数据及二级过程数据,其包括:计算服务器和多个业务数据一级缓存服务器;其中,一条一级过程数据包括:画像对象类型、画像对象标识、汇总时间周期、对象行为记录,表2示出了第一分布式缓存服务器集群102缓存的一级过程数据;一条二级过程数据包括:画像对象类型、画像对象标识、对象行为记录,表3示出了第一分布式缓存服务器集群102缓存的二级过程数据。表2画像对象类型画像对象标识汇总时间对象行为记录(月用电量)用电客户0306000012018年1月2584.80用电客户0306000012018年2月4469.47表3画像对象类型画像对象标识对象行为记录(近6月平均用电量)用电客户0306000013592.03用电客户0306000021652.52具体的,第二分布式缓存服务器集群103,用于存储三级结果数据及四级画像标签数据,其包括:计算服务器和多个业务数据二级缓存服务器;其中,一条三级结果数据包括:画像对象类型、画像对象标识、多个不同标签指标等,表4示出了第二分布式缓存服务器集群103缓存的三级结果数据;一条四级画像标签数据包括:画像对象类型、画像对象标识、画像标签指标,表5示出了第二分布式缓存服务器集群103缓存的四级画像标签数据。表4表5画像对象类型画像对象标识电量类型投诉类型用电客户030600001高电量经常投诉用电客户030600002中电量投诉沉默具体的,第三分布式存储服务器集群104,将四级画像标签数据转化为画像标签实时数据、画像标签历史数据及标签分析数据,并存储画像标签实时数据、画像标签历史数据及标签分析数据,其包括:关系型数据库服务器、非关系型数据库服务器、数据查询调用服务器、应用缓存服务器;其中,一条画像标签实时数据包括:画像对象标识、画像对象名称、多个不同画像标签等,表6示出了第三分布式存储服务器集群104缓存的画像标签实时数据;一条画像标签历史数据包括:画像对象标识、画像对象名称、画像标签汇总、画像更新时间,表7示出了第三分布式存储服务器集群104缓存的画像标签历史数据;一条标签分析数据包括:画像标签标识、画像对象标识、多个画像分析指标,表8示出了第三分布式存储服务器集群104缓存的标签分析数据。表6画像对象类型画像对象标识画像标签汇总画像更新时间用电客户030600001高电量2018-07-0601:00:00用电客户030600002经常投诉2018-07-0601:00:06表7表8画像标签标识画像对象标识近6个月电费波动值近3个月停电次数0000010010306000010.430.860000010020306000010.271.03具体的,数据查询调用服务器用于接收到数据查询请求后,判断该查询请求在短期历史内是否有相同的查询请求,并根据判断结果对关系型数据库、非关系数据库或者应用缓存服务器进行数据调用。本发明实施例提供的画像标签数据的计算及存储方法的流程如图2所示。包括如下步骤:s201、数据仓库从各大业务系统及互联网获取到业务数据后,根据数据结构设计长期存储方式,对海量业务数据进行存储;本步骤中,历史业务数据由数据仓库存储,数据仓库通过etl方式或者归档日志解析方式从业务系统获取数据,而外部数据则通过数据爬取方式从互联网获取。s202、第一分布式缓存服务器集群对过程数据进行两级缓存,计算服务器对业务数据按照时间周期汇总计算,获得并缓存一级过程数据,计算服务器对一级过程数据按照时间窗口汇总计算,获得并缓存二级过程数据。本步骤中,所述第一分布式缓存服务器集群的计算服务器用于从所述数据仓库获取每条业务数据,根据设定的时间周期对该业务数据进行预处理,将预处理后形成的一级过程数据发送到对应的一级过程数据缓存服务器进行缓存;所述计算服务器用于从所述一级过程数据缓存服务器获取每条一级过程数据,按照设定的时间窗口对该一级过程数据进行集成处理,将集成处理后形成的二级过程数据发送到对应的一级过程数据缓存服务器进行缓存;s203、第二分布式缓存服务器集群对结果数据进行两级缓存,计算服务器对二级过程数据根据机器学习算法计算,获得并缓存三级结果数据,计算服务器对三级结果数据按照画像标签计算规则计算,获得并缓存四级画像标签数据。本步骤中,所述第二分布式缓存服务器集群的计算服务器对于每个一级缓存服务器,获取该一级缓存服务器中缓存的二级过程数据后,根据实体对象编号利用机器学习算法对二级过程数据进行计算,并将计算后获得的三级结果数据发送至对应的二级缓存服务器进行缓存;所述计算服务器从二级缓存服务器获取每条三级结果数据,按照画像标签计算规则对该结果数据进行计算,将计算后形成的四级画像标签数据发送到对应的二级缓存服务器进行缓存;s204、第三分布式存储服务器集群对画像数据进行存储、接收并处理查询请求,对画像分析数据进行缓存,关系型数据库对画像实时数据进行存储,非关系型数据库对画像历史数据进行存储,应用缓存服务器对标签分析数据进行存储,数据查询调用服务器对数据查询请求进行判断处理。本步骤中,所述第三分布式存储服务器集群对四级画像标签数据的更新时间进行判断,对最新的标签实时数据由关系型数据库存储;对小于最新更新时间的标签历史数据由非关系型数据库存储;所述数据查询调用服务器对查询请求进行判断,根据判断结果确定数据查询调用区域,并将数据结果返回客户端。本发明实施例提供的画像标签数据查询方法的流程如图3所示,包括如下步骤:s301、数据查询调用服务器根据数据查询请求,对数据查询请求进行解析;s302、数据查询调用服务器根据数据查询请求的解析结果,检查近期是否存在相同的查询请求,若有,直接将数据查询请求发送给应用缓存服务器,若无,则根据具体数据查询请求向关系型数据库或非关系型发出查询请求;s303、关系型数据库或非关系型数据库基于查询请求,从数据库获取并按照查询请求计算数据;s304、关系型数据库或非关系型数据库通过jdbc方式向应用缓存服务器推送查询的标签分析数据并由应用缓存服务器缓存,应用缓存服务器根据实际情况设置存储周期为1天,缓存标签分析数据;s305、应用缓存服务器收到数据库推送的标签分析数据,并迅速返回数据给应用端。如上所述,即可较好地实现本发明。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1