基于不同信息源自动生成报表的方法和系统与流程

文档序号：14185638阅读：496来源：国知局

本发明涉及互联网服务技术领域，尤其涉及基于不同信息源自动生成报表的方法。

背景技术：

随着互联网爆炸式的发展，每天都在产生着大量数据，如何通过方法有效的分析海量数据，并从其中找到有利的规格或资讯已经成为一种趋势。

在传统的方法中，需要对用户行为进行人工分类、判定，并在后期提供有针对性的服务或其它处理应对。在海量数据的场景下，数据往往维度多、数据量大，人工很难将用户行为相关的指标统计全面。此外，由于人会出现疲劳等情况，这种传统的人工识别的方法准确率并不高。

在互联网逐渐步入大数据时代后，用户的行为在服务商面前都将是可视化的。服务商的关注点日也开始益聚焦于怎样利用大数据来精准营销，进而深入挖掘潜在的商业价值。于是，“用户画像”的概念也就应运而生。大数据使得服务商能够通过互联网便利地获取用户更为广泛的反馈信息，为进一步精准、快速地分析用户行为习惯、消费习惯等重要商业信息，提供了足够的数据基础。伴随着对人的了解逐步深入，用户画像(userprofile)的概念应运而生，其用于通过用户标签抽象出用户的信息全貌，可以看作服务商应用大数据的根基。典型的用户画像是将用户信息标签化，就是服务商通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后，完美地抽象出一个用户的商业全貌，可以看作是服务商应用大数据技术的基本方式。

然而，目前，对用户标签的识别、用户画像的建立，主要还是通过人工干预和计算机简单处理转换的方式完成，存在有以下不足：1、耗时很长；2、人工成本高；3、生成的结果不够直观；4、信息录入有因人工导致的错误风险。

另外，过于依赖后台工作人员个人因素会导致得到的用户画像结果的差异性很大，而且也没有考虑到标签的时效性，会导致最终得到的用户画像不够精确。

在现有技术中，对用户行为进行分类和预测的方法较为单一，参考效果不理想。由于用户行为包括线上和线下行为，数据来源复杂，存在这样的需求：开发能够针对不同的数据来源、结合多种分类预测技术而综合判定和预测用户属性、并生成用户画像的方案。

技术实现要素：

有鉴于此，如何快速抓取信息并生成直观易懂的图表(用户标签和用户画像)，供决策者进行决策的依据就成了一个重要的课题。申请人创造性地将多种数据源汇总分析，并按照指定业务场景自动生成各种图表，供决策者快速做成决策。

本发明的主要目的在于提供基于不同信息源自动生成各种图表的方法。该方法可通过使用scrapy爬取网站相关信息、结合已有的业务数据，通过web数据挖掘技术中的pagerank算法以及分类算法对不用来源的数据进行解析、分类，最后使用聚类分析生成描述，调用pythoncharts生成用户标签，进一步抽象、汇总为用户画像。

根据本发明的实施例，提供了一种基于不同信息源自动生成报表的方法，包括：

步骤1、从第一信息源获取用户的静态信息数据；

步骤2、从第二信息源获取用户的动态信息数据；

步骤3、分析所获取的静态和动态信息数据，进行数据清洗，过滤/格式化后得到生成报表所需的数据，包括用户的多个标签；

步骤4、根据在步骤3获得的数据和标签，对用户的各个标签计算权重；

步骤5、将步骤4的计算结果与步骤3的数据结合，形成包含该用户各维度的数据集合。

根据本发明的实施例，其中，第一信息源是业务服务端的用户数据，第二信息源包括从第三方获取的用户行为数据、线下业务数据、以及与业务服务端的用户行为数据，所述用户行为数据包括使用scrapy从第三方网站抓取的用户行为数据。

根据本发明的实施例，其中，在步骤4中，如下确定所述标签权重：

标签权重＝衰减因子×行为权重×网址权重，

其中，衰减因子由用户的每个标签所涉及的用户行为数据的行为时间确定，行为权重由用户的每个标签所涉及的用户行为数据的行为类别确定，所述网址权重由用户的每个标签所涉及的信息源确定。

根据本发明的实施例，其中，所述步骤3包括：对静态和动态信息数据进行变量区间处理，其中，根据业务的规则为作为变量的行为数据划定区间，并将划定的区间映射为具有业务指标，从而作为后续的数值输入。

根据本发明的实施例，其中，通过以下步骤，确定所述行为类别：

计算用户行为数据在预设的各个维度上的属性；

根据用户行为数据的来源、以及与所述来源相对应的所述属性，选择相应的分类模型；

根据所选的分类模型，对用户行为数据进行分类。

根据本发明的实施例，其中，确定所述行为类别的步骤还包括：

对用户身份进行识别，获取所述用户行为数据在各个维度上的属性，如果所述用户行为数据在部分维度的属性不完整，则调用该用户的历史行为数据，与所述预设时段的用户行为数据合并，补充所述部分维度的属性。

根据本发明的实施例，其中，对于在业务服务端的用户行为数据，选择决策树分类模型，对于线下业务数据、和/或从第三方获取的所述用户行为数据，选择随机森林分类模型。

根据本发明的实施例，其中，在步骤4中，用户的各个标签在不同业务场景下具有不同的权重值，在步骤5中，在用户各维度的数据集合中，根据当前的业务场景，选择权重靠前的用户标签，进行可视化处理，生成用户画像。

根据本发明的实施例，提供了一种基于不同信息源自动生成报表的系统，包括：

第一获取模块101，用于从第一信息源获取用户的静态信息数据；

第二获取模块102，用于从第二信息源获取用户的动态信息数据；

数据分析模块103，用于分析所获取的静态和动态信息数据，进行数据清洗，过滤/格式化后得到生成报表所需的数据，包括用户的多个标签；

权重计算模块104，用于根据第一获取模块101和第二获取模块102获取的数据、以及数据分析模块生成的标签，对用户的各个标签计算权重；

数据结合模块105，用于将权重计算模块104的计算结果与数据分析模块103得到的数据结合，形成包含该用户各维度的数据集合。

根据本发明的实施例，提供了一种计算机可读存储介质，其上存储有基于不同信息源自动生成报表的方法的程序，所述程序被处理器执行时，实现所述方法的步骤。

本发明的有益效果主要在于：考虑到数据的不同来源，进行差异化的处理，提高了处理的精细度和准确度；考虑到了用户数据的时效性，建立起数据更新机制；以用户画像作为参照信息，大大提高相关业务的办理速度；能够根据样本数据来源的不同，选择不同的分类模型级联和/或并联，使得客户关系管理更加精准。

附图说明

图1为根据本发明的实施例的基于不同信息源自动生成报表的方法的流程示意图；

图2为根据本发明的实施例的用户分类的结果的示意图；

图3为根据本发明的实施例的用户分类的结果的另一示意图；

图4为根据本发明的实施例的基于决策树归纳对用户行为进行分类的流程示意图；

图5为根据本发明的实施例的所生成的在购物场景下的用户标签的示意图；

图6为根据本发明的实施例的基于不同信息源自动生成报表的系统的组成示意图；

图7为根据本发明的实施例的安装了应用程序的系统的运行环境的示意图。

具体实施方式

下面，结合附图对技术方案的实施作进一步的详细描述。

本领域的技术人员能够理解，尽管以下的说明涉及到有关本发明的实施例的很多技术细节，但这仅为用来说明本发明的原理的示例、而不意味着任何限制。本发明能够适用于不同于以下例举的技术细节之外的场合，只要它们不背离本发明的原理和精神即可。

另外，为了避免使本说明书的描述限于冗繁，在本说明书中的描述中，可能对可在现有技术资料中获得的部分技术细节进行了省略、简化、变通等处理，这对于本领域的技术人员来说是可以理解的，并且这不会影响本说明书的公开充分性。

下文中，将描述用于进行本发明的实施例。注意，将以下面的次序给出描述：1、基于不同信息源自动生成报表的方法(图1)；2、用户行为类别的确定方法(图2至5)；3、根据本发明的实施例的安装了应用程序的系统(图6)。

1、基于不同信息源自动生成报表的方法

如图1所示，根据本发明的实施例，提供了一种报表自动生成方法，包括：

步骤s100、从不同信息源获取用户的静态和动态信息数据；

其中，静态信息数据是指用户相对稳定(不易随时间变化)的信息，主要源自公共数据，例如，包括人口属性、商业属性等方面数据。这类信息，自成标签，如果企业有真实信息则无需过多建模预测，更多的是数据清洗(过滤、筛选)工作。

其中，动态信息数据是指用户不断变化的信息，包括用户的行为信息，广义上讲，用户打开网页，买了一个杯子；与该用户傍晚溜了趟狗，白天取了一次钱，打了一个哈欠等等一样都是用户行为。目前，用户行为有集中到互联网(例如电商、社交网络)的趋势，这样，可将用户行为聚焦于较小的范围，例如，发表关于鞋品质的微博、赞“双十一大促给力”的微博消息。等等均可看作互联网用户行为。在用户互联网上的行为可以看作用户动态信息的主要数据来源。

步骤s200、分析所获取的上述信息数据，进行数据清洗(过滤)，过滤/格式化后得到生成报表所需的数据，包括每个用户的标签；

用户画像的目标是通过分析用户行为，最终为每个用户打上标签，各个标签对应于权重。标签，表征了内容，用户对该内容有兴趣、偏好、需求等等。权重，表征了指数，用户的兴趣、偏好指数，也可能表征用户的需求度，可以简单的理解为可信度、概率，等等)。

步骤s300、根据在上述步骤中获得的数据和标签，对各个用户的标签计算权重(公式如下)；

用户数据模型，可以概括为下面的公式：用户标识+时间+行为类型+接触点(网址+内容)，即，什么用户在什么时间、什么地点、做了什么事。

用户标签的权重可能随时间的增加而衰减，因此定义时间为衰减因子r，行为类型、网址决定了权重，内容决定了标签，可进一步转换为公式：

标签权重＝衰减因子×行为权重×信息源权重

步骤s400、将上述步骤的计算结果与步骤s100的数据结合，形成包含该用户各维度的数据集合；

步骤s500、对数据集合中数据进行分析分类，使用聚类分析生成用户描述，最终生成用户报表。

具体地，可通过web数据挖掘技术中的pagerank算法以及分类算法对数据库中数据进行分析分类，最后使用聚类分析生成描述，调用pythoncharts生成报表。用户分类结果的示例如图2和3所示。

其中，图2以直方图的形式示出了用户分类结果，从中能够看出各类用户的数量及所占比例。

图3以雷达图的形式示出了各类用户的特征分布，其中选取了图2中的有代表性的3类用户。例如特征a、b、c可为年龄、区域(区域消费水准)、位置(区域人口)等其他特征。

可选地，步骤s100包括：

s101、对静态和动态信息数据进行预处理(数据清洗、筛选)，根据预处理后的网络访问信息中获取用户在每个预设行为类别中的行为数据，使获取的同一类别的行为数据具有相同的格式。

在步骤s101中，为提取出每个类别的行为数据，可对该网络访问信息进行预处理。对网络访问信息的预处理包括对网络访问信息进行变量采集、变量区间处理、极大极小规则处理、缺失值处理和格式处理等。

变量采集为从网络访问信息中采集出用户每次网络访问的访问时间、登录时间、浏览信息、搜索信息以及购买信息等等，比如访问一个具体的电商网站时的访问时间、登录时间、浏览信息、搜索信息以及购买信息。服务器在采集出用户每次访问的访问时间、登录时间、浏览信息、搜索信息以及购买信息等信息时，可调用相关的累加器或计算器等对应统计出用户在预设时间段内的登录次数、购买次数、浏览次数和搜索次数、购买金额，等等。

变量区间处理为根据业务的规则为每个变量划定区间，并将划定的区间映射为具有业务指标，从而作为后续的数值输入，以计算用户行为熵等特征。例如，用户的上述次数登录次数、购买金额可分别被划分到多个区间中的一个，每个区间对应于具体数值，例如，与次数或金额相关的用户行为可对应于规范化的指标(0至100)。

极大极小的规则处理包括对所采集的网络访问信息所包含的数值大小的处理，以降低异常数据对用户的行为分类判断的干扰。具体的，可所对所采集的网络访问信息中的用户的年龄进行极大极小的规则处理。比如，对于年龄为-1、0、或999岁等等，明显不符合正常用户年龄的数据，对其进行极大极小规则处理。

缺失值处理是指所采集网络访问信息中包含的预设行为类别中的行为数据不存在时，可对其进行缺失值处理。如将其标记为“0”，或采用其它信息代替等等。比如，用户采用匿名访问或不登录用户名而直接访问相关的购物网站时，服务器所记录的用户的登录信息则缺失。服务器可对该类信息进行缺失值处理，如可获取用户的访问终端的唯一标识，将该唯一标识作为和用户的登录名进行关联。

格式处理包括对网络访问信息中包含的时间信息的格式的处理，使其格式保持相同。比如，对于所记录的用户的登录时间等时间信息，比如所记录到的时间信息包括20091011和2009-10-11以及2009年10月11日等形式，可将其全部转换成统一格式，如20091011。

2、用户行为类别的确定方法

在生成用户画像的过程中，有可能需要对用户行为进行分类、并建立与用户标签的对应关系，可采用的分类技术有很多，如决策树、贝叶斯网络、神经网络、遗传算法、关联规则等。其中，决策树技术是用于分类和预测的主要技术，决策树学习是以实例为基础的归纳学习算法。它着眼于从一组无次序、无规则的事例中推理除决策树表示形式的分类规则。它采用自顶向下的递归方式，在决策树的内部节点进行属性值的比较并根据不同属性判断从该节点向下的分支，然后进行剪枝，最后在决策树的叶节点得到分类结果。所以从根到叶节点就对应着一条合取规则，整棵树就对应着一组析取表达式规则。

以使用决策树为例，说明如何实现对用户行为的分类(预测)，以便根据业务场景生成各种用户标签。

如图4所示，所述分类预测方法主要包括以下步骤：

s600、获取待识别用户行为的行为特征，确定行为特征的属性；

s700、根据所生成的决策树模型，加载所述行为特征的属性；

s800、递归遍历所述决策树模型，查找所述行为特征对应的决策树叶子分类节点，由所述叶子节点确定所述用户网络访问行为的分类；

s900、根据所确定的分类，生成不同场景下的用户标签。

可选地，在步骤s600中，包括对用户身份的识别的过程，在识别出用户身份的情况下，调用该用户的历史行为数据，补足该用户的网络行为特征的多个维度上的属性。如果该用户的历史行为数据在部分维度上的属性不完整，则按照默认规则补全不完整的行为属性，以便满足所述决策树模型的要求。

可选地，在步骤s700中，所生成的决策树模型可以有一个或多个，可根据分类目的而选择决策树模型中的一个。并且，可选地，所生成的多个决策树模型也可以是多级关系，通过同类或不同类的决策树模型级联而满足最终的分类要求。

可选地，在步骤s800中，所述分类可为多维输出，根据预定规则，能够产生用户标签，以便建立用户画像。

可选地，在步骤s900中，包括对用户网络访问的权限进行控制。

可选地，在步骤s900中，根据分类结果，调用信息知识库，生成各个场景下的用户标签，其中，所述信息知识库记录了用户的行为过程与行为目的之间的关系。

图5为根据本发明的实施例的所生成的在购物场景下的用户标签的示意图。其中，根据各个用户标签在该场景下的权重，对不同用户标签进行差异化显示。

3、基于不同信息源自动生成报表的系统

此外，所属技术领域的技术人员能够理解，本发明的各个方面可以被实现为系统、方法或计算机程序产品。因此，本发明的各个方面可以具体实现为以下形式：完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。此外，本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

在根据本发明的实施例被实现为上述“系统”的情况下，本发明还涉及一种基于不同信息源自动生成报表的系统，包括：

第一获取模块，用于从第一信息源获取用户的静态信息数据；

第二获取模块，用于从第二信息源获取用户的动态信息数据；

数据分析模块，用于分析所获取的静态和动态信息数据，进行数据清洗，过滤/格式化后得到生成报表所需的数据，包括用户的多个标签；

权重计算模块，用于根据第一获取模块和第二获取模块获取的数据、以及数据分析模块生成的标签，对用户的各个标签计算权重；

数据结合模块，用于将权重计算模块的计算结果与数据分析模块得到的数据结合，形成包含该用户各维度的数据集合。

4、安装了用于实现本发明的实施例的应用程序的系统

此外，本发明的不同实施例也可以通过软件模块或存储在一个或多个计算机可读介质上的计算机可读指令的方式实现，其中，所述计算机可读指令当被处理器或设备组件执行时，执行本发明所述的不同的实施例。类似地，软件模块、计算机可读介质和硬件部件的任意组合都是本发明预期的。所述软件模块可以被存储在任意类型的计算机可读存储介质上，例如ram、eprom、eeprom、闪存、寄存器、硬盘、cd-rom、dvd等等。

具体地，本发明的另一个方面涉及使用硬件和/或软件实现上述不同的实施例。本领域的技术人员应该理解，可以使用计算设备或者一个或多个处理器实现或执行本发明的实施例。计算设备或处理器可以是例如通用处理器、数字信号处理器(dsp)、专用集成芯片(asic)、现场可编程门阵列(fpga)或其他可编程逻辑设备，等等。本发明不同的实施例也可以被这些设备的组合执行或体现。

参照图7，其示出了根据本发明的实施例的安装了应用程序的系统的运行环境。

在本实施例中，所述的安装应用程序的系统安装并运行于电子装置中。所述电子装置可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子装置可包括但不限于存储器、处理器及显示器。图6仅示出了具有上述组件的电子装置，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器在一些实施例中可以是所述电子装置的内部存储单元，例如该电子装置的硬盘或内存。所述存储器在另一些实施例中也可以是所述电子装置的外部存储设备，例如所述电子装置上配备的插接式硬盘，智能存储卡(smartmediacard，smc)，安全数字(securedigital，sd)卡，闪存卡(flashcard)等。进一步地，所述存储器还可以既包括所述电子装置的内部存储单元也包括外部存储设备。所述存储器用于存储安装于所述电子装置的应用软件及各类数据，例如所述安装应用程序的系统的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器在一些实施例中可以是中央处理单元(centralprocessingunit，cpu)、微处理器或其他数据处理芯片，用于运行所述存储器中存储的程序代码或处理数据，例如执行所述安装应用程序的系统等。

所述显示器在一些实施例中可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode，有机发光二极管)触摸器等。所述显示器用于显示在所述电子装置中处理的信息以及用于显示可视化的用户界面，例如应用菜单界面、应用图标界面等。所述电子装置的部件通过系统总线相互通信。

由上，将理解，为了说明的目的，这里已描述了本发明的具体实施例，但是，可作出各个修改，而不会背离本发明的范围。本领域的技术人员将理解，流程图步骤中所绘出或这里描述的操作和例程可以多种方式变化。更具体地，可重新安排步骤的次序，可并行执行步骤，可省略步骤，可包括其它步骤，可作出例程的各种组合或省略。因而，本发明仅由所附权利要求限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王盼;李晨光
技术所有人：上海壹账通金融科技有限公司
我是此专利的发明人

上一篇：送风机的制作方法
上一篇：基于卷积神经网络和数据驱动的非线性动态系统辨识方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。