一种用于构建用户画像的方法及系统与流程

文档序号：20921919发布日期：2020-05-29 14:15阅读：205来源：国知局

本发明涉及用户画像技术领域，并且更具体地，涉及一种用于构建用户画像的方法及系统。

背景技术：

用户画像又称用户角色，作为一种勾画目标用户、联系用户诉求与设计方向的有效工具，用户画像在各领域得到了广泛的应用。用户画像最初是在电商领域得到应用的，在大数据时代背景下，用户信息充斥在网络中，将用户的每个具体信息抽象成标签，利用这些标签将用户形象具体化，从而为用户提供有针对性的服务。在实际操作的过程中往往会以最为浅显和贴近生活的话语将用户的属性、行为与期待联结起来。作为实际用户的虚拟代表，用户画像所形成的用户角色并不是脱离产品和市场之外所构建出来的，形成的用户角色需要有代表性能代表产品的主要受众和目标群体。

技术实现要素：

本发明提出一种用于构建用户画像的方法及系统，以解决如何构建用户画像的问题。

为了解决上述问题，根据本发明的一个方面，提供了一种用于构建用户画像的方法，所述方法包括：

获取用于构建用户画像的原始数据；其中，所述初始数据包括：税务数据、税控设备产生的行为信息、税控设备的位置信息和企业网络数据；

对获取的用于构建用户画像的原始数据按照预设的处理规则进行预处理，以获取标准格式的用户画像数据源，并按照预设的存储和传输方式对所述用户画像数据源进行存储和传输；

根据待画像用户的用户信息确定待画像用户的业务分类标签，并根据确定的业务分类标签进行行为分析，以获取用户标签。

优选地，其中所述税务数据包括：

登记认定数据、申报征收数据、违法违章数据、优惠减免数据、发票数据、评估证明数据、纳税信用数据和涉税风险数据；所述行为信息包括：开票行为、抄报税行为、清卡行为和领购发票行为。

优选地，其中所述对获取的用于构建用户画像的原始数据按照预设的处理规则进行预处理，包括:

对获取的用于构建用户画像的原始数据进行缺失值处理、异常值处理、去重处理和噪音处理，以获取标准格式的用户画像数据源；

优选地，其中所述按照预设的存储和传输方式对所述用户画像数据源进行存储和传输，包括：

对标准结构的数据进行硬件加密，采用区块链技术，以块结构进行存储；其中，所述标准结构的数据包括：用户画像数据源、事务日期和到前一个块的链接信息；

基于tcp/ip协议，利用点对点模式传输在局域网内传输所述用户画像数据源。

优选地，其中所述根据待画像用户的用户信息确定待画像用户的业务分类标签，并根据确定的业务分类标签进行行为分析，以获取用户标签，包括:

按照不同的维度信息确定确定待画像用户的业务分类标签；其中，所述维度信息包括：基本情况、经营情况、业务需求和需求关注点；

采用无监督方式抽取用户的业务分类标签，为每个样本的标签建立一个词袋，对词袋进行训练，训练的过程就是采集每种标签的词袋的过程；将训练样本向量化，通过机器学习分类模型或seq2seq深度模型进行训练，获得更精准的词袋，并按照用户的画像维度进行打标签，以获取用户标签。

根据本发明的另一个方面，提供了一种用于构建用户画像的系统，所述系统包括：

数据获取单元，用于获取用于构建用户画像的原始数据；其中，所述初始数据包括：税务数据、税控设备产生的行为信息、税控设备的位置信息和企业网络数据；

数据处理单元，用于对获取的用于构建用户画像的原始数据按照预设的处理规则进行预处理，以获取标准格式的用户画像数据源，并按照预设的存储和传输方式对所述用户画像数据源进行存储和传输；

画像分析单元，用于根据待画像用户的用户信息确定待画像用户的业务分类标签，并根据确定的业务分类标签进行行为分析，以获取用户标签。

优选地，其中所述税务数据包括：

优选地，其中所述数据处理单元，对获取的用于构建用户画像的原始数据按照预设的处理规则进行预处理，包括:

对获取的用于构建用户画像的原始数据进行缺失值处理、异常值处理、去重处理和噪音处理，以获取标准格式的用户画像数据源；

优选地，其中所述数据处理单元，按照预设的存储和传输方式对所述用户画像数据源进行存储和传输，包括：

基于tcp/ip协议，利用点对点模式传输在局域网内传输所述用户画像数据源。

优选地，其中所述画像分析单元，根据待画像用户的用户信息确定待画像用户的业务分类标签，并根据确定的业务分类标签进行行为分析，以获取用户标签，包括:

按照不同的维度信息确定确定待画像用户的业务分类标签；其中，所述维度信息包括：基本情况、经营情况、业务需求和需求关注点；

本发明提供了一种用于构建用户画像的方法及系统，包括：获取用于构建用户画像的原始数据；对获取的用于构建用户画像的原始数据按照预设的处理规则进行预处理，以获取标准格式的用户画像数据源；根据待画像用户的用户信息确定待画像用户的业务分类标签，并根据确定的业务分类标签进行行为分析，以获取用户标签。本发明的系统支持税控设备集成，结合地理位置数据，提升构建用户画像数据的准确性；其次，软硬件结合，将区块链技术引入到存储分析上，同时实现局域网通信，保证画像数据的安全性；最后，装置采用独立分布式部署，可实现点对点模式通信，提升了数据分析与聚合能力。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明实施方式的用于构建用户画像的方法100的流程图；以及

图2为根据本发明实施方式的用于构建用户画像的系统200的结构示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明实施方式的用于构建用户画像的方法100的流程图。如图1所示，本发明实施方式提供的用于构建用户画像的方法，支持税控设备集成，结合地理位置数据，提升构建用户画像数据的准确性；其次，软硬件结合，将区块链技术引入到存储分析上，同时实现局域网通信，保证画像数据的安全性；最后，装置采用独立分布式部署，可实现点对点模式通信，提升了数据分析与聚合能力。本发明实施方式提供的用于构建用户画像的方法100，从步骤101处开始，在步骤101获取用于构建用户画像的原始数据；其中，所述初始数据包括：税务数据、税控设备产生的行为信息、税控设备的位置信息和企业网络数据。

优选地，其中所述税务数据包括：登记认定数据、申报征收数据、违法违章数据、优惠减免数据、发票数据、评估证明数据、纳税信用数据和涉税风险数据；所述行为信息包括：开票行为、抄报税行为、清卡行为和领购发票行为。

在本发明的实施方式中，收集的数据包括：登记认定数据、申报征收数据、违法违章数据、优惠减免数据、发票数据、评估证明数据、纳税信用数据和涉税风险数据等；对于接入系统的税控设备，自动收集的税控设备产生的行为信息；按照预设的时间阈值获取的税控设备所在位置的位置信息；以及采用爬虫方式手机的企业网络数据。其中，行为信息包括：开票、抄报税、清卡和领购发票行为。

在步骤102，对获取的用于构建用户画像的原始数据按照预设的处理规则进行预处理，以获取标准格式的用户画像数据源，并按照预设的存储和传输方式对所述用户画像数据源进行存储和传输。

优选地，其中所述对获取的用于构建用户画像的原始数据按照预设的处理规则进行预处理，包括:

对获取的用于构建用户画像的原始数据进行缺失值处理、异常值处理、去重处理和噪音处理，以获取标准格式的用户画像数据源；

优选地，其中所述按照预设的存储和传输方式对所述用户画像数据源进行存储和传输，包括：

基于tcp/ip协议，利用点对点模式传输在局域网内传输所述用户画像数据源。

在本发明的实施方式中，需要对获取的数据进行探索性分析。对于整个数据来讲是获得对数据一个初步的认识以及对先验知识的一个探索分析过程，在相关数据挖掘的过程中，主要是利用python相关的科学计算库进行数据初步的探索，例如数据类型，缺失值，数据集规模，各特征下的数据分布情况等，并利用第三方绘图库进行直观的观察，以获取数据的基本属性与分布情况，另外，通过单变量分析与多变量分析，可以初步探索数据集中各特征之间的关系，以验证在业务分析阶段所提出的假设。

在数据处理过程中，需要获取缺失值。数据集中缺失值的获取方法可以直接通过pandas的自带的多种方法获取，在大多数数据集中缺失值都普遍会存在，因此，对于缺失值的处理好坏会直接影响到模型的最终结果。因此，需要对缺失值进行处理，主要依据在缺失值所在属性的重要程度以及缺失值的分布情况。

①.在缺失率少且属性重要程度低的情况下，若属性为数值型数据则根据数据分布情况简单的填充即可，例如：若数据分布均匀，则使用均值对数据进行填充即可；若数据分布倾斜，使用中位数填充即可。若属性为类别属性，则可以用一个全局常量‘unknow’填充，但是，这样做往往效果很差，因为算法可能会将其识别为一个全新的类别，因此很少使用。

②.当缺失率高(>95％)且属性重要程度低时，直接删除该属性即可。然而在缺失值高且属性程度较高时，直接删除该属性对于算法的结果会造成很不好的影响。

③.对于缺失值高且属性重要程度高的数据，使用插补法与建模法进行填充。

其中，插补法主要有随机插补法，多重插补法，热平台插补法，以及拉格朗日插值法与牛顿插值法。随机插补法，是从总体中随机抽取某几个样本代替缺失样本。多重插补法，是通过变量之间的关系对缺失数据进行预测，利用蒙特卡洛方法生成多个完整的数据集，在对这些数据集进行分析，最后对分析结果进行汇总处理。热平台插补，指在非缺失数据集中找到一个与缺失值所在样本相似的样本(匹配样本)，利用其中的观测值对缺失值进行插补。利用插补法对缺失值进行处理的优点为：简单易行，准确率较高；缺点为：变量数量较多时，通常很难找到与需要插补样本完全相同的样本。但可以按照某些变量将数据分层，在层中对缺失值实用均值插补。

建模法可以用回归、贝叶斯、随机森林、决策树等模型对缺失数据进行预测。例如：利用数据集中其他数据的属性，可以构造一棵判定树，来预测缺失值的值。一般而言，数据缺失值的处理没有统一的流程，必须根据实际数据的分布情况，倾斜程度，缺失值所占比例等来选择方法。在我做数据预处理过程中，除了使用简单的填充法外与删除外，更多情况下采用建模法进行填充，主要在于建模法根据已有的值去预测未知值，准确率较高。但建模法也可能造成属性之间的相关性变大，可能影响最终模型的训练。

对于异常值，处理方法包括：1>删除异常值：明显看出是异常且数量较少可以直接删除；2>不处理：如果算法对异常值不敏感则可以不处理，但如果算法对异常值敏感，则最好不要用这种方法，如基于距离计算的一些算法，包括kmeans，knn之类的；3>平均值替代：损失信息小，简单高效；4>视为缺失值：按照处理缺失值的方法来处理。

对于重复项，基本思想是“排序与合并”，先将数据集中的记录按一定规则排序，然后通过比较邻近记录是否相似来检测记录是否重复。这里面其实包含了两个操作，一是排序，二是计算相似度。目前在做竞赛过程中主要是用duplicated方法进行判断，然后将重复的样本进行简单的删除处理。

这块目前看到的博客与国外一些比赛的案例基本都采用直接删除进行处理，没有看到过比较有新意的方法。

噪音是被测变量的随机误差或者方差，主要区别于离群点。由公式：观测量(measurement)＝真实数据(truedata)+噪声(noise)。离群点属于观测量，既有可能是真实数据产生的，也有可能是噪声带来的，但是总的来说是和大部分观测量之间有明显不同的观测值。噪音包括错误值或偏离期望的孤立点值，但也不能说噪声点包含离群点，虽然大部分数据挖掘方法都将离群点视为噪声或异常而丢弃。然而，在一些应用(例如：欺诈检测)，会针对离群点做离群点分析或异常挖掘。而且有些点在局部是属于离群点，但从全局看是正常的。

对于噪音的处理主要采用分箱法和回归法进行处理。其中，分箱方法通过考察数据的“近邻”来光滑有序数据值。这些有序的值被分布到一些“桶”或箱中。由于分箱方法考察近邻的值，因此它进行局部光滑。用箱均值光滑：箱中每一个值被箱中的平均值替换。用箱中位数平滑：箱中的每一个值被箱中的中位数替换。用箱边界平滑：箱中的最大和最小值同样被视为边界。箱中的每一个值被最近的边界值替换。一般而言，宽度越大，光滑效果越明显。箱也可以是等宽的，其中每个箱值的区间范围是个常量。分箱也可以作为一种离散化技术使用。对于回归法可以用一个函数拟合数据来光滑数据。线性回归涉及找出拟合两个属性(或变量)的“最佳”直线，使得一个属性能够预测另一个。多线性回归是线性回归的扩展，它涉及多于两个属性，并且数据拟合到一个多维面。使用回归，找出适合数据的数学方程式，能够帮助消除噪声。

对于经过预处理后得到的用户画像数据源，进行硬件加密，采用区块链技术进行存储，以块结构进行存储。同时，还包含诸如事务日期和到前一个块的链接等详细信息。实现本发明方法的系统实行分布式部署，采用tcp/ip协议，点对点模式进行通讯传输，在局域网(localareanetwork,lan)内传输数据。

在步骤103，根据待画像用户的用户信息确定待画像用户的业务分类标签，并根据确定的业务分类标签进行行为分析，以获取用户标签。

优选地，其中所述根据待画像用户的用户信息确定待画像用户的业务分类标签，并根据确定的业务分类标签进行行为分析，以获取用户标签，包括:

按照不同的维度信息确定确定待画像用户的业务分类标签；其中，所述维度信息包括：基本情况、经营情况、业务需求和需求关注点；

在本发明的实施方式中，画像分析主要有两个过程：行为分析和画像生成。行为分析是确定所述待画像用户的基本类标签和分析类标签，进行行为分析；同时，将关联性企业数据(上下游产业链、集团各公司)组合分析。其中，设定的分类标签，包含以下维度：基本情况：如“公司性质、成立时间、企业规模、注册资金、投资情况、专利、商标、办公地点”等；经营情况：如“经营收入、产品服务”等；业务需求：如“需要中等性能设备”等；需求关注点：如“设备耐用性”“噪音低”等。分析过程，拗口：采用无监督的抽取企业业务标签；同时为每个样本的标签建立一个词袋，对词袋进行训练，训练的过程就是采集每种标签的词袋的过程；再有，将训练样本向量化，通过机器学习分类模型或seq2seq深度模型进行训练，获得更精准的词袋。分析结果按照企业画像维度进行打标签，最后将分析结果进行排列，输出用户标签，完成用户画像。

本发明实施方式通过收集用户税务数据，将关联性的用户数据组合，进行分析并构建用户基础画像，能够提高用户画像构建的准确性；采用软硬件结合，采用区块链技术存储分析，支持局域网连通，独立装置、分布式部署，采用点对点模式传输，能够提高用户画像构建的安全性和效率。

图2为根据本发明实施方式的用于构建用户画像的系统200的结构示意图。如图2所示，本发明实施方式提供的用于构建用户画像的系统200，包括：数据获取单元201、数据处理单元202和画像分析单元203。

优选地，所述数据获取单元，用于获取用于构建用户画像的原始数据；其中，所述初始数据包括：税务数据、税控设备产生的行为信息、税控设备的位置信息和企业网络数据。

优选地，所述数据处理单元202，用于对获取的用于构建用户画像的原始数据按照预设的处理规则进行预处理，以获取标准格式的用户画像数据源，并按照预设的存储和传输方式对所述用户画像数据源进行存储和传输。

优选地，其中所述数据处理单元202，对获取的用于构建用户画像的原始数据按照预设的处理规则进行预处理，包括:

对获取的用于构建用户画像的原始数据进行缺失值处理、异常值处理、去重处理和噪音处理，以获取标准格式的用户画像数据源；

优选地，其中所述数据处理单元202，按照预设的存储和传输方式对所述用户画像数据源进行存储和传输，包括：

基于tcp/ip协议，利用点对点模式传输在局域网内传输所述用户画像数据源。

优选地，所述画像分析单元203，用于根据待画像用户的用户信息确定待画像用户的业务分类标签，并根据确定的业务分类标签进行行为分析，以获取用户标签。

优选地，其中所述画像分析单元203，根据待画像用户的用户信息确定待画像用户的业务分类标签，并根据确定的业务分类标签进行行为分析，以获取用户标签，包括:

按照不同的维度信息确定确定待画像用户的业务分类标签；其中，所述维度信息包括：基本情况、经营情况、业务需求和需求关注点；

本发明的实施例的用于构建用户画像的系统200与本发明的另一个实施例的用于构建用户画像的方法100相对应，在此不再赘述。

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘宇;陈皓;郑海洋;陈东至;季京生;董小康;张瑜
技术所有人：大象慧云信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。