一种基于移动信令的大数据营销方法

文档序号：9667374阅读：620来源：国知局

一种基于移动信令的大数据营销方法
【技术领域】
[0001] 本发明属于互联网领域，更具体地，涉及一种基于移动信令的大数据营销方法。
【背景技术】
[0002] 随着信息技术的迅猛发展以及人们获取信息手段的多样化，社会各行各业都拥有大量的信息数据。电信运营商的数据仓库中已经累积大量原始数据未得利用，运营商在经营过程中，已经出现了大量客户流失和业务收入下滑的现象。在使用现有业务支撑系统外，更多的只能是通过相关报表看到这些现象发生的结果，再采取相应的措施，并不能有一个事先的预警，以至于不能及时采取相应的战略调整。另外，目前的业务支撑系统的数据处理速度和响应时间较慢，因此也导致管理层和决策层都不能及时地得到数据结果。
[0003] 为此，运营商从战略层面上对大数据展开部署，利用云计算的强大计算能力，迅速处理大数据信息，关注实际业务，进行数据采集分析挖掘，将数据转化为精准营销生产力。目前，已有一些企业和研究机构在大数据处理领域提出了一些发明申请。
[0004] 例如，在中国发明申请CN201210571477. 6中提出了一种基于PaaS平台的大数据处理方法，其中所述系统包括PaaS平台服务器及其上构建的多个Service服务器和与每个 Service服务器相关联的hadoop集群。所述方法为用户终端向PaaS平台服务器发送数据处理请求；PaaS平台服务器解析所述数据处理请求，向相应的Service服务器发送任务指令；所述Service服务器调用其对应的hadoop集群，去执行所述数据处理请求所对应的作业；所述hadoop集群将作业结果返回给所述Service服务器；所述Service服务器将作业结果返回给PaaS平台服务器；PaaS平台服务器根据所述作业结果向用户终端返回服务响应。然而，该方法只是提供一种大数据分布式处理实现系统，却并未说明具体大数据处理的方法。
[0005] 中国发明申请CN201210590482. 1中提出了一种高精度多维计数布鲁姆过滤器及其大数据处理方法，所述方法为在高精度多维计数布鲁姆过滤器中存储一定规模或具有相应特性的多维属性数据集；读取需要处理的多维属性大数据集；进行高精度多维计数布鲁姆过滤器处理，包括多维元素查询和更新等；输出经过处理后的多维属性数据集。然而，该方法是针对多维属性数据集，进行高精度多维计数布鲁姆过滤器处理，在高精度多维计数布鲁姆过滤器中存储一定规模或具有相应特性的多维属性数据集，待处理的多维属性大数据集需要满足布鲁姆过滤器的输入格式要求；另外，该方法仅提供了一种数据价值"提纯" 的方法，并未形成大数据处理框架系统。

【发明内容】

[0006] 针对现有技术的以上缺陷或改进需求，本发明提供了一种基于移动信令的大数据营销方法，其目的在于，能够利用分布式存储技术提高海量数据处理效率，同时，本发明能够为大数据提供精准的处理模型，对不同的应用场景具有通用性。
[0007] 为实现上述目的，按照本发明的一个方面，提供了一种基于移动信令的大数据营销方法，包括以下步骤：
[0008] (1)建立应用类型模型库和算法库，其中应用类型模型库包含不同应用类型的应用模型；
[0009] (2)对输入数据进行抽样，对抽样后的样本数据进行主成分分析PCA和关键字匹配，以确定输入数据的应用类型，并根据该应用类型确定其对应的应用模型；
[0010] (3)根据输入数据的应用类型进行数据筛选；
[0011] (4)对步骤（3)得到的筛选后的数据进行分片，并对分片后的数据进行数据分布式存储处理；
[0012] (5)根据步骤（2)中的主成份分析结果得出应用类型模型库中不存在与输入数据的应用类型相对应的应用模型；
[0013] (6)根据步骤（5)所得的组合分类算法的算法本身对输入数据的格式要求，对输入数据进行相应数据变换以得到满足分类算法输入数据格式要求的输入数据；
[0014] (7)对样本数据进行模型训练，用训练后的模型对所有输入数据进行模型实施；
[0015] (8)对步骤（7)训练出来的模型进行评估，将新模型加入应用类型模型库并更新应用类型模型库；
[0016] (9)调用应用类型模型库中对应的应用模型对输入数据进行分析处理，发布数据分析结果，并将结果反馈到输入端，形成自动化闭环模型体系。
[0017] 优选地，初始阶段，应用类型模型库中没有应用模型，所有应用模型均以增量的方式被加入到应用类型模型库中；算法库中包含不同的数据分类算法以及算法的适用场景，可根据不同的应用类型的场景及数据特征，自适应地选取符合要求的算法。
[0018] 优选地，步骤⑵包括以下子步骤：
[0019] (2. 1)采用自适应渐进抽样法对输入数据进行抽样，以得到η维样本数据X= {Xl，x2,. . .，χη}，其中X表示输入数据中某个字段中的数据，η为自然数；
[0020] (2. 2)对η维样本数据进行主成分分析，以找到样本数据中的关键字；
[0021] (2. 3)提取步骤（2. 2)中查找到的关键字与模型库中关键字进行匹配，并判断模型库中是否存在与该关键字相应的应用模型，如果是则进入步骤（9)，否则进入步骤（3)。
[0022] 优选地，步骤（2. 2)具体为，首先是利用如下公式（1)计算η维样本数据X的协方差矩阵S;
[0023]
[0024]
[0025] 然后将S矩阵的特征值按照从大到小的顺序排列：果前m(其中1 <m<η)个特征值之和占总特征值之和的比率达到90%以上，则选择输入数据中与前m个特征值对应的字段为关键字。
[0026] 优选地，步骤⑶包括以下子步骤：
[0027] (3. 1)根据查找到的样本数据中的关键字，从输入数据中提取与该关键字相对应的字段的原始数据；
[0028] (3. 2)对提取出来的原始数据进行K均值聚类，并根据聚类结果判断离群点和重复数据点，将离群点和重复数据点删除，对删除离群点和重复数据点之后的数据进行以下处理：对于值不一致的数据点以及值缺失的数据点的值用样本均值代替；
[0029] (3. 3)随机抽取一部分清洗过的数据作为检测数据，利用切比雪夫定理对步骤 (3. 2)中清洗过的所有数据进行检测，并判断数据错误率是否低于阈值0. 5%，若数据错误率低于0.5%，则审核通过，然后进入步骤（4)，否则重复步骤（3.2);
[0030] 优选地，步骤（4)具体为，首先检测磁盘利用率，判断磁盘空间是否满足筛选后的数据的存储容量要求，若磁盘空间满足要求，则将筛选后的数据存储在指定磁盘；若磁盘空间不满足要求，则对筛选后的数据进行分片，将分片数据分布存储在指定终端。
[0031] 优选地，步骤（5)包括以下子步骤：
[0032] (5. 1)根据输入数据的统计特性及字段属性在算法库中选择所有满足要求的分类算法，并用选择出来的分类算法分别对样本数据进行分类，从而得到不同的分类结果，并计算该分类结果的准确率；
[0033] (5. 2)将所选的分类算法编码为二进制字符串；并将一元线性回归方程作为适应度函数f(y)，用于描述分类算法的分类结果的准确率；
[0034] (5. 3)计算分类算法丫;被选中的概率为f(y;) /(f(yj+f(y2) +· · ·+f(yn));
[0035] (5. 4)根据分类算法被选的概率大小对分类算法的二进制编码随机的进行交叉组合，或者对分类算法的二进制编码进行小范围的变异，以产生分类结果，并将以上交叉组合和变异的过程不断重复下去，直到找出组合分类算法的近似最优组合。
[0036] 优选地，步骤（6)包括以下子步骤：
[0037] (6. 1)对所有数据进行对象聚焦处理，并根据步骤（2)中的协方差矩阵S对聚焦处理后的数据进行降维；
[0038] (6. 2)按比例对降维后的连续数据进行离散化，并对离散后的数据进行变量变换，以满足组合分类算法的数据格式要求；
[0039] (6. 3)判断处理后数据的数据格式是否满足组合分类算法对输入数据的格式要求，若不满足要求，则重复步骤（6. 1)-(6.2);若满足要求，则进入步骤（7)。
[0040] 优选地，步骤（7)包括以下子步骤：
[0041]

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：莫益军;秦思;王冼;
技术所有人：华中科技大学;
我是此专利的发明人

上一篇：一种基于改进的K-Medoids的KNN文本分类方法
上一篇：一种网络数据定向分页式采集方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。