一种互联网大数据分析提取方法与流程

文档序号：29080938发布日期：2022-03-02 00:02阅读：109来源：国知局

1.本发明属于大数据技术领域，尤其涉及一种互联网大数据分析提取方法。

背景技术：

2.大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
3.目前，很多采用网络爬虫方式，从公开网站抓取相关信息，然后进行结构化处理和存储，可能会被大量的过期信息、钓鱼网站信息等无用信息干扰，数据准确性和实用性较低。因此，需要深入研究互联网数据提取方法，解决其数据可信度和准确性提高的问题。
4.现有大数据的智能处理系统至少具有如下缺点：现有数据技术缺乏对非结构化数据的分析，丢失了大量有效信息，影响业务的分析结果；现有的数据分析和提取过分依赖于人力的特征提取，准确性低、计算效率差，对用户请求响应缓慢，影响用户体验；不同的服务通常采用不同的数据处理和特征提取方法，造成大量的冗余数据处理，并且不同服务的数据单元的特征不相兼容。

技术实现要素：

5.发明目的：本发明的目的是为了解决现有技术中存在的缺点，而提出的一种互联网大数据分析提取方法，其排除了精准度和可信度低的数据，得到可信度和精准度更高的正查数据，相较于现有技术不是简单的获取，而是通过各种算法对原始数据进行了分析和提取，以此获得准确度高和可信度高的数据。
6.本发明方法具体包括如下步骤：
7.步骤1、根据数据的特点，将数据对象划分为不同的部分和类型，再进一步分析，得到所要提取的数据范围；
8.步骤2、通过规定因变量和自变量来确定变量之间的因果关系，建立回归模型，并根据实测数据来求解模型的各参数，然后评价回归模型是否能够拟合实测数据，如果能够拟合，则根据自变量作进一步缩小所要提取的数据范围；
9.步骤3、根据数据的特征属性将数据分成两个以上聚合类(特征属性是用于表示数据的，其来源可以是是统计分析，比如本发明所使用到的互联网文本数据，需要统计其特征属性包括来源网站、主题、词语、词频统计数等。步骤3是先进行一个初步的分组，相当于是初始化工作。后续是进一步的细化和提取)，每一个聚合类中的元素具有相同的特性，对所要抓取的数据进行分组；
10.步骤4、采用相似匹配法来计算两个数据的相似程度；
11.步骤5、将步骤1～步骤4中频繁出现(选取词频统计达到前20％)的数据进行提取，根据数据的属性特征，用词频作为统计指标，表明数据所反馈的数据段信息；
12.步骤6、根据数据段分解正则表达式对待分析数据中的数据段进行数据分解(正则
表达式是一种计算机文本处理技术，因为是互联网文本，里面含有很多格式性的符号(如html标记符号等)，需要借助正则表达式进行处理和过滤掉)，生成数据项值，并将数据项值与数据段分解正则表达式对应的数据项名称列表进行关联，形成数据项名称与数据项值对应的中间数据对，根据数据统计规则，对中间数据对进行统计分析，得到数据分析结果。
13.优选地，所述步骤2中，相似匹配算法可应用于如数据清洗、用户输入纠错、推荐统计、剽窃检测系统、自动评分系统、网页搜索和dna序列匹配领域。步骤2中，实测数据表示实际实验测试的数据，也就是输入的数据，自变量来自于实测数据。
14.步骤2包括：设定自变量数据对象为x＝{x1,x2,
…
,xm}，其对应的因变量为y＝{y1,y2,
…
,ym}，回归模型为：
15.y＝w0+w1x1+w2x2+
…
+wmxm+μ
16.其中，xm、ym分别表示第m个自变量和第m个因变量；w＝{w0,w1,w2,
…
,wm}为回归系数集合，wm表示第m个回归系数，μ为随机误差，采用平方误差来衡量拟合的误差l(x)：
[0017][0018]
由得到：
[0019][0020]
是对w(回归系数)的参数估计值；
[0021]
通过局部加权线性回归，解决欠拟合问题，为误差增加权重wi，误差为：
[0022][0023]
其中w是对角矩阵，采用高斯核，对应权重函数w(j,j)为：
[0024][0025]
其中k表示高斯函数的方差，得到新的回归系数为：
[0026][0027]
其中w＝w
t
w。
[0028]
步骤4中，要求不同分组的数据对象之间相似度低，同一个分组中的数据对象之间的相似度高，通过如下目标函数计算j：
[0029][0030]
其中，j是实测数据集中所有对象的平方误差之和，xi表示数据集中任意一个对象，uj是第j个聚合类(簇)cj的中心点，目标是让上述目标函数达到收敛。
[0031]
步骤4中，所述相似匹配法包括平均指标和变异指标的计算、资料分布形态的图形表现，通过计算数据项之间的距离，衡量两个数据项之间的相似度，采用了欧氏距离、曼和
顿距离、闵可夫斯基距离、夹角余弦距离综合考虑，计算公式如下：
[0032]
采用如下公式计算欧式距离d1(xi,xj)：
[0033][0034]
采用如下公式计算曼和顿距离d2(xi, xj)：
[0035]
d2(xi,xj)＝|x
i1-x
j1
|+x
i2-x
j2
|+
…
+|x
id-x
jd
|
[0036]
采用如下公式计算闵可夫斯基距离d3(xi,xj)：
[0037][0038]
采用如下公式计算夹角余弦距离d4(xi,xj)：
[0039][0040]
其中xi＝{x
i1
,x
i2
,
…
,x
id
}∈rd和xj＝{x
j1
,x
j2
,
…
,x
jd
}∈rd表示数据项合集中的两个数据项样本，距离值越小表示样本的相似性越大，距离越大表示样本的相似性越小；i，j＝1,2,3,
…
,n；x
id
表示第i个数据项样本xi的第d个值；rd表示维度为d的实数集；
[0041]
采用如下公式计算加权求和的距离d(xi,xj)：
[0042]
d(xi,xj)＝a1·
d1(xi,xj)+a2·
d2(xi,xj)+a3·
d3(xi,xj)+a4·
d4(xi,xj)
[0043]
其中a1,a2,a3,a4分别为对应欧氏距离、曼和顿距离、闵可夫斯基距离、夹角余弦距离权重值，取值范围[0,1]，且a1+a2+a3+a4＝1。
[0044]
本发明还包括获取站点首页，所述获取站点首页的方法包括：从网页页面的网址中取出域名地址，对域名地址进行跳转处理，得到网页页面对应的站点首页；通过全网网页页面的网址中逐一取出域名地址，进行去重处理后添加到域名地址集合中，对域名地址集合中的所有域名地址进行跳转处理，得到相对应的站点首页；或者，利用站点的首页样本集合，统计分析站点链接锚文本及网址样式特征构造首页分类器，利用首页分类器对网页页面进行分析，得到所有的站点首页。
[0045]
本发明还包括：获取网页页面对应的联系页，具体包括：利用站点的联系页样本集合，统计分析其链接锚文本、页面标题及网址样式特征构造联系页分类器，利用所述联系页分类器对所述网页页面进行分析，得到所有站点的联系信息页。
[0046]
本发明具有以下有益效果：
[0047]
1、数据结构化模块能够对原始大数据进行预处理以及网络化，使得所述原始大数据转化为网络数据或者结构数据，从而所述表征学习模块可以利用网络数据的表征学习算法，来实现对数据的快速、统一的特征提取，并以高维向量的形式进行表示；整个特征提取的过程无需人的参与，利用基于嵌入映射的表征学习算法自动完成，计算效率高。
[0048]
2、特征提取的过程中还极大地保留了原始大数据中的结构信息(即有效信息)，从而提高了后续利用该特征信息进行分类或预测等任务的准确性；不仅如此，由于采用了基于嵌入映射的表征学习算法，使得从原始大数据中挖掘到的数据特征统可以统一由高维向量的形式进行表示，从而使得大数据的智能处理系统不仅限于为某个特定的应用服务，可以为多种应用服务提供统一有效地处理方法。
附图说明
[0049]
下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。
[0050]
图1是本发明方法流程图。
[0051]
图2是本发明实施例结果示意图。
具体实施方式
[0052]
参照图1，本发明提供了一种互联网大数据分析提取方法，包括以下步骤：
[0053]
s1、根据数据的特点，将数据对象划分为不同的部分和类型，再进一步分析，得到所要提取的数据范围；
[0054]
s2、通过规定因变量和自变量来确定变量之间的因果关系，建立回归模型，并根据实测数据来求解模型的各参数，然后评价回归模型是否能够很好的拟合实测数据，如果能够很好的拟合，则可以根据自变量作进一步缩小所要提取的数据范围，相似匹配算法可应用于如数据清洗、用户输入纠错、推荐统计、剽窃检测系统、自动评分系统、网页搜索和dna序列匹配领域；
[0055]
s3、根据数据的特征属性将数据分成一些聚合类，每一聚合类中的元素尽可能具有相同的特性，不同聚合类之间的特性差别尽可能大的一种分类方式，对所要抓取的数据进行分组；
[0056]
s4、采用相似匹配法来计算两个数据的相似程度，相似程度通常会用一个是百分比来衡量，相似匹配法包括平均指标和变异指标的计算、资料分布形态的图形表现；
[0057]
s5、将上述步骤中频繁出现的数据的集合进行提取，根据数据的属性特征，用词频作为统计指标，表明数据所反馈的数据段信息；
[0058]
s6、根据数据段分解正则表达式对待分析数据中的数据段进行数据分解，生成数据项值，并将数据项值与数据段分解正则表达式对应的数据项名称列表进行关联，形成数据项名称与数据项值对应的中间数据对，根据数据统计规则，对中间数据对进行统计分析，得到数据分析结果。
[0059]
还包括获取站点首页，获取站点首页的方法包括：从网页页面的网址中取出域名地址，对域名地址进行跳转处理，得到该网页页面对应的站点首页；通过全网网页页面的网址中逐一取出域名地址，进行去重处理后添加到域名地址集合中，对域名地址集合中的所有域名地址进行跳转处理，得到相对应的站点首页；或者，利用站点的首页样本集合，统计分析站点链接锚文本及网址样式特征构造首页分类器，利用首页分类器对网页页面进行分析，得到所有的站点首页。
[0060]
还包括获取网页页面对应的联系页，获取网页页面对应的联系页的方法包括：利用站点的联系页样本集合，统计分析其链接锚文本、页面标题及网址样式特征构造联系页分类器，利用联系页分类器对网页页面进行分析，得到所有站点的联系信息页。
[0061]
本发明数据结构化模块能够对原始大数据进行预处理以及网络化，使得所述原始大数据转化为网络数据或者结构数据，从而所述表征学习模块可以利用网络数据的表征学习算法，来实现对数据的快速、统一的特征提取，并以高维向量的形式进行表示；整个特征提取的过程无需人的参与，利用基于嵌入映射的表征学习算法自动完成，计算效率高。
[0062]
特征提取的过程中还极大地保留了原始大数据中的结构信息(即有效信息)，从而提高了后续利用该特征信息进行分类或预测等任务的准确性；不仅如此，由于采用了基于嵌入映射的表征学习算法，使得从原始大数据中挖掘到的数据特征统可以统一由高维向量的形式进行表示，从而使得大数据的智能处理系统不仅限于为某个特定的应用服务，可以为多种应用服务提供统一有效地处理方法。
[0063]
利用本发明的方法，针对某招聘网站招聘发布信息和求职者信息等数据进行提取分析，招聘信息提取后按照数据维度分为：岗位名称、薪资要求、工作城市、工作年限、工作性质、学历要求、招聘人数、职位描述、岗位职责、职位福利、详细工作地点、职位发布者姓名、公司名称、公司所属行业、公司人员、公司性质、公司描述、公司官网地址等；求职信息提取后按照数据维度分为：求职者姓名、性别、出生日期、政治面貌、工作年限、毕业院校、学历、求职岗位、期望薪资、技术能力、工作经历、荣誉证书、手机、邮箱、地址等。
[0064]
根据本发明的技术步骤进行实验，并按照前述的数据维度作为有效特征对爬取的互联网数据集进行筛选，筛选的结果(即有效数据)作为进行下一步实验的数据集，并根据提取数据集随机抽取0.1％进行验证实验结果的准确性，得到的实验结果如下，其中数据集情况如表1所述，实验结果如图2。
[0065]
表1
[0066][0067]
本发明提供了一种互联网大数据分析提取方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈大海;张冰;徐浩;葛卫春
技术所有人：中通服咨询设计研究院有限公司
我是此专利的发明人

上一篇：隧道施工中TBM脱困处理方法及施工结构与流程
上一篇：图像处理方法和装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。