一种大数据分析系统及方法与流程

文档序号：12177230阅读：275来源：国知局

本发明涉及计算机科学技术领域，特别涉及一种大数据分析系统及方法。

背景技术：

当前，互联网把所有入网的计算机全部相连，从根本上影响了人们的生产生活，这是目前获取各种数据的首选。通过互联网由客户端到服务器获取数据的模式可以概括为“请求”+“响应”的模式。这是互联网应用协议的基本模式。

点击鼠标就是在发送命令，然后进行访问，每个人的访问记录都详细地记录在浏览日志中，包括时间、请求内容、地址等具体数据。互联网上的数据都是由这些访问记录连在一起共同组成的，这跟猎人通过追踪痕迹捕捉猎物是同样的道理，访问日志蕴藏着巨大的价值。因此，这也是大数据的重要来源之一。

世界最大的几家互联网企业如Google、Amazon、Facebook、Twitter等正称霸着全球的互联网行业，它们之所以如此成功都有一个共同的因素，那就是超强的数据分析能力。这些企业每天分析处理大量的数据信息，以大数据为手段，发掘其中的商业机会，Google是这些企业中最典型的代表。据统计，Google每月的搜索达上千亿次，并对搜索信息进行分析和处理，所处理的数据量达到600PB(1PB＝100万GB，这个信息量据说相当于100万年新闻早报的总和)。所有通过谷歌搜索引擎搜索的内容和数据信息都会被其分析使用。比如，在用Google进行搜索时，在搜索框中键入关键词，会显示出跟搜索内容相关的信息，如果输入“大数据”，搜索结果会提示“大数据概念”、“大数据时代”、“大数据技术”等内容。这是在大量历史搜索信息的基础上利用大数据技术进行分析的结果。此外，如果输入的是错误信息，或直接以拼音方式输入，谷歌会自动修正搜索内容，然后给出正确的建议，这种搜索功能运用了同样的搜索理论。

与传统的企业经营数据相比，大数据有两个不同之处。

第一，数据量庞大，但与传统的销售额、库存量等数据信息不同，Google、Facebook等互联网企业对网站点击产生的数据进行处理时在分析和管理方法上差别很大。大数据处理的核心，不是结构化数据，而是上述的网站点击流数据和社交网络上产生的数据，以及传感器数据上存储的数据，无法存储在数据库里，统称为非结构化数据。

第二，从数据处理的企业类型来看，真正掌握庞大数据存储和分析技术的不是传统的实体行业，而是新兴的互联网企业(Google)、社交网络(Facebook)和电商企业(Amazon)等。前者可以委托后者为其进行大数据信息分析和处理服务。

Facebook可以产生30PB的数据量，而沃尔玛产生的数据量只有2.5PB，不仅在数据量上，同时在数据的多样性和产生的速度上差别也很大。由上可知，大型互联网企业在互联网蓬勃发展的时期，对于其它企业容易忽

视的数据价值，能够及时开发出低成本存储和处理的技术，并将其中有价值的信息提取出来，整合运用到业务流程中，逐渐形成了自身的竞争优势，在互联网企业中脱颖而出。目前，随着这些互联网企业的影响越来越大，更多的企业开始重视大数据的分析，利用大数据通过提供新型服务，来提升客户满意度，进而提高企业的竞争优势。

大数据以迅猛的发展态势在短短两三年内迅速渗透到不同行业、不同领域中，使生产效率得到大幅提高，大数据的发展趋势与生产力的提高息息相关。

数据量呈现指数级增长。很多研究机构共同的研究成果表明，全球数据总量将在未来数年内呈现指数级增长。据美国咨询机构麦肯锡估计，2010年全球企业存储的新数据量已超过7EB，用户个人电脑上存储了超过6EB的新数据。

不同行业的大数据强度和内容各有不同。各个行业存储的数据量都不相同，大数据的增长根据行业的不同，产生和存储的数据类型也不相同。数据存储量最大的领域有证券、投资咨询以及银行等金融机构，通信公司、媒体中介以及政府事业单位等部门产生的数据规模也很大。这些拥有数据资产的行业在大数据利用方面有着很大的价值潜力。

现有趋势将继续推动数据增长。在不同的地区和行业之间，相关企业都在加快速度收集数据，同时也推动了传统的事务数据库的增长；多媒体在医疗卫生等民生领域的广泛应用，大幅增加了大数据的产生；网络社交的普遍应用和物联网在生产生活中的广泛应用都在推动着大数据的不断增长，这些不同行业的交叉应用进一步刺激了大数据的增长和数据池的迅速扩张。

大数据是未来推动生产力发展的新的技术前沿。大数据要想成为具有较强的竞争力、生产力、创新能力，需要有适当的政策推动，这也是创造消费者盈余的关键要素。在医疗卫生行业，充分利用大数据，可以降低运作成本，避免不必要的治疗，减少治疗事故发生的概率，改进和提升医疗服务质量；在公共管理领域，税收部门可以利用大数据来推动税收工作的开展，提高相关纳税部门的工作效率；在零售行业，提高和改善行业的效率可以通过供应链和业务的大数据应用来实现；在市场营销领域，充分利用大数据，为消费者以更合适的价格找到符合其需求的产品，提高服务的附加值。

现今，数据也是一种资产，可以比肩物质资产和人力资本，同时它也是一种生产要素。随着社会生活中多媒体、物联网等新兴行业的发展，企业将从这些媒介中收集到更多的信息，从而带来数据的迅速增长。大数据在商业服务和为消费者创造价值上都能发挥出巨大的潜力。

技术实现要素：

本发明所要解决的技术问题在于，提供了一种大数据分析系统及方法。本发明大数据分析方法中，采用混合索引结合用并延续了B+树和倒排索引二者的优点，同时又避开了它们各自的缺点。提高索引构建的速度和存储利用率的同时还能实现了对数值型数据的范围查询功能。本发明数据滤出通过项目向量压缩的手段提取各项目的评分特征，有效地解决了推荐系统中的稀疏性问题，同时极大地提高了项目相似性的计算效率。最后，通过实验对均模型的改进效果进行了验证，实验结果表明本发明改进后的均模型对于评分较少的项目拥有更好的推荐效果，更符合实际系统的应用需求。

为解决上述技术问题，本发明提供了一种大数据分析系统，包括：数据检索模块，数据滤出模块，数据聚类模块，和，信息提取模块。

所述数据检索模块，用于数据检索，将数据集中的数据属性和属性值划分开来，构建双层索引结构。

所述据检索模块，首先为数据集中数据的属性建立上层索引；

其次对上层属性所对应的数据值建立索引，如果是数值型数据就构建B+树索引结构，如果是字符型数据就构建倒排索引。

所述数据滤出模块，用于数据检索后的数据滤出；所述数据滤出，采取以下均模型的变换形式：假设待变换项目i的评分向量为I_i＝{r_1i，r_2i，r_3i，…，r_mi}经均模型变换，向量Ii转换为均模型表示形式：

I′_i＝{t₀，(t₁₀，t₁₁)，(t₂₀，t₂₁，t₂₂，t₂₃)，(t₃₀，t₃₁，…)，…}；

其中，t₀为均模型第0层的唯一元素，(t₁₀,t₁₁)为第1层的两个元素，(t₂₀,t₂₁,t₂₂,t₂₃)为第2层的四个元素；以此类推，将项目评分向量转换为指定层数的均模型。

所述数据聚类模块，用于数据滤出后的数据聚类分析；

所述数据聚类分析，采用预测强度的分析方法；所述预测强度方法如下:

(1)将待聚类原始数据随机分成训练集和测试集；

(2)取聚类数为k，对上述两个子集进行聚类,聚类结果记为I型聚类；

(3)用训练集的聚类结果对测试集进行判别,结果记为II型聚类；

(4)在测试集自身聚成的第个类中,考查任一对样本点i和i’是否在II型聚类中被错分在不同的类,并记录被正确划分的比例；

(5)在这k个比例构成中,最小者即为当前聚类数k下的预测强度。

为解决上述技术问题，本发明还提供了一种大数据分析方法，包括：数据检索的步骤，数据滤出的步骤，数据聚类的步骤，和，信息提取的步骤。

所述数据检索的步骤，用于数据检索，将数据集中的数据属性和属性值划分开来，构建双层索引结构。

所述据检索的步骤，首先为数据集中数据的属性建立上层索引；

其次对上层属性所对应的数据值建立索引，如果是数值型数据就构建B+树索引结构，如果是字符型数据就构建倒排索引。

所述数据滤出的步骤，用于数据检索后的数据滤出；所述数据滤出，采取以下均模型的变换形式：假设待变换项目i的评分向量为I_i＝{r_1i，r_2i，r_3i，…，r_mi}经均模型变换，向量Ii转换为均模型表示形式：

I′_i＝{t₀，(t₁₀，t₁₁)，(t₂₀，t₂₁，t₂₂，t₂₃)，(t₃₀，t₃₁，…)，…}；

所述数据聚类的步骤，用于数据滤出后的数据聚类分析；

所述数据聚类分析，采用预测强度的分析方法；所述预测强度方法如下:

(1)将待聚类原始数据随机分成训练集和测试集；

(2)取聚类数为k，对上述两个子集进行聚类,聚类结果记为I型聚类；

(3)用训练集的聚类结果对测试集进行判别,结果记为II型聚类；

(4)在测试集自身聚成的第个类中,考查任一对样本点i和i’是否在II型聚类中被错分在不同的类,并记录被正确划分的比例；

(5)在这k个比例构成中,最小者即为当前聚类数k下的预测强度。

本发明有益的技术效果在于：

(1)本发明混合索引结合用并延续了B+树和倒排索引二者的优点，同时又避开了它们各自的缺点。提高索引构建的速度和存储利用率的同时还能实现了对数值型数据的范围查询功能。

(2)本发明均模型数据滤出通过项目向量压缩的手段提取各项目的评分特征，有效地解决了推荐系统中的稀疏性问题，同时极大地提高了项目相似性的计算效率。最后，通过实验对均模型的改进效果进行了验证，实验结果表明本发明改进后的均模型对于评分较少的项目拥有更好的推荐效果，更符合实际系统的应用需求。

(3)本发明基于改进预测强度的k-均值聚类方法对实例中大数据的聚类结果是可信且有实际意义的。在k-均值聚类算法的基础上,引入了改进的预测强度,并以此确定聚类变量和聚类数。对大数据网站栏目平均停留时间的聚类分析表明,这种改进的大数据聚类方法的聚类缚果具有较为明确的实际意义,本发明聚类方法较常规聚类方法更适宜用来进行大数据的聚类分析。

附图说明

图1为本发明实施例所述双层混合大数据索引结构图；

图2为本发明实施例所述用户项目评分矩阵-向量压缩示意图；

图3为本发明实施例所述降维的用户项目评分矩阵-向量压缩示意图；

图4为本发明实施例所述均模型向量转换过程图；

图5为本发明实施例所述均模型算法评估图(100K)；

具体实施方式

以下将结合实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成技术效果的实现过程能充分理解并据以实施。

需要说明的是，为节省说明书撰写篇幅，避免不必要的重复和浪费，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

一、数据检索

本发明提出一种基于倒排索引和B+树的混合索引结构。B+树的叶子结点是有序的，这使得它在对数值型数据进行范围检索时具有明显的优势，能承受大量的工作负载，具有较为稳定的I/O开销。倒排索引不能对完成数值型数据的范围检索提供很好的支持，但因其实现相对简单、查询速度快，检索可以一次定位，对字符型数据的索引构建提供良好的支持。

在传统索引的基础上，引入了层次化索引的思想，将数据集中的数据属性和属性值划分开来，构建双层索引结构。首先为数据集中数据的属性建立上层索引。其次对上层属性所对应的数据值建立索引，如果是数值型数据就构建B+树索引结构，如果是字符型数据就构建倒排索引。这样，不是所有数据都建立树型结构索引减小了由结点分裂所引起存储空间浪费的问题，除此之外，也减少了在结点分裂过程中所产生的临时结点所占的用额外存储空间，加快了构建索引的速率，提升了存储空间的利用率。当对数值型数据进行范围查询时，就会直接定位到下层的树形索引完成，减小数据查询时间和成本。

本发明设计的混合索引结合用并延续了B+树和倒排索引二者的优点，同时又避开了它们各自的缺点。提高索引构建的速度和存储利用率的同时还能实现了对数值型数据的范围查询功能。

本发明的双层混合大数据索引结构如图1所示：

上层的树形索引结构是主要是针对数据集中所包含的属性建立的，在该层索引中数据的具体属性全部存储在非叶子结点中，而B+树的所有叶子结点中则存储三部分信息A_i、PType、Pointer，表示的含义分别为：

(1)A_i是索引数据集的具体属性，其中n为所有属性的个数，i∈[1，n]；

(2)PType表示的是指针类型，具体类型有PType{Inverted_index,B+树}；

(3)Pointer为指向下层索引的指针，根据数据类型的不同，该指针指向不同的索引结构，即指向倒排表表头或B+树的根结点。

第2层索引是为第1层的属性所对应的数据值所构建的索引，包括为数值型数据建立的B+树索引结构和为字符型数据建立的倒排表索引。具体的数据值均存储在B+树索引结构的非叶子结点中，且叶子结点都是有序排列的且包含索引文件的三部分信息A_RV_S、Loc、Doc，分别表示的含义是：

(1)A_RV_S为第R个属性的第S个属性值，R∈[1,n₂]、S∈[1,p]，n₂为数据集中包含的数值属性的个数，P为第R个属性的数据个数。

(2)Loc为包含此属性值的文件所在的位置信息。

(3)Doc为包含查询关键词的文件编号，Doc是唯一的。

倒排索引分为两个部分，一个是“词典”，是一个由不同索引词构成的索引表，记录了不同的中文关键字以及它们的相关信息。另一个是“记录表”，记录了出现过每个索引词的文档集合以及它们的存储地址等相关信息。第二层的倒排索引结构中具体包含A_iV_j、Doc、Loc、F四部分信息，表示的含义分别为：

(1)A_iV_j为第i个属性的第j个属性值，i∈[1,n₁]、j∈[1,m]，

n₁为字符属性的个数，m为第i个属性包含的属性值的个数。

(2)Doc为包含查询关键词的文件编号，Doc是唯一的。

(3)Loc为包含查询关键词文件所在的位置。

(4)F为查询关键词在数据集中出现的频率。

索引的创建过程：

Step1首先分析要为其建立索引的数据，如果已构建的索引中没有该数据，则在混合索引的第一层构建一个新的索引结点。

Step2判断新添数据的属性值类型，若是数值型数据，则为其创建B+树索引；若是字符型属性则为其建立倒排索引结构。

Step3重复执行Step1，之前构建的索引中如果存在当前属性，则不再向索引第一层增加新的结点，只把该属性的数据添加到第二层相应的索引中。

Step4重复以上步骤，直到为所有的数据建立索引完成为止。

索引查询方法：

首先分析查询条件得到关键词，把查询关键词转交给索引词典，如果索引标志位为Fales，返回空值表示索引文件中不存在所要查询的数据，如果为True则判断该查询词返回结果的数据类型，根据不同类型定位到不同索引，读取该词汇的编号以及包含词汇文档数目，通过这些得到查询条件的相关信息。再根据词汇编号读取B+树索引或倒排索引中的内容，整合得到的检索内容，最后与检索条件进行相关性比较，对查询结果排序得到最终结果返回给用户。将数据表中的键值term_id作为查询算法的输入值，输出为布尔值，具体过程如下：

(1-1)将root、term_id、layer作为输入参数，调用查找函数treeSearch(root，term_id，layer)，将查找结果赋值给叶子页记录record。

(1-2)如果record为空，则直接返回空值；否则，返回真正的查找结果rid。

将当前页currentPage作为查找函数treeSearch的输入，key为查找键和layer为初始层数，可能包含查找键key的叶子记录leafRecord作为函数的输出，具体过程如下：

(2-1)如果当前所在的是叶子页，则采用二分查找算法查找key键，并给出查找结果。

(2-2)如果当前页不是叶子页，则执行步骤(2-3)到(2-6)。

(2-3)按currentPage和key值，选择含有键值的子树，获得子节点的页号pageNo。

(2-4)在缓冲区中根据页号读出它所包含的子节点页subTreePage。

(2-5)如果找到的子节点页是叶子页，那么返回(2-1)。

(2-6)如果该子节点页为分支页，则将subTreePage、key、layer均减1作为新的输入，递归调用函数返回输出结果。

混合索引的有效性验证

索引构建的好坏将会直接影响到数据的组织效果和查询结果效率，本发明提出的双层混合索引结构在有效性验证时，从索引构建的时间性能上进行了比较和分析。

时间性能分析与比较

设n₁、n₂分别为数据集中数值型属性的个数和其属性值的平均个数，n₃、n₄分别为字符型属性的个数以及属性值的平均个数。则属性值的总个数为N＝n₁×n₂+n₃×n₄。假设第一层为k阶B+树索引，第二层为m阶B+树索引。

混合索引结构的第一层B+树高度为log_k(n₁+n₃)，假设B+树除叶子节点外每个节点都有k个子结点。此时第一层B+树索引需要进行分裂的节点就有FB_div，由公式(3-1)计算得出：

第二层B+树的高度为log_m n₂，假设B+树索引除叶子节点外每个节点都有m个子结点。此时B+树需要进行分裂的节点有SB_div个，由公式(3-2)计算得出：

则

所有分裂结点的个数总共有：

如果数据集的整个索引都采用传统的B+树结构进行索引，即为所有的属性值都建立树形索引索引，则分裂节点的总个数为：

将公式(3-3)和公式(3-4)进行比较可知，本发明混合索引结构在索引创建时间上相对单一索引结构而言具有较为明显的优越性。

二、数据滤出

传统的协同过滤推荐算法虽然在实际应用中已经取得了不错的效果，但是它依然存在稀疏性问题、运算效率低和可扩展性差等问题。本发明提出了基于均模型的数据滤出算法，该算法从Item向量过长入手，提出了一种均模型表示Item向量的方法，有效地缩短了项目相似性的计算时间提高了推荐系统对大数据的处理效率，可较好地应用在大规模数据集上。

均模型的基本原理

均模型的本质是通过分层的评分均值，提取了项目的主要评分特征，在保证推荐精度的同时，压缩了项目评分向量长度，从而大幅提高了推荐效率。均模型对用户-项目评分矩阵的压缩过程分别如图2，图3所示，其中m>>t。

定义3.1均模型通过分层均值提取项目评分特征的向量转换模型，表现形式为一棵有序的完全二叉树。当项目无相应评分信息时，为一棵空树，否则在该二叉树中左子节点均小于父节点，右子节点均大于父节点，各个子树也均满足以上规律。

定义3.2在均模型的层次划分中，二叉树的根节点为均模型的第0层，为项目评分向量的总均值，代表用户对该项目评分的总体水平，视为项目的主要评分特征；以此类推，均模型的其他层次均值代表项目评分的各个分特征。

均模型变换形式：

假设待变换项目i的评分向量为I_i＝{r_1i，r_2i，r_3i，…，r_mi}经均模型变换，向量Ii转换为均模型表示形式：

I′_i＝{t₀，(t₁₀，t₁₁)，(t₂₀，t₂₁，t₂₂，t₂₃)，(t₃₀，t₃₁，…)，…}。

其中，t₀为均模型第0层的唯一元素，(t₁₀,t₁₁)为第1层的两个元素，(t₂₀,t₂₁,t₂₂,t₂₃)为第2层的四个元素。以此类推，便能将项目评分向量转换为指定层数的均模型。

均模型变换公式为：

其中，F_k为第k(k≥0)层的转换公式，card(I_i)为项目i的评分数。均模型向量转换流程如图4所示。

均模型转换算法

输入：原始项目评分向量I_i＝{r_1i，r_2i，r_3i，…，r_mi}，转换层数k。

输出：均模型项目向量I′_i＝{t₀，(t₁₀，t₁₁)，(t₂₀，t₂₁，t₂₂，t₂₃)，(t₃₀，t₃₁，…)，…}。

步骤：

(1)第0层，

(2)首先，根据t₀将向量I_i分为两个向量：

(3)然后计算均模型第1层的两个元素：

(4)同理根据t₁₀和t₁₁分别将向量I¹⁰_i和I¹¹_i分为向量I²⁰_i、I²¹_i和I²²_i、I²³_i，然后分别计算均模型第2层的四个元素t₂₀,t₂₁,t₂₂,t₂₃；

(5)以此类推，得到均模型向量

I′_i＝{t₀，(t₁₀，t₁₁)，(t₂₀，t₂₁，t₂₂，t₂₃)，(t₃₀，t₃₁，…），…}。

为充分验证本发明均模型的效果，本发明采用MovieLens 100K和MovieLens 1M(见表1)两个经典数据集对均模型的改进效果做对比实验。在实验过程中将数据集随机分为5等份，采用五折交叉验证的方式进行实验。

表1实验数据采集

本发明实施例通过MAE值、召回率和NDCG三个评测指标，分别评测本发明均模型(Improved MM)的预测准确度、分类准确度和排序准确度。

首先，通过MAE值对比分析两层均模型(level1，包含第0层与第1层)和三层均模型(level2，包含第0层至第2层)在改进前与改进后的推荐精度。然后，通过召回率和NDCG对比分析改进后均模型(Improved MM)、云模型(Cloud_Model)以及经典算法Cosine算法在IBCF算法中的应用效果，从而从对Improved MM进行多角度的辅助评测。

如图5所示，level1_Improved MM和level2_Improved MM与改进前对应层数的均模型相比，在推荐精度上都有比较明显的提升。然而，在1M数据集上，均模型的改进效果相对较小，甚至level1_Improved MM与level1_MM的推荐效果几乎相同。实验的结果是，本发明均模型在100K数据集上的改进效果明显，但是在1M数据集上的改进效果减弱。

三、数据聚类

聚类是数据挖掘中的重要问题,也是大数据分析的核也问题之一。均值聚类算法是一种简单有效的距离算法,因而应用十分广泛。与层次聚类算法不同,改算法需要每次都计算任意两点之间的距离,所以它比层次距离具有更快的收敛速度。但k-均值聚类算法有两个缺陷,一是需要事先确定聚类数,二是受初始聚类中也的影响较大。

本发明提出了一种基于预测强度的聚类数确定方法。

预测强度的定义为

其中,X_tr，X_te，分别表示对原始数据进行随机划分所得的训练集和测试集；c(X_tr,k)表示训练集的聚类过程,共聚成k类；A_k1,A_k2,…,A_kk心表示测试集自身聚成的k类，i,i’是同一个类中的样本点,n_kj是A_kj中样本点的个数；D[C(X_tr，k)，X_te]表示一个k x k矩阵,其第i行和第i’列的元素取0或1,取值0表示不在同一类,取值1表示用训练集对:i和i’进行聚类；ps(k)表示聚类数为k时聚类结果的预测强度,取值区间为[0,1]。

预测强度计算过程如下:

(1)将待聚类原始数据随机分成训练集和测试集；

(2)取聚类数为k，对上述两个子集进行聚类,聚类结果记为I型聚类；

(3)用训练集的聚类结果对测试集进行判别,结果记为II型聚类；

(4)在测试集自身聚成的第个类中,考查任一对样本点i和i’是否在II型聚类中被错分在不同的类,并记录被正确划分的比例；

(5)在这k个比例构成中,最小者即为当前聚类数k下的预测强度。

显然,预测强度的直观含义是当前聚类结果能正确预测新样本点的能力。在实际中,可W预测强度为目标函数,W聚类数和变量子集为影响预测强度的因素,通过选择逼当的聚类数和变量子集,使预测强度最大化。

在预测强度的计算过程中,因为训练集和测试集是随化划分的,所W某些偶然因素可能对预测强度的计算结果产生较大影响。为了降低偶然因素的影响,本发明采用一种改进方法计算预测强度,具体做法为:首先将数据集随机分为若干等分,将每一等分轮流作为测试集,求出各自的预测强度后,再取其平均值为这一聚类数下的预测强度。

基于改进预测强度的k-均值聚类方法对实例中大数据的聚类结果是可信且有实际意义的。在k-均值聚类算法的基础上,引入了改进的预测强度,并以此确定聚类变量和聚类数。对大数据网站栏目平均停留时间的聚类分析表明,这种改进的大数据聚类方法的聚类缚果具有较为明确的实际意义,本发明方法较常规聚类方法更适宜用来进行大数据的聚类分析。

四、信息提取

信息提取其实就是常说的信息抽取(Information Extraction:IE),也就是把需要提取的数据源里面的信息进行一些结构化的处理并且能够组织成便于人们查询利用的形式。在实际生活和工作当中,信息源具有广泛性,它所表现出来的形式也是千变万化错综复杂的,特别是在这个大数据时代,往往不能正确地利用信息源并且做出决策。所以有必要对这些复杂的信息源进行有效的信息提取。

对于聚类分析处理好的网页信息源,首先是对用户无用的标签去除,把一些错误或者不规则的标签进行修复整理,比如注释标签"<script>"等脚本文件。如今大量的网页都是运用TABLE或DIV标签来进行整合的,所以本发明在进行数据处理时就按照这两种当中的一种标签来构造树,其中的HTML文件就是树的根节点,送两种标签相应的网页块即是子节点。

然后对几部分内容中间包含的语义进行分析。步骤是,先是对根节点中的标签树包含的DIV或者TABLE节点进行数据收集,当然提取信息时只会提取这个层的节点内容。

在提取到的同层次标签中,需要对其进行进一步检测。也就是说,如果提取的子标签中在进行语义检测之后还是能检测出来其包含的内容与用户需求的内容关系程度不大或者根本用户根本不关也,那么可以视其为信息冗余部分,可以直接将冗余内容丢弃删除。

接下来进行分隔条检测步驟,用户在对标签的处理时使用分层处理方法的,也就是说之前已经删除了那些与用户期望无关的数据信息,这样对于检测的数据信息块的数量就相对很少,提高了工作效率以及数据处理速度。

在经过以上步骤以后,网页内容已经被划分成以DIV或者TABLE标签标示的相对不统一的语义块信息,如果需要对这些语义块信息进行更深层次的处理就需要把它们转化为完整的DOM数形式,运用逐级递归法对包含各自不同内容的DOM树进行数据信息提取。

提取数据块的主要内容时可以运用词频共现方法对DOM树包含的所有标签进行遍历,在遍历过程当中如果发现有些信息块内容与用户期望的数据信息关系程度不大,也就是信息冗余部分,那么可以将其去除并保留用户期望获取的数据信息。

所有上述的首要实施这一知识产权，并没有设定限制其他形式的实施这种新产品和/或新方法。本领域技术人员将利用这一重要信息，上述内容修改，以实现类似的执行情况。但是，所有修改或改造基于本发明新产品属于保留的权利。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：韦天瀚;刘国庆;李海威;黄震廷;吴华;
技术所有人：广东港鑫科技有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。