一种基于大数据的公开信息关联方法及挖掘引擎的制作方法

文档序号:8361520阅读:392来源:国知局
一种基于大数据的公开信息关联方法及挖掘引擎的制作方法
【技术领域】
[0001]本发明涉及基于大数据的公开信息关联方法及挖掘引擎的技术领域,具体地说是一种对指定非自然人客体发展过程中的全周期数据进行的关联分析方法及挖掘引擎的实现技术。
【背景技术】
[0002]互联网时代,数据、信息成为重要的企业资源,在日新月异的海量数据里迅速提取有价值信息,同时互联网上的信息庞杂且分散,通用搜索引擎已经成为人们获取信息的必要工具,能够主动搜索信息并能自动索引、提供查询服务,当用户输入关键字查询时,该网站会返回用户包含该关键字信息的所有网址,并提供通向该信息的链接。目前,互联网上已经存在很多搜索引擎系统,但是在功能上和性能上都存在一些缺陷,尤其是在查询公开信息方面,缺乏关联性和准确性。
[0003]Hadoop是一个分布式系统基础架构,是一个可以更容易开发和运行处理大规模数据的软件平台。
[0004]NoSQL,泛指非关系型的数据库,具有易扩展、大数据量、高性能、数据模型灵活、高可用性等特点。
[0005]微博是一个基于用户关系信息分享、传播以及获取的平台,注重时效性和随意性,微博客更能表达出每时每刻的思想和最新动态。
[0006]微信公众平台,给个人、企业和组织提供业务服务与用户管理能力的全新服务平台。
[0007]通过深度挖掘网站、微博、微信等平台中流动的公开信息以及关联关系,真实全面客观的了解非自然人客体的全周期数据已经成为一种实际的需求;同时,大数据生态系统提供的分布式存储、计算、NoSQL数据库、数据关联分析工具以及数据挖掘算法等的日趋成熟,也为公开信的大数据挖掘提供了技术支撑。目前,还没有成熟的处理基于大数据的公开信息关联方法及挖掘引擎。

【发明内容】

[0008]为了克服上述技术方案的局限性和不足,本发明提供了一种基于大数据的公开信息关联方法及挖掘引擎。
[0009]本发明所采用的技术方案是按以下方式实现的,具体步骤如下:
[0010](I)采集互联网公开信息,采用直接采集和认证采集的方式获得海量公开信息的数据源;
[0011]该引擎采集互联网所有的公开信息,涵盖商业、专有和公共数据集,在遵守数据集原有访问规则的前提下,通过直接采集和认证采集两种方式最大化获得公开信息的延伸域及其数据源。
[0012](2)多来源匹配系统,根据信息来源的不同(网站、微博、微信、移动应用),进行信息相应样式的匹配;信息来源的不同,其相应的数据源模型也不同,网站、微博、微信和移动应用客户端的信息样式也是不同的的,开发适应多来源的样式匹配系统。
[0013](3)多格式信息抽取系统,根据信息载体的不同格式,抽取指定的数据及要素;平台整合多来源数据,将信息样式不同的信息集置于一个统一的定量分析环境中。通过构建多重模型,简单的抽取模型成为复杂模型的组成要素,从而构建一个流线型、模块化的信息抽取流系统。
[0014]格式建模,是数据抽取进行的基础。格式模型负责对关键信息的识别与转化,其中还包括了对源数据的描述信息。这些对象代表的是非自然人客体的社会属性信息,一个模型可以代表一个机构、一个公司、一个企业人,任何现实中的自然人客体信息不在此数据范围。
[0015](4)多维关联整析系统,依据公开信息模型的关联指标,通过去重、去噪、去伪、聚类等操作,对汇总后的数据进行整合分析;包含多套的关联分析工具,以满足多维度分析和复杂关联的需要。
[0016]系统对数据进行复合、汇总、转换、比较和聚类等深度学习操作,包括绝对变量和相对变量,时间序列和各类数据维度。将众多孤立的数据汇集到特定的环境,再经由时间序列以及其他深入的分析推论出有价值的结果,同时具有实时分析的特性。
[0017](5)专家修正系统,基于得到的各项指标和数据质量模型,修正深度学习的相关算法;
[0018]快速迭代结合微调分析不断提升数据价值,整个系统因此变得更加聪明,不断循环。
[0019](6)可视化展示系统,依据时间序列原则,将非自然人客体的公开信息予以可视化集成展示。系统将多源数据整合为一个统一展示的多维度模型,通过丰富的可视化展现形式将抽象变为直观,为用户提供一个所关注客体关联数据的全盘审视角度。可视化展示随着源数据实时更新,用户在任何时间都能看到最精确最及时的信息。
[0020]同时,对外提供扩展性、可定制性和应用程序接口,从底层数据整合、自定义模型到用户交互界面来实现特定信息流,被设计成一个开放平台。这种特定信息可以分享、链接、重组,并不是不可更改的产品,而是一种灵活的可以加入到新工作流中的材料,既可以被迭代,也可以作为材料加入新的分析模型中。
[0021]与现有技术相比,本发明具有以下优点:
[0022]本发明研宄一种新的公开信息关联方法和开发新的数据挖掘引擎,对信息的来源特点进行追溯性研宄,对信息的载体格式进行抽取性分析,并在此基础上实现海量公开信息的关联整合分析系统:以时间为信息序列的整合分析模块和基于专家修正系统的关联维度模型。这两个系统相互影响、相互补充形成一套公开信息的数据挖掘引擎。
[0023]本发明的技术方案可以帮助个人、企业和机构便捷、动态感知指定客体发展过程中的全周期数据,从而为决策分析、行为预测提供完善和准确的数据支撑,使得最终数据的价值发挥最大的效用。
【具体实施方式】
[0024]下面结合附图对本发明进一步说明。
[0025](I)根据指定非自然人客体的信息模型,确定互联网上公开信息的分布来源,依据信息源性质的不同,如:政府网站、门户
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1