一种数据挖掘分析方法及系统与流程

文档序号:12363831阅读:386来源:国知局
一种数据挖掘分析方法及系统与流程

本发明涉及互联网应用技术领域,尤其涉及一种数据挖掘分析方法及系统。



背景技术:

随着信息化时代的到来和发展,人们已经在商业、政府和科学等领域积累了大量的历史数据,激增的数据背后隐藏着许多重要的信息,对行业数据进行数据搜集以及更高层次的分析,为决策提供理论依据,是目前人们追求的目标。而如何对对行业数据进行数据搜集以及更高层次的分析,为决策提供理论依据,是亟需解决的问题。



技术实现要素:

鉴于目前互联网应用技术领域存在的上述不足,本发明提供一种数据挖掘分析方法及系统,能对行业数据进行数据搜集以及更高层次的分析。

为达到上述目的,本发明的实施例采用如下技术方案:

一种数据挖掘分析方法,所述数据挖掘分析方法包括以下步骤:

定义采集数据源和采集规则;

根据采集规则从数据源采集数据;

利用算法对采集到的数据进行标注清洗并进行语义分析;

通过数据模型对清洗分析后的数据进行数据挖掘分析;

对挖掘分析的结果进行可视化展示。

依照本发明的一个方面,所述定义采集数据源和采集规则具体可为:定义数据采集来源,输入要采集的URI以及权重。

依照本发明的一个方面,所述根据采集规则从数据源采集数据的具体实施方式可为:根据采集规则,利用爬虫抓取网页信息,使用正则表达式抽取具体内容。

依照本发明的一个方面,所述利用算法对采集到的数据进行标注清洗并进行语义分析具体可为:利用分类、回归以及K-最近邻分类算法对数据进行标注清洗,利用全局正负面词库和聚类进行语义方面分析。

依照本发明的一个方面,所述数据挖掘分析方法包括以下步骤:进行云资源的配置,动态调整采集所需CPU、内存和带宽。

依照本发明的一个方面,所述数据挖掘分析方法可包括:建立基于lucene的搜索引擎进行数据挖掘和分析。

依照本发明的一个方面,所述数据挖掘分析方法可包括:对采集到的可视化的数据快照进行存储。

一种数据挖掘分析系统,所述数据挖掘分析系统包括:

定义模块,用于定义采集数据源和采集规则;

采集模块,用于根据采集规则从数据源采集数据;

过滤模块,用于利用算法对采集到的数据进行标注清洗并进行语义分析;

挖掘模块,用于通过数据模型对清洗分析后的数据进行数据挖掘分析;

展示模块,用于对挖掘分析的结果进行可视化展示。

依照本发明的一个方面,所述数据挖掘分析系统包括:配置模块,用于进行云资源的配置,动态调整采集所需CPU、内存和带宽。

依照本发明的一个方面,所述数据挖掘分析系统包括:引擎模块,用于建立基于lucene的搜索引擎进行数据挖掘和分析。

本发明实施的优点:本发明所述的数据挖掘分析方法通过定义采集数据源和采集规则;根据采集规则从数据源采集数据;利用算法对采集到的数据进行标注清洗并进行语义分析,具体应用算法可自行定义,满足了复杂的个性需求;通过数据模型对清洗分析后的数据进行数据挖掘分析,各行业用户可自定义数据模型,以满足复杂的个性需求;对挖掘分析的结果进行可视化展示,系统处理速度更快,并提供丰富的、友好的可视化数据展示方式,实现了对行业数据进行数据搜集以及更高层次的分析,为决策提供理论依据。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明所述的一种数据挖掘分析方法示意图;

图2为本发明所述的一种数据挖掘分析系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,一种数据挖掘分析方法,所述数据挖掘分析方法包括以下步骤:

步骤S1:定义采集数据源和采集规则;

所述步骤S1定义采集数据源和采集规则的具体实施方式可为:定义数据采集来源,输入要采集的URI以及权重。

在实际应用中,所述定义数据采集来源具体可为:定制需要采集的数据源,比如(搜索引擎、门户网站、论坛、博客等)。

在实际应用中,定义的采集规则具体可为:如采集频率、关键词、采集深度、广度等。

在实际应用中,还可有如下实施方式:可通过互联网自动采集所需要的数据,也可以通过API与企业内部数据对接,实现数据源多样化。

步骤S2:根据采集规则从数据源采集数据;

所述步骤S2根据采集规则从数据源采集数据的具体实施方式可为:根据采集规则,利用爬虫抓取网页信息,使用正则表达式抽取具体内容,从而得出具体的文本数据。

步骤S3:利用算法对采集到的数据进行标注清洗并进行语义分析;

所述步骤S3利用算法对采集到的数据进行标注清洗并进行语义分析的具体实施方式可为:利用分类、回归以及K-最近邻分类算法对数据进行标注清洗,利用全局正负面词库和聚类进行语义方面分析。

在实际应用中,可通过数据分段、整合、过滤、转换、编码,利用权值及算法进行数据清洗,所述算法可为分类、回归以及K-最近邻分类算法,算法在实际应用中可自行定义。可支持包括聚类分析、分 类分析、统计分析、值预测等算法,并可不断动态扩展模型库。

步骤S4:通过数据模型对清洗分析后的数据进行数据挖掘分析;

所述步骤S4通过数据模型对清洗分析后的数据进行数据挖掘分析的具体实施方式可为:通过定义的数据模型对清洗分析后的数据进行数据挖掘分析,所述数据模型在实际应用中,可根据需求进行自定义。

步骤S5:对挖掘分析的结果进行可视化展示。

所述步骤S5对挖掘分析的结果进行可视化展示的具体实施方式可为:利用D3、WebGL等技术对挖掘分析的结果进行可视化数据展示。

在实际应用中,所述数据挖掘分析时,需通过云计算和大数据进行,因而,实际实行时,可进行云资源的配置,动态调整采集所需CPU、内存和带宽。从而可通过云计算技术来处理海量的数据,系统处理速度更快。

在实际应用中,所述数据挖掘分析方法在实际实行时,可采用如下优选方案:建立基于lucene的搜索引擎进行数据挖掘和分析,可提高检索分析效率。

在实际应用中,所述数据挖掘分析方法在实际实行时,还可对采集到的可视化的数据快照进行存储。

本实施例所述的数据挖掘分析方法通过定义采集数据源和采集规则;根据采集规则从数据源采集数据;利用算法对采集到的数据进行标注清洗并进行语义分析,具体应用算法可自行定义,满足了复杂的个性需求;通过数据模型对清洗分析后的数据进行数据挖掘分析,各行业用户可自定义数据模型,以满足复杂的个性需求;对挖掘分析的结果进行可视化展示,系统处理速度更快,并提供丰富的、友好的可视化数据展示方式,实现了对行业数据进行数据搜集以及更高层次的分析,为决策提供理论依据。

一种数据挖掘分析系统实施例

如图2所示,一种数据挖掘分析系统,所述数据挖掘分析系统包括:

定义模块1,用于定义采集数据源和采集规则;

采集模块2,用于根据采集规则从数据源采集数据;

过滤模块3,用于利用算法对采集到的数据进行标注清洗并进行语 义分析;

挖掘模块4,用于通过数据模型对清洗分析后的数据进行数据挖掘分析;

展示模块5,用于对挖掘分析的结果进行可视化展示。

在实际应用中,所述数据挖掘分析系统包括:配置模块6,用于进行云资源的配置,动态调整采集所需CPU、内存和带宽。

在实际应用中,所述数据挖掘分析系统包括:引擎模块7,用于建立基于lucene的搜索引擎进行数据挖掘和分析。

本发明实施的优点:本发明所述的数据挖掘分析方法通过定义采集数据源和采集规则;根据采集规则从数据源采集数据;利用算法对采集到的数据进行标注清洗并进行语义分析,具体应用算法可自行定义,满足了复杂的个性需求;通过数据模型对清洗分析后的数据进行数据挖掘分析,各行业用户可自定义数据模型,以满足复杂的个性需求;对挖掘分析的结果进行可视化展示,系统处理速度更快,并提供丰富的、友好的可视化数据展示方式,实现了对行业数据进行数据搜集以及更高层次的分析,为决策提供理论依据。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域技术的技术人员在本发明公开的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1