一种数据挖掘方法

文档序号：6620841阅读：278来源：国知局

一种数据挖掘方法
【专利摘要】本发明提出了一种数据挖掘方法，解决了网络信息重复程度高，冗余信息多的问题，数据挖掘速率高，查全率好，效果较为理想，其分为，定点采集：预制行业内网站作为数据源，并对每一个数据源设置可信度权值；针对数据源设置数据采集模式定期或不定期向数据源挖掘数据；自动发现：设置网络探针，自动发现相似度高的网站作为采集点网站；将采集点网站添加到采集点网站库，并对每一个采集点网站设置可信度权值；针对采集点网站设置数据提取模式定期或不定期向数据源挖掘数据；数据分析和存储：对挖掘到的数据进行统一编码，去除重复信息，筛选数据；对筛选后的数据进行聚类分析，计算同一话题的信息量，并标注话题关注度权重；存储数据，并建立索引。
【专利说明】一种数据挖掘方法

【技术领域】
[0001]本发明涉及数据挖掘【技术领域】，尤其涉及一种数据挖掘方法。

【背景技术】
[0002]当今社会已经进入信息高速传播的时代，这为人们带来方便的同时，也出现了越来越多的问题，例如，现有搜索引擎搜索结果重复性太高、不符合期望的冗余信息多、搜索时间长、效率低等。
[0003]由于目前互联网上信息转载率很高，百度、google等搜索引擎为了搜索的查全率，导致通用搜索耗时长，搜索结果重复度非常高，不利于用户快速发现有价值的内容。另外，一些行业搜索引擎，只针对行业网站，提高了搜索效率，但时查全率低，容易造成遗漏。
[0004]现在的商业竞争很大程度上决定与企业对最新信息的掌握程度，换言之企业对行业信息的更新与分析决定了企业的潜力，但是企业信息化方面基础千差万别，而且资源都相对有限，尤其是中小企业往往无力承担独立的信息搜索消耗，另一方面，企业定制的搜索引擎往往只搜索行业网站，不对对整个互联网编录，容易造成信息遗漏。

【发明内容】

[0005]基于【背景技术】存在的问题，本发明提出了一种数据挖掘方法，解决了网络信息重复程度高，冗余信息多的问题，数据挖掘速率高，查全率好，效果较为理想。
[0006]本发明提出的一种数据挖掘方法，通过定点采集和自动发现两种方式进行数据挖掘，并对挖掘到的数据进行统一的数据分析和存储；
[0007]定点采集包括:
[0008]预制行业内网站作为数据源，并对每一个数据源设置可信度权值；
[0009]针对数据源设置数据采集模式定期或不定期向数据源挖掘数据；
[0010]自动发现包括:
[0011]设置网络探针，自动发现相似度高的网站作为采集点网站；
[0012]将采集点网站添加到采集点网站库，并对每一个采集点网站设置可信度权值；
[0013]针对采集点网站设置数据提取模式定期或不定期向数据源挖掘数据；
[0014]数据分析和存储包括:
[0015]对挖掘到的数据进行统一编码，去除重复信息，筛选数据；
[0016]对筛选后的数据进行聚类分析，计算同一话题的信息量，并标注话题关注度权重；
[0017]存储数据，并建立索引。
[0018]优选地，行业内网站包括行业内知名网站链接、论坛、博客。
[0019]优选地，数据源可信度权值由人工设置。
[0020]优选地，采集点网站可信度权值人工设置。
[0021 ] 优选地，采集点网站可信度权值根据网站排名或评分自动设置。
[0022]本发明即实现了针对行业内网站的重点关注，又兼顾了对整个互联网数据信息的兼顾，前者减少了数据搜索时间，提高了搜索效率，后者提高了搜索结果的查全率，本发明通过二者兼顾的方式，对搜索效率和查全率实现了一个比较理想的平衡。本发明中通过数据统一分析，有效的解决了信息重复的问题，去除冗余信息，减少数据所占空间，同时提高后续处理效率。本发明对数据进行聚类分析并建立索引，可提高数据库的利用效率。

【专利附图】

【附图说明】
[0023]图1为本发明提出的一种数据挖掘方法的流程图；
[0024]图2为定点采集挖掘数据的流程图；
[0025]图3为自动发现挖掘数据的流程图；
[0026]图4为数据分析与存储流程图。

【具体实施方式】
[0027]参照图1，本发明提出的一种数据挖掘方法，通过定点采集和自动发现两种方式进行数据挖掘，并对挖掘到的数据进行统一的数据分析和存储。行业内网站包括行业内知名网站链接、论坛、博客等，定点采集可重点关注这些重要的网站，即关注了行业动态，由缩小了查找网站的时间。自动发现是对定点采集的补充，通过对其他非知名网站的搜索，补充数据，避免目标数据的遗漏。数据统一分析可有效去除重复信息，解决了网络数据转载频繁，信息重复的问题，同时。
[0028]参照图2，定点采集包括以下步骤:
[0029]预制行业内网站作为数据源，并对每一个数据源设置可信度权值；
[0030]针对数据源设置数据采集模式定期或不定期向数据源挖掘数据。
[0031]数据源预制，即节约了网站搜索时间，提高数据采集效率，又提高了行业针对性，使得采集数据的方向更加符合用户预期。数据源可信度权值由人工设置，可作为数据采集的参考。
[0032]参照图3，自动发现包括以下步骤:
[0033]设置网络探针，自动发现相似度高的网站作为采集点网站；
[0034]将采集点网站添加到采集点网站库，并对每一个采集点网站设置可信度权值；
[0035]针对采集点网站设置数据提取模式定期或不定期向数据源挖掘数据。
[0036]网络探针的设置以数据源为参考，如此可限定探针发现网站的方向，缩小采集点网站的范围，减小数据挖掘范围，提高速率并减少存储空间，同时，数据源为参考也可以提高采集点网站与行业信息的相关度，减少冗余信息。
[0037]本实施方式中，采集点网站可信度权值根据网站排名或评分自动设置，考虑到网络的发达，各种网站繁杂纷乱，自动设置可减少人力需求并提高工作效率。具体实施时，采集点网站可信度权值也可人工设置，该种方式更加符合用户期望，数据采集精度更高。
[0038]参照图4数据分析和存储包括以下步骤:
[0039]对挖掘到的数据进行统一编码，去除重复信息，筛选数据；
[0040]对筛选后的数据进行聚类分析，计算同一话题的信息量，并标注话题关注度权重；
[0041]存储数据，并建立索引。
[0042]本实施方式中，有效的解决了信息重复的问题，减少数据所占空间，同时提高后续处理效率。对数据进行聚类分析并建立索引，可提高数据库的检索效率，提高数据利用率。话题关注度的计算与标注，明确提醒用户关注重要信息。
[0043]以上所述，仅为本发明较佳的【具体实施方式】，但本发明的保护范围并不局限于此，任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。
【权利要求】
1.一种数据挖掘方法，其特征在于，通过定点采集和自动发现两种方式进行数据挖掘，并对挖掘到的数据进行统一的数据分析和存储；定点采集包括: 预制行业内网站作为数据源，并对每一个数据源设置可信度权值；针对数据源设置数据采集模式定期或不定期向数据源挖掘数据；自动发现包括: 设置网络探针，自动发现相似度高的网站作为采集点网站；将采集点网站添加到采集点网站库，并对每一个采集点网站设置可信度权值；针对采集点网站设置数据提取模式定期或不定期向数据源挖掘数据；数据分析和存储包括: 对挖掘到的数据进行统一编码，去除重复信息，筛选数据；对筛选后的数据进行聚类分析，计算同一话题的信息量，并标注话题关注度权重；存储数据，并建立索引。
2.如权利要求1所述的数据挖掘方法，其特征在于，行业内网站包括行业内知名网站链接、论坛、博客。
3.如权利要求1或2所述的数据挖掘方法，其特征在于，数据源可信度权值由人工设置。
4.如权利要求1或2所述的数据挖掘方法，其特征在于，采集点网站可信度权值人工设置。
5.如权利要求1或2所述的数据挖掘方法，其特征在于，采集点网站可信度权值根据网站排名或评分自动设置。
【文档编号】G06F17/30GK104166683SQ201410347539
【公开日】2014年11月26日申请日期:2014年7月21日优先权日:2014年7月21日
【发明者】贾岩申请人:安徽华贞信息科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：贾岩
技术所有人：安徽华贞信息科技有限公司
我是此专利的发明人

上一篇：触摸屏触点处理方法、装置及终端的制作方法
上一篇：搜索引擎爬虫抓取网页的方法及装置制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。