一种基于知识管理的数字档案馆中的数据挖掘方法与流程

文档序号:11918779阅读:261来源:国知局

本发明涉及信息管理领域,特别是涉及一种基于知识管理的数字档案馆中的数据挖掘方法。



背景技术:

数字档案馆,作为传统实体档案馆在信息时代的新型组织形式,是实体档案馆在信息时代不断创新和发展的必然,是迎接知识经济时代挑战,拓展传统实体档案馆功能,满足用户需求,提供个性化、多样化服务的关键,也是提高社会档案意识的新契机。那么,如何从数字档案馆浩如烟海的大量数字化资源中提炼、挖掘出有价值的,对数字档案馆进行知识积累、知识创新有着数据支撑作用的有效信息,这是未来数字档案馆建设所面临的重要课题。数据挖掘技术正是解决这一难题的有效途径,数据挖掘是当今计算机领域的热点,其成果也广泛应用于图书情报领域。

数据挖掘是一门很广义的交叉学科,脱胎于计算机,虽然已应用到诸多领域,图书、情报界的实践也已经充分验证其价值,但在档案界,数据挖掘仍然被当成深奥的技术和理论,很多档案工作者对这个概念还是云雾迷蒙,比较模糊。那么什么是数据挖掘呢?数据挖掘(Data Ming),就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在的有用信息和知识的过程。这个过程的目的是为了发现隐藏在大量数据泥沙中的“知识金矿”,因此,将数据挖掘定义为“数据中的知识挖掘”更为恰当。所以,数据挖掘也被人称为知识挖掘、知识抽取等。

数据挖掘可以根据挖掘任务的不同,把数据挖掘方法分为概念描述、关联分析、分类分析、聚类分析、偏差检测等多种类型,具体如下:

概念描述就是通过分析和比较,将某类相互关联的数据进行汇总,归纳出此类对象的相关特征,对关于此类的大量信息进行描述,这些描述是抽象的,有意义的。它的类型有两种:特征性描述和区别性描述。

1)特征性描述适用于描述某类对象的共同之处,例如,某档案馆的档案数据库中存在大量的用户基本信息,其中涉及:姓名、年龄、工作、利用喜好等信息,如果对历史研究者进行描述,很有可能得出以下结果:以高校教师、学生为主,以编修各种志书、撰写史学研究文章为目的。

2)区别性描述,用于描述两个或多个类对象之间的差异,例如,对企业用户和历史研究者特征进行比较,也许能得出以下规则:主要利用生产管理和科研管理方面的档案信息,以取得一定经济效益和社会效益为目的。

关联分析就是描述数据库中数据项之间存在的相关特性,即挖掘出隐藏在数据项之间的相互关系,具体来说,若其中两项数据或多项数据存在着某种关联,其中一项数据就能依据其它数据进行预测。关联分析能发现用户利用不同档案信息之间的关联,分析预测用户利用模式。

分类分析就是将数据库中的数据有序的聚合在一起,有助于人们对事物的全面把握。分类分析可分为结构化数据分类分析,如关系数据库中的数据,和非结构化数据分类分析,如文本数据。分类分析的具体过程为:用一组特征不同的类别为一个数据集合中的数据进行分类,然后找出描述这些数据的模型,并根据这个模型将数据划分到不同的类别中,利用这个模型可以预测未知的数据。分类分析可以通过已有用户档案数据库中的数据,揭示用户特征和用户利用行为之间的关系,并按照影响用户行为的程度对这些数据进行分类,用来预测未来的用户行为。

聚类分析就是将数据库中的数据划分为不同数据类的过程,它与分类分析不同,前者是在预先不考虑已知分类模型的情况下,把数据放入不同的分类中,聚类的目的是根据最大化类内的相似性,最小化类间的相似性这一原则合理的划分数据集合,简单来说就是使类内的差别最小化,类间的差别最大化,这样就可以把类似的数据组织在一起并导出某种规则。

偏差检测就是通过发现数据库中的异常情况对偏差的数据进行分析的过程,重点是发现数据中的异常变化,数据库中的数据变异可能是人为错误引起的,更有可能是数据更新等自然变化的结果。偏差检测的意义在于可以有效排除大量不相关的数据。例如,某档案馆在形成某种编研成果之前,先在用户信息数据库中进行检索,并与档案馆数据库中的已有资源结合,再用数据挖掘技术将不相关的用户利用模型排除,把剩下的作为重点,制定有针对性的编研策略。

基于知识管理的数字档案馆的数据挖掘首先应对数字档案馆资源、知识管理和数据挖掘的关系定位。数字档案馆的知识资源要被组织和发现,这是数字档案馆实现现代化科学管理,提供快捷、优质服务的基础。对数字档案馆实施知识管理是应对知识经济时代挑战,最大化数字档案馆知识资源潜力,最终实现数字档案馆知识创新的必然要求。没有实施知识管理的数字档案馆无法满足未来发展的需要,缺乏管理对象的知识也成了无源之水。数据挖掘是组织和发现数字档案馆中知识资源的有效途径,为数字档案馆实施知识管理创造了条件,是两者得以无缝链接的承上启下阶段。这里的数据挖掘不能看成是纯粹的信息处理技术,它是对信息处理技术集群进行协调和管理的方法和策略。基于知识管理的数字档案馆中的数据挖掘是以网络和数字化资源为基础,立足于多种信息技术的协调和配合,以实施挖掘算法和挖掘模型为手段,以组织和发现数字档案馆中已存在的知识资源,为实施知识管理提供管理对象为目的,让数字档案馆有效利用知识,实现知识创新的过程。

基于知识管理的数字档案馆中的主要挖掘对象主要包括:

1)数字档案馆中的固化资源,这是存在于数字档案馆中的显性知识,即记录于一定物质载体上的知识,包括:已数字化的馆藏资源、现行电子文件、检索工具、编研成果,与数字档案馆工作相关的各种法律法规、规章制度、行业标准等,围绕数字档案馆建设所产生的研究成果、技术资料及有助于数字档案馆发展的其它相关知识。

2)数字档案馆中的智力资源,这是存在于数字档案馆中的隐性知识,是存在于档案馆行政管理人员、政策法规研究人员、信息技术人员、对外协调人员等头脑中所储备的大量非编码智力资源,包括:各种管理方法、计算机处理技术、处理问题的能力等。由于人是知识管理的核心,是知识管理中最活跃的最主动的因素,所以对这部分知识的挖掘也是数字档案馆知识挖掘的重点。

3)用户利用行为信息,用户的利用行为信息包括两方面,利用信息和反馈信息。利用信息是用户为了解决现实问题,满足学术、科研、生产等需求,在实施具体利用行为时所产生的信息,包括:访问内容、访问频率、访问时间等,它们反映出用户对数字化资源的个性化、多样化需求及利用规律。反馈信息是在档案利用这一连续活动中,档案利用者发现的问题和情况、提出的要求、意见、评价和效益等。对这些数据的挖掘,可用于对用户未来利用趋势的分析预测,以及提出在此基础上的管理决策,为提高数字档案馆的服务水平提供依据。



技术实现要素:

本发明的目的是提供一种基于知识管理的数字档案馆中的数据挖掘方法。

本发明的目的可以通过以下技术方案实现:

一种基于知识管理的数字档案馆中的数据挖掘方法,包括以下步骤:

步骤一、确定主题:确定需要挖掘的数据目标;

步骤二、需求定义:根据步骤一确定的主题,对主题进行定义,明确数据挖掘的要求和目的;

步骤三、数据收集:在对主题进行定义的同时,对档案数据库中的显性知识和隐性知识进行收集提取,并对其进行概念描述归纳出需求的相关特征;

步骤四、分析并形成结果:通过聚类分析,按照相似性和差异性形成不同的需求分类模型,并把数据放入不同的分类中,通过需求分类模型与用户利用信息的结合,进行差异分析和偏差检测,排除大量不相关的数据,形成挖掘结果;

步骤五、对挖掘结果进行评价:形成的挖掘结果有可能存在无关的数据,也有可能不满足需求,如果不符合挖掘要求和目的,转到步骤三,并重复挖掘过程;否则,转到步骤六;

步骤六、经过评价,挖掘结果达到数据挖掘要求,能为数字档案馆知识管理所用,则充实到原有数据库中,实现档案馆的知识创新。

本发明的有益效果:

本发明所提供的一种基于知识管理的数字档案馆中的数据挖掘方法,为数字档案馆实施知识管理创造了条件,本发明是对信息处理技术集群进行协调和管理的方法和策略,本发明基于知识管理的数字档案馆中的数据挖掘是以网络和数字化资源为基础,立足于多种信息技术的协调和配合,以实施挖掘算法和挖掘模型为手段,以组织和发现数字档案馆中已存在的知识资源,为实施知识管理提供管理对象为目的,让数字档案馆有效利用了知识,实现了知识创新。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1是本发明的示意图。

具体实施方式

本发明的核心是提供一种基于知识管理的数字档案馆中的数据挖掘方法。

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明提供了一种基于知识管理的数字档案馆中的数据挖掘方法,该方法包括如下步骤:

步骤一、确定主题,确定需要挖掘的数据目标。

步骤二、需求定义:根据步骤一确定的主题,对主题进行定义,明确数据挖掘的要求和目的。

步骤三、数据收集:在对问题进行定义的同时,对档案数据库中的显性知识和隐性知识进行收集提取,并对其进行概念描述归纳出需求的相关特征。

步骤四、分析并形成结果:通过聚类分析,按照相似性和差异性形成不同的需求分类模型,并把数据放入不同的分类中,通过需求分类模型与用户利用信息的结合,进行差异分析和偏差检测,排除大量不相关的数据,形成挖掘结果。

步骤五、对挖掘结果进行评价:形成的挖掘结果有可能存在无关的数据,也有可能不满足需求,如果不符合挖掘要求和目的,转到步骤三,并重复挖掘过程;否则,转到步骤六。

步骤六、经过评价,挖掘结果达到数据挖掘要求,能为数字档案馆知识管理所用,则充实到原有数据库中,实现档案馆的知识创新。

本发明所提供的一种基于知识管理的数字档案馆中的数据挖掘方法,为数字档案馆实施知识管理创造了条件,本发明是对信息处理技术集群进行协调和管理的方法和策略,本发明基于知识管理的数字档案馆中的数据挖掘是以网络和数字化资源为基础,立足于多种信息技术的协调和配合,以实施挖掘算法和挖掘模型为手段,以组织和发现数字档案馆中已存在的知识资源,为实施知识管理提供管理对象为目的,让数字档案馆有效利用了知识,实现了知识创新。

以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1