本发明涉及一种数据挖掘方法,尤其涉及一种基于多媒体数据库的数据挖掘方法。
背景技术:
多媒体数据挖掘mdm(multimediadatamining)是目前国际上数据库、多媒体技术和信息决策领域最前沿的研究方向之一,是数据挖掘的一个新兴而且富有挑战性的领域;
尽管多媒体数据库(mdb)研究在不断地进步,但仍面临挖掘对象复杂的难题,因此我们研究了mdmp原型,实现多层次多级别的挖掘技术.mdmp以mdb为数据平台,根据用户请求,利用基于内容检索和相关数据收集,建立媒体数据特征立方体,挖掘出隐含规则,并以图形界面向用户解释获取的知识。
技术实现要素:
一种基于多媒体数据库的数据挖掘方法,其特征在于,mdmp的媒体数据平台,mdb为mdmp原型的知识挖掘提供了良好的数据平台,实现对各种媒体数据,以及诸如关键字、某图像出现频率等一些附加信息的存储:
1)进行媒体数据清洗和集成:在建立mdb或对已有的mdb,解决数据合并处理、语义模糊、数据遗漏和清晰化等问题,将收集的多媒体数据用多媒体数据库管理系统mdbms进行管理;
2)有效管理复杂数据类型:解决多媒体数据模型、数据表示和数据存储管理问题,以有效进行媒体数据特征抽取和知识挖掘.面向对象数据模型的特征库也是重要的mdb数据模型,也可存于mdb;
3)支持查询检索和联机分析:mdb的索引机制与多媒体数据的面向对象模型或超媒体模型结合,有效地支持数据查询、检索和联机分析处理olap的执行,从而提高系统工作的效率。
一种基于多媒体数据库的数据挖掘方法,其特征在于,mdmp相关构件与开采函数:
1)预处理器和检索系统:预处理器mdp实现多媒体数据特征的抽取,并将预处理的结果存储在特征库.检索系统cbr:由一个解析器和一个引擎组成.完成用户请求相关数据查询内容的分析,构建其内部表示;由引擎执行检索过程;
2)多媒体数据特征库mfd:mfd采用面向对象的特征库模型和数据类型,包含用户输入的客观特征和预处理自动提取的内容特征,如颜色、纹理、形状和关键字、元数据等.对于mdb数据,mfd存储许多描述和特征.描述域如:图像文件名,图像和视频类型,一组已知与该图象相关的关键字等.特征由一组向量集表示,每个视觉特征均有相应的向量:如颜色,方向,颜色布局和边界布局等向量;
3)知识挖掘功能模块kmm:基于多媒体数据的挖掘,采用人工智能、机器学习、统计学、神经网络、决策树和粗糙集等有关方法;
4)元数据和知识库:元数据反映媒体数据间的特征关系、权值和相关度等.存放于kdb的领域知识在媒体特征抽取、元数据的建立,以及数据挖掘过程中尤为重要.此外,kdb还存放着在数据挖掘的相应知识.它们均可用于优化查询检索和提高数据挖掘的效率。
一种基于多媒体数据库的数据挖掘方法,其特征在于,mdmp知识挖掘,mdmp挖掘工作主要分为数据准备、多媒体数据知识挖掘、知识表示与解释3个阶段:
1)数据准备:在完成数据集成和特征库建立后,将用户提出的挖掘要求送入挖掘引擎,用相似检索技术,从特征库抽取与用户要求相关的数据.接着用与请求相关的特征建立特征立方体mfd;
2)多媒体数据知识挖掘:根据用户请求,对mfd实施切片、切块、下钻、上旋等处理技术和数据挖掘方法,发现媒体特征间的关系,基于媒体特征的图像、视频的分类等.可实施交互式或自动的知识挖掘,从而发现用户感兴趣的隐含的知识;
3)知识表示与解释:将结果以图形界面呈现给用户,并加以解释和说明.若用户不满意,则重新执行上述操作.用户也可通过挖掘出的数据再进行相关数据的检索。