一种文件自动分类方法

文档序号:6602860阅读:201来源:国知局
专利名称:一种文件自动分类方法
技术领域
本发明涉及一种文件自动分类方法,属于数据挖掘领域,适用于资源自动归类、网 络内容监管、垃圾邮件过滤、数字图书馆等。
背景技术
文件自动分类是数据挖掘领域较为热点的研究问题。其目的是训练一个分类函数 或分类器,该函数或分类器能把待分文件映射到给定的相应类别中。其目标是找到分类速 度更快、更准确的管理文本信息的方法。目前,大量的研究集中于文本文件分类的研究,如张晓丹等人在文献《一种决策级 文本自动分类融合方法》(国家专利,专利申请号2009100878443)中公开了一种决策级文 本自动分类融合方法,其分类模型如图1所示。该方法以信息融合为理论基础,以分类精度 较高的SVM、KNN、贝叶斯等文件自动分类算法为研究对象,采用多层融合结构,串、并联混和 的形式,建立了决策级的文件自动分类融合模型。这种方法的缺点是由于其仅处理文件中 的本文信息,而没有对待分类文件中的图像、视频、音频等信息进行处理,导致分类的准确 率不理想。这主要是由于目前网络数据中包含大量的多媒体数据,如视频、图像、音频等,因 此基于文本的分类技术已无法满足人们的需要。从已公开的文献中,还未见到同时处理多种媒体的文件分类方法。

发明内容
本发明针对目前已有文本自动分类方法存在准确度不高的缺点,在已有的决策级 文本自动分类融合方法的基础上,提出一种基于多种媒体(图像、音频、视频和文本信息) 的文件自动分类方法,得到准确率更高的分类结果。本发明是通过以下技术方案实现的。—种文件自动分类方法,其具体操作步骤如下第1步从待分类文件中抽取出文本信息、图像信息、视频信息、音频信息;第2步在第1步的基础上,对抽取出来的文本信息、图像信息、视频信息、音频信 息分别进行预处理;对文本信息进行预处理包括分词、特征提取、权重计算等;对图像信息 进行预处理包括图像变换、增强、边缘检测、恢复、分割等;对视频信息进行预处理包括特征 提取、建视频库、对视频数据进行多维分析等;对音频信息进行预处理包括前端预处理、特 征提取、识别等;第3步在第2步的基础上,对经过预处理后的文本信息进行分类;使用的分类方 法包括但不限于KNN、SVM、贝叶斯;第4步在第2步的基础上,对经过预处理后的图像信息进行分类;使用的分类方 法包括但不限于SVM、贝叶斯网络、BP神经网络;第5步在第2步的基础上,对经过预处理后的视频信息进行分类;使用的分类方 法包括但不限于KNN、SVM、Boosting算法;
第6步在第2步的基础上,对经过预处理后的音频信息进行分类;使用的分类方 法包括但不限于SVM、GMM算法;第7步收集第3步到第6步的分类结果,并采用决策级融合算法对收集的分类结 果进行推理计算,得到最终的分类结果;所述决策级融合算法包括但不限于贝叶斯网络 算法、D-S证据理论算法、投票算法。有益效果本发明方法采用对文件中的文本信息、图像信息、视频信息、音频信息分别进行分 类,然后采用决策级融合算法对分类结果进行综合处理,可以得到更高准确率的文件分类结果。


图1为已有技术的决策级文本自动分类融合模型示意图。
具体实施例方式根据上述技术方案,下面结合实施例对本发明进行详细说明。本实施例采用本发明方法建立一个文件分类系统,该分类系统采用JAVA开发平 台,Oracle数据库。采用6000篇为文本训练语料、5000篇为图像训练语料、3000篇为视频 训练语料、3000篇为音频训练语料对该分类系统进行训练,训练好以后,使用4000篇测试 语料进行测试,具体步骤如下第1步从4000篇待分类文件中抽取出文本信息、图像信息、视频信息、音频信 息;第2步对文本信息进行预处理,包括分词、特征提取、权重计算;对图像信息进 行预处理,包括图像变换、增强、边缘检测、恢复、分割;对视频信息进行预处理,包括特征提 取、建视频库、对视频数据进行多维分析;对音频信息进行预处理,包括前端预处理、特征提 取、识别;第3步使用KNN方法对经过预处理后的文本信息进行分类;第4步使用SVM方法对经过预处理后的图像信息进行分类;第5步使用SVM方法对经过预处理后的视频信息进行分类;第6步使用GMM算法对经过预处理后的音频信息进行分类;第7步收集第3步到第6步的分类结果,并采用D-S证据理论算法对收集的分类 结果进行推理计算,得到最终的分类结果。经过以上步骤的操作,得到试验结果如表1所示。同时,为说明本发明的分类效果,在同等条件下,以相同的训练语料、测试语料以 及相同的分类体系分别采用KNN、SVM以及文献《一种决策级文本自动分类融合方法》(国 家专利,专利申请号2009100878443)中公开的一种决策级文本自动分类融合方法进行分 类,分类效果如表1所示表1三种算法分类效果比较
4
结论本发明提出的文件自动分类方法采用了多种媒体的方式,发挥了多种分类 器的优势,得到了高于文献方法和其他单分类器的准确率和召回率,验证了其有效性。需要强调的是,对于本领域技术人员来说,在不脱离本发明原理的前提下,还可以 做出若干改进,这些也应视为属于本发明的保护范围。
权利要求
一种文件自动分类方法,其特征在于其具体操作步骤如下第1步从待分类文件中抽取出文本信息、图像信息、视频信息、音频信息;第2步在第1步的基础上,对抽取出来的文本信息、图像信息、视频信息、音频信息分别进行预处理;对文本信息进行预处理包括分词、特征提取、权重计算等;对图像信息进行预处理包括图像变换、增强、边缘检测、恢复、分割等;对视频信息进行预处理包括特征提取、建视频库、对视频数据进行多维分析等;对音频信息进行预处理包括前端预处理、特征提取、识别等;第3步在第2步的基础上,对经过预处理后的文本信息进行分类;第4步在第2步的基础上,对经过预处理后的图像信息进行分类;第5步在第2步的基础上,对经过预处理后的视频信息进行分类;第6步在第2步的基础上,对经过预处理后的音频信息进行分类;第7步收集第3步到第6步的分类结果,并采用决策级融合算法对收集的分类结果进行推理计算,得到最终的分类结果。
2.如权利要求1所述的一种文件自动分类方法,其特征在于第3步中所述对经过预 处理后的文本信息进行分类,使用的分类方法包括但不限于KNN、SVM、贝叶斯。
3.如权利要求1或2所述的一种文件自动分类方法,其特征在于第4步中所述对经 过预处理后的图像信息进行分类,使用的分类方法包括但不限于SVM、贝叶斯网络、BP神 经网络。
4.如权利要求1或2所述的一种文件自动分类方法,其特征在于第5步中所述对经过 预处理后的视频信息进行分类,使用的分类方法包括但不限于KNN、SVM、Boosting算法。
5.如权利要求1或2所述的一种文件自动分类方法,其特征在于第6步中所述对经 过预处理后的音频信息进行分类,使用的分类方法包括但不限于SVM、GMM算法。
6.如权利要求1或2所述的一种文件自动分类方法,其特征在于第7步中所述决策 级融合算法包括但不限于贝叶斯网络算法、D-S证据理论算法、投票算法。
全文摘要
本发明涉及一种文件自动分类方法,属于数据挖掘领域,适用于资源自动归类、网络内容监管、垃圾邮件过滤、数字图书馆等。本发明方法首先抽取文件中的文本信息、图像信息、视频信息、音频信息,然后对这四类信息分别采用不同的分类方法进行分类,再将四类信息的分类结果汇总,采用决策级融合算法进行综合处理,得到最终分类结果。本发明能够得到更高准确率的文件分类结果。
文档编号G06F17/30GK101923561SQ201010179678
公开日2010年12月22日 申请日期2010年5月24日 优先权日2010年5月24日
发明者乔晓东, 姚长青, 张晓丹, 朱礼军 申请人:中国科学技术信息研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1