一种文件自动分类方法

文档序号：6602860阅读：201来源：国知局

专利名称：一种文件自动分类方法
技术领域：
本发明涉及一种文件自动分类方法，属于数据挖掘领域，适用于资源自动归类、网络内容监管、垃圾邮件过滤、数字图书馆等。
背景技术：
文件自动分类是数据挖掘领域较为热点的研究问题。其目的是训练一个分类函数或分类器，该函数或分类器能把待分文件映射到给定的相应类别中。其目标是找到分类速度更快、更准确的管理文本信息的方法。目前，大量的研究集中于文本文件分类的研究，如张晓丹等人在文献《一种决策级文本自动分类融合方法》(国家专利，专利申请号2009100878443)中公开了一种决策级文本自动分类融合方法，其分类模型如图1所示。该方法以信息融合为理论基础，以分类精度较高的SVM、KNN、贝叶斯等文件自动分类算法为研究对象，采用多层融合结构，串、并联混和的形式，建立了决策级的文件自动分类融合模型。这种方法的缺点是由于其仅处理文件中的本文信息，而没有对待分类文件中的图像、视频、音频等信息进行处理，导致分类的准确率不理想。这主要是由于目前网络数据中包含大量的多媒体数据，如视频、图像、音频等，因此基于文本的分类技术已无法满足人们的需要。从已公开的文献中，还未见到同时处理多种媒体的文件分类方法。

发明内容
本发明针对目前已有文本自动分类方法存在准确度不高的缺点，在已有的决策级文本自动分类融合方法的基础上，提出一种基于多种媒体(图像、音频、视频和文本信息) 的文件自动分类方法，得到准确率更高的分类结果。本发明是通过以下技术方案实现的。—种文件自动分类方法，其具体操作步骤如下第1步从待分类文件中抽取出文本信息、图像信息、视频信息、音频信息；第2步在第1步的基础上，对抽取出来的文本信息、图像信息、视频信息、音频信息分别进行预处理；对文本信息进行预处理包括分词、特征提取、权重计算等；对图像信息进行预处理包括图像变换、增强、边缘检测、恢复、分割等；对视频信息进行预处理包括特征提取、建视频库、对视频数据进行多维分析等；对音频信息进行预处理包括前端预处理、特征提取、识别等；第3步在第2步的基础上，对经过预处理后的文本信息进行分类；使用的分类方法包括但不限于KNN、SVM、贝叶斯；第4步在第2步的基础上，对经过预处理后的图像信息进行分类；使用的分类方法包括但不限于SVM、贝叶斯网络、BP神经网络；第5步在第2步的基础上，对经过预处理后的视频信息进行分类；使用的分类方法包括但不限于KNN、SVM、Boosting算法；
第6步在第2步的基础上，对经过预处理后的音频信息进行分类；使用的分类方法包括但不限于SVM、GMM算法；第7步收集第3步到第6步的分类结果，并采用决策级融合算法对收集的分类结果进行推理计算，得到最终的分类结果；所述决策级融合算法包括但不限于贝叶斯网络算法、D-S证据理论算法、投票算法。有益效果本发明方法采用对文件中的文本信息、图像信息、视频信息、音频信息分别进行分类，然后采用决策级融合算法对分类结果进行综合处理，可以得到更高准确率的文件分类结果。

图1为已有技术的决策级文本自动分类融合模型示意图。
具体实施例方式根据上述技术方案，下面结合实施例对本发明进行详细说明。本实施例采用本发明方法建立一个文件分类系统，该分类系统采用JAVA开发平台，Oracle数据库。采用6000篇为文本训练语料、5000篇为图像训练语料、3000篇为视频训练语料、3000篇为音频训练语料对该分类系统进行训练，训练好以后，使用4000篇测试语料进行测试，具体步骤如下第1步从4000篇待分类文件中抽取出文本信息、图像信息、视频信息、音频信息；第2步对文本信息进行预处理，包括分词、特征提取、权重计算；对图像信息进行预处理，包括图像变换、增强、边缘检测、恢复、分割；对视频信息进行预处理，包括特征提取、建视频库、对视频数据进行多维分析；对音频信息进行预处理，包括前端预处理、特征提取、识别；第3步使用KNN方法对经过预处理后的文本信息进行分类；第4步使用SVM方法对经过预处理后的图像信息进行分类；第5步使用SVM方法对经过预处理后的视频信息进行分类；第6步使用GMM算法对经过预处理后的音频信息进行分类；第7步收集第3步到第6步的分类结果，并采用D-S证据理论算法对收集的分类结果进行推理计算，得到最终的分类结果。经过以上步骤的操作，得到试验结果如表1所示。同时，为说明本发明的分类效果，在同等条件下，以相同的训练语料、测试语料以及相同的分类体系分别采用KNN、SVM以及文献《一种决策级文本自动分类融合方法》(国家专利，专利申请号2009100878443)中公开的一种决策级文本自动分类融合方法进行分类，分类效果如表1所示表1三种算法分类效果比较
4
结论本发明提出的文件自动分类方法采用了多种媒体的方式，发挥了多种分类器的优势，得到了高于文献方法和其他单分类器的准确率和召回率，验证了其有效性。需要强调的是，对于本领域技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进，这些也应视为属于本发明的保护范围。
权利要求
一种文件自动分类方法，其特征在于其具体操作步骤如下第1步从待分类文件中抽取出文本信息、图像信息、视频信息、音频信息；第2步在第1步的基础上，对抽取出来的文本信息、图像信息、视频信息、音频信息分别进行预处理；对文本信息进行预处理包括分词、特征提取、权重计算等；对图像信息进行预处理包括图像变换、增强、边缘检测、恢复、分割等；对视频信息进行预处理包括特征提取、建视频库、对视频数据进行多维分析等；对音频信息进行预处理包括前端预处理、特征提取、识别等；第3步在第2步的基础上，对经过预处理后的文本信息进行分类；第4步在第2步的基础上，对经过预处理后的图像信息进行分类；第5步在第2步的基础上，对经过预处理后的视频信息进行分类；第6步在第2步的基础上，对经过预处理后的音频信息进行分类；第7步收集第3步到第6步的分类结果，并采用决策级融合算法对收集的分类结果进行推理计算，得到最终的分类结果。
2.如权利要求1所述的一种文件自动分类方法，其特征在于第3步中所述对经过预处理后的文本信息进行分类，使用的分类方法包括但不限于KNN、SVM、贝叶斯。
3.如权利要求1或2所述的一种文件自动分类方法，其特征在于第4步中所述对经过预处理后的图像信息进行分类，使用的分类方法包括但不限于SVM、贝叶斯网络、BP神经网络。
4.如权利要求1或2所述的一种文件自动分类方法，其特征在于第5步中所述对经过预处理后的视频信息进行分类，使用的分类方法包括但不限于KNN、SVM、Boosting算法。
5.如权利要求1或2所述的一种文件自动分类方法，其特征在于第6步中所述对经过预处理后的音频信息进行分类，使用的分类方法包括但不限于SVM、GMM算法。
6.如权利要求1或2所述的一种文件自动分类方法，其特征在于第7步中所述决策级融合算法包括但不限于贝叶斯网络算法、D-S证据理论算法、投票算法。
全文摘要
本发明涉及一种文件自动分类方法，属于数据挖掘领域，适用于资源自动归类、网络内容监管、垃圾邮件过滤、数字图书馆等。本发明方法首先抽取文件中的文本信息、图像信息、视频信息、音频信息，然后对这四类信息分别采用不同的分类方法进行分类，再将四类信息的分类结果汇总，采用决策级融合算法进行综合处理，得到最终分类结果。本发明能够得到更高准确率的文件分类结果。
文档编号G06F17/30GK101923561SQ201010179678
公开日2010年12月22日申请日期2010年5月24日优先权日2010年5月24日
发明者乔晓东, 姚长青, 张晓丹, 朱礼军申请人:中国科学技术信息研究所

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张晓丹;乔晓东;姚长青;朱礼军
技术所有人：中国科学技术信息研究所
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。