一种文件自动分类系统的制作方法

文档序号:6602862阅读:555来源:国知局
专利名称:一种文件自动分类系统的制作方法
技术领域
本发明涉及一种文件自动分类系统,属于数据挖掘领域,适用于资源自动归类、网 络内容监管、垃圾邮件过滤、数字图书馆等。
背景技术
文件自动分类是数据挖掘领域较为热点的研究问题。其目的是训练一个分类函数 或分类器,该函数或分类器能把待分文件映射到给定的相应类别中。其目标是找到分类速 度更快、更准确的管理文本信息的方法。目前,大量的研究集中于文本文件分类的研究,如张晓丹等人在文献《一种决策级 文本自动分类融合方法》(国家专利,专利申请号2009100878443)中公开了一种决策级文 本自动分类融合方法,其分类模型如图1所示。该方法以信息融合为理论基础,以分类精度 较高的SVM、KNN、贝叶斯等文件自动分类算法为研究对象,采用多层融合结构,串、并联混和 的形式,建立了决策级的文件自动分类融合模型。这种方法的缺点是由于其仅处理文件中 的本文信息,而没有对待分类文件中的图像、视频、音频等信息进行处理,导致分类的准确 率不理想。这主要是由于目前网络数据中包含大量的多媒体数据,如视频、图像、音频等,因 此基于文本的分类技术已无法满足人们的需要。从已公开的文献和实际应用中,还未见到同时处理多种媒体的文件分类方法。

发明内容
本发明针对目前已有文本自动分类系统存在准确度不高的缺点,在已有的决策级 文本自动分类融合模型的基础上,提出一种基于多种媒体(图像、音频、视频和文本信息) 的文件自动分类系统,得到准确率更高的分类结果。本发明是通过以下技术方案实现的。—种文件自动分类系统,包括输入模块、信息抽取模块、文本预处理模块、图像 预处理模块、视频预处理模块、音频预处理模块、文本分类模块、图像分类模块、视频分类模 块、音频分类模块、融合模块、输出模块;其连接关系为输入模块分别与信息抽取模块、文本预处理模块、图像预处理模 块、音频预处理模块、视频预处理模块的输入端连接;信息抽取模块的输出端分别与文本预 处理模块、图像预处理模块、音频预处理模块、视频预处理模块的输入端连接;文本预处理 模块的输出端与文本分类模块的输入端连接;图像预处理模块的输出端与图像分类模块的 输入端连接;音频预处理模块的输出端与音频分类模块的输入端连接;视频预处理模块的 输出端与视频分类模块的输入端连接;文本分类模块、图像分类模块、音频分类模块、视频 分类模块的输出端与融合模块的输入端连接;融合模块的输出端与输出模块连接。其主要模块的功能为所述输入模块的主要功能是提供数据的输入接口 ;所述信息抽取模块的主要功能是从输入的待分类文件中抽取出文本信息、图像
5信息、视频信息、音频信息;所述文本预处理模块的主要功能是对文本信息进行分词、特征提取、权重计算等 预处理;所述图像预处理模块的主要功能是对图像信息进行图像变换、增强、边缘检测、 恢复、分割等预处理;所述视频预处理模块的主要功能是对视频信息进行特征提取、建视频库、对视频 数据进行多维分析等预处理;所述音频预处理模块的主要功能是对音频信息进行前端预处理、特征提取、识别 等预处理;所述文本分类模块的主要功能是在系统训练阶段使用文本训练语料确定预先设 定的各种类别的特征、在系统分类阶段对经过预处理后的文本信息进行分类;所述文本分 类模块可以是但不限于以下设备中的一种KNN分类器、SVM分类器、贝叶斯分类器;所述图像分类模块的主要功能是在系统训练阶段使用图像训练语料确定预先设 定的各种类别的特征、在系统分类阶段对经过预处理后的图像信息进行分类;所述图像分 类模块可以是但不限于以下设备中的一种SVM分类器、基于贝叶斯网络算法的分类器、基 于BP神经网络算法的分类器;所述视频分类模块的主要功能是在系统训练阶段使用视频训练语料确定预先设 定的各种类别的特征、在系统分类阶段对经过预处理后的视频信息进行分类;所述视频分 类模块可以是但不限于以下设备中的一种KNN分类器、SVM分类器、基于Boosting算法的 分类器;所述音频分类模块的主要功能是在系统训练阶段使用音频训练语料确定预先设 定的各种类别的特征、在系统分类阶段对经过预处理后的音频信息进行分类;所述音频分 类模块可以是但不限于以下设备中的一种SVM分类器、基于GMM算法的分类器;所述融合模块的主要功能是采用决策级融合算法对输入的分类结果进行推理计 算,得到最终的分类结果;所述决策级融合算法包括但不限于贝叶斯网络算法、D-S证据 理论算法、投票算法;所述输出模块的主要功能是提供数据的输出功能。所述输出模块可以是但不限 于以下设备中的一种或者多种的组合显示器、投影仪、打印机。其工作过程分为系统训练阶段和系统分类阶段系统训练阶段的工作过程为第1步将文本训练语料通过输入模块输入到文本预处理模块,文本预处理模块 对文本信息进行预处理,包括分词、特征提取、权重计算;然后,将经过预处理的文本信息传 输到文本分类模块;第2步该步骤可与第1步同步操作将图像训练语料通过输入模块输入到图像 预处理模块,图像预处理模块对图像信息进行预处理,包括图像变换、增强、边缘检测、恢 复、分割;然后,将经过预处理的图像信息传输到图像分类模块;第3步该步骤可与第1步同步操作将视频训练语料通过输入模块输入到视频 预处理模块,视频预处理模块对视频信息进行预处理,包括特征提取、建视频库、对视频数 据进行多维分析;然后,将经过预处理的视频信息传输到视频分类模块;
第4步该步骤可与第1步同步操作将音频训练语料通过输入模块输入到音频 预处理模块,音频预处理模块对音频信息进行预处理,包括前端预处理、特征提取、识别;然 后,将经过预处理的音频信息传输到音频分类模块;第5步文本分类模块对经过预处理后的文本信息提取类别特征;图像分类模块 对经过预处理后的图像信息提取类别特征;视频分类模块对经过预处理后的视频信息提取 类别特征;音频分类模块对经过预处理后的音频信息提取类别特征;第6步训练结束,输出模块输出系统训练完成提示信息。系统分类阶段的工作过程为第1步将待分类文件通过输入模块输入到信息抽取模块;第2步信息抽取模块从待分类文件中抽取出文本信息、图像信息、视频信息、音 频信息,分别输入到对应的文本预处理模块、图像预处理模块、视频预处理模块、音频预处 理模块;第3步在第2步的基础上,文本预处理模块对文本信息进行预处理,包括分词、特 征提取、权重计算;第4步在第2步的基础上,图像预处理模块对图像信息进行预处理,包括图像变 换、增强、边缘检测、恢复、分割;第5步在第2步的基础上,视频预处理模块对视频信息进行预处理,包括特征提 取、建视频库、对视频数据进行多维分析;第6步在第2步的基础上,音频预处理模块对音频信息进行预处理,包括前端预 处理、特征提取、识别;第7步在第3步的基础上,文本分类模块对经过预处理后的文本信息进行分类并 将分类结果输出至融合模块;第8步在第4步的基础上,图像分类模块对经过预处理后的图像信息进行分类并 将分类结果输出至融合模块;第9步在第5步的基础上,视频分类模块对经过预处理后的视频信息进行分类并 将分类结果输出至融合模块;第10步在第6步的基础上,音频分类模块对经过预处理后的音频信息进行分类 并将分类结果输出至融合模块;第11步融合模块采用决策级融合算法对输入的分类结果进行推理计算,得到最 终的分类结果。第12步分类结果经输出模块输出。有益效果1.本发明系统对文件中的文本信息、图像信息、视频信息、音频信息分别进行分 类,然后采用决策级融合算法对分类结果进行综合处理,可以得到更高准确率的文本分类 效果;2.本发明系统不仅可以保证各个局部分类的正确性,还可以适应分类目标的改 变,保证分类系统的效率及准确度。


图1为已有技术的决策级文本自动分类融合模型示意图;图2为关于本发明的文件自动分类系统的一种具体实施方式
的结构示意图。
具体实施例方式根据上述技术方案,下面结合实施例对本发明进行详细说明。本发明系统采用JAVA开发平台,Oracle数据库。本发明的文件自动分类系统包 括输入模块、信息抽取模块、文本预处理模块、图像预处理模块、音频预处理模块、视频预 处理模块、文本分类模块(采用KNN算法)、图像分类模块(采用SVM算法)、音频分类模块 (GMM算法)、视频分类模块(SVM算法)、融合模块(D-S证据理论算法)、输出模块(显示器 和打印机)。采用该系统对21000篇语料进行分类,其中6000篇为文本训练语料、5000篇为图 像训练语料、3000篇为视频训练语料、3000篇为音频训练语料、4000篇为测试语料,共分6
个类别。其工作流程为分别系统训练阶段和系统分类阶段系统训练阶段的工作过程为第1步将6000篇文本训练语料通过输入模块输入到文本预处理模块,文本预处 理模块对文本信息进行预处理,包括分词、特征提取、权重计算;第2步将5000篇图像训练语料通过输入模块输入到图像预处理模块,图像预处 理模块对图像信息进行预处理,包括图像变换、增强、边缘检测、恢复、分割;第3步将3000篇视频训练语料通过输入模块输入到视频预处理模块,视频预处 理模块对视频信息进行预处理,包括特征提取、建视频库、对视频数据进行多维分析;第4步将3000篇音频训练语料通过输入模块输入到音频预处理模块,音频预处 理模块对音频信息进行预处理,包括前端预处理、特征提取、识别;第5步文本分类模块采用KNN算法对经过预处理后的文本信息提取类别特征; 图像分类模块采用SVM对经过预处理后的图像信息提取类别特征;视频分类模块采用SVM 算法对经过预处理后的视频信息提取类别特征;音频分类模块采用GMM算法对经过预处理 后的音频信息提取类别特征;第6步训练结束,输出模块输出训练完成提示信息。系统分类阶段,具体为第1步将4000篇测试语料通过输入模块输入到信息抽取模块;第2步信息抽取模块从4000篇测试语料中抽取出文本信息、图像信息、视频信 息、音频信息,分别输入到对应的文本预处理模块、图像预处理模块、音频预处理模块、视频 预处理模块;第3步文本预处理模块对文本信息进行预处理,包括分词、特征提取、权重计算;第4步图像预处理模块对图像信息进行预处理,包括图像变换、增强、边缘检测、 恢复、分割;第5步视频预处理模块对视频信息进行预处理,包括特征提取、建视频库、对视 频数据进行多维分析;
第6步音频预处理模块对音频信息进行预处理,包括前端预处理、特征提取、识 别;第7步在第3步的基础上,文本分类模块采用KNN算法对经过预处理后的文本信 息进行分类并将分类结果输出至融合模块;第8步在第4步的基础上,图像分类模块采用SVM算法对经过预处理后的图像信 息进行分类并将分类结果输出至融合模块;第9步在第5步的基础上,视频分类模块采用SVM算法对经过预处理后的视频信 息进行分类并将分类结果输出至融合模块;第10步在第6步的基础上,音频分类模块采用GMM算法对经过预处理后的音频 信息进行分类并将分类结果输出至融合模块;第11步融合模块采用D-S证据理论算法对输入的分类结果进行推理计算,得到 最终的分类结果。经过以上操作,得到试验结果如表1所示。同时,为说明本发明的分类效果,本实验是在同等条件下,以相同的训练语料、测 试语料以及相同的分类体系分别采用KNN、SVM以及文献《一种决策级文本自动分类融合方 法》(国家专利,专利申请号2009100878443)中公开的一种决策级文本自动分类融合方法 进行分类,分类效果如表1所示表1三种算法分类效果比较
权利要求
一种文件自动分类系统,其特征在于包括输入模块、信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块、文本分类模块、图像分类模块、视频分类模块、音频分类模块、融合模块、输出模块;其连接关系为输入模块分别与信息抽取模块、文本预处理模块、图像预处理模块、音频预处理模块、视频预处理模块的输入端连接;信息抽取模块的输出端分别与文本预处理模块、图像预处理模块、音频预处理模块、视频预处理模块的输入端连接;文本预处理模块的输出端与文本分类模块的输入端连接;图像预处理模块的输出端与图像分类模块的输入端连接;音频预处理模块的输出端与音频分类模块的输入端连接;视频预处理模块的输出端与视频分类模块的输入端连接;文本分类模块、图像分类模块、音频分类模块、视频分类模块的输出端与融合模块的输入端连接;融合模块的输出端与输出模块连接;其主要模块的功能为所述输入模块的主要功能是提供数据的输入接口;所述信息抽取模块的主要功能是从输入的待分类文件中抽取出文本信息、图像信息、视频信息、音频信息;所述文本预处理模块的主要功能是对文本信息进行分词、特征提取、权重计算等预处理;所述图像预处理模块的主要功能是对图像信息进行图像变换、增强、边缘检测、恢复、分割等预处理;所述视频预处理模块的主要功能是对视频信息进行特征提取、建视频库、对视频数据进行多维分析等预处理;所述音频预处理模块的主要功能是对音频信息进行前端预处理、特征提取、识别等预处理;所述文本分类模块的主要功能是在系统训练阶段使用文本训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的文本信息进行分类;所述图像分类模块的主要功能是在系统训练阶段使用图像训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的图像信息进行分类;所述视频分类模块的主要功能是在系统训练阶段使用视频训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的视频信息进行分类;所述音频分类模块的主要功能是在系统训练阶段使用音频训练语料确定预先设定的各种类别的特征、在系统分类阶段对经过预处理后的音频信息进行分类;所述融合模块的主要功能是采用决策级融合算法对输入的分类结果进行推理计算,得到最终的分类结果;所述输出模块的主要功能是提供数据的输出功能;其工作过程分为系统训练阶段和系统分类阶段系统训练阶段的工作过程为第1步将文本训练语料通过输入模块输入到文本预处理模块,文本预处理模块对文本信息进行预处理,包括分词、特征提取、权重计算;然后,将经过预处理的文本信息传输到文本分类模块;第2步该步骤可与第1步同步操作将图像训练语料通过输入模块输入到图像预处理模块,图像预处理模块对图像信息进行预处理,包括图像变换、增强、边缘检测、恢复、分割;然后,将经过预处理的图像信息传输到图像分类模块;第3步该步骤可与第1步同步操作将视频训练语料通过输入模块输入到视频预处理模块,视频预处理模块对视频信息进行预处理,包括特征提取、建视频库、对视频数据进行多维分析;然后,将经过预处理的视频信息传输到视频分类模块;第4步该步骤可与第1步同步操作将音频训练语料通过输入模块输入到音频预处理模块,音频预处理模块对音频信息进行预处理,包括前端预处理、特征提取、识别;然后,将经过预处理的音频信息传输到音频分类模块;第5步文本分类模块对经过预处理后的文本信息提取类别特征;图像分类模块对经过预处理后的图像信息提取类别特征;视频分类模块对经过预处理后的视频信息提取类别特征;音频分类模块对经过预处理后的音频信息提取类别特征;第6步训练结束,输出模块输出系统训练完成提示信息;系统分类阶段的工作过程为第1步将待分类文件通过输入模块输入到信息抽取模块;第2步信息抽取模块从待分类文件中抽取出文本信息、图像信息、视频信息、音频信息,分别输入到对应的文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块;第3步在第2步的基础上,文本预处理模块对文本信息进行预处理,包括分词、特征提取、权重计算;第4步在第2步的基础上,图像预处理模块对图像信息进行预处理,包括图像变换、增强、边缘检测、恢复、分割;第5步在第2步的基础上,视频预处理模块对视频信息进行预处理,包括特征提取、建视频库、对视频数据进行多维分析;第6步在第2步的基础上,音频预处理模块对音频信息进行预处理,包括前端预处理、特征提取、识别;第7步在第3步的基础上,文本分类模块对经过预处理后的文本信息进行分类并将分类结果输出至融合模块;第8步在第4步的基础上,图像分类模块对经过预处理后的图像信息进行分类并将分类结果输出至融合模块;第9步在第5步的基础上,视频分类模块对经过预处理后的视频信息进行分类并将分类结果输出至融合模块;第10步在第6步的基础上,音频分类模块对经过预处理后的音频信息进行分类并将分类结果输出至融合模块;第11步融合模块采用决策级融合算法对输入的分类结果进行推理计算,得到最终的分类结果;第12步分类结果经输出模块输出。
2.如权利要求1所述的一种文件自动分类系统,其特征在于所述文本分类模块可以 是但不限于以下装置中的一种KNN分类器、SVM分类器、贝叶斯分类器。
3.如权利要求1或2所述的一种文件自动分类系统,其特征在于所述图像分类模块可以是但不限于以下装置中的一种SVM分类器、基于贝叶斯网络算法的分类器、基于BP神 经网络算法的分类器。
4.如权利要求1或2所述的一种文件自动分类系统,其特征在于所述视频分类模块 可以是但不限于以下装置中的一种KNN分类器、SVM分类器、基于Boosting算法的分类器。
5.如权利要求1或2所述的一种文件自动分类系统,其特征在于所述音频分类模块 可以是但不限于以下装置中的一种SVM分类器、基于GMM算法的分类器。
6.如权利要求1或2所述的一种文件自动分类系统,其特征在于所述决策级融合算 法包括但不限于贝叶斯网络算法、D-S证据理论算法、投票算法。
7.如权利要求1或2所述的一种文件自动分类系统,其特征在于所述输出模块可以 是但不限于以下设备中的一种或者多种的组合显示器、投影仪、打印机。
全文摘要
本发明涉及一种文件自动分类系统,属于数据挖掘领域。本发明提供的文件自动分类系统包括输入模块、信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块、文本分类模块、图像分类模块、视频分类模块、音频分类模块、融合模块、输出模块。本发明系统通过信息抽取模块对文件中的文本信息、图像信息、视频信息、音频信息进行抽取,分别通过文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块的预处理后,分别进入到文本分类模块、图像分类模块、视频分类模块、音频分类模块中进行分类,再采用通过融合模块对各分类结果进行综合处理得到最终分类结果。本发明方法可以得到更高准确率的文本分类结果。
文档编号G06F17/30GK101937445SQ20101017970
公开日2011年1月5日 申请日期2010年5月24日 优先权日2010年5月24日
发明者乔晓东, 张晓丹, 朱礼军, 梁冰 申请人:中国科学技术信息研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1