一种文件自动分类系统的制作方法

文档序号:6343499阅读:173来源:国知局
专利名称:一种文件自动分类系统的制作方法
技术领域
本实用新型涉及一种文件自动分类系统,属于数据挖掘领域,适用于资源自动 归类、网络内容监管、垃圾邮件过滤、数字图书馆等。
背景技术
文件自动分类是数据挖掘领域较为热点的研究问题。其目的是训练一个分类函 数或分类器,该函数或分类器能把待分文件映射到给定的相应类别中。其目标是找到分 类速度更快、更准确的管理文本信息的方法。目前,大量的研究集中于文本文件分类的研究,如张晓丹等人在文献《一种决 策级文本自动分类融合方法》(国家专利,专利申请号2009100878443)中公开了一种 决策级文本自动分类融合方法,其分类模型如图1所示。该方法以信息融合为理论基 础,以分类精度较高的SVM、KNN,贝叶斯等文件自动分类算法为研究对象,采用多 层融合结构,串、并联混和的形式,建立了决策级的文件自动分类融合模型。这种方法 的缺点是由于其仅处理文件中的本文信息,而没有对待分类文件中的图像、视频、音 频等信息进行处理,导致分类的准确率不理想。这主要是由于目前网络数据中包含大量 的多媒体数据,如视频、图像、音频等,因此基于文本的分类技术已无法满足人们的需 要。从已公开的文献和实际应用中,还未见到同时处理多种媒体的文件分类方法。 发明内容本实用新型针对目前已有文本自动分类系统存在准确度不高的缺点,在已有的 决策级文本自动分类融合模型的基础上,提出一种基于多种媒体(图像、音频、视频和 文本信息)的文件自动分类系统,得到准确率更高的分类结果。本实用新型是通过以下技术方案实现的。—种文件自动分类系统,包括输入模块、信息抽取模块、文本预处理模块、 图像预处理模块、视频预处理模块、音频预处理模块、文本分类模块、图像分类模块、 视频分类模块、音频分类模块、融合模块、输出模块;其连接关系为输入模块分别与信息抽取模块、文本预处理模块、图像预处理 模块、音频预处理模块、视频预处理模块的输入端连接;信息抽取模块的输出端分别与 文本预处理模块、图像预处理模块、音频预处理模块、视频预处理模块的输入端连接; 文本预处理模块的输出端与文本分类模块的输入端连接;图像预处理模块的输出端与图 像分类模块的输入端连接;音频预处理模块的输出端与音频分类模块的输入端连接;视 频预处理模块的输出端与视频分类模块的输入端连接;文本分类模块、图像分类模块、 音频分类模块、视频分类模块的输出端与融合模块的输入端连接;融合模块的输出端与 输出模块连接。其主要模块的功能为[0010]所述输入模块的主要功能是提供数据的输入接口 ;所述信息抽取模块的主要功能是从输入的待分类文件中抽取出文本信息、图 像信息、视频信息、音频信息;所述文本预处理模块的主要功能是 算等预处理;所述图像预处理模块的主要功能是 测、恢复、分割等预处理;所述视频预处理模块的主要功能是 视频数据进行多维分析等预处理;所述音频预处理模块的主要功能是 识别等预处理;所述文本分类模块的主要功能是在系统训练阶段使用文本训练语料确定预先 设定的各种类别的特征、在系统分类阶段对经过预处理后的文本信息进行分类;所述文 本分类模块可以是但不限于以下设备中的一种KNN分类器、SVM分类器、贝叶斯分类 器;所述图像分类模块的主要功能是在系统训练阶段使用图像训练语料确定预先 设定的各种类别的特征、在系统分类阶段对经过预处理后的图像信息进行分类;所述图 像分类模块可以是但不限于以下设备中的一种SVM分类器、基于贝叶斯网络算法的分 类器、基于BP神经网络算法的分类器;所述视频分类模块的主要功能是在系统训练阶段使用视频训练语料确定预 先设定的各种类别的特征、在系统分类阶段对经过预处理后的视频信息进行分类;所 述视频分类模块可以是但不限于以下设备中的一种KNN分类器、SVM分类器、基于 Boosting算法的分类器;所述音频分类模块的主要功能是在系统训练阶段使用音频训练语料确定预先 设定的各种类别的特征、在系统分类阶段对经过预处理后的音频信息进行分类;所述音 频分类模块可以是但不限于以下设备中的一种SVM分类器、基于GMM算法的分类 器;所述融合模块的主要功能是采用决策级融合算法对输入的分类结果进行推理计 算,得到最终的分类结果;所述决策级融合算法包括但不限于贝叶斯网络算法、D-S 证据理论算法、投票算法;所述输出模块的主要功能是提供数据的输出功能。所述输出模块可以是但不 限于以下设备中的一种或者多种的组合显示器、投影仪、打印机。其工作过程分为系统训练阶段和系统分类阶段系统训练阶段的工作过程为第1步将文本训练语料通过输入模块输入到文本预处理模块,文本预处理模 块对文本信息进行预处理,包括分词、特征提取、权重计算;然后,将经过预处理的文 本信息传输到文本分类模块;第2步该步骤可与第1步同步操作将图像训练语料通过输入模块输入到图 像预处理模块,图像预处理模块对图像信息进行预处理,包括图像变换、增强、边缘检
对文本信息进行分词、特征提取、权重计 对图像信息进行图像变换、增强、边缘检 对视频信息进行特征提取、建视频库、对 对音频信息进行前端预处理、特征提取、
4测、恢复、分割;然后,将经过预处理的图像信息传输到图像分类模块;第3步该步骤可与第1步同步操作将视频训练语料通过输入模块输入到视 频预处理模块,视频预处理模块对视频信息进行预处理,包括特征提取、建视频库、对 视频数据进行多维分析;然后,将经过预处理的视频信息传输到视频分类模块;第4步该步骤可与第1步同步操作将音频训练语料通过输入模块输入到音 频预处理模块,音频预处理模块对音频信息进行预处理,包括前端预处理、特征提取、 识别;然后,将经过预处理的音频信息传输到音频分类模块;第5步文本分类模块对经过预处理后的文本信息提取类别特征;图像分类模 块对经过预处理后的图像信息提取类别特征;视频分类模块对经过预处理后的视频信息 提取类别特征;音频分类模块对经过预处理后的音频信息提取类别特征;第6步训练结束,输出模块输出系统训练完成提示信息。系统分类阶段的工作过程为第1步将待分类文件通过输入模块输入到信息抽取模块;第2步信息抽取模块从待分类文件中抽取出文本信息、图像信息、视频信 息、音频信息,分别输入到对应的文本预处理模块、图像预处理模块、视频预处理模 块、音频预处理模块;第3步在第2步的基础上,文本预处理模块对文本信息进行预处理,包括分 词、特征提取、权重计算;第4步在第2步的基础上,图像预处理模块对图像信息进行预处理,包括图像 变换、增强、边缘检测、恢复、分割;第5步在第2步的基础上,视频预处理模块对视频信息进行预处理,包括特征 提取、建视频库、对视频数据进行多维分析;第6步在第2步的基础上,音频预处理模块对音频信息进行预处理,包括前端 预处理、特征提取、识别;第7步在第3步的基础上,文本分类模块对经过预处理后的文本信息进行分类 并将分类结果输出至融合模块;第8步在第4步的基础上,图像分类模块对经过预处理后的图像信息进行分类 并将分类结果输出至融合模块;第9步在第5步的基础上,视频分类模块对经过预处理后的视频信息进行分类 并将分类结果输出至融合模块;第10步在第6步的基础上,音频分类模块对经过预处理后的音频信息进行分 类并将分类结果输出至融合模块;第11步融合模块采用决策级融合算法对输入的分类结果进行推理计算,得到 最终的分类结果。第12步分类结果经输出模块输出。有益效果1.本实用新型提出的文件自动分类系统对文件中的文本信息、图像信息、视频 信息、音频信息分别进行分类,然后采用决策级融合算法对分类结果进行综合处理,可 以得到更高准确率的文本分类效果;[0045]2.本实用新型提出的文件自动分类系统不仅可以保证各个局部分类的正确性, 还可以适应分类目标的改变,保证分类系统的效率及准确度。

图1为已有技术的决策级文本自动分类融合模型示意图;图2为关于本实用新型的文件自动分类系统的一种具体实施方式
的结构示意 图。
具体实施方式
根据上述技术方案,
以下结合附图和实施例对本实用新型进行详细说明。本实用新型提出的文件自动分类系统采用JAVA开发平台,Oracle数据库。如图 2所示,本实用新型的文件自动分类系统包括输入模块、信息抽取模块、文本预处理 模块、图像预处理模块、音频预处理模块、视频预处理模块、文本分类模块(采用KNN 算法)、图像分类模块(采用SVM算法)、音频分类模块(GMM算法)、视频分类模块 (SVM算法)、融合模块(D-S证据理论算法)、输出模块(显示器和打印机)。采用该系统对21000篇语料进行分类,其中6000篇为文本训练语料、5000篇为 图像训练语料、3000篇为视频训练语料、3000篇为音频训练语料、4000篇为测试语料, 共分6个类别。其工作流程为分别系统训练阶段和系统分类阶段系统训练阶段的工作过程为第1步将6000篇文本训练语料通过输入模块输入到文本预处理模块,文本预 处理模块对文本信息进行预处理,包括分词、特征提取、权重计算;第2步将5000篇图像训练语料通过输入模块输入到图像预处理模块,图像预 处理模块对图像信息进行预处理,包括图像变换、增强、边缘检测、恢复、分割;第3步将3000篇视频训练语料通过输入模块输入到视频预处理模块,视频 预处理模块对视频信息进行预处理,包括特征提取、建视频库、对视频数据进行多维分 析;第4步将3000篇音频训练语料通过输入模块输入到音频预处理模块,音频预 处理模块对音频信息进行预处理,包括前端预处理、特征提取、识别;第5步文本分类模块采用KNN算法对经过预处理后的文本信息提取类别特 征;图像分类模块采用SVM对经过预处理后的图像信息提取类别特征;视频分类模块采 用SVM算法对经过预处理后的视频信息提取类别特征;音频分类模块采用GMM算法对 经过预处理后的音频信息提取类别特征;第6步训练结束,输出模块输出训练完成提示信息。系统分类阶段,具体为第1步将4000篇测试语料通过输入模块输入到信息抽取模块;第2步信息抽取模块从4000篇测试语料中抽取出文本信息、图像信息、视频 信息、音频信息,分别输入到对应的文本预处理模块、图像预处理模块、音频预处理模 块、视频预处理模块;[0062]第3步文本预处理模块对文本信息进行预处理,包括分词、特征提取、权重 计算;第4步图像预处理模块对图像信息进行预处理,包括图像变换、增强、边缘 检测、恢复、分割;第5步视频预处理模块对视频信息进行预处理,包括特征提取、建视频库、 对视频数据进行多维分析;第6步音频预处理模块对音频信息进行预处理,包括前端预处理、特征提 取、识别;第7步在第3步的基础上,文本分类模块采用KNN算法对经过预处理后的文 本信息进行分类并将分类结果输出至融合模块;第8步在第4步的基础上,图像分类模块采用SVM算法对经过预处理后的图 像信息进行分类并将分类结果输出至融合模块;第9步在第5步的基础上,视频分类模块采用SVM算法对经过预处理后的视 频信息进行分类并将分类结果输出至融合模块;第10步在第6步的基础上,音频分类模块采用GMM算法对经过预处理后的 音频信息进行分类并将分类结果输出至融合模块;第11步融合模块采用D-S证据理论算法对输入的分类结果进行推理计算,得 到最终的分类结果。经过以上操作,得到试验结果如表1所示。同时,为说明本实用新型的分类效果,本实验是在同等条件下,以相同的训练 语料、测试语料以及相同的分类体系分别采用KNN、SVM以及文献《一种决策级文本自 动分类融合方法》(国家专利,专利申请号2009100878443)中公开的一种决策级文本 自动分类融合方法进行分类,分类结果如表1所示表1三种算法分类效果比较[0074]
权利要求1.一种文件自动分类系统,其特征在于包括输入模块、信息抽取模块、文本预 处理模块、图像预处理模块、视频预处理模块、音频预处理模块、文本分类模块、图像 分类模块、视频分类模块、音频分类模块、融合模块、输出模块;其连接关系为输入模块分别与信息抽取模块、文本预处理模块、图像预处理模 块、音频预处理模块、视频预处理模块的输入端连接;信息抽取模块的输出端分别与文 本预处理模块、图像预处理模块、音频预处理模块、视频预处理模块的输入端连接;文 本预处理模块的输出端与文本分类模块的输入端连接;图像预处理模块的输出端与图像 分类模块的输入端连接;音频预处理模块的输出端与音频分类模块的输入端连接;视频 预处理模块的输出端与视频分类模块的输入端连接;文本分类模块、图像分类模块、音 频分类模块、视频分类模块的输出端与融合模块的输入端连接;融合模块的输出端与输 出模块连接。
2.如权利要求1所述的一种文件自动分类系统,其特征在于所述文本分类模块是 以下装置中的一种KNN分类器、SVM分类器、贝叶斯分类器。
3.如权利要求1或2所述的一种文件自动分类系统,其特征在于所述图像分类模块 是以下装置中的一种SVM分类器、基于贝叶斯网络算法的分类器、基于BP神经网络 算法的分类器。
4.如权利要求1或2所述的一种文件自动分类系统,其特征在于所述视频分类模块 是以下装置中的一种KNN分类器、SVM分类器、基于Boosting算法的分类器。
5.如权利要求1或2所述的一种文件自动分类系统,其特征在于所述音频分类模块 是以下装置中的一种SVM分类器、基于GMM算法的分类器。
6.如权利要求1或2所述的一种文件自动分类系统,其特征在于所述输出模块是以 下设备中的一种或者多种的组合显示器、投影仪、打印机。
专利摘要本实用新型涉及一种文件自动分类系统,属于数据挖掘技术领域。包括输入模块、信息抽取模块、文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块、文本分类模块、图像分类模块、视频分类模块、音频分类模块、融合模块、输出模块。本实用新型提供的文件自动分类系统通过信息抽取模块对文件中的文本信息、图像信息、视频信息、音频信息进行抽取,分别通过文本预处理模块、图像预处理模块、视频预处理模块、音频预处理模块的预处理后,分别进入到文本分类模块、图像分类模块、视频分类模块、音频分类模块中进行分类,再通过融合模块对各分类结果进行综合处理得到最终分类结果。本实用新型可以得到更高准确率的文本分类结果。
文档编号G06F17/30GK201796362SQ20102020004
公开日2011年4月13日 申请日期2010年5月24日 优先权日2010年5月24日
发明者乔晓东, 姚长青, 张晓丹, 朱礼军 申请人:中国科学技术信息研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1