文件分类装置及方法

文档序号:8934992阅读:241来源:国知局
文件分类装置及方法
【技术领域】
[0001]本发明涉及文件分类存储领域,特别是涉及一种文件分类装置及方法。
【背景技术】
[0002]传统的文件分类方法通常是按照文件的扩展名进行分类,将文件扩展名作为分类特征,根据待分类的扩展名称将具有相同扩展名的所有文件归为一类。这种文件分类方法是一种粗分类方法。
[0003]在实现过程中,发明人发现传统技术中至少存在如下问题:使用传统的文件分类方法只能够对文件的属性进行分类,如能够区别该文件为音频文件或者文本文件,却难以实现对文件的内容进行区分。此外,在科技领域中,无法根据文件的内容对其学科领域、涉及的主题进行分类,如区分该文件是关于电子器件还是关于电力输变等内容。

【发明内容】

[0004]基于此,有必要针对基于文件的内容进行分类的问题,提供一种文件分类装置及方法。
[0005]为了实现上述目的,本发明技术方案的实施例为:
[0006]—方面,提供了一种文件分类装置,包括处理器:
[0007]处理器包括处理单元;
[0008]处理单元根据以分类级别进行分类存储的名词词汇对待分类文件中的文件词汇进行标引;对文件词汇进行统计分析获得文件主题词,并根据以分类级别进行分类存储的主题词汇检索文件主题词所属的类别;还基于标引的结果和类别来确定待分类文件的最终类别。
[0009]另一方面,提供了一种文件分类方法,包括以下步骤::
[0010]调用以分类级别进行分类存储的名词词汇对待分类文件中的文件词汇进行标弓I ;
[0011]对文件词汇进行统计分析获得文件主题词;
[0012]调用以分类级别进行分类存储的主题词汇检索文件主题词对应的分类级别以确定待分类文件的类别;
[0013]基于标引的结果以及类别确定待分类文件的最终类别。
[0014]上述技术方案具有如下有益效果:
[0015]本发明提供的文件分类装置及方法,通过处理器根据名词存储器中的名词词汇对文件词汇进行标引,并根据主题词汇检索文件主题词在主题词存储器中所在的类别;并基于标引的结果以及所在的类别来确定文件的最终类别。所以克服了传统文件分类方法只能依据文件的属性对文件进行分类的问题,进而实现依据文件的内容对文件进行区分并确定文件的最终类别,使用户能够按照文件的内容灵活精确地对文件进行分类。
【附图说明】
[0016]通过附图中所示的本发明的优选实施例的更具体说明,本发明的上述及其它目的、特征和优势将变得更加清晰。在全部附图中相同的附图标记指示相同的部分,且并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本发明的主旨。
[0017]图1为本发明文件分类装置实施例1的结构示意图;
[0018]图2为本发明文件分类装置实施例1的具体结构示意图;
[0019]图3为本发明文件分类方法实施例1的流程图。
【具体实施方式】
[0020]为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的首选实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
[0021]需要说明的是,当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件并与之结合为一体,或者可能同时存在居中元件。本文所使用的术语“相连接”、“统计分析”、“类别”以及类似的表述只是为了说明的目的。
[0022]除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0023]本发明文件分类装置实施例1:
[0024]图1为本发明文件分类装置实施例1的结构示意图,如图1所示,本发明文件分类装置,包括处理器30,其具体结构如图2所示:
[0025]处理器30包括处理单元310 ;
[0026]处理单元310,根据以分类级别进行分类存储的名词词汇对待分类文件中的文件词汇进行标引;对文件词汇进行统计分析获得文件主题词,并根据以分类级别进行分类存储的主题词汇检索文件主题词所属的类别;还基于标引的结果和类别来确定待分类文件的最终类别。
[0027]其中,名词词汇包含主题词汇;文件主题词为处理单元310对文件词汇出现的频率和权重进行统计分析获得的权重最大的词汇。
[0028]在其中一个实施例中,处理器30还包括与处理单元310相连接的主题词存储器320和名词存储器330。
[0029]主题词存储器320存储以分类级别进行分类存储的主题词汇;
[0030]名词存储器330存储以分类级别进行分类存储的名词词汇;
[0031]另外,本发明文件分类装置还包括和处理器30相连接的文件存储器20 ;在其中一个实施例中,还包括和处理器30相连的终端10。
[0032]其中,终端10,用于接收外部信号,并将外部信号转换为指示信号发送给处理器30,以及接收处理器30反馈的分类数据并显示;亦用于存储待分类的文件,并将文件发送给处理器30以进行分类处理。
[0033]处理器30,用于根据指示信号查找读取文件存储器20中储存对应的分类数据并反馈给终端10 ;并用于对文件进行分类处理并发送给文件存储器;
[0034]文件存储器20,用于储存经处理器30分类处理已确定最终类别的文件以及文件的分类数据。
[0035]其中,终端10可以但不限于是服务器终端、移动终端及/或计算机终端。分类数据则包括:文件分类数据和索引数据。而索引数据进一步包括:文件存放位置、科学领域、文件名称及/或文件类别。
[0036]利用本发明提供的文件分类装置的实施例1,通过处理器根据名词词汇对文件词汇进行标引,并根据主题词汇检索文件主题词所在的类别;并基于标引的结果以及所在的类别来确定文件的最终类别。所以克服了传统文件分类方法只能依据文件的属性对文件进行分类的问题,进而实现依据文件的内容对文件进行区分并确定文件的最终类别,使用户能够按照文件的内容灵活精确地对文件进行分类。
[0037]图2为本发明文件分类装置实施例1的具体结构示意图,如图2所示,处理器30包括连接主题词存储器320和名词存储器330的处理单元310 ;
[0038]主题词存储器320,用于存储以分类级别进行分类存储的主题词汇;在具体实施例中,主题词存储器320中放置有科技文献中常用的若干关键主题词汇,如电力行业中的交流电、电力输变等主题词汇。这些主题词汇均按照一定结构、一定类别进行分类设置并存储。如将若干主题词汇分成八个大类,每个大类下再设置若干小类,在每个类别下又可以设置若干主题词汇。
[0039]名词存储器330,用于存储以分类级别进行分类存储的名词词汇;在具体实施例中,名词存储器330包含有若干名词词汇,如电力类、电子类和/或机械类等科技领域中常用的名词词汇。由于名词存储器330中包含若干科技领域中的词汇,一般所述主题词存储器320中的主题词汇均会在该名词存储器330中出现,即该名词存储器330中的词汇中至少包含有该主题词存储器320中的主题词汇。
[0040]处理单元310,则根据名词词汇对待分类文件中的文件词汇进行标引,以及对文件词汇进行统计分析获得文件主题词,并根据主题词汇检索文件主题词在主题词存储器320中所在的类别;并基于标引的结果以及所在的类别来确定待分类文件的最终类别。
[0041]为便于说明本发明的主旨,下面提供一具体实施例:
[0042]由于词汇本身的不确定性,词间存在着语义上的相似性,所以传统技术中简单地使用主题词汇检索的方法进行文件分类的缺点主要表现在以下几个方面:
[0043]a)对于同一对象,不同的人可能会使用不同的词汇进行描述;
[0044]b) 一个变形词往往与原词具有相同的语义,一般人不会刻意区分;
[0045]c)同一个词在不同的应用领域,可能会表达完全不同的语义;
[0046]d)同一个词在同一应用领域,不同的描述词类可能使其具有不同的语义。
[0047]针对这些情况,处理单元310采用如下方法对文件进行分类:
[0048]首先,针对不同领域的待分类文件,使用各自的、与该领域相对应的名词存储器330中分类别存储的名词词汇进行标引,这样就避免了同一词汇在不同的应
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1