文件分类装置及方法_2

文档序号：8934992阅读：来源：国知局

用领域可能出现的不同语义的问题；其次，按词汇的词类，如动词、名词、修饰词等对文件词汇进行标引，从而将文件词汇划分为多个，从而解决了由于文件词汇词类不同而导致的词汇语义上的混淆；再次地，可利用文件词汇与名词词汇之间的属分关系和英汉对照关系对该文件词汇进行标引。
[0049]其次，由于文件类目中不同的主题词在文件匹配时的地位是不同的，其差异主要表现为主题词反映类目的程度是不同和主题词在不同类目中出现的频率的不同。所以文件分类中往往都需要给各个类目中的各主题词赋予一个权重来描述这些差异。该差异不仅与人对其的主观评价有关，而且与其在实际使用中被使用的频率有关。若用Wil和Wi2分别表示这两方面的权重，则有
[0050]Wi = f (Wil,ffi2)；
[0051]其中:i= 1，2，3，4，5……，n;
[0052]f是主题词权重Wi与各个分量Wil、Wi2之间的函数关系。
[0053]按照主题词的相对重要程度，Wil分别对应于“不重要”、“一般”、“较重要”、“重要”四个级别，由使用者根据自身经验和对类目表的理解确定Wil的初值。在日后的使用以及分类过程中，处理单元310依据使用者的使用经验和对类目表的理解，即主题词反映类目的程度不同不断地对Wil对应的级别进行修正，例如:处理单元310依据文件中的某一词汇与主题词存储器中主题词汇的相似度，判断该词汇是否对该主题词汇在主题词存储器中所在的存储位置(即类目)具有提示性，对具有提示性的词汇提高其Wil的级别；又例如:根据主题词汇，抽取文件词汇中与其最相似的词汇作为主题词；若不存在这样的词汇，则综合利用多种特征计算文件词汇的重要性(此处为传统技术不赘述)，将得分最高的词汇作为文件主题词，同时处理单元310相应的提高其级别，即将Wil的初值由“较重要”变更为“重要”；
[0054]Wi2则反映了在已经确定的分类(已经分过类的文件集)条件下，各主题词被使用的频率及被错误使用的频率，因此Wi2对原有分类的结果比较敏感。
[0055]—般而言，传统技术中衡量文件分类系统性能的指标主要有选中率、多项选择率、误选率、失败率这四个指标；其中，
[0056]选中率是指文件分类装置自动将文件正确分类的文件数与总文件数的比率，用a表示，即a =正确分类的文件数/测试文件数；
[0057]多项选择率是指需要经过用户从备选类目组中进行选择才能确定分类的文件数与总文件数的比率，用b来表示，即b =多项选择的文件数/测试文件数；
[0058]误选率是指被系统自动地错误分类的文件数与总文件数的比率，用c来表示，即c=错误分类的文件数/测试文件数；
[0059]失败率是指系统自动分类失败的文件数与总文件数的比率，用d来表示，即d =分类失败的文件数/测试文件数。
[0060]由以上对各指标的定义可知，a+b+c+d = I。理论上，a越大b、c、d相对就越小，分类装置的性能就越好。
[0061]而从本发明文件分类装置的实际使用情况表明，本发明的分类装置在刚开始使用时，选中率比较低，一般情况为40%左右，而误选率c和多项选择率b也较低，失败率d较高。但本发明的分类装置在实际使用过程中会随着使用者在使用过程中的不断优化，具体即处理单元310根据待分类文件的文件主题词反映文件类目的程度以及使用者的使用频率，不断更新主题词存储器中储存的主题词的级别Wil的初值以及Wi2，使得选中率a将不断增大，可达到60%甚至大于60%，多项选择率b也将增大至30% -60%左右，而误选率c幅度变化不大，失败率d则迅速下降。
[0062]最后，处理单元310根据上述统计分析得出权重最大的词汇，然后从主题词存储器320中检索该词汇在主题词存储器320中存储的位置，从而得到该文件的类别，综合名词存储器330所得到的标引结果得到该文件的最终类别。
[0063]即处理单元310根据名词存储器330中的名词词汇对文件词汇进行标引，然后根据处理单元310对文件词汇进行统计分析和权重划分获取权重最大的词汇作为文件主题词，并依据主题词存储器320中的主题词汇来检索文件主题词所在的类别，基于上述两种结果来确定该文件的最终类别，并将该文件存储于文件存储器20中对应的类别之列，并最终将所需信息反馈给所述终端10。
[0064]处理单元310进一步用于接收终端10发出的指示信号，根据指示信号读取主题词存储器320和名词存储器330中相对应的词条数据，再根据词条数据对文件存储器20中储存对应的分类数据进行查找读取，并反馈给终端10。
[0065]如图2所示，文件存储器20包括:数据存储器210和文件检索库220，其中:
[0066]数据存储器210，与处理单元310相连接，用于存储文件分类数据，并接收处理单元310查找与其对应的文件分类数据，将该文件分类数据发送给处理单元310 ;
[0067]文件检索库220，与所述处理单元310相连接，用于存储索引数据，并接收处理单元310查找与其对应的索引数据，将该索引数据发送给处理单元310。
[0068]为了能够扩充文件的内容和方便以后对文件的读取，本发明提供的文件分类装置中的终端10与处理器30连接，用于将网络资源或者其他各种资源服务器中下载文件，或者自身也能够存储文件，并将该文件传送至处理单元310中进行分类处理，方便用户对信息的查找。
[0069]该终端10还用于对存储后的文件进行查询，为了能够从文件存储器20中方便、快捷地读取用户想要的文件，该终端10通过处理单元310分别与文件存储器20中的数据存储器210和文件索引库220连接。当客户需要某些文件时，该终端10根据文件索引库220中的文件信息找到该文件的存放位置、学科领域等信息，并根据该文件信息于数据存储器210中读取文件数据。当然，所述终端10可以为服务器终端和/或计算机终端，在此不作出限定。
[0070]本发明文件分类方法实施例1:
[0071]图3为本发明文件分类方法实施例1的流程图。如图所示，本发明的文件分类方法实施例1具体包括以下步骤:
[0072]步骤S310:调用以分类级别进行分类存储的名词词汇对待分类文件中的文件词汇进彳丁标引；
[0073]步骤S320:对文件词汇进行统计分析获得文件主题词；
[0074]步骤S330:调用以分类级别进行分类存储的主题词汇检索文件主题词对应的分类级别以确定待分类文件的类别；
[0075]步骤S340:基于标引的结果以及类别确定待分类文件的最终类别。
[0076]在具体实施例中，主题词存储器中放置有科技文献中常用的若干关键主题词汇，如电力行业中的交流电、电力输变等主题词汇。这些主题词汇均按照一定结构、一定类别进行分类设置并存储。如将若干主题词汇分成八个大类，每个大类下再设置若干小类，在每个类别下又可以设置若干主题词汇。
[0077]在具体实施例中，名词存储器包含有若干名词词汇，如电力类、电子类和/或机械类等科技领域中常用的名词词汇。由于名词存储器中包含若干科技领域中的词汇，一般所述主题词存储器中的主题词汇均会在该名词存储器中出现，即该名词存储器中的词汇中至少包含有该主题词存储器中的主题词汇。
[0078]为便于说明本发明方法实施例1步骤S320的流程，下面提供一具体实施例:
[0079]由于词汇本身的不确定性，词间存在着语义上的相似性，所以传统技术中简单地使用主题词汇检索的方法进行文件分类的缺点主要表现在以下几个方面:
[0080]a)对于同一对象，不同的人可能会使用不同的词汇进行描述；
[0081]b) 一个变形词往往与原词具有相同的语义，一般人不会刻意区分；
[0082]c)同一个词在不同的应用领域，可能会表达完全不同的语义；
[0083]d)同一个词在同一应用领域，不同的描述词类可能使其具有不同的语义。
[0084]针对这些情况，处理单元310采用如下方法对文件进行分类:
[0085]首先，针对不同领域的待分类文件，使用各自的、与该领域相对应的名词存储器中分类别存储的名词词汇进行标引，这样就避免了同一词汇在不同的应用领域可能出现的不同语义的问题；其次，按词汇的词类，如动词、名词、修饰词等对文件词汇进行标引，从而将文件词汇划分为多个，从而解决了由于文件词汇词类不同而导致的词汇语义上的混淆；再次地，可利用文件词汇与名词词汇之间的属分关系和英汉对照关系对该文件词汇进行标引。
[0086]其次，由于文件类目中不同的主题词在文件匹配时的地位是不同的，其差异主要表现为主题词反映类目的程度是不同和主题词

完整全部详细技术资料下载

当前第2页1 2 3