文档的分类方法和装置与流程

文档序号:11864890阅读:195来源:国知局
文档的分类方法和装置与流程

本发明涉及计算机技术领域,特别是涉及一种文档的分类方法和一种文档的分类装置。



背景技术:

Internet中信息的爆炸式增长为信息的管理和使用带来了不便。为了揭示隐藏在Web数据之后具有潜在价值的信息或结构,近年来Web数据挖掘技术取得了较快的发展和广泛的应用。文档聚类是Web数据挖掘领域中最重要的工具之一。其中,现有技术中的文档聚类方法主要包括K-means、层次聚类法等。

但是,现有技术中的文档聚类方法仍然存在以下诸多问题:在对文档分类时并未考虑文档中词语在特定语境下的上下文信息,因此,使得到的分类文档在语义理解度和语义识别度上都普遍较低,不便于解读;此外,在对聚类树(dendrogram)进行切割时,现有技术中的文档聚类方法只能在相同高度处进行切割,且需要预先人为指定文档的分类个数,从而使得不同类别文档之间所包含的文档个数差异较大且极不平衡,无法实现对文档的动态合理分类。

由此可见,现有技术中的文档聚类方法在对文档分类时普遍存在着语义理解度较低、语义识别度较低以及文档分类不合理的问题。



技术实现要素:

本发明实施例所要解决的技术问题是提供一种文档的分类方法和装置,以解决现有技术中的文档聚类方法在对文档分类时普遍存在着语义理解度较低、语义识别度较低以及文档分类不合理的问题。

为了解决上述问题,根据本发明的一个方面,本发明公开了一种文档的分类方法,包括:

通过训练深度神经网络语言模型将待分类文档中的每个分词转换为向量;

通过对向量聚类生成相似分词集合,其中,每个相似分词集合表示一个特征;

根据特征的集合将待分类文档转换为特征频率逆文档矩阵;

通过计算任意两个待分类文档的向量间的相似度,将特征频率逆文档矩阵转换为层次聚类树;

基于预设的终止条件对层次聚类树在不同高度进行动态切割,得到分类文档。

根据本发明的另一方面,本发明还公开了一种文档的分类装置,包括:

第一转换模块,用于通过训练深度神经网络语言模型将待分类文档中的每个分词转换为向量;

聚类模块,用于通过对向量聚类生成相似分词集合,其中,每个相似分词集合表示一个特征;

第二转换模块,用于根据特征的集合将待分类文档转换为特征频率逆文档矩阵;

第三转换模块,用于通过计算任意两个待分类文档的向量间的相似度,将特征频率逆文档矩阵转换为层次聚类树;

切割模块,用于基于预设的终止条件对层次聚类树在不同高度进行动态切割,得到分类文档。

与现有技术相比,本发明实施例包括以下优点:

本发明实施例的文档分词的特征化借助于深度神经网络模型,并将相似分词的向量聚类,以聚类得到的特征为基础进行后续的分类处理,在文档分类时考虑到了分词在特定语境中的上下文信息,从而使得每类文档的语义理解度和语义识别度都较高;此外,本发明实施例基于预设的终止条件来对层次聚类树进行不同高度的切割,避免了每类文档中文档个数差异大的问题,能够动态地根据子类文档所包含的文档数量进行动态的分类,使得文档的分类更加合理。

进一步的,本发明实施例利用深度模型考虑到上下文词语顺序的信息,使得特征表述的效果得到明显改善;利用深度神经网络语言模型与命名实体的特征组合,聚类得到特定语境下的相似词组构成的特征集合,区别于现有技术中没有考虑到文档子类别所描述对象的关系的问题;通过将相似分词和中文命名实体均进行特征化,使得每类文档内的文档能够在语境和语义上相近,分类效果好;此外,基于特征的集合来生成特征频率逆文档矩阵,使得矩阵中每列的数据为一个特征,即相似词组的集合,使得文档的分类结果与分词的实际语境相关联;并且,特征频率逆文档矩阵中的每个元素值为每个文档在某一个特征下的权重值,使得最后的每类文档均包含相似语境下的文档,使得文档的分类更加合理,便于人理解和解读。

附图说明

图1是本发明的一种文档的分类方法实施例的步骤流程图;

图2是本发明的另一种文档的分类方法实施例的步骤流程图;

图3是本发明的一种层次聚类树的动态分割方法实施例的步骤流程图;

图4是本发明的又一种文档的分类方法实施例的步骤流程图;

图5是本发明的一种文档的分类装置实施例的结构框图;

图6是本发明的另一种文档的分类装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一在于,本发明实施例的文档分词的特征化借助于深度神经网络模型,并将相似分词的向量聚类,以聚类得到的特征为基础进行后续的分类处理,在文档分类时考虑到了分词在特定语境中的上下文信息,从而使得每类文档在语义理解度和语义识别度上均较高;此外,本发明实施例基于预设的终止条件来对层次聚类树进行不同高度的切割,避免了每类文档中文档个数差异大的问题,能够动态地根据子类文档所包含的文档数量进行动态的分类,使得文档的分类更加合理。

参照图1,示出了本发明的一种文档的分类方法实施例的步骤流程图,具体可以包括如下步骤:

步骤101,通过训练深度神经网络语言模型将待分类文档中的每个分词转换为向量;

其中,可以基于语料训练深度神经网络语言模型(如word2vec),来将需要分类的多个文档(如doc1、doc2、doc3……等)中的每个分词描述为一维词向量,得到词向量构成的词典。

步骤103,通过对向量聚类生成相似分词集合,其中,每个相似分词集合包括表示相同特征的多个向量;

其中,可以将词典中的所有词向量聚类来得到一些相似词组构成的集合。其中,由于每个集合中所包含的词组是相似的,因此,为了便于理解,可以将每个集合表示为一个特征,这样就得到了由多个特征构成的集合。

步骤105,根据特征的集合将待分类文档转换为特征频率逆文档矩阵;

其中,经过上述步骤101和步骤103,已经将多个文档转换为特征的集合,这里就可以基于特征的集合来将多个文档转换为特征频率逆文档矩阵TFIDF-feature。其中,TFIDF-feature类似于传统的文档逆词频矩阵TFIDF,区别在于本发明实施例的TFIDF-feature是基于特征的集合来形成的,因此,矩阵中每行或者每列代表一个特征,即一些相似词组的集合,而非现有技术TFIDF矩阵中每行或每列代表单一的词。其中,TFIDF为:TF*IDF,TF表示词频(Term Frequency),TF表示词条在文档d中出现的频率;IDF表示逆向文件频率(Inverse Document Frequency)。

步骤107,通过计算所述特征频率逆文档矩阵中任意两个待分类文档的向量间的相似度,将特征频率逆文档矩阵转换为层次聚类树;

其中,可以计算特征频率逆文档矩阵TFIDF-feature中任意两个文档doc的向量间的相似度,基于计算结果来将特征频率逆文档矩阵中对应两个文档doc的向量聚合,以此将特征频率逆文档矩阵转换。

步骤109,基于预设的终止条件对层次聚类树在不同高度进行动态切割,得到分类文档。

其中,可以基于预设的终止切割条件来对生成的层次聚类树在不同高度处进行动态切割,从而得到多个子树,即多类文档,实现了多个文档的合理分配。

借助于本发明上述实施例的技术方案,本发明实施例的文档分词的特征化借助于深度神经网络模型,并将相似分词的向量聚类,以聚类得到的特征为基础进行后续的分类处理,在文档分类时考虑到了分词在特定语境中的上下文信息,从而使得每类文档在语义理解度和语义识别度上均较高;此外,本发明实施例基于预设的终止条件来对层次聚类树进行不同高度的切割,避免了每类文档中文档个数差异大的问题,能够动态地根据子类文档所包含的文档数量进行动态的分类,使得文档的分类更加合理。

参照图2,示出了本发明的另一种文档的分类方法实施例的步骤流程图,具体可以包括如下步骤:

步骤101a,对待分类文档作分词处理,得到每个待分类文档所包含的分词集合;

其中,可以对多个文档doc1、doc2、doc3分别作分词处理,这样每个文档都对应一个分词集合,得到多个分词集合。

步骤101b,通过训练深度神经网络语言模型将待分类文档中的每个分词转换为向量;

其中,可以基于语料(即待分类文档doc1、doc2、doc3)训练Word2vec来将doc1、doc2、doc3的每个分词word1、word2、word3…wordm分别转换为长度为d的一维正实数向量wi(i=1,2,…m),其中,m为语料中分词的总个数;

其中,向量的长度d可以基于语料中分词的总个数来确定,具体而言,相比于文档包含的分词的总个数(总单词数目可能上万),深度神经网络模型训练得到的分词向量,可以将高维空间(上万的维度)转换为一个表述紧密的低纬度向量(如200维等)。因此,维度的确定和总的分词个数相关,在实际应用中可以将向量的长度设置为几百维。

步骤103a,对向量聚类,将聚类结果小于预设差异值的向量作为一个相似分词集合,其中,集合包括相似语境下的多个向量,每个相似分词集合表示一个特征;

其中,可以通过聚类方法来对多个向量wi聚类来得到聚类结果,并将聚类结果和预设差异值(例如1.2)作比较,在该聚类结果小于1.2时,则将该聚类结果内的向量作为一个相似分词集合。这样就得到了多个相似分词集合的特征。

步骤103b,将待分类文档中从属不同命名实体类的分词分别替换为不同的实体集合,其中,每个实体集合表示一个特征;

其中,可以将待分类文档中的中文命名实体如时间、姓名、组织和地理信息类的分词分别进行特征化,得到多个不同命名实体类的特征。

步骤105,根据特征的集合将待分类文档转换为特征频率逆文档矩阵;

其中,可以将深度神经网络语言模型的多个相似分词集合的特征和多个不同命名实体类的特征,合并成为特征工程得到的特征集合。

那么在得到特征集合后,就可以根据该特征集合来将待分类文档转换为特征频率逆文档矩阵,其中,该特征频率逆文档矩阵为m*n阶的特征频率逆文档矩阵,其中,m为待分类文档的数量,n为特征的数量,并且,特征频率逆文档矩阵中的每个x行y列的元素(x,y)表示该待分类文档x在该特征y中的权重值。

当然,在不同的实施例中,该特征频率逆文档矩阵中的m也可以是特征的数量,n则为待分类文档的数量。

步骤107a,计算特征频率逆文档矩阵中任意两个待分类文档的向量间的余弦相似度;

步骤107b,通过将余弦相似度最大的两个待分类文档的向量聚合来生成层次聚类树;

其中,可以计算特征频率逆文档矩阵中任意两个文档doc的向量间的相似度,将相似度最高的两个文档的向量聚合,生成新的向量;然后再计算新的向量与剩下的文档的向量中任意两组向量间的相似度,仍旧将相似度最高的两组向量聚合,以此类推,从而将特征频率逆文档矩阵转换为层次聚类树。

步骤109,基于预设的终止条件对层次聚类树在不同高度进行动态切割,得到分类文档。

借助于本发明上述实施例的技术方案,本发明利用深度模型考虑到上下文词语顺序的信息,使得特征表述的效果得到明显改善;利用深度神经网络语言模型与命名实体的特征组合,聚类得到特定语境下的相似词组构成的特征集合,区别于现有技术中没有考虑到文档子类别所描述对象的关系的问题;通过将相似分词和中文命名实体均进行特征化,使得每类文档内的文档能够在语境和语义上相近,分类效果好;此外,基于特征的集合来生成特征频率逆文档矩阵,使得矩阵中每列的数据为一个特征,即相似词组的集合,使得文档的分类结果与分词的实际语境相关联;并且,特征频率逆文档矩阵中的每个元素值为每个文档在某一个特征下的权重值,使得最后的每类文档均包含相似语境下的文档,使得文档的分类更加合理,便于人理解和解读。

在另一个实施例中,对于上述实施例中的步骤109基于预设的终止条件对层次聚类树在不同高度进行动态切割,得到分类文档的具体实现,参照图3,示出了本发明的一种层次聚类树的动态分割方法实施例的步骤流程图,具体可以包括如下步骤:

步骤301,对所述层次聚类树,从根节点开始进行二分切割,得到两个子树;

其中,由于在生成层次聚类树时,采用的是将特征频率逆文档矩阵中两两文档的向量聚合的方式来形成的,因此,层次聚类树为二叉树,那么通过对该层级聚类树从父节点开始进行二分切割,就可以得到两颗子树。

步骤303,分别计算每个子树的高度以及所包含的文档数量;

其中,每颗子树的高度为每颗子树所包含文档间的不相似度;而每颗子树所包含的文档,则可以通过计算每颗子树所包含的节点的数量的方式来确定。

步骤305,对于每个子树,判断该子树的高度是否符合第一预设终止条件;

其中,对于每个子树,可以判断该子树的高度是否小于或等于预设终止高度,如果为是,则符合,否则为不符合。

步骤307,对于每个子树,判断该子树所包含的文档数量是否符合第二预设终止条件;

其中,对于每个子树,判断该子树所包含的文档数量是否小于或等于预设终止数量,如果为是,则符合,否则为不符合。

步骤309,对于每个子树,在判断该子树的高度符合所述第一预设终止条件或者该子树所包含的文档数量符合所述第二预设终止条件时,停止对该子树继续执行所述二分切割步骤301;

步骤311,对于每个子树,在判断该子树的高度不符合所述第一预设终止条件并且该子树所包含的文档数量也不符合所述第二预设终止条件时,则继续对该子树从根节点循环执行所述步骤301~步骤311。

其中,在对任意一个子树都停止执行所述二分切割步骤时,此时,子树的总数量就是分类文档的数量(即待分类文档的划分类别数量),其中,每类分类文档所包含的文档数量即为最终不再进行任何子树的二分切割时,每个子树所包含的所有节点的数量。

借助于本发明上述实施例的技术方案,本发明通过动态切割树策略在不同高度处切割得到子树,基于对二叉树的遍历和预先确定的终止条件的阈值,可以对深层次的子树进行有效分割,文档分类效果均衡。

为了更好的理解本发明的上述技术方案,下面结合一具体实施例来对本发明的上述技术方案进行详细阐述。

参照如图4,示出了本发明的又一种文档的分类方法实施例的步骤流程图,具体可以包括如下步骤:

步骤401,输入n个待聚类的文档Di{i=1,2,…n}(例如,doc1、doc2、doc3……docn),并进行分词预处理,得到训练语料;

步骤403a,通过对n个待聚类文档的分词进行特征工程,得到word2vec深度神经网络的特征簇;

具体而言,首先,训练word2vec模型,将训练语料中的每个分词表示为一个长度为d的一维正实数向量wi(i=1,2,…m)(m为训练语料中分词的个数);根据这些代表分词的向量wi聚类生成T个相关词组的集合Fi{wj…}(i=1,2,…T),每个生成的集合Fi代表了一个特征,集合中包含了相似语境下的若干个分词{word1,word2,…}的向量。

步骤403b,通过对n个待聚类文档进行特征工程,得到NER实体识别的特征簇;

具体而言,利用命名实体识别NER将n个待聚类文档中的姓名词组统一替换为特征PERSON,如包含{name1,name2,…};将地点词替换为LOCATION,如包含{loc1,loc2,…}等。

最后,将深度网络模型的特征簇和NER命名实体的特征簇合并,得到Fi(i=1,2,…,T+2)并作为分析文本的特征集合。

步骤405,根据特征集合,生成文档词向量矩阵;

具体而言,根据生成的特征集合Fi(i=1,2,…,T+2),将文档的集合Di{i=1,2,…n}转化为逆特征频率的TfIdf-feature矩阵。该矩阵和传统的TfIdf矩阵的区别是:传统的TfIdf矩阵的每一列仅代表一个词,而本实施例使用的TfIdf矩阵中每列代表一个特征集合,是包含特定语境下相近的多个词的集合,并非单一的词。矩阵中每个实数向量表示每个文档在某一特征下的分布,每列的数值代表该文档在特征集合下的权重值。

举例来说,分词“电影”在文档D1中出现过两次,而“电影”在10个文档中出现过,那么,文档D1的分词“电影”在TfIdf-feature矩阵中的权重值就是2*1/10。

步骤407,对特征集合的矩阵聚类,生成层次聚类树;

其中,生成层次聚类树的方法可以描述为:在初始状态下,将待聚类的N个对象划分为N个类别,每次迭代:通过计算子类间的余弦相似度得到类间的距离,合并距离最相近的两个类别。重复迭代直到所有N个对象均合并为一个类别。其中,合并的过程构成了一个层次聚类树。

具体而言,可以基于余弦(Cosine)相似度来计算任意两文档di和dj间的向量相似度,例如:Similarity(di,dj)=cosine(vi,vj),其中,vi和vj为di和dj文档在TfIdf-feature矩阵中对应行的向量数据;然后,根据相似度距离(即1-Similarity(di,dj),不相似度)生成层次聚类的层次聚类树。

步骤409,运用动态切割策略,对层次聚类树进行切割。

对于任意一颗树Tk,其二叉树的两颗子树分别记做Tk1和Tk2,对其进行二分切割;切割后分别计算每颗子树的高度hk1和hk2,并判断两颗子树是否满足两个终止条件中任意一个:或者Nki≤Nmin(i=1,2);若满足以上两个条件的任意一个则终止该子树的遍历切割,若未达到终止条件的则继续对该子树Tki进行切割,递归运用该策略。终止条件达到后递归停止,共生成K*个子类别,每个子树的高度的向量为(h1,h2,…,hK*),子集内包含的文档个数分别为{N1,N2,…,NK*}。以上参数均满足条件hk≤或Nk≤Nmin;那么当终止条件达到,即任意一个子树都不再被切割时,待聚类文档的集合Di{i=1,2,…n}被切割为K*个子类别Ck{k=1,2,…K*},每个子类别Ck内分别含有Nk个文档,文档的集合即为被切割的子树包含的所有节点。

此外,在另一个实施例中,在完成对所有子树的切割后,还可以基于中文语义对切割的子树进行合并从而生成语义相近并且理解识别程度高的分类文档。

在现有技术中在对层次聚类树进行切割时,都是预先确定子类的个数K或在相同的树高度height处进行切割。这个切割策略的缺点是切割生成的K个子类别中的子类个数Nk(k=1,2,..K)差异极大。而本实施例的动态切割树策略则是基于对二叉树的遍历和预先确定的终止条件的阈值(包括子树高度的阈值达到或者子类别个数达到Nmin)在不同高度处切割得到子树,提升子树的切割效果,使文档分类效果明显;并且本发明实施例会在动态切割树的基础上根据描述对象的命名实体如:人名PERSON,组织ORGANIZATION等对新生成的子类别进行语义上的合并,增加文档聚类的可理解性。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。

参照图5,示出了本发明一种文档的分类装置实施例的结构框图,具体可以包括如下模块:

第一转换模块51,用于通过训练深度神经网络语言模型将待分类文档中的每个分词转换为向量;

聚类模块52,用于通过对向量聚类生成相似分词集合,其中,每个相似分词集合包括表示相同特征的多个向量;

第二转换模块53,用于根据特征的集合将待分类文档转换为特征频率逆文档矩阵;

第三转换模块54,用于通过计算所述特征频率逆文档矩阵中任意两个待分类文档的向量间的相似度,将特征频率逆文档矩阵转换为层次聚类树;

切割模块55,用于基于预设的终止条件对层次聚类树在不同高度进行动态切割,得到分类文档。

借助于本发明实施例的上述技术方案,发明实施例的文档分词的特征化借助于深度神经网络模型,并将相似分词的向量聚类,以聚类得到的特征为基础进行后续的分类处理,在文档分类时考虑到了分词在特定语境中的上下文信息,从而使得每类文档在语义理解度和语义识别度上均较高;此外,本发明实施例基于预设的终止条件来对层次聚类树进行不同高度的切割,避免了每类文档中文档个数差异大的问题,能够动态地根据子类文档所包含的文档数量进行动态的分类,使得文档的分类更加合理。

在另一个实施例中,参照图6,示出了本发明另一种文档的分类装置实施例的结构框图,具体还可以包括如下模块:

分词模块50,用于对待分类文档作分词处理,得到每个待分类文档所包含的分词集合;

第一转换模块51和图5所示实施例的第一转换模块51相同,在此不再赘述;

聚类模块52,用于对向量聚类,将聚类结果小于预设差异值的向量作为一个相似分词集合,其中,相似分词集合包括相似语境下的多个向量,每个相似分词集合表示一个特征;

替换模块56,用于将待分类文档中从属不同命名实体类的分词分别替换为不同的实体集合,其中,每个实体集合表示一个特征;

第二转换模块53,和图5所示实施例的第二转换模块53相同,在此不再赘述;

其中,特征频率逆文档矩阵为m*n阶的特征频率逆文档矩阵,其中,m为待分类文档的数量,n为特征的数量;并且,特征频率逆文档矩阵中的每个元素表示该待分类文档在该特征下的权重值。

第三转换模块54包括如下子模块:

第一计算子模块54a,用于计算特征频率逆文档矩阵中任意两个待分类文档的向量间的余弦相似度;

聚合子模块54b,用于将所述特征频率逆文档矩阵中余弦相似度最大的两个待分类文档的向量聚合生成层次聚类树;

切割模块55包括如下子模块:

切割子模块55a,用于对所述层次聚类树,从根节点开始进行二分切割,得到两个子树;

第二计算子模块55b,用于分别计算每个子树的高度以及所包含的文档数量;

第一判断子模块55c,用于对于每个子树,判断该子树的高度是否符合第一预设终止条件;

其中,所述第一判断子模块55c,用于对于每个子树,判断该子树的高度是否小于或等于预设终止高度,如果为是,则符合,否则为不符合;

第二判断子模块55d,用于对于每个子树,判断该子树所包含的文档数量是否符合第二预设终止条件;

其中,所述第二判断子模块55d,用于对于每个子树,判断该子树所包含的文档数量是否小于或等于预设终止数量,如果为是,则符合,否则为不符合。

停止子模块55e,用于对于每个子树,在判断该子树的高度符合所述第一预设终止条件或者该子树所包含的文档数量符合所述第二预设终止条件时,停止对该子树继续执行所述二分切割;

所述切割子模块55a,用于对于每个子树,在判断该子树的高度不符合所述第一预设终止条件并且该子树所包含的文档数量也不符合所述第二预设终止条件时,继续对该子树从根节点开始执行所述二分切割;

其中,在对任意一个子树都停止执行所述二分切割步骤时,所生成的子树的总数量为所述分类文档的数量。

确定模块57,用于基于待分类文档的分词的总个数确定向量的长度。

其中,分类文档的数量为在对任意一个子树均停止二分切割时,所生成子树的总数量,其中,每类分类文档所包含的文档数量为每个子树所包含的所有节点的数量。

借助于本发明上述实施例的技术方案,本发明利用深度模型考虑到上下文词语顺序的信息,使得特征表述的效果得到明显改善;利用深度神经网络语言模型与命名实体的特征组合,聚类得到特定语境下的相似词组构成的特征集合,区别于现有技术中没有考虑到文档子类别所描述对象的关系的问题;通过将相似分词和中文命名实体均进行特征化,使得每类文档内的文档能够在语境和语义上相近,分类效果好;此外,基于特征的集合来生成特征频率逆文档矩阵,使得矩阵中每列的数据为一个特征,即相似词组的集合,使得文档的分类结果与分词的实际语境相关联;并且,特征频率逆文档矩阵中的每个元素值为每个文档在某一个特征下的权重值,使得最后的每类文档均包含相似语境下的文档,使得文档的分类更加合理,便于人理解和解读。

对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种文档的分类方法和一种文档的分类装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1