对海量文档库的文档分类的方法

文档序号:6386513阅读:273来源:国知局
专利名称:对海量文档库的文档分类的方法
技术领域
本发明涉及计算机领域,具体而言,涉及一种对海量文档库的文档分类的方法。
背景技术
翻译参考文献库(以下简称参考库),是一个有海量文档的辅助翻译资源的文档库,用一般的相似性检索的方法对其按一定的行业、学科、领域进行分类,需要进行非常巨大的文本相似性匹配计算,耗费的时间和空间都是系统很难承受的。通过大型术语语料库对参考库中的文档进行术语数量的计算,可以对文档进行行业、学科、领域等属性的初步划分,所花费的字符串模式匹配计算大大少于进行文本相似性匹配计算的计算量。大型术语语料库是一个包含术语标注信息、具备多种索引结构的术语语料的大集合,其规模一般在百万到千万级别,大的可以到亿级。本方法需用到的标注信息有术语的行业、学科、领域信息,需用到的索引结构为字符顺序索引。通常要将参考库中的文档按行业、学科、领域的术语数量进行分类的方法,采用用术语库中的术语为关键词在文档中进行字符串匹配,得到每个文档的各行业、学科、领域的术语数量。由于参考库中的文档是一种未排序的散乱文本空间,用这种方式进行分类,需要用百万、千万乃至上亿计的术语为关键词,在海量的参考库文档中进行顺序匹配,这样耗费的时间也非常巨大(设术语语料库的术语数为n,参考文档库的文档数为m,其中文档的平均词语数为k,则其时间复杂度为ο (mXnXk)。),而且整个匹配过程要对参考库中的不同文档的相同词语要反复进行字符串匹配,匹配过程非常重复。

发明内容
本发明旨在提供一种对海量文档库的文档分类的方法,以解决采用术语匹配的方式对参考库的文档分类复杂、耗时较长的问题。在本发明的实施例中,提供了一种对海量文档库的文档分类的方法,包括确定文档库中所有文档的各个关键词、以及每个关键词与其所归属的各个文档的对应关系;将所述各个关键词逐个在术语库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词在其对应的每个文档所归属的行业类别属性;根据所述对应关系,确定每个文档包含相同的最多的行业类别属性;将归属最多的行业类别属性作为每个文档的分类。本发明采取一种反向匹配的思路进行对参考库的文档进行术语检索,即以参考库中(即文档库)中的所有词语作为关键词,在术语语料库中进行匹配,由于术语语料库是个具备字符顺序索引结构的集合,采用二分法在其中进行字符串匹配最多只需要l+log2n次匹配计算(η为术语语料库的术语数),即使在亿级的术语语料库中进行匹配,一个词语在术语语料库中的匹配次数也不超过30次。极大的减少了匹配的次数,简化了匹配过程,提高了对文档分类的效率,实现了海量文档的快速自动分类。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中图1示出了实施例的流程图;图2示出了另一个实施例的流程图。
具体实施例方式下面将参考附图并结合实施例,来详细说明本发明。参见图1,实施例的步骤包括Sll :确定文档库中所有文档的各个关键词、以及每个关键词与其所归属的各个文档的对应关系;S12 :将所述各个关键词逐个在术语库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词在其对应的每个文档中所归属的行业类别属性;S13 :根据所述对应关系,确定每个文档包含的相同的最多行业类别属性;S14 :最多的行业类别属性作为每个文档的分类。本发明采取一种反向匹配的思路进行对参考库的文档进行术语检索,即以参考库中(即文档库)中的所有词语作为关键词,在术语语料库中进行匹配,由于术语语料库是个具备字符顺序索引结构 的集合,采用二分法在其中进行字符串匹配最多只需要l+log2n次匹配计算(η为术语语料库的术语数),即使在亿级的术语语料库中进行匹配,一个词语在术语语料库中的匹配次数也不超过30次。极大的减少了匹配次数,简化了匹配过程,提高了对文档分类的效率,实现了海量文档的快速自动分类。优选地,在实施例中,对每个所述文档进行分词处理,去除停用词、无具体意义的词,得到所述各个关键词。优选地,还包括确定每个关键词在其所对应的每个文档出现的多个位置信息;其中,所述位置信息的数量等于该关键词在其所对应的每个文档的词频。通过该位置信息,可记录关键词在每个文档中出现的位置,当术语的词长L超过关键词时,可根据该位置后的关键词,与术语进行匹配,以确定该关键词在当前文档中所归属的行业类别属性。优选地,下面通过实施例具体说明上述实施例的步骤包括S21 :对参考库的所有文档进行文档编号,记为docID。S22:对参考库中的所有文档进行分词处理,去除其中的停用词,得到参考库的所有词语集合,对每个词语进行编号,记为wordID。每个词语即为关键词。S23 :计算每个词语在不同文档中出现的次数,即词频tf。S24 :计算每个词语在每个文档中出现的位置信息,即该词语是文档中的第几个词语。这样对于每个词语就得到了一个如下表I所示的词语表结构
表I
权利要求
1.一种对海量文档库的文档分类的方法,其特征在于,包括 确定文档库中所有文档的各个关键词、以及每个关键词与其所归属的各个文档的对应关系; 将所述各个关键词逐个在术语库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词在其对应的每个文档所归属的行业类别属性; 根据所述对应关系,确定每个文档包含相同的最多的行业类别属性; 将归属最多的行业类别属性作为每个文档的分类。
2.根据权利要求1所述的方法,其特征在于,对每个所述文档进行分词处理,去除停用词、无具体意义的词,得到所述各个关键词。
3.根据权利要求1所述的方法,其特征在于,还包括 确定每个关键词在其所对应的每个文档出现的多个位置信息;其中,所述位置信息的数量等于该关键词在其所对应的每个文档的词频。
4.根据权利要求3所述的方法,其特征在于,所述匹配过程包括 如果所述匹配到术语的词长L=I,则确定匹配成功。
5.根据权利要求4所述的方法,其特征在于,所述匹配过程还包括 如果所述匹配到术语的词长L > 1,则逐个遍历所述当前关键词对应的每个文档中的位置信息; 在遍历到当前文档的各个位置信息后,依次在该文档中提取姆个位置信息后的L-1个关键词; 将每次提取的L-1个关键词,与所述匹配到的词长L大于I的术语的后L-1个词语进行对应匹配。
6.根据权利要求5所述的方法,其特征在于,确定每个关键词在其对应的每个文档中所归属的行业类别属性; 如果提取的L-1个关键词,与所述匹配到的词长L大于I的术语进行匹配成功,则将该术语的行业类别属性作为所述当前关键词在其对应的所述当前文档中所归属的行业类别属性。
7.根据权利要求4所述的方法,其特征在于,采用二分法,将当前关键词在所述术语库中查找。
全文摘要
本发明提供了一种对海量文档库的文档分类的方法,包括确定文档库中所有文档的各个关键词、以及每个关键词与其所归属的各个文档的对应关系;将所述各个关键词逐个在术语库中匹配,将每个关键词匹配的术语的行业类别属性,作为该关键词在其对应的每个文档所归属的行业类别属性;根据所述对应关系,确定每个文档包含相同的最多的行业类别属性;将归属最多的行业类别属性作为每个文档的分类。本发明采取一种反向匹配的思路进行对参考库的文档进行术语检索,由于术语语料库是个具备字符顺序索引结构的集合,采用二分法在其中进行字符串匹配最多只需要1+log2n次匹配计算,极大的减少了匹配次数,简化了匹配过程,提高了对文档分类的效率。
文档编号G06F17/30GK103049568SQ20121059309
公开日2013年4月17日 申请日期2012年12月31日 优先权日2012年12月31日
发明者江潮 申请人:武汉传神信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1