一种基于局部敏感哈希的分布式快速文本分类方法_2

文档序号：9432613阅读：来源：国知局

如图2所示。再根据词频，计算出tf值与i壯值，计算公式如下：
[0018]
[0019] 其中，f(w，d)表示词语W在文本d中的词频，V表示该文本中出现最频繁的词语。
[0020]
[0021] 其中，|D|表示文本集中的文本总数，I{wGd，dGD}I为包含词语W的文本数，分母可W处理IIwGd，dGD}I为0的情况。
[0022] 基于每个词语的tf值与i壯值，计算出每个词语的tfi壯值，计算公式如下：
[0023] tfi壯(…，的=tf(W，d)Xidf…,D
[0024] 进而将每个词语的tfi壯值存储在畑D(tfi壯）之中。
[0025] 步骤3,提取文本及分类的特征向量及局部敏感哈希值。根据步骤2所提供的 RDD(tfi壯）值及每个词语的n比特哈希值，计算每个类别的n比特类别向量及哈希值。首先，对于RDD(tfi壯）中的每一行x(文本），遍历X中的每一个元素y(词语），如果其tfi壯值大于0,计算其n位哈希值hy。其次，遍历hy，如果其为1，将其所属类别向量的对应位数加上y的tfi壯值；否则，将其所属类别向量的对应位数减去y的tfi壯值。最终得到该类别的n维特征向量V。。最后，遍历V。，如果其大于0,则将该类别的n位哈希值的对应位置于1，否则置为0,最终得到该类别的n比特哈希值h。。
[0026] 步骤4,计算文本所属类别。依次计算待分类文本的特征向量或哈希值与所有类别特征向量或哈希值的相关性，选择相关性最高的类别作为该待分类文本的类别。若基于特征向量计算二者之间的相关性，该方法的准确度较高，但速度较慢；反之，准确度较低，但速度较快。
[0027] 对于特征向量，该相关性可采用任意相关性或相似性度量方法，本专利W皮尔森相关系数（PCC)为例进行阐述，PCC计算公式表述如下：
[0028]
[0029] 其中，Vx与Vm分别表示待分类文本X和类别m的特征向量，Vx,康示Vx的第i个特征，唔表示V、所有特征的平均值。
[0030] 对于哈希值，该相关性采用汉明距离度量，汉明距离是度量01比特流最直观的方法，汉明距离计算公式表述如下：
[0031]
[0032] 其中hx山与hm[i]分别表示待分类文本X和类别m的第i比特哈希值，巧表示异或运算。
【主权项】
1. 一种基于局部敏感哈希的分布式快速文本分类方法，其特征在于：包括以下步骤：步骤1，对文本进行预处理；首先依次对文本进行分词、去停用词，以及存储为HDFS文件等操作，然后将所有文本加载到弹性分布式数据集；步骤2,计算每个词语的η比特哈希值，并根据词频，通过RDD的变换，计算词语的 tfidf值，并存储在RDD(tfidf)之中；步骤3,根据训练数据集中每个类别下所有文本的词语tfidf值及η比特哈希值，计算每个类别的η比特类别向量及哈希值；步骤4,基于η比特哈希值，计算待分类文本与每个类别的匹配度，得到文本所属类别。2. 根据权利要求1所述的基于局部敏感哈希的分布式快速文本分类方法，其特征在于：在预处理文本阶段，对每个文本进行分词操作，并在RDD中用每一行表征一个文本。3. 根据权利要求1所述的基于局部敏感哈希的分布式快速文本分类方法，其特征在于：在计算词语的哈希值时，可根据实际应用环境的性能需求：算法执行时间与分类准确度，选择不同的哈希比特位数。4. 根据权利要求1所述的基于局部敏感哈希的分布式快速文本分类方法，其特征在于：在计算词语的tfidf?值时，采用哈希映射的方法，将所有的文本特征分别映射到2 16维的向量中，从而方便特征的快速哈希和查找；该tfidf值的计算基于Spark并行框架，计算完成之后存储与RDD (tfidf)中，具体步骤为： 1) 基于RDD中存储的切词后的文本，统计每个词语的词频，然后计算其tf值，公式表述如下：其中，f(w，d)表示词语W在文本d中的词频，V表示该文本中出现最频繁的词语； 2) 计算每个词语的idf值，公式表述如下：其中，|DI表示文本集中的文本总数，I {w e d，d e D} I为包含词语W的文本数，分母可以处理I {w e d, d e D} I为O的情况； 3) 计算tfidf值，公式表述如下： tfidf(w，D)= tf(w，d) Xidfw, d〇5. 根据权利要求1所述的基于局部敏感哈希的分布式快速文本分类方法，其特征在于：每个类别的特征向量及哈希值通过RDD(tfidf)进行变换获得，该特征向量的维度及哈希值的比特数变量n，具体步骤为： 1) 对于RDD (tfidf)中的每一行X (文本），遍历X中的每一个元素 y (词语），如果其 tfidf值大于0,计算其η位哈希值hy; 2) 遍历hy，如果其为1，将其所属类别向量的对应位数加上y的tfidf值；否则，将其所属类别向量的对应位数减去y的tfidf值；最终得到该类别的η维特征向量V c; 3) 遍历V。，如果其大于0,则将该类别的η位哈希值的对应位置于1，否则置为0,得到该类别η比特哈希值h。。6.根据权利要求1所述的基于局部敏感哈希的分布式快速文本分类方法，其特征在于：依次计算待分类文本特征向量或哈希值与所有类别特征向量或哈希值之间的相关性，选择相关性最高的类别作为该待分类文本的类别；其中特征向量之间相关性的公式表述如下：其中，1与Vni分别表示待分类文本和类别m的特征向量，Vxil表示Vx的第i个特征，K 表示Vx所有特征的平均值；哈希值之间相关性的公式表述如下：其中hx[i]与h"[i]分别表示待分类文本X和类别m的第i比特哈希值，?表示异或运算。
【专利摘要】本发明公开了一种基于局部敏感哈希的分布式快速文本分类方法。本发明针对现有文本分类方法耗时久，精度低，无法满足大数据环境要求等问题，首先采用局部敏感哈希方法压缩数量巨大的文本特征，以提炼有用特征，加快处理速度；其次匹配文本特征与已有类别特征，实现文本类别的快速计算；基于Spark框架对算法进行设计与实现，进一步加快了算法执行速度并提高了算法在大数据环境下的可扩展能力。
【IPC分类】G06F17/30
【公开号】CN105183792
【申请号】CN201510521022
【发明人】杨鹏, 顾梁, 董永强
【申请人】东南大学
【公开日】2015年12月23日
【申请日】2015年8月21日

完整全部详细技术资料下载

当前第2页1 2