一种基于局部敏感哈希的分布式快速文本分类方法

文档序号:9432613阅读:809来源:国知局
一种基于局部敏感哈希的分布式快速文本分类方法
【技术领域】
[0001] 本发明设及一种基于局部敏感哈希的分布式快速文本分类方法,用于实现对文本 进行快速高效地自动分类,属于文本挖掘技术领域。
【背景技术】
[0002] 近年来,随着信息技术的不断发展,互联网中数字文本大量涌现,如何有效管理运 些文本显得尤为重要。文本分类是有效管理文本的重要方法,在网页捜索、垃圾邮件过滤、 用户反馈及个性化推荐系统等方面应用广泛。文本分类方法主要有两个评价指标:精确度 和速度。前者用来表征文本是否归类到合适的分类中,而后者用来说明算法的执行效率。 从提高运两项指标出发,目前比较典型的文本分类方法主要有基于支持向量机(SVM)的方 法、基于贝叶斯度ayes)的方法、线性分类化及K-近邻等。其中,基于SVM的文本分类方法 通过在高维或无穷维的空间中构建一个或一组超平面,使得总体的函数边界误差最小,从 而克服冗余特征、过拟合等问题,取得较高的分类精度。此外,该方法还具有更好的泛化能 力。然而,由于其模型复杂,通常需要消耗大量的时间与空间,并且在大规模数据集下常常 难W快速收敛。其它方法如基于贝叶斯的方法、线性分类及k近邻等,它们具有较快的收敛 速度,但总的来说模型相对简单。
[0003] 为了获得更好的算法性能,研究人员分别提出了相关的改进方法,运些改进方法 或是结合已有方法(如结合PCA与LDA),或是利用技术手段优化已有方法(如利用人工免 疫系统理论优化Bayes方法)。然而,一般来说,运些方法在速度上优于SVM方法,而在分 类准确度上则略显不足。此外,目前已有的文本分类方法主要针对文本数量不多的情景,而 互联网已经进入了大数据时代,运些方法在互联网大数据背景下处理海量文本显得愈加吃 力。相比而言,哈希方法能够在将对象的较高维度信息映射为较低维度信息的同时,保留关 于该对象的一些重要特征属性,因而比较适合进行快速高效的数据处理。哈希方法已经在 很多数据处理领域(如基于内容的图片检索、重复文本检测等)得到了成功应用,但将它直 接应用到文本分类还存在一些困难,如分词方法和哈希函数的选取、大数据环境下的并行 执行效率等。另外,作为一类特殊的哈希方法,局部敏感哈希方法除具备一般哈希方法的 优势之外,它还有一个重要特性,即相似对象所对应的哈希值也比较接近。因此,针对现有 文本分类方法的不足,同时将局部敏感哈希方法的特性与并行计算框架Spark的优势相结 合,本发明提出了一种快速准确的文本分类方法,能够很好地解决已有方法的弊端,满足大 数据环境的迫切需求。

【发明内容】

[0004] 发明目的:针对现有技术中存在的问题与不足,本发明提供一种基于局部敏感哈 希的分布式快速文本分类方法,用于解决文本分类存在的准确率和速度有待进一步提高W 及无法满足大数据环境需求的问题。 阳〇化]技术方案:一种基于局部敏感哈希的分布式快速文本分类方法,与已有方法不同 的是,该方法采用局部敏感哈希技术将大量的文本特征映射到固定维度,并据此生成每个 类别的哈希值,计算待比较文本哈希值与每个类别哈希值的相关性,从而完成该文本准确 快速地归类;为适应大数据环境的需求,本发明还基于Spark框架进行设计实现,进一步提 高了该方法的性能及可扩展性。
[0006] 具体可分为四个步骤:步骤1首先依次对文本进行分词、去停用词,存储为皿FS文 件等操作,然后将所有文本加载到弹性分布式数据集巧esilientDistributedDatasets, 畑D);步骤2计算每个词语的n比特哈希值,并根据词频,通过R孤的变换,计算词语的 tfi壯值,并存储在RDD(tfi壯)之中;步骤3根据训练数据集中每个类别下所有文本的词 语tfi壯值及n比特哈希值,计算每个类别的n比特类别向量及哈希值;步骤4基于n比特 哈希值,计算待分类文本与每个类别的匹配度,得到文本所属类别。
[0007] 有益效果:本发明与现有技术相比,具有W下优点:
[0008] 1.采用局部敏感哈希方法对文本特征进行压缩映射,同时保留文本特征,从而生 成类别及文本的哈希值,具有较高的分类准确性及较快的分类速度。
[0009] 2.可W设定类别或文本哈希位数,从而可选择更高的分类准确度或更快的分类速 度,满足不同分类场景的需求。
[0010] 3.基于Spark框架进行了算法设计及实现,进一步提高了分类方法的执行速度、 增加了方法的可扩展能力,满足大数据环境的需求。
【附图说明】
[0011] 图1本发明实施例的文本分类过程图;
[0012] 图2为本发明实施例中词语操作过程图。
【具体实施方式】
[0013] 下面结合具体实施例,进一步阐明本发明,应理解运些实施例仅用于说明本发明 而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价 形式的修改均落于本申请所附权利要求所限定的范围。
[0014] 如图1所示,整个文本分类过程包括文本预处理、tfi壯计算、文本或分类特征提 取、W及文本分类确定等部分。
[0015] 本发明具体实施时包括W下几个阶段:
[0016] 步骤1,对训练文本集进行预处理。首先是收集带有分类标签的文本集作为训 练集,采用Lucene分词组件巧-Analysis对文本集进行分词处理,并去除停用词。将处 理过的文本存储到皿FS文件系统,然后将所有文本加载到弹性分布式数据集巧esilient DistributedDatasets,畑D),其中畑D中每一行表征一篇文本,然后采用Spark框架所支 持的cacheO函数将该数据放置在内存中,W便后续处理。
[0017] 步骤2,计算每个词语的n比特哈希值及tfi壯值。采用MD5哈希算法对文本中 的每个词语特征进行哈希运算,每条词语特征对应一个n比特哈希值,该比特位数可根据 实际应用需求进行调整,n比较大时,算法准确度较高、收敛较慢,反之,准确度稍低,收敛较 快。n的具体取值范围为16~128。在计算词语的tfi壯值时,采用哈希映射的方法,将所 有的文本特征分别映射到216维的向量中,从而方便特征的快速哈希和查找;该tfi壯值的 计算基于Spark并行框架,计算完成之后存储与RDD(tfi壯)中。对每条词语w(如图2所 示,通过下标来区分不同的词语,如Wi,W2,……)进行map操作,转换为元组(w,l),然后通 过R孤提供的re化ceByKey操作,将所有的元组进行累加操作,获取每个词语的词频,对词 语的操作过程
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1