一种基于局部敏感哈希的分布式快速文本分类方法

文档序号：9432613阅读：809来源：国知局

一种基于局部敏感哈希的分布式快速文本分类方法
【技术领域】
[0001] 本发明设及一种基于局部敏感哈希的分布式快速文本分类方法，用于实现对文本进行快速高效地自动分类，属于文本挖掘技术领域。
【背景技术】
[0002] 近年来，随着信息技术的不断发展，互联网中数字文本大量涌现，如何有效管理运些文本显得尤为重要。文本分类是有效管理文本的重要方法，在网页捜索、垃圾邮件过滤、用户反馈及个性化推荐系统等方面应用广泛。文本分类方法主要有两个评价指标：精确度和速度。前者用来表征文本是否归类到合适的分类中，而后者用来说明算法的执行效率。从提高运两项指标出发，目前比较典型的文本分类方法主要有基于支持向量机（SVM)的方法、基于贝叶斯度ayes)的方法、线性分类化及K-近邻等。其中，基于SVM的文本分类方法通过在高维或无穷维的空间中构建一个或一组超平面，使得总体的函数边界误差最小，从而克服冗余特征、过拟合等问题，取得较高的分类精度。此外，该方法还具有更好的泛化能力。然而，由于其模型复杂，通常需要消耗大量的时间与空间，并且在大规模数据集下常常难W快速收敛。其它方法如基于贝叶斯的方法、线性分类及k近邻等，它们具有较快的收敛速度，但总的来说模型相对简单。
[0003] 为了获得更好的算法性能，研究人员分别提出了相关的改进方法，运些改进方法或是结合已有方法（如结合PCA与LDA)，或是利用技术手段优化已有方法（如利用人工免疫系统理论优化Bayes方法）。然而，一般来说，运些方法在速度上优于SVM方法，而在分类准确度上则略显不足。此外，目前已有的文本分类方法主要针对文本数量不多的情景，而互联网已经进入了大数据时代，运些方法在互联网大数据背景下处理海量文本显得愈加吃力。相比而言，哈希方法能够在将对象的较高维度信息映射为较低维度信息的同时，保留关于该对象的一些重要特征属性，因而比较适合进行快速高效的数据处理。哈希方法已经在很多数据处理领域（如基于内容的图片检索、重复文本检测等）得到了成功应用，但将它直接应用到文本分类还存在一些困难，如分词方法和哈希函数的选取、大数据环境下的并行执行效率等。另外，作为一类特殊的哈希方法，局部敏感哈希方法除具备一般哈希方法的优势之外，它还有一个重要特性，即相似对象所对应的哈希值也比较接近。因此，针对现有文本分类方法的不足，同时将局部敏感哈希方法的特性与并行计算框架Spark的优势相结合，本发明提出了一种快速准确的文本分类方法，能够很好地解决已有方法的弊端，满足大数据环境的迫切需求。

【发明内容】

[0004] 发明目的：针对现有技术中存在的问题与不足，本发明提供一种基于局部敏感哈希的分布式快速文本分类方法，用于解决文本分类存在的准确率和速度有待进一步提高W 及无法满足大数据环境需求的问题。阳〇化]技术方案：一种基于局部敏感哈希的分布式快速文本分类方法，与已有方法不同的是，该方法采用局部敏感哈希技术将大量的文本特征映射到固定维度，并据此生成每个类别的哈希值，计算待比较文本哈希值与每个类别哈希值的相关性，从而完成该文本准确快速地归类；为适应大数据环境的需求，本发明还基于Spark框架进行设计实现，进一步提高了该方法的性能及可扩展性。
[0006] 具体可分为四个步骤：步骤1首先依次对文本进行分词、去停用词，存储为皿FS文件等操作，然后将所有文本加载到弹性分布式数据集巧esilientDistributedDatasets, 畑D);步骤2计算每个词语的n比特哈希值，并根据词频，通过R孤的变换，计算词语的 tfi壯值，并存储在RDD(tfi壯）之中；步骤3根据训练数据集中每个类别下所有文本的词语tfi壯值及n比特哈希值，计算每个类别的n比特类别向量及哈希值；步骤4基于n比特哈希值，计算待分类文本与每个类别的匹配度，得到文本所属类别。
[0007] 有益效果：本发明与现有技术相比，具有W下优点：
[0008] 1.采用局部敏感哈希方法对文本特征进行压缩映射，同时保留文本特征，从而生成类别及文本的哈希值，具有较高的分类准确性及较快的分类速度。
[0009] 2.可W设定类别或文本哈希位数，从而可选择更高的分类准确度或更快的分类速度，满足不同分类场景的需求。
[0010] 3.基于Spark框架进行了算法设计及实现，进一步提高了分类方法的执行速度、增加了方法的可扩展能力，满足大数据环境的需求。
【附图说明】
[0011] 图1本发明实施例的文本分类过程图；
[0012] 图2为本发明实施例中词语操作过程图。
【具体实施方式】
[0013] 下面结合具体实施例，进一步阐明本发明，应理解运些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0014] 如图1所示，整个文本分类过程包括文本预处理、tfi壯计算、文本或分类特征提取、W及文本分类确定等部分。
[0015] 本发明具体实施时包括W下几个阶段：
[0016] 步骤1，对训练文本集进行预处理。首先是收集带有分类标签的文本集作为训练集，采用Lucene分词组件巧-Analysis对文本集进行分词处理，并去除停用词。将处理过的文本存储到皿FS文件系统，然后将所有文本加载到弹性分布式数据集巧esilient DistributedDatasets,畑D)，其中畑D中每一行表征一篇文本，然后采用Spark框架所支持的cacheO函数将该数据放置在内存中，W便后续处理。
[0017] 步骤2,计算每个词语的n比特哈希值及tfi壯值。采用MD5哈希算法对文本中的每个词语特征进行哈希运算，每条词语特征对应一个n比特哈希值，该比特位数可根据实际应用需求进行调整，n比较大时，算法准确度较高、收敛较慢，反之，准确度稍低，收敛较快。n的具体取值范围为16~128。在计算词语的tfi壯值时，采用哈希映射的方法，将所有的文本特征分别映射到216维的向量中，从而方便特征的快速哈希和查找；该tfi壯值的计算基于Spark并行框架，计算完成之后存储与RDD(tfi壯）中。对每条词语w(如图2所示，通过下标来区分不同的词语，如Wi，W2,……）进行map操作，转换为元组（w，l)，然后通过R孤提供的re化ceByKey操作，将所有的元组进行累加操作，获取每个词语的词频，对词语的操作过程

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨鹏;顾梁;董永强;
技术所有人：东南大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。