基于细划分MapReduce的文本语义提取方法

文档序号:6622416阅读:273来源:国知局
基于细划分MapReduce的文本语义提取方法
【专利摘要】本发明涉及一种基于细划分MapReduce的文本语义提取方法。所述方法包括:将待处理文本集按照文档维度和单词表维度进行双重划分,每个划分是部分文本的部分内容;申请一定数量的Mapper,使用LDA主题模型SparseLDA算法分别训练文本集的每个划分,得到局部参数,并对不同的参数给予不同的标记,记录其所对应的Reducer;申请一定数量的Reducer,不同种类的Reducer融合不同标记的局部参数,得到全局参数,输出到文件;重复此Mapper和Reducer过程直到达到收敛条件,得到最终训练模型,用于新文本的语义解释与表达。
【专利说明】基于细划分MapReduce的文本语义提取方法

【技术领域】
[0001] 本发明涉及机器学习领域,尤其涉及一种基于细划分MapReduce的文本语义提取 方法。

【背景技术】
[0002] 文本的语义理解是目前比较热门的研究课题,互联网中数字化信息曾指数型增 长,其中包括了网页,社交网络新闻、书籍、图片、音频、视频、微博和科学论文等,以文档形 式呈现的信息增速尤为迅猛。如何有效地组织、管理和摘要这些文本信息以及挖掘其中隐 含的知识是当前计算机科学面临的一大挑战。此外,与搜索相关的网络应用都需要高效地 语义理解模块,获得用户的主要意图,从而更好地为用户服务。例如百度的搜索引擎需要匹 配与用户查询最为相关的文本,淘宝搜索需要反馈给用户最为符合的产品。
[0003] 主题模型(Topic Models)是一种无监督学习算法,不需要人工标注,节省人力资 源。目前较为成熟的主题模型是潜在狄利克雷分配(Latent Dirichlet Allocation,LDA) 算法,该算法假设一篇文档是多主题的概率分布,而一个主题是单词表上的概率分布。LDA 算法从数据集中学习出主题模型来预测新文档的主题分布。随着文档的增多,文档所包含 的主题也在增长,同时单词表的大小也在不断增长。为了更好地解释其中蕴含的主题,我们 需要稳定的,实用的,可以处理大数据高维度的处理方法。
[0004] 并行是一种处理大数据高维度的直接方法,现有的并行LDA算法缺乏稳定性与可 扩展性,无法利用更多的处理器得到更高的加速比。我们选择MapReduce作为并行的基础, 分析其可扩展瓶颈,提出改进方法,增强算法的可扩展性与实用性。
[0005] 有鉴于上述的缺陷,本设计人,积极加以研究创新,以期创设一种高效率语义压缩 的并行文本大数据存储方法,使其更具有产业上的利用价值。


【发明内容】

[0006] 为解决上述技术问题,本发明的目的是提供一种扩展性强,可理解大数据、高纬度 的文本集的基于细划分MapReduce的文本语义提取方法。
[0007] 本发明基于细划分MapReduce的文本语义提取方法,所述方法包括:
[0008] 将待处理文本集以文档维度和单词维度两个维度分别进行划分;
[0009] 将划分后的文档和单词分别经过MapReduce的多次处理直至达到收敛条件,得到 训练模型;
[0010] 基于所述训练模型对文本进行语义解释与表达。
[0011] 具体地,所述方法具体包括:
[0012] 将待处理文本集以文档维度和单词维度两个维度分别进行划分;
[0013] 对划分后的文档和单词分别进行Map阶段处理,基于预定的L D A主题模型进行 数据训练,得到若干局部参数,对不同的局部参数给予不同的标记;
[0014] 记录不同标记的局部参数对应的Reduce,对所述局部参数进行Reduce处理得到 全局参数;
[0015] 重复上述过程直至到达收敛条件,得到训练模型;
[0016] 基于所述训练模型对文本进行语义解释与表达。
[0017] 进一步地,所述的局部参数包括文档-主题分布ΘΒΧΚ,主题-单词分布φ κχ",主 题总分布Φκ,以及文本集的对数似然值log-likelihood四种参数;
[0018] 所述的四种参数对应的 Reducer 分别是 Doc-Reducer,Wordstats-Reducer, Globalstats-Reducer,Likelihood-Reducer。
[0019] 进一步地,每一种的Reducer都是对来源数据的对应汇总求和,并按预定的格式 输出到文件。
[0020] 进一步地,不同的局部参数对应的Reducer各不相同。
[0021] 借由上述方案,本发明至少具有以下优点:
[0022] 本发明所述的基于细划分MapReduce的文本语义提取方法,在实现过程中,内存 可以达到现有算法的1/M,Μ可以由用户设定,低内存消耗即表示了本方法可以做更大规模 的主题模型,无论是文本上的大规模还是主题上的大规模。在速度上,由于现有的基于细划 分MapReduce的LDA模型都是基于变分贝叶斯,而本发明使用SparseLDA,一种快速高精度 的LDA近似推理算法,所以在速度上有明显的加速,且精度没有下降。

【专利附图】

【附图说明】
[0023] 图1是本发明基于细划分MapReduce的文本语义提取方法的原理图;
[0024] 图2是本发明基于细划分MapReduce的文本语义提取方法的2*3的文本具体划分 原理图;
[0025] 图3是本发明基于细划分MapReduce的文本语义提取方法的实验对比结果图;
[0026] 图4是本发明基于细划分MapReduce的文本语义提取方法的实验对比结果图;
[0027] 图5是本发明基于细划分MapReduce的文本语义提取方法的可扩展性验证图。

【具体实施方式】
[0028] 下面结合附图和实施例,对本发明的【具体实施方式】作进一步详细描述。以下实施 例用于说明本发明,但不用来限制本发明的范围。
[0029] (l)LDA 模型:
[0030] LDA模型是一种三层的贝叶斯模型。模型输入数据集大小记为D*W,其中D为文档 总数,W为单词表大小。LDA模型将D*W矩阵转变为D*K矩阵和K*W矩阵,分别记为θ M文 档主题分布和c主题单词分布。其中主题数K可以设置。推导LDA过程的算法有几种,最 实用,常用的算法即吉布斯采样(Gibbs Sampling,GS),本发明使用SparseLDA,一种速度优 化的GS算法,GS的主要思想是对每篇文档d的每个单词w计算一个K大小的分布,然后从 中选择一个主题k赋予对应的Θ Μ和。
[0031] SparseLDA将原始GS用于推导LDA模型的概率公式(1)变成了公式(2),从而减 少了一些重复的计算步骤,加快了模型的训练速度。
[0032]

【权利要求】
1. 一种基于细划分MapReduce的文本语义提取方法,其特征在于:所述方法包括: 将待处理文本集以文档维度和单词维度两个维度分别进行划分; 将划分后的文档和单词分别经过MapReduce的多次处理直至达到收敛条件,得到训练 模型; 基于所述训练模型对文本进行语义解释与表达。
2. 根据权利要求1所述的基于细划分MapReduce的文本语义提取方法,其特征在于: 所述方法具体包括: 将待处理文本集以文档维度和单词维度两个维度分别进行划分; 对划分后的文档和单词分别进行Map阶段处理,基于预定的L D A主题模型进行数据 训练,得到若干局部参数,对不同的局部参数给予不同的标记; 记录不同标记的局部参数对应的Reduce,对所述局部参数进行Reduce处理得到全局 参数; 重复上述过程直至到达收敛条件,得到训练模型; 基于所述训练模型对文本进行语义解释与表达。
3. 根据权利要求1所述的基于细划分MapReduce的文本语义提取方法,其特征在于: 所述的局部参数包括文档-主题分布ΘΒΧΚ,主题-单词分布φκχ",主题总分布φκ,以 及文本集的对数似然值log-likelihood四种参数; 所述的四种参数对应的Reducer分别是Doc-Reducer,Wordstats-Reducer, Globalstats-Reducer,Likelihood-Reducer。
4. 根据权利要求1所述的基于细划分MapReduce的文本语义提取方法,其特征在于: 每一种的Reducer都是对来源数据的对应汇总求和,并按预定的格式输出到文件。
5. 根据权利要求1所述的基于细划分MapReduce的文本语义提取方法,其特征在于: 不同的局部参数对应的Reducer各不相同。
【文档编号】G06F17/27GK104156350SQ201410379847
【公开日】2014年11月19日 申请日期:2014年8月4日 优先权日:2014年8月4日
【发明者】曾嘉, 高阳, 严建峰, 刘晓升, 杨璐, 刘志强 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1