一种基于地理主题模型的信息处理方法

文档序号:9751021阅读:234来源:国知局
一种基于地理主题模型的信息处理方法
【技术领域】
[0001 ]本发明涉及一种信息处理方法,尤其涉及一种基于地理主题模型(Topics over Locations,简写为T0L)的信息处理方法,属于信息处理技术领域。
【背景技术】
[0002] 当前,各种各样的信息特别是文本信息呈指数级增长,管理人员越来越难以对这 些数据进行有效管理和存取,如何从海量文本信息中分析和挖掘有用的知识成为主要任 务。
[0003] 文本挖掘的主要方式是基于统计语言模型(基于统计方法的概率分布)和空间向 量模型(基于线性代数的几何变化)。虽然方法不同,但都认为文档是基于词典空间的词的 分布,词和文档是多对一映射关系。后来为了使文本具有更好的表现形式,提出了基于主题 模型的文本信息处理方法。
[0004] 主题模型是一种对文本信息(与语言无关)中所隐含主题进行建模的方法。主题是 一个概念,通常来说表现是一组相关的词语。它不同于传统文档相似度计算的方法,而是一 种面向文本挖掘分析的概率模型,通过对训练文本集进行分析,挖掘出文档或者语料库中 的潜在语义结构即主题。
[0005] 当前最具代表性的一种主题模型为LDA主题模型。LDA主题模型由David M.Blei和 Michael I .Jordan等人在2003年提出,为了解决文档处理领域的问题,比如文章主题分类、 相似度分析、文章检测、文本分段和文档检索等问题。LDA模型采用词袋(Bag Of Words)方 法,即不考虑词语的先后顺序和关联关系,把每一篇文档看成一个词频向量,仅考虑文本的 词频,从而将文本信息转化为了易于建模的数字信息。
[0006] 但是,LDA主题模型生成的主题挖掘信息并不能输出地理位置关系。而在很多信息 挖掘过程中,特别是对科研课题项目进行信息挖掘时,地理位置信息至关重要,因为课题的 科研内容是受到地理信息的影响的;离开地理信息,科研课题项目的挖掘对决策的提出意 义不大。所以将文本中的语义信息和地理位置信息关联起来做主题的挖掘分析至关重要。

【发明内容】

[0007] 针对现有技术的不足,本发明所要解决的技术问题在于提供一种基于地理主题模 型的信息处理方法。
[0008] 为实现上述发明目的,本发明采用下述的技术方案:
[0009] -种基于地理主题模型的信息处理方法,包括如下步骤:
[0010] S1,抽取文本数据以及其所属的地理位置信息,组成待处理的文本数据存储到数 据库;
[0011] S2,对数据库中待处理的文本数据进行预处理,生成处理数据;
[0012] S3,根据处理数据构建地理主题模型,通过对地理主题模型求解,得到主题和地理 位置的关联关系。
[0013] 其中较优地,在步骤S2中,对数据库中待处理的文本数据进行预处理,生成处理数 据,包括如下步骤:
[0014] S21,从数据库中获取待处理的文本数据;
[0015] S22,采用NLPIR汉语分词系统对待处理的文本数据进行分词,去掉所有非中文字 符;
[0016] S23,统计每个词语出现的词频,把词频小于词频阈值的词语作为低频词语进行过 滤,同时将过滤掉的词语加入低频词表;
[0017] S24,获取停用词表,通过停用词表将分词获取的词语进行二次过滤,得到处理数 据;
[0018] S25,重复步骤S21~S24,直至数据库中没有待处理的文本数据。
[0019] 其中较优地,在步骤S3中,所述根据处理数据构建地理主题模型,包括如下步骤: [0020] S301,设定处理数据中每个文档的主题数为K,ai(i = l,2,3……K)为文档中主题 分布的先验分布的参数,队(i = 1,2,3……V)为主题中词分布的先验分布的参数,V为文档 中无重复的词语的数量;
[0021] S302,对于每一个主题,从超参数为β的先验分布中抽样,并作为1个多项分布Φ z, 重复K次;对于每一个主题,从超参数为λ的先验分布中抽样,并作为1个多项分布供z,於 z 重复K次;对于每一个文档,从超参数为a的先验分布中抽样,并作为1个多项分布0d;其中, Φ z为主题z中的词分布;为地理信息和主题z的多项式分布;0d为文档d中的主题分布;
[0022] S303,分别从多项分布Φζ、_0.4P9d中取样,直到多项分布φζ、爹^P0 d中的每个词 都被提取出来,得到整个文档中每个主题与词之间的对应关系,以及地理位置与词之间的 对应关系,重建θ<ι、Φ ζ和W ;
[0023] S304,重复步骤S301~S303,直到处理数据中的文档全部处理结束,构建地理主题 丰旲型完成。
[0024]其中较优地,在步骤S303中,得到整个文档中每个主题与词之间的对应关系,以及 地理位置与词之间的对应关系,重建9d、Φ ζ和炉〃包括如下步骤:
[0025] S3031,从多项分布0<!中抽取一个主题,获得Zdi,即获得第d个文档中第i个词来自 的主题;
[0026] S3032,从多项分布Φ z中抽取一个词,获得wdi,即获得主题对应的第d个文档中第i 个词;
[0027] S3033,从多项分布中抽取一个地理位置,获得1<^,即获得第(1个文档中第1个词 的地理位置;
[0028] S3034,重复步骤S3031~S3033Nd次,得到整个文档中每个主题与词之间的对应关 系,以及地理位置与词之间的对应关系;其中,Nd为文档中词的个数。
[0029] 其中较优地,在步骤S3中,所述通过对地理主题模型求解,得到主题和地理位置的 关联关系,包括如下步骤:
[0030] S311,获取地理主题模型中重建的0d、φ 2和穸z;
[0031] S312,根据条件概率公式以及0d、Φ4Ρ %中的数据信息计算文档-> 主题-> 词+地 理位置的路径概率
[0032] S313,根据得到的文档_>主题_>词+地理位置的路径概率的大小,选出文档中K个 主题对应的K条路径;
[0033] S314,在这Κ条路径中进行采样,得到主题和地理位置的关联关系。
[0034] 其中较优地,所述条件概率公式为:
[0035]
[0036]其中,zdl表示第d个文档中第i个词来自的主题,^^表示去除下标为di的其他主题 集合,α为文档中主题分布的先验分布的超参数,β为主题中词分布的先验分布的超参数,λ 为地理位置与主题服从多项式分布的先验分布超参数,Κ为文档中的主题数目,V为文档中 的无重复的词数目,ζ为文档中无重复的主题索引,1为文档中无重复的地理位置索引,n dz表 示主题z分配到文档d下的数目,nzv表示词语v被分配到主题z下的数目,nzl表示地理信息1 被分配到主题z下的数目。
[0037]其中较优地,所述的基于地理主题模型的信息处理方法,还包括如下步骤:
[0038] S4,将主题和地理位置的关联关系通过地图着色的方式进行展示。
[0039]本发明所提供的基于地理主题模型的信息处理方法,根据预处理的文本数据,以 及其地理位置信息构建地理主题模型,通过对地理主题模型求解,得到主题和地理位置的 关联关系。该方法将文本中的语义信息和地理位置信息关联起来做主题的挖掘分析,得到 课题信息中的主要研究方向,以及各个主题在全国各个省市的研究占比,从而能够为用户 提供更好的决策支持。
【附图说明】
[0040] 图1为本发明所提供的基于地理主题模型的信息处理方法的流程图;
[0041] 图2为本发明所提供的基于地理主题模型的信息处
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1