一种基于地理主题模型的信息处理方法

文档序号：9751021阅读：234来源：国知局

一种基于地理主题模型的信息处理方法
【技术领域】
[0001 ]本发明涉及一种信息处理方法，尤其涉及一种基于地理主题模型（Topics over Locations，简写为T0L)的信息处理方法，属于信息处理技术领域。
【背景技术】
[0002] 当前，各种各样的信息特别是文本信息呈指数级增长，管理人员越来越难以对这些数据进行有效管理和存取，如何从海量文本信息中分析和挖掘有用的知识成为主要任务。
[0003] 文本挖掘的主要方式是基于统计语言模型(基于统计方法的概率分布)和空间向量模型（基于线性代数的几何变化）。虽然方法不同，但都认为文档是基于词典空间的词的分布，词和文档是多对一映射关系。后来为了使文本具有更好的表现形式，提出了基于主题模型的文本信息处理方法。
[0004] 主题模型是一种对文本信息（与语言无关）中所隐含主题进行建模的方法。主题是一个概念，通常来说表现是一组相关的词语。它不同于传统文档相似度计算的方法，而是一种面向文本挖掘分析的概率模型，通过对训练文本集进行分析，挖掘出文档或者语料库中的潜在语义结构即主题。
[0005] 当前最具代表性的一种主题模型为LDA主题模型。LDA主题模型由David M.Blei和 Michael I .Jordan等人在2003年提出，为了解决文档处理领域的问题，比如文章主题分类、相似度分析、文章检测、文本分段和文档检索等问题。LDA模型采用词袋(Bag Of Words)方法，即不考虑词语的先后顺序和关联关系，把每一篇文档看成一个词频向量，仅考虑文本的词频，从而将文本信息转化为了易于建模的数字信息。
[0006] 但是，LDA主题模型生成的主题挖掘信息并不能输出地理位置关系。而在很多信息挖掘过程中，特别是对科研课题项目进行信息挖掘时，地理位置信息至关重要，因为课题的科研内容是受到地理信息的影响的；离开地理信息，科研课题项目的挖掘对决策的提出意义不大。所以将文本中的语义信息和地理位置信息关联起来做主题的挖掘分析至关重要。

【发明内容】

[0007] 针对现有技术的不足，本发明所要解决的技术问题在于提供一种基于地理主题模型的信息处理方法。
[0008] 为实现上述发明目的，本发明采用下述的技术方案：
[0009] -种基于地理主题模型的信息处理方法，包括如下步骤：
[0010] S1，抽取文本数据以及其所属的地理位置信息，组成待处理的文本数据存储到数据库；
[0011] S2，对数据库中待处理的文本数据进行预处理，生成处理数据；
[0012] S3,根据处理数据构建地理主题模型，通过对地理主题模型求解，得到主题和地理位置的关联关系。
[0013] 其中较优地，在步骤S2中，对数据库中待处理的文本数据进行预处理，生成处理数据，包括如下步骤：
[0014] S21，从数据库中获取待处理的文本数据；
[0015] S22,采用NLPIR汉语分词系统对待处理的文本数据进行分词，去掉所有非中文字符；
[0016] S23,统计每个词语出现的词频，把词频小于词频阈值的词语作为低频词语进行过滤，同时将过滤掉的词语加入低频词表；
[0017] S24,获取停用词表，通过停用词表将分词获取的词语进行二次过滤，得到处理数据；
[0018] S25，重复步骤S21~S24，直至数据库中没有待处理的文本数据。
[0019] 其中较优地，在步骤S3中，所述根据处理数据构建地理主题模型，包括如下步骤： [0020] S301，设定处理数据中每个文档的主题数为K，ai(i = l，2,3……K)为文档中主题分布的先验分布的参数，队（i = 1，2，3……V)为主题中词分布的先验分布的参数，V为文档中无重复的词语的数量；
[0021] S302，对于每一个主题，从超参数为β的先验分布中抽样，并作为1个多项分布Φ z，重复K次;对于每一个主题，从超参数为λ的先验分布中抽样，并作为1个多项分布供z，於 z 重复K次;对于每一个文档，从超参数为a的先验分布中抽样，并作为1个多项分布0d;其中， Φ z为主题z中的词分布；为地理信息和主题z的多项式分布;0d为文档d中的主题分布；
[0022] S303,分别从多项分布Φζ、_0.4P9d中取样，直到多项分布φζ、爹^P0 d中的每个词都被提取出来，得到整个文档中每个主题与词之间的对应关系，以及地理位置与词之间的对应关系，重建θ<ι、Φ ζ和W ;
[0023] S304，重复步骤S301~S303，直到处理数据中的文档全部处理结束，构建地理主题丰旲型完成。
[0024]其中较优地，在步骤S303中，得到整个文档中每个主题与词之间的对应关系，以及地理位置与词之间的对应关系，重建9d、Φ ζ和炉〃包括如下步骤：
[0025] S3031，从多项分布0<!中抽取一个主题，获得Zdi，即获得第d个文档中第i个词来自的主题；
[0026] S3032,从多项分布Φ z中抽取一个词，获得wdi，即获得主题对应的第d个文档中第i 个词；
[0027] S3033，从多项分布中抽取一个地理位置，获得1<^，即获得第(1个文档中第1个词的地理位置；
[0028] S3034,重复步骤S3031~S3033Nd次，得到整个文档中每个主题与词之间的对应关系，以及地理位置与词之间的对应关系;其中，Nd为文档中词的个数。
[0029] 其中较优地，在步骤S3中，所述通过对地理主题模型求解，得到主题和地理位置的关联关系，包括如下步骤：
[0030] S311，获取地理主题模型中重建的0d、φ 2和穸z;
[0031] S312,根据条件概率公式以及0d、Φ4Ρ %中的数据信息计算文档-> 主题-> 词+地理位置的路径概率
[0032] S313,根据得到的文档_>主题_>词+地理位置的路径概率的大小，选出文档中K个主题对应的K条路径；
[0033] S314,在这Κ条路径中进行采样，得到主题和地理位置的关联关系。
[0034] 其中较优地，所述条件概率公式为：
[0035]
[0036]其中，zdl表示第d个文档中第i个词来自的主题，^^表示去除下标为di的其他主题集合，α为文档中主题分布的先验分布的超参数，β为主题中词分布的先验分布的超参数，λ 为地理位置与主题服从多项式分布的先验分布超参数，Κ为文档中的主题数目，V为文档中的无重复的词数目，ζ为文档中无重复的主题索引，1为文档中无重复的地理位置索引，n dz表示主题z分配到文档d下的数目，nzv表示词语v被分配到主题z下的数目，nzl表示地理信息1 被分配到主题z下的数目。
[0037]其中较优地，所述的基于地理主题模型的信息处理方法，还包括如下步骤：
[0038] S4,将主题和地理位置的关联关系通过地图着色的方式进行展示。
[0039]本发明所提供的基于地理主题模型的信息处理方法，根据预处理的文本数据，以及其地理位置信息构建地理主题模型，通过对地理主题模型求解，得到主题和地理位置的关联关系。该方法将文本中的语义信息和地理位置信息关联起来做主题的挖掘分析，得到课题信息中的主要研究方向，以及各个主题在全国各个省市的研究占比，从而能够为用户提供更好的决策支持。
【附图说明】
[0040] 图1为本发明所提供的基于地理主题模型的信息处理方法的流程图；
[0041] 图2为本发明所提供的基于地理主题模型的信息处

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘瑞;左源;王德庆;
技术所有人：北京航空航天大学;
我是此专利的发明人

上一篇：用于处理视频和相关音频的方法和装置及检索方法和装置的制造方法
上一篇：一种基于多级云平台的车辆监控方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。