基于自然语言处理的空间信息检索方法

文档序号:6538388阅读:213来源:国知局
基于自然语言处理的空间信息检索方法
【专利摘要】本发明公开了一种基于自然语言处理的空间信息检索方法,包括:步骤1,将索引文档进行分词,并更改分词所得各个词的权重,得到包含权重的索引文档;步骤2,用户输入查询语句,对查询语句进行分词,并更改分词所得各个词的权重,得到包含权重的查询语句;步骤3,将包含权重的查询语句在包含权重的索引文档中进行检索。本发明方法使用自然语言处理工具,将分词技术和命名实体识别技术应用空间信息检索领域,优化了检索的效果。
【专利说明】基于自然语言处理的空间信息检索方法
【技术领域】
[0001]本发明涉及检索技术和自然语言处理技术,尤其涉及基于自然语言处理的空间信息检索方法。
【背景技术】
[0002]自然语言处理是人工智能领域中的一个重要方向,主要研究实现人与计算机之间用自然语言符号进行交流的理论和方法。自然语言处理是一门融计算机科学、数学和语言学于一体的科学。上世纪90年代开始,自然语言理解和处理的领域发生了巨大的变化:要求系统能处理真实的大规模的文本,要求能从自然语言文本中提取出有用信息。由于上面的要求,真实的大规模语料库的研制,以及信息丰富的大规模词典的编制都得到了发展,从而为分词、词性标注等低层次应用带来了极大的便利。
[0003]检索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。检索引擎包括全文索引、目录索引、元检索引擎、垂直检索引擎、集合式检索引擎、门户检索引擎、免费链接列表等。
[0004]现代检索引擎的工作可以分为三个阶段:搜集阶段、预处理阶段和查询阶段。对于垂直领域的检索而言,搜集阶段则较为简单,通常只需要对元数据进行简单的格式统一化处理即可。预处理阶段也称为索引构建阶段,这个阶段是检索引擎中最复杂的阶段,大部分排序算法会应用在这个阶段。首先,检索引擎会对待索引数据进行清理,执行包括分词,去除停用词等操作;之后就是最重要的步骤:构建倒排索引,倒排索引表示为一个单词,对应着这个词在文档中出现的频度和位置等,相当于对所有数据构建一个词典,根据词可以快速索引到相关文档;查询阶段是检索引擎的实际使用阶段,所有和用户交互的部分都在这个阶段完成。检索引擎对用户输入做清理处理,同样是使用分词和去除停用词等操作,然后把待检索的词项代入到倒排索引和打分公式,排序后返回。
[0005]自然语言和检索之间的技术结合点很多,在学术界和工业界都已经被广泛的使用,其中包括:分词,关键词提取和语义检索等。

【发明内容】

[0006]本发明提供了一种基于自然语言处理的空间信息检索优化方法,其目的在于使用自然语言处理算法提升空间信息检索的效果。
[0007]一种基于自然语言处理的空间信息检索方法,包括:
[0008]步骤1,将索引文档进行分词,并更改分词后各个词的权重,得到权重更改后的索引文档;
[0009]步骤2,用户输入查询语句,对查询语句进行分词,并更改分词后各个词的权重,得到权重更改后的查询语句;
[0010]步骤3,在权重更改后的索引文档中检索权重更改后的查询语句。[0011]其中,索引文档是指预存于检索平台中的文本,查询语句是指用户在进行检索时输入的文本。在进行检索时,通过将用户输入的查询语句与与索引文档进行匹配,匹配的文本作为检索结果输出。通过改变索引文档以及查询语句中各个词的权重,使得表示空间信息的词权重增加,从而提高检索的准确性。
[0012]在步骤I中,利用全局线性模型对索引文档进行分词,且在步骤2中利用全局线性模型对查询语句进行分词。
[0013]全局线性模型在观测序列的基础上对目标序列进行建模,解决序列化标注的问题。同时具有判别式模型和产生式模型考虑的优点,考虑了上下文标记间的转移概率,以序列化形式进行全局参数优化和解码。
[0014]所述全局线性模型的建立方法为:
[0015]步骤1-1,对语料库进行标注,标注后的语料库中每个单字对应一个标签;
[0016]步骤1-2,利用预设的特征模板和标注后的语料库进行模型训练,得到所述全局线性模型。
[0017]在基于规则的机器学习方面,本发明使用了大量的针对空间地理信息数据的分词样本,这些样本中包含了分好词的空间信息自然语言句子。这些样本句子包括开源样本库的句子,另一方面是针对空间地理信息经过手动标注的句子。这些样本句子构成了语料库。对语料库进行标注,便于后续的分词处理。
[0018]步骤1-2中,进行模型训练的步骤如下:
[0019]步骤1-21,对标注后的语料库套用特征模板,对每个单字生成特征列表;
[0020]步骤1-22,提取各个特征列表中的特征,利用特征和及其权重构建模型,其中每个权重的初始值均为O ;
[0021]步骤1-23,利用模型对标注后的语料库中所有单字进行预测,对于每个单字预测结果进行如下处理:
[0022]预测正确,则进行下一个单字的预测;
[0023]预测错误,则利用在线更新算法更新特征的权重,得到新的模型,利用新的模型再对该单字进行预测,直至预测正确或权重的更新次数超过预设值。
[0024]特征表示词的词性,特征模板中包含词的词性以及前一个词的词性。其中预测方式有很多,例如采用维特比算法预测,将单字的预测值与实际值之间的误差与阈值进行比较,从而判断单字是否预测正确。
[0025]在步骤I以及步骤2中,进行分词的方法如下,
[0026]步骤a,将文本输入至全局线性模型中,所述全局线性模型将特征模板应用于文本中,并根据权重计算得到文本所对应的特征列表;
[0027]步骤b,采用动态规划算法根据特征列表得到所有可能的标签组合,利用回溯算法找到最优的标签组合;
[0028]步骤C,按照最优的标签组合将文本进行词语划分;
[0029]其中,步骤a至c中所述的文本为步骤I中的索引文档或步骤2中的查询语句。
[0030]由于每个单字对应一个标签,因此最优的标签组合表示了文本中各个词语最有可能的划分位置,从而根据最优的标签组合进行词语划分(分词)。
[0031]所述动态规划算法为维特比算法。[0032]采用维特比算法可以对整个上下文进行最好的考虑,从而得到较佳的分词结果。
[0033]步骤I以及步骤2中利用关键词提取改变词的权重,使关键词的权重增加。
[0034]其中,关键词是指包含空间信息的词。
[0035]利用TextRank算法进行关键词提取。
[0036]TextRank算法,所采用与Google的Page Rank类似的图传递模型,可以很好地实现关键词的提取。
[0037]在步骤I以及步骤2中,利用命名实体识别方法更改分词后各个词的权重,增加文本中空间信息名词的权重,在步骤I中文本为索引文档,在步骤2中为查询语句。
[0038]采用命名实体识别方法识别文本中表示空间信息的名词,使得检索结果在空间信息领域中更为集中,从而提高了检索的效率。
[0039]本发明方法使用自然语言处理工具,将分词技术和命名实体识别技术应用空间信息检索领域,优化了检索的效果。
【专利附图】

【附图说明】
[0040]图1为本发明一个实施例中利用维特比算法进行分词的方法示意图;
[0041]图2为本发明当前实施例中中文分词的效果示意图;
[0042]图3为本发明方法流程图。
【具体实施方式】
[0043]下面将结合附图对本发明的具体实施例进行描述。应当注意,这里描述的实施例只用于举例说明,并不用于限制本发明。
[0044]如图3所示,本发明实施例的步骤如下:
[0045]步骤1,将索引文档进行分词,并更改分词后各个词的权重,得到权重更改后的索引文档;
[0046]步骤2,用户输入查询语句,对查询语句进行分词,并更改分词后各个词的权重,得到权重更改后的查询语句;
[0047]其中,在步骤I中对索引文档进行的分词以及在步骤2中对查询语句的分词均采用全局线性模型进行。
[0048]全局线性模型的建立方法为:
[0049]步骤1-1,对语料库进行标注,标注后的语料库中每个单字对应一个标签;
[0050]步骤1-2,利用预设的特征模板和标注后的语料库进行模型训练,得到全局线性模型。进行模型训练的步骤如下:
[0051]步骤1-21,对标注后的语料库套用特征模板,对每个单字生成特征列表。以中文单字为例,
[0052]步骤1-22,提取各个特征列表中的特征,利用特征和及其权重构建模型,其中每个权重的初始值均为O ;
[0053]步骤1-23,利用模型对标注后的语料库中每个单字进行预测:
[0054]预测正确,则进行下一个单字的预测;
[0055]预测错误,则利用在线更新算法更新特征的权重,得到新的模型,重复步骤1-23,直至预测正确或权重的更新次数超过预设值。
[0056]在本发明实施例中,采用维特比算法进行单字预测,根据单字的预测值与样本值之间的误差来判断是否预测准确,如果预测错误,即预测的标签和实际的标签不同,则表示参数对这个单字的预测有问题,需要更新参数,具体的更新算法是在线更新(OnlinePassive-Aggressive)算法;
[0057]当循环迭代的误差值小于设定的阈值,或者超过设定的迭代次数,则结束算法。
[0058]模型训练结束后,就可以用得到的全局来进行预测,具体预测的方法较多,常用的一种是动态规划算法,如图2中所示,我们使用动态规划算法,根据前一状态的标注推断出当前状态的标注,最后使用回溯算法找出最优化路径并返回。
[0059]在步骤I中对索引文档的分词以及步骤2中对查询语句进行分词的方法如下:
[0060]步骤a,将文本输入至全局线性模型中,全局线性模型将特征模板应用于文本中,并根据权重计算得到文本所对应的特征列表。
[0061]步骤b,采用动态规划算法根据特征列表得到所有可能的标签组合,利用回溯算法找到最优的标签组合。
[0062]在本发明当前实施例中,动态规划算法为维特比算法。图1为利用维特比算法选择最佳标签组合的示意图。基于标注的分词方法示意图。以中文分词为例,图2是一个标注好的句子,句子中的每个单字(包括标点符号)对应一个标签,在经过标注的语料库中,只有四种可能的标签:S表示单字,B表示词的开始,M表示词的中间,E表示词的结束。在上面的例子中,句子被分为:
[0063]在I现代化I战舰I上I,I不I存在I技术I简单I的I岗位。
[0064]句子中,“在”这个字独立成词,所以使用S标记;“现代化”是个三字词,“现”字对应B,表示词的开始,“代”字对应M,表示词的中间,词还没有结束,而“化”对应E,标记词的结束。
[0065]步骤C,按照最优的标签组合将文本进行词语划分。
[0066]在完成分词以后,改变各个词的权重,以便于后续检索,按照词的权重进行检索,从而提高检索的效率和准确性。改变词的权重方法可以是利用TextRank算法的关键词提取。在本发明实施例中,采用命名实体识别进行权重的改变,将分词后的文本中表示空间信息的词增加权重,从而增加检索的专业领域针对性。
[0067]步骤3,将权重更改后的查询语句在权重更改后的索引文档中进行检索。
[0068]对索引文档和进行加权之后,可以促使相似度较高的两个语句在检索时获得更高的权重,从而在搜索结果中排列靠前。相似度的计算公式如下:
[0069]sim(d, q) =cosine (d —,q — ) = (d—.q —) / (|d— | X |q—)
[0070]其中d —表示索弓丨文档,q —表示查询语句,二者之间的相似度通过余弦夹角公式计算得到,而权重信息已经包含在cT和q—之中,通过增加关键词的权重,可以使得相似度高的索引文档获得较高的得分,从而在检索结果中使较高得分的索引文档排序靠前,提高了检索的准确性。
[0071]本发明结合了分词技术和命名实体识别技术,把自然语言处理技术应用到空间地理信息领域检索中,能够有效提升空间地理信息检索效果。
【权利要求】
1.一种基于自然语言处理的空间信息检索方法,其特征在于,包括: 步骤1,将索引文档进行分词,并更改分词后各个词的权重,得到权重更改后的索引文档; 步骤2,用户输入查询语句,对查询语句进行分词,并更改分词后各个词的权重,得到权重更改后的查询语句; 步骤3,在权重更改后的索引文档中检索权重更改后的查询语句。
2.如权利要求1所述基于自然语言处理的空间信息检索方法,其特征在于,在步骤I中,利用全局线性模型对索引文档进行分词,且在步骤2中利用全局线性模型对查询语句进行分词。
3.如权利要求2所述基于自然语言处理的空间信息检索方法,其特征在于,所述全局线性模型的建立方法为: 步骤1-1,对语料库进行标注,标注后的语料库中每个单字对应一个标签; 步骤1-2,利用预设的特征模板和标注后的语料库进行模型训练,得到所述全局线性模型。
4.如权利要求3所 述基于自然语言处理的空间信息检索方法,其特征在于,步骤1-2中,进行模型训练的步骤如下: 步骤1-21,对标注后的语料库套用特征模板,对每个单字生成特征列表; 步骤1-22,提取各个特征列表中的特征,利用特征和及其权重构建模型,其中每个权重的初始值均为O ; 步骤1-23,利用模型对标注后的语料库中所有单字进行预测,对于每个单字预测结果进行如下处理: 预测正确,则进行下一个单字的预测; 预测错误,则利用在线更新算法更新特征的权重,得到新的模型,利用新的模型再对该单字进行预测,直至预测正确或权重的更新次数超过预设值。
5.如权利要求4所述基于自然语言处理的空间信息检索方法,其特征在于,在步骤I以及步骤2中,进行分词的方法如下, 步骤a,将文本输入至全局线性模型中,所述全局线性模型将特征模板应用于文本中,并根据权重计算得到文本所对应的特征列表; 步骤b,采用动态规划算法根据特征列表得到所有可能的标签组合,利用回溯算法找到最优的标签组合; 步骤C,按照最优的标签组合将文本进行词语划分; 其中,步骤a至c中所述的文本为步骤I中的索引文档或步骤2中的查询语句。
6.如权利要求5所述基于自然语言处理的空间信息检索方法,其特征在于,在步骤b中,所述动态规划算法为维特比算法。
7.如权利要求1所述基于自然语言处理的空间信息检索方法,其特征在于,步骤I以及步骤2中利用关键词提取改变词的权重,使关键词的权重增加。
8.如权利要求7所述基于自然语言处理的空间信息检索方法,其特征在于,利用TextRank算法进行关键词提取。
9.如权利要求1所述基于自然语言处理的空间信息检索方法,其特征在于,在步骤I以及步骤2中,利用命名实体识别方法更改分词后各个词的权重,增加文本中空间信息名词的权重,在步骤I中文本为索引文档,``在步`骤2中文本为查询语句。
【文档编号】G06F17/27GK103823857SQ201410059272
【公开日】2014年5月28日 申请日期:2014年2月21日 优先权日:2014年2月21日
【发明者】吴朝晖, 高啸, 柳云超, 陈华钧, 郑国轴, 杨建华 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1