超关键字分布式搜索方法

文档序号:6602274阅读:313来源:国知局
专利名称:超关键字分布式搜索方法
技术领域
本发明提出了一种文本的全文搜索的信息检索方法,超关键字分布式搜索方法, 尤其适合海量数据信息检索,实现基于全文智能匹配的搜索,保持了搜索分布式特点、提高搜索准确性。
背景技术
目前,搜索引擎使用的关键字检索方式是信息检索的主要应用,通过关键字的检索和排名技术,完成分布式检索功能,并把最可能匹配的结果排序展示。智能技术结合搜索,即搜索引擎智能化,基本上可以分成以下几个方面1.预先对数据进行分类、聚类处理,通过结果展示这些类别,通过用户交互提高搜索效果;2.利用搜索日志,挖掘关键词的潜在联系达到关键词的扩展方法;3.利用智能体技术,完成智能化方法;4.将智能技术融入爬虫当中进行处理。这些方法都是基于关键词搜索的,而在用户有整个文本搜索(输入为整个文本, 比如利用简历找职位)需求情况下却没有办法做到。关键字搜索引擎智能化方法无法解决这些智能化问题。需要一种不破坏搜索引擎的分布式、大数据量的处理能力前提下的智能化方法。本发明正是要解决这个问题。

发明内容
超关键字分布式搜索方法是一种对文本全文智能匹配的信息检索方法,解决海量数据信息检索大数据量、快速、高相关性搜索。它是相对于关键字搜索提出的,关键字的搜索方法只允许利用有限的关键字进行搜索,无法把全文都放到搜索引擎中进行搜索,如果把长文本输入搜索引擎,会被截断处理,保留前面有限的字符串。超关键字搜索把整个文本作为搜索输入,搜索引擎获得更多有用的信息提供更符合用户输入的搜索结果。该方法在搜索引擎架构上做相应的改进,保持了搜索引擎分布式大数据量的处理特点;这是由于搜索引擎架构的各个阶段进行智能化融合处理。具体说来,超关键字搜索是把全文信息形式化,利用整个文本信息,获得有代表的关键字,关键字利用上下文进行消岐处理,超关键字包含关键字本身、关键字消岐结果、关键字重要的程度表示即权重、和关键字之间关系,关键字的消岐结果为关键字及其含义串对;关键字关系为关键字对和关系名。这种搜索称为超关键字搜索。把整个文本作为搜索输入需要充分利用智能技术。本发明提出的超关键字分布式搜索方法是关键字搜索引擎架构的扩展,它使得搜索引擎可以保持关键字搜索分布式并发的特点,也可以融入目前多种机器学习算法,基本过程如下1.系统对输入的文本进行特征提取,获得超关键字集,这是有别于现有搜索引擎的关键之处。
2.搜索结果的排名是根据前面提出的特征进行排序的,其排序算法是机器学习算法集。即各种现有的机器学习算法都可以放到现在的搜索架构当中。3.输入文本的特征提取基于本文主题提取方法的各种方法;在训练学习阶段,使用了文本的预分类技术,分类技术可以为特征的权重做更准确的评价。超关键字分布式搜索架构是将本文的机器识别算法分布化,换句话说,是把文本识别的一个完整过程“搜索引擎化”,从另一个角度来看,是分布式搜索引擎在各个阶段的“智能化”,是一种文本智能处理和搜索引擎的紧密结合的架构。这使得搜索引擎保持了分布式多并发等优点外,还增加了匹配的准确度,解决了搜索引擎的几个大的问题 “全” “准” “相关性”。关键字分布式搜索引擎的架构检索模块由五部分构成建索引库程序 (INDEXER),基础检索服务(BS),信息检索服务(DI),高级检索服务(AQ,检索模块客户端 (CLIENT)。见图 1。下面简单说明这个架构的实现方法图中双向箭头表示两者之间建立稳定的网络连接,进行数据的交换。单向箭头表示数据传送方向。数据交换过程如下1. INDEXER根据文档和相关信息建立索引库。2.单机资源限制,需要建立多个索引库,分布到不同机器上。3.索引库对应本机的一组BS/DI服务。BS提供与排序相关的信息,DI提供其余需要显示的信息。4. CLIENT向AS发出查询请求,AS会根据需要访问相关的一组BS取得与排序相关的所有信息,这个过程即是查询分析。并且将各个BS返回的信息进行汇总归并,得到最后的排序结果,并且根据当前的显示位置确定需要显示的具体条目,再访问相关DI取得全部的需要显示的信息,返回给CLIENT。
根据实际应用需求,检索模块具备如下技术要点1.构建服务器hdexer与存储交互,面向数据全集,计算索引超关键字权重。基于 MD5实现索引数据分块。2.从hdexer获取数据,与存储层独立,负责分词、查询、拉链归并、排序等运算。3.同时,从^idexer获取数据,与存储层独立,负责摘要抽取、呈现信息计算等。需要驻留cache。超关键字分布式搜索架构,基本保持了分布式搜索引擎的架构同时,增加了全文匹配算法归并模块(FMM)、多特征抽取评分模块(FE)、和全局特征提取模块(WFE)。智能处理技术一般包括三个过程训练过程、特征提取过程、匹配识别过程。训练过程是通过处理语料(或数据)获得各个特征的参数,计算全局的特征评分;特征提取过程是对特定文本进行分词、词频统计、超关键特征计算,再结合全局特征和局部特征评分;匹配识别过程是对数据的文本提出的特征进行遍历扫描评价出最可能的结果。一般智能识别是一个完整的过程,本发明把这个过程合理的切分开,分布到搜索架构的各个模块,见图2。


4
下面结合附图和实施例对本发明进一步说明。图1是关键字搜索架构关系;图2是超关键字搜索架构关系。
具体实施例方式1.全局特征提取模块是基于多粒度分词和预分类技术完成的。多粒度分词采用基于统计歧义串消岐方法。通过正向最大匹配算法和正确切分结果比对得到歧义串,在进行识别过程时,首先扫描歧义串库,命中后,将库内结果作为正确结果输出一这是歧义串算法描述,本系统对该算法做了改进,应用发现,歧义串本身也是有歧义的,在不同的语言环境中,其歧义结果是不一样的。统计歧义串消岐是将歧义串的上下面用户统计模型,对歧义串的歧义进行消岐,解决了歧义串分词的歧义问题。该方法或者了跟正向最大匹配算法的计算复杂度。保证了搜索的快速同时保持了准确性。预分类技术使用X2统计用户评价全局特征,具体公式如下^KO = ^丨零丨 “4-ΛΧ為^
(A1+A3XA2+A4XA1+A2XA3+A4)其中,A1为训练集合中包含词条W的c类文本数,A2为训练集合中包含词条w的非c类文本数,A3为训练集合中不包含词条w的c类文本数,A4为训练集合中不包含词条w 的非C类文本数,|D|侧为训练集合中总文本数。此公式计算的只是一个单词相对于某一个类的CHI值,它相对于整个文本数据的 CHI值是其相对于所有类CHI值的综合。综合的方式通常有两种,如下所示
MX2^) = Y^Picl) χ2 {w,Ci)
/=1全局提取模块在本发明的架构中植入在索引模块(INDEXER)中,再见索引同时, 完成全局特征提取,复杂度没有增加。2.全文匹配算法归并模块采用夹角余弦的相似算法
m
Jwik* Wtkm
J(|>、)
V κ=ι尺=丨Cli, dj分别是两个向量,即Cli待确定的输入特征,dj为所有问题集中的一句话的特征。W为向量的权值。全文匹配算法归并模块植入BS和AS中,由于结合了现有架构的倒排设计,没有增加算法的复杂度。3.多特征抽取评分模块是一个重要模块,这个模块有两个模块调用,索引器 (INDEXER)再建索引过程获得每篇文档的特征,将这些特征随同倒排表写入到索引库的存储结构中;另一个是对用户输入文本的处理,即查询分析,也同样提取多特征,利用多特征进行搜索归并。本发明对搜索获得了有益的效果架构保持了分布式的特点1.吞吐率;2.可靠性(无单点失效);3.断服务的数
5据重建;4.冗余和备份;5.基础设施易用性。搜索准确性上有了很大提高1.允许输入整个文本或关键词;2.系统对输入全文进行智能提取,获得准确的特征表示;3.系统通过智能匹配或者更符合输入的结果。
权利要求
超关键字分布式搜索方法是一种对文本全文智能匹配的信息检索方法。
1.将智能处理方法的训练和识别过程拆分处理,分别布置在分布式搜索的各个模块中,具有分布式搜索的大数据量处理、高速、高并发服务特点,也具有分布智能的特点。
2.系统输入为整篇文章。系统对文章进行分析,获取超关键字。超关键字是利用整个文本信息,获得有代表的关键字,利用上下文进行消岐处理,超关键字包含关键字本身、关键字消岐结果、关键字重要的程度表示即权重、和关键字之间关系。关键字的消岐结果为关键字及其含义串对;关键字关系为关键字对和关系名。
3.系统将智能处理分割为三个模块全文匹配算法归并模块(FMM)、多特征抽取评分模块(FE)、和全局特征提取模块(WFE),分别对应智能算法的识别过程、特征提取、训练过程。并在分布式搜索中如下配置FMM分配在基础服务器和高级服务器;FE分配在基础服务器的倒排提取过程和高级服务器的查询分析过程;全局特征提取模块(WFE)分配在索引模块当中。
4.应用于职位搜索(找工作),用以获得个人简历的背景信息,利用个人的背景信息搜索符合职位;应用于简历搜索(找人才),用以获得职位的需求信息,利用这些需求信息搜索符合简历。
全文摘要
超关键字分布式搜索是一种对文本全文智能匹配的信息检索。整个文本作为搜索输入,在搜索引擎架构的多个阶段进行智能化融合。系统处理整个文本,获得有代表的关键字,包含关键字本身、关键字消岐结果、关键字权重、和关键字之间关系。系统的智能过程包括全文匹配算法归并模块(FMM)、多特征抽取评分模块(FE)和全局特征提取模块(WFE)。FMM分配在基础服务器和高级服务器;FE分配在基础服务器的倒排提取过程和高级服务器的查询分析过程;全局特征提取模块(WFE)分配在索引模块当中。系统保持了分布式搜索的高数据吞吐率、高可靠性、并发服务等优点,把智能分析技术融入到搜索引擎的各个模块,没有带来额外的搜索复杂度,并提高搜索的相关性。
文档编号G06F17/30GK102243631SQ20101017139
公开日2011年11月16日 申请日期2010年5月13日 优先权日2010年5月13日
发明者吴春尧 申请人:吴春尧
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1