面向搜索引擎的数据处理方法及装置制造方法

文档序号:6504570阅读:145来源:国知局
面向搜索引擎的数据处理方法及装置制造方法
【专利摘要】本发明公开了一种面向搜索引擎的数据处理方法及装置。所述方法包括:对地址查询串进行分词,得到所述地址查询串的分词集合;为所述地址查询串添加地理词词性标注;判断所述地址查询串是否在添加地理词词性标注的位置被分词,如果是,则根据分词集合中的分词,获取未登陆词。相应的,本发明实施例还提供了一种实现所述面向搜索引擎的数据处理方法的装置。本发明提高未登录词识别的效率和准确性。
【专利说明】面向搜索引擎的数据处理方法及装置

【技术领域】
[0001] 本发明涉及搜索引擎数据处理【技术领域】,更具体地说,涉及一种面向搜索引擎的 数据处理方法及装置。

【背景技术】 [0002] 中
[0003] 地址搜索引擎是一种垂直搜索引擎,通过搜集、组织和处理地址信息形成的地址 分词词库为用户提供地址搜索服务。为提供准确的搜索结果,现有技术需要不断对地址分 词词库进行完善,完善地址分词词库的一种方式是识别出未收录到地址分词词库中的地址 并将该地址的相关信息增加至地址分词库,所述未收录到地址分词词库中的地址可称为未 登录词。
[0004] 现有的地址未登陆词的识别,是基于词法规则或统计的方法,其中基于词法规则 的方法是利用人为及固化的词法所进行的识别,但是对于地址类的查询串中的新词,尤其 是店名或品牌名没有固定的形式而容易出现遗漏和识别不准确的情况;统计的方法,通过 单字之间的频率研究成词的可能性,由于大部分地址类的新词出现的频率较低,因而,该种 未登录词识别方法同样存在统计结果不准确的技术缺陷。


【发明内容】

[0005] 有鉴于此,本发明提供一种面向搜索引擎的数据处理方法及装置,以实现提高未 登录词识别效率和准确性的技术目的。
[0006] 本发明实施例提供了一种面向搜索引擎的数据处理方法,所述方法包括:
[0007] 对地址查询串进行分词,得到所述地址查询串的分词集合;
[0008] 在所述地址查询串中,添加地理词词性标注;
[0009] 判断所述地址查询串是否在添加地理词词性标注的位置被分词,如果是,则根据 分词集合中的分词,获取未登陆词。
[0010] 进一步,本发明实施例还提供了一种面向搜索引擎的数据处理装置,所述装置包 括:
[0011] 分词单元,用于对地址查询串进行分词,得到所述地址查询串的分词集合;
[0012] 标注单元,用于在所述地址查询串中,添加地理词词性标注;
[0013] 分词位置判断单元,用于判断所述地址查询串是否在添加地理词词性标注的位置 被分词单元切分,如果是,则触发未登录词获取单元;
[0014] 未登录词获取单元,用于根据分词集合中的分词,获取未登陆词。
[0015] 本发明实施例提供了一种面向搜索引擎的数据处理的技术方案,该方案通过对地 址查询串进行分词,得到所述地址查询串的分词集合;为所述地址查询串添加地理词词性 标注;再通过判断地址查询串是否在添加地理词词性标注的位置被分词,判断出地址查询 串的分词结果与地理词词性标注结果是否存在歧义,如果地址查询串在添加地理词词性标 注的位置被分词,则说明分词结果与地理词词性标注结果不存在歧义,说明地址查询串中 存在未登陆词,再根据分词集合中的分词,获取未登陆词。本发明实施例提供技术方案极大 的改善了现有的识别和统计法发现未登录词准确性较低的技术缺陷,达到了提高未登录词 识别准确性的技术目的;同时,上述实施例无需进行大规模的语料分析与统计处理,具备较 快的未登录词发现速度。

【专利附图】

【附图说明】
[0016] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0017] 图1为本发明实施例公开的一种面向搜索引擎的数据处理方法流程图;
[0018] 图2为本发明实施例公开的一种判断地址查询串是否在添加地理词词性标注的 位置被分词的方法流程图;
[0019] 图3为本发明实施例公开的一种判断是单字的分词能否与其之前一个或之后的 分词结合的方法流程图;
[0020] 图4为本发明实施例公开的一种面向搜索引擎的数据处理装置组成示意图。

【具体实施方式】
[0021] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0022] 请参见图1,是本发明实施例公开的一种面向搜索引擎的数据处理方法,该方法包 括如下步骤:
[0023] 步骤10 :对地址查询串进行分词,得到所述地址查询串的分词集合;
[0024] 在实际应用中,所述地址查询串可以从用户地址查询日志中获取,也可以从其他 记录地址查询串的文件中获取,并不影响本发明实施例的实现。
[0025] 步骤20 :在所述地址查询串中,添加地理词词性标注;
[0026] 其中,在所述地址查询串中,添加地理词词性标注的实现过程具体为:
[0027] 对地址查询串进行以地理词为单位的分词,并在切分得到的分词之后添加地理词 词性标注。
[0028] 在实际应用中,步骤10和步骤20可以同时执行,也可以先执行步骤10再执行步 骤20,或者先执行步骤20再执行步骤10,并不影响本发明实施例的实现。
[0029] 步骤30 :判断地址查询串是否在添加地理词词性标注的位置被分词,如果是,则 进入步骤40,如果否,则结束本流程;
[0030] 步骤40 :根据分词集合中的分词,获取未登陆词。
[0031] 其中,通过步骤30可以判断出地址查询串的分词结果和地理词词性标注结果是 否存在歧义,如果不存在歧义,说明地址查询串中有未登录词。
[0032] 以上是本发明实施例提供的一种面向搜索引擎的数据处理方法,该方法通过判断 分词结果和地理词词性标注结果是否存在歧义,以确定地址查询串中是否存在未登陆词, 并在分词结果和地理词词性标注结果无歧义的情况下,根据分词集合中的分词及其词性标 注,获取未登陆词,该方法极大的改善了现有的识别和统计法发现未登录词准确性较低的 技术缺陷,达到了提高未登录词识别准确性的技术目的;同时,上述实施例无需进行大规模 的语料分析与统计处理,具备较快的未登录词发现速度。
[0033] 在实际应用中,可以采用预置的分词词库对地址查询串进行机械分词并通过隐马 克尔夫算法消除分词歧义,由于预置的分词词库中的分词已带有词性标注(表1所示),因 此,通过分词处理即可完成对地址查询串的分词还可以得到分词的词性。比如,地址查询串 为"天津奥蓝际德酒店",按照本发明实施例提供的分词方式,得到的该地址查询串的分词 集合为"天津/S奥蓝际/H德/H酒店/U",其中,S、H、U为分词的词性,其含义请参见表1, S表示天津的词性是省级地理词,H表示奥蓝际、德的词性是核心词,U表示酒店的词性是后 缀类别词。
[0034] 在实际应用中,可以按照表2所示词性标注规则,为所述地址查询串添加地理词 词性标注,即只在地址查询串中是地理词的词后面添加词性标注。比如,"天津奥蓝际德酒 店"按照表2所示词性标注规则,得到的标注结果为"天津/CS奥蓝际德酒店/0P"。
[0035] 表1分词的词性标注
[0036]

【权利要求】
1. 一种面向搜索引擎的数据处理方法,其特征在于,所述方法包括: 对地址查询串进行分词,得到所述地址查询串的分词集合; 在所述地址查询串中,添加地理词词性标注; 判断所述地址查询串是否在添加地理词词性标注的位置被分词,如果是,则根据分词 集合中的分词,获取未登陆词。
2. 如权利要求1所述的方法,其特征在于,所述判断所述地址查询串是否在添加地理 词词性标注的位置被分词具体包括: 判断所述地址查询串的分词集合中的分词是否满足下述规则,若满足,则所述地址查 询串在添加地理词词性标注的位置被分词: 规则1 :分词集合中分词的长度等于地址查询串中从该分词的首字到所述首字后第一 个地理词词性标注之间的部分地址查询串的长度; 或者, 规则2 :分词集合中分词的长度小于地址查询串中从该分词的首字到所述首字后第一 个地理词词性标注之间的部分地址查询串的长度但该分词与其他分词组合后得到的组合 分词的长度等于从该分词的首字到所述首字后第一个地理词词性标注之间的部分地址查 询串的长度。
3. 如权利要求2所述的方法,其特征在于,所述根据分词集合中的分词,获取未登陆词 具体包括: 根据分词集合中连续的满足所述规则2的分词及其词性标注,获取未登陆词。
4. 如权利要求3所述的方法,其特征在于,所述根据分词集合中连续的满足所述规则2 的分词及其词性标注,获取未登陆词具体包括: 遍历分词集合中连续的满足所述规则2的分词,如果发现是单字的分词,则根据分词 的词性标注,判断所述是单字的分词能否与其之前一个或之后的分词结合,并将能够结合 的分词按照分词在地址查询串中的顺序进行组合后作为未登陆词输出。
5. 如权利要求4所述的方法,其特征在于,所述单字的分词之前一个或之后的分词称 为待考察分词,则所述根据分词的词性标注,判断所述是单字的分词能否与其之前一个或 之后的分词结合具体包括: 判断所述待考察分词是否为单字,如果是,则能够结合,如果否,则判断所述待考察分 词是否由三个以上单字构成,如果是,则不能结合,如果否,则判断所述待考察分词的词性 是否为村庄以及判断所述待考察分词的词性是否为道路; 如果所述待考察分词的词性是村庄且所述待考察分词的尾字是表示村庄的字,则不能 结合; 如果所述待考察分词的词性是村庄但所述待考察分词的尾字不是表示村庄的字,则能 够结合; 如所述待考察分词的词性是道路且所述待考察分词的尾字是表示街道的字,则不能结 合; 如果所述待考察分词的词性是道路但所述待考察分词的尾字不是表示街道的字,则能 够结合; 如果所述待考察分词的词性不是村庄和道路,则判断所述判断待考察分词的词性标注 是否为核心词、限定词、兴趣点词或者类别词,如果不是,则不能结合,如果是且所述待考察 分词不是高频词,则能够结合。
6. -种面向搜索引擎的数据处理装置,其特征在于,所述装置包括: 分词单元,用于对地址查询串进行分词,得到所述地址查询串的分词集合; 标注单元,用于在所述地址查询串中,添加地理词词性标注; 分词位置判断单元,用于判断所述地址查询串是否在添加地理词词性标注的位置被分 词单元切分,如果是,则触发未登录词获取单元; 未登录词获取单元,用于根据分词集合中的分词,获取未登陆词。
7. 如权利要求6所述的装置,其特征在于,所述分词位置判断单元具体用于: 判断所述地址查询串的分词集合中的分词是否满足下述规则,若满足,则所述地址查 询串在添加地理词词性标注的位置被分词单元切分: 规则1 :分词集合中分词的长度等于地址查询串中从该分词的首字到所述首字后第一 个地理词词性标注之间的部分地址查询串的长度; 或者, 规则2 :分词集合中分词的长度小于地址查询串中从该分词的首字到所述首字后第一 个地理词词性标注之间的部分地址查询串的长度但该分词与其他分词组合后得到的组合 分词的长度等于从该分词的首字到所述首字后第一个地理词词性标注之间的部分地址查 询串的长度。
8. 如权利要求7所述的装置,其特征在于,所述未登录词获取单元具体用于: 根据分词集合中连续的满足所述规则2的分词及其词性标注,获取未登陆词。
9. 如权利要求8所述的装置,其特征在于,所述未登录词获取单元具体包括: 单字发现子单元,用于遍历分词集合中连续的满足所述规则2的分词,如果发现是单 字的分词,则触发未登录词获取子单元; 分词结合判断子单元,用于根据分词的词性标注,判断所述是单字的分词能否与其之 前一个或之后的分词结合; 未登陆词获取子单元,用于将所述分词结合判断子单元判断得到的能够结合的分词按 照分词在地址查询串中的顺序进行组合后作为未登陆词输出。
10. 如权利要求9所述的装置,其特征在于,所述单字的分词之前一个或之后的分词称 为待考察分词,则分词结合判断子单元具体包括 : 单字判断子单元,用于判断所述待考察分词是否为单字,如果是,则能够结合,如果否, 则触发字长判断单元; 所述字长判断子单元,用于判断所述待考察分词是否由三个以上单字构成,如果是,则 不能结合,如果否,则触发第一词性判断子单元,用于判断所述待考察分词的词性是否为村 庄以及触发第二词性判断子单元,用于判断所述待考察分词的词性是否为道路; 如果所述待考察分词的词性是村庄且所述待考察分词的尾字是表示村庄的字,则不能 结合; 如果所述待考察分词的词性是村庄但所述待考察分词的尾字不是表示村庄的字,则能 够结合; 如所述待考察分词的词性是道路且所述待考察分词的尾字是表示街道的字,则不能结 合; 如果所述待考察分词的词性是道路但所述待考察分词的尾字不是表示街道的字,则能 够结合; 如果所述待考察分词的词性不是村庄和道路,则触发第三词性判断子单元,用于判断 所述判断待考察分词的词性标注是否为核心词、限定词、兴趣点词或者类别词,如果不是, 则不能结合,如果是且所述待考察分词不是高频词,则能够结合。
【文档编号】G06F17/30GK104239355SQ201310250057
【公开日】2014年12月24日 申请日期:2013年6月21日 优先权日:2013年6月21日
【发明者】郭涛 申请人:高德软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1