一种兴趣点搜索方法和装置的制造方法_3

文档序号:8361494阅读:来源:国知局
将该地址级别片段对应的行政区划的城市代码替换所述预设的城市代码。
[0077]例如:步骤103中的地址级别片段为:“南京”;“北京市”;“大饭店”,由于第I个地址级别片段“南京”的行政区划级别与第2个地址级别片段“北京市”的行政区划级别相同均为市级,即行政级区划级别最高的地址级别片段有两个,则将第一个带有行政区划后缀的“北京市”的城市代码010替换预设的城市代码。还例如:步骤103中的地址级别片段为:“上海市”、“大厦”,预设的城市代码为010,则由于地址级别片段“上海市”的行政区划级别与该城市代码对应的城市的行政区划级别相同,且该地址级别片段带有行政区划后缀,因此将该地址级别片段“上海市”对应的城市代码021替换所述预设城市代码010。
[0078]优选地,本发明实施例中,为避免由于过渡解析查询词导致搜索结果不准确的问题,针对非地址串是一个可修饰类别词,则说明之前的地理编码进行了过度解析,如将原本不应该当成行政区划的字段解析成了行政区划,比如“上海华亭宾馆”中的“华亭”解析成了“华亭镇”;将“北京海淀医院”中的“海淀”解析成了 “海淀区”,而事实上“华亭”和“海淀”在文中均属于修饰词,因此,针对该种情况,本发明实施例在所述非地址串的前一个地址级别片段不带行政区划后缀,将所述非地址串与其前一个地址级别片段进行合并,得到新的非地址串。如查询词为“上海华亭宾馆”,地址级别标注结果为“上海;华亭;宾馆”,其中“宾馆”是非地址串,该非地址串的前一个地址级别片段“华亭”不带行政区划后缀,因此将非地址串“宾馆”与其前一个地址级别片段合并成新的非地址串为“华亭宾馆”,对排序后的地址级别片段中除所述新的非地址串的其他地址级别片段“上海”进行地理编码,得到新的地理编码信息,根据新的地理编码信息中的地理范围修正所述对修正后的查询词进行地理编码得到的地理编码信息中的地理范围。因此,前述步骤106中,将所述行政地址级别信息与所述排序后的地址级别片段进行比较,根据比较结果对所述地理范围进行修正,其具体实现可参见图2所示的方法流程,方法包括:
[0079]步骤1061、确定出排序后的地址级别片段中与地理编码信息中行政地址级别片段信息内容一致的地址级别片段,并将内容一致的地址级别片段中行政区划级别最低的地址级别片段的行政区划级别作为临界级别;
[0080]步骤1062、将排序后的地址级别片段中行政区划级别低于所述临界级别的地址级别片段合并为一个非地址串;
[0081]步骤1063、当所述非地址串不为门牌号,且为可修饰词时,则:若所述非地址串的前一个地址级别片段不带行政区划后缀,将所述非地址串与其前一个地址级别片段进行合并,得到新的非地址串;
[0082]步骤1064、对排序后的地址级别片段中除所述新的非地址串的其他地址级别片段进行地理编码,得到新的地理编码信息,根据新的地理编码信息中的地理范围修正所述对修正后的查询词进行地理编码得到的地理编码信息中的地理范围。
[0083]例如:地理编码信息中的行政区划级别信息为“广东省”、“广州市”、“荔湾区”、“解放7路广东国际眼镜贸易中心”,排序后的地址级别片段为“广东省”、“广州市”、“荔湾区”、“解放”、“7路”、“广东国际眼镜贸易中心”,对比两者内容一致地址级别片段为“广东省”“广州市”“荔湾区”,其中“荔湾区”的行政区划级别最低,为临界级别。其他的地址级别片段的行政区划级别低于临界级别,因此将其他的地址级别片段合并成“解放路7号广东国际眼镜贸易中心”,该“解放路7号广东国际眼镜贸易中心”为非地址串。
[0084]例如,修正后的查询词为“上海市华亭宾馆”,对该“上海市华亭宾馆”进行地理编码,得到的地理编码信息为:
[0085]a)省份:上海市
[0086]b)城市:
[0087]c)区县:嘉定区
[0088]d)地址:华亭镇
[0089]e)城市代码:310114
[0090]f)地址串前的非地址串:
[0091]g)地址串后的非地址串:宾馆
[0092]h)地址串识别出的最小级别:城镇级
[0093]i)经度:121.284212
[0094]j)纬度:31.469376
[0095]k)范围:2432m
[0096]I)地理编码识别可靠度:0.827586
[0097]将地理编码信息中的行政地址级别信息“上海市”、“嘉定区”、“华亭镇”与排序后的地址级别片段“上海市”、“华亭宾馆”进行比较可知,两者的临界级别为市级,“华亭宾馆”为非地址串,该非地址串的前一个地址级别片段带有行政区划后缀,不需要对该非地址串进行处理,因此,对除非地址级别片段的其他地址级别片段“上海市”进行地理编码,得到新的地理编码信息如下:
[0098]a)省份:上海市
[0099]b)城市:
[0100]c)区县:
[0101]d)地址:
[0102]e)城市代码:310000
[0103]f)地址串前的非地址串:
[0104]g)地址串后的非地址串:
[0105]h)地址串识别出的最小级别:省级
[0106]i)经度:121.472644
[0107]j)纬度:31.231706
[0108]k)范围:76471m
[0109]I)地理编码识别可靠度:1.00000。
[0110]再根据新的地理编码信息对原地理编码信息中的地理范围进行修正。
[0111]优选地,当非地址串是一个数字+量词的门牌号字段时,本发明实施例则可以直接删除该非地址串,并将删除后非地址串的查询词进行地理编码,如“北京市海淀区北四环西路105号”,这里的非地址串为“105号”,可以直接去除“105号”,对“北京市海淀区北四环西路”进行地理编码。
[0112]优选地,本发明实施例中,前述步骤107中,根据修正后的查询词,在修正后的地理编码信息中的地理范围内进行兴趣点搜索,具体包括:将所述修正后的查询词作为关键词,在修正后的地理范围内进行兴趣点搜索;若有结果,则将该结果确定为搜索结果;若无结果,则对所述修正后的查询词进行切分,得到组成所述查询词的分词,并根据组成所述查询词的分词在所述修正后的地理范围内进行兴趣点搜索。
[0113]优选地,为快速、有效的完成兴趣点搜索,本发明实施例中,在对修正后的查询词进行切分得到多个分词时,对该多个分词赋予相同的权重;再依次判断各分词是否为地址名词,若是则降低该分词的权重,若不是则增加所述分词的权重;最后再根据权重大于预设权重阈值的分词在所述修正后的地理范围内进行兴趣点搜索。如:将切分后得到的分词的权重设置为100% ;如果地理编码结果中包含该分词则说明该分词为地址名词,则将其权重降为50%,若地址编码结果中不包含该分词则说明该分词不是地址名词,则将该分词的权重上升为150% ;比如分词结果为“广东省”、“广州市”、“荔湾区”、“光复中路”、“313号”、“广东”、“国际”、“眼镜”、“贸易”、“中心”,地理编码结果中包括“广东省”、“广州市”、“荔湾区”,则该三个分词“广东省”、“广州市”、“荔湾区”的权重降为50%,其余分词的权重设置为150%。
[0114]优选地,为提高用于搜索的分词的准确性和提高搜索结果的全面性,本发明实施例,在确定出权重值大于权重阈值的分词之后,从预设的同义词列表中获取该分词的同义词,如权重值大于权重阈值的分词为“酒店”,则获取其同义词为“酒楼”、“宾馆”等,并在以“酒店”为关键词进行搜索之后,还以其同义词“酒楼”、“宾馆”进行搜索。
[0115]优选地,为进一步确保查询词的准确性,本发明实施例,还可以在图1所示的方法流程中的步骤101与步骤102之间还包括以下步骤1lA?步骤101D,如图3所示:
[0116]步骤101A、判断所述查询词是否包含预置的特殊词,若包含则执行步骤101B,若否则执行步骤101C。
[0117]步骤101B、将该特殊词按照预置的转换规则,转换成与该特殊词对应的常规词。
[0118]如特殊词为“市区”,则预置的转换规则为将该“市区”替换为当前所在城市的名称;还如:特殊词为POI的简称,则预置的转换规则为将该简称替换成相应POI的全称,如特殊词为“北大”,则需要将该“北大”替换为北京大学。
[0119]步骤101C、判断所述查询词是否为预置的特定名词,若是则执行步骤101D,若否则执行步骤102。
[0120]步骤101D、以该特定名词为关键词进行兴趣点搜索。
[0121]本发明实施例中,特定名词为与城市结合紧密的名词,其一般代表一个实际存在的地址,如“天安门”、“南京火车站”等。
[0122]为更清楚、详细的描述本发明技术方案,下面以一具体实例,对本发明技术方案进行描述,该实例中,在预设城市代码为010 (北京)查询“华亭宾馆上海市”,采用本发明技术方案的方法流程如图4所示:
[0123]步骤401、接收查询词“华亭宾馆上海市”
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1