一种基于检索词的地域识别装置及方法

文档序号:6339572阅读:171来源:国知局
专利名称:一种基于检索词的地域识别装置及方法
技术领域
本发明涉及互联网技术,特别涉及一种基于检索词的地域识别装置及方法。
技术背景
随着互联网技术的发展,网络地图已成为人们日常生活的一部分。人们可利用网 络地图进行公交路线查找、驾驶导航、街道和建筑物搜索等动作,网络地图的出现极大地便 利了人们的生活。
就现有技术而言,通常,若用户需要在网络地图上查找某个地点名称(如某某街 道、天安门或东方明珠塔等),网络地图往往会先提供城市列表给用户选择,由用户挑选城 市后,然后可在网络地图上输入一个检索词,然后网络地图在用户挑选的城市范围内进行 搜索与检索词匹配的地点名称及相应座标。
另外一些网络地图中,网络地图会根据用户当前使用的电脑的IP地址所在城市 预先定位和限定搜索的范围,然后网络地图在用户电脑的IP地址所属的城市范围内进行 搜索与检索词匹配的地点名称及相应座标。
上述两种网络地图的现有技术均透过预先限定搜索范围而非在全部地图范围内 进行搜索,来加速搜索的响应时间。然而,若用户当前使用的电脑的IP地址所在城市为广 州市时(又或者是用户在网络地图上手动选择了特定城市为广州市),在网络地图上输入 检索词为“天安门”,想在网络地图上获得北京天安门广场的地图信息时,网络地图却会限 定在广州市内对标示有“天安门”的所有街道、建筑以及地名进行查询,可能会输出一系列 与天安门不相关的街道、建筑或地名,如天安门大酒店、天安门大道等,与用户想要检索到 的城市“北京市”不符。
由此可见,现有技术中的网络地图难以精确定位检索词所描述的地域,举例来说, 若用户仅知道地点名称,却不知道所在城市的情况,所输入的检索词在现有技术的搜索结 果难以精准定位到检索词所在城市,造成用户为了查找到检索词所在城市,需要不断修正 检索词或者点选多次的搜索结果才能得知检索词所在城市,导致网络地图服务器资源占 用,以及网络流量浪费等问题。发明内容
本发明提供了 一种基于检索词的地域识别装置及方法,可解决现有技术中的网络 地图难以精确定位检索词所描述的地域的技术问题。
具体方案如下提供一种基于检索词的地域识别方法,包括a.获取检索词;b.对 检索词进行扩充,获得描述检索词的描述文本信息;c.从描述文本信息提取第一地域特征 词集合;d.根据描述文本信息计算第一地域特征词集合中每一第一地域特征词对应的权 值,形成第一地域特征向量;e.根据第一地域特征词集合获取多个备选地域,按照行政区 域分别对多个备选地域进行扩展,以获取多个与备选地域相关的不同行政区域级别的第二 地域特征词集合,并根据行政区域级别计算多个第二地域特征词集合中每一第二地域特征词的权值,形成多个第二地域特征向量;f.分别将多个第二地域特征向量与第一地域特征 向量进行相似度计算,并根据计算结果判断检索词的对应地域。
根据本发明之一优选实施例,在步骤b中,利用搜索引擎搜索与检索词相关的网 页信息,并将网页信息作为描述文本信息。
根据本发明之一优选实施例,在步骤C中,根据地域特征词典对描述文本信息进 行匹配搜索,以获取第一地域特征词。
根据本发明之一优选实施例,在步骤d中,根据描述文本信息利用TF-IDF算法计 算第一地域特征词对应的TF-IDF权值,以形成第一地域特征向量。
根据本发明之一优选实施例,在步骤e中,利用聚类算法从第一地域特征词集合 提取备选地域。
根据本发明之一优选实施例,在步骤e中,行政区域级别越低的第二地域特征词 的权值越大。
根据本发明之一优选实施例,在步骤f中,利用余弦相似度计算公式分别对多个 第二地域特征向量与第一地域特征向量进行余弦相似度计算,以获得多个余弦相似度值。
根据本发明之一优选实施例,在步骤f中,进一步判断多个余弦相似度值中的最 大值与其他余弦相似度值的区别度是否符合预定标准,若区别度符合预定标准,则将最大 值对应的备选地域作为检索词的对应地域。
根据本发明之一优选实施例,在步骤f中,判断最大值是否大于第一阈值,并判断 最大值与多个余弦相似度值的求和值之间的比例是否大于第二阈值,若最大值大于第一阈 值且比例大于第二阈值,则判定区别度符合预定标准。
本发明进一步提供一种基于检索词的地域识别装置,包括检索词获取模块,用于 获取检索词;检索词扩充模块,用于对检索词进行扩充,获得描述检索词的描述文本信息; 第一地域特征词获取模块,用于从描述文本信息提取第一地域特征词集合,第一地域特征 向量获取模块,用于根据描述文本信息计算第一地域特征词集合中每一第一地域特征词 对应的权值,形成第一地域特征向量;第二地域特征向量获取模块,包括备选地域获取模 块,用于根据第一地域特征词集合获取多个备选地域;第二地域特征词获取模块,用于按照 行政区域分别对多个备选地域进行扩展,以获取多个与备选地域相关的不同行政区域级别 的第二地域特征词集合;第二地域特征词权值计算模块,用于根据行政区域级别计算多组 第二地域特征词集合中每一第二地域特征词的权值,形成多个第二地域特征向量;相似度 计算模块,用于分别将多个第二地域特征向量与第一地域特征向量进行相似度计算,并根 据计算结果判断检索词的对应地域。
根据本发明之一优选实施例,检索词扩充模块利用搜索引擎搜索与检索词相关的 网页信息,并将网页信息作为描述文本信息。
根据本发明之一优选实施例,第一地域特征词获取模块用于根据地域特征词典对 描述文本信息进行匹配搜索,以获取第一地域特征词。
根据本发明之一优选实施例,第一地域特征向量获取模块用于根据描述文本信息 利用TF-IDF算法计算第一地域特征词对应的TF-IDF权值,以形成第一地域特征向量。
根据本发明之一优选实施例,备选地域获取模块利用聚类算法从第一地域特征词 集合提取备选地域。
根据本发明之一优选实施例,第二地域特征词权值计算模块的权值计算规则为 行政区域级别越低的第二地域特征词的权值越大。
根据本发明之一优选实施例,相似度计算模块包括余弦相似度计算模块,余弦相 似度计算模块利用余弦相似度计算公式分别对多个第二地域特征向量与第一地域特征向 量进行余弦相似度计算,以获得多个余弦相似度值。
根据本发明之一优选实施例,相似度计算模块进一步包括判断模块,判断模块用 于判断多个余弦相似度值中的最大值与其他余弦相似度值的区别度是否符合预定标准,若 区别度符合预定标准,则将最大值对应的备选地域作为检索词的对应地域。
根据本发明之一优选实施例,判断模块用于判断最大值是否大于第一阈值,并判 断最大值与多个余弦相似度值的求和值之间的比例是否大于第二阈值,若最大值大于第一 阈值且比例大于第二阈值,则判定区别度符合预定标准。
因此,本发明提供的技术方案可准确获取与检索词所描述最为接近的地域,保证 了网络地图可在与检索词所描述最为接近的地域进行搜索,即用户在网络地图输入想要查 找目的地的检索词后,本发明提供的基于检索词的地域识别装置及方法可精确定位检索词 所描述的地域(如省、城市、县、区等),网络地图可在该地域上进行搜索,以向用户呈现目 标地域中的搜索结果。


图1是根据本发明第一实施例的基于检索词的地域识别方法的流程图2是根据本发明第一实施例的基于检索词的地域识别方法中的形成第二地域 特征向量的流程图3是根据本发明第二实施例的基于检索词的地域识别装置的示意框图4是根据本发明第二实施例的基于检索词的地域识别装置的相似度计算模块 的示意框图5是根据本发明第三实施例的基于检索词的地域识别装置的示意框图;以及
图6是根据本发明第四实施例的基于检索词的地域识别装置的示意框图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对 本发明进行详细描述。
请参见图1,图1是根据本发明第一实施例的基于检索词的地域识别方法的流程 图。如图1所示,根据本发明第一实施例的基于检索词的地域识别方法包括如下步骤
步骤101,获取检索词。在本发明的优选实施例中,检索词可为用户输入至网络地 图进行查询的地点名称(如街道、建筑物、路标等),举例而言,用户可输入“罗阳五村”至网 络地图进行查询。
步骤102,对检索词进行扩充,获得描述检索词的描述文本信息。在本发明的优选 实施例中,可利用搜索引擎搜索与检索词相关的网页信息,并将网页信息作为描述文本信 息。具体而言,可对搜索引擎搜索到的与检索词相关的特定个数的页面的网页信息进行分 析,如可取搜索引擎搜索到的与检索词相关的前10页的网页信息作为检索词的描述文本信息。如,当用户输入检索词为“罗阳五村”时,可利用搜索引擎搜索带有“罗阳五村”检索 词的网页信息,并截取前10页作为描述文本信息。
步骤103,从描述文本信息提取第一地域特征词集合。在本发明的优选实施例中, 可根据地域特征词典对描述文本信息进行匹配搜索,以获取第一地域特征词集合,其中,地 域特征词典中记录有地域特征词,如某某省、某某市、某某县、某某区、某某街道、某某建筑 物、某某路标等,当在描述文本信息中发现有在地域特征词典中记录的地域特征词时,就将 该描述文本信息中对应的地域特征词作为第一地域特征词,从而提取多个第一地域特征词 以组成第一地域特征词集合。因此,在对描述文本信息进行匹配搜索后,可提取第一地域特 征词集合。优选地,第一地域特征词集合是由复数个不重复的第一地域特征词所组成,并且 第一地域特征词集合不包含检索词。如,承步骤102中所举例子,在利用搜索引擎搜索带有 “罗阳五村”检索词的网页信息,并截取前10页作为描述文本信息后,可利用地域特征词典 对描述文本信息进行匹配搜索,以获取复数个不重复的第一地域特征词,以形成第一地域 特征词集合。其中,第一地域特征词集合可例如为{上海闵行闵行区上海市徐汇莲 花广州方正长宁区瑞丽奉贤区}。
步骤104,根据描述文本信息计算第一地域特征词集合中每一第一地域特征词 对应的权值,形成第一地域特征向量。其中,检索词可以作为第一地域特征向量的名称或 者识别信息。具体来说,计算第一地域特征词对应的权值的算法可使用现有技术的词频 统计、词的知名度加权、TF-IDF等方法。在本发明的优选实施例中,可利用TF-IDF (Term Frequency-InverseDocument Frequency,词频-逆文件频率)算法计算第一地域特征词集 合中每一第一地域特征词对应的TF-IDF权值,以形成第一地域特征向量。
因此,在第一地域特征词集合为{上海闵行闵行区上海市徐汇莲花广州 方正长宁区瑞丽奉贤区}时,在算得其权值后所形成的第一地域特征向量如下(为节省 篇幅,将计算过程略去,其计算方法可利用如上所述的词频统计、词的知名度加权、TF-IDF 等方法,并且提供以下权值以作参考)
罗阳五村{{上海183. 84} {闵行136.83} {闵行区:67· 54} {上海市:15.55} {徐汇10. 39} {莲花10. 39} {广州4. 24} {方正3. 46} {长宁区3. 46} {瑞丽1. 73} {奉 贤区1.73}}
步骤105,根据第一地域特征词集合形成多个第二地域特征向量。
以下将参见图2对步骤105作进一步说明,图2是根据本发明第一实施例的基于 检索词的地域识别方法的形成第二地域特征向量的流程图,其为步骤105中形成第二地域 特征向量的优选方法。
如图2所示,形成第二地域特征向量的流程包括
步骤1051,根据第一地域特征词集合获取多个备选地域。
步骤1052,按照行政区域分别对多个备选地域进行扩展,以获取多个与备选地域 相关的不同行政区域级别的第二地域特征词集合。
步骤1053,根据行政区域级别计算多个第二地域特征词集合中每一第二地域特征 词对应的权值,形成多个第二地域特征向量。
其中,在步骤1051中,可利用现有技术中的聚类算法从第一地域特征词集合提取 备选地域,该备选地域应为同一级别的行政区域,如省、城市、县、区中的任意一者。当备选地域的行政区域级别设定为“城市”时,可根据聚类算法将第一地域特征词集合中的城市提 取出来。
比方,当第一地域特征词中包含“深南路” 一词时,通过聚类算法,可将其所对应的 城市“深圳市”提取出来,同样地,当第一地域特征词中包含“东方明珠塔”一词时,通过聚 类算法,亦可将其所对应的城市“上海市”提取出来。以上所举之例子以“城市”作为备选 地域的行政区域级别,但,备选地域亦可根据需要设置为不同的行政区域级别,如省、县、区 等等,因此,若选取“区”作为备选地域的行政区域级别时,若第一地域特征词中包含“东方 明珠塔”一词时,通过聚类算法,可将其对应的区“浦东新区”提取出来。
因此,在本实施例中,以“城市”作为备选地域的行政区域级别,因此,在第一地域 特征词集合为{上海闵行闵行区上海市徐汇莲花广州方正长宁区瑞丽奉贤区} 时,可根据第一地域特征词集合获取多个备选地域如下
{上海市萍乡市广州市哈尔滨市}
具体来说,步骤1051所使用的聚类算法可例如为以下任一种皆可凝聚聚类算 法、划分式聚类算法、基于密度的聚类算法、网格聚类算法。值得注意的是,本发明并不限定 所采用的聚类算法,只要可以保证所采用算法能将第一地域特征词归类在一起即可,聚类 算法为本领域公知常识,在此不再赘述。
在步骤1052中,当按照行政区域分别对多个备选地域进行扩展时,具体可通过查 询地域特征词典进行扩展,如当利用聚类算法从第一地域特征词集合中提取的备选地域以 “城市”作为行政区域级别时,可进一步查询该城市中的所有县、区或所在省,以获取多个与 备选地域相关的不同行政区域级别的第二地域特征词,以形成多个备选地域相对应的第二 地域特征词集合。优选地,第二地域特征词集合是由复数个不重复的第二地域特征词所组 成。
在本实施例中,步骤1051获取的多个备选地域如下
{上海市萍乡市广州市哈尔滨市}
步骤1052根据每个备选地域获得相应的第二地域特征词集合如下
上海市{上海市上海宝山区宝山南汇区南汇浦东新区浦东杨浦区杨 浦闵行区闵行......}
萍乡市{江西省江西萍乡市萍乡莲花县莲花......}
广州市......
哈尔滨市......
在步骤1053中,根据行政区域级别计算多个第二地域特征词集合中每一第二地 域特征词对应的权值,形成多个第二地域特征向量。其中,在本发明的优选实施例中,可定 义行政区域级别越低的第二地域特征词的权值越大,并且,备选地域可以作为第二地域特 征向量的名称或者识别信息。因此,算得其权值后所形成的第二地域特征向量如下
上海市{{上海市4} {上海3} {宝山区6} {宝山5} {南汇区6} {南汇:5} {浦 东新区6} {浦东5} {杨浦区6} {杨浦5} {闵行区6} {闵行5}......}
萍乡市{{江西省2} {江西1} {萍乡市4} {萍乡3} {莲花县6} {莲花 5}......}
广州市......
哈尔滨市......
因此,本发明优选利用图2中之步骤1051-1053形成多个第二地域特征向量。
请继续参见图1,步骤106,其分别将多个第二地域特征向量与第一地域特征向量 进行相似度计算,并根据计算结果判断检索词的对应地域。
在本发明的优选实施例中,可利用余弦相似度计算公式分别对多个第二地域特征 向量与第一地域特征向量进行余弦相似度计算,以获得多个余弦相似度值。并且,可判断多 个余弦相似度值中的最大值与其他余弦相似度值的区别度是否符合预定标准,若区别度符 合预定标准,则将最大值对应的备选地域作为检索词的对应地域,进一步地,更可判断最大 值是否大于第一阈值,并判断最大值与多个余弦相似度值的求和值之间的比例是否大于第 二阈值,若最大值大于第一阈值且比例大于第二阈值,则判定区别度符合预定标准,从而输 出对应地域。
具体地,余弦相似度计算公式可为
权利要求
1.一种基于检索词的地域识别方法,其特征在于,包括a.获取所述检索词;b.对所述检索词进行扩充,获得描述所述检索词的描述文本信息;c.从所述描述文本信息提取第一地域特征词集合;d.根据所述描述文本信息计算所述第一地域特征词集合中每一第一地域特征词对应 的权值,形成第一地域特征向量;e.根据所述第一地域特征词集合获取多个备选地域,按照行政区域分别对所述多个备 选地域进行扩展,以获取多个与所述备选地域相关的不同行政区域级别的第二地域特征词 集合,并根据行政区域级别计算所述多个第二地域特征词集合中每一第二地域特征词的权 值,形成多个第二地域特征向量;f.分别将所述多个第二地域特征向量与所述第一地域特征向量进行相似度计算,并根 据计算结果判断所述检索词的对应地域。
2.根据权利要求1所述的方法,其特征在于,在所述步骤b中,利用搜索引擎搜索与所 述检索词相关的网页信息,并将所述网页信息作为所述描述文本信息。
3.根据权利要求1所述的方法,其特征在于,在所述步骤c中,根据地域特征词典对所 述描述文本信息进行匹配搜索,以获取所述第一地域特征词。
4.根据权利要求1所述的方法,其特征在于,在所述步骤d中,根据所述描述文本信息 利用TF-IDF算法计算所述第一地域特征词对应的TF-IDF权值,以形成所述第一地域特征 向量。
5.根据权利要求1所述的方法,其特征在于,在所述步骤e中,利用聚类算法从所述第 一地域特征词集合提取所述备选地域。
6.根据权利要求5所述的方法,其特征在于,在所述步骤e中,行政区域级别越低的第 二地域特征词的权值越大。
7.根据权利要求1所述的方法,其特征在于,在所述步骤f中,利用余弦相似度计算公 式分别对所述多个第二地域特征向量与所述第一地域特征向量进行余弦相似度计算,以获 得多个余弦相似度值。
8.根据权利要求7所述的方法,其特征在于,在所述步骤f中,进一步判断所述多个余 弦相似度值中的最大值与其他余弦相似度值的区别度是否符合预定标准,若所述区别度符 合所述预定标准,则将所述最大值对应的备选地域作为所述检索词的对应地域。
9.根据权利要求8所述的方法,其特征在于,在所述步骤f中,判断所述最大值是否大 于第一阈值,并判断所述最大值与所述多个余弦相似度值的求和值之间的比例是否大于第 二阈值,若所述最大值大于所述第一阈值且所述比例大于所述第二阈值,则判定所述区别 度符合所述预定标准。
10.一种基于检索词的地域识别装置,其特征在于,包括检索词获取模块,用于获取所述检索词;检索词扩充模块,用于对所述检索词进行扩充,获得描述所述检索词的描述文本信息;第一地域特征词获取模块,用于从所述描述文本信息提取第一地域特征词集合;第一地域特征向量获取模块,用于根据所述描述文本信息计算所述第一地域特征词集合中每一第一地域特征词对应的权值,形成第一地域特征向量;第二地域特征向量获取模块,包括备选地域获取模块,用于根据所述第一地域特征词集合获取多个备选地域;第二地域特征词获取模块,用于按照行政区域分别对所述多个备选地域进行扩展,以 获取多个与所述备选地域相关的不同行政区域级别的第二地域特征词集合;第二地域特征词权值计算模块,用于根据行政区域级别计算所述多个第二地域特征词 集合中每一第二地域特征词的权值,形成多个第二地域特征向量;相似度计算模块,用于分别将所述多个第二地域特征向量与所述第一地域特征向量进 行相似度计算,并根据计算结果判断所述检索词的对应地域。
11.根据权利要求10所述的装置,其特征在于,所述检索词扩充模块利用搜索引擎搜 索与所述检索词相关的网页信息,并将所述网页信息作为所述描述文本信息。
12.根据权利要求10所述的装置,其特征在于,所述第一地域特征词获取模块用于根 据地域特征词典对所述描述文本信息进行匹配搜索,以获取所述第一地域特征词。
13.根据权利要求10所述的装置,其特征在于,所述第一地域特征向量获取模块用于 根据所述描述文本信息利用TF-IDF算法计算所述第一地域特征词对应的TF-IDF权值,以 形成所述第一地域特征向量。
14.根据权利要求10所述的装置,其特征在于,所述备选地域获取模块利用聚类算法 从所述第一地域特征词集合提取所述备选地域。
15.根据权利要求14所述的装置,其特征在于,所述第二地域特征词权值计算模块的 权值计算规则为行政区域级别越低的第二地域特征词的权值越大。
16.根据权利要求10所述的装置,其特征在于,所述相似度计算模块包括余弦相似度 计算模块,所述余弦相似度计算模块利用余弦相似度计算公式分别对所述多个第二地域特 征向量与所述第一地域特征向量进行余弦相似度计算,以获得多个余弦相似度值。
17.根据权利要求16所述的装置,其特征在于,所述相似度计算模块进一步包括判断 模块,所述判断模块用于判断所述多个余弦相似度值中的最大值与其他余弦相似度值的区 别度是否符合预定标准,若所述区别度符合所述预定标准,则将所述最大值对应的备选地 域作为所述检索词的对应地域。
18.根据权利要求17所述的装置,其特征在于,所述判断模块用于判断所述最大值是 否大于第一阈值,并判断所述最大值与所述多个余弦相似度值的求和值之间的比例是否大 于第二阈值,若所述最大值大于所述第一阈值且所述比例大于所述第二阈值,则判定所述 区别度符合所述预定标准。
全文摘要
本发明提供一种基于检索词的地域识别装置及方法,该方法包括获取检索词;扩充检索词,获得描述检索词的描述文本信息;从描述文本信息提取第一地域特征词集合;根据描述文本信息计算第一地域特征词对应的权值,形成第一地域特征向量;根据第一地域特征词集合获取多个备选地域,按照行政区域分别对多个备选地域进行扩展,获取多个与备选地域相关的不同行政区域级别的第二地域特征词集合,根据行政区域级别计算多个第二地域特征词的权值,形成多个第二地域特征向量;分别将多个第二地域特征向量与第一地域特征向量进行相似度计算,根据计算结果判断检索词的对应地域。通过以上方式,可精确定位检索词所描述地域。
文档编号G06F17/30GK102033947SQ20101060068
公开日2011年4月27日 申请日期2010年12月22日 优先权日2010年12月22日
发明者张绍文, 蔡华纯 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1