一种基于检索词的地域识别装置及方法

文档序号：6339572阅读：171来源：国知局

专利名称：一种基于检索词的地域识别装置及方法
技术领域：
本发明涉及互联网技术，特别涉及一种基于检索词的地域识别装置及方法。
技术背景
随着互联网技术的发展，网络地图已成为人们日常生活的一部分。人们可利用网络地图进行公交路线查找、驾驶导航、街道和建筑物搜索等动作，网络地图的出现极大地便利了人们的生活。
就现有技术而言，通常，若用户需要在网络地图上查找某个地点名称(如某某街道、天安门或东方明珠塔等)，网络地图往往会先提供城市列表给用户选择，由用户挑选城市后，然后可在网络地图上输入一个检索词，然后网络地图在用户挑选的城市范围内进行搜索与检索词匹配的地点名称及相应座标。
另外一些网络地图中，网络地图会根据用户当前使用的电脑的IP地址所在城市预先定位和限定搜索的范围，然后网络地图在用户电脑的IP地址所属的城市范围内进行搜索与检索词匹配的地点名称及相应座标。
上述两种网络地图的现有技术均透过预先限定搜索范围而非在全部地图范围内进行搜索，来加速搜索的响应时间。然而，若用户当前使用的电脑的IP地址所在城市为广州市时(又或者是用户在网络地图上手动选择了特定城市为广州市)，在网络地图上输入检索词为“天安门”，想在网络地图上获得北京天安门广场的地图信息时，网络地图却会限定在广州市内对标示有“天安门”的所有街道、建筑以及地名进行查询，可能会输出一系列与天安门不相关的街道、建筑或地名，如天安门大酒店、天安门大道等，与用户想要检索到的城市“北京市”不符。
由此可见，现有技术中的网络地图难以精确定位检索词所描述的地域，举例来说，若用户仅知道地点名称，却不知道所在城市的情况，所输入的检索词在现有技术的搜索结果难以精准定位到检索词所在城市，造成用户为了查找到检索词所在城市，需要不断修正检索词或者点选多次的搜索结果才能得知检索词所在城市，导致网络地图服务器资源占用，以及网络流量浪费等问题。发明内容
本发明提供了一种基于检索词的地域识别装置及方法，可解决现有技术中的网络地图难以精确定位检索词所描述的地域的技术问题。
具体方案如下提供一种基于检索词的地域识别方法，包括a.获取检索词；b.对检索词进行扩充，获得描述检索词的描述文本信息；c.从描述文本信息提取第一地域特征词集合；d.根据描述文本信息计算第一地域特征词集合中每一第一地域特征词对应的权值，形成第一地域特征向量；e.根据第一地域特征词集合获取多个备选地域，按照行政区域分别对多个备选地域进行扩展，以获取多个与备选地域相关的不同行政区域级别的第二地域特征词集合，并根据行政区域级别计算多个第二地域特征词集合中每一第二地域特征词的权值，形成多个第二地域特征向量；f.分别将多个第二地域特征向量与第一地域特征向量进行相似度计算，并根据计算结果判断检索词的对应地域。
根据本发明之一优选实施例，在步骤b中，利用搜索引擎搜索与检索词相关的网页信息，并将网页信息作为描述文本信息。
根据本发明之一优选实施例，在步骤C中，根据地域特征词典对描述文本信息进行匹配搜索，以获取第一地域特征词。
根据本发明之一优选实施例，在步骤d中，根据描述文本信息利用TF-IDF算法计算第一地域特征词对应的TF-IDF权值，以形成第一地域特征向量。
根据本发明之一优选实施例，在步骤e中，利用聚类算法从第一地域特征词集合提取备选地域。
根据本发明之一优选实施例，在步骤e中，行政区域级别越低的第二地域特征词的权值越大。
根据本发明之一优选实施例，在步骤f中，利用余弦相似度计算公式分别对多个第二地域特征向量与第一地域特征向量进行余弦相似度计算，以获得多个余弦相似度值。
根据本发明之一优选实施例，在步骤f中，进一步判断多个余弦相似度值中的最大值与其他余弦相似度值的区别度是否符合预定标准，若区别度符合预定标准，则将最大值对应的备选地域作为检索词的对应地域。
根据本发明之一优选实施例，在步骤f中，判断最大值是否大于第一阈值，并判断最大值与多个余弦相似度值的求和值之间的比例是否大于第二阈值，若最大值大于第一阈值且比例大于第二阈值，则判定区别度符合预定标准。
本发明进一步提供一种基于检索词的地域识别装置，包括检索词获取模块，用于获取检索词；检索词扩充模块，用于对检索词进行扩充，获得描述检索词的描述文本信息；第一地域特征词获取模块，用于从描述文本信息提取第一地域特征词集合，第一地域特征向量获取模块，用于根据描述文本信息计算第一地域特征词集合中每一第一地域特征词对应的权值，形成第一地域特征向量；第二地域特征向量获取模块，包括备选地域获取模块，用于根据第一地域特征词集合获取多个备选地域；第二地域特征词获取模块，用于按照行政区域分别对多个备选地域进行扩展，以获取多个与备选地域相关的不同行政区域级别的第二地域特征词集合；第二地域特征词权值计算模块，用于根据行政区域级别计算多组第二地域特征词集合中每一第二地域特征词的权值，形成多个第二地域特征向量；相似度计算模块，用于分别将多个第二地域特征向量与第一地域特征向量进行相似度计算，并根据计算结果判断检索词的对应地域。
根据本发明之一优选实施例，检索词扩充模块利用搜索引擎搜索与检索词相关的网页信息，并将网页信息作为描述文本信息。
根据本发明之一优选实施例，第一地域特征词获取模块用于根据地域特征词典对描述文本信息进行匹配搜索，以获取第一地域特征词。
根据本发明之一优选实施例，第一地域特征向量获取模块用于根据描述文本信息利用TF-IDF算法计算第一地域特征词对应的TF-IDF权值，以形成第一地域特征向量。
根据本发明之一优选实施例，备选地域获取模块利用聚类算法从第一地域特征词集合提取备选地域。
根据本发明之一优选实施例，第二地域特征词权值计算模块的权值计算规则为行政区域级别越低的第二地域特征词的权值越大。
根据本发明之一优选实施例，相似度计算模块包括余弦相似度计算模块，余弦相似度计算模块利用余弦相似度计算公式分别对多个第二地域特征向量与第一地域特征向量进行余弦相似度计算，以获得多个余弦相似度值。
根据本发明之一优选实施例，相似度计算模块进一步包括判断模块，判断模块用于判断多个余弦相似度值中的最大值与其他余弦相似度值的区别度是否符合预定标准，若区别度符合预定标准，则将最大值对应的备选地域作为检索词的对应地域。
根据本发明之一优选实施例，判断模块用于判断最大值是否大于第一阈值，并判断最大值与多个余弦相似度值的求和值之间的比例是否大于第二阈值，若最大值大于第一阈值且比例大于第二阈值，则判定区别度符合预定标准。
因此，本发明提供的技术方案可准确获取与检索词所描述最为接近的地域，保证了网络地图可在与检索词所描述最为接近的地域进行搜索，即用户在网络地图输入想要查找目的地的检索词后，本发明提供的基于检索词的地域识别装置及方法可精确定位检索词所描述的地域(如省、城市、县、区等)，网络地图可在该地域上进行搜索，以向用户呈现目标地域中的搜索结果。

图1是根据本发明第一实施例的基于检索词的地域识别方法的流程图2是根据本发明第一实施例的基于检索词的地域识别方法中的形成第二地域特征向量的流程图3是根据本发明第二实施例的基于检索词的地域识别装置的示意框图4是根据本发明第二实施例的基于检索词的地域识别装置的相似度计算模块的示意框图5是根据本发明第三实施例的基于检索词的地域识别装置的示意框图；以及
图6是根据本发明第四实施例的基于检索词的地域识别装置的示意框图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。
请参见图1，图1是根据本发明第一实施例的基于检索词的地域识别方法的流程图。如图1所示，根据本发明第一实施例的基于检索词的地域识别方法包括如下步骤
步骤101，获取检索词。在本发明的优选实施例中，检索词可为用户输入至网络地图进行查询的地点名称(如街道、建筑物、路标等)，举例而言，用户可输入“罗阳五村”至网络地图进行查询。
步骤102，对检索词进行扩充，获得描述检索词的描述文本信息。在本发明的优选实施例中，可利用搜索引擎搜索与检索词相关的网页信息，并将网页信息作为描述文本信息。具体而言，可对搜索引擎搜索到的与检索词相关的特定个数的页面的网页信息进行分析，如可取搜索引擎搜索到的与检索词相关的前10页的网页信息作为检索词的描述文本信息。如，当用户输入检索词为“罗阳五村”时，可利用搜索引擎搜索带有“罗阳五村”检索词的网页信息，并截取前10页作为描述文本信息。
步骤103，从描述文本信息提取第一地域特征词集合。在本发明的优选实施例中，可根据地域特征词典对描述文本信息进行匹配搜索，以获取第一地域特征词集合，其中，地域特征词典中记录有地域特征词，如某某省、某某市、某某县、某某区、某某街道、某某建筑物、某某路标等，当在描述文本信息中发现有在地域特征词典中记录的地域特征词时，就将该描述文本信息中对应的地域特征词作为第一地域特征词，从而提取多个第一地域特征词以组成第一地域特征词集合。因此，在对描述文本信息进行匹配搜索后，可提取第一地域特征词集合。优选地，第一地域特征词集合是由复数个不重复的第一地域特征词所组成，并且第一地域特征词集合不包含检索词。如，承步骤102中所举例子，在利用搜索引擎搜索带有 “罗阳五村”检索词的网页信息，并截取前10页作为描述文本信息后，可利用地域特征词典对描述文本信息进行匹配搜索，以获取复数个不重复的第一地域特征词，以形成第一地域特征词集合。其中，第一地域特征词集合可例如为{上海闵行闵行区上海市徐汇莲花广州方正长宁区瑞丽奉贤区}。
步骤104，根据描述文本信息计算第一地域特征词集合中每一第一地域特征词对应的权值，形成第一地域特征向量。其中，检索词可以作为第一地域特征向量的名称或者识别信息。具体来说，计算第一地域特征词对应的权值的算法可使用现有技术的词频统计、词的知名度加权、TF-IDF等方法。在本发明的优选实施例中，可利用TF-IDF (Term Frequency-InverseDocument Frequency,词频-逆文件频率)算法计算第一地域特征词集合中每一第一地域特征词对应的TF-IDF权值，以形成第一地域特征向量。
因此，在第一地域特征词集合为{上海闵行闵行区上海市徐汇莲花广州方正长宁区瑞丽奉贤区}时，在算得其权值后所形成的第一地域特征向量如下(为节省篇幅，将计算过程略去，其计算方法可利用如上所述的词频统计、词的知名度加权、TF-IDF 等方法，并且提供以下权值以作参考)
罗阳五村{{上海183. 84} {闵行136.83} {闵行区:67· 54} {上海市:15.55} {徐汇10. 39} {莲花10. 39} {广州4. 24} {方正3. 46} {长宁区3. 46} {瑞丽1. 73} {奉贤区1.73}}
步骤105，根据第一地域特征词集合形成多个第二地域特征向量。
以下将参见图2对步骤105作进一步说明，图2是根据本发明第一实施例的基于检索词的地域识别方法的形成第二地域特征向量的流程图，其为步骤105中形成第二地域特征向量的优选方法。
如图2所示，形成第二地域特征向量的流程包括
步骤1051，根据第一地域特征词集合获取多个备选地域。
步骤1052，按照行政区域分别对多个备选地域进行扩展，以获取多个与备选地域相关的不同行政区域级别的第二地域特征词集合。
步骤1053，根据行政区域级别计算多个第二地域特征词集合中每一第二地域特征词对应的权值，形成多个第二地域特征向量。
其中，在步骤1051中，可利用现有技术中的聚类算法从第一地域特征词集合提取备选地域，该备选地域应为同一级别的行政区域，如省、城市、县、区中的任意一者。当备选地域的行政区域级别设定为“城市”时，可根据聚类算法将第一地域特征词集合中的城市提取出来。
比方，当第一地域特征词中包含“深南路” 一词时，通过聚类算法，可将其所对应的城市“深圳市”提取出来，同样地，当第一地域特征词中包含“东方明珠塔”一词时，通过聚类算法，亦可将其所对应的城市“上海市”提取出来。以上所举之例子以“城市”作为备选地域的行政区域级别，但，备选地域亦可根据需要设置为不同的行政区域级别，如省、县、区等等，因此，若选取“区”作为备选地域的行政区域级别时，若第一地域特征词中包含“东方明珠塔”一词时，通过聚类算法，可将其对应的区“浦东新区”提取出来。
因此，在本实施例中，以“城市”作为备选地域的行政区域级别，因此，在第一地域特征词集合为{上海闵行闵行区上海市徐汇莲花广州方正长宁区瑞丽奉贤区} 时，可根据第一地域特征词集合获取多个备选地域如下
{上海市萍乡市广州市哈尔滨市}
具体来说，步骤1051所使用的聚类算法可例如为以下任一种皆可凝聚聚类算法、划分式聚类算法、基于密度的聚类算法、网格聚类算法。值得注意的是，本发明并不限定所采用的聚类算法，只要可以保证所采用算法能将第一地域特征词归类在一起即可，聚类算法为本领域公知常识，在此不再赘述。
在步骤1052中，当按照行政区域分别对多个备选地域进行扩展时，具体可通过查询地域特征词典进行扩展，如当利用聚类算法从第一地域特征词集合中提取的备选地域以 “城市”作为行政区域级别时，可进一步查询该城市中的所有县、区或所在省，以获取多个与备选地域相关的不同行政区域级别的第二地域特征词，以形成多个备选地域相对应的第二地域特征词集合。优选地，第二地域特征词集合是由复数个不重复的第二地域特征词所组成。
在本实施例中，步骤1051获取的多个备选地域如下
{上海市萍乡市广州市哈尔滨市}
步骤1052根据每个备选地域获得相应的第二地域特征词集合如下
上海市{上海市上海宝山区宝山南汇区南汇浦东新区浦东杨浦区杨浦闵行区闵行......}
萍乡市{江西省江西萍乡市萍乡莲花县莲花......}
广州市......
哈尔滨市......
在步骤1053中，根据行政区域级别计算多个第二地域特征词集合中每一第二地域特征词对应的权值，形成多个第二地域特征向量。其中，在本发明的优选实施例中，可定义行政区域级别越低的第二地域特征词的权值越大，并且，备选地域可以作为第二地域特征向量的名称或者识别信息。因此，算得其权值后所形成的第二地域特征向量如下
上海市{{上海市4} {上海3} {宝山区6} {宝山5} {南汇区6} {南汇:5} {浦东新区6} {浦东5} {杨浦区6} {杨浦5} {闵行区6} {闵行5}......}
萍乡市{{江西省2} {江西1} {萍乡市4} {萍乡3} {莲花县6} {莲花 5}......}
广州市......
哈尔滨市......
因此，本发明优选利用图2中之步骤1051-1053形成多个第二地域特征向量。
请继续参见图1，步骤106，其分别将多个第二地域特征向量与第一地域特征向量进行相似度计算，并根据计算结果判断检索词的对应地域。
在本发明的优选实施例中，可利用余弦相似度计算公式分别对多个第二地域特征向量与第一地域特征向量进行余弦相似度计算，以获得多个余弦相似度值。并且，可判断多个余弦相似度值中的最大值与其他余弦相似度值的区别度是否符合预定标准，若区别度符合预定标准，则将最大值对应的备选地域作为检索词的对应地域，进一步地，更可判断最大值是否大于第一阈值，并判断最大值与多个余弦相似度值的求和值之间的比例是否大于第二阈值，若最大值大于第一阈值且比例大于第二阈值，则判定区别度符合预定标准，从而输出对应地域。
具体地，余弦相似度计算公式可为
权利要求
1.一种基于检索词的地域识别方法，其特征在于，包括a.获取所述检索词；b.对所述检索词进行扩充，获得描述所述检索词的描述文本信息；c.从所述描述文本信息提取第一地域特征词集合；d.根据所述描述文本信息计算所述第一地域特征词集合中每一第一地域特征词对应的权值，形成第一地域特征向量；e.根据所述第一地域特征词集合获取多个备选地域，按照行政区域分别对所述多个备选地域进行扩展，以获取多个与所述备选地域相关的不同行政区域级别的第二地域特征词集合，并根据行政区域级别计算所述多个第二地域特征词集合中每一第二地域特征词的权值，形成多个第二地域特征向量；f.分别将所述多个第二地域特征向量与所述第一地域特征向量进行相似度计算，并根据计算结果判断所述检索词的对应地域。
2.根据权利要求1所述的方法，其特征在于，在所述步骤b中，利用搜索引擎搜索与所述检索词相关的网页信息，并将所述网页信息作为所述描述文本信息。
3.根据权利要求1所述的方法，其特征在于，在所述步骤c中，根据地域特征词典对所述描述文本信息进行匹配搜索，以获取所述第一地域特征词。
4.根据权利要求1所述的方法，其特征在于，在所述步骤d中，根据所述描述文本信息利用TF-IDF算法计算所述第一地域特征词对应的TF-IDF权值，以形成所述第一地域特征向量。
5.根据权利要求1所述的方法，其特征在于，在所述步骤e中，利用聚类算法从所述第一地域特征词集合提取所述备选地域。
6.根据权利要求5所述的方法，其特征在于，在所述步骤e中，行政区域级别越低的第二地域特征词的权值越大。
7.根据权利要求1所述的方法，其特征在于，在所述步骤f中，利用余弦相似度计算公式分别对所述多个第二地域特征向量与所述第一地域特征向量进行余弦相似度计算，以获得多个余弦相似度值。
8.根据权利要求7所述的方法，其特征在于，在所述步骤f中，进一步判断所述多个余弦相似度值中的最大值与其他余弦相似度值的区别度是否符合预定标准，若所述区别度符合所述预定标准，则将所述最大值对应的备选地域作为所述检索词的对应地域。
9.根据权利要求8所述的方法，其特征在于，在所述步骤f中，判断所述最大值是否大于第一阈值，并判断所述最大值与所述多个余弦相似度值的求和值之间的比例是否大于第二阈值，若所述最大值大于所述第一阈值且所述比例大于所述第二阈值，则判定所述区别度符合所述预定标准。
10.一种基于检索词的地域识别装置，其特征在于，包括检索词获取模块，用于获取所述检索词；检索词扩充模块，用于对所述检索词进行扩充，获得描述所述检索词的描述文本信息；第一地域特征词获取模块，用于从所述描述文本信息提取第一地域特征词集合；第一地域特征向量获取模块，用于根据所述描述文本信息计算所述第一地域特征词集合中每一第一地域特征词对应的权值，形成第一地域特征向量；第二地域特征向量获取模块，包括备选地域获取模块，用于根据所述第一地域特征词集合获取多个备选地域；第二地域特征词获取模块，用于按照行政区域分别对所述多个备选地域进行扩展，以获取多个与所述备选地域相关的不同行政区域级别的第二地域特征词集合；第二地域特征词权值计算模块，用于根据行政区域级别计算所述多个第二地域特征词集合中每一第二地域特征词的权值，形成多个第二地域特征向量；相似度计算模块，用于分别将所述多个第二地域特征向量与所述第一地域特征向量进行相似度计算，并根据计算结果判断所述检索词的对应地域。
11.根据权利要求10所述的装置，其特征在于，所述检索词扩充模块利用搜索引擎搜索与所述检索词相关的网页信息，并将所述网页信息作为所述描述文本信息。
12.根据权利要求10所述的装置，其特征在于，所述第一地域特征词获取模块用于根据地域特征词典对所述描述文本信息进行匹配搜索，以获取所述第一地域特征词。
13.根据权利要求10所述的装置，其特征在于，所述第一地域特征向量获取模块用于根据所述描述文本信息利用TF-IDF算法计算所述第一地域特征词对应的TF-IDF权值，以形成所述第一地域特征向量。
14.根据权利要求10所述的装置，其特征在于，所述备选地域获取模块利用聚类算法从所述第一地域特征词集合提取所述备选地域。
15.根据权利要求14所述的装置，其特征在于，所述第二地域特征词权值计算模块的权值计算规则为行政区域级别越低的第二地域特征词的权值越大。
16.根据权利要求10所述的装置，其特征在于，所述相似度计算模块包括余弦相似度计算模块，所述余弦相似度计算模块利用余弦相似度计算公式分别对所述多个第二地域特征向量与所述第一地域特征向量进行余弦相似度计算，以获得多个余弦相似度值。
17.根据权利要求16所述的装置，其特征在于，所述相似度计算模块进一步包括判断模块，所述判断模块用于判断所述多个余弦相似度值中的最大值与其他余弦相似度值的区别度是否符合预定标准，若所述区别度符合所述预定标准，则将所述最大值对应的备选地域作为所述检索词的对应地域。
18.根据权利要求17所述的装置，其特征在于，所述判断模块用于判断所述最大值是否大于第一阈值，并判断所述最大值与所述多个余弦相似度值的求和值之间的比例是否大于第二阈值，若所述最大值大于所述第一阈值且所述比例大于所述第二阈值，则判定所述区别度符合所述预定标准。
全文摘要
本发明提供一种基于检索词的地域识别装置及方法，该方法包括获取检索词；扩充检索词，获得描述检索词的描述文本信息；从描述文本信息提取第一地域特征词集合；根据描述文本信息计算第一地域特征词对应的权值，形成第一地域特征向量；根据第一地域特征词集合获取多个备选地域，按照行政区域分别对多个备选地域进行扩展，获取多个与备选地域相关的不同行政区域级别的第二地域特征词集合，根据行政区域级别计算多个第二地域特征词的权值，形成多个第二地域特征向量；分别将多个第二地域特征向量与第一地域特征向量进行相似度计算，根据计算结果判断检索词的对应地域。通过以上方式，可精确定位检索词所描述地域。
文档编号G06F17/30GK102033947SQ20101060068
公开日2011年4月27日申请日期2010年12月22日优先权日2010年12月22日
发明者张绍文, 蔡华纯申请人:百度在线网络技术(北京)有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张绍文;蔡华纯
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

上一篇：电容式触摸显示装置的制作方法
上一篇：病人监护系统及其信息传输系统与方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。