一种用于兴趣点信息的排重方法

文档序号:6369791阅读:196来源:国知局
专利名称:一种用于兴趣点信息的排重方法
技术领域
本发明涉及信息排重技术,具体涉及一种用于兴趣点信息的排重方法。
背景技术
随着电子地图导航(GIS)技术的普及,电子地图中引进了政府机关、观光景点、宾馆、餐厅、商场以及医院等人们感兴趣的地点的名称、简介等数据,这些人们感兴趣的地点称为兴趣点(Point of Interest),而这些地点的名称、简介等数据信息统称为兴趣点信
肩、O人们在使用电子地图时,可以附带地获得相应的兴趣点信息,兴趣点信 息一般包括兴趣点的名称、类型、所在经纬度、详细地址、联系电话等等。在采集保存兴趣点过程中,为了保证兴趣点信息合法性、可靠性、有效性以及提高唯一性(减少数据冗余),必须对采集到的数据进行处理。例如,本公司申请的另外一篇申请公布号为CN 102054010A、申请号为200910309256. X、名称为“一种兴趣点信息处理方法”的发明,公开了一种兴趣点信息处理方法,该发明的方法包含建立数据库、注册、保存兴趣点信息和使用兴趣点信息的过程。其中保存兴趣点信息的过程中使用者操作终端按应用模板将一个兴趣点的位置、名称、类型、简介和附加信息编辑成记录素材,并上传给中心;中心按该记录素材中的位置所在的地域将该记录素材及其识别码存入所述数据库该地域的兴趣点文件;中心检查该记录素材的发出者是否在黑名单中,是则退出;中心操作员审查该记录素材的合法性;不合法的,中心将该记录素材发出者记入黑名单中;合法的,中心将该记录素材修改为兴趣点记录。该发明的方法在保证兴趣点信息的合法性和可靠性的同时提高了兴趣点信息采集和输入的数量,并加快了对兴趣点信息更新的速度,但是上述方法只专注于提高兴趣点信息的采集和输入的数量,而并没有针对兴趣点信息进行减少数据冗余以提高唯一性的处理。目前针对信息的数据冗余处理通常是采用排重技术,现有的排重技术主要是运用字符串全匹配或者局部匹配、分词匹配进行判断。而由于兴趣点信息在采集中,要求信息比较详细,且上传的名称和地址等信息比较准确,因而现有所使用的全匹配或分词匹配方法,都无法满足比较精确的排除数据冗余的需求,例如采集人员输入字符串“沃尔码”,而实际已有的数据为“沃尔玛”或“沃尔玛购物广场”,通过全匹配和分词匹配都无法通过比较得出该数据为冗余数据的结果。

发明内容
本发明所要解决的技术问题是,提出一种用于兴趣点信息的排重方法,以位置为基础,结合一种根据采集的兴趣点信息进行位置偏移匹配的方法,来实现区域范围内高匹配度的排重方法,从而解决现有排重技术无法实现的高精度排除数据冗余的问题。为了解决上述技术问题,本发明所采用的技术方案是,一种用于兴趣点信息的排重方法,包括以下步骤
步骤I :系统接收到上传的兴趣点A的信息并保存,该信息内容至少包括兴趣点名称、兴趣点类型、经纬度、地址和简介;
步骤2 以步骤I保存的兴趣点A的经纬度为基准点,查询现有数据集合中的以该兴趣点A为中心的、封闭的第一区域范围内的所有兴趣点名称;
步骤3 :根据位置偏移匹配方法,对兴趣点A的名称和搜索到的其他各兴趣点名称进行匹配排重,得到排重结果以及匹配精度;
步骤4 :如果步骤3得到的匹配精度Pl >预先设定的精度P,则结束排重并转到步骤9,否则,转到步骤5 ;其中0〈P〈100% ;
步骤5 :以兴趣点A的经纬度为基准点,查询现有数据集合中的以该兴趣点A为中心的、覆盖第一区域范围外的、封闭的第二区域范围内的所有兴趣点名称,重复步骤3 ;
步骤6 :如果步骤5得到的匹配精度P2 >预先设定的精度P’,则结束排重并转到步骤9,否则,转到步骤7 ;其中0〈P’〈100%,P’>P;
步骤7 :以兴趣点A的经纬度为基准点,查询现有数据集合中的以该兴趣点A为中心、覆盖第一区域和第二区域范围外的、封闭的第三区域范围内的所有兴趣点名称,重复步骤
3;
步骤8 :如果步骤7得到的匹配精度P3 >预先设定的精度P’’,则结束排重并转到步骤9,否则,输出在第一区域、第二区域和第三区域范围内没有找到匹配结果;其中0〈P’’〈100%,P’’>P’ ;
步骤9:输出排重结果。进一步的,步骤2中的第一区域,是以该兴趣点A为中心、各边距离中心为20米的正方形区域。也可以是以该兴趣点A为中心、半径为20米的圆形区域,当然还可以是其他形状的闭合区域,但考虑到计算速度,优选使用正方形区域。步骤5中的第二区域,是以该兴趣点A为中心、各边距离中心为50米的正方形区域且扣除第一区域的区域。也可以是以该兴趣点A为中心、半径为50米的圆形区域且扣除第一区域的区域。当然还可以是其他形状的闭合区域,但考虑到计算速度,优选使用正方形区域,那么优选的第二区域具体是以该兴趣点A为中心、各边距离中心为50米的正方形区域,扣除以该兴趣点A为中心、各边距离中心为20米的正方形区域的回形区域。步骤7中的第三区域,是以该兴趣点A为中心、各边距离中心为100米的正方形区域且扣除第一区域和第二区域的区域。也可以是以该兴趣点A为中心、半径为100米的圆形区域且扣除第一区域和第二区域的区域。当然还可以是其他形状的闭合区域,但考虑到计算速度,优选使用正方形区域,那么优选的第三区域具体是以该兴趣点A为中心、各边距离中心为100米的正方形区域且扣除以该兴趣点A为中心、各边距离中心为50米的正方形区域的回形区域。进一步的,步骤3的位置偏移匹配方法,是令一兴趣点名称(即字符串strl)和另一兴趣点名称(字符串str2)的距离等于字符串strl转换成字符串str2的过程中的添力口、删除、修改的操作次数;该距离越大,表明字符串strl和字符串str2越不相同,即字符串strl和字符串str2的不同度越大;将字符串strl转换成字符串str2的距离值表示为LD(strl,str2),最后通过公式计算得到匹配精度,该位置偏移匹配方法具体包括以下步骤
步骤31 :如果字符串strl的长度m=0,则LD (strl, str2) =字符串str2长度n,转到步骤35 ;如果字符串str2的长度n为O,则LD(strl,str2) =字符串strl的长度m,转到步骤35 ;即LD (str 1,str2) =字符串strl和字符串str2中的非零的那个字符串的长度;如果字符串strl的长度m和字符串str2长度n均不等于O,则构建一个(m+1)行、(n+1)列的矩阵M[m] [n],转到步骤32;
步骤32 :初始化(m+1)行、(n+1)列的矩阵M[m] [n],并让第一行的值从O增长到n,让第一列的值从O增长到m ;
步骤33 :扫描字符串strl和字符串str2,构造一临时变量temp并初始化,如果字符串strl的第i个字符strl [i]=字符串strl的第j个字符str2[j],则temp=0 ;否则temp=l ;将矩阵 M[i] [j]赋值为M[i-l] [j]+l、M[i] [j_l]+l、M[i-1] [j-l]+temp 三者之中的最小值;其中m+1,1彡j彡n+1 ;
步骤34 :扫描完字符串strl和字符串str2后,得到LD(strl,str2) =矩阵M[m] [n]的最后一个值,即该矩阵中第(m+1)行、第(n+1)列所对应的值;
步骤35:使用公式
匹配精度=I-LD (strl, str2)/strl和str2中的长度最大值,
计算得到匹配精度。本发明使用上述方法,具有以下优点
1.根据特定区域范围对兴趣点进行筛选,即通过第一区域、第二区域范围和第三区域范围的设置和在上述区域范围内的搜索,减少了搜索到的结果集的冗余度;
2.通过位置偏移匹配方法对搜索到的结果集进行匹配排重,相对于现有技术的全局匹配、局部匹配和分词匹配的匹配方法,本发明的方法具有更精确的排除数据冗余的效果;
3.本发明通过特定区域范围搜索和位置偏移匹配的排重方法相结合,既保留了原有的全匹配、局部匹配和分词匹配方法的高精确度,又增加了结合基准位置特定区域范围内的高近似度信息的筛选,极大的优化了现有排重技术无法实现的高精度排除数据冗余的问题。


图I是本发明的实施例中的第一区域、第二区域和第三区域示意图。
具体实施例方式现结合附图和具体实施方式
对本发明进一步说明。本发明的一种用于兴趣点信息的排重方法,包括以下步骤
步骤I :系统接收到上传的兴趣点A的信息并保存,该信息内容至少包括兴趣点名称、兴趣点类型、经纬度、地址和简介;
步骤2 :以步骤I保存的兴趣点A的经纬度为基准点,查询现有数据集合中的以该兴趣点A为中心的、封闭的第一区域范围内的所有兴趣点名称;
步骤3 :根据位置偏移匹配方法,对兴趣点A的名称和搜索到的其他各兴趣点名称进行匹配排重,得到排重结果以及匹配精度;
步骤4 :如果步骤3得到的匹配精度Pl >预先设定的精度P,则结束排重并转到步骤9,否则,转到步骤5 ;其中0〈P〈100% ;例如,预先设定的精度P=50%,则当步骤3得到的匹配精度Pl≥50%,即视为满足了匹配要求,则不再需要进一步的排重;当然上述的精度P也可以设为其他的值;
步骤5 :以兴趣点A的经纬度为基准点,查询现有数据集合中的以该兴趣点A为中心的、覆盖第一区域范围外的、封闭的第二区域范围内的所有兴趣点名称,重复步骤3;
步骤6 :如果步骤5得到的匹配精度P2 >预先设定的精度P’,则结束排重并转到步骤9,否则,转到步骤7 ;其中0〈P’〈100%,P’>P ;例如,预先设定的精度P’=65%,则当步骤5得至IJ的匹配精度P2彡65%,即视为满足了匹配要求,则不再需要进一步的排重;当然上述的精度P’也可以设为其他的值;
步骤7 :以兴趣点A的经纬度为基准点,查询现有数据集合中的以该兴趣点A为中心、覆盖第一区域和第二区域范围外的、封闭的第三区域范围内的所有兴趣点名称,重复步骤
3;
步骤8 :如果步骤7得到的匹配精度P3 >预先设定的精度P’’,则结束排重并转到步骤9,否则,输出在第一区域、第二区域和第三区域范围内没有找到匹配结果;其中0〈P”〈100%, P” >P’ ;例如,预先设定的精度P’’ =80%,则当步骤7得到的匹配精度P3 ^ 80%,即视为满足了匹配要求,则不再需要进一步的排重;当然上述的精度P’’也可以设为其他的值;
步骤9:输出排重结果。上述步骤2中的第一区域,是以该兴趣点A为中心、各边距离中心为20米的 正方形区域。也可以是以该兴趣点A为中心、半径为20米的圆形区域,当然还可以是其他形状的闭合区域,但考虑到计算速度,优选使用正方形区域,如图I所示的使用左倾斜线标识的区域I。步骤5中的第二区域,是以该兴趣点A为中心、各边距离中心为50米的正方形区域且扣除第一区域的区域。也可以是以该兴趣点A为中心、半径为50米的圆形区域且扣除第一区域的区域。当然还可以是其他形状的闭合区域,但考虑到计算速度,优选使用正方形区域,那么优选的第二区域具体是以该兴趣点A为中心、各边距离中心为50米的正方形区域,扣除以该兴趣点A为中心、各边距离中心为20米的正方形区域的回形区域,如图I所示的空白区域2。步骤7中的第三区域,是以该兴趣点A为中心、各边距离中心为100米的正方形区域且扣除第一区域和第二区域的区域。也可以是以该兴趣点A为中心、半径为100米的圆形区域且扣除第一区域和第二区域的区域。当然还可以是其他形状的闭合区域,但考虑到计算速度,优选使用正方形区域,那么优选的第三区域具体是以该兴趣点A为中心、各边距离中心为100米的正方形区域且扣除以该兴趣点A为中心、各边距离中心为50米的正方形区域的回形区域,如图I所示的使用右倾斜线标识的区域3。步骤3的位置偏移匹配方法,是令一兴趣点名称(即字符串strl)和另一兴趣点名称(字符串str2)的距离等于字符串strl转换成字符串str2的过程中的添加、删除、修改的操作次数;该距离越大,表明字符串strl和字符串str2越不相同,即字符串strl和字符串str2的不同度越大;将字符串strl转换成字符串str2的距离值表示为LD (strl,str2),最后通过公式计算得到匹配精度,该位置偏移匹配方法具体包括以下步骤步骤31 :如果字符串strl的长度m=0,则LD(strl, str2) =字符串str2长度n,转到步骤35 ;如果字符串str2的长度n为O,则LD(strl,str2) =字符串strl的长度m,转到步骤35 ;即LD(strl,str2) =字符串strl和字符串str2中的非零的那个字符串的长度;如果字符串strl的长度m和字符串str2长度n均不等于O,则构建一个(m+1)行、(n+1)列的矩阵M[m] [n],转到步骤32;
步骤32 :初始化(m+1)行、(n+1)列的矩阵M[m] [n],并让第一行的值从O增长到n,让第一列的值从O增长到m ;
步骤33 :扫描字符串strl和字符串str2,构造一临时变量temp并初始化,如果字符串strl的第i个字符strl [i]=字符串strl的第j个字符str2[j],则temp=0 ;否则temp=l ;将矩阵 M[i] [j]赋值为M[i-l] [j]+l、M[i] [j_l]+l、M[i-1] [j-l]+temp 三者之中的最小值;其中m+1,1彡j彡n+1 ;
权利要求
1.一种用于兴趣点信息的排重方法,其特征在于包括以下步骤 步骤I :系统接收到上传的兴趣点A的信息并保存,该信息内容至少包括兴趣点名称、兴趣点类型、经纬度、地址和简介; 步骤2 以步骤I保存的兴趣点A的经纬度为基准点,查询现有数据集合中的以该兴趣点A为中心的、封闭的第一区域范围内的所有兴趣点名称; 步骤3 :根据位置偏移匹配方法,对兴趣点A的名称和捜索到的其他各兴趣点名称进行匹配排重,得到排重结果以及匹配精度; 步骤4 :如果步骤3得到的匹配精度Pl >预先设定的精度P,则结束排重并转到步骤9,否则,转到步骤5 ;其中0〈P〈100% ; 步骤5 以兴趣点A的经纬度为基准点,查询现有数据集合中的以该兴趣点A为中心的、覆盖第一区域范围外的、封闭的第二区域范围内的所有兴趣点名称,重复步骤3; 步骤6 :如果步骤5得到的匹配精度P2 >预先设定的精度P’,则结束排重并转到步骤9,否则,转到步骤7 ;其中0〈P’〈100%,P’>P; 步骤7 :以兴趣点A的经纬度为基准点,查询现有数据集合中的以该兴趣点A为中心、覆盖第一区域和第二区域范围外的、封闭的第三区域范围内的所有兴趣点名称,重复步骤3; 步骤8 :如果步骤7得到的匹配精度P3 >预先设定的精度P’ ’,则结束排重并转到步骤9,否则,输出在第一区域、第二区域和第三区域范围内没有找到匹配结果;其中0〈P’’〈100%,P’ ’>P’ ; 步骤9:输出排重結果。
2.根据权利要求I所述的用于兴趣点信息的排重方法,其特征在于步骤3中的位置偏移匹配方法,将ー兴趣点记为字符串strl、另ー兴趣点记为字符串str2,令字符串strl和str2的距离等于字符串strl转换成字符串str2的过程中的添加、删除、修改的操作次数;该距离越大,表明字符串strl和字符串str2的不同度越大;将字符串strl转换成字符串str2的距离值记为LD(strl,str2),最后通过计算得到匹配精度,具体的,该位置偏移匹配方法包括以下步骤 步骤31 :如果字符串strl的长度m=0,则LD(strl,str2)=字符串str2长度n,转到步骤35 ;如果字符串str2的长度η为O,则LD(strl,str2) =字符串strl的长度m,转到步骤35 ;如果字符串strl的长度m和字符串str2长度η均不等于0,则构建ー个(m+1)行、(η+1)列的矩阵M[m] [η],转到步骤32; 步骤32 :初始化(m+1)行、(n+1)列的矩阵M[m] [η],并让第一行的值从O增长到η,让第一列的值从O增长到m ; 步骤33 :扫描字符串strl和字符串str2,构造ー临时变量temp并初始化,如果字符串strl的第i个字符strl [i]=字符串strl的第j个字符str2[j],则temp=0 ;否则temp=l ;将矩阵 M[i] [j]赋值为M[i-l] [j]+l、M[i] [j_l]+l、M[i-1] [j-l]+temp 三者之中的最小值;其中I≤i≤m+1,1≤j≤n+1 ; 步骤34 :扫描完字符串strl和字符串str2后,得到LD (strl, str2) =矩阵M[m] [η]的最后ー个值,即该矩阵中第(m+1)行、第(n+1)列所对应的值; 步骤35:使用公式匹配精度=I-LD (strl, str2)/strl和str2中的长度最大值, 计算得到匹配精度。
3.根据权利要求I所述的用于兴趣点信息的排重方法,其特征在于步骤2中的第一区域,是以该兴趣点A为中心、各边距离中心为20米的正方形区域,或者是以该兴趣点A为中心、半径为20米的圆形区域。
4.根据权利要求3所述的用于兴趣点信息的排重方法,其特征在于步骤5中的第二区域,是以该兴趣点A为中心、各边距离中心为50米的正方形区域且扣除第一区域的区域,或者是以该兴趣点A为中心、半径为50米的圆形区域且扣除第一区域的区域。
5.根据权利要求4所述的用于兴趣点信息的排重方法,其特征在于步骤7中的第三区域,是以该兴趣点A为中心、各边距离中心为100米的正方形区域且扣除第一区域和第二区域的区域,或者是以该兴趣点A为中心、半径为100米的圆形区域且扣除第一区域和第二区域的区域。
全文摘要
本发明涉及信息排重技术。一种用于兴趣点信息的排重方法,包括以下步骤1系统接收兴趣点A的信息;2以兴趣点A的经纬度为基准点,查询第一区域内的所有兴趣点名称;3根据位置偏移匹配方法,对兴趣点A和搜索到的其他各兴趣点进行匹配排重,得到排重结果和匹配精度;4如果步骤3得到的匹配精度P1≥预先设定的精度P,则转到步骤9,否则转到步骤5;5查询第二区域范围内的所有兴趣点名称,重复步骤3;6如果步骤5得到的匹配精度P2≥预先设定的精度P’,则转到步骤9,否则转到步骤7;7查询第三区域范围内的所有兴趣点名称,重复步骤3;8如果步骤7得到的匹配精度P3≥预先设定的精度P’’,则转到步骤9;9输出排重结果。
文档编号G06F17/30GK102682128SQ20121015331
公开日2012年9月19日 申请日期2012年5月17日 优先权日2012年5月17日
发明者余小峰, 余顺丽, 吕崇毅, 程行荣, 谢燕玲 申请人:厦门雅迅网络股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1