基于用户到访信息的网格相似度判定方法、装置和系统与流程

文档序号:16212372发布日期:2018-12-08 07:54阅读:177来源:国知局
基于用户到访信息的网格相似度判定方法、装置和系统与流程
本发明涉及网格相似度判定,具体涉及一种基于用户到访信息的网格相似度判定方法、装置和系统。
背景技术
随着城市的发展,城市功能的准确定位,对于城市的发展意义重大,是城市发展的方向标和动力源。对于城市经济发展而言,首先应明确竞争优势的立足点,重点发展优势产业,实行高度专业化、规模化的效应,这是提升城市竞争力的重要手段。细化城市内部功能,突出城市各组成部分的特色和优势,显得尤为重要。为了对城市内部各功能进行评价,相关技术中,通常采用定性的功能法和定量的指标法来对城市功能进行评价。其中,功能法是指根据被研究和评价城市的各项功能逐一进行分析对比;指标法是先指定一套标准体系,并确定各指标的理想指数,然后用被评价城市实际的指标数值对比,计算综合评价值。因此,由于功能法为定性方法,其主观影响较大,而指标法引入了定量因素,需要大量的指标理想数值和被评价城市的实际指数值,其准备工作量较大,耗费资源较多。技术实现要素:本申请提供一种基于用户到访信息的网格相似度判定方法,能够实现对城市内功能模块之间相似度进行评价。根据第一方面,一种实施例中提供一种基于用户到访信息的网格相似度判定方法,包括以下步骤:获取待判定区域,对所述待判定区域进行网格划分;根据所述网格内的兴趣点被到访的频次,构造矩阵;对所述矩阵进行降维,并根据降维结果计算网格相似度。进一步地,所述根据所述网格内的兴趣点被到访的频次,构造矩阵,包括:对所述网格内的兴趣点进行分类并编号;获取所述网格内各兴趣点,在预设时间内被到访的频次;根据所述兴趣点的编号和所述兴趣点被到访的频次,构造一个网格的向量;根据各个网格的向量,构造待判定区域的矩阵。进一步地,根据移动终端的位置服务,获取所述兴趣点被到访的频次。进一步地,在所述对所述矩阵进行降维之前,还包括:对所述矩阵进行tf-idf转换;其中,所述矩阵为待判定区域的矩阵。进一步地,所述对所述矩阵进行降维之前,还包括:在所述矩阵进行tf-idf转换之后,对转换后的矩阵进行奇异值分解。进一步地,在对所述矩阵进行降维时,保留预设数量的最大奇异值。进一步地,所述并根据降维结果计算网格相似度,包括:采用向量间的夹角余弦计算网格相似度。根据第二方面,一种实施例中提供一种计算机可读存储介质,包括程序,所述程序能够被处理器执行以实现前述的基于用户到访信息的网格相似度判定方法。根据第三方面,一种实施例中提供一种基于用户到访信息的网格相似度判定系统,包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现前述的基于用户到访信息的网格相似度判定方法。根据第四方面,一种实施例中提供一种基于用户到访信息的网格相似度判定装置,其特征在于,包括:获取模块,用于获取待判定区域,对所述待判定区域进行网格划分;构造模块,用于根据所述网格内的兴趣点被到访的频次,构造矩阵;计算模块,用于对所述矩阵进行降维,并根据降维结果计算网格相似度。依据上述实施例的基于用户到访信息的网格相似度判定方法,通过获取待判定区域,并对待判定区域进行网格划分,然后根据网格内兴趣点被到访的频次,构造矩阵,对矩阵进行降维,并根据降维结果计算网格相似度。由此,本发明实施例的判定方法能够通过对网格的相似度进行判断,从而对城市内功能模块的相似度进行评价,有效提升城市功能评价的准确度,提高城市功能评价的效率。附图说明图1为本发明实施例的基于用户到访信息的网格相似度判定方法的流程图;图2为本发明一个实施例中对矩阵进行奇异分解的示意图;图3为本发明一个具体实施例的结果示意图;图4为本发明实施例的基于用户到访信息的网格相似度判定装置的方框示意。具体实施方式下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接”,如无特别说明,均包括直接和间接连接(联接)。随着我国移动互联网市场的不断发展扩大,截至2017年6月,中国手机网民规模已达7.24亿,网民中使用手机上的比例也高达96.3%。移动设备不断地产生海量、实时、准确、有空间分布特征的数据,这些数据能够精准地刻画用户的到访轨迹。因此,可通过电信移动运营商的无线电通讯网络或外部定位方式(gps)获取用户移动终端的位置信息,即位置服务lbs(locationbasedservice)。隐性语义分析lsa(latentsemanticanalysis),又称隐性语义索引(latentsemanticindexing,lsi),是一种自然语言处理常用的方法,该方法使用向量来表示词和文档,构造的词-文档矩阵是一个稀疏矩阵,行代表文档,列代表词语,进而通过向量间的关系来判断词与文档的关系。基本的思想就是,将稀疏的高维向量空间映射到一个低维的向量空间。基于此,申请人思考利用用户移动终端留下的海量、实时、能够精确描述人群空间分布的大数据资源,结合城市poi(pointofinterest,兴趣点)信息,以实现低成本、高效率的目的提取区域优势功能、寻找功能相似/不同的地域。从而提出了一种基于用户到访信息的网格相似度判定方法。下面参考附图来描述本发明实施例的基于用户到访信息的网格相似度判定方法和装置。图1为本发明实施例的基于用户到访信息的网格相似度判定方法的流程图。如图1所示,本发明实施例的基于用户到访信息的网格相似度判定方法,包括以下步骤:s101:获取待判定区域,对待判定区域进行网格划分。其中,可根据待判定区域的大小,自定义网格的长度和高度,以对待判定区域进行网格划分。进一步地,还需要对划分后的网格进行网格编码。具体地,在待判定区域选取坐标原点,确定网格的长度l和高度h。其中,网格的长度和高度的单位为米。对任一网格按照xiyj的格式进行编号,其中,i、j编号的公式可为:其中,lng1为坐标原点的经度、lat1为坐标原点的纬度、lngi为选取点坐标的经度、lati为选取点坐标的纬度。s102:根据网格内的兴趣点被到访的频次,构造矩阵。根据本发明的一个实施例,根据网格内的兴趣点被到访的频次,构造矩阵,包括:s201:对网格内的兴趣点进行分类并编码。需要说明的是,可先获取网格内的兴趣点信息表,其中,兴趣点信息表包括兴趣点名称、兴趣点类别、地址和wgs1984经纬度坐标等信息,根据兴趣点信息表对网格内的兴趣点进行大类之间的合并和/或重组操作,以使网格内的兴趣点分为n大类。其中,兴趣点的n大类可包括餐饮住宿、政府机构、医疗机构等,即城市内的功能模块。进一步地,在对网格内的兴趣点进行分类后进行编码,例如,类别餐饮住宿的数值编码可为1,类别政府机构的数值编码可为2,类别医疗机构的数值编码可为3。s202:获取网格内各兴趣点,在预设时间内被到访的频次。应当理解的是,由于无法完全获取待判定区域的到访数据,即使对于小区域来说也需要很多的人力、物力等,对于城市或更大范围来说,获取到访所有poi的全量数据几乎是不太可能的。因此,在本发明实例中,只选取网格内各兴趣点,在预设时间内被到访的频次作为研究对象。其中,预设时间可为日、月、季度、年度等。需要说明的是,被到访的频次可通过前述的位置服务lbs获取。具体地,根据位置服务lbs获取在预设时间内,用户移动终端上报的位置信息出现在兴趣点的次数。其中,用户移动终端可为多个用户的移动终端,即,获取到任一用户移动终端在该兴趣点进行位置上报,则该兴趣点在预设时间内被到访的频次加1。还需要说明的是,可设定兴趣点的经纬度坐标范围。具体地,通过用户移动终端上报的位置信息,提取用户所处的经纬度坐标,判断用户所处的经纬度坐标值是否处于兴趣点的经纬度坐标范围,如果用户所处的经纬度坐标值处于兴趣点的经纬度坐标范围,则确定用户到访该兴趣点,如果用户所处的经纬度坐标值未处于兴趣点的经纬度坐标范围,则确定用户未到访该兴趣点。s203:根据兴趣点编号和兴趣点被到访的频次,构造一个网格的向量。具体地,将兴趣点的类别编号和网格内该兴趣点被到访的频次,作为网格的一个向量。s204:根据各个网格的向量,构造待判定区域的矩阵。举例来说,假设根据上述网格编码规则获取的第一个网格为网格a,第二个网格为网格b,其中,网格a内具有兴趣点编号为1的餐饮住宿和编号为2的政府机构,网格b内具有兴趣点编号为1的餐饮住宿和编号为3的医疗机构。在预设时间内,采集到到访网格a内的餐饮住宿的频次为1000,到访网格a内的政府机构的频次为100,到访网格b内的餐饮住宿的频次为1500,到访网格b内的医疗机构的频次为800。则有,网格a对应的向量为[(1,1000),(2,100)],网格b对应的向量为[(1,1500),(3,800)]。基于此,按照隐形语义分析lsa方法,将行代表网格,列代表兴趣点编号,构造如表1所示的矩阵。表1需要说明的是,表1中的矩阵即为隐形语义分析lsa方法中的term-document(词-文档)矩阵,即,可将网格视作为“文档”,网格内的各兴趣点视作为“词”,将网格内到访各兴趣点的频次视作为“词”出现在该“文档”中的频次。由此,即可对上述term-document矩阵进行tf-idf转换。需要说明的是,tf-idf(termfrequency–inversedocumentfrequency)是一种用于资讯检索与资讯探勘的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。如果一个词在某篇文档中出现的次数越多,而在其他文档中的次数越少,权值就越大,区分度越高。即,兴趣点在某个网格内被到访的频次越高,而在其他网格内被到访的频次越低,权值就越大,区分度越高。tf词频(termfrequency),表示词条在文档d中出现的频率,idf逆文本频率指数(inversedocumentfrequency)。其中,tf词频、idf逆文本频率指数和tf-idf,分别通过以下公平计算:tf-idf=tf×idf其中,k=1,2,…n,n为词的总数;ni,j为词ti在在件dj中的出现次数;|d|为语料库中的文件总数。因此,对上述例子中的term-document矩阵进一步进行tf-idf计算,可有:表2documenttermtfidftf-idf网格a餐饮住宿0.910.000.00网格a政府机构0.090.300.03网格b餐饮住宿0.650.000.00网格b医疗机构0.350.300.10即言,上述例子中的term-document矩阵在进行tf-idf转换后,可得到矩阵:表3从几何意义上来讲,特征向量是矩阵经过指定变换后方向不发生改变的那些向量。因此,可对表3中的矩阵进行奇异值分解。其中,奇异值分解的公式为:a=u×∑×vt其中σ为对角阵,且对角线上元素为由大到小排列的矩阵a的奇异值,a的非零奇异值数值上等于ata的特征值的平方根;u为aat的特征向量组成的矩阵;v为ata的特征向量组成的矩阵。其中,在本法实施例中,a为表3中的矩阵。s103:对矩阵进行降维,并根据降维结果计算网络相似度。具体地,对矩阵进行降维可包括:设定需要保留的信息量,计算矩阵内的总信息量,即所有奇异值的平方和,令r为由大到小排列的奇异值平方和累加到预设信息量的奇异值的数量,提取u矩阵的前r列,∑矩阵的前r行前r列,v矩阵的前r列,得到如图2所示的u′、∑′、v′矩阵。其中,需要保留的信息量可为矩阵内的总信息量的百分比,例如,90%。其中,相似度计算可包括计算距离、相关系数、角度等多种方式。在本发明实施例中,假设认为两个样本之间的相似度程度只与它们之间的夹角有关,即,可以使用两个网格对应向量的夹角余弦来度量相似度。具体地,经降维后,u′∑′即为空间中各网格的向量坐标。利用向量间的余弦夹角公式,即可获得任两个网格之间的相似度,其中,相似度数值在[-1,1]之间,当相似度值越接近于1,则网格越相似。其中,相似度的计算公式为:其中,r为保留的奇异值的数量,(a1,a2,…,ar)为网格a在u'σ'中对应的向量,(b1,b2,…,br)网格b在u'σ'中对应的向量。图3为本发明一个具体实施例的结果示意图,在该具体实施例中,网格a、b、c、d、e、f、g、h彼此之间相似度较高,网格i、j、k、l彼此之间相似度较高。综上所述,上述实施例的基于用户到访信息的网格相似度判定方法,通过获取待判定区域,并对待判定区域进行网格划分,然后根据网格内兴趣点被到访的频次,构造矩阵,对矩阵进行降维,并根据降维结果计算网格相似度。由此,本发明实施例的判定方法能够通过对网格的相似度进行判断,从而对城市内功能模块的相似度进行评价,有效提升城市功能评价的准确度,提高城市功能评价的效率。本发明实施例还提出了一种非临时性可读存储介质,包括程序,该程序能够被处理器执行以实现前述的基于用户到访信息的网格相似度判定方法。根据本发明实施例的非临时性可读存储介质,能够通过对网格的相似度进行判断,从而对城市内功能模块的相似度进行评价,有效提升城市功能评价的准确度,提高城市功能评价的效率。本发明实施例还提出了一种基于用户到访信息的网格相似度判定系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时,实现前述的基于用户到访信息的网格相似度判定方法。根据本发明实施例的基于用户到访信息的网格相似度判定系统,能够通过对网格的相似度进行判断,从而对城市内功能模块的相似度进行评价,有效提升城市功能评价的准确度,提高城市功能评价的效率。与上述几种实施例提供的基于用户到访信息的网格相似度判定方法相对应,本发明的一种实施例还提供了基于用户到访信息的网格相似度判定装置,由于本发明实施例提供的基于用户到访信息的网格相似度判定装置与上述几种实施例提供的基于用户到访信息的网格相似度判定方法相对应,因此在前述基于用户到访信息的网格相似度判定方法的实施方式也适用于本实施例提供的基于用户到访信息的网格相似度判定装置,在本实施例中不再描述。图4为本发明实施例的基于用户到访信息的网格相似度判定装置的方框示意图。如图4所示,本发明实施例的基于用户到访信息的网格相似度判定装置100,包括:获取模块10、构造模块20和计算模块30。其中,获取模块10用于获取待判定区域,对待判定区域进行网格划分;构造模块20用于根据网格内的兴趣点被到访的频次,构造矩阵;计算模块30用于对矩阵进行降维,并根据降维结果计算网格相似度。进一步地,构造模块20还用于:对网格内的兴趣点进行分类并编号;获取网格内各兴趣点,在预设时间内被到访的频次;根据兴趣点的编号和兴趣点被到访的频次,构造一个网格的向量;根据各个网格的向量,构造待判定区域的矩阵。进一步地,获取模块10还用于:根据移动终端的位置服务,获取兴趣点被到访的频次。进一步地,计算模块30还用于:对矩阵进行tf-idf转换;其中,矩阵为待判定区域的矩阵。进一步地,计算模块30还用于:在矩阵进行tf-idf转换之后,对转换后的矩阵进行奇异值分解。进一步地,计算模块30还用于:在对矩阵进行降维时,保留预设数量的最大奇异值。进一步地,计算模块30还用于:采用向量间的夹角余弦计算网格相似度。本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属
技术领域
的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1