一种用于地点语义识别的数据库的构建方法及系统的制作方法

文档序号:6500664阅读:161来源:国知局
一种用于地点语义识别的数据库的构建方法及系统的制作方法
【专利摘要】本发明提供了一种用于地点语义识别的数据库的构建方法,包括:依据预设样本区域的定位历史日志统计样本区域内的定位请求量;利用定位请求量和定位历史日志中的定位请求时间生成样本区域的定位请求曲线特征;从样本区域的定位请求曲线特征中选出样本区域的特征时段,并依据特征时段或定位请求量获得样本区域的特征指数;利用样本区域的特征指数和定位请求曲线特征构建地点语义样本库;本发明还提供一种用于地点语义识别的数据库的构建系统。根据本发明提供的技术方案,简单方便获取地点语义识别的数据源,提高地点语义识别的准确性。
【专利说明】一种用于地点语义识别的数据库的构建方法及系统 【【技术领域】】
[0001] 本发明涉及互联网应用领域,尤其涉及一种用于地点语义识别的数据库的构建方 法及系统。 【【背景技术】】
[0002] 目前,城市用地分析、城市规划建设、兴趣点(P0I,Point of Interest)信息更新、 个性化信息推送服务以及定位服务等,都需要利用地点语义,地点语义指的是某地点或区 域从社会角度出发所对应的语义类型,例如,陶然亭公园从地理角度出发所对应的描述为 北讳XXX度至XXX度,东经XXX度至XXX度之间,从社会角度出发所对应的描述为公园,公 园就是陶然亭公园的地点语义。
[0003] 现有技术中,主要包括以下两种地点语义识别方法:
[0004] 第一种方法为以遥感影像为数据源,采用地学相关分析技术、分层分析技术、叠合 光谱图或定量遥感分析技术等,对图像进行解析,实现城市中区域的地点语义识别。其中, 中低分辨率的遥感影像难以达到城市建筑物级别的地点语义识别,而高分辨率遥感影像是 从城市建筑物的形状、位置、阴影等特点进行识别,能够进行城市用地的识别。但是,这种地 点语义识别方法受到遥感成像原理所限,遥感影像中像元数据所包含的是建筑物在不同电 磁波谱的辐射信息和反射率信息,地点语义识别结果由建筑物的物理特性和化学特性所决 定,因此得到的地点语义识别结果缺乏与人类活动相关的信息,因此,利用遥感影像识别地 点语义不能实现物理特性相似但用途不同的建筑物的区分;而且,由于遥感影像是利用卫 星获得,因此数据源的获取难度较大,使得地点语义识别的成本较高,时效性较差。
[0005] 第二种方法为以Ρ0Ι信息为数据源,通过对Ρ0Ι进行字面上的语义识别和分类,得 到城市中区域的地点语义。这里,需要经过复杂的语义分析来识别区域的地点语义,无法体 现人类活动规律,当某个区域的社会用途发生变化时,地点语义也相应发生变化,人类活动 规律也随之变化,但是Ρ0Ι信息不能够及时反映人类活动规律,会导致地点语义的错误识 别结果,而且Ρ0Ι信息需要人工进行数据维护和更新,时效性较差,Ρ0Ι信息的采集和更新 的人力成本都比较高。 【
【发明内容】

[0006] 本发明提供了一种用于地点语义识别的数据库的构建方法及系统,简单方便获取 地点语义识别的数据源,提高地点语义识别的准确性。
[0007] 本发明的具体技术方案如下:
[0008] 根据本发明一优选实施例,一种用于地点语义识别的数据库的构建方法,包括:
[0009] 依据预设样本区域的定位历史日志统计样本区域内的定位请求量;
[0010] 利用定位请求量和定位历史日志中的定位请求时间生成样本区域的定位请求曲 线特征;
[0011] 从样本区域的定位请求曲线特征中选出样本区域的特征时段,并依据特征时段或 定位请求量获得样本区域的特征指数;
[0012] 利用样本区域的特征指数和定位请求曲线特征构建地点语义样本库。
[0013] 上述方法中,所述定位请求量为定位请求总量或定位请求用户量。
[0014] 上述方法中,所述定位请求曲线特征的时间周期为一天,时间粒度为小时;或,
[0015] 所述定位请求曲线特征的时间周期为一周,时间粒度为天;或,
[0016] 所述定位请求曲线特征的时间周期为一个月,时间粒度为天;或,
[0017] 所述定位请求曲线特征的时间周期为一年,时间粒度为月。
[0018] 上述方法中,所述样本区域的特征时段为:样本区域与其他样本区域的定位请求 曲线特征的斜率差值超过预设的曲线斜率阈值的时段;或,样本区域的定位请求曲线特征 中曲线斜率超过曲线斜率最大值或小于曲线斜率最小值的时段;或,样本区域的定位请求 曲线特征中定位请求量超过定位请求量阈值的时段。
[0019] 上述方法中,所述依据特征时段获得样本区域的特征指数具体包括:
[0020] 计算特征时段在定位请求曲线特征中的曲线斜率,将所述曲线斜率作为样本区域 的特征指数;或,
[0021] 计算两个特征时段的定位请求量的比值,将所述比值作为样本区域的特征指数。
[0022] 上述方法中,利用如下公式获得样本区域的特征指数: Q(D2\T)-0(Di\T)
[0023] a = -~L__-_L_ 0(!)2/) + 0(1?\?)
[0024] 其中,a表示特征指数,T表示特征区间,Q(D1 |T)和Q(D2|T)分别表示特征区间T 在不同时间的定位请求量。
[0025] 上述方法中,该方法还包括:
[0026] 依据预设目标区域的定位历史日志和构建的地点语义样本库,获得目标区域与地 点语义样本库中每个样本区域的曲线特征匹配系数和特征指数匹配系数;
[0027] 将曲线特征匹配系数和特征指数匹配系数的乘积最高的样本区域的地点语义作 为所述目标区域的地点语义。
[0028] 上述方法中,获得目标区域与地点语义样本库中样本区域的曲线特征匹配系数的 方法为:
[0029] 利用目标区域的定位历史日志生成目标区域的定位请求曲线特征y = f (t);
[0030] 利用公式y' = f(t)/Max(f(t))对目标区域的定位请求曲线特征进行归一化处 理,得到归一化曲线特征y',其中Max(f(t))为f(t)的最大值;
[0031 ] 对地点语义样本库中的定位请求曲线特征进行归一化处理,得到归一化曲线特征 Y' i,利用公式Ayi = y' -Y' = 1,2,……,N)得到y'与Υ' i的归一化差分;
[0032] 计算Ayi的期望值Ei和方差Di;利用公式%= (1-|Ε」)(1-|0」)得到曲线特征 匹配系数%。
[0033] 上述方法中,获得目标区域与地点语义样本库中样本区域的特征指数匹配系数的 方法为:
[0034] 选出目标区域的定位请求曲线特征的特征时段,得到每个特征时段的特征指数;
[0035] 依据地点语义样本库得到每个样本区域的特征时段,提取其中具有相同特征时段 的一组以上样本区域,每组样本区域包括两个以上样本区域;
[0036] 获得目标区域在每组样本区域的相同特征时段的特征指数;
[0037] 获得目标区域与每组样本区域中每个样本区域的特征指数的相似度,将相似度作 为目标区域与样本区域的特征指数匹配系数bi。
[0038] -种用于地点语义识别的数据库的构建系统,包括:统计模块、曲线生成模块、指 数生成模块、构建模块;其中,
[0039] 统计模块,用于依据预设样本区域的定位历史日志统计样本区域内的定位请求 量;
[0040] 曲线生成模块,用于利用定位请求量和定位历史日志中的定位请求时间生成样本 区域的定位请求曲线特征;
[0041] 指数生成模块,用于从样本区域的定位请求曲线特征中选出样本区域的特征时 段,并依据特征时段或定位请求量获得样本区域的特征指数;
[0042] 构建模块,用于利用样本区域的特征指数和定位请求曲线特征构建地点语义样本 库。
[0043] 上述系统中,所述定位请求量为定位请求总量或定位请求用户量。
[0044] 上述系统中,所述定位请求曲线特征的时间周期为一天,时间粒度为小时;或,
[0045] 所述定位请求曲线特征的时间周期为一周,时间粒度为天;或,
[0046] 所述定位请求曲线特征的时间周期为一个月,时间粒度为天;或,
[0047] 所述定位请求曲线特征的时间周期为一年,时间粒度为月。
[0048] 上述系统中,所述样本区域的特征时段为:样本区域与其他样本区域的定位请求 曲线特征的斜率差值超过预设的曲线斜率阈值的时段;或,样本区域的定位请求曲线特征 中曲线斜率超过曲线斜率最大值或小于曲线斜率最小值的时段;或,样本区域的定位请求 曲线特征中定位请求量超过定位请求量阈值的时段。
[0049] 上述系统中,所述指数生成模块在依据特征时段获得样本区域的特征指数时,具 体包括:
[0050] 计算特征时段在定位请求曲线特征中的曲线斜率,将所述曲线斜率作为样本区域 的特征指数;或,
[0051] 计算两个特征时段的定位请求量的比值,将所述比值作为样本区域的特征指数。
[0052] 上述系统中,指数生成模块利用如下公式获得样本区域的特征指数:
[0053]
【权利要求】
1. 一种用于地点语义识别的数据库的构建方法,其特征在于,该方法包括: 依据预设样本区域的定位历史日志统计样本区域内的定位请求量; 利用定位请求量和定位历史日志中的定位请求时间生成样本区域的定位请求曲线特 征; 从样本区域的定位请求曲线特征中选出样本区域的特征时段,并依据特征时段或定位 请求量获得样本区域的特征指数; 利用样本区域的特征指数和定位请求曲线特征构建地点语义样本库。
2. 根据权利要求1所述的方法,其特征在于,所述定位请求量为定位请求总量或定位 请求用户量。
3. 根据权利要求1所述的方法,其特征在于, 所述定位请求曲线特征的时间周期为一天,时间粒度为小时;或, 所述定位请求曲线特征的时间周期为一周,时间粒度为天;或, 所述定位请求曲线特征的时间周期为一个月,时间粒度为天;或, 所述定位请求曲线特征的时间周期为一年,时间粒度为月。
4. 根据权利要求1所述的方法,其特征在于,所述样本区域的特征时段为:样本区域与 其他样本区域的定位请求曲线特征的斜率差值超过预设的曲线斜率阈值的时段;或,样本 区域的定位请求曲线特征中曲线斜率超过曲线斜率最大值或小于曲线斜率最小值的时段; 或,样本区域的定位请求曲线特征中定位请求量超过定位请求量阈值的时段。
5. 根据权利要求1所述的方法,其特征在于,所述依据特征时段获得样本区域的特征 指数具体包括: 计算特征时段在定位请求曲线特征中的曲线斜率,将所述曲线斜率作为样本区域的特 征指数;或, 计算两个特征时段的定位请求量的比值,将所述比值作为样本区域的特征指数。
6. 根据权利要求1所述的方法,其特征在于,利用如下公式获得样本区域的特征指数:
其中,a表示特征指数,T表示特征区间,Q (D11 T)和Q (D2 | T)分别表示特征区间T在不 同时间的定位请求量。
7. 根据权利要求1所述的方法,其特征在于,该方法还包括: 依据预设目标区域的定位历史日志和构建的地点语义样本库,获得目标区域与地点语 义样本库中每个样本区域的曲线特征匹配系数和特征指数匹配系数; 将曲线特征匹配系数和特征指数匹配系数的乘积最高的样本区域的地点语义作为所 述目标区域的地点语义。
8. 根据权利要求7所述的方法,其特征在于,获得目标区域与地点语义样本库中样本 区域的曲线特征匹配系数的方法为: 利用目标区域的定位历史日志生成目标区域的定位请求曲线特征
利用公式
|对目标区域的定位请求曲线特征进行归一化处理,得 到归一化曲线特征y',其中Max(f(t))为f(t)的最大值; 对地点语义样本库中的定位请求曲线特征进行归一化处理,得到归一化曲线特征Y' i, 利用公式
得到y'与Y' i的归一化差分; 计算Ayi的期望值Ei和方差Dy利用公式
得到曲线特征匹配 系数ap
9. 根据权利要求7所述的方法,其特征在于,获得目标区域与地点语义样本库中样本 区域的特征指数匹配系数的方法为: 选出目标区域的定位请求曲线特征的特征时段,得到每个特征时段的特征指数; 依据地点语义样本库得到每个样本区域的特征时段,提取其中具有相同特征时段的一 组以上样本区域,每组样本区域包括两个以上样本区域; 获得目标区域在每组样本区域的相同特征时段的特征指数; 获得目标区域与每组样本区域中每个样本区域的特征指数的相似度,将相似度作为目 标区域与样本区域的特征指数匹配系数bi。
10. -种用于地点语义识别的数据库的构建系统,其特征在于,该系统包括:统计模 块、曲线生成模块、指数生成模块、构建模块;其中, 统计模块,用于依据预设样本区域的定位历史日志统计样本区域内的定位请求量; 曲线生成模块,用于利用定位请求量和定位历史日志中的定位请求时间生成样本区域 的定位请求曲线特征; 指数生成模块,用于从样本区域的定位请求曲线特征中选出样本区域的特征时段,并 依据特征时段或定位请求量获得样本区域的特征指数; 构建模块,用于利用样本区域的特征指数和定位请求曲线特征构建地点语义样本库。
11. 根据权利要求10所述的系统,其特征在于,所述定位请求量为定位请求总量或定 位请求用户量。
12. 根据权利要求10所述的系统,其特征在于, 所述定位请求曲线特征的时间周期为一天,时间粒度为小时;或, 所述定位请求曲线特征的时间周期为一周,时间粒度为天;或, 所述定位请求曲线特征的时间周期为一个月,时间粒度为天;或, 所述定位请求曲线特征的时间周期为一年,时间粒度为月。
13. 根据权利要求10所述的系统,其特征在于,所述样本区域的特征时段为:样本区域 与其他样本区域的定位请求曲线特征的斜率差值超过预设的曲线斜率阈值的时段;或,样 本区域的定位请求曲线特征中曲线斜率超过曲线斜率最大值或小于曲线斜率最小值的时 段;或,样本区域的定位请求曲线特征中定位请求量超过定位请求量阈值的时段。
14. 根据权利要求10所述的系统,其特征在于,所述指数生成模块在依据特征时段获 得样本区域的特征指数时,具体包括: 计算特征时段在定位请求曲线特征中的曲线斜率,将所述曲线斜率作为样本区域的特 征指数;或, 计算两个特征时段的定位请求量的比值,将所述比值作为样本区域的特征指数。
15. 根据权利要求10所述的系统,其特征在于,指数生成模块利用如下公式获得样本 区域的特征指数:
其中,a表示特征指数,T表示特征区间,Q (D11 T)和Q (D2 I T)分别表示特征区间T在不 同时间的定位请求量。
16. 根据权利要求10所述的系统,其特征在于,该系统还包括: 定位服务模块,用于依据预设目标区域的定位历史日志和构建的地点语义样本库,获 得目标区域与地点语义样本库中每个样本区域的曲线特征匹配系数和特征指数匹配系数; 将曲线特征匹配系数和特征指数匹配系数的乘积最高的样本区域的地点语义作为所述目 标区域的地点语义。
17. 根据权利要求16所述的系统,其特征在于,定位服务模块在获得目标区域与地点 语义样本库中样本区域的曲线特征匹配系数时,具体包括: 利用目标区域的定位历史日志生成目标区域的定位请求曲线特征y = f(t); 利用公式
对目标区域的定位请求曲线特征进行归一化处理,得 到归一化曲线特征y',其中Max(f(t))为f(t)的最大值; 对地点语义样本库中的定位请求曲线特征进行归一化处理,得到归一化曲线特征Y' i, 利用公式
得到y'与Y' i的归一化差分; 计算Ayi的期望值Ei和方差Dy利用公式
得到曲线特征匹配 系数ap
18. 根据权利要求16所述的系统,其特征在于,定位服务模块在获得目标区域与地点 语义样本库中样本区域的特征指数匹配系数时,具体包括: 选出目标区域的定位请求曲线特征的特征时段,得到每个特征时段的特征指数; 依据地点语义样本库得到每个样本区域的特征时段,提取其中具有相同特征时段的一 组以上样本区域,每组样本区域包括两个以上样本区域; 获得目标区域在每组样本区域的相同特征时段的特征指数; 获得目标区域与每组样本区域中每个样本区域的特征指数的相似度,将相似度作为目 标区域与样本区域的特征指数匹配系数bi。
【文档编号】G06F17/30GK104050173SQ201310078531
【公开日】2014年9月17日 申请日期:2013年3月12日 优先权日:2013年3月12日
【发明者】梅怀博 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1