一种基于百度地图api的地理位置实体规范化方法

文档序号:9579356阅读:1396来源:国知局
一种基于百度地图api的地理位置实体规范化方法
【技术领域】
[0001] 本发明属于中文信息处理技术领域,具体涉及一种基于百度地图API的地理位置 实体规范化方法。
【背景技术】
[0002] 随着数字化城市的发展,城市管理进入信息化时代,百姓通过数字化平台反映城 市管理中存在的问题。由于他们年龄、学历、表达方式存在差异,导致城市管理投诉语料存 在格式不规范,表达不统一等特点,工作人员只能逐字浏览,才能发现其中的重要信息,工 作繁琐且效率低下。
[0003] 由于城市管理投诉语料来自于群众,格式不规范,表达不统一,其中的地理位置 实体结构复杂,长度较长,如表1所示。从表中可以看出,地理位置实体存在如下现象:第 一,地名区域缺失,如:"南礼士路地铁口南"缺失区域名称;第二,地名区域模糊,如:"长安 街",无法判断"长安街"这个地理位置是位于西城区还是东城区。
[0004] 表1 :城市管理投诉文本中地理位置实体示例
[0005]
[0006] 存在上述两种情况的地理位置实体称为缺陷地理位置实体,记为defectLoc。由于 defectLoc的存在,对工作人员的统计分析工作带来了极大的困难,以致于工作人员很难统 计各个区域的事故发生量而不能及时预防事故的发生。
[0007]目前,对于地理位置实体的研究仅仅处于识别提取阶段,例如:抽取新闻语料中包 括省、地、县、乡、村五级行政地理命名实体;提取人民日报语料中带有特征词(如省、市等) 的地名;抽取新闻网页语料中的中文地名;利用最大熵模型识别新闻报道领域最长地点实 体;采用分治思想识别城市管理投诉语料中复杂的地理位置实体等。对于地理位置实体的 规范化研究,至今尚未出现。

【发明内容】

[0008] 针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技 术缺陷的基于百度地图API的地理位置实体规范化方法。
[0009] 为了实现上述发明目的,本发明采用的技术方案如下:
[0010] 一种基于百度地图API的地理位置实体规范化方法,包括以下步骤:
[0011] 步骤1):利用百度地图API,对缺陷地理位置实体进行检索,其中,所述缺陷地理 位置实体是指地名区域缺失或者地名区域模糊的地理位置实体,记为defectLoc;
[0012] 步骤2):利用步骤1)的检索结果,构建缺陷地理位置实体的区域特征向量;
[0013] 步骤3):利用所述区域特征向量,对明确地理位置实体进行规范化;
[0014] 其中,所述明确地理位置实体,是指检索结果中出现且只出现一个区域或者检 索结果中每个区域概率的最大值Max(P(area」defectLoc))彡γ的defectLoc,记为 clearLoc,其中γ为clearLoc的参数;其中概率PfereaildefectLoc)的计算公式如式(1) 所示:
[0015]
[0016] 步骤4):利用所述明确地理位置实体,对歧义地理位置实体进行规范化;
[0017] 其中,所述歧义地理位置实体,是指检索结果中出现了多个区域且 Max(P(area; |Location)) <γ的defectLoc,记为ambiguityLoc;
[0018] 步骤5):利用等价地理位置实体,对零地理位置实体进行规范化;
[0019] 其中,所述等价地理位置实体,是指检索过程中,搜索输入框中输入的地理位置实 体与检索结果中的地理位置实体等价,记为equalLoc;所述零地理位置实体,是指检索结 果中未出现区域信息的defectLoc,记为zeroLoc。
[0020] 进一步地,所述步骤1)具体为:
[0021] 利用开放的Web服务API下面的PlaceAPI模块中的城市内检索功能,对地理位 置实体进行检索,调用JavaScriptAPI的Search方法以XML的数据格式接受地理位置实 体的检索结果。
[0022] 进一步地,所述步骤2)具体为:
[0023] 利用公式(2)计算检索结果中包含的区域的个数:
[0024]
[0025] 其中bagi={addressu,addressi2,…,address^},目标区域为Area= {area!, area2,…,areaj,其中i为缺陷地理位置实体的个数,j为搜索引擎返回的检索结果的个 数,η为区域个数;
[0026] 利用公式(3)计算检索结果中各个区域的权重:
[0027]
[0028]利用公式(4)构建缺陷地理位置实体的区域特征向量(Score(areaiIdefectLoc), Score(area21defectLoc),...,Score(arean |defectLoc)):
[0029]
[0030] 其中defectLoc为缺陷地理位置实体。
[0031] 进一步地,在所述步骤3)中,如果检索结果中只含有一个区域,则此区域信息为 缺陷地理位置实体的区域信息。
[0032] 进一步地,所述步骤4)具体为:
[0033] 通过提取地理位置实体组中的clearLoc对所述歧义地理位置实体进行消歧;
[0034] 其中,所述地理位置实体组是指如果在同一个投诉文本中出现了多个地理位置 实体,则将这些地理位置实体进行组合,构成一个地理位置实体组,记为:L〇Cati〇nSet, LocationSet = {Location" Location" …,LocationJ〇
[0035] 进一步地,对所述歧义地理位置实体进行规范化包括:
[0036] 利用公式(5)计算组内clearLoc对ambiguityLoc施加的作用力F,利用公式(6) 得到施加作用力F之后,该ambiguityLoc的新特征向量,之后利用明确地理位置实体确定 该ambiguityLoc的所属区域:
[0037]
[0038] 其中,|LocationSet| 表示组内Location的个数;
[0039] Scorenew(area;| ambiguityLoc) = α X Score (area;| ambiguityLoc) + (1-α ) XF (6),
[0040] 其中,地理位置实体作用力F是指在同一LocationSet下的Location彼此之间相 互作用,即LocationiOLocationjOLocationJl<i辛j辛k<η),相互作用力记为F。
[0041] 进一步地,所述步骤5)具体为:
[0042] 提取检索结果中的等价地理位置实体,进行2次检索,根据2次检索的结果,利用 公式(7)和明确地理位置实体、歧义地理位置实体确定地理位置信息;
[0043]
[0044] 其中η为1次检累得到的equalLoc的个数。。
[0045] 本发明提供的基于百度地图API的地理位置实体规范化方法,以城市管理投诉文 本为基础,利用地图API实现地理位置实体的规范化,结合城市管理投诉文本的特点、地理 位置实体中存在的问题,对不完整的地理位置实体进行区域补全,从而解决了统计分析工 作难以进行的局面,方便了工作人员进行统计分析工作,减少了工作人员的劳动力,为相关 部门提供决策支持,可以很好地满足实际应用的需要。
【附图说明】
[0046] 图1为本发明提供的基于百度地图API的地理位置实体规范化方法的流程图。
【具体实施方式】
[0047] 为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施 例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用 于限定本发明。
[0048] 如图1所示,一种基于百度地图API的地理位置实体规范化方法,包括以下步骤:
[0049] 步骤1):利用百度地图API,对缺陷地理位置实体进行检索,其中,所述缺陷地理 位置实体是指地名区域缺失或者地名区域模糊的地理位置实体,记为defectLoc。
[0050] 步骤2):利用步骤1)所获得的检索结果,构建缺陷地理位置实体的区域特征向 量。
[0051] 步骤3):利用步骤2)的区域特征向量,对明确地理位置实体进行规范化;
[0052] 其中,所述明确地理位置实
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1