一种兴趣点识别方法和装置与流程

文档序号:13151347阅读:125来源:国知局
一种兴趣点识别方法和装置与流程
一种兴趣点识别方法和装置【技术领域】本发明涉及计算机应用技术领域,特别涉及一种兴趣点识别方法和装置。

背景技术:
POI(Pointofinterest,兴趣点)是地理信息系统中收集的地理信息表现形式,可以是一栋建筑物、一个商家、一个邮筒或者一个公交站等。每个POI包含四方面的信息:名称、类别、经度和纬度。全面的POI信息是丰富导航地图的必备咨询,及时的POI能提醒用户路况的分支及周边建筑的详尽信息,也能方便地图中查找你所需要的各个地方,选择最为便捷的道路来进行路径规划,除了出行之外,丰富和准确地POI也能够为用户提供消费参考。用户可以通过地图查找感兴趣的POI,根据其所属分类来了解商家,诸如大众点评等网站都运用了这一信息。例如,用户通过在大众点评上查找“沸腾鱼乡”,根据该POI的类别可以知道它属于美食类的中餐馆且为川菜,用户就能够以此作为消费参考,并根据该POI的地理位置做出行规划。对POI的分类实际上就是为POI打tag(标签)的过程,通常需要对一个POI进行多级分类,即打上多级tag,例如上述的tag“沸腾鱼乡”,第一级tag是“美食”,第二级tag是“餐馆”,第三级tag是“中餐馆”,第四级tag是“川菜”,甚至还有更多级的tag。然而,现有技术中上述对POI进行分类的过程主要采用人工或者统计方式,一方面效率比较低,另一方面准确性较差。

技术实现要素:
有鉴于此,本发明提供了一种POI识别的方法和装置,以便于提高POI分类的效率和准确性。具体技术方案如下:一种兴趣点POI识别的方法,所述方法包括:A、预先针对决策树的各节点分别训练分类器,具体包括:A1、确定决策树的各节点对应的训练集;A2、针对决策树的各节点分别执行:将当前节点对应的训练集作为当前节点的正样本数据,将与当前在决策树中对应同一父节点的其他节点的训练集作为当前节点的负样本数据,训练当前节点的分类器;B、从决策树的根节点开始,利用各节点的分类器逐级判决待标注的POI是否属于当前判决到的节点,利用判决结果标注所述待标注的POI。根据本发明一优选实施方式,所述步骤A1具体包括:A11、对已标注的POI数据进行聚类;A12、将聚类得到的各POI集合匹配到决策树的各节点上并作为匹配到的节点的候选训练集;A13、针对各节点的候选训练集的每一个POI分别执行:对当前POI进行网络数据挖掘,如果对当前POI挖掘出的网络数据与当前POI对应的节点匹配,则将当前POI数据放入对应节点的训练集。根据本发明一优选实施方式,步骤A12中所述将聚类得到的各POI集合匹配到决策树的各节点上包括:将聚类得到的各POI集合分别与决策树的各节点进行文本相似度的计算,如果POI集合i与节点j的文本相似度满足预设的相似度条件,则确定POI集合i匹配到了节点j上;或者,若POI集合i的POI数据中包含决策树的节点j,则确定POI集合i匹配到了节点j上。根据本发明一优选实施方式,步骤A13中所述对当前POI挖掘出的网络数据与当前POI对应的节点匹配包括:将对当前POI挖掘出的网络数据与当前POI对应的节点进行文本相似度的计算,如果文本相似度满足预设的相似度条件,则确定对当前POI挖掘出的网络数据与当前POI对应的节点匹配;或者,若当前POI挖掘出的网络数据中包含当前POI对应的节点,则确定对当前POI挖掘出的网络数据与当前POI对应的节点匹配。根据本发明一优选实施方式,所述步骤B具体包括:B11、获取待标注的POI的数据集;B12、从决策树的根节点开始执行步骤B13所述的判决;B13、将所述待标注的POI的数据集输入当前判决到的节点的分类器,若分类器输出所述待标注的POI属于当前判决到的节点的概率大于或等于预设的第一概率阈值,则执行步骤B14;若分类器输出所述待标注的POI属于当前判决到的节点的概率小于或等于预设的第二概率阈值,则执行步骤B15;若分类器输出所述待标注的POI属于当前判决到的节点的概率大于第二概率阈值且小于第一概率阈值,则执行步骤B16;B14、标注所述待标注的POI的主标签tag为当前判决到的节点,针对当前判决到的节点的子节点开始执行步骤B13所述的判决;B15、不继续进行当前判决到的节点的子节点的判决;B16、标注所述待标注的POI的次tag为当前判决到的节点,不继续进行当前判决到的节点的子节点的判决;其中所述第一概率阈值大于所述第二概率阈值。根据本发明一优选实施方式,所述主tag或次tag用于在搜索POI时召回用户输入的查询关键词命中的主tag或次tag对应的POI,但命中的主tag对应的POI的排次高于命中的次tag对应的POI的排次。根据本发明一优选实施方式,所述步骤B具体包括:B21、获取待标注的POI的数据集;B22、从决策树的根节点开始执行步骤B23所述的判决;B23、将所述待标注的POI的数据集输入当前判决到的节点的分类器,若分类器输出所述待标注的POI属于当前判决到的节点的概率大于或等于预设的第三概率阈值,则执行步骤B24;否则,不继续进行当前判决到的节点的子节点的判决;B24、标注所述待标注的POI的tag为当前判决到的节点,针对当前判决到的节点的子节点开始执行步骤B23所述的判决。根据本发明一优选实施方式,所述获取待标注的POI的数据集包括:获取运营商针对所述待标注的POI提供的数据;和/或,对所述待标注的POI进行网络数据挖掘,获取挖掘出的数据。根据本发明一优选实施方式,在训练分类器时以及在利用分类器进行判决时采用的特征为:从POI的名称中提取的类型信息,和/或从POI的地址中提取的n元词组n-gram,n为预设的正整数。一种POI识别的装置,该装置包括:训练单元和识别单元;所述训练单元具体包括:训练集确定子单元,用于确定决策树的各节点对应的训练集;分类器训练子单元,用于针对决策树的各节点分别执行:将当前节点对应的训练集作为当前节点的正样本数据,将与当前在决策树中对应同一父节点的其他节点的训练集作为当前节点的负样本数据,训练当前节点的分类器;所述识别单元,用于从决策树的根节点开始,利用各节点的分类器逐级判决待标注的POI是否属于当前判决到的节点,利用判决结果标注所述待标注的POI。根据本发明一优选实施方式,所述训练集确定子单元具体包括:聚类模块,用于对已标注的POI数据进行聚类;匹配模块,用于将聚类得到的各POI集合匹配到决策树的各节点上并作为匹配到的节点的候选训练集;挑选模块,用于针对各节点的候选训练集的每一个POI分别执行:对当前POI进行网络数据挖掘,如果对当前POI挖掘出的网络数据与当前POI对应的节点匹配,则将当前POI数据放入对应节点的训练集。根据本发明一优选实施方式,所述匹配模块在将聚类得到的各POI集合匹配到决策树的各节点上时,具体执行:将聚类得到的各POI集合分别与决策树的各节点进行文本相似度的计算,如果POI集合i与节点j的文本相似度满足预设的相似度条件,则确定POI集合i匹配到了节点j上;或者,若POI集合i的POI数据中包含决策树的节点j,则确定POI集合i匹配到了节点j上。根据本发明一优选实施方式,所述挑选模块具体将对当前POI挖掘出的网络数据与当前POI对应的节点进行文本相似度的计算,如果文本相似度满足预设的相似度条件,则确定对当前POI挖掘出的网络数据与当前POI对应的节点匹配;或者,若当前POI挖掘出的网络数据中包含当前POI对应的节点,则确定对当前POI挖掘出的网络数据与当前POI对应的节点匹配。根据本发明一优选实施方式,所述识别单元具体包括:获取子单元,用于获取待标注的POI的数据集;控制子单元,用于从决策树的根节点开始,控制判决子单元执行判决;若所述判决子单元的判决结果为所述待标注的POI属于当前判决到的节点的概率大于或等于预设的第一概率阈值,则标注所述待标注的POI的主tag为当前判决到的节点,控制判决子单元针对当前判决到的节点的子节点执行判决;若所述判决子单元的判决结果为所述待标注的POI属于当前判决到的节点的概率小于或等于预设的第二概率阈值,则不继续控制所述判决子单元针对当前判决到的节点的子节点进行判决;若所述判决子单元的判决结果为所述待标注的POI属于当前判决到的节点的概率大于第二概率阈值且小于第一概率阈值,则标注所述待标注的POI的次tag为当前判决到的节点,不继续控制所述判决子单元针对当前判决到的节点的子节点进行判决;其中所述第一概率阈值大于所述第二概率阈值;判决子单元,用于将所述待标注的POI的数据集输入当前判决到的节点的分类器,获取分类器的输出结果。根据本发明一优选实施方式,所述主tag或次tag用于在搜索POI时召回用户输入的查询关键词命中的主tag或次tag对应的POI,但命中的主tag对应的POI的排次高于命中的次tag对应的POI的排次。根据本发明一优选实施方式,所述识别单元具体包括:获取子单元,用于获取待标注的POI的数据集;控制子单元,用于从决策树的根节点开始,控制判决子单元执行判决;若所述判决子单元的判决结果为所述待标注的POI属于当前判决到的节点的概率大于或等于预设的第三概率阈值,则标注所述待标注的POI的tag为当前判决到的节点,控制判决子单元针对当前判决到的节点的子节点执行判决;若所述判决子单元的判决结果为所述待标注的POI属于当前判决到的节点的概率小于所述第三概率阈值,则不继续控制所述判决子单元针对当前判决到的节点的子节点进行判决;判决子单元,用于将所述待标注的POI的数据集输入当前判决到的节点的分类器,获取分类器的输出结果。根据本发明一优选实施方式,所述获取待标注的POI的数据集包括:获取运营商针对所述待标注的POI提供的数据;和/或,对所述待标注的POI进行网络数据挖掘,获取挖掘出的数据。根据本发明一优选实施方式,所述分类器训练子单元在训练分类器时以及所述识别单元在利用分类器进行判决时采用的特征为:从POI的名称中提取的类型信息,和/或从POI的地址中提取的n元词组n-gram,n为预设的正整数。由以上技术方案可以看出,本发明提供了一种自动进行POI识别的方法,相比较人工人类的方式提高了分类效率;另外,在针对决策树各节点的分类器时,将当前节点对应的训练集作为当前节点的正样本数据,将当前节点在决策树中对应同一父节点的其他节点的训练集作为当前节点的负样本数据,使得能够在决策树的同一级节点之间进行很好的区分,提高了准确性。【附图说明】图1为本发明实施例提供的一个分类体系结构的实例图;图2为本发明实施例一提供的针对决策树的各节点训练分类器的方法流程图;图3为本发明实施例一中提供的自动确定各节点的训练集的方法流程图;图4为本发明实施例二提供的利用决策树各节点的分类器进行POI识别的方法流程图;图5为本发明实施例三提供的POI识别装置的结构图;图6为本发明实施例三提供的训练集确定子单元的结构图。【具体实施方式】为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。在本发明中基于一个人工建立的分类体系结构,按照该分类体系结构对POI进行具体识别以判断该POI属于该分类体系结构中的哪些分类。该分类体系结构相当于对各分类进行了明确,一旦识别出POI的分类,该分类必定属于该分类体系结构中的某一种或几种。另外需要说明的是,该分类体系结构是树状的层级结构,某节点的下一层子节点是该节点对应的各子类。图1为本发明实施例提供的一个分类体系结构的实例,图1中所示的分类体系结构用于进行美食类POI的识别时的参照。鉴于分类体系结构是树状分层结构,因此业界通常将其称为决策树。在本发明中针对决策树的各节点分别训练分类器,利用某一个节点的分类器可以识别POI是否属于该节点对应的分类以及属于该分类的概率,在针对待标注的POI进行识别时,从决策树的根节点开始,利用各节点的分类器逐级判决待标注的POI是否属于当前判决到的节点,利用判决结果标注待标注的POI。下面分别通过实施例一和实施例二对训练分类器的过程和利用决策树的各节点的分类器进行POI识别的过程进行详细描述。实施例一、图2为本发明实施例一提供的针对决策树的各节点训练分类器的方法流程图,如图2所示,该方法包括以下步骤:步骤201:确定决策树的各节点对应的训练集。业界在对分类器进行训练时,通常采用人工标注训练集的方式,显然这种方式对于大量分类器而言工作量是巨大的,甚至是无法完成的,对于本发明中的决策树而言,由于决策树中节点数量可能是很庞大的,如果针对每一个节点都人工确定训练集,这一筛选过程费时费力。在此,本发明实施例提供了一种优选的方式来实现各节点对应的训练集的自动确定,该自动确定过程可以采用如图3中所示的流程实现,如图3所示,该流程可以包括以下步骤:步骤301:对已标注的POI数据进行聚类。在本发明实施例中进行分类器的训练可以采用已标注的POI数据作为训练数据,利用已标注的POI数据训练分类器后,对未标注的POI数据来进行识别从而完成标注。对已标注的POI数据进行的聚类主要采用文本聚类的方式,将文本相似的POI聚为一类,采用的聚类方式可以采用任意的文本聚类方式,诸如k-means等,本发明对文本聚类的方式并不加以限制。步骤302:将聚类得到的各POI集合匹配到决策树的各节点上,作为匹配到的节点的候选训练集。匹配方式可以采用相似度计算的方式,例如将各POI集合分别与决策树的各节点进行文本相似度的计算,如果POI集合与某节点的文本相似度满足预设的相似度条件,就认为该POI集合匹配到了该节点上,该POI集合就作为该节点的候选训练集。举个例子,假设进行聚类后得到的其中一个POI集合中包含这样一些POI数据:<沸腾鱼乡,麻辣,知春路17号>,<老白家,泡馍,经度2,纬度2>,<陶然居,香辣虾,朝外大街>,<俏巴妹,烤鱼,朝阳区西坝河中里34号>,<俏巴妹,川菜,国展对面>…,经过文本相似度的计算,确定该POI集合与以下节点的文本相似度都满足了相似度条件:“美食”、“餐馆”、“中餐馆”、“川菜”,那么就将该POI集合作为这些节点的候选训练集。在此需要说明的是,本步骤中一个POI集合可能仅作为一个节点的候选训练集,也可能作为多个节点的候选训练集。除了这种相似度计算的方式之外,还可以采用一些简单的处理方式,例如假设某POI集合的POI数据中包含决策树中的某节点,例如上述例子中的POI集合的POI数据中包含“川菜”,那就将该POI集合作为节点“川菜”的候选训练集。步骤303:针对各节点的候选训练集的每一个POI分别执行:对当前POI进行网络数据挖掘,如果对当前POI挖掘出的网络数据与当前POI对应的节点匹配,则将当前POI数据放入对应节点的训练集。在此对POI进行网络数据挖掘可以是从预设的网站上获取POI对应的属性信息或评论信息等,例如对于<沸腾鱼乡,麻辣,知春路17号>这一POI,可以从诸如大众点评、携程、美食论坛等网站上获取该POI的属性信息或者评论信息,这些信息构成一个文本向量,将该文本向量与该POI对应的节点进行匹配,同样匹配的方式可以采用文本相似度的方式或者简单的包含的判断方式,在此不再重复描述,如果匹配得上,例如POI挖掘出的网络数据构成的文本向量与该POI对应的节点“川菜”能够匹配上,就将该POI数据放入节点“川菜”的训练集;如果POI<老白家,泡馍,经度2,纬度2>挖掘出的网络数据构成的文本向量与节点“川菜”不能够匹配上,则该POI虽然出现在节点“川菜”的候选训练集中,但最终不会被选入节点“川菜”的训练集。经过对各节点的各候选训练集的每一个POI都执行这一步骤后,就能够确定出决策树中各节点的训练集,这就完成了图3中所示的全部流程。继续参见图2,步骤202:针对决策树的各节点分别执行:将当前节点对应的训练集作为当前节点的正样本数据,将与当前节点在决策树中对应同一父节点的其他节点的训练集作为当前节点的负样本数据,训练当前节点的分类器。鉴于tag的分类是较大规模的,通常超过600个分类,在未来还可能会扩展至1000个以上甚至更多,这会就造成找到足够多的样本数据成为障碍。在本发明实施例中采用一种巧妙的方式:由于在针对各节点进行POI识别的过程实际上可以看作对同层的节点进行判决,这样在训练每个节点的分类器时,就能够将当前节点的训练集作为当前节点的正样本数据,对应同一父节点的其他节点的训练集作为当前节点的负样本数据,这样训练出来的分类器大大简化了分类难度。假设采用的决策树是个二叉树(实际上可能不是二叉树,例如图1中所示的决策树就不是二叉树,在此仅以二叉树举例),如果该二叉树有n层,则共有2n个节点,由于对应同一父节点的节点只有两个,那么就将2n个类别的分类问题和训练问题转化为2分类问题,显然大大简化了分类难度。在训练分类器时,采用的特征是从样本数据中提取的特征,由于样本数据是POI数据,POI数据通常会包含POI的名称或地址等,例如某POI为<博纳影城,朝阳区朝外大街三丰北里2号楼>,在此可以从POI的名称中提取类型信息作为训练分类器所采用的特征,例如从“博纳影城”中提取出“影城”,本实施例中类型信息主要是商家类型,也就是其经营范围,提取方式可以采用关键词列表或者模板识别的方式,该部分可以采用现有技术,在此不再赘述。或者,可以从POI的地址中提取n-gram(n元词组)作为训练分类器所采用的特征,n为预设的正整数。例如,若n为3,则从地址“朝外大街三丰北里2号楼”提取“朝阳区”、“朝外大街”、“三丰北里”、“2号楼”、“朝阳区朝外大街”、“朝外大街三丰北里”、“三丰北里2号楼”、“朝阳区朝外大街三丰北里”、“朝外大街三丰北里2号楼”作为训练分类器所采用的特征。训练分类器是采用的分类器可以是但不限于SVM(支持向量机)、贝叶斯分类器等,具体的训练过程为已有技术,在此不再赘述。至此,决策树各节点的分类器训练完毕。实施例二、图4为本发明实施例二提供的利用决策树各节点的分类器进行POI识别的方法流程图,如图4所示,该方法主要包括以下步骤:步骤401:获取待标注的POI的数据集。对于待标注的POI,为了尽可能的增大POI识别的准确性,可以从多种数据源获取待标注的POI的数据构成数据集,包括但不限于:运营商针对该待标注的POI提供的数据,和/或通过网络数据挖掘对该待标注的POI挖掘出的数据。同样,对待标注的POI进行网络数据挖掘可以是从预设的网站上获取该待标注的POI对应的属性信息或评论信息等,与实施例一中步骤303中描述的网络数据挖掘方式相同。步骤402:从决策树的根节点开始执行步骤403所述的判决。步骤403:将待标注的POI的数据集输入当前判决到的节点的分类器,若分类器输出所述待标注的POI属于当前判决到的节点的概率大于或等于预设的第一概率阈值,则执行步骤404;若分类器输出待标注的POI属于当前判决到的节点的概率小于或等于预设的第二概率阈值,则执行步骤405;若分类器输出待标注的POI属于当前判决到的节点的概率大于第二概率阈值且小于第一概率阈值,则执行步骤406,其中第一概率阈值大于第二概率阈值。各节点的分类器在对输入的待标注的POI的数据集进行分类时,利用的特征是从该数据集中提取的特征,该特征的提取与实施例一中步骤202训练各节点的分类器时提取的特征一致,在此不再赘述。步骤404:标注待标注的POI的主tag为当前判决到的节点,转至步骤403进行当前判决到的节点的子节点的判决。步骤405:不继续进行当前判决到的节点的子节点的判决,即结束当前分支的判决。步骤406:标注待标注的POI的次tag为当前判决到的节点,不继续进行当前判决到的节点的子节点的判决,即结束当前分支的判决。举个例子,仍以图1中所示的决策树为例,假设获取到某个POI的数据集后,从该决策树的根节点开始判决,利用节点“美食”对应的分类器进行分类,若输出该POI属于“美食”的概率大于0.8(假设预设的第一概率阈值为0.8),则标注该POI的主tag为“美食”,继续分别进行其子节点“餐馆”和“小吃”的判决。假设利用“餐馆”对应的分类器输出该POI属于“餐馆”的概率大于0.8,则标注该POI的主tag为“餐馆”,利用“小吃”对应的分类器输出该POI属于“餐馆”的概率小于0.5(假设预设的第二概率阈值为0.5),则不再进行“小吃”的子节点的判决。然后再分别进行“中餐馆”、“西餐馆”和“日本菜”的判决,假设利用“中餐馆”对应的分类器输出该POI属于“中餐馆”的概率大于0.8,则标注该POI的主tag为“中餐馆”,继续针对其子节点分别进行判决。利用“西餐馆”对应的分类器输出该POI属于“西餐馆”的概率大于0.5且小于0.8,则标注该POI的次tag为“西餐馆”,但不再继续“西餐馆”的子节点的判决。利用“日本菜”对应的分类器输出该POI属于“日本菜”的概率小于0.5,则不再继续“日本菜”的子节点的判决。后续过程类似,最终针对该POI就能够自动标注出一系列的主tag,也可能包含次tag,这些主tag和次tag就表征了该POI的分类。主tag和次tag都能够召回该POI,即当用户在诸如地图的应用中输入某关键词,该关键词无论是命中了主tag还是次tag都能够将对应的POI召回并展现在搜索结果中。但不同的是,主tag和次tag对于POI在搜索结果中的排次影响不同,主tag对于排次的影响较大,次tag则较小。即命中主tag的POI在搜索结果中的排次较高,命中次tag的POI在搜索结果中的排次较低。当然,也可以不进行主tag和次tag的区分,即在步骤403中若输出所述待标注的POI属于当前判决到的节点的概率大于或等于预设的第三概率阈值,则标注该待标注的POI的tag为当前判决到的节点,针对当前判决到的节点的子节点开始执行步骤B403所述的判决,否则,不继续进行当前判决到的节点的子节点的判决,即结束当前分支的判决。该第三概率阈值与上述的第一概率阈值和第二概率阈值没有必然的关系,可以等于第一概率阈值或第二概率阈值,也可以是第一概率阈值或第二概率阈值之间的某个值。在采用上述方式完成标注的POI又可以作为已标注的数据重新用于进行决策树各节点的分类器训练,从而逐渐使得分类器的分类效果更加精确,召回率更高。以上是对本发明所提供的方法进行的详细描述,下面结合实施例对本发明提供的装置进行详细描述。实施例三、图5为本发明实施例三提供的POI识别装置的结构图,如图5所示,该装置包括训练单元00和识别单元10。训练单元00主要用于预先对针对决策树的各节点分别训练分类器,识别单元10用于从决策树的根节点开始,利用各节点的分类器逐级判决待标注的POI是否属于当前判决到的节点,利用判决结果标注所述待标注的POI。首先对训练单元00进行介绍,训练单元00包括训练集确定子单元01和分类器训练子单元02。其中训练集确定子单元01确定决策树的各节点对应的训练集。业界在对分类器进行训练时,通常采用人工标注训练集的方式,显然这种方式对于大量分类器而言工作量是巨大的,甚至是无法完成的,对于本发明中的决策树而言,由于决策树中节点数量可能是很庞大的,如果针对每一个节点都人工确定训练集,这一筛选过程费时费力。在此,本发明实施例提供了一种优选的方式来实现各节点对应的训练集的自动确定,这种方式对应的训练集确定子单元01的结构如图6所示,具体包括:聚类模块61、匹配模块62和挑选模块63。聚类模块61对已标注的POI数据进行聚类。在本发明实施例中进行分类器的训练可以采用已标注的POI数据作为训练数据,利用已标注的POI数据训练分类器后,对未标注的POI数据来进行识别从而完成标注。对已标注的POI数据进行的聚类主要采用文本聚类的方式,将文本相似的POI聚为一类,采用的聚类方式可以采用任意的文本聚类方式,诸如k-means等,本发明对文本聚类的方式并不加以限制。匹配模块62负责将聚类得到的各POI集合匹配到决策树的各节点上并作为匹配到的节点的候选训练集。匹配模块62在将聚类得到的各POI集合匹配到决策树的各节点上时,可以采用以下两种方式中的至少一种:将聚类得到的各POI集合分别与决策树的各节点进行文本相似度的计算,如果POI集合i与节点j的文本相似度满足预设的相似度条件,则确定POI集合i匹配到了节点j上;或者,若POI集合i的POI数据中包含决策树的节点j,则确定POI集合i匹配到了节点j上。挑选模块63用于针对各节点的候选训练集的每一个POI分别执行:对当前POI进行网络数据挖掘,如果对当前POI挖掘出的网络数据与当前POI对应的节点匹配,则将当前POI数据放入对应节点的训练集。在此对POI进行网络数据挖掘可以是从预设的网站上获取POI对应的属性信息或评论信息等。与匹配模块62相类似的,挑选模块63具体可以采用以下两种方式中的至少一种来将当前POI挖掘出的网络数据与当前POI对应的节点进行匹配判断:将对当前POI挖掘出的网络数据与当前POI对应的节点进行文本相似度的计算,如果文本相似度满足预设的相似度条件,则确定对当前POI挖掘出的网络数据与当前POI对应的节点匹配;或者,若当前POI挖掘出的网络数据中包含当前POI对应的节点,则确定对当前POI挖掘出的网络数据与当前POI对应的节点匹配。继续参见图5,图5中的分类器训练子单元02用于针对决策树的各节点分别执行:将当前节点对应的训练集作为当前节点的正样本数据,将与当前在决策树中对应同一父节点的其他节点的训练集作为当前节点的负样本数据,训练当前节点的分类器。在训练分类器时,采用的特征是从样本数据中提取的特征,由于样本数据是POI数据,POI数据通常会包含POI的名称或地址等,本发明实施例中可以从POI的名称中提取类型信息作为训练分类器所采用的特征,和/或,从POI的地址中提取n-gram作为训练分类器所采用的特征,n为预设的正整数。训练分类器是采用的分类器可以是但不限于SVM(支持向量机)、贝叶斯分类器等,具体的训练过程为已有技术,在此不再赘述。下面对识别单元10的结构进行介绍,识别单元10的功能是从决策树的根节点开始,利用各节点的分类器逐级判决待标注的POI是否属于当前判决到的节点,利用判决结果标注待标注的POI。其中识别单元10可以包括但不限于两种实现方式,第一种实现方式如图5中所示,识别单元10具体包括:获取子单元11、控制子单元12和判决子单元13。获取子单元11用于获取待标注的POI的数据集。对于待标注的POI,为了尽可能的增大POI识别的准确性,可以从多种数据源获取待标注的POI的数据构成数据集,包括但不限于:运营商针对该待标注的POI提供的数据,和/或通过网络数据挖掘对该待标注的POI挖掘出的数据。同样,对待标注的POI进行网络数据挖掘可以是从预设的网站上获取该待标注的POI对应的属性信息或评论信息等。控制子单元12,用于从决策树的根节点开始,控制判决子单元13执行判决;若判决子单元13的判决结果为待标注的POI属于当前判决到的节点的概率大于或等于预设的第一概率阈值,则标注待标注的POI的主tag为当前判决到的节点,控制判决子单元13针对当前判决到的节点的子节点执行判决;若判决子单元13的判决结果为待标注的POI属于当前判决到的节点的概率小于或等于预设的第二概率阈值,则不继续控制判决子单元13针对当前判决到的节点的子节点进行判决;若判决子单元13的判决结果为待标注的POI属于当前判决到的节点的概率大于第二概率阈值且小于第一概率阈值,则标注待标注的POI的次tag为当前判决到的节点,不继续控制判决子单元13针对当前判决到的节点的子节点进行判决;其中第一概率阈值大于第二概率阈值。判决子单元13用于将待标注的POI的数据集输入当前判决到的节点的分类器,获取分类器的输出结果。最终对POI就能够自动标出一系列的主tag,也可能包含次tag。上述的主tag和次tag用于在搜索POI时召回用户输入的查询关键词命中的主tag或次tag对应的POI,即当用户在诸如地图的应用中输入某关键词,该关键词无论是命中了主tag还是次tag都能够将对应的POI召回并展现在搜索结果中。但主tag和次tag对于POI在搜索结果中的排次影响不同,命中的主tag对应的POI的排次高于命中的次tag对应的POI的排次。当然也可以不进行主tag和次tag的区分,这种情况下若判决子单元13的判决结果为待标注的POI属于当前判决到的节点的概率大于或等于预设的第三概率阈值,则控制子单元12标注待标注的POI的tag为当前判决到的节点,控制判决子单元13针对当前判决到的节点的子节点执行判决;若判决子单元13的判决结果为待标注的POI属于当前判决到的节点的概率小于第三概率阈值,则控制子单元12不继续控制判决子单元13针对当前判决到的节点的子节点进行判决。在本发明所提供的几个实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1