连锁品牌词词库、类别词词库建立方法和装置制造方法

文档序号:6512982阅读:193来源:国知局
连锁品牌词词库、类别词词库建立方法和装置制造方法
【专利摘要】本发明实施例公开了连锁品牌词、类别词词库建立方法和装置。一种情况下,基于同一城市POI数据库中的POI数据进行连锁品牌词识别器的训练,利用该连锁品牌词识别器可对POI数据库中所有POI数据的名称主干进行识别,识别出是连锁品牌词的名称主干,并将其存储在连锁品牌词词库中。另一种情况下,基于用户查询日志中记录的查询词和与查询词对应的被点击的POI数据进行识别器的训练,利用该识别器可对用户查询日志中记录的所有查询词进行识别,识别出是连锁品牌词和类别词的查询词,并分别将其存储在连锁品牌词词库和类别词词库中。根据本发明实施例,不仅提高了工作效率,还可以通过定时挖掘,实现及时更新词库。
【专利说明】连锁品牌词词库、类别词词库建立方法和装置

【技术领域】
[0001] 本发明涉及地理信息【技术领域】,特别是连锁品牌词词库、类别词词库建立方法和 装直。

【背景技术】
[0002] 在利用导航引擎进行路径导航之前,通常需要先搜索目的地。在搜索目的地的过 程中,用户先向导航引擎输入一个查询词,导航引擎从POI (Point of Interest,兴趣点) 数据库中搜索与该查询词匹配的几个POI数据,当用户从中选择一个POI数据后,导航引擎 根据用户选择的POI数据进行路径规划并导航。
[0003] 在一些情况下,用户输入的查询词可能是反映某一种类别的类别词,例如,"餐馆" 是一个类别词,基于不同的维度,"餐馆"既可以分为"中餐餐馆"和"西餐餐馆",又可以分 为"高档餐厅"和"街头小吃铺",而"中餐餐馆"、"西餐餐馆"、"高档餐厅"和"街头小吃铺" 作为"餐馆"的子类别,同样也都是类别词。在另一些情况下,用户输入的查询词也可能是 反映某一个连锁品牌机构的连锁品牌词,例如,"工商银行"、"肯德基"和"苏宁电器"等都属 于连锁品牌词。
[0004] 目前,基于用户需求的考虑,为提高搜索结果的准确性,确保搜索结果更符合用户 所需要查询的结果,当查询词是一个类别词或者是一个连锁品牌词时,导航引擎搜索与该 查询词匹配的POI数据的搜索方法以及对搜索结果的排序方法与查询词为普通词(普通词 不是类别词也不是连锁品牌词,如方恒国际中心)时,导航引擎所采用的搜索方法和排序方 法不同。如当导航引擎判断出用户输入的查询词为类别词时,说明用户需要搜索的应该是 某一种类别的Ρ0Ι,因此导航引擎采取的搜索方法是根据用户输入的类别词,从POI数据 库中筛选出与该类别词匹配的Ρ0Ι,并在展示查询结果时按照POI距离用户位置由近到远 的顺序展示;而当导航引擎判断出用户输入的查询词为连锁品牌词时,由于连锁品牌机构 在地理上来说分布较为均匀,说明用户需要搜索的应该是距离当前位置较近的连锁品牌机 构,因此导航引擎采取的搜索方法是搜索用户位置周边一定范围内的与连锁品牌词匹配的 Ρ0Ι,并且在展示检索结果时,按照POI距离用户位置由近到远的顺序展示。
[0005] 现有技术中,导航引擎判断用户输入的查询词为类别词或连锁品牌词的方式为: 通过将查询词与类别词词库和连锁品牌词词库进行匹配,若从类别词词库中匹配到该查询 词则判断该查询词为类别词,若从连锁品牌词词库中匹配到该查询词则判断该查询词为连 锁品牌词词库。目前主要通过人工对POI数据进行分析、总结归纳出一些常用的类别词和 连锁品牌词,并分别建立类别词词库和连锁品牌词词库,以便导航引擎依据类别词词库和 连锁品牌词词库来识别一个查询词为类别词或连锁品牌词。但是,这种依靠人工的总结归 纳来建立类别词词库和连锁品牌词词库的方式不仅工作效率低,而且,一旦出现了新的词 汇,也无法及时更新词库。


【发明内容】

[0006] 为了解决上述技术问题,本发明实施例提供了连锁品牌词、类别词词库建立方法 和装置,能够从POI数据库中自动挖掘出连锁品牌词,以及从用户查询日志中自动挖掘出 连锁品牌词和类别词,不仅提高了工作效率,而且,还可以通过定时挖掘,实现及时更新词 库。
[0007] 本发明实施例公开了如下技术方案:
[0008] -种连锁品牌词词库建立方法,包括:
[0009] 将同一城市兴趣点POI数据库中名称主干相同的POI数据聚合成一个POI数据 组,所述POI数据组与所述名称主干对应;
[0010] 从各个POI数据组中提取所述POI数据组的识别特征;
[0011] 从所有POI数据组中抽取出名称主干已被标记为连锁品牌词和非连锁品牌词的 POI数据组作为训练数据,基于所述训练数据的识别特征进行连锁品牌词识别器的训练;
[0012] 利用训练后的所述连锁品牌词识别器对所有POI数据组对应的名称主干中未识 别的名称主干进行识别,识别出是连锁品牌词的名称主干;
[0013] 将所述是连锁品牌词的名称主干存储在预置的连锁品牌词词库中。
[0014] 一种连锁品牌词词库和类别词词库建立方法,包括:
[0015] 从用户查询日志中,获取不同用户在同一城市通过相同的查询词查询得到的POI 数据,将获取到的POI数据聚合成一个POI数据组,所述POI数据组与所述查询词对应;
[0016] 从各个POI数据组中提取所述POI数据组的识别特征;
[0017] 从所有POI数据组中抽取出查询词已被标记为连锁品牌词、类别词和普通词的 POI数据组作为训练数据,基于所述训练数据的识别特征进行识别器的训练;
[0018] 利用训练后的识别器对所有POI数据组对应的查询词中未识别的查询词进行识 另IJ,识别出是连锁品牌词和类别词的查询词;
[0019] 将所述是连锁品牌词的查询词存储在预置的连锁品牌词词库中,以及将所述是类 别词的查询词存储在预置的类别词词库中。
[0020] 一种连锁品牌词词库建立装置,包括:
[0021] 第一聚合单元,用于将同一城市POI数据库中名称主干相同的POI数据聚合成一 个POI数据组,所述POI数据组与所述名称主干对应;
[0022] 第一特征提取单元,用于从各个POI数据组中提取所述POI数据组的识别特征;
[0023] 第一训练单元,用于从所有POI数据组中抽取出名称主干已被标记为连锁品牌词 和非连锁品牌词的POI数据组作为训练数据,基于所述训练数据的识别特征进行连锁品牌 词识别器的训练;
[0024] 第一识别单元,用于利用训练后的所述连锁品牌词识别器对所有POI数据组对应 的名称主干中未识别的名称主干进行识别,识别出是连锁品牌词的名称主干;
[0025] 第一词库建立单元,用于将所述是连锁品牌词的名称主干存储在预置的连锁品牌 词词库中。
[0026] 一种连锁品牌词词库和类别词词库建立装置,包括:
[0027] 第二聚合单元,用于从用户查询日志中,获取不同用户在同一城市通过相同的查 询词查询得到的POI数据,将获取到的POI数据聚合成一个POI数据组,所述POI数据组与 所述查询词对应;
[0028] 第二特征提取单元,用于从各个POI数据组中提取与所述POI数据组的识别特 征;
[0029] 第二训练单元,用于从所有POI数据组中抽取出查询词已被标记为连锁品牌词、 类别词和普通词的POI数据组作为训练数据,基于所述训练数据的识别特征进行识别器的 训练;
[0030] 第三识别单元,用于利用训练后的识别器对所有POI数据组对应的查询词中未识 别的查询词进行识别,识别出是连锁品牌词和类别词的查询词;
[0031] 第二词库建立单元,用于将所述是连锁品牌词的查询词存储在预置的连锁品牌词 词库中,以及将所述是类别词的查询词存储在预置的类别词词库中。
[0032] 由上述实施例可以看出,与现有技术相比,本发明的优点在于:
[0033] 本发明提供的连锁品牌词词库建立方法,基于同一城市POI数据库中的POI数据 进行连锁品牌词识别器的训练,利用该连锁品牌词识别器可对POI数据库中所有POI数据 的名称主干进行识别,识别出是连锁品牌词的名称主干,并将其存储在连锁品牌词词库中。 另一种情况下,基于用户查询日志中记录的查询词和与查询词对应的被点击的POI数据进 行识别器的训练,利用该识别器可对用户查询日志中记录的所有查询词进行识别,识别出 是连锁品牌词和类别词的查询词,并分别将其存储在连锁品牌词词库和类别词词库中。与 现有技术通过人工来对POI数据库中的POI数据进行分析来得到连锁品牌词相比,提高了 获取连锁品牌词的效率,从而提高了建立连锁品牌词词库的效率和速度。

【专利附图】

【附图说明】
[0034] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可 以根据这些附图获得其他的附图。
[0035] 图1为本发明一种连锁品牌词词库建立方法的流程图;
[0036] 图2为本发明另一种连锁品牌词词库建立方法的流程图;
[0037] 图3为本发明一种连锁品牌词词库和类别词词库建立方法的流程图;
[0038] 图4为本发明另一种连锁品牌词词库和类别词词库的建立方法的流程图;
[0039] 图5为本发明一种连锁品牌词词库建立装置的一个实施例结构图;
[0040] 图6为本发明另一种连锁品牌词词库建立装置的一个实施例结构图;
[0041] 图7为本发明一种连锁品牌词词库和类别词词库建立装置的一个实施例结构图;
[0042] 图8为本发明另一种连锁品牌词词库和类别词词库建立装置的一个实施例结构 图。

【具体实施方式】
[0043] 本发明实施例提供了连锁品牌词、类别词词库的建立方法和装置。一种情况下,基 于同一城市POI数据库中的POI数据进行连锁品牌词识别器的训练,利用该连锁品牌词识 别器可对POI数据库中所有POI数据的名称主干进行识别,识别出是连锁品牌词的名称主 干,并将其存储在连锁品牌词词库中。另一种情况下,基于用户查询日志中记录的查询词和 与查询词对应的被点击的POI数据进行识别器的训练,利用该识别器可对用户查询日志中 记录的所有查询词进行识别,识别出是连锁品牌词和类别词的查询词,并分别将其存储在 连锁品牌词词库和类别词词库中。
[0044] 为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图对本发明 实施例进行详细描述。
[0045] 实施例一
[0046] 本实施例基于POI数据库中的POI数据进行连锁品牌词识别器的训练,该连锁品 牌词识别器可将来源于POI数据的名称主干分为连锁品牌词和非连锁品牌词,从分类结果 中筛选出是连锁品牌词的名称主干,并将其存储在连锁品牌词词库中。请参阅图1,其为本 发明一种连锁品牌词词库建立方法的流程图,该方法包括以下步骤:
[0047] 步骤101 :将同一城市POI数据库中名称主干相同的POI数据聚合成一个POI数 据组,其中,所述POI数据组与所述名称主干对应;
[0048] "名称主干"是指将POI数据的名称中的分店和地址等附属信息去除后的部分,名 称主干与附属信息的区分方式与POI数据格式相关。在一些常用的数据格式中,附属信息 放在括号中,在其它的一些数据格式中,附属信息放在符号"一"的后面。例如,"工商银行 (望京支行)"是一个POI数据的名称,其中,"工商银行"就是该POI数据的名称主干。还例 如,"工商银行-望京支行"是一个POI数据的名称,其中,工商银行"就是该POI数据的名 称主干。
[0049] 将POI数据库中具有相同名称主干的POI数据汇总在一起,并形成POI数据组。显 然,一个POI数据库会形成多个POI数据组,而每一个POI数据组包含有一个或多个POI数 据,一个POI数据组包含的所有POI数据都具有相同的名称主干。
[0050] 需要说明的是,在本发明技术方案中,"Ρ0Ι数据库"是包含同一城市的所有POI数 据的数据库,例如,北京市POI数据库。
[0051] 步骤102 :从各个POI数据组中提取所述POI数据组的识别特征;
[0052] 该识别特征为用于识别所述POI数据组对应的名称主干是否为连锁品牌词的参 数。
[0053] 该识别特征包括以下任意一个特征或任意多个特征的组合:空间分布距离;空间 分布熵;POI数据组中名称带有分店标志的POI数据的比率;POI数据组中名称带有门标志 的POI数据的比率;POI数据组的类别分值。
[0054] 所述类别分值是指将所述POI数据组中类别相同的POI数据聚合成一个数据组, 包含POI数据最多的数据组的类别对应的预置分值,所述预置分值是根据预置的所述类别 出现连锁品牌机构的先验概率得到,所述先验概率等于N/M,其中M为所述训练数据中标记 为连锁品牌词的名称主干所对应的POI数据的数量,N为所述M个POI数据中与所述包含 POI数据最多的数据组的类别相同的POI数据的数量。
[0055] 步骤103 :从所有POI数据组中抽取出名称主干已被标记为连锁品牌词和非连锁 品牌词的POI数据组作为训练数据,基于所述训练数据的识别特征进行连锁品牌词识别器 的训练;
[0056] 假设,基于一个POI数据库共聚合成1000个POI数据组,其中有100个POI数据 组的名称主干已经被标记为连锁品牌词和非连锁品牌词,从1000个POI数据组中抽取100 个POI数据组作为训练数据。对于首次建立词库来说,这100个POI数据组的名称主干可 以是在建立词库之前预先由人工识别并标记的。对于词库更新来说,这100个POI数据组 的名称主干可以是预先由人工识别并标记的,也可以是在之前建立连锁品牌词词库时由连 锁品牌词识别器识别并标记的。
[0057] 需要说明的是,本发明技术方案对训练数据中的POI数据组的个数不做限定。当 然,抽取的训练数据越多,训练出的连锁品牌词识别器越准确。在具体操作时,可以根据对 连锁品牌词识别器的准确性的要求,抽取适量的训练数据训练连锁品牌词识别器。
[0058] 以从1000个POI数据组中抽取出100个POI数据组作为训练数据为例,这100个 POI数据组对应的名称主干已被标记为连锁品牌词和非连锁品牌词,如,当为连锁品牌词 时,将其标记为2,当为非连锁品牌词时,将其标记为0,共产生100个标记结果(2或0),显 然,所标记出的每个标记结果都为准确的结果。然后再从这100个POI数据组中分别抽取 相同的识别特征,共产生100组识别特征,每一组所提取的识别特征都是相同的,如,每一 组提取的识别特征都是:空间分布距离和空间分布熵。最后基于100个标记结果和100组 识别类特征对识别器模型进行训练得到可区分连锁品牌词和非连锁品牌词的连锁品牌词 识别器。
[0059] 下面,以上海市POI数据库中的一个POI数据组(具有相同的名称主干"苏宁电 器")为例,详细说明如何从一个POI数据组中提取识别特征,在该POI数据组中共有87个 POI数据,如,苏宁电器(江桥店)和苏宁电器(银都路店)等。
[0060] (1)空间分布距离
[0061] 首先,确定该POI数据组中87个POI数据在导航地图中的最小分布矩形,如,根据 87个POI数据中的经纬度坐标,找出经度最大(即位于最东面)和经度最小(即位于最西面) 的POI数据,以及,找出纬度最大(即位于最北面)和纬度最小(即位于最南面)的POI数据, 得到:
[0062] 经度最大的POI数据,其名称是苏宁电器(南汇东门大街店),经度为121. 7629 ;
[0063] 经度最小的POI数据,其名称是苏宁电器(公园路店),经度为121. 1173 ;
[0064] 纬度最大的POI数据,其名称是苏宁电器(北门路店),维度为31.6278 ;
[0065] 纬度最小的POI数据,其名称是苏宁电器(卫零路店),纬度为30. 7155。
[0066] 根据以上4个经纬度数据可以确定一个矩形(S卩,该POI数据组中的87个POI数 据构成的最小分布矩形)。
[0067] 其次,选取最小分布矩形的最长边,将最长边做归一化处理,得到空间分布距离, 如,计算出上述矩形的两个边分别为101. 1公里和61. 2公里,取最长边101. 1公里,并进行 归一化处理101. 1/200=0. 505,因此,空间分布距离为0. 505。
[0068] 由于连锁品牌机构的空间分布范围较广,因此,空间分布距离也就较大。反之,非 连锁品牌机构的空间分布范围较窄,空间分布距离也就较小。根据空间分布距离这一识别 特性可以区分一个POI数据是否为一个连锁品牌机构,进而区分该POI数据的名称主干是 否为一个连锁品牌词。
[0069] (2)空间分布熵
[0070] 首先,按照上述方式确定87个POI数据构成的最小分布矩形。
[0071] 其次,将该最小分布矩形拆分成多个区域,分别统计87个POI数据在每个区域 的分布概率,如,将该最小分布矩形拆分成3*3=9个区域,统计落入到各个区域的POI个 数,结果为:{3, 5,0,6, 54, 7, 3, 7, 2},计算落入各个区域的POI个数与该POI数据组中 POI数据的总个数的比值,得到分布概率为:{〇. 34482759,0. 057471264,0,0. 068965517, 0.620689655,0.08045977,0.034482759,0. 08045977,0. 022988506}。
[0072] 最后,计算87个POI数据在每个区域的分布概率的熵值,将该熵值做归一化处 理,得到空间分布熵,如,采用求熵公式Sum[-P*l 0g2(P)]/l〇g2(N)计算熵值,计算结果为 1.976/3. 170=0. 623,其中,"Sum"表示求和,"P"表示POI数据在每个区域的分布概率,"N" 表示拆分的区域个数。
[0073]当然,可以采用其它的求熵公式计算熵值,本发明技术方案对熵值的计算公式并 不做限定。
[0074] 由于连锁品牌机构在空间的分布更均匀,因此,空间分布熵也就更大,反之,非连 锁品牌机构在空间分布不均匀,空间分布熵也就较小。根据空间分布熵这一识别特性也可 以区分一个POI数据是否为一个连锁品牌机构,进而区分该POI数据的名称主干是否为一 个连锁品牌词。
[0075] (3) POI数据中名称带有分店标志的POI数据的比率
[0076] 例如,将"店"和"营业厅"等字样作为分店标志,在87个POI数据中,名称中带 分店标志的POI数据共有79个,计算POI数据中名称带有分店标志的POI数据的比率为 79/87=0. 908〇
[0077] 由于连锁品牌机构带分店标志的比率较高,因此,POI数据中名称带有分店标志的 POI数据的比率也就较大,反之,非连锁品牌机构带分店标志的比率较低,POI数据中名称 带有分店标志的POI数据的比率也就较小。根据POI数据中名称带有分店标志的POI数据 的比率这一识别特性也可以区分一个POI数据是否为一个连锁品牌机构,进而区分该POI 数据的名称主干是否为一个连锁品牌词。
[0078] (4) POI数据中名称带有门标志的POI数据的比率
[0079] 例如,将"门字样"作为门标志,在87个POI数据中,名称带有门标志的POI数据 共有2个,计算POI数据中名称带有门标志的POI数据的比率为2/87=0. 023。
[0080] 由于连锁品牌机构带门标志的POI数据的比率较低,因此,POI数据中名称带有门 标志的POI数据的比率也就较小,反之,非连锁品牌机构带门标志的POI数据的比率较高, POI数据中名称带门标志的POI数据的比率也就较大。根据POI数据中名称带有门标志的 POI数据的比率这一识别特性也可以区分一个POI数据是否为一个连锁品牌机构,进而区 分该POI数据的名称主干是否为一个连锁品牌词。
[0081] (5) POI数据组的类别分值
[0082] 所述类别分值是指将所述POI数据组中类别相同的POI数据聚合成一个数据组, 包含POI数据最多的数据组的类别对应的预置分值,所述预置分值是根据预置的所述类别 出现连锁品牌机构的先验概率得到,所述先验概率等于N/M,其中M为所述训练数据中标记 为连锁品牌词的名称主干所对应的POI数据的数量,N为所述M个POI数据中与所述包含 POI数据最多的数据组的类别相同的POI数据的数量。
[0083] 在POI数据库中,一般会对其中的POI数据进行分类,通常会用二级或三级对POI 数据进行分类,二级类为一级类的子类,三级类为二级类的子类。由于连锁品牌机构多数出 现在"餐饮"、"购物"和"生活"一级类中,而非连锁品牌机构多数出现在"住宅"、"风景"和 "政府机构"一级类中,因此,"餐饮"、"购物"和"生活"一级类的分值比"住宅"、"风景"和 "政府机构"一级类的分值要高,如,将"餐饮"、"购物"和"生活" 一级类的分值设置为2,将 "住宅"、"风景"和"政府机构"一级类的分值设置为0,其余一级类的分值设置为1。
[0084] 例如,在87个POI数据中,其中有40个POI数据的类别为"购物",37个POI数据 的类别为"住宅",将类别都为"购物"的40个POI数据聚合成一个数据组,将类别都为"住 宅"的37个POI数据聚合成另一个数据组,第一个数据组包含的POI数据最多,而其类别为 "购物",因此,POI数据组的类别分值为2。
[0085] 将得到的100个标记结果和100组识别特征输入到训练模块,通过训练得到连锁 品牌词识别器。例如,一种优选方案是:连锁品牌词识别器为线性分类器,该线性分类器 为:

【权利要求】
1. 一种连锁品牌词词库建立方法,其特征在于,包括: 将同一城市兴趣点POI数据库中名称主干相同的POI数据聚合成一个POI数据组,所 述POI数据组与所述名称主干对应; 从各个POI数据组中提取所述POI数据组的识别特征; 从所有POI数据组中抽取出名称主干已被标记为连锁品牌词和非连锁品牌词的POI数 据组作为训练数据,基于所述训练数据的识别特征进行连锁品牌词识别器的训练; 利用训练后的所述连锁品牌词识别器对所有POI数据组对应的名称主干中未识别的 名称主干进行识别,识别出是连锁品牌词的名称主干; 将所述是连锁品牌词的名称主干存储在预置的连锁品牌词词库中。
2. 根据权利要求1所述的方法,其特征在于,在利用训练后的所述连锁品牌词识别器 对所有POI数据组对应的名称主干中未识别的名称主干进行识别之前,还包括检验过程, 所述检验过程包括: 从所有POI数据组中抽取出名称主干已被标记为连锁品牌词和非连锁品牌词的POI数 据组作为检验数据,所述检验数据和所述训练数据为不同的数据; 利用所述连锁品牌词识别器对所述检验数据的名称主干进行识别,识别出是连锁品牌 词的名称主干; 根据所述连锁品牌词识别器对所述检验数据的识别结果,计算所述连锁品牌词识别器 对连锁品牌词的识别准确率和/或识别召回率,其中,所述识别准确率等于识别结果中是 准确的连锁品牌词的名称主干的数量除以识别结果中识别出的是连锁品牌词的名称主干 的数量,所述召回率等于识别结果中是准确的连锁品牌词的名称主干的数量除以所述检验 数据中已被标记为连锁品牌词的名称主干的数量,所述准确的连锁品牌词的名称主干是既 被标记为连锁品牌词又被识别为连锁品牌词的名称主干; 判断所述识别准确率和/或识别召回率是否大于或等于各自对应的阈值; 若否,则调节所述连锁品牌词识别器,利用调节后的所述连锁品牌词识别器重复所述 检验过程中的第二至第四个步骤。
3. 根据权利要求2所述的方法,其特征在于,所述连锁品牌词识别器为线性分类器,所 述线件分类器为:
其中,Wi为第i个识别特征的权重系数,Xi为第i个识别特征的值,b为常数项,当y大 于或等于预设阈值则识别所述POI数组对应的名称主干为连锁品牌词,当y小于所述预设 阈值则识别所述POI数据组对应的名称主干为非连锁品牌词。
4. 根据权利要求1?3任一项所述的方法,其特征在于,POI数据组的识别特征为以下 任意一个或任意多个组合: 空间分布距离;空间分布熵;POI数据组中名称带有分店标志的POI数据的比率;POI数据组中名称带有门标志的POI数据的比率;POI数据组的类别分值,所述类别分值是指将 所述POI数据组中类别相同的POI数据聚合成一个数据组,包含POI数据最多的数据组的 类别对应的预置分值,所述预置分值是根据预置的所述类别出现连锁品牌机构的先验概率 得到,所述先验概率等于N/M,其中M为所述训练数据中标记为连锁品牌词的名称主干所对 应的POI数据的数量,N为所述M个POI数据中与所述包含POI数据最多的数据组的类别 相同的POI数据的数量。
5. -种连锁品牌词词库和类别词词库建立方法,其特征在于,包括: 从用户查询日志中,获取不同用户在同一城市通过相同的查询词查询得到的POI数 据,将获取到的POI数据聚合成一个POI数据组,所述POI数据组与所述查询词对应; 从各个POI数据组中提取所述POI数据组的识别特征; 从所有POI数据组中抽取出查询词已被标记为连锁品牌词、类别词和普通词的POI数 据组作为训练数据,基于所述训练数据的识别特征进行识别器的训练; 利用训练后的识别器对所有POI数据组对应的查询词中未识别的查询词进行识别,识 别出是连锁品牌词和类别词的查询词; 将所述是连锁品牌词的查询词存储在预置的连锁品牌词词库中,以及将所述是类别词 的查询词存储在预置的类别词词库中。
6. 根据权利要求5所述的方法,其特征在于,在利用训练后的识别器对所有POI数据组 对应的查询词中未识别的查询词进行识别之前,还包括检验过程,所述检验过程包括: 从所有POI数据组中抽取查询词已被标记为连锁品牌词、类别词和普通词的POI数据 组作为检验数据,所述检验数据和所述训练数据为不同的数据; 利用所述识别器对所述检验数据的查询词进行识别,识别出是连锁品牌词的查询词和 是类别词的查询词; 根据所述识别器对所述检验数据的识别结果,计算所述识别器对连锁品牌词的识别准 确率和/或识别召回率,以及计算所述识别器对类别词的识别准确率和/或识别召回率,其 中:连锁品牌词/类别词的识别准确率等于所述识别结果中是准确的连锁品牌词/类别词 的查询词的数量除以所述识别结果中识别出的是连锁品牌词/类别词的查询词的数量,所 述连锁品牌词/类别词的识别召回率等于所述识别结果中是准确的连锁品牌词/类别词的 查询词数量除以已被标记为连锁品牌词/类别词的查询词的数量,所述准确的连锁品牌词 /类别词的查询词是既被标记为连锁品牌词/类别词又被识别为连锁品牌词/类别词的查 询词; 判断所述连锁品牌词的识别准确率和/或识别召回率是否大于或等于各自对应的阈 值,以及判断所述类别词的识别准确率和/或识别召回率是否大于或等于各自对应的阈 值; 如果所述连锁品牌词的识别准确率和/或识别召回率小于各自对应的阈值,或者,所 述类别词的识别准确率和/或识别召回率小于各自对应的阈值,则调节所述识别器,利用 调节后的所述识别器重复所述检验过程中的第二至第四个步骤。
7. 根据权利要求5所述的方法,其特征在于,所述识别器包括第一识别器、第二识别器 和第三识别器,基于所述训练数据的识别特征进行识别器的训练,具体包括: 基于训练数据中查询词标记为连锁品牌词的POI数据组与查询词标记为类别词的POI数据组的识别特征进行第一识别器的训练,得到用于根据POI数据组的识别特征识别出 POI数据组的查询词为疑似类别词和疑似连锁品牌词的第一识别器; 基于训练数据中查询词标记为连锁品牌词的POI数据组与查询词标记为普通词的POI数据组的识别特征进行第二识别器的训练,得到用于根据POI数据组的识别特征识别出 POI数据组的查询词为连锁品牌词和普通词的第二识别器; 基于训练数据中查询词标记为类别词的POI数据组与查询词标记为普通词的POI数据 组的识别特征进行第三识别器的训练,得到用于根据POI数据组的识别特征识别出POI数 据组的查询词为分类词和普通词的第三识别器。
8. 根据权利要求7所述的方法,其特征在于,利用训练后的识别器对所有POI数据组对 应的查询词中未识别的查询词进行识别,识别出是连锁品牌词和类别词的查询词,具体包 括: 将未识别的查询词对应的POI数据组的识别特征输入到所述第一识别器中,从所述第 一识别器输出所述POI数据组对应的查询词为疑似连锁品牌词或疑似类别词的第一识别 结果; 将所述第一识别结果中疑似连锁品牌词的查询词对应的POI数据组的识别特征输入 到所述第二识别器中,所述第二识别器输出所述POI数据组对应的查询词为普通词或连锁 品牌词的第二识别结果; 将所述第一识别结果中疑似类别词的查询词对应的所述POI数据组的识别特征输入 到所述第三识别器中,所述第三识别器输出所述POI数据组的查询词为普通词或类别词的 第三识别结果; 从所述第二识别结果和第三识别结果中提取出连锁品牌词和类别词。
9. 根据权利要求5?8任一项所述的方法,其特征在于,POI数据组的识别特征为以下 任意一个或者任意多个组合: POI数据组中POI数据的个数;POI数据组的点击分布熵;POI数据组中POI数据的类 别个数;POI数据组的按类点击分布熵;空间分布距离;空间分布熵;出现同一查询词的城 市的个数;POI数据组中名称带有分店标志的POI数据的比率;POI数据组中名称带有门标 志POI数据的比率;POI数据被点击比率,其中所述POI数据被点击比率等于M除以N,其中 M为对POI数据组中的POI数据的名称进行名称主干的提取所得到的名称主干的数量,N为 POI数据组中的POI数据的数量。
10. -种连锁品牌词词库建立装置,其特征在于,包括: 第一聚合单元,用于将同一城市POI数据库中名称主干相同的POI数据聚合成一个POI数据组,所述POI数据组与所述名称主干对应; 第一特征提取单元,用于从各个POI数据组中提取所述POI数据组的识别特征; 第一训练单元,用于从所有POI数据组中抽取出名称主干已被标记为连锁品牌词和非 连锁品牌词的POI数据组作为训练数据,基于所述训练数据的识别特征进行连锁品牌词识 别器的训练; 第一识别单元,用于利用训练后的所述连锁品牌词识别器对所有POI数据组对应的名 称主干中未识别的名称主干进行识别,识别出是连锁品牌词的名称主干; 第一词库建立单元,用于将所述是连锁品牌词的名称主干存储在预置的连锁品牌词词 库中。
11. 根据权利要求10所述的方法,其特征在于,还包括: 第一抽取单元,用于在所述第一识别单元利用训练后的所述连锁品牌词识别器对所有POI数据组对应的名称主干中未识别的名称主干进行识别之前,从所有POI数据组中抽取 出名称主干已被标记为连锁品牌词和非连锁品牌词的POI数据组作为检验数据,所述检验 数据和所述训练数据为不同的数据; 第二识别单元,用于利用所述连锁品牌词识别器对所述检验数据的名称主干进行识 另IJ,识别出是连锁品牌词的名称主干; 第一计算单元,用于根据所述连锁品牌词识别器对所述检验数据的识别结果,计算所 述连锁品牌词识别器对连锁品牌词的识别准确率和/或识别召回率,其中,所述识别准确 率等于所述识别结果中是准确的连锁品牌词的名称主干的数量除以所述识别结果中识别 出的是连锁品牌词的名称主干的数量,所述召回率等于所述识别结果中是准确的连锁品牌 词的名称主干的数量除以所述检验数据中已被标记为连锁品牌词的名称主干的数量,所述 准确的连锁品牌词的名称主干是既被标记为连锁品牌词又被识别为连锁品牌词的名称主 干; 第一判断单元,用于判断所述识别准确率和/或识别召回率是否大于或等于各自对应 的阈值; 第一调节单元,用于若所述第一判断单元的判断结果为否,则调节所述连锁品牌词识 别器,利用调节后的所述连锁品牌词识别器触发所述第二识别单元、所述第一计算单元和 所述第一判断单元重新工作; 则所述第一识别单元具体用于,利用调节后的所述连锁品牌词识别器对所有POI数据 组对应的名称主干中未识别的名称主干进行识别。
12. 根据权利要求11所述的装置,其特征在于,所述连锁品牌词识别器为线性分类器, 所述线性分类器为:
其中,Wi为第i个识别特征的权重系数,Xi为第i个识别特征的值,b为常数项,当y大 于或等于预设阈值则识别所述POI数组对应的名称主干为连锁品牌词,当y小于所述预设 阈值则识别所述POI数据组对应的名称主干为非连锁品牌词。
13. 根据权利要求10?12任一项所述的装置,其特征在于,POI数据组的识别特征为 以下任意一个或任意多个组合: 空间分布距离;空间分布熵;POI数据组中名称带有分店标志的POI数据的比率;POI数据组中名称带有门标志的POI数据的比率;POI数据组的类别分值,所述类别分值是指将 所述POI数据组中类别相同的POI数据聚合成一个数据组,包含POI数据最多的数据组的 类别对应的预置分值,所述预置分值是根据预置的所述类别出现连锁品牌机构的先验概率 得到,所述先验概率等于N/M,其中M为所述训练数据中标记为连锁品牌词的名称主干所对 应的POI数据的数量,N为所述M个POI数据中与所述包含POI数据最多的数据组的类别 相同的POI数据的数量。
14. 一种连锁品牌词词库和类别词词库建立装置,其特征在于,包括: 第二聚合单元,用于从用户查询日志中,获取不同用户在同一城市通过相同的查询词 查询得到的POI数据,将获取到的POI数据聚合成一个POI数据组,所述POI数据组与所述 查询词对应; 第二特征提取单元,用于从各个POI数据组中提取与所述POI数据组的识别特征; 第二训练单元,用于从所有POI数据组中抽取出查询词已被标记为连锁品牌词、类别 词和普通词的POI数据组作为训练数据,基于所述训练数据的识别特征进行识别器的训 练; 第三识别单元,用于利用训练后的识别器对所有POI数据组对应的查询词中未识别的 查询词进行识别,识别出是连锁品牌词和类别词的查询词; 第二词库建立单元,用于将所述是连锁品牌词的查询词存储在预置的连锁品牌词词库 中,以及将所述是类别词的查询词存储在预置的类别词词库中。
15. 根据权利要求14所述的装置,其特征在于,还包括: 第二抽取单元,用于在所述第三识别单元用训练后的识别器对所有POI数据组对应的 查询词中未识别的查询词进行识别之前,从所有POI数据组中抽取查询词已被标记为连锁 品牌词、类别词和普通词的POI数据组作为检验数据,所述检验数据和所述训练数据为不 同的数据; 第四识别单元,用于利用所述识别器对所述检验数据的查询词进行识别,识别出是连 锁品牌词的查询词和是类别词的查询词; 第二计算单元,用于根据所述识别器对所述检验数据的识别结果,计算所述识别器对 连锁品牌词的识别准确率和/或识别召回率,以及计算所述识别器对类别词的识别准确率 和/或识别召回率,其中:连锁品牌词/类别词的识别准确率等于所述识别结果中是准确的 连锁品牌词/类别词的查询词的数量除以所述识别结果中识别出的是连锁品牌词/类别词 的查询词的数量,所述连锁品牌词/类别词的识别召回率等于所述查询结果中是准确的连 锁品牌词/类别词的查询词数量除以已被标记为连锁品牌词/类别词的查询词的数量,所 述准确的连锁品牌词/类别词的查询词是既被标记为连锁品牌词/类别词又被识别为连锁 品牌词/类别词的查询词; 第二判断单元,用于判断所述连锁品牌词的识别准确率和/或识别召回率是否大于或 等于各自对应的阈值,以及判断所述类别词的识别准确率和/或识别召回率是否大于或等 于各自对应的阈值; 第二调节单元,用于若所述连锁品牌词的识别准确率和/或识别召回率小于各自对应 的阈值,或者,所述类别词的识别准确率和/或识别召回率小于各自对应的阈值,则调节所 述识别器,利用调节后的所述识别器触发所述第四识别单元、所述第二计算单元和第二判 断单元重新工作; 则所述第三识别单元具体用于,利用调节后的所述识别器对所有POI数据组对应的查 询词中未识别的查询词进行识别。
16. 根据权利要求14所述的装置,其特征在于,所述识别器包括第一识别器、第二识别 器和第三识别器,所述第二训练单元包括: 第一识别器训练子单元,用于基于训练数据中查询词标记为连锁品牌词的POI数据 组与查询词标记为类别词的POI数据组的识别特征进行第一识别器的训练,得到用于根据 POI数据组的识别特征识别出POI数据组的查询词为疑似类别词和疑似连锁品牌词的第一 识别器; 第二识别器训练子单元,用于基于训练数据中查询词标记为连锁品牌词的POI数据 组与查询词标记为普通词的POI数据组的识别特征进行第二识别器的训练,得到用于根据 POI数据组的识别特征识别出POI数据组的查询词为连锁品牌词和普通词的第二识别器; 第三识别器训练子单元,用于基于训练数据中查询词标记为类别词的POI数据组与查 询词标记为普通词的POI数据组的识别特征进行第三识别器的训练,得到用于根据POI数 据组的识别特征识别出POI数据组的查询词为分类词和普通词的第三识别器。
17. 根据权利要求16所述的装置,其特征在于,所述第三识别单元包括: 第一识别结果确定子单元,用于将未识别的查询词对应的POI数据组的识别特征输入 到所述第一识别器中,从所述第一识别器输出所述POI数据组对应的查询词为疑似连锁品 牌词或疑似类别词的第一识别结果; 第二识别结果确定子单元,用于将所述第一识别结果中疑似连锁品牌词的查询词对应 的POI数据组的识别特征输入到所述第二识别器中,所述第二识别器输出所述POI数据组 对应的查询词为普通词或连锁品牌词的第二识别结果; 第三识别结果确定子单元,用于将所述第一识别结果中疑似类别词的查询词对应的所 述POI数据组的识别特征输入到所述第三识别器中,所述第三识别器输出所述POI数据组 的查询词为普通词或类别词的第三识别结果; 连锁品牌词/类别词提取子单元,用于从所述第二识别结果和第三识别结果中提取出 连锁品牌词和类别词。
18. 根据权利要求14?17任一项所述的装置,其特征在于,POI数据组的识别特征为 以下任意一个或者任意多个组合: POI数据组中POI数据的个数;POI数据组的点击分布熵;POI数据组中POI数据的类 别个数;POI数据组的按类点击分布熵;空间分布距离;空间分布熵;出现同一查询词的城 市的个数;POI数据组中名称带有分店标志的POI数据的比率;POI数据组中名称带有门标 志POI数据的比率;POI数据被点击比率,其中所述POI数据被点击比率等于M除以N,其中 M为对POI数据组中的POI数据的名称进行名称主干的提取所得到的名称主干的数量,N为 POI数据组中的POI数据的数量。
【文档编号】G06F17/30GK104462143SQ201310439450
【公开日】2015年3月25日 申请日期:2013年9月24日 优先权日:2013年9月24日
【发明者】刘广权 申请人:高德软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1