一种基于字符长度识别兴趣点名称的方法和装置的制造方法

文档序号:9787377阅读:322来源:国知局
一种基于字符长度识别兴趣点名称的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及计算机处理的技术领域,特别是涉及一种基于字符串长度识别兴趣点 名称的方法和一种基于字符串长度识别兴趣点名称的装置。
【背景技术】
[0002] 兴趣点(Point of Interest,Ρ0Ι),又可以翻译成"信息点",其包含多方面的信 息,如名称、类别、经度炜度等等。
[0003] 在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站 等。
[0004] 传统的地理信息采集方法需要地图测绘人员采用精密的测绘仪器去获取一个兴 趣点的经炜度,然后再标记下来。
[0005] 正因为POI数据的采集是一个非常费时费事的工作,对一个地理信息系统来说, POI的数量在一定程度代表着整个系统的价值。
[0006] 为了丰富地理信息系统的POI数据的数量,在文本挖掘等情景下,经常需要判断文 本中是否包含给定的POI名称集合中某些POI名称。
[0007] 目前一般是把给定的POI名称集合建立一个词典,对于给定一个文本串,把文本串 按字符切分,把η个相邻字符组成的字符子串(记为η长子串)去词典里查找,如果能够找到 则认为文本串包含了一个POI名字。。
[0008]由于给定的POI名称集合的数量往往是千万数量级,数据量十分之大,此时,加载 词典时需要消耗较大的内存,尤其在某些情况下,如利用hadoop分布式计算,内存有限制, 应用词典直接遍历的方式便失效了。
[0009] 而且,在文本串中取"η长子串"在词典里查找时,很多数据是无效的,大大增加了 计算量,查找效率很低。

【发明内容】

[0010] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的一种基于字符串长度识别兴趣点名称的方法和相应的一种基于字符串长度识别 兴趣点名称的装置。
[0011] 依据本发明的一个方面,提供了一种基于字符串长度识别兴趣点名称的方法,包 括:
[0012] 对待识别的文本串进行分词处理,获得文本分词;
[0013] 在所述文本分词中,筛选出在一定字符串长度范围内的候选文本分词;
[0014] 将筛选出的候选文本分词与所述字符串长度范围对应的兴趣点名称进行比较,以 判断所述候选文本分词是否为兴趣点名称。
[0015] 可选地,所述在所述文本分词中,筛选出在一定字符串长度范围内的候选文本分 词的步骤包括:
[0016]查找预设兴趣点名词词典,所述兴趣点名称词典中具有一个或多个兴趣点名称集 合,所述兴趣点集合中兴趣点名称最长的字符串长度和最短的字符串长度组成字符串长度 范围;
[0017]计算所述文本分词的字符串长度;
[0018] 在所述文本分词中,筛选出字符串长度在所述字符串长度范围内的候选文本分 1·^] O
[0019] 可选地,所述兴趣点集合中兴趣点名称具有相同的关键字;
[0020] 所述在所述文本分词中,筛选出字符串长度在所述字符串长度范围内的候选文本 分词的步骤包括:
[0021 ]在所述文本分词中,筛选出与所述关键字匹配、且字符串长度在所述字符串长度 范围内的候选文本分词。
[0022] 可选地,所述相同的关键字为首字。
[0023] 可选地,所述将筛选出的候选文本分词与所述字符串长度范围对应的兴趣点名称 进行比较,以判断所述候选文本分词是否为兴趣点名称的步骤包括:
[0024] 将所述候选文本分词和所述兴趣点集合中的兴趣点名称放入同一个容器中;
[0025] 将同一个容器中的候选文本分词和兴趣点名称进行比较,以判断所述候选文本分 词是否为兴趣点名称。
[0026] 可选地,所述将同一个容器中的候选文本分词和兴趣点名称进行比较,以判断所 述候选文本分词是否为兴趣点名称的步骤包括:
[0027] 对同一个集合中的候选文本分词和兴趣点名称进行排序;
[0028] 将所述候选文本分词与排序相邻的一个或多个兴趣点名称进行比较;
[0029] 当所述候选文本分词与排序相邻的兴趣点名称相同时,确定所述候选文本分词为 兴趣点名称;
[0030] 当所述候选文本分词与排序相邻的兴趣点名称不相同时,确定所述候选文本分词 不为兴趣点名称。
[0031] 可选地,还包括:
[0032] 将一个或多个兴趣点名称划分为同一个兴趣点名称集合中;
[0033] 统计在每一个兴趣点名称集合中,所述兴趣点名称的字符串长度范围;
[0034] 针对所述兴趣点名称集合,至少按照所述字符串长度范围生成兴趣点名称词典。
[0035] 可选地,所述将一个或多个兴趣点名称划分为同一个兴趣点名称集合中的步骤包 括:
[0036] 将具有相同关键字的一个或多个兴趣点名称划分为同一个兴趣点名称集合中。
[0037] 可选地,所述将具有相同关键字的一个或多个兴趣点名称划分为同一个兴趣点名 称集合中的步骤包括:
[0038] 对一个或多个兴趣点名称进行分词处理,获得名称分词;
[0039]将所述兴趣点名称中属于首字的名称分词设置为关键字;
[0040] 将具有相同关键字的一个或多个兴趣点名称划分为同一个兴趣点名称分类中。
[0041] 可选地,所述统计在每一个兴趣点名称集合中,所述兴趣点名称的字符串长度范 围的步骤包括:
[0042]计算在每一个兴趣点名称集合中,所述兴趣点名称的字符串长度;
[0043]以最短的字符串长度和最长的字符串长度组成字符串长度范围。
[0044]可选地,所述针对所述兴趣点名称集合,至少按照所述字符串长度范围生成兴趣 点名称词典的步骤包括:
[0045]针对所述兴趣点名称集合,以所述关键词作为键、以所述字符串长度范围作为值 生成兴趣点名称词典。
[0046] 根据本发明的另一方面,提供了一种基于字符串长度识别兴趣点名称的装置,包 括:
[0047] 文本串分词模块,适于对待识别的文本串进行分词处理,获得文本分词;
[0048] 候选文本分词筛选模块,适于在所述文本分词中,筛选出在一定字符串长度范围 内的候选文本分词;
[0049] 兴趣点名称判断模块,适于将筛选出的候选文本分词与所述字符串长度范围对应 的兴趣点名称进行比较,以判断所述候选文本分词是否为兴趣点名称。
[0050] 可选地,所述候选文本分词筛选模块还适于:
[0051]查找预设兴趣点名词词典,所述兴趣点名称词典中具有一个或多个兴趣点名称集 合,所述兴趣点集合中兴趣点名称最长的字符串长度和最短的字符串长度组成字符串长度 范围;
[0052]计算所述文本分词的字符串长度;
[0053] 在所述文本分词中,筛选出字符串长度在所述字符串长度范围内的候选文本分 1·^] 〇
[0054] 可选地,所述兴趣点集合中兴趣点名称具有相同的关键字;
[0055] 所述候选文本分词筛选模块还适于:
[0056] 在所述文本分词中,筛选出与所述关键字匹配、且字符串长度在所述字符串长度 范围内的候选文本分词。
[0057] 可选地,所述相同的关键字为首字。
[0058]可选地,,所述兴趣点名称判断模块还适于:
[0059] 将所述候选文本分词和所述兴趣点集合中的兴趣点名称放入同一个容器中;
[0060] 将同一个容器中的候选文本分词和兴趣点名称进行比较,以判断所述候选文本分 词是否为兴趣点名称。
[0061 ]可选地,所述兴趣点名称判断模块还适于:
[0062] 对同一个集合中的候选文本分词和兴趣点名称进行排序;
[0063] 将所述候选文本分词与排序相邻的一个或多个兴趣点名称进行比较;
[0064] 当所述候选文本分词与排序相邻的兴趣点名称相同时,确定所述候选文本分词为 兴趣点名称;
[0065] 当所述候选文本分词与排序相邻的兴趣点名称不相同时,确定所述候选文本分词 不为兴趣点名称。
[0066] 可选地,还包括:
[0067]兴趣点名称划分模块,适于将一个或多个兴趣点名称划分为同一个兴趣点名称集 合中;
[0068] 字符串长度范围统计模块,适于统计在每一个兴趣点名称集合中,所述兴趣点名 称的字符串长度范围;
[0069] 兴趣点名称词典生成模块,适于针对所述兴趣点名称集合,至少按照所述字符串 长度范围生成兴趣点名称词典。
[0070] 可选地,所述兴趣点名称划分模块还适于:
[0071] 将具有相同关键字的一个或多个兴趣点名称划分为同一个兴趣点名称集合中。
[0072] 可选地,所述兴趣点名称划分模块还适于:
[0073] 对一个或多个兴趣点名称进行分词处理,获得名称分词;
[0074] 将所述兴趣点名称中属于首字的名称分词设置为关键字;
[0075] 将具有相同关键字的一个或多个兴趣点名称划分为同一个兴趣点名称分类中。
[0076] 可选地,所述字符串长度范围统计模块还适于:
[0077] 计算在每一个兴趣点名称集合中,所述兴趣点名称的字符串长度;
[0078]以最短的字符串长度和最长的字符串长度组成
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1