判断文本中poi数据的方法及装置的制造方法

文档序号:9839629阅读:343来源:国知局
判断文本中poi数据的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及互联网应用技术领域,特别涉及一种判断文本中Ρ0Ι数据的方法及装 置。
【背景技术】
[0002] Ρ0Ι是"Point of Interest"的缩写,中文可以翻译为"兴趣点"。在地理信息系统 中,一个Ρ0Ι可以是一栋房子、一个商铺、一个邮筒、一个公交站等,每个Ρ0Ι数据可以包括名 称、地址、附近的酒店饭店商铺等信息。
[0003] 传统的Ρ0Ι数据采集方法需要技术人员采用精密的测绘仪器去获取每个Ρ0Ι的经 炜度信息,然后标记下来,这种方法比较费时费力,导致采集得到的P0I数据的数量很少。互 联网上存在大量以文本形式存在的Ρ0Ι数据,如果从文本中提取这些Ρ0Ι数据供地理信息系 统使用,则会节省人力和时间资源。
[0004] 相关技术中,在判断文本中是否包含Ρ0Ι名字集合中的某些Ρ0Ι名字时,首先把文 本串按字符切分,把η个相邻字符组成的字符子串去Ρ0Ι名字集合建立的词典中查找,如果 能够查找到,则认为文本串包含了一个Ρ0Ι名字。在查找之初需要加载词典,然而当Ρ0Ι名字 数量很大或者单个Ρ0Ι名字过长时,由于词典由大量Ρ0Ι名字组成,则相当的词典的数据量 也较大,那么加载这个词典时就需要消耗较大的内存,当内存有限制的时候这种方法便失 效了。

【发明内容】

[0005] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的判断文本中Ρ0Ι数据的方法及相应的装置。
[0006] 依据本发明的一方面,提供了一种判断文本中Ρ0Ι数据的方法,包括:
[0007] 提取待判断的文本串,对所述待判断的文本串进行切词处理,生成一个或多个目 标分词,将所述一个或多个目标分词与Ρ0Ι数据条目进行匹配;
[0008] 当存在一个或多个匹配的Ρ0Ι数据条目时,读取匹配的Ρ0Ι数据条目对应的字符长 度的字段值;
[0009 ]基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似Ρ0Ι名字片段;
[0010] 从所述疑似Ρ0Ι名字片段中确定Ρ0Ι数据。
[0011] 可选地,通过以下步骤生成所述Ρ0Ι数据条目:
[0012] 对Ρ0Ι名字集合中的各Ρ0Ι名字进行切词处理,将切词后的、指定位置上的分词的 匹配度符合阈值的各Ρ0Ι名字聚为一类;
[0013] 确定各类中Ρ0Ι名字的最长和/或最短字符长度;
[0014] 基于所述各类中Ρ0Ι名字的所述指定位置上的分词,以及该类中Ρ0Ι名字的最长 和/或最短字符长度,生成所述各类的Ρ0Ι数据条目。
[0015] 可选地,基于所述各类中Ρ0Ι名字的所述指定位置上的分词,以及该类中Ρ0Ι名字 的最长和/或最短字符长度,生成所述各类的POI数据条目,包括:
[0016] 计算所述各类中Ρ0Ι名字的所述指定位置上的分词的唯一标识符;
[0017] 以该分词的唯一标识符为键,以该类中Ρ0Ι名字的最长和/或最短字符长度为值, 生成所述各类的P0I数据条目。
[0018] 可选地,将所述一个或多个目标分词与Ρ0Ι数据条目进行匹配,包括:
[0019] 计算所述一个或多个目标分词的唯一标识符;
[0020] 将该目标分词的唯一标识符与Ρ0Ι数据条目中作为键的分词的唯一标识符进行匹 配。
[0021] 可选地,基于所述各类中Ρ0Ι名字的所述指定位置上的分词,以及该类中Ρ0Ι名字 的最长和/或最短字符长度,生成所述各类的P0I数据条目,包括:
[0022] 确定所述各类中Ρ0Ι名字的所述指定位置上的分词的一个或多个相似词;
[0023] 基于该分词、该分词的一个或多个相似词,以及该类中Ρ0Ι名字的最长和/或最短 字符长度,生成所述各类的Ρ0Ι数据条目。
[0024] 可选地,确定所述各类中Ρ0Ι名字的所述指定位置上的分词的一个或多个相似词, 包括:
[0025] 对该分词进行切分,将该分词切分为单字,在词库中查找该单字的同音字和/或相 似字;
[0026] 基于查找到的该单字的同音字和/或相似字,确定该分词的一个或多个相似词。
[0027] 可选地,基于该分词、该分词的一个或多个相似词,以及该类中Ρ0Ι名字的最长和/ 或最短字符长度,生成所述各类的Ρ0Ι数据条目,包括:
[0028] 计算该分词以及该分词的一个或多个相似词各自的唯一标识符;
[0029] 以该分词和/或该分词的一个或多个相似词的唯一标识符为键,以该类中Ρ0Ι名字 的最长和/或最短字符长度为值,生成所述各类的Ρ0Ι数据条目。
[0030] 可选地,将所述一个或多个目标分词与Ρ0Ι数据条目进行匹配,包括:
[0031] 计算所述一个或多个目标分词的唯一标识符;
[0032] 将该目标分词的唯一标识符与Ρ0Ι数据条目中作为键的分词和/或该分词的一个 或多个相似词的唯一标识符进行匹配。
[0033]可选地,所述对Ρ0Ι名字集合中的各Ρ0Ι名字进行切词处理,将切词后的指定位置 上的分词的匹配度符合阈值的各Ρ0Ι名字聚为一类,包括:
[0034] 对Ρ0Ι名字集合中的各Ρ0Ι名字进行正向或逆向切词处理,得到切词后的多个分 词;
[0035] 将切词后顺序的第一个分词的匹配度符合阈值的各Ρ0Ι名字聚为一类;或者,将切 词后逆序的第一个分词的匹配度符合阈值的各Ρ0Ι名字聚为一类。
[0036]可选地,所述将切词后顺序的第一个分词的匹配度符合阈值的各Ρ0Ι名字聚为一 类,包括:
[0037]将切词后顺序的第一个分词相同的各Ρ0Ι名字聚为一类。
[0038] 可选地,若所述该字段值包括最长和/或最短字符长度,所述基于该目标分词以及 该字段值,在所述待判断的文本串中判断疑似Ρ0Ι名字片段,包括:
[0039] 在所述待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于所述 最短字符长度的文本子串,作为疑似POI名字片段;或者,
[0040] 在所述待判断的文本串中,顺序判断从该目标分词开始的、长度小于或等于所述 最长字符长度的文本子串,作为疑似P0I名字片段;或者,
[0041] 在所述待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于所述 最短字符长度且小于或等于所述最长字符长度的文本子串,作为疑似Ρ0Ι名字片段。
[0042] 可选地,所述将切词后逆序的第一个分词的匹配度符合阈值的各Ρ0Ι名字聚为一 类,包括:
[0043] 将切词后逆序的第一个分词相同的各Ρ0Ι名字聚为一类。
[0044] 可选地,若所述该字段值包括最长和/或最短字符长度,所述基于该目标分词以及 该字段值,在所述待判断的文本串中判断疑似Ρ0Ι名字片段,包括:
[0045] 在所述待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于所述 最短字符长度的文本子串,作为疑似Ρ0Ι名字片段;或者,
[0046] 在所述待判断的文本串中,逆序判断从该目标分词开始的、长度小于或等于所述 最长字符长度的文本子串,作为疑似Ρ0Ι名字片段;或者,
[0047] 在所述待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于所述 最短字符长度且小于或等于所述最长字符长度的文本子串,作为疑似Ρ0Ι名字片段。
[0048] 可选地,所述方法还包括:
[0049]将所述各类中的各Ρ0Ι名字插入对应的类的Ρ0Ι数据条目中。
[0050]可选地,从所述疑似Ρ0Ι名字片段中确定Ρ0Ι数据,包括:
[0051] 从所述与该目标分词匹配的Ρ0Ι数据条目中,查找对应的类的各Ρ0Ι名字;
[0052] 将所述疑似Ρ0Ι名字片段与查找到的各Ρ0Ι名字进行匹配,将匹配的Ρ0Ι名字片段 作为确定的Ρ0Ι名字。
[0053] 可选地,所述方法还包括:
[0054] 获取所述各类中的各P01名字对应的地理数据;
[0055]将所述各类中的各Ρ0Ι名字对应的地理数据插入对应的类的Ρ0Ι数据条目中。
[0056] 可选地,所述方法还包括:
[0057]从所述与该目标分词匹配的Ρ0Ι数据条目中,查找所述确定的Ρ0Ι名字对应的地理 数据;
[0058]根据所述确定的Ρ0Ι名字对应的地理数据,在电子地图界面上展示所述确定的 P0L·
[0059] 依据本发明的另一方面,还提供了一种判断文本中Ρ0Ι数据的装置,包括:
[0060] 切词模块,适于提取待判断的文本串,对所述待判断的文本串进行切词处理,生成 一个或多个目标分词;
[0061 ]匹配模块,适于将所述一个或多个目标分词与Ρ0Ι数据条目进行匹配;
[0062]读取模块,适于当存在一个或多个匹配的Ρ0Ι数据条目时,读取匹配的Ρ0Ι数据条 目对应的字符长度的字段值;
[0063]判断模块,适于基于该目标分词以及该字段值,在所述待判断的文本串中判断疑 似Ρ0Ι名字片段;
[0064]确定模块,适于从所述疑似Ρ0Ι名字片段中确定Ρ0Ι数据。
[0065]可选地,所述装置还包括生成模块,适于通过以下单元生成所述Ρ0Ι数据条目: [0066]聚类单元,适于对Ρ0Ι名字集合中的各Ρ0Ι名字进行切词处理,将切词后的、指定位 置上的分词的匹配度符合阈值的各P0I名字聚为一类;
[0067]确定单元,适于确定各类中Ρ0Ι名字的最长和/或最短字符长度;
[0068]生成单元,适于基于所述各类中Ρ0Ι名字的所述指定位置上的分词,以及该类中 Ρ0Ι名字的最长和/或最短字符长度,生成所述各类的Ρ0Ι数据条目。
[0069] 可选地,所述生成单元还适于:
[0070] 计算所述各类中Ρ0Ι名字的所述指定位置上的分词的唯一标识符;
[0071]以该分词的唯一标识符为键,以该类中Ρ0Ι名字的最长和/或最短字符长度为值, 生成所述各类的P0I数据条目。
[0072] 可选地,所述匹配模块还适于:
[0073] 计算所述一个或多个目标分词的唯一标识符;
[0074] 将该目标分词的唯一标识符与Ρ0Ι数据条目中作为键的分词的唯一标识符进行匹 配。
[0075] 可选地,所述生成单元还适于:
[0076] 确定所述各类中Ρ0Ι名字的所述指定位置上的分词的一个或多个相似词;
[0077] 基于该分词、该分词的一个或多个相似词,以及该类中Ρ0Ι名字的最长和/或最短 字符长度,生成所述各类的Ρ0Ι数据条目。
[0078] 可选地,所述生成单元还适于:
[0079] 对该分词进行切分,将该分词切分为单字,在词库中查找该单字的同音字和/或相 似字;
[0080] 基于查找到的该单字的同音字和/或相似字,确定该分词的一个或多个相似词。 [0081 ] 可选地,所述生成单元还适于:
[0082] 计算该分词以及该分词
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1