判断文本中poi数据的方法及装置的制造方法_6

文档序号:9839629阅读:来源:国知局
Ι名字集合中的各Ρ0Ι名字进行切词处理,将切词后的、指定位 置上的分词的匹配度符合阈值的各Ρ0Ι名字聚为一类;
[0294] 确定单元,适于确定各类中Ρ0Ι名字的最长和/或最短字符长度;
[0295] 生成单元,适于基于所述各类中Ρ0Ι名字的所述指定位置上的分词,以及该类中 Ρ0Ι名字的最长和/或最短字符长度,生成所述各类的Ρ0Ι数据条目。
[0296] B20、根据B18或B19所述的装置,其中,所述生成单元还适于:
[0297] 计算所述各类中Ρ0Ι名字的所述指定位置上的分词的唯一标识符;
[0298] 以该分词的唯一标识符为键,以该类中Ρ0Ι名字的最长和/或最短字符长度为值, 生成所述各类的Ρ0Ι数据条目。
[0299] B21、根据B18-B20任一项所述的装置,其中,所述匹配模块还适于:
[0300]计算所述一个或多个目标分词的唯一标识符;
[0301 ]将该目标分词的唯一标识符与Ρ0Ι数据条目中作为键的分词的唯一标识符进行匹 配。
[0302] B22、根据B18-B21任一项所述的装置,其中,所述生成单元还适于:
[0303] 确定所述各类中Ρ0Ι名字的所述指定位置上的分词的一个或多个相似词;
[0304] 基于该分词、该分词的一个或多个相似词,以及该类中Ρ0Ι名字的最长和/或最短 字符长度,生成所述各类的Ρ0Ι数据条目。
[0305] B23、根据B18-B22任一项所述的装置,其中,所述生成单元还适于:
[0306] 对该分词进行切分,将该分词切分为单字,在词库中查找该单字的同音字和/或相 似字;
[0307] 基于查找到的该单字的同音字和/或相似字,确定该分词的一个或多个相似词。
[0308] B24、根据B18-B23任一项所述的装置,其中,所述生成单元还适于:
[0309]计算该分词以及该分词的一个或多个相似词各自的唯一标识符;
[0310] 以该分词和/或该分词的一个或多个相似词的唯一标识符为键,以该类中Ρ0Ι名字 的最长和/或最短字符长度为值,生成所述各类的Ρ0Ι数据条目。
[0311] B25、根据B18-B24任一项所述的装置,其中,所述匹配模块还适于:
[0312] 计算所述一个或多个目标分词的唯一标识符;
[0313] 将该目标分词的唯一标识符与Ρ0Ι数据条目中作为键的分词和/或该分词的一个 或多个相似词的唯一标识符进行匹配。
[0314] B26、根据B18-B25任一项所述的装置,其中,所述聚类单元还适于:
[0315] 对Ρ0Ι名字集合中的各Ρ0Ι名字进行正向或逆向切词处理,得到切词后的多个分 词;
[0316] 将切词后顺序的第一个分词的匹配度符合阈值的各Ρ0Ι名字聚为一类;或者,将切 词后逆序的第一个分词的匹配度符合阈值的各Ρ0Ι名字聚为一类。
[0317] B27、根据B18-B26任一项所述的装置,其中,所述聚类单元还适于:
[0318]将切词后顺序的第一个分词相同的各Ρ0Ι名字聚为一类。
[0319] B28、根据B18-B27任一项所述的装置,其中,所述判断模块还适于:
[0320] 若所述该字段值包括最长和/或最短字符长度,则在所述待判断的文本串中,顺序 判断从该目标分词开始的、长度大于或等于所述最短字符长度的文本子串,作为疑似Ρ0Ι名 字片段;或者,
[0321] 在所述待判断的文本串中,顺序判断从该目标分词开始的、长度小于或等于所述 最长字符长度的文本子串,作为疑似Ρ0Ι名字片段;或者,
[0322] 在所述待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于所述 最短字符长度且小于或等于所述最长字符长度的文本子串,作为疑似Ρ0Ι名字片段。
[0323] B29、根据B18-B28任一项所述的装置,其中,所述聚类单元还适于:
[0324]将切词后逆序的第一个分词相同的各Ρ0Ι名字聚为一类。
[0325] B30、根据B18-B29任一项所述的装置,其中,所述判断模块还适于:
[0326] 若所述该字段值包括最长和/或最短字符长度,则在所述待判断的文本串中,逆序 判断从该目标分词开始的、长度大于或等于所述最短字符长度的文本子串,作为疑似Ρ0Ι名 字片段;或者,
[0327] 在所述待判断的文本串中,逆序判断从该目标分词开始的、长度小于或等于所述 最长字符长度的文本子串,作为疑似Ρ0Ι名字片段;或者,
[0328] 在所述待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于所述 最短字符长度且小于或等于所述最长字符长度的文本子串,作为疑似Ρ0Ι名字片段。
[0329] B31、根据B18-B30任一项所述的装置,其中,所述生成单元还适于:
[0330]将所述各类中的各Ρ0Ι名字插入对应的类的Ρ0Ι数据条目中。
[0331] B32、根据B18-B31任一项所述的装置,其中,所述确定模块还适于:
[0332]从所述与该目标分词匹配的Ρ0Ι数据条目中,查找对应的类的各Ρ0Ι名字;
[0333]将所述疑似Ρ0Ι名字片段与查找到的各Ρ0Ι名字进行匹配,将匹配的Ρ0Ι名字片段 作为确定的Ρ0Ι名字。
[0334] B33、根据B18-B32任一项所述的装置,其中,所述生成单元还适于:
[0335] 获取所述各类中的各Ρ0Ι名字对应的地理数据;
[0336]将所述各类中的各Ρ0Ι名字对应的地理数据插入对应的类的Ρ0Ι数据条目中。
[0337] B34、根据B18-B33任一项所述的装置,其中,还包括展示模块,适于:
[0338] 从所述与该目标分词匹配的Ρ0Ι数据条目中,查找所述确定的Ρ0Ι名字对应的地理 数据;
[0339]根据所述确定的Ρ0Ι名字对应的地理数据,在电子地图界面上展示所述确定的 P0L·
【主权项】
1. 一种判断文本中POI数据的方法,包括: 提取待判断的文本串,对所述待判断的文本串进行切词处理,生成一个或多个目标分 词,将所述一个或多个目标分词与P0I数据条目进行匹配; 当存在一个或多个匹配的P0I数据条目时,读取匹配的P0I数据条目对应的字符长度的 字段值; 基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似P0I名字片段; 从所述疑似P0I名字片段中确定P0I数据。2. 根据权利要求1所述的方法,其中,通过以下步骤生成所述P0I数据条目: 对P0I名字集合中的各P0I名字进行切词处理,将切词后的、指定位置上的分词的匹配 度符合阈值的各P0I名字聚为一类; 确定各类中P0I名字的最长和/或最短字符长度; 基于所述各类中P0I名字的所述指定位置上的分词,以及该类中P0I名字的最长和/或 最短字符长度,生成所述各类的P0I数据条目。3. 根据权利要求1或2所述的方法,其中,基于所述各类中P0I名字的所述指定位置上的 分词,以及该类中P0I名字的最长和/或最短字符长度,生成所述各类的P0I数据条目,包括: 计算所述各类中P0I名字的所述指定位置上的分词的唯一标识符; 以该分词的唯一标识符为键,以该类中P0I名字的最长和/或最短字符长度为值,生成 所述各类的P0I数据条目。4. 根据权利要求1-3任一项所述的方法,其中,将所述一个或多个目标分词与P0I数据 条目进行匹配,包括: 计算所述一个或多个目标分词的唯一标识符; 将该目标分词的唯一标识符与P0I数据条目中作为键的分词的唯一标识符进行匹配。5. 根据权利要求1-4任一项所述的方法,其中,基于所述各类中P0I名字的所述指定位 置上的分词,以及该类中P0I名字的最长和/或最短字符长度,生成所述各类的P0I数据条 目,包括: 确定所述各类中P0I名字的所述指定位置上的分词的一个或多个相似词; 基于该分词、该分词的一个或多个相似词,以及该类中P0I名字的最长和/或最短字符 长度,生成所述各类的P0I数据条目。6. 根据权利要求1-5任一项所述的方法,其中,确定所述各类中P0I名字的所述指定位 置上的分词的一个或多个相似词,包括: 对该分词进行切分,将该分词切分为单字,在词库中查找该单字的同音字和/或相似 字; 基于查找到的该单字的同音字和/或相似字,确定该分词的一个或多个相似词。7. 根据权利要求1 -6任一项所述的方法,其中,基于该分词、该分词的一个或多个相似 词,以及该类中P0I名字的最长和/或最短字符长度,生成所述各类的P0I数据条目,包括: 计算该分词以及该分词的一个或多个相似词各自的唯一标识符; 以该分词和/或该分词的一个或多个相似词的唯一标识符为键,以该类中P0I名字的最 长和/或最短字符长度为值,生成所述各类的P0I数据条目。8. 根据权利要求1-7任一项所述的方法,其中,将所述一个或多个目标分词与P0I数据 条目进行匹配,包括: 计算所述一个或多个目标分词的唯一标识符; 将该目标分词的唯一标识符与POI数据条目中作为键的分词和/或该分词的一个或多 个相似词的唯一标识符进行匹配。9. 根据权利要求1-8任一项所述的方法,其中,所述对POI名字集合中的各POI名字进行 切词处理,将切词后的指定位置上的分词的匹配度符合阈值的各POI名字聚为一类,包括: 对POI名字集合中的各POI名字进行正向或逆向切词处理,得到切词后的多个分词; 将切词后顺序的第一个分词的匹配度符合阈值的各POI名字聚为一类;或者,将切词后 逆序的第一个分词的匹配度符合阈值的各POI名字聚为一类。10. -种判断文本中POI数据的装置,包括: 切词模块,适于提取待判断的文本串,对所述待判断的文本串进行切词处理,生成一个 或多个目标分词; 匹配模块,适于将所述一个或多个目标分词与POI数据条目进行匹配; 读取模块,适于当存在一个或多个匹配的POI数据条目时,读取匹配的POI数据条目对 应的字符长度的字段值; 判断模块,适于基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI 名字片段; 确定模块,适于从所述疑似POI名字片段中确定POI数据。
【专利摘要】本发明提供了一种判断文本中POI数据的方法及装置。该方法包括:提取待判断的文本串,对所述待判断的文本串进行切词处理,生成一个或多个目标分词,将所述一个或多个目标分词与POI数据条目进行匹配;当存在一个或多个匹配的POI数据条目时,读取匹配的POI数据条目对应的字符长度的字段值;基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似POI名字片段;从所述疑似POI名字片段中确定POI数据。本发明实施例解决了现有技术中需要将切词后的相邻字符组成的字符子串去POI名字集合建立的词典中查找,导致查找效率较低的问题。
【IPC分类】G06F17/30
【公开号】CN105608113
【申请号】CN201510918340
【发明人】王智广
【申请人】北京奇虎科技有限公司, 奇智软件(北京)有限公司
【公开日】2016年5月25日
【申请日】2015年12月10日
当前第6页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1