判断文本中poi数据的方法及装置的制造方法_5

文档序号:9839629阅读:来源:国知局
把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单 元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或 子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何 组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任 何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权 利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代 替。
[0229] 此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例 中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的 范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一 都可以以任意的组合方式来使用。
[0230] 本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行 的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用 微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的判断文本中Ρ0Ι数据的装 置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述 的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这 样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的 形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他 形式提供。
[0231] 应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领 域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中, 不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词"包含"不排除存在未 列在权利要求中的元件或步骤。位于元件之前的单词"一"或"一个"不排除存在多个这样的 元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实 现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项 来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名 称。
[0232] 至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示 例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接 确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认 定为覆盖了所有这些其他变型或修改。
[0233] 本发明实施例还公开了:A1、一种判断文本中Ρ0Ι数据的方法,包括:
[0234] 提取待判断的文本串,对所述待判断的文本串进行切词处理,生成一个或多个目 标分词,将所述一个或多个目标分词与Ρ0Ι数据条目进行匹配;
[0235] 当存在一个或多个匹配的Ρ0Ι数据条目时,读取匹配的Ρ0Ι数据条目对应的字符长 度的字段值;
[0236] 基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似Ρ0Ι名字片段;
[0237] 从所述疑似Ρ0Ι名字片段中确定Ρ0Ι数据。
[0238] A2、根据A1所述的方法,其中,通过以下步骤生成所述Ρ0Ι数据条目:
[0239]对Ρ0Ι名字集合中的各Ρ0Ι名字进行切词处理,将切词后的、指定位置上的分词的 匹配度符合阈值的各Ρ0Ι名字聚为一类;
[0240]确定各类中Ρ0Ι名字的最长和/或最短字符长度;
[0241]基于所述各类中Ρ0Ι名字的所述指定位置上的分词,以及该类中Ρ0Ι名字的最长 和/或最短字符长度,生成所述各类的Ρ0Ι数据条目。
[0242] A3、根据A1或A2所述的方法,其中,基于所述各类中Ρ0Ι名字的所述指定位置上的 分词,以及该类中Ρ0Ι名字的最长和/或最短字符长度,生成所述各类的Ρ0Ι数据条目,包括:
[0243] 计算所述各类中Ρ0Ι名字的所述指定位置上的分词的唯一标识符;
[0244] 以该分词的唯一标识符为键,以该类中Ρ0Ι名字的最长和/或最短字符长度为值, 生成所述各类的POI数据条目。
[0245] A4、根据A1-A3任一项所述的方法,其中,将所述一个或多个目标分词与Ρ0Ι数据条 目进行匹配,包括:
[0246] 计算所述一个或多个目标分词的唯一标识符;
[0247] 将该目标分词的唯一标识符与Ρ0Ι数据条目中作为键的分词的唯一标识符进行匹 配。
[0248] A5、根据A1-A4任一项所述的方法,其中,基于所述各类中Ρ0Ι名字的所述指定位置 上的分词,以及该类中Ρ0Ι名字的最长和/或最短字符长度,生成所述各类的P0I数据条目, 包括:
[0249] 确定所述各类中Ρ0Ι名字的所述指定位置上的分词的一个或多个相似词;
[0250] 基于该分词、该分词的一个或多个相似词,以及该类中Ρ0Ι名字的最长和/或最短 字符长度,生成所述各类的Ρ0Ι数据条目。
[0251] A6、根据A1-A5任一项所述的方法,其中,确定所述各类中Ρ0Ι名字的所述指定位置 上的分词的一个或多个相似词,包括:
[0252] 对该分词进行切分,将该分词切分为单字,在词库中查找该单字的同音字和/或相 似字;
[0253] 基于查找到的该单字的同音字和/或相似字,确定该分词的一个或多个相似词。
[0254] A7、根据A1-A6任一项所述的方法,其中,基于该分词、该分词的一个或多个相似 词,以及该类中Ρ0Ι名字的最长和/或最短字符长度,生成所述各类的Ρ0Ι数据条目,包括:
[0255] 计算该分词以及该分词的一个或多个相似词各自的唯一标识符;
[0256] 以该分词和/或该分词的一个或多个相似词的唯一标识符为键,以该类中Ρ0Ι名字 的最长和/或最短字符长度为值,生成所述各类的Ρ0Ι数据条目。
[0257] A8、根据A1-A7任一项所述的方法,其中,将所述一个或多个目标分词与Ρ0Ι数据条 目进行匹配,包括:
[0258] 计算所述一个或多个目标分词的唯一标识符;
[0259] 将该目标分词的唯一标识符与Ρ0Ι数据条目中作为键的分词和/或该分词的一个 或多个相似词的唯一标识符进行匹配。
[0260] A9、根据A1-A8任一项所述的方法,其中,所述对Ρ0Ι名字集合中的各Ρ0Ι名字进行 切词处理,将切词后的指定位置上的分词的匹配度符合阈值的各Ρ0Ι名字聚为一类,包括:
[0261] 对Ρ0Ι名字集合中的各Ρ0Ι名字进行正向或逆向切词处理,得到切词后的多个分 词;
[0262] 将切词后顺序的第一个分词的匹配度符合阈值的各Ρ0Ι名字聚为一类;或者,将切 词后逆序的第一个分词的匹配度符合阈值的各Ρ0Ι名字聚为一类。
[0263] A10、根据A1-A9任一项所述的方法,其中,所述将切词后顺序的第一个分词的匹配 度符合阈值的各P01名字聚为一类,包括:
[0264] 将切词后顺序的第一个分词相同的各Ρ0Ι名字聚为一类。
[0265] All、根据A1-A10任一项所述的方法,其中,若所述该字段值包括最长和/或最短字 符长度,所述基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似Ρ0Ι名字片 段,包括:
[0266] 在所述待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于所述 最短字符长度的文本子串,作为疑似Ρ0Ι名字片段;或者,
[0267] 在所述待判断的文本串中,顺序判断从该目标分词开始的、长度小于或等于所述 最长字符长度的文本子串,作为疑似Ρ0Ι名字片段;或者,
[0268] 在所述待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于所述 最短字符长度且小于或等于所述最长字符长度的文本子串,作为疑似Ρ0Ι名字片段。
[0269] A12、根据A1-A11任一项所述的方法,其中,所述将切词后逆序的第一个分词的匹 配度符合阈值的各P01名字聚为一类,包括:
[0270] 将切词后逆序的第一个分词相同的各Ρ0Ι名字聚为一类。
[0271] A13、根据A1-A12任一项所述的方法,其中,若所述该字段值包括最长和/或最短字 符长度,所述基于该目标分词以及该字段值,在所述待判断的文本串中判断疑似Ρ0Ι名字片 段,包括:
[0272] 在所述待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于所述 最短字符长度的文本子串,作为疑似Ρ0Ι名字片段;或者,
[0273] 在所述待判断的文本串中,逆序判断从该目标分词开始的、长度小于或等于所述 最长字符长度的文本子串,作为疑似Ρ0Ι名字片段;或者,
[0274] 在所述待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于所述 最短字符长度且小于或等于所述最长字符长度的文本子串,作为疑似Ρ0Ι名字片段。
[0275] A14、根据A1-A13任一项所述的方法,其中,还包括:
[0276]将所述各类中的各Ρ0Ι名字插入对应的类的Ρ0Ι数据条目中。
[0277] A15、根据A1-A14任一项所述的方法,其中,从所述疑似Ρ0Ι名字片段中确定Ρ0Ι数 据,包括:
[0278]从所述与该目标分词匹配的Ρ0Ι数据条目中,查找对应的类的各Ρ0Ι名字;
[0279]将所述疑似Ρ0Ι名字片段与查找到的各Ρ0Ι名字进行匹配,将匹配的Ρ0Ι名字片段 作为确定的Ρ0Ι名字。
[0280] A16、根据A1-A15任一项所述的方法,其中,还包括:
[0281]获取所述各类中的各Ρ0Ι名字对应的地理数据;
[0282]将所述各类中的各Ρ0Ι名字对应的地理数据插入对应的类的Ρ0Ι数据条目中。
[0283] A17、根据A1-A16任一项所述的方法,其中,还包括:
[0284] 从所述与该目标分词匹配的Ρ0Ι数据条目中,查找所述确定的Ρ0Ι名字对应的地理 数据;
[0285] 根据所述确定的Ρ0Ι名字对应的地理数据,在电子地图界面上展示所述确定的 P0L·
[0286] B18、一种判断文本中Ρ0Ι数据的装置,包括:
[0287] 切词模块,适于提取待判断的文本串,对所述待判断的文本串进行切词处理,生成 一个或多个目标分词;
[0288] 匹配模块,适于将所述一个或多个目标分词与Ρ0Ι数据条目进行匹配;
[0289]读取模块,适于当存在一个或多个匹配的Ρ0Ι数据条目时,读取匹配的Ρ0Ι数据条 目对应的字符长度的字段值;
[0290]判断模块,适于基于该目标分词以及该字段值,在所述待判断的文本串中判断疑 似Ρ0Ι名字片段;
[0291]确定模块,适于从所述疑似Ρ0Ι名字片段中确定Ρ0Ι数据。
[0292] B19、根据B18所述的装置,其中,所述装置还包括生成模块,适于通过以下单元生 成所述Ρ0Ι数据条目:
[0293]聚类单元,适于对Ρ0
当前第5页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1