判断文本中poi数据的方法及装置的制造方法_2

文档序号:9839629阅读:来源:国知局
的一个或多个相似词各自的唯一标识符;
[0083] 以该分词和/或该分词的一个或多个相似词的唯一标识符为键,以该类中Ρ0Ι名字 的最长和/或最短字符长度为值,生成所述各类的P0I数据条目。
[0084] 可选地,所述匹配模块还适于:
[0085] 计算所述一个或多个目标分词的唯一标识符;
[0086] 将该目标分词的唯一标识符与Ρ0Ι数据条目中作为键的分词和/或该分词的一个 或多个相似词的唯一标识符进行匹配。
[0087] 可选地,所述聚类单元还适于:
[0088] 对Ρ0Ι名字集合中的各Ρ0Ι名字进行正向或逆向切词处理,得到切词后的多个分 词;
[0089] 将切词后顺序的第一个分词的匹配度符合阈值的各Ρ0Ι名字聚为一类;或者,将切 词后逆序的第一个分词的匹配度符合阈值的各Ρ0Ι名字聚为一类。
[0090] 可选地,所述聚类单元还适于:
[0091] 将切词后顺序的第一个分词相同的各Ρ0Ι名字聚为一类。
[0092] 可选地,所述判断模块还适于:
[0093]若所述该字段值包括最长和/或最短字符长度,则在所述待判断的文本串中,顺序 判断从该目标分词开始的、长度大于或等于所述最短字符长度的文本子串,作为疑似POI名 字片段;或者,
[0094] 在所述待判断的文本串中,顺序判断从该目标分词开始的、长度小于或等于所述 最长字符长度的文本子串,作为疑似Ρ0Ι名字片段;或者,
[0095] 在所述待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于所述 最短字符长度且小于或等于所述最长字符长度的文本子串,作为疑似Ρ0Ι名字片段。
[0096] 可选地,所述聚类单元还适于:
[0097]将切词后逆序的第一个分词相同的各Ρ0Ι名字聚为一类。
[0098] 可选地,所述判断模块还适于:
[0099] 若所述该字段值包括最长和/或最短字符长度,则在所述待判断的文本串中,逆序 判断从该目标分词开始的、长度大于或等于所述最短字符长度的文本子串,作为疑似Ρ0Ι名 字片段;或者,
[0100] 在所述待判断的文本串中,逆序判断从该目标分词开始的、长度小于或等于所述 最长字符长度的文本子串,作为疑似Ρ0Ι名字片段;或者,
[0101] 在所述待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于所述 最短字符长度且小于或等于所述最长字符长度的文本子串,作为疑似Ρ0Ι名字片段。
[0102] 可选地,所述生成单元还适于:
[0103] 将所述各类中的各Ρ0Ι名字插入对应的类的Ρ0Ι数据条目中。
[0104] 可选地,所述确定模块还适于:
[0105] 从所述与该目标分词匹配的Ρ0Ι数据条目中,查找对应的类的各Ρ0Ι名字;
[0106] 将所述疑似Ρ0Ι名字片段与查找到的各Ρ0Ι名字进行匹配,将匹配的Ρ0Ι名字片段 作为确定的Ρ0Ι名字。
[0107] 可选地,所述生成单元还适于:
[0108] 获取所述各类中的各Ρ0Ι名字对应的地理数据;
[0109] 将所述各类中的各Ρ0Ι名字对应的地理数据插入对应的类的Ρ0Ι数据条目中。
[0110] 可选地,所述装置还包括展示模块,适于:
[0111] 从所述与该目标分词匹配的Ρ0Ι数据条目中,查找所述确定的Ρ0Ι名字对应的地理 数据;
[0112] 根据所述确定的Ρ0Ι名字对应的地理数据,在电子地图界面上展示所述确定的 P0L·
[0113] 本发明实施例中,将切词处理后的一个或多个目标分词与Ρ0Ι数据条目进行匹配, 读取匹配的Ρ0Ι数据条目对应的字符长度的字段值,进而基于该目标分词以及该字段值,在 待判断的文本串中判断疑似Ρ0Ι名字片段,使得判断出的疑似Ρ0Ι名字片段更有针对性,能 够排除掉大量的非P0I名字的片段,大大减少了后续的计算量,解决了现有技术中需要将切 词后的相邻字符组成的字符子串去Ρ0Ι名字集合建立的词典中查找,导致查找效率较低的 问题。
[0114] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。
[0115] 根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明 了本发明的上述以及其他目的、优点和特征。
【附图说明】
[0116] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0117] 图1示出了根据本发明一个实施例的构建Ρ0Ι词典的方法的流程图;
[0118]图2示出了根据本发明一个实施例的判断文本中Ρ0Ι数据的方法的流程图;
[0119] 图3示出了根据本发明一个实施例的判断文本中Ρ0Ι数据的装置的结构示意图;以 及
[0120] 图4示出了根据本发明另一个实施例的判断文本中Ρ0Ι数据的装置的结构示意图。
【具体实施方式】
[0121] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0122] 前文提及,现有技术中利用Ρ0Ι名字集合中各Ρ0Ι名字自身建立的词典提供查询服 务,这样当Ρ0Ι名字数量很大或者单个Ρ0Ι名字过长时,该词典的数据量也较大,那么,在查 找之初对该词典进行加载时,需要消耗较多的内存,当内存有限制的时候便无法提供查询 服务。
[0123] 为解决上述技术问题,本发明实施例提供了一种构建Ρ0Ι词典的新方法,可以应用 在终端或服务器中,能够降低词典的数据量,减少内存消耗,节约系统资源。图1示出了根据 本发明一个实施例的构建Ρ0Ι词典的方法的流程图。如图1所示,该方法至少包括以下步骤 S102至步骤S108:
[0124] 步骤S102,对Ρ0Ι名字集合中的各Ρ0Ι名字进行切词处理,将切词后的、指定位置上 的分词的匹配度符合阈值的各Ρ0Ι名字聚为一类;
[0125] 步骤S104,确定各类中Ρ0Ι名字的最长和/或最短字符长度;
[0126] 步骤S106,基于各类中Ρ0Ι名字的指定位置上的分词,以及该类中Ρ0Ι名字的最长 和/或最短字符长度,生成各类的Ρ0Ι数据条目;
[0127] 步骤S108,将各类的Ρ0Ι数据条目建立Ρ0Ι词典。
[0128] 本发明实施例提供了一种构建Ρ0Ι词典的新方案,在Ρ0Ι名字集合中,对各Ρ0Ι名字 进行切词处理,将切词后的、指定位置上的分词的匹配度符合阈值的各Ρ0Ι名字聚为一类, 随后确定各类中Ρ0Ι名字的最长和/或最短字符长度。之后,基于各类中Ρ0Ι名字的指定位置 上的分词,以及该类中Ρ0Ι名字的最长和/或最短字符长度,生成各类的Ρ0Ι数据条目,将各 类的Ρ0Ι数据条目建立Ρ0Ι词典。由于Ρ0Ι名字的指定位置上的分词相比于Ρ0Ι名字本身数据 量小,因而本发明实施例建立的Ρ0Ι词典相比于现有技术中通过Ρ0Ι名字本身建立的词典的 数据量小,加载到内存时消耗的内存资源少。并且,本发明实施例通过聚类的方式,将切词 后的、指定位置上的分词的匹配度符合阈值的各POI名字聚为一类,通过各类中名字的指定 位置上的分词以及该类中P0I名字的最长和/或最短字符长度,来替代该类中的所有P0I名 字构建P0I词典,进一步减少了P0I词典的数据量。
[0129] 上文步骤S102中提及的切词策略,可以是基于字符串匹配的切词方法、基于理解 的切词方法和基于统计的切词方法等,下面将分别进行介绍。
[0130] 首先,基于字符串匹配的切词方法又叫做机械切词方法,它是按照一定的策略将 待分析的汉字串与一个"充分大的"机器词典中的词条进行匹配,若在机器词典中找到某个 字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,字符串匹配切词方法可以分为 正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最 短)匹配;按照是否与词性标注过程相结合,又可以分为单纯切词方法和切词与标注相结合 的一体化方法。常用的几种机械切词方法,如正向最大匹配法(由左到右的方向)、逆向最大 匹配法(由右到左的方向)、最少切分(使每一句中切出的词数最小)、双向最大匹配法(进行 由左到右、由右到左两次扫描),等等。
[0131] 此外,还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最 大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最 小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也 较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的 错误率为1/245,但这种精度还远远不能满足实际的需要。实际使用的切词系统,都是把机 械切词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确 率。
[0132] -种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识 别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来 进机械切词,从而减少匹配的错误率。
[0133] 另一种方法是将切词和词类标注结合起来,利用丰富的词类信息对切词决策提供 帮助,并且在标注过程中又反过来对切词结果进行检验、调整,从而极大地提高切分的准确 率。
[0134] 其次,基于理解的切词方法,是通过让计算机模拟人对句子的理解,达到识别词的 效果。其基本思想就是在切词的同时进行句法、语义分析,利用句法信息和语义信息来处理 歧义现象。它通常包括三个部分:切词子系统、句法语义子系统、总控部分。在总控部分的协 调下,切词子系统可以获得有关词、句子等的句法和语义信息来对切词歧义进行判断,即它 模拟了人对句子的理解过程,这种切词方法需要使用大量的语言知识和信息。由于汉语语 言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于 理解的切词系统还处在试验阶段。
[0135] 再者,基于统计的分词方法,从形式上看,词是稳定的字的组合,因此在上下文中, 相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概 率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统 计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现 信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字 组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而 又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共
当前第2页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1