判断文本中poi数据的方法及装置的制造方法_4

文档序号:9839629阅读:来源:国知局
词的匹配度符合阈值的各 Ρ0Ι名字聚为一类,则步骤S206中基于该目标分词以及该字段值,在待判断的文本串中判断 疑似Ρ0Ι名字片段,本发明提供了可选的方案,即,在待判断的文本串中,逆序判断从该目标 分词开始的、长度大于或等于最短字符长度的文本子串,作为疑似Ρ0Ι名字片段;或者,在待 判断的文本串中,逆序判断从该目标分词开始的、长度小于或等于最长字符长度的文本子 串,作为疑似Ρ0Ι名字片段;或者,在待判断的文本串中,逆序判断从该目标分词开始的、长 度大于或等于最短字符长度且小于或等于最长字符长度的文本子串,作为疑似Ρ0Ι名字片 段。
[0168] 仍然以待判断的文本串为"我在北京专利事务所上班,每个月有工作量的要求,但 上班时间比较灵活"为例,对该待判断的文本串进行切词处理,将生成的一个或多个目标分 词与Ρ0Ι数据条目进行匹配。匹配到与目标分词"事务所"匹配的Ρ0Ι数据条目"事务所12/ 6",其中"事务所"为Ρ0Ι数据条目中的键,"12"为最长字符长度,"6"为最短字符长度,此时, 从与目标分词"事务所"匹配的Ρ0Ι数据条目中查找存储Ρ0Ι名字的字符长度的字段,并读取 字段值为"12/6"。进一步,从该待判断的文本串,顺序确定从该目标分词开始的、长度大于 或等于最短字符长度且小于或等于最长字符长度的文本子串,即"京专利事务所"、"北京专 利事务所"、"我在北京专利事务所"为疑似Ρ0Ι名字片段。需要说明的是,此处仅是示意性 的,并不限制本发明。
[0169] 进一步,本发明实施例中,在生成Ρ0Ι数据条目时,还可以将各类中的各Ρ0Ι名字插 入对应的类的Ρ0Ι数据条目中。此时,步骤S208从疑似Ρ0Ι名字片段中确定Ρ0Ι数据可以实施 为从与该目标分词匹配的Ρ0Ι数据条目中,查找对应的类的各Ρ0Ι名字,进而将疑似Ρ0Ι名字 片段与查找到的各Ρ0Ι名字进行匹配,将匹配的Ρ0Ι名字片段作为确定的Ρ0Ι名字。这样,只 需要在查找到的各POI名字中匹配疑似POI名字片段,无需在POI名字的整个集合中去匹配, 提高了匹配的效率。
[0170] 在本发明的另一实施例中,还可以在电子地图界面上展示待判断的文本串中确定 的Ρ0Ι,通过图形界面的方式给人们更加直观地展示效果。在具体实施时,可以获取各类中 的各P01名字对应的地理数据,进而将各类中的各P01名字对应的地理数据插入对应的类的 Ρ0Ι数据条目中。随后,从与该目标分词匹配的Ρ0Ι数据条目中,查找确定的P0I名字对应的 地理数据,进而根据确定的Ρ0Ι名字对应的地理数据,在电子地图界面上展示确定的Ρ0Ι。
[0171] 基于上文各个实施例提供的判断文本中Ρ0Ι数据的方法,基于同一发明构思,本发 明实施例还提供了一种判断文本中Ρ0Ι数据的装置。
[0172] 图3示出了根据本发明一个实施例的判断文本中Ρ0Ι数据的装置的结构示意图。如 图3所示,该装置至少可以包括切词模块310、匹配模块320、读取模块330、判断模块340以及 确定模块350。
[0173] 切词模块310,适于提取待判断的文本串,对待判断的文本串进行切词处理,生成 一个或多个目标分词;
[0174] 匹配模块320,与切词模块310相耦合,适于将一个或多个目标分词与Ρ0Ι数据条目 进行匹配;
[0175] 读取模块330,与匹配模块320相耦合,适于当存在一个或多个匹配的Ρ0Ι数据条目 时,读取匹配的Ρ0Ι数据条目对应的字符长度的字段值;
[0176] 判断模块340,与读取模块330相耦合,适于基于该目标分词以及该字段值,在待判 断的文本串中判断疑似Ρ0Ι名字片段;
[0177] 确定模块350,与判断模块340相耦合,适于从疑似Ρ0Ι名字片段中确定Ρ0Ι数据。
[0178] 在本发明一实施例中,如图4所示,图3展示的装置还可以包括生成模块360,与匹 配模块320、读取模块330以及确定模块350相耦合,适于通过以下单元生成Ρ0Ι数据条目:
[0179] 聚类单元410,适于对Ρ0Ι名字集合中的各Ρ0Ι名字进行切词处理,将切词后的、指 定位置上的分词的匹配度符合阈值的各P0I名字聚为一类;
[0180] 确定单元420,与聚类单元410相耦合,适于确定各类中Ρ0Ι名字的最长和/或最短 字符长度;
[0181] 生成单元430,与确定单元420相耦合,适于基于各类中Ρ0Ι名字的指定位置上的分 词,以及该类中Ρ0Ι名字的最长和/或最短字符长度,生成各类的P0I数据条目。
[0182] 在本发明一实施例中,生成单元430还适于:
[0183] 计算各类中Ρ0Ι名字的指定位置上的分词的唯一标识符;
[0184] 以该分词的唯一标识符为键,以该类中Ρ0Ι名字的最长和/或最短字符长度为值, 生成各类的Ρ0Ι数据条目。
[0185] 在本发明一实施例中,匹配模块320还适于:
[0186] 计算一个或多个目标分词的唯一标识符;
[0187] 将该目标分词的唯一标识符与Ρ0Ι数据条目中作为键的分词的唯一标识符进行匹 配。
[0188] 在本发明一实施例中,生成单元430还适于:
[0189] 确定各类中Ρ0Ι名字的指定位置上的分词的一个或多个相似词;
[0190] 基于该分词、该分词的一个或多个相似词,以及该类中Ρ0Ι名字的最长和/或最短 字符长度,生成各类的Ρ0Ι数据条目。
[0191] 在本发明一实施例中,生成单元430还适于:
[0192] 对该分词进行切分,将该分词切分为单字,在词库中查找该单字的同音字和/或相 似字;
[0193] 基于查找到的该单字的同音字和/或相似字,确定该分词的一个或多个相似词。
[0194] 在本发明一实施例中,生成单元430还适于:
[0195] 计算该分词以及该分词的一个或多个相似词各自的唯一标识符;
[0196] 以该分词和/或该分词的一个或多个相似词的唯一标识符为键,以该类中Ρ0Ι名字 的最长和/或最短字符长度为值,生成各类的Ρ0Ι数据条目。
[0197] 在本发明一实施例中,匹配模块320还适于:
[0198] 计算一个或多个目标分词的唯一标识符;
[0199] 将该目标分词的唯一标识符与Ρ0Ι数据条目中作为键的分词和/或该分词的一个 或多个相似词的唯一标识符进行匹配。
[0200] 在本发明一实施例中,聚类单元410还适于:
[0201] 对Ρ0Ι名字集合中的各Ρ0Ι名字进行正向或逆向切词处理,得到切词后的多个分 词;
[0202]将切词后顺序的第一个分词的匹配度符合阈值的各Ρ0Ι名字聚为一类;或者,将切 词后逆序的第一个分词的匹配度符合阈值的各Ρ0Ι名字聚为一类。
[0203] 在本发明一实施例中,聚类单元410还适于:
[0204]将切词后顺序的第一个分词相同的各Ρ0Ι名字聚为一类。
[0205] 在本发明一实施例中,判断模块340还适于:
[0206] 若该字段值包括最长和/或最短字符长度,则在待判断的文本串中,顺序判断从该 目标分词开始的、长度大于或等于最短字符长度的文本子串,作为疑似Ρ0Ι名字片段;或者,
[0207] 在待判断的文本串中,顺序判断从该目标分词开始的、长度小于或等于最长字符 长度的文本子串,作为疑似Ρ0Ι名字片段;或者,
[0208]在待判断的文本串中,顺序判断从该目标分词开始的、长度大于或等于最短字符 长度且小于或等于最长字符长度的文本子串,作为疑似Ρ0Ι名字片段。
[0209] 在本发明一实施例中,聚类单元410还适于:
[0210] 将切词后逆序的第一个分词相同的各Ρ0Ι名字聚为一类。
[0211] 在本发明一实施例中,判断模块340还适于:
[0212] 若该字段值包括最长和/或最短字符长度,则在待判断的文本串中,逆序判断从该 目标分词开始的、长度大于或等于最短字符长度的文本子串,作为疑似Ρ0Ι名字片段;或者,
[0213] 在待判断的文本串中,逆序判断从该目标分词开始的、长度小于或等于最长字符 长度的文本子串,作为疑似Ρ0Ι名字片段;或者,
[0214] 在待判断的文本串中,逆序判断从该目标分词开始的、长度大于或等于最短字符 长度且小于或等于最长字符长度的文本子串,作为疑似Ρ0Ι名字片段。
[0215] 在本发明一实施例中,生成单元430还适于:
[0216]将各类中的各Ρ0Ι名字插入对应的类的Ρ0Ι数据条目中。
[0217]在本发明一实施例中,确定模块350还适于:
[0218]从与该目标分词匹配的Ρ0Ι数据条目中,查找对应的类的各Ρ0Ι名字;
[0219]将疑似Ρ0Ι名字片段与查找到的各Ρ0Ι名字进行匹配,将匹配的Ρ0Ι名字片段作为 确定的Ρ0Ι名字。
[0220] 在本发明一实施例中,生成单元430还适于:
[0221]获取各类中的各Ρ0Ι名字对应的地理数据;
[0222]将各类中的各Ρ0Ι名字对应的地理数据插入对应的类的Ρ0Ι数据条目中。
[0223] 在本发明一实施例中,如图4所示,图3展示的装置还可以包括展示模块370,与确 定模块350和生成模块360相耦合,适于从与该目标分词匹配的Ρ0Ι数据条目中,查找确定的 Ρ0Ι名字对应的地理数据;根据确定的Ρ0Ι名字对应的地理数据,在电子地图界面上展示确 定的Ρ0Ι。
[0224] 根据上述任意一个优选实施例或多个优选实施例的组合,本发明实施例能够达到 如下有益效果:
[0225] 本发明实施例中,将切词处理后的一个或多个目标分词与Ρ0Ι数据条目进行匹配, 读取匹配的Ρ0Ι数据条目对应的字符长度的字段值,进而基于该目标分词以及该字段值,在 待判断的文本串中判断疑似Ρ0Ι名字片段,使得判断出的疑似Ρ0Ι名字片段更有针对性,能 够排除掉大量的非Ρ0Ι名字的片段,大大减少了后续的计算量,解决了现有技术中需要将切 词后的相邻字符组成的字符子串去Ρ0Ι名字集合建立的词典中查找,导致查找效率较低的 问题。
[0226] 在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施 例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构 和技术,以便不模糊对本说明书的理解。
[0227] 类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在 上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施 例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保 护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面 的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此, 遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身 都作为本发明的单独实施例。
[0228] 本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地 改变并且
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1