一种基于字符长度识别兴趣点名称的方法和装置的制造方法

文档序号：9787377阅读：322来源：国知局

一种基于字符长度识别兴趣点名称的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及计算机处理的技术领域，特别是涉及一种基于字符串长度识别兴趣点名称的方法和一种基于字符串长度识别兴趣点名称的装置。
【背景技术】
[0002] 兴趣点（Point of Interest，Ρ0Ι)，又可以翻译成"信息点"，其包含多方面的信息，如名称、类别、经度炜度等等。
[0003] 在地理信息系统中，一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。
[0004] 传统的地理信息采集方法需要地图测绘人员采用精密的测绘仪器去获取一个兴趣点的经炜度，然后再标记下来。
[0005] 正因为POI数据的采集是一个非常费时费事的工作，对一个地理信息系统来说， POI的数量在一定程度代表着整个系统的价值。
[0006] 为了丰富地理信息系统的POI数据的数量，在文本挖掘等情景下，经常需要判断文本中是否包含给定的POI名称集合中某些POI名称。
[0007] 目前一般是把给定的POI名称集合建立一个词典，对于给定一个文本串，把文本串按字符切分，把η个相邻字符组成的字符子串（记为η长子串）去词典里查找，如果能够找到则认为文本串包含了一个POI名字。。
[0008]由于给定的POI名称集合的数量往往是千万数量级，数据量十分之大，此时，加载词典时需要消耗较大的内存，尤其在某些情况下，如利用hadoop分布式计算，内存有限制，应用词典直接遍历的方式便失效了。
[0009] 而且，在文本串中取"η长子串"在词典里查找时，很多数据是无效的，大大增加了计算量，查找效率很低。

【发明内容】

[0010] 鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于字符串长度识别兴趣点名称的方法和相应的一种基于字符串长度识别兴趣点名称的装置。
[0011] 依据本发明的一个方面，提供了一种基于字符串长度识别兴趣点名称的方法，包括：
[0012] 对待识别的文本串进行分词处理，获得文本分词；
[0013] 在所述文本分词中，筛选出在一定字符串长度范围内的候选文本分词；
[0014] 将筛选出的候选文本分词与所述字符串长度范围对应的兴趣点名称进行比较，以判断所述候选文本分词是否为兴趣点名称。
[0015] 可选地，所述在所述文本分词中，筛选出在一定字符串长度范围内的候选文本分词的步骤包括：
[0016]查找预设兴趣点名词词典，所述兴趣点名称词典中具有一个或多个兴趣点名称集合，所述兴趣点集合中兴趣点名称最长的字符串长度和最短的字符串长度组成字符串长度范围；
[0017]计算所述文本分词的字符串长度；
[0018] 在所述文本分词中，筛选出字符串长度在所述字符串长度范围内的候选文本分 1·^] O
[0019] 可选地，所述兴趣点集合中兴趣点名称具有相同的关键字；
[0020] 所述在所述文本分词中，筛选出字符串长度在所述字符串长度范围内的候选文本分词的步骤包括：
[0021 ]在所述文本分词中，筛选出与所述关键字匹配、且字符串长度在所述字符串长度范围内的候选文本分词。
[0022] 可选地，所述相同的关键字为首字。
[0023] 可选地，所述将筛选出的候选文本分词与所述字符串长度范围对应的兴趣点名称进行比较，以判断所述候选文本分词是否为兴趣点名称的步骤包括：
[0024] 将所述候选文本分词和所述兴趣点集合中的兴趣点名称放入同一个容器中；
[0025] 将同一个容器中的候选文本分词和兴趣点名称进行比较，以判断所述候选文本分词是否为兴趣点名称。
[0026] 可选地，所述将同一个容器中的候选文本分词和兴趣点名称进行比较，以判断所述候选文本分词是否为兴趣点名称的步骤包括：
[0027] 对同一个集合中的候选文本分词和兴趣点名称进行排序；
[0028] 将所述候选文本分词与排序相邻的一个或多个兴趣点名称进行比较；
[0029] 当所述候选文本分词与排序相邻的兴趣点名称相同时，确定所述候选文本分词为兴趣点名称；
[0030] 当所述候选文本分词与排序相邻的兴趣点名称不相同时，确定所述候选文本分词不为兴趣点名称。
[0031] 可选地，还包括：
[0032] 将一个或多个兴趣点名称划分为同一个兴趣点名称集合中；
[0033] 统计在每一个兴趣点名称集合中，所述兴趣点名称的字符串长度范围；
[0034] 针对所述兴趣点名称集合，至少按照所述字符串长度范围生成兴趣点名称词典。
[0035] 可选地，所述将一个或多个兴趣点名称划分为同一个兴趣点名称集合中的步骤包括：
[0036] 将具有相同关键字的一个或多个兴趣点名称划分为同一个兴趣点名称集合中。
[0037] 可选地，所述将具有相同关键字的一个或多个兴趣点名称划分为同一个兴趣点名称集合中的步骤包括：
[0038] 对一个或多个兴趣点名称进行分词处理，获得名称分词；
[0039]将所述兴趣点名称中属于首字的名称分词设置为关键字；
[0040] 将具有相同关键字的一个或多个兴趣点名称划分为同一个兴趣点名称分类中。
[0041] 可选地，所述统计在每一个兴趣点名称集合中，所述兴趣点名称的字符串长度范围的步骤包括：
[0042]计算在每一个兴趣点名称集合中，所述兴趣点名称的字符串长度；
[0043]以最短的字符串长度和最长的字符串长度组成字符串长度范围。
[0044]可选地，所述针对所述兴趣点名称集合，至少按照所述字符串长度范围生成兴趣点名称词典的步骤包括：
[0045]针对所述兴趣点名称集合，以所述关键词作为键、以所述字符串长度范围作为值生成兴趣点名称词典。
[0046] 根据本发明的另一方面，提供了一种基于字符串长度识别兴趣点名称的装置，包括：
[0047] 文本串分词模块，适于对待识别的文本串进行分词处理，获得文本分词；
[0048] 候选文本分词筛选模块，适于在所述文本分词中，筛选出在一定字符串长度范围内的候选文本分词；
[0049] 兴趣点名称判断模块，适于将筛选出的候选文本分词与所述字符串长度范围对应的兴趣点名称进行比较，以判断所述候选文本分词是否为兴趣点名称。
[0050] 可选地，所述候选文本分词筛选模块还适于：
[0051]查找预设兴趣点名词词典，所述兴趣点名称词典中具有一个或多个兴趣点名称集合，所述兴趣点集合中兴趣点名称最长的字符串长度和最短的字符串长度组成字符串长度范围；
[0052]计算所述文本分词的字符串长度；
[0053] 在所述文本分词中，筛选出字符串长度在所述字符串长度范围内的候选文本分 1·^] 〇
[0054] 可选地，所述兴趣点集合中兴趣点名称具有相同的关键字；
[0055] 所述候选文本分词筛选模块还适于：
[0056] 在所述文本分词中，筛选出与所述关键字匹配、且字符串长度在所述字符串长度范围内的候选文本分词。
[0057] 可选地，所述相同的关键字为首字。
[0058]可选地，，所述兴趣点名称判断模块还适于：
[0059] 将所述候选文本分词和所述兴趣点集合中的兴趣点名称放入同一个容器中；
[0060] 将同一个容器中的候选文本分词和兴趣点名称进行比较，以判断所述候选文本分词是否为兴趣点名称。
[0061 ]可选地，所述兴趣点名称判断模块还适于：
[0062] 对同一个集合中的候选文本分词和兴趣点名称进行排序；
[0063] 将所述候选文本分词与排序相邻的一个或多个兴趣点名称进行比较；
[0064] 当所述候选文本分词与排序相邻的兴趣点名称相同时，确定所述候选文本分词为兴趣点名称；
[0065] 当所述候选文本分词与排序相邻的兴趣点名称不相同时，确定所述候选文本分词不为兴趣点名称。
[0066] 可选地，还包括：
[0067]兴趣点名称划分模块，适于将一个或多个兴趣点名称划分为同一个兴趣点名称集合中；
[0068] 字符串长度范围统计模块，适于统计在每一个兴趣点名称集合中，所述兴趣点名称的字符串长度范围；
[0069] 兴趣点名称词典生成模块，适于针对所述兴趣点名称集合，至少按照所述字符串长度范围生成兴趣点名称词典。
[0070] 可选地，所述兴趣点名称划分模块还适于：
[0071] 将具有相同关键字的一个或多个兴趣点名称划分为同一个兴趣点名称集合中。
[0072] 可选地，所述兴趣点名称划分模块还适于：
[0073] 对一个或多个兴趣点名称进行分词处理，获得名称分词；
[0074] 将所述兴趣点名称中属于首字的名称分词设置为关键字；
[0075] 将具有相同关键字的一个或多个兴趣点名称划分为同一个兴趣点名称分类中。
[0076] 可选地，所述字符串长度范围统计模块还适于：
[0077] 计算在每一个兴趣点名称集合中，所述兴趣点名称的字符串长度；
[0078]以最短的字符串长度和最长的字符串长度组成

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王智广;
技术所有人：北京奇虎科技有限公司;奇智软件（北京）有限公司;
我是此专利的发明人

上一篇：一种中文分词方法及装置的制造方法
上一篇：一种确定对象的概念词的方法和装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。