判断文本中poi数据的方法及装置的制造方法_3

文档序号:9839629阅读:来源:国知局
现频度高、但并不是词的常用字组,例如"这一"、"之一"、"有的"、"我的"、"许多的"等,并且 对常用词的识别精度差,时空开销大。实际应用的统计切词系统都要使用一部基本的切词 词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和 串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上 下文识别生词、自动消除歧义的优点。
[0136] 基于上述切词策略,本发明实施例提供了实施步骤S102的可选方案,在该方案中, 可以对Ρ0Ι名字集合中的各Ρ0Ι名字进行正向或逆向切词处理,得到切词后的多个分词,随 后将切词后顺序的第一个分词的匹配度符合阈值(如大于或等于100%、95%等)的各Ρ0Ι名 字聚为一类。
[0137] 或者,可以对Ρ0Ι名字集合中的各Ρ0Ι名字进行正向或逆向切词处理,得到切词后 的多个分词,随后将切词后逆序的第一个分词的匹配度符合阈值(如大于或等于100%、 95%等)的各Ρ0Ι名字聚为一类。
[0138] 在本发明一实施例中,若预设阈值取值为100%,则将切词后顺序的第一个分词相 同的各Ρ0Ι名字聚为一类。例如,Ρ0Ι名字集合中包含Ρ0Ι名字为"北京专利事务所"、"北京专 利有限公司"、"南京商标事务所",对各Ρ0Ι名字进行正向切词处理,将切词后顺序的第一个 分词相同的各Ρ0Ι名字聚为一类,即将顺序的第一个分词为"北京"的Ρ0Ι名字"北京专利事 务所"、"北京专利有限公司"聚为一类,将顺序的第一个分词为"南京"的Ρ0Ι名字"南京商标 事务所"聚为一类。需要说明的是,此处仅是列举,并不限制本发明。
[0139] 在本发明一实施例中,若预设阈值取值为100%,则将切词后逆序的第一个分词相 同的各Ρ0Ι名字聚为一类。仍以上面的例子为例,将切词后逆序的第一个分词相同的各Ρ0Ι 名字聚为一类,即将逆序的第一个分词为"事务所"的Ρ0Ι名字"北京专利事务所"、"南京商 标事务所"聚为一类,将逆序的第一个分词为"有限公司"的Ρ0Ι名字"北京专利有限公司"聚 为一类。
[0140] 在步骤S104中确定各类中Ρ0Ι名字的最长和/或最短字符长度,可以确定各类中 Ρ0Ι名字的最长字符长度,也可以确定各类中Ρ0Ι名字的最短字符长度,还可以确定各类中 Ρ0Ι名字的最长和最短字符长度,本发明并不做限制。进一步,可以统计各类中的各Ρ0Ι名字 的字符长度,以确定各类中Ρ0Ι名字的最长和/或最短字符长度。
[0141] 上文步骤S106中生成各类的Ρ0Ι数据条目,本发明提供了两种可选的方案,下面将 分别进行详细介绍。
[0142] 方案一,基于唯一标识符和键值方案。即,计算各类中Ρ0Ι名字的指定位置上的分 词的唯一标识符,进而以该分词的唯一标识符为键,以该类中Ρ0Ι名字的最长和/或最短字 符长度为值,生成各类的Ρ0Ι数据条目。这里,唯一标识所占存储空间要小于分词本身所占 存储空间,以分词的唯一标识符为键,而不直接使用分词本身为键,可以进一步减少Ρ0Ι词 典的数据量。如表1所示,各类中Ρ0Ι名字的指定位置上的分词的唯一标识符为T1、T2…… Τη,第i(i = l、2……η)个分词对应的Ρ0Ι名字的最长字符长度为Li,最短字符长度为Si。这 里的指定位置上的分词可以是切词后顺序的第一个分词,也可以是切词后逆序的第一个分
[0143] 表1
[0144]
[0145] 方案二,基于分词的相似词的方案。即,确定各类中Ρ0Ι名字的指定位置上的分词 的一个或多个相似词,进而基于该分词、该分词的一个或多个相似词,以及该类中Ρ0Ι名字 的最长和/或最短字符长度,生成各类的Ρ0Ι数据条目。这里的指定位置上的分词可以是切 词后顺序的第一个分词,也可以是切词后逆序的第一个分词。
[0146] 进一步,在确定各类中Ρ0Ι名字的指定位置上的分词的一个或多个相似词时,可以 对该分词进行切分,将该分词切分为单字,在词库中查找该单字的同音字和/或相似字,进 而基于查找到的该单字的同音字和/或相似字,确定该分词的一个或多个相似词。这样,在 后续使用Ρ0Ι数据条目进行分词匹配时,可以解决输入相似词的情况。例如,用户需要查询 "智汇东方知识产权代理事务所"是否为Ρ0Ι数据,在输入查询词时输入了 "智慧东方",该查 询词为"智汇东方"的相似词,则使用"智慧东方"仍然可以查询到对应的P0I数据条目。
[0147] 在基于该分词、该分词的一个或多个相似词,以及该类中Ρ0Ι名字的最长和/或最 短字符长度,生成各类的Ρ0Ι数据条目时,可以参照方案一中的实施方式,即,计算该分词以 及该分词的一个或多个相似词各自的唯一标识符,进而以该分词和/或该分词的一个或多 个相似词的唯一标识符为键,以该类中P0I名字的最长和/或最短字符长度为值,生成各类 的Ρ0Ι数据条目。如表2所示,各类中Ρ0Ι名字的指定位置上的分词的唯一标识符为T1、 T2……Tn,各分词的一个或多个相似词的唯一标识符为T11、T12……Tlm,T21、T22……T2m, Tnl、Tn2……Tnm。第i(i = l、2……η)个分词对应的Ρ0Ι名字的最长字符长度为Li,最短字符 长度为Si。
[0148] 表2 「01491
[0150] 在本发明的一实施例中,还可以将包含有各Ρ0Ι名字的各类的Ρ0Ι数据条目建立 Ρ0Ι词典,以备后续查询匹配使用。
[0151] 在本发明的另一实施例中,还可以获取各类中的各Ρ0Ι名字对应的地理数据,进而 将各类中的各Ρ0Ι名字对应的地理数据插入对应的类的P0I数据条目中。
[0152] 通过上文介绍可知,本发明实施例基于各类中Ρ0Ι名字的指定位置上的分词和/或 该分词的一个或多个相似词,以及该类中P0I名字的最长和/或最短字符长度,生成各类的 Ρ0Ι数据条目构建Ρ0Ι词典,其数据量相比于现有技术中通过P0I名字本身建立的词典的数 据量要小,加载到内存时消耗的内存资源少。并且,本发明实施例通过聚类的方式,将切词 后的、指定位置上的分词的匹配度符合阈值的各POI名字聚为一类,通过各类中名字的指定 位置上的分词和/或该分词的一个或多个相似词,以及该类中P0I名字的最长和/或最短字 符长度,来替代该类中的所有P0I名字构建P0I词典,进一步减少了P0I词典的数据量。
[0153] 需要说明的是,以上是利用Ρ0Ι名字集合中的各Ρ0Ι名字,生成各类的Ρ0Ι数据条 目,进而建立Ρ0Ι词典。在实际应用中,还可以以Ρ0Ι地址、电话号码等数据生成各类的Ρ0Ι数 据条目,进而建立P0I词典。
[0154] 下面将介绍利用构建的Ρ0Ι词典对文本中Ρ0Ι数据进行判断的方法,可以发现其在 计算效率和查找效率上的优点。
[0155] 图2示出了根据本发明一个实施例的判断文本中Ρ0Ι数据的方法的流程图。如图2 所示,该方法至少包括以下步骤S202至步骤S208:
[0156]步骤S202,提取待判断的文本串,对待判断的文本串进行切词处理,生成一个或多 个目标分词,将一个或多个目标分词与P0I数据条目进行匹配;
[0157] 步骤S204,当存在一个或多个匹配的Ρ0Ι数据条目时,读取匹配的Ρ0Ι数据条目对 应的字符长度的字段值;
[0158] 步骤S206,基于该目标分词以及该字段值,在待判断的文本串中判断疑似Ρ0Ι名字 片段;
[0159] 步骤S208,从疑似Ρ0Ι名字片段中确定Ρ0Ι数据。
[0160]本发明实施例中,将切词处理后的一个或多个目标分词与Ρ0Ι数据条目进行匹配, 读取匹配的Ρ0Ι数据条目对应的字符长度的字段值,进而基于该目标分词以及该字段值,在 待判断的文本串中判断疑似Ρ0Ι名字片段,使得判断出的疑似Ρ0Ι名字片段更有针对性,能 够排除掉大量的非P0I名字的片段,大大减少了后续的计算量,解决了现有技术中需要将切 词后的相邻字符组成的字符子串去Ρ0Ι名字集合建立的词典中查找,导致查找效率较低的 问题。
[0161] 上文步骤S202中提及的Ρ0Ι数据条目,可以采用前文图1所示的步骤生成,即,对 Ρ0Ι名字集合中的各Ρ0Ι名字进行切词处理,将切词后的、指定位置上的分词的匹配度符合 阈值的各Ρ0Ι名字聚为一类。随后,确定各类中P0I名字的最长和/或最短字符长度,之后基 于各类中Ρ0Ι名字的指定位置上的分词,以及该类中P0I名字的最长和/或最短字符长度,生 成各类的P0I数据条目。
[0162] 这里,基于各类中Ρ0Ι名字的指定位置上的分词以及该类中Ρ0Ι名字的最长和/或 最短字符长度,生成各类的Ρ0Ι数据条目,具体可以采用前文提及方案一或方案二。若采用 前文提及的方案一(即,基于唯一标识符和键值方案)的步骤生成,则步骤S202中将一个或 多个目标分词与Ρ0Ι数据条目进行匹配,即对于各个目标分词,将该目标分词与Ρ0Ι数据条 目进行匹配,其可以实施为计算一个或多个目标分词的唯一标识符,将该目标分词的唯一 标识符与P0I数据条目中作为键的分词的唯一标识符进行匹配。
[0163] 若采用前文提及的方案二(即,基于分词的相似词的方案)的步骤生成,则步骤 S202中将一个或多个目标分词与Ρ0Ι数据条目进行匹配,即对于各个目标分词,将该目标分 词与Ρ0Ι数据条目进行匹配,其可以实施为计算一个或多个目标分词的唯一标识符,将该目 标分词的唯一标识符与Ρ0Ι数据条目中作为键的分词和/或该分词的一个或多个相似词的 唯一标识符进行匹配。
[0164] 进一步,在步骤S206中,该字段值可以是最长字符长度,也可以是最短字符长度, 还可以是最长和最短字符长度。
[0165] 若在生成Ρ0Ι数据条目时,是将切词后顺序的第一个分词的匹配度符合阈值的各 Ρ0Ι名字聚为一类,则步骤S206中基于该目标分词以及该字段值,在待判断的文本串中判断 疑似Ρ0Ι名字片段,本发明提供了可选的方案,即,在待判断的文本串中,顺序确定从该目标 分词开始的、长度大于或等于最短字符长度的文本子串,作为疑似Ρ0Ι名字片段;或者,在待 判断的文本串中,顺序确定从该目标分词开始的、长度小于或等于最长字符长度的文本子 串,作为疑似Ρ0Ι名字片段;或者,在待判断的文本串中,顺序确定从该目标分词开始的、长 度大于或等于最短字符长度且小于或等于最长字符长度的文本子串,作为疑似Ρ0Ι名字片 段。
[0166] 例如,待判断的文本串为"我在北京专利事务所上班,每个月有工作量的要求,但 上班时间比较灵活",对该待判断的文本串进行切词处理,将生成的一个或多个目标分词与 Ρ0Ι数据条目进行匹配。匹配到与目标分词"北京"匹配的Ρ0Ι数据条目"北京10/7",其中"北 京"为Ρ0Ι数据条目中的键,"10"为最长字符长度,"7"为最短字符长度,此时,从与目标分词 "北京"匹配的Ρ0Ι数据条目中查找存储Ρ0Ι名字的字符长度的字段,并读取字段值为"10/ 7"。进一步,从该待判断的文本串,顺序确定从该目标分词开始的、长度大于或等于最短字 符长度且小于或等于最长字符长度的文本子串,即"北京专利事务所"、"北京专利事务所上 班"为疑似Ρ0Ι名字片段。需要说明的是,此处仅是示意性的,并不限制本发明。
[0167] 若在生成Ρ0Ι数据条目时,是将切词后逆序的第一个分
当前第3页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1