判断文本中poi数据的方法及装置的制造方法_3

文档序号：9839629阅读：来源：国知局

现频度高、但并不是词的常用字组，例如"这一"、"之一"、"有的"、"我的"、"许多的"等，并且对常用词的识别精度差，时空开销大。实际应用的统计切词系统都要使用一部基本的切词词典（常用词词典)进行串匹配分词，同时使用统计方法识别一些新的词，即将串频统计和串匹配结合起来，既发挥匹配分词切分速度快、效率高的特点，又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。
[0136] 基于上述切词策略，本发明实施例提供了实施步骤S102的可选方案，在该方案中，可以对Ρ0Ι名字集合中的各Ρ0Ι名字进行正向或逆向切词处理，得到切词后的多个分词，随后将切词后顺序的第一个分词的匹配度符合阈值(如大于或等于100%、95%等）的各Ρ0Ι名字聚为一类。
[0137] 或者，可以对Ρ0Ι名字集合中的各Ρ0Ι名字进行正向或逆向切词处理，得到切词后的多个分词，随后将切词后逆序的第一个分词的匹配度符合阈值（如大于或等于100%、 95%等）的各Ρ0Ι名字聚为一类。
[0138] 在本发明一实施例中，若预设阈值取值为100%，则将切词后顺序的第一个分词相同的各Ρ0Ι名字聚为一类。例如，Ρ0Ι名字集合中包含Ρ0Ι名字为"北京专利事务所"、"北京专利有限公司"、"南京商标事务所"，对各Ρ0Ι名字进行正向切词处理，将切词后顺序的第一个分词相同的各Ρ0Ι名字聚为一类，即将顺序的第一个分词为"北京"的Ρ0Ι名字"北京专利事务所"、"北京专利有限公司"聚为一类，将顺序的第一个分词为"南京"的Ρ0Ι名字"南京商标事务所"聚为一类。需要说明的是，此处仅是列举，并不限制本发明。
[0139] 在本发明一实施例中，若预设阈值取值为100%，则将切词后逆序的第一个分词相同的各Ρ0Ι名字聚为一类。仍以上面的例子为例，将切词后逆序的第一个分词相同的各Ρ0Ι 名字聚为一类，即将逆序的第一个分词为"事务所"的Ρ0Ι名字"北京专利事务所"、"南京商标事务所"聚为一类，将逆序的第一个分词为"有限公司"的Ρ0Ι名字"北京专利有限公司"聚为一类。
[0140] 在步骤S104中确定各类中Ρ0Ι名字的最长和/或最短字符长度，可以确定各类中 Ρ0Ι名字的最长字符长度，也可以确定各类中Ρ0Ι名字的最短字符长度，还可以确定各类中 Ρ0Ι名字的最长和最短字符长度，本发明并不做限制。进一步，可以统计各类中的各Ρ0Ι名字的字符长度，以确定各类中Ρ0Ι名字的最长和/或最短字符长度。
[0141] 上文步骤S106中生成各类的Ρ0Ι数据条目，本发明提供了两种可选的方案，下面将分别进行详细介绍。
[0142] 方案一，基于唯一标识符和键值方案。即，计算各类中Ρ0Ι名字的指定位置上的分词的唯一标识符，进而以该分词的唯一标识符为键，以该类中Ρ0Ι名字的最长和/或最短字符长度为值，生成各类的Ρ0Ι数据条目。这里，唯一标识所占存储空间要小于分词本身所占存储空间，以分词的唯一标识符为键，而不直接使用分词本身为键，可以进一步减少Ρ0Ι词典的数据量。如表1所示，各类中Ρ0Ι名字的指定位置上的分词的唯一标识符为T1、T2…… Τη，第i(i = l、2……η)个分词对应的Ρ0Ι名字的最长字符长度为Li，最短字符长度为Si。这里的指定位置上的分词可以是切词后顺序的第一个分词，也可以是切词后逆序的第一个分
[0143] 表1
[0144]
[0145] 方案二，基于分词的相似词的方案。即，确定各类中Ρ0Ι名字的指定位置上的分词的一个或多个相似词，进而基于该分词、该分词的一个或多个相似词，以及该类中Ρ0Ι名字的最长和/或最短字符长度，生成各类的Ρ0Ι数据条目。这里的指定位置上的分词可以是切词后顺序的第一个分词，也可以是切词后逆序的第一个分词。
[0146] 进一步，在确定各类中Ρ0Ι名字的指定位置上的分词的一个或多个相似词时，可以对该分词进行切分，将该分词切分为单字，在词库中查找该单字的同音字和/或相似字，进而基于查找到的该单字的同音字和/或相似字，确定该分词的一个或多个相似词。这样，在后续使用Ρ0Ι数据条目进行分词匹配时，可以解决输入相似词的情况。例如，用户需要查询 "智汇东方知识产权代理事务所"是否为Ρ0Ι数据，在输入查询词时输入了 "智慧东方"，该查询词为"智汇东方"的相似词，则使用"智慧东方"仍然可以查询到对应的P0I数据条目。
[0147] 在基于该分词、该分词的一个或多个相似词，以及该类中Ρ0Ι名字的最长和/或最短字符长度，生成各类的Ρ0Ι数据条目时，可以参照方案一中的实施方式，即，计算该分词以及该分词的一个或多个相似词各自的唯一标识符，进而以该分词和/或该分词的一个或多个相似词的唯一标识符为键，以该类中P0I名字的最长和/或最短字符长度为值，生成各类的Ρ0Ι数据条目。如表2所示，各类中Ρ0Ι名字的指定位置上的分词的唯一标识符为T1、 T2……Tn，各分词的一个或多个相似词的唯一标识符为T11、T12……Tlm，T21、T22……T2m， Tnl、Tn2……Tnm。第i(i = l、2……η)个分词对应的Ρ0Ι名字的最长字符长度为Li，最短字符长度为Si。
[0148] 表2 「01491
[0150] 在本发明的一实施例中，还可以将包含有各Ρ0Ι名字的各类的Ρ0Ι数据条目建立 Ρ0Ι词典，以备后续查询匹配使用。
[0151] 在本发明的另一实施例中，还可以获取各类中的各Ρ0Ι名字对应的地理数据，进而将各类中的各Ρ0Ι名字对应的地理数据插入对应的类的P0I数据条目中。
[0152] 通过上文介绍可知，本发明实施例基于各类中Ρ0Ι名字的指定位置上的分词和/或该分词的一个或多个相似词，以及该类中P0I名字的最长和/或最短字符长度，生成各类的 Ρ0Ι数据条目构建Ρ0Ι词典，其数据量相比于现有技术中通过P0I名字本身建立的词典的数据量要小，加载到内存时消耗的内存资源少。并且，本发明实施例通过聚类的方式，将切词后的、指定位置上的分词的匹配度符合阈值的各POI名字聚为一类，通过各类中名字的指定位置上的分词和/或该分词的一个或多个相似词，以及该类中P0I名字的最长和/或最短字符长度，来替代该类中的所有P0I名字构建P0I词典，进一步减少了P0I词典的数据量。
[0153] 需要说明的是，以上是利用Ρ0Ι名字集合中的各Ρ0Ι名字，生成各类的Ρ0Ι数据条目，进而建立Ρ0Ι词典。在实际应用中，还可以以Ρ0Ι地址、电话号码等数据生成各类的Ρ0Ι数据条目，进而建立P0I词典。
[0154] 下面将介绍利用构建的Ρ0Ι词典对文本中Ρ0Ι数据进行判断的方法，可以发现其在计算效率和查找效率上的优点。
[0155] 图2示出了根据本发明一个实施例的判断文本中Ρ0Ι数据的方法的流程图。如图2 所示，该方法至少包括以下步骤S202至步骤S208:
[0156]步骤S202，提取待判断的文本串，对待判断的文本串进行切词处理，生成一个或多个目标分词，将一个或多个目标分词与P0I数据条目进行匹配；
[0157] 步骤S204，当存在一个或多个匹配的Ρ0Ι数据条目时，读取匹配的Ρ0Ι数据条目对应的字符长度的字段值；
[0158] 步骤S206，基于该目标分词以及该字段值，在待判断的文本串中判断疑似Ρ0Ι名字片段；
[0159] 步骤S208，从疑似Ρ0Ι名字片段中确定Ρ0Ι数据。
[0160]本发明实施例中，将切词处理后的一个或多个目标分词与Ρ0Ι数据条目进行匹配，读取匹配的Ρ0Ι数据条目对应的字符长度的字段值，进而基于该目标分词以及该字段值，在待判断的文本串中判断疑似Ρ0Ι名字片段，使得判断出的疑似Ρ0Ι名字片段更有针对性，能够排除掉大量的非P0I名字的片段，大大减少了后续的计算量，解决了现有技术中需要将切词后的相邻字符组成的字符子串去Ρ0Ι名字集合建立的词典中查找，导致查找效率较低的问题。
[0161] 上文步骤S202中提及的Ρ0Ι数据条目，可以采用前文图1所示的步骤生成，即，对 Ρ0Ι名字集合中的各Ρ0Ι名字进行切词处理，将切词后的、指定位置上的分词的匹配度符合阈值的各Ρ0Ι名字聚为一类。随后，确定各类中P0I名字的最长和/或最短字符长度，之后基于各类中Ρ0Ι名字的指定位置上的分词，以及该类中P0I名字的最长和/或最短字符长度，生成各类的P0I数据条目。
[0162] 这里，基于各类中Ρ0Ι名字的指定位置上的分词以及该类中Ρ0Ι名字的最长和/或最短字符长度，生成各类的Ρ0Ι数据条目，具体可以采用前文提及方案一或方案二。若采用前文提及的方案一（即，基于唯一标识符和键值方案）的步骤生成，则步骤S202中将一个或多个目标分词与Ρ0Ι数据条目进行匹配，即对于各个目标分词，将该目标分词与Ρ0Ι数据条目进行匹配，其可以实施为计算一个或多个目标分词的唯一标识符，将该目标分词的唯一标识符与P0I数据条目中作为键的分词的唯一标识符进行匹配。
[0163] 若采用前文提及的方案二（即，基于分词的相似词的方案）的步骤生成，则步骤 S202中将一个或多个目标分词与Ρ0Ι数据条目进行匹配，即对于各个目标分词，将该目标分词与Ρ0Ι数据条目进行匹配，其可以实施为计算一个或多个目标分词的唯一标识符，将该目标分词的唯一标识符与Ρ0Ι数据条目中作为键的分词和/或该分词的一个或多个相似词的唯一标识符进行匹配。
[0164] 进一步，在步骤S206中，该字段值可以是最长字符长度，也可以是最短字符长度，还可以是最长和最短字符长度。
[0165] 若在生成Ρ0Ι数据条目时，是将切词后顺序的第一个分词的匹配度符合阈值的各 Ρ0Ι名字聚为一类，则步骤S206中基于该目标分词以及该字段值，在待判断的文本串中判断疑似Ρ0Ι名字片段，本发明提供了可选的方案，即，在待判断的文本串中，顺序确定从该目标分词开始的、长度大于或等于最短字符长度的文本子串，作为疑似Ρ0Ι名字片段;或者，在待判断的文本串中，顺序确定从该目标分词开始的、长度小于或等于最长字符长度的文本子串，作为疑似Ρ0Ι名字片段;或者，在待判断的文本串中，顺序确定从该目标分词开始的、长度大于或等于最短字符长度且小于或等于最长字符长度的文本子串，作为疑似Ρ0Ι名字片段。
[0166] 例如，待判断的文本串为"我在北京专利事务所上班，每个月有工作量的要求，但上班时间比较灵活"，对该待判断的文本串进行切词处理，将生成的一个或多个目标分词与 Ρ0Ι数据条目进行匹配。匹配到与目标分词"北京"匹配的Ρ0Ι数据条目"北京10/7"，其中"北京"为Ρ0Ι数据条目中的键，"10"为最长字符长度，"7"为最短字符长度，此时，从与目标分词 "北京"匹配的Ρ0Ι数据条目中查找存储Ρ0Ι名字的字符长度的字段，并读取字段值为"10/ 7"。进一步，从该待判断的文本串，顺序确定从该目标分词开始的、长度大于或等于最短字符长度且小于或等于最长字符长度的文本子串，即"北京专利事务所"、"北京专利事务所上班"为疑似Ρ0Ι名字片段。需要说明的是，此处仅是示意性的，并不限制本发明。
[0167] 若在生成Ρ0Ι数据条目时，是将切词后逆序的第一个分

完整全部详细技术资料下载

当前第3页1 2 3 4 5 6