整体地名识别方法和整体地名识别装置的制作方法

文档序号:6480269阅读:172来源:国知局
专利名称:整体地名识别方法和整体地名识别装置的制作方法
技术领域
本发明涉及一种地址识别装置及方法。更具体地,涉及一种阅读和 识别任意间距区域内的手写字符地址的地址识别装置及方法。
背景技术
传统上有两种对手写地址进行识别的方法。
第一种传统方法是首先从输入地址图像中提取单字符区域(即只含 有一个字符的区域),并从这些单字符区域中提取关键字符(在手写地 址识别中,关键字符为能够表示行政区域的单一字符,例如省、区、州、 市、县、镇、乡、村等),检测由两个相邻关键字符所限定的地名区域。 为了识别地名区域内的地名,该方法将该地名区域分割成独立的字符, 然后逐个识别这些独立字符。
但是,这种传统的地址识别方法存在一定的缺陷,即,将地址分割 成独立字符时常常出现错误。特别是当自由间距区内的地址相互连接紧 密时,该方法尤其容易出错。而由于手写字符常常不太规范、形态各异, 所以这种紧密连接的情况很常见。
第二种传统方法也是首先提取字符片断,并检测由两个相邻关键字
符所限定的地名区域。它与第一种方法的不同之处在于,这种方法将地 名区域内的地名作为整体来进行识别。
图1是该第二种传统方法的详细处理过程的方框图。图1中,字符 分割单元601将输入的地址图像分割成所有可能的单一字符区域。关键字符提取单元602使用字符词典603,对各个可能的单一字符区域进行识 别,判断该区域中的字符是否为关键字符(如省、市、镇、路等)。如果 在该区域中的字符的候选识别字符(即初步判断为可能是该区域中的字 符的字符)中含有多个关键字,则该区域被识别成只选取匹配距离最小的 那个关键字(匹配距离越小,表示该关键字与该字符区域内的图像越相 近)。关键字符集合确定单元604以地址分级结构知识单元605为基础, 将所有可能的关键字符候选对象合并成关键字符路径。每一条关键字符 的路径必须符合如下要求,即前一个关键字符必须是其后所有关键字符 的上级行政单位。例如,省_市-镇就是一条关键字符路径,而省-镇-市 则不是,因为镇并不能下辖市,而市的行政级别可以下辖镇。地名区域 候选对象分割单元606根据关键字符路径中两个相邻关键字符,提取其 限定的地名区域。地名整体识别单元607根据地名识别词典608,以整体 的方式识别地名。单字符识别单元609首先从输入图像中提取既不是地 名也不是关键字符的部分(比如地址为"北京市朝阳区霄云路鹏润大厦B 座1003"中的具体的建筑物名和办公室号码,即"鹏润大厦B座1003"), 然后参考单字符识别词典610将这些部分切割成字符,并逐个识别。地 址确定单元611,使用地址知识单元612中的地址知识,检查识别结果是 否与某个真实地址相符。并比较地址匹配的整体距离是否大于一个给定
阈值,如果是,则该识别地址被视为不可靠,系统拒绝识别(拒识);否 则最终输出与真实地址相匹配的结果。
图2示出了地名整体识别过程的示意图。在第一级地名匹配过程105 中,首先分割由第一个关键字符限定的地名区域,然后利用地名词典608, 从该地名区域中整体识别出地名。在第二级地名匹配过程106中,首先 分割由第一、第二个关键字符(如果有第二个关键字符的话)所限定的 地名区域,然后参考第一级匹配结果和图1中地名词典608,对该区域进 行识别。例如,如果实际输入的地址是"北京市朝阳区霄云路",关键字 符路径是"市-区-路",由第一个关键字符"市"所限定的第一级地名区 域可识别为"北京"。提取由第一 个关键字符"市"和第二个关键字符"区" 所限定的区域,对其进行整体识别,根据地名词典,将其识别为北京市下面所包括的区。在第三级地名匹配过程107中,首先分割由第二、三 个关键字符(如果有第二个和第三个关键字符)所限定的地名区域,然 后参考第二级匹配结果和地名词典608,识别该区域。依此类推,重复这 一识别过程直至最后一级。在第N级地名匹配过程108中,提取由第N-1、 N个关键字符(如果有第N-l个和第N个关键字符的话)所限定的地名区 域,然后参考第N-1级匹配结果和地名词典608,识别该区域。
这个传统方法的一个问题是如果没有提取出正确的关键字符,识 别也会出错,降低了系统精确度。具体而言,这个传统方法提取关键字 符存在两个问题。(1)由于图1中关键字符提取单元602将每个单一字 符区域与单字符字典的所有字符(对汉字而言,有多达几千汉字字符)相 匹配,从而会不可避免地产生关键字识别错误,从而降低了系统的识别精 度。(2)由于关键字符提取单元602仅仅将某字符片段识别成该识别候 选中出现的匹配距离最小的关键字符,因此不可避免地在某些情况下会 出现关键字符识别错误。比如,对某个单一字符区域内的图像实际是 "市",但对该字的按匹配距离排序后的识别候选队列是"天、夫、乡、 巾、市"。则这种传统方法将会把该区域中的字符识别成关键字"乡", 而不会识别为"市"。因此会降低系统精度。
这个传统方法存在的另外的一个问题是在整体地名识别中,在前 面的某一地名识别错误的情况下,后面的整个识别结构都会出错。也就 是说,后面的模块高度依赖于之前的模块。当前面的地名识别错误后, 后续的地名识别肯定错误。例如,输入的地名是"北京市朝阳区霄云路", 如果第一级地名匹配单元没有输出正确结果,由市限定的第一个地名被 错误匹配为"北海",那么第二级匹配必然就会错。因为由第一个关键字 符"市"和第二个关键字符"区"所限定的真实的地名"朝阳",在错误 的第一级地名"北海"的行政单位中并不存在。此外,手写的地名常常 形态自由,变化较多,该方法识别的地名就常常与真实地名不符,严重 降低了系统精确度。
这个传统方法还存在另外的一个问题,即由于手写地址质量不等、变 化较多的特性,基于固定阈值的拒识标准就会在阅读过程中产生错误。也就是说,若设定的阈值较小,传统方法将拒识大多数低质量的地址; 若设定的阈值较大,传统方法将接受大多数地址识别结果。从而降低了 系统的可靠性。

发明内容
本发明的第一个目的是提供一种能够高效率地对地址进行识别的地 址识别装置。
本发明的第二个目的是提供一种能够高精度识别地址的地址识别装
本发明的第三个目的是提供一种能够可靠地对地址进行识别的地址 识别装置。
为了实现本发明的目的或至少提供一种有益的选择,本发明提供了 一种整体地名识别方法,包括用于识别含有某一行政级别地名的地名图 像中的地名的整体识别步骤,所述整体识别步骤包括提取步骤,提取 所述地名图像的特征向量;匹配步骤,将所提取的特征向量与地名字典 中的地名的特征向量相匹配,寻找所有可能候选地名;其特征在于,当 所述地名字典中的地名的特征向量与所提取的特征向量的匹配距离小于 预定阈值时就将该地名判断为可能候选地名。
此外,本发明提供了一种整体地名识别装置,包括提取单元,提 取所输入的地名图像的特征向量;地名字典单元,用于保存地名;匹配 单元,将所提取的特征向量与地名字典中的地名的特征向量相匹配,寻 找所有可能候选地名及其匹配距离;其特征在于,当所述地名字典中的 地名的特征向量与所提取的特征向量的匹配距离小于预定阈值时,所述 匹配单元就将该地名判断为可能候选地名。
应当理解,以上总体说明和以下详细说明都是说明性和示例性的, 并旨在提供对所要求的本发明的进一步说明。


所包含的附图用于提供对本发明的进一步理解,其被并入说明书并 构成其一部分,

了本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是一种传统地址识别装置的方框图2是图1所示的传统地址识别装置中的整体地名识别单元进行整 体地名识别的过程的示意图3是依据本发明的一实施例的地址识别装置的方框图4是单字符区域检测单元的一个实施例的方框图5是依据本发明实施例的关键字符提取单元的方框图6是依据本发明实施例的候选关键字符提取单元的方框图7是依据本发明实施例的整体地址识别单元的方框图8是根据本发明实例的整体地名识别单元的流程图9以示例的方式示出了依据本发明实施例的整体地址识别方法;
图10是依据本发明实施例的单字符地名识别单元的方框图11是依据本发明实施例的地名校验单元的方框图12以示例的方式说明了依据本发明的地名校验方法;
图13是依据本发明实施例的据识单元的方框图14依据本发明实施例的地址识别装置的详细方框图。
具体实施例方式
下面将参照附图详细说明本发明的地址识别装置和方法。在附图中, 相同的附图标记代表相同或类似的部件。
图3是依据本发明第一实施例的地址识别装置的方框图。在图3中,
单字符区域检测单元1将输入的地址图像分成一个个的单个字符,每个单
个字符的图像区域称为单字符区域。关键字符提取单元2根据单字符区 域检测单元1的结果提取关键字符。地名区域提取单元3再根据关键字 符提取单元2中提取出来的关键字符,提取出地名区域。整体地名识别 单元4对地名区域提取单元3提取出来的地名区域进行递归和整体性的 识别。单字符识别单元El在地名区域提取单元3提取出来的地名区域内, 将单字符区域检测单元1输出的字符识别成相应地名。地名校验单元5校 验并确定整体地名识别单元4与单字符识别单元El输出的地名识别结果。据识单元6确定是拒识还是接受该地名识别结果。
具体而言,当输入了要进行识别的地址图像时,首先由单字符区域 检测单元1将其分割成多个单字符区域。单字符区域被分割出之后,各 个单字符区域都将被关键字提取单元2识别,并提取出关键字符。提取 关键字符之后,关键字符所限定的区域将被地名区域提取单元3从输入 图像中分割出来,然后整体地名识别单元4将该关键字符限定区域的特 征向量与地名词典里的地名的特征向量相匹配,得出匹配距离小于规定 阈值的地名候选的地名候选队列。匹配距离表示由关键字符限定的图像 与候选对象的相异程度,其值越小,表示当前判断的图像与候选对象的 差异越小,即越接近。其计算在后文说明。同时,依次评估地名候选队 列里的各个地名候选的匹配距离与匹配距离最小的地名候选的匹配距离 之差与该最小匹配距离的比值,当该比值大于预定的域值时,则判断其 与图像相差过大,将其排除。因此,在本发明中并不需要对所有的候选 地名都进行评估。即,当判断的图像与候选地名相差过大时,则无需进 行下一步的比较(具体参看图5,6的说明),由此缩短了识别时间。此时, 还可以通过单字符地名识别单元El和地名校验单元5,通过将单字符识 别结果与整体识别结果相结合,对整体识别出的地名进行筛选。类似地, 各级地名区域将被逐个识别。很多时候,地名识别的第一个候选对象往 往不正确;相反,正确的结果有可能会是另外的候选。因此,随后对所形 成的各相应路径的匹配距离进行计算,找到平均匹配距离最小的路径, 将其确定为最终的地名路径。因此本发明采用的多候选递归识别提高了 识别的正确性。此外,在与平均匹配距离最小的路径相近的路径有多条 时,也可通过单字符地名识别单元E1和地名校验单元5,通过将单字符 识别结果与整体识别结果相结合,对该多条路径中有分歧的地名图像的 整体识别的候选地名进行筛选。
单字符地名识别单元El将提取在该关键字符限定区域之内的,单字 符区域检测单元1得到的单字符区域的特征,并将它们的特征将与单字 符字典之内的字符特征对比,逐个识别。地名被识别之后,地名校验单 元5将整体的识别结果和单字符识别结果相结合,并最终检验识别结果。这样,实现了单字符区域识别结果与递归和整体识别结果的结合,提高 了识别的正确性。
下面对图3中的各模块进行逐一介绍。 图4是图3所示的单字符区域检测单元1的方框图。 图4中,连通域标示单元34通过连通域检测算法(参见坊7 e27z ec/f s /!roce5"5"i"g jfefere"ce, Bob Fisher, Simon Perkins, Ashley Walker and Erik Wolfart. Depa rtment of Artificial Intelligence University of Edinburgh, UK.
http://www. cee. hw. ac. uk/hipr/html/label. html),标示出输入图像中 所有的连通域。连通域是图像前景色(通常为黑色)像素点的集合,在此 集合中,任何两个像素点都能通过该集合内的像素相连通。
候选单字符区域确定单元35将根据标示出的连通域的大小、位置及 其与相邻连通域之间距离等信息,将相应的连通域合并为新的连通域, 这些新的连通域则为候选的单字符区域。比如,假设输入地址图像为横 向书写,当连通域A在连通域B之上,则B和A应该属于同一字符,那 么B和A则应当被合并为一新的连通域。具体地,连通域的合并可参见 美国专利US 6,535,619 Bl中图11A, 11B, IIC及其说明。
平均字符大小计算单元36将滤除由候选单字符区域确定单元35得
到的新的连通域中明显大小异常的连通域,并计算得到剩下的连通域及 字符的平均大小。也即,假设<^(/ = 1,2,..., )为所有的 个由候选单字
符区域确定单元35得到的连通域,并且连通域cq其宽度表示为
附d晰CC,),高度表示为/^g&(CC,)。则滤除所有满足下面任一条件的^^ 。
(1) 附c^(CC》 < 『CC,w - 7\蟲,
(2) 附础(CC" >『CCw +7\,,,,A,。W
(3) 服洲CC》 <脏一
(4) He妙,(CC4) > /fCQ咖+ r、妙,—
其中Cw表示从所有附础(co (/=1'2"",w。。)中所得的中位数, HCCm*表示从所有//e妙"CC》(i=l,2,...,;^)中所得的中位数, T^^—^为两个正的预设阈值。中位数的计算详见阮秋琦编著的《数字厫像必湮学A第325页,该书由电子工业出版社出版。
像素投影单元37竖直投影输入地址图像(假如图像是水平书写)或
水平投影输入地址图像(假如图像是竖直书写)。对图像进行竖直(或水
平)投影将得到图像横向(纵向)每点的黑色像素的数目。
临时候选分割点提取单元38和临时候选分割点确认单元39用来将
由单字符区域确定单元35输出的新的连通域分割为真实的字符区域,即
用来将相连字符分割为独立的单一字符。
根据像素投影单元37得到的黑色像素数量,临时候选分割点提取单
元38提取出满足下列两个条件的位置点为临时候选分割点。这些位置点
就是相连字符的可能分割点。
条件1:该位置点为投影得到的黑色像素数量直方图的极小值点 条件2:该位置点上的黑色像素数量小于一预设阈值r力^ 候选分割点的提取例如可以采用美国专利公开US 6,535,619 Bl
中公开的方法。
临时候选分割点确认单元39将确定由临时候选分割点提取单元38 得到的临时分割点是否为真正的相邻字符区域分割点。
如果输入的字符图形是水平书写的,那么对任一待分割连通域,如 果某临时候选分割点位于从该连通域起始位置起的1/2平均字符宽度的 倍数位置处附近的区域,则该候选点就确定为分割点。具体而言,假设 尸,((Ki〈s,i为一正整数)为一连通域的从起始位置起的1/2平均字符宽 度的倍数位置点,如果存在某个分割点G f/7i满足
尸/ —Tht|elta<C 〈=ThdelUi + 尸/
则C确定为一分割点。该连通域则在该点C被竖直分割为两个新的 连通域。
如果输入的字符图形是竖直书写的,那么对任一待分割连通域,如 果某临时候选分割点位于从该连通域起始位置起的1/2平均字符宽度的 倍数位置处附近的区域,则该候选点就确定为分割点。具体而言,假设 尸,((Ki〈s,i为一正整数)为一连通域的从起始位置起的1/2平均字符宽 度的倍数位置点,如果存在某个分割点G //7i满足<formula>formula see original document page 14</formula>
则C确定为一分割点。该连通域则在该点C被水平分割为两个新的 连通域。
图5是根据本发明实施例的关键字符提取单元2的方框图。 在图5中,候选关键字符提取单元20将从单字符区域检测单元1输 入的单字符区域(或连通域)中,提取候选的关键字符。关键字符路径 识别单元21将参考地址分级结构知识单元24(其为可提供地名分级知识 的数据库、程序等),确定出合理的关键字符路径。关键字符路径过滤单 元22储存多条关键字符路径,计算出各条路径中关键字符的平均匹配距 离(即各级地名匹配距离之和与地址级数的比值),并由小到大排列所有 的路径,最后选取前K条关键字路径,作为最终的关键字路径。其中K 是一个预设的正整数。
具体而言,输入了地址图像进行识别时,首先从输入的图形中提取 连通域,再由候选关键字符提取单元20从该连通域中提取关键字符(具 体参见后文图6说明)。然后经过整合关键字符,由关键字符路径确定单 元21确定出一条符合地名分级知识的关键字符路径。该关键字符路径描 述了关键字符的先后顺序,其中前面的关键字符是其后关键字符的上级 行政单位。例如,省-市-镇就是一条关键字符路径,而省-镇-市则不是, 因为镇不能下辖市,而市的行政级别则可以下辖镇。然后在关键字符路 径过滤单元22中,根据关键字符提取的识别结果中各个关键字符的平均 匹配距离。对各条关键字符路径进行排序。在地名区域的提取和识别中, 只有平均匹配距离最小的《条字符路径才被评估,其中《是预设的一个 正常数。比如输入地址是"北京市朝阳区",如果这里"京"和"市"所 对应的图像区域被识别成关键字市,"区"所对应的区域被识别成关键 字区。那么这里的关键字路径则是市("京")-区("区"),市("市")-区("区")。此时计算市("京")-区("区")的"京"和"区"识别 为市和区的平均匹配距离,和("市")-区("区")里的"市"和"区" 识别为市和区的平均匹配距离。平均匹配距离越大的关键字则越不可能 为正确的关键字路径,越应当被滤除。因此在地名区域提取和识别中,并不需要和传统方法一样评估所有的关键字符路径,而只需要选择平均匹
配距离最小的前K条关键字符路径(K为一预设正整数),从而提高了地址识别的效率和正确性。
图6是根据本发明实施例的候选关键字符提取单元20的方框图。特征提取单元42在从单字符区域检测单元1中输入的连通域(即单字符区域)所对应的图像中提取特征向量。字典匹配单元43参考关键字符字典单元41,将特征提取单元42输出的特征向量与关键字符字典中的关键字符特征向量相匹配,输出可能的候选关键字符。候选关键字符确认单元44确认这些选出的候选关键字符是否为真正的关键字符。
具体而言,当从单字符区域检测单元1中输入了连通域时,首先由特征提取单元42提取连通域的特征。然后,字典匹配单元43将从该连通域图像中提取的特征向量(记为/CC,.)和关键字字典里所有关键字的特征向量(记为_/^^,* = 1,2,3...,22,中文地址一共有22个关键字符,分别为
省,市,区,弄,路,街,村,乡,镇,港,湾,县,道,里,同,巷,楼,州,旗,胡,庄,坊)相匹配。如果存在某个关键字符/Tc,它与该连通域的匹配距离
z^s^r,, i^》j、于一个预设阈值r;^,则该连通域被判断为可能候选关键
字符《c。匹配距离Z j's(tC,, Kc^定义yCCi与,e3^的欧式距离,艮卩Z^(CC,,Kc )=|| /CC广/fe^ ||= 2(/CQ — /fce>%)2
丄文^疲没^/CC,与ife^的维数为历。
因此,候选关键字符提取单元20将单字符区域仅和有限个(在汉字的情况下为22个)关键字符进行匹配,而无需如传统方法那样与所有上千汉字字符进行匹配。从而提高了系统效率和关键字识别精度。
此外,如果在对一个连通域的识别中,与z a^s^)个候选对象的匹
配距离小于预设阈值IT^,则该连通域将被识别为乙个可能的关键字符。
因此,例如,如果一个连通域的可能关键字符为"省"和"市",则将该连通域识别为"省"和"市"两个关键字符。这样一来则可以降低丢失正确字符的风险,而地址识别的正确性会有所提高。
此外,在候选关键字符确认单元44中,如果连通域CC;的候选关键字对象存在厶个关键字符沉,& ,…,a;入(& , & ,…,兄已按匹配距离
由小到大进行排序)该连通域只被识别为符合条件/與CC,,《)< 77 血_4
的关键字符,其中D^c《式)表示关键字凡与连通域o:,的匹配距离,7^,o是一个正的常数,表示一个预设阈值。采用该种关键字滤除方法,将会保留和第一候选相近的关键字,并在后面的关键字路径确定和地名匹配中评估。如果,某个关键字不满足上面的条件,说明该关键字的匹配距离与第一候选的匹配距离相差很远,则不大可能为正确的关键字,应该被滤除。因此,关键字符提取之后的地名区域提取和识别,并不用评估所有可能的关键字符,由此提高了地址识别的效率和正确性。
图7是依据本发明实施例的整体地名识别单元4的方框图。如图7所示,地名匹配单元27从地名区域提取单元3输入的与各级地名相对应的图像中提取特征,并与地名词典单元54 (其存储有地名数据库、地名词典等)中存储的地名特征进行匹配,由此输出j至7Vc个候选对象。候选地名评估单元28对这1至Ab个候选对象进行评估,从中确定若干个候选对象作为下级地址的上级行政单位。递归匹配评估单元29计算所有的候选地址的平均距离,并从中选出具有最小平均匹配距离的地址。地名匹配单元27包括特征提取单元(未示出),用于提取地名图像中的特征向量;以及匹配单元,将所提取的特征向量与地名词典中的地名的特征向量进行匹配,寻找所有的可能候选地名。
因此,由于地名识别的第一候选往往不是正确的地名,所以本发明的多候选递归识别方法将会极大地提高系统的识别精度。而且,采用地名评估,不必要遍历所有的候选,从而提高了系统的识别效率。
图8是依据本发明实施例的整体地名识别单元4的示意性工作流程图。
假设在输入的地址图像中有^级关键字符。在步骤SF1中设定地址识别从第i=l级开始。在步骤SF2中进行第i级地名匹配。在地名匹配中,如果存在上级地址,则将从该第i级地名所对应的地名图像中所提取的特征与地名词典中其上级地址所辖的、被第i级地名关键字所限定的地名相匹配。产生1至^C个地名候选,并对这些地名候选按匹配距离进
行小到大排序。在步骤SF3设定候选序号计数器从k从2幵始。在步骤SF4计算第k个地名候选距离与第一候选距离之差和第一候选距离的比率。在步骤S5判断是否该比率大于一预定阈值7/^或者已是最后一个候选。具体讲,如果[Z^(CaWl *) - Z^(ca"^,)] / Z^(o "",) < 7V,或者判断当前
候选己是最后一个候选时,那么进入步骤SF7,保留l至k个候选作为上级行政单位用于下一级的地名识别。这里,加(Om凡)表示在第一级地名
识别当中的第A个候选对象的匹配距离,匹配距离表示由关键字符限定
的图像与候选对象的相异程度,其值越小,表示当前判断的图像与候选对象的差异越小,即越接近。其计算将在下文说明。7\,是一个正的常数,
系一个预设阈值,大于该阈值说明当前判断的图像与候选对象相差过大,无需进行下一步的比较。另外,由于地名候选按匹配距离排列,如果当前候选的计算比率大于7T^,则后面的候选的比率也一定会大于该阈值,从
而无须进行评估。另一方面,如果在步骤S5判断该比率并不大于预定阈值r力&并且不是最后一个候选,则在步骤SF6增加K值后,返回步骤SF4。当所有候选评估完毕时,保留了 1至k个候选作为下级地名匹配的上级地址。由此可见,各级地址匹配保留的候选地名数目k为动态变化,有可能不同,当候选的匹配距离与第一候选的匹配距离相差很大,该候选不大可能为正确的地名,则最后的k将为一较小的数;反之,将会以较大的数。
在步骤SF8判断是否所有N级地名己被识别,如果不是,则在步骤SF9中将I值增加后,进行下一级地名匹配。比如,在进行第二级地名匹配时,需要在第一级候选地名输出的上级行政单位的范围中,将第一、二个关键字符之间的图形与由上级地名所辖的,由第二个关键字符所限定的行政单位的地名进行匹配。举例来说,如果第一级候选地名为北京和北海,第一个关键字为市,第二个关键字为区,那么作为一种地址可能,第一和第二关键字符之间的图像则要和北京市下辖的所有取名进行匹配,作为另外一种地址可能,第一和第二关键字符之间的图像则要和北海市下辖的所有取名进行匹配。并输出从1到Afc的多个可能的候选对象。当各级地名匹配结束,即SF8判断为是(最后一级地名无需进行地名 候选评估,因为没有下级地名,因此无需输出其地名候选为下辖地名的上 级地名),由SF10累加每条候选地址内的全部地名的匹配距离。SF11根据 SF10得到的累加匹配距离对候选地址进行排序,并输出具有最小累加匹 配距离的地址作为识别结果。
应当注意的是,上面的过程是个递归过程,也即第i级地名匹配要分 别以第i-1级的所得的所有k个候选作为上级地址进行匹配。同理,第i 级地名匹配所得的候选地名经过步骤SF7后的k个候选地名也都作为下 一级的地名匹配的上级地址。
匹配距离历'5"《朋cg定义为第/个候选地名的特征向量乃与对应的 从地名图像提取的特征向量K的欧式距离,艮P:
上面假设特征向量A特征向量^量的维数为m。
图8仅仅是整体地名识别工作流程的一个示例。在整体地名识别过 程中,步骤SF2中的匹配结果可以进一步通过地名校验单元与单字符地 名识别的结果相结合,对所得的候选地址进行筛选,然后再进行SF3之 后的过程,这样可以提高地名识别的精度。类似地,也可将SF7的识别 结果通过地名校验单元与单字符地名识别的结果相结合,对所得的候选 地址进行筛选。地名校验单元5与单字符地名识别单元El将在后文介绍。
图9示例性地示出了依据本发明的实施例的递归与整体识别地址的 方法。
图9中,假设输入的原始手写图像字符是"北京市朝阳区",则其关 键字符路径是"市-区"。该路径"市-区"中包括的关键字符将从输入图 像中由关键字符提取单元2提取出来。
然后,对第一个关键字符限定的图像进行提取,就能分割出地名区 域R1和R2。通过图8所示的步骤SF2整体识别R1,输出Afc个(此处假 设为3)候选对象SR1。针对每一个候选对象,输出的还有其匹配距离, 说明了图形Rl与地名字典中的地名的相异程度。结果Rl分别与北海、 北京、北屯相比,距离为230、 240和310。所以,相较于北京和北屯,Rl更可能是北海;而相较于北屯,Rl更可能是北京。
然后,所有Nc个候选对象都将受到评估,看其是否可以作为下一级 地名(比如第二级地名)的上级行政单位。北屯与北海之差与北海的比 率为(310-230)/230,较大,北京与北海之差与北海的比率为 (240-230)/230,较小,则北屯不太可能是Rl的真实地名,在SR2中被 排除。具体而言,假设预定阈值为0.25,因为(3K)-230)/230〉0.25而 (240-230)/230<0.25,则北屯被排除,北海和北京被继续用作上级行政 单位。
然后,重复上面的步骤对第二级地名进行识别。如果上一级是北海, 根据地名词典,北海所辖范围内所有的区的真实地名图形将与R2地名相 对照,输出^c个候选对象,这些候选对象及其匹配距离在SR3中示出。 如果上一级是北京,根据地名词典,北京所辖范围内所有的区的真实地 名图形将与R2地名相对照,输出Nc候选对象,这些候选对象及其匹配 距离在SR4中示出。
结果是,如SR5所示,所有候选对象路径中,当与所有其它候选路 径进行(比如北海+银海)比较时,候选对象路径北京+朝阳的平均匹配 距离最小,为(240+160)/2=200。因此,识别结果输出为北京市朝阳区。
图10是依据本发明实施例的单字符地名识别单元的方框图。
如上所述,单字符地名识别单元和地名校验单元可对整体地名识别 中识别出多个可能候选地名进行筛选。此外还能对整体地名识别单元4 中的匹配评估单元的评估结果(即地名路径)中与最小平均匹配距离比 较接近的结果(如果有的话)进行筛选确定。
如图10所示,单字符地名识别单元El包含特征提取单元61、字典 匹配单元62、和单字符字典单元59。
特征提取单元61将逐个提取包含在地名区域提取单元3提取的地名 区域之内的、由单字符区域检测单元1输出的单字符区域的特征。字典 匹配单元62随后将特征提取单元61得到的各单字符区域的特征与单字 符字典单元59内存储的单字符汉字特征进行匹配。输出每个单字符区域 的从1到N个候选对象。5的方框图。
基于单字符地名识别单元El的地名识别结果和整体地名识别单元4 所得的地名识别结果,地名校验单元5将对其进行校验和组合。图11是 根据本发明实施例的地名校验单元5的方框图。如图11所示,地名校验 单元5中包括编辑距离计算单元55、整体识别与单字符识别结合单元58。
编辑距离计算单元55将计算出单字符识别单元El所得地名结果和 所有合乎关键字符限定的、包含在上一级地名识别出的地址所辖地名之 间的编辑距离。递归与整体识别与单字符识别结合单元58利用编辑距离 计算单元55把整体地名识别单元4所得结果与单字符识别单元El所得 结果相结合。根据整体地名识别单元4所得的候选顺序或者队列,整体 识别及单字符识别结合单元58将计算出各个地名的总体排名,最终输出 排名最前的地名。
具体的地名校验过程如下-
首先,编辑距离计算单元55运用动态规划(参见E. Ukkonen,《简 论近似串匹配》,Comp. Theory, Springer-Verlag, LNCS, 158巻, 487-495页,1983年。或者S. B. Needleman和C. D. Wunsch,《两 种蛋白质的氨基酸序列相似性研究所用的普遍方法》,Molec. Biol 杂志,48巻,443-453页,1970年)来计算方程(1)(在后定义)中所 定义的各个由某个关键字符所限定的、包含在上一级地名所辖区域以 内的合理地名与单字符识别单元E1所得的结果/F之间的编辑距离。编辑 距离表示将单字符单元识别结果通过插入、替换、和删除等操作,变为某 一合理地名的操作数(具体在后定义)。因此,当某一合理地名的编辑距离 小时,则说明该地名和单字符识别结果相差很小,当某一合理地名的编辑 距离大时,则说明该地名和单字识别结果相差很大。
在本发明中,编辑距离的定义如下
假设S为一 /7维向量,表示一有n个字符的地名,^为一 Wxm矩阵, 其中Kj表示输入的地名图像中第2'个单字符区域或连通域的第J'个识别
候选,K则表示第i个单字符区域或连通域的识别结果,即为一"维识别
候选列表。那么,5"和F之间的编辑距离就是考虑调整候选,通过插入、与k之间的代价计算如

1 如果v_/ c^aw)"^如果3y (1)
Aw
其中A是输入的地名图像中单字符区域的总数,^是该地名图像中 每个单字符区域的识别的候选数。
因此,如果某个连通域的识别候选w中存在待匹配地名5"中的某字符
&,则该字符越在候选队列厌的前面(即存在小的丄匹配距离,满足 ^ =&),匹配代价越小,则《越有可能是& 。反之,该字符越在候选队列 k的前面(即存在大的j,匹配距离,满足^;&),匹配代价越大,则k越 有可能不是& 。
整体识别与单字符识别结合单元58利用编辑距离计算单元55,通过 下列步骤将整体识别结果与单字符地名识别结果相结合-
(1) 计算每个在上级地名所辖之内的,以当前关键字限定的地名Ai
的权重。权重按照如下方程计算
A) - (1 - rt) x i a";t一五D( A) + d x ! (2)
其中,A'是整体地名识别单元4所得的第i个候选地名,f/ ""
表示Ai的编辑距离,/ 朋^j^n 表示与单字识别候选矩阵的编辑距
离的排序位置,H等于ro〃/7oY^^i"A。 ro"/7GYW(^'"表示对f"a" 取整。
(2) 由小到大排序所有上级地名所辖之内的,以当前关键字限定的地 名Ai的权重。并取最小的Ai作为当前识别地名。
如果Zi的编辑距离非常小,说明单字符识别结果的可靠性就较高, 分给/ 朋Aj叨Q"的权重a-f"就多;如果力i的编辑距离很大,则H很 大,那么整体识别单位所得的候选排序i就在计算权重中起较大的作用。 也就是说,如果A'的编辑距离足够小,单字符识别的结果可信;如果所 有合理地址的编辑距离都足够大,那么单字符识别的结果就不大可信, 这时需要输出整体地名识别单元所得的识别结果作为合并地名。因为合 并了整体地名识别单元所得的识别结果和单字符识别的结果,系统正确性的得到了很大的提高。
图12是根据本发明的地址校验的例示图.
在图12中,(A)、 (B)的输入地址图像实际地址为"武汉市二盛一 巷"。假设此时第一级地名武汉已被识出,关键字巷也被识别出。(A)例 示了对"二盛一"图像区域内的由单字符区域检测单元1所得的单字符 区域的单字识别结果。W,、 W2、W3分别表示对"二"、"盛"、"一"单 字区域的识别候选列。假设候选数目为3。 (B)例示了对"二盛一"图像 区域釆用整体识别得到的地名候选,假设在武汉市内的巷的地名只有三 个,分别为"二盛","二盛一",和"二旺一"。
根据地名校验,(A)中的W—W,,W2,WJ矩阵与所有的在武汉市所辖范 围之内的、被"巷"所限定的地名(gP "二盛","二盛一",和"二旺 一")的编辑距离将被计算。比如"二盛"和W通过动态规划,其最小的 编辑距离将在把"二"匹配为Wi ,"盛"匹配为W2,同时增加一空的字 符(记为NULL)和W3匹配.其匹配代价为
Cost( "二" , W,) = (2-l)/(3*3)=l/9;
Cost("盛",W2) = (l-1) /(3*3)=0;
Cost (NULL, W3)=l:
因此,W和"二盛"的编辑距离为1/9+0+1=10/9;
同理,W和"二盛一"的编辑距离计算过程如下
Cost("二", W》=(2-l)/(3X3)=l/9;
Cost("盛",W2) = (l-1) /(3X3)=0;
Cost(" — ", W3) = (2-1) /(3X3)=l/9;
因此,W和"二盛一"的编辑距离为1/9+0+1/9=2/9;
同理,W和"二旺一"的编辑距离计算过程如下
Cost("二", W》=(2—1)/(3X3) =1/9;
Cost("旺",W2) = (l-1) /(3X3)=1;
Cost(" — ", W3) = (2-1) /(3X3)=l/9;
因此,W和"二旺一"的编辑距离为1/9+1+1/9=11/9;
所以,所有在武汉市所辖的巷的地名的编辑距离排序为"二盛一","二盛","二旺一"。
根据校验规则(l),因为此时"二盛一"的编辑距离为1/9最小,所 以"二盛一"被校验为正确的地名.
图13是依据本发明实施例的据识单元的方框图。
如图13所示,据识单元6包含特征提取单元63、据识确认单元64 和据识训练单元65。
具体而言,特征提取单元63从各级地名图像区域提取特征 ",k, …,其中,k (0〈i〈N+l)为从第i级地名提取的特征,N 为地名的总的级数。据识确认单元64将从特征提取单元63得到的特征 传入由据识训练单元65得到的映射函数f中,并计算该函数 f(R,y。K,…,w)的函数值。如果该值大于O,则接收该识别结果为正 确的地址,否则,拒绝该识别结果。
据识训练单元65,用一套从真实地址图像中收集而来的训练集合进 行训练。对于不伺的地址样品,各级地名识别的匹配距离被收集起来作 为特征。如果正确识别了地址样品,该地址图像将标记为接受或+1,反 之则标记为拒识或-l。
其根据为《图形识别支持向量机器教程》(克里斯多佛 J C 巴格 斯,发表于《采集数据及发掘知识》,第二巻,2, 121-167页,1998)。 映射函数(下文称为分类器)可以在训练数据中自动完成根据特征进行 分类的过程。该分类器将作为新地址评估的拒识规则,根据该功能所得 出的结果为肯定(〉0)还是否定(<0)来确定是拒识还是接受识别结果。此 项功能可以针对地址质量相应生成适应性的拒识规则,从而提高地址识 别的可靠度。
图14示出了依据本发明实施例的地址识别装置的详细方框图。 如图14所示,依据本发明的地址识别装置包括单字符区域检测单元 1、候选关键字符提取单元20、关键字符路径选取单元15、地名区域提 取单元3,单字符识别单元E1、递归和整体地名识别单元4、地名校验单 元5、单字符识别单元69以及据识单元6。单字符区域检测单元1包括 连通域标识单元34、候选单字符区域确定单元35、平均字符大小计算单元36、像素投影单元37、候选临时分离点提取单元38、以及候选临时分 离点确定单元39。
连通域标识单元34从输入的二元化的图像中标识出连通域。候选单 字符区域确定单元35根据标识出的连通域的大小、位置及其与相邻连通 域间的距离等信息,综合各个连通域,最终确定出候选单字符区域。
平均字符大小计算单元36将滤除与其它连通域大小不符的图形, 并计算出平均的字符大小。
像素投影单元37竖直投影输入地址图像(假如图像是水平书写)或 水平投影输入地址图像(假如图像是竖直书写)。对图像进行竖直(或水 平)投影将得到图像横向(纵向)每点的黑色像素的数目。
临时候选分割点提取单元38和临时候选分割点确认单元39用来分 割由单字符区域确定单元35输出的新的连通域为真实的字符区域,即用 来分割相连字符为独立的单一字符。
临时候选分割点确认单元39将确定出由临时候选分割点提取单元 38得到的临时分割点是否为真正的相邻字符区域分割点。
关键字符词典41收录存储了所有关键字符的特征。
关键字符候选提取单元20中包括特征提取单元42、词典匹配单元 43、以及候选关键字符确认单元44。
特征提取单元42提取单字符区域检测单元1分离出来的区域的特 征。词典匹配单元43将把特征提取单元42提取出来的特征与储存在关 键字符词典41中的特征进行匹配,输出从1到N个候选字符。然后,关 键字符候选确定单元44将确定候选的关键字符是否是真实的关键字符。 如果该候选的关键字符的匹配距离与第一个候选字符之比小于预定的阈 值,那么它就是一个真的关键字符。
地址多级结构知识单元24中存储了地址分级结构的知识。例如,关 键字符省可以包含关键字符市,但关键字符市就不能包括省。
关键字符路径选择单元15包括关键字符路径识别单元21和关键字 符路径过滤单元22。
关键字符路径识别单元21将参考地址分级结构知识单元24,确定出合理的关键字符路径。关键字符路径过滤单元22中将储存多条关键字
符路径,计算出各条路径中关键字符的平均匹配距离,最终输出K条关 键路径,其中K是一个预设的整常数。
地名区域提取单元3将提取出某一条关键字符路径中某一个关键字 符限定的地名区域。
地名词典54中存储了地址中各个地名的特征向量。
对于地名提取单元3中提取出来的地名,整体地名识别单元4将逐 个地进行整体识别。整体地名识别单元4中包括特征地名匹配单元27,候 选地名评估单元,递归匹配评估单元29.
地名匹配单元27从与各级地名相对应的图像中提取特征,并与地名 词典单元54中存储的地名特征进行匹配,由此输出7至7Vfc个候选对象。 候选地名评估单元28对这1至Wc个候选对象进行评估,从中确定若干个 候选对象作为下级地址的上级行政单位。递归匹配评估单元29计算所有 的候选地址的平均距离,并从中选出具有最小平均匹配距离的地址为最 后的识别结果。
单字符词典单元59中存储了地址中各个字符的特征向量。
单字符识别单元El将逐个识别单字符区域检测单元40输出的单字 符区域,这些单字符区域包含在地名区域提取单元51提取的地名区域内。 单字符识别单元El中包含了特征提取单元61和词典匹配单元62。
针对单字符区域检测单元40所得的单字符区域,特征提取单元61 将提取它们的特征向量,这些单字符区域包含在地名区域提取单元51提 取的地名区域内。然后,词典匹配单元62将把特征提取单元61所得的 特征向量与单字符词典单元59中存储的特征向量相比较,输出每个单字 符区域的从l到N个候选对象.
针对单字符识别单元El所得的地名识别结果和整体地名识别单元4 所得的地名识别结果,地名校验单元5将对其进行校验并合并。地名校 验单元68中包括编辑距离计算单元55,以及合并单元58。
编辑距离计算单元55将计算出单字符识别单元El所得结果和所有 合乎关键字符限定、包含在上一级地名识别出的地址以内的地名之间的编辑距离。递归与整体识别及单字符识别的联合单元58将把整体地名识 别单元4所得结果与单字符识别单元El所得结果相结合。递归与整体识 别及单字符识别的联合单元58将计算出各个地名的总体排名,最终输出 排名最前的地名。
单字符识别单元69将识别那些既不是地名又不是关键字符的图形。 它包括了特征提取单元61和词典参考单元62。
拒识训练单元65将根据所得的一批地址训练支持向量机分类器。 拒识单元6将确定是否接受识别结果,它包括特征提取单元63和拒 识确定单元64。特征提取单元63将提取特征向量。根据拒识训练单元 65输出的支持向量机分类器,拒识确定单元64将确定并输出是否接受识 别结果。
最后,如果结果未遭到拒识,拒识评估单元6将输出识别结果,反 之输出错误。
前面对本发明实施例的描述是示例性和说明性的,并不是排他性的, 也不是为了将本发明限制到所公开的确切形式。显然,对于本领域的普 通技术人员,很多修改和变型是显而易见的。选择并说明这些实施例是 为了最好地说明本发明的原理及其实际应用。从而使得本领域的其他技 术人员能够理解用于各种实施例的本发明以及本发明适于特殊使用目的 的变型。例如本发明也可应用于日语和韩文手写地名的识别。此外,在 本文中使用匹配距离来判断相似程度,但判断相似程度也可使用匹配距 离以外的方法,例如特征向量之间的余弦夹角,特征向量之间的街区距 离等,因此本发明的匹配距离应作广泛的解释,是本领域技术人员所能 想到的相似程度的定量表示。
权利要求
1、一种整体地名识别方法,包括用于识别含有某一行政级别地名的地名图像中的地名的整体识别步骤,所述整体识别步骤包括提取步骤,提取所述地名图像的特征向量;匹配步骤,将所提取的特征向量与地名字典中的地名的特征向量相匹配,寻找所有可能候选地名;其特征在于,当所述地名字典中的地名的特征向量与所提取的特征向量的匹配距离小于预定阈值时就将该地名判断为可能候选地名。
2、 根据权利要求1所述的整体地名识别方法,其特征在于,所述整 体识别步骤还包括候选地名评估的步骤,在所述匹配步骤中获得多个可 能候选地名时,按预定的规则对所述多个可能候选地名进行筛选。
3、 根据权利要求2所述的整体地名识别方法,其特征在于,所述预 定规则为只选取匹配距离与第一可能候选地名的匹配距离之差和第一可 能候选地名的匹配距离的比小于预定阈值的可能候选地名,所述第一可 能候选地名为对所述多个可能候选地名根据匹配距离排序后,排名第一 的可能候选地名。
4、 根据权利要求l、 2或3所述的整体地名识别方法,其特征在于, 所述整体识别步骤还包括单字符识别的步骤,识别所述地名图像中的各单字符区域中的字符 的候选字符;地名校验的步骤,根据单字符识别步骤的地名识别结果对整体识别 步骤的地名识别结果进行筛选。
5、 根据权利要求4所述的整体地名识别方法,其特征在于,所述地 名校验的步骤包括以下步骤计算所述整体识别步骤的各地名识别结果与所述单字符识别步骤的 地名识别结果之间的编辑距离的步骤;计算所述各编辑距离的排序位置的步骤;根据所述编辑距离的排序位置依据以下公式计算权重的步骤<formula>formula see original document page 3</formula>在该公式中,A'是所述整体地名识别步骤所得的第i个候选地名, 朋""表示Ai的编辑距离,/ 朋t朋""表示该编辑距离的排序位置,W 等于row7c/但""j'"A, roi7/7jTii7(^y"表示对^ ""取整,k是所述地 名图像中单字符区域的总数,weight (Ai)表示该第i个候选地名的权重;根据所计算出的权重,对所述整体识别步骤的地名识别结果迸行筛选。
6、 根据权利要求l一3任一项所述的整体地名识别方法,其特征在 于,所述地名整体识别步骤还包括匹配评估的步骤,当所述整体识别步 骤为分别含有行政级别依次降低的地名的多个地名图像分别识别出一个 或更多个候选地名时,计算由相对应的最高一级候选地址到最低一级候 选地址所形成的各条路径的平均匹配距离;并只选取所述平均匹配距离 最小的路径。
7、 根据权利要求4所述的整体地名识别方法,其特征在于,所述地 名整体识别步骤还包括匹配评估的步骤,当所述整体识别步骤为分别含 有行政级别依次降低的地名的多个地名图像分别识别出一个或更多个候 选地名时,计算由相对应的最高一级候选地址到最低一级候选地址所形 成的各条路径的平均匹配距离;并只选取所述平均匹配距离最小的路径。
8、 根据权利要求7所述的方法,还包括单字符识别的步骤,当多条路径存在和最小平均匹配距离比较接近 的平均匹配距离时,对在该多条路径中具有多个可能候选地名的地名图 像进行单字符识别;地名校验的步骤,根据单字符识别步骤的地名识别结果对该地名图 像的可能候选地名进行筛选;所述地名校验的步骤包括以下步骤计算所述地名图像的各可能候选地名与所述单字符识别步骤的地名 识别结果的编辑距离的步骤;计算所述各编辑距离的排序位置的步骤;根据所述编辑距离的排序位置依据以下公式计算权重的步骤<formula>formula see original document page 4</formula>在该公式中,A'是所地名图像的第i个可能候选地名,W(^ 表示Ai的编辑距离,Wa;7A—W""表示该编辑距离的排序位置,H等于 i^7/7flY朋(^'"A, T^/;^伍Z^i"表示对^Z ""取整,k是所述地名图 像中单字符区域的总数,weight (Ai)表示该第i个候选地名的权重; 根据所计算出的权重,确定最终候选地名。
9、 根据权利要求8所述的方法,还包括 地名拒识的步骤,用于接受或拒绝所述最终候选路径; 所述地名拒识步骤包括 提取各级地名区域的特征的步骤;利用拒识训练所得的映射函数对所提取的各级地名区域的特征进行 分析的步骤;根据分析的结果判断接受还是拒识所述地址的步骤。
10、 一种整体地名识别装置,包括 提取单元,提取所输入的地名图像的特征向量; 地名字典单元,用于保存地名;匹配单元,将所提取的特征向量与地名字典中的地名的特征向量相 匹配,寻找所有可能候选地名及其匹配距离;其特征在于,当所述地名字典中的地名的特征向量与所提取的特征 向量的匹配距离小于预定阈值时,所述匹配单元就将该地名判断为可能 候选地名。
11、 根据权利要求10所述的整体地名识别装置,其特征在于,还包 括候选地名评估单元,当所述匹配单元得到多个可能候选地名时,依据 一定的规则对所述多个可能候选地名进行过滤。 .
12、 根据权利要求11所述的整体地名识别装置,其特征在于,所述 预定规则为仅选取匹配距离与第一可能候选地名的匹配距离之差和该第 一可能候选地名的匹配距离的比小于预定阈值的可能候选地名,所述第 一可能候选地名为对所述多个可能候选地名根据匹配距离排序后,排名 第一的可能候选地名。
13、 根据权利要求IO、 11或12所述的整体地名识别装置,还包括:匹配评估单元,当所述地名识别装置输入了分别含有行政级别依次 降低的多个地名图像,对这些地名图像的识别形成了行政级别从高到低 的多条地址路径时,所述匹配评估单元用于对所述多条路径进行评估, 确定最终候选路径。
14、 根据权利要求13所述的装置,其特征在于,所述匹配评估单元 分别计算各路径的平均匹配距离,将所述平均匹配距离最小的路径判断 为最终候选路径。
15、 根据权利要求13所述的装置,其特征在于,还包括拒识单元, 所述拒识单元用于确定接受或拒绝所识别出的各地址。
16、 根据权利要求15所述的装置,其特征在于,所述拒识单元包括-特征提取单元,用于提取各地名区域的特征;拒识训练单元,用于进行拒识训练获得映射函数;拒识确认单元,用于利用所述映射函数,根据所提取的各级地名区 域的特征判断接受还是拒识所述地址。
17、 根据权利要求13所述的装置,还包括单字符识别单元,当多条路径存在和最小平均匹配距离比较接近的 平均匹配距离时,对在该多条路径中具有多个可能候选地名的地名图像进行单字符识别;或者在所述匹配单元为一个地名图像识别出多个可能 候选地名时,对该有多个可能候选地名的地名图像进行单字符识别;地名校验单元,根据单字符识别单元的地名识别结果和匹配评估单 元的输出结果,对所述有多个可能候选地名的地名图像的候选地名进行 筛选。
18、 根据权利要求17所述的装置,其特征在于,所述地名校验单元包括编辑距离计算单元,用于分别计算所述由多个可能候选地名的地名图像的各个候选地名与单字符识别单元的地名识别结果的编辑距离;整体识别与单字符识别结合单元,用于根据所述编辑距离计算单元 所计算出的编辑距离确定所述有分歧地名图像的最终整体地址。
全文摘要
本发明涉及整体地名识别方法和整体地名识别装置。该整体地名识别方法包括用于识别含有某一行政级别地名的地名图像中的地名的整体识别步骤,所述整体识别步骤包括提取步骤,提取所述地名图像的特征向量;匹配步骤,将所提取的特征向量与地名字典中的地名的特征向量相匹配,寻找所有可能候选地名;其特征在于,当所述地名字典中的地名的特征向量与所提取的特征向量的匹配距离小于预定阈值时就将该地名判断为可能候选地名。
文档编号G06K9/00GK101645134SQ200910002280
公开日2010年2月10日 申请日期2005年7月29日 优先权日2005年7月29日
发明者堀田悦伸, 俊 孙, 直井聪, 黄开竹 申请人:富士通株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1