一种自动识别地址信息的方法

文档序号:6365433阅读:530来源:国知局
专利名称:一种自动识别地址信息的方法
技术领域
本发明涉及一种文字识别技术领域,具体涉及一种从文字内容中提取地址信息的方法。
背景技术
随着互联网应用的快速发展,从计算机浏览器和移动设备上的文字内容中提取各种联系信息的需求越来越大,例如从所述文字内容中提取电话号码,电子邮件或地址信息。各种联系信息的准确提取能够使用户的互联网应用更方便、更丰富。现有的从文字内容中自动识别地址信息的方法,主要是通过对待识别文字内容进行语义分析,从而提取出其中包含有诸如“**路**号”的特定字符的地址信息。例如,当待识别文字内容中包含“路、街道、街”等词,同时后面还包括数字以及“号”的时候,将其作为地址信息提取出来。现有识别方法需要较强的语义分析功能,但识别效果又往往受待分析文字特点的限制,往往不能对地址信息进行准确地识别。并且,现有识别方法也仅能识别到类似于“某某路128号”这样标准表达的地址信息,对于该地址对应的“某某咖啡馆”这样的人们常用地址信息简称却无法识别。因此,需要提供一种全新的从文字内容中自动识别地址信息的方法。

发明内容
本发明提供一种自动识别地址信息的方法,通过将预设的信息点数据库中的地址与待识别文字进行匹配,从而能够快速准确的找到待识别文字中包含的地址信息,方便用户使用。本发明提供的自动识别地址信息的方法,包括如下步骤获取待识别文字;将待识别文字与预先设置的信息点数据库中的信息点数据进行匹配,以判断所述待识别文字中是否包含与所述信息点数据相同的文字。其中,所述信息点数据包括文字索引和与所述文字索引相对应的具体地址;所述匹配步骤为将所述待识别文字与所述文字索引进行匹配。具体的,所述匹配步骤包括以标点符号为分隔点对所述待识别文字进行分节;将每一节待识别文字与信息点数据库中的文字索引进行匹配。具体的,所述信息点数据库包括双字索引库,所述双字索引库的文字索引包含至少两个汉字。其中所述双字索引库的文字索引包括第一级索引和第二级索引,所述第一级索引对应多个第二级索引,所述第二级索引与所述具体地址一一对应。优选的,所述第一级索引的内容为所述第二级索引的前两个字。所述信息点数据库还可以包括外文索引库和/或单字索引库;其中外文索引库的文字索引为英文字母或数字,单字索引库的文字索引为单个汉字且该单个汉字不能为所述双字索引库的文字索引的首字。更进一步地,所述待识别文字为移动终端上或计算机浏览器上显示的文字信息,则所述自动识别地址信息的方法还包括在所显示的文字信息上对识别到的文字进行注释,并设置超链接。具体的,所述注释为下列方式中的一种或者几种高亮显示、反色显示、下划线。所述超链接为下列链接中的一种或者几种-所述超链接连接到地图,并在地图上显示该文字对应的具体地址; -所述超链接连接到移动设备的导航软件,直接将该代表地址信息的文字所对应的具体地址设为导航目的地,进入路线引导;-所述超链接连接到计算机的通信程序,将该代表地址信息的文字和/或其对应的具体地址发送到移动设备;-所述超链接连接到移动设备的即时通信程序,将该代表地址信息的文字和/或其对应的具体地址发送到其他移动设备;-所述超链接连接到微博,通过微博可以分享该文字对应的具体地址;-所述超链接连接到搜索引擎,通过搜索引擎搜索该文字对应的具体地址和/或所述具体地址的周边设施。更进一步地,用户或运营商都可以向所述信息点数据库中不断添加信息点数据,以丰富和完善所述信息点数据库。需要对用户添加的信息点数据的真实性和合法性进行审核,将审核通过的信息点数据加到信息点数据库中,避免信息点数据库中出现错误的或者不合法的地址位置数据。本发明提供的自动识别地址信息的方法,通过将预先建立的信息点数据库中的地址数据与待识别文字进行匹配来查找待识别文字中的地址信息,不受当前语义识别方法的限制,快速且准确地识别出人们日常生活中常用的地址信息简称。通过将具体地址与文字索引相关联,还能进一步自动识别出所述地址信息简称对应的具体地址。本发明所述方法与计算机浏览器和移动终端的短信、微博、导航等应用相结合,能为用户提供丰富、便利的应用体验。


图I为本发明实施例所述的自动识别地址信息的流程图;图2为本发明实施例所述的单字索引库示意图;图3为本发明实施例所述的外文索引库示意图;图4为本发明实施例所述的双字二级索引库示意图;图5为本发明实施例所述的具体匹配过程示意图。
具体实施例方式下面结合附图对本发明的具体实施方式
进行进一步说明。本发明提供一种从移动终端或计算机浏览器的文字信息中自动识别地址信息的方法,如图I中所示,包括步骤101,获取待识别文字。
所述待识别文字可以为移动终端的文字信息;当用户通过移动终端浏览短信、彩信、邮件、SNS的短信或者微博时候,用户所浏览的信息的文字部分即为所述移动终端文字信息。移动终端通过后台进程对所述移动终端文字信息进行捕获,获得待识别文字。可替换地,当用户通过计算机浏览器浏览互联网网页的时候,所述待识别文字可以为用户正在浏览的网页的文字部分。计算机通过后台进程对所浏览的网页文字进行捕获,获得待识别文字。步骤102,将待识别文字中的内容与预先设置的信息点数据库中的信息点数据进行匹配。如果匹配成功,则继续步骤103,否则结束。具体的,所述信息点数据库中的信息点数据包括文字索引部分以及对应的具体地址部分。在日常生活中,人们常用某个简称来指代一具体地址,因此本发明将日常生活中常用地址信息的简称作为文字索引,在信息点 数据库中同时保存所述文字索引以及所述文字索引所指代的具体地址。例如,在本发明的信息点数据库中,一条信息点数据的文字索引为“北大”,其对应的具体地址为“北京市海淀区颐和园路5号”;或者一条信息点数据的文字索引为“五道口华联”,其对应的具体地址为“北京市海淀区成府路28号”。在将待识别文字与信息点数据进行匹配时,只需将所述待识别文字与信息点数据库中的文字索引进行匹配。如果匹配成功,则表示待识别文字中含有与信息点数据库中的文字索引(即,常用地址信息的简称)相同的文字。通过匹配,能够快速且准确地识别出人们常用的地址信息的简称,而不仅仅局限于包括了诸如“**区**路**号”的特定字符的地
址信息。所述信息点数据库预先建立于网络侧服务器端,以方便所有与网络侧服务器端联网的用户都可以使用该信息点数据库。步骤103,对识别到的代表地址信息的文字进行注释,设置超链接。具体的,所述注释可以为下列方式中的一个或者多个下划线、高亮显示、反色显示等,便于用户注意地址信息。当然,所述注释还可以为其他方式,只要能够使被注释的文字与其他文字能够区别开即可。具体的,所述超链接可以包括下列链接中的一个或者多个所述超链接连接到地图,并在地图上显示该代表地址信息的文字和/或其对应的具体地址;所述超链接连接到移动设备的导航软件,直接将该代表地址信息的文字所对应的具体地址设为导航目的地,进入路线引导;所述超链接连接到计算机的通信程序,将该代表地址信息的文字和/或其对应的具体地址发送到移动设备;所述超链接连接到移动设备的诸如短信的即时通信程序,将该代表地址信息的文字和/或其对应的具体地址发送到其他移动设备;所述超链接连接到微博,通过微博可以分享该代表地址信息的文字和/或其对应的具体地址;所述超链接连接到搜索引擎,通过搜索引擎搜索该代表地址信息的文字和/或其对应的具体地址,进而可以查找该具体地址所在的具体地点,或者查找其周边设施等;通过所述超链接将该代表地址信息的文字和/或其对应的具体地址保存到用户个人地址收藏夹内。本实施例将待识别文字与预先设置的信息点数据库中的信息点数据进行匹配识别之后,对识别到的代表地址信息的文字进行注释,并设置超链接后显示给用户,提供给用户针对该地址信息的各种相关操作,方便用户使用。为了提高本发明所述文字识别方法的效率,下面将参照附图2-4对本发明的信息点数据库进行进一步的分类并适当的 建立二级索引模型。优选的,根据文字索引中包含的字符、字数将信息点数据库划分为单字索引库、外文索引库以及双字索引库,具体如下如图2所示,将文字索引中仅包含一个汉字的信息点数据加入单字索引库。单字索引库为一级索引模式,其中每个单字索引对应于一个具体地址信息。在设立单字索引库时,运营商可根据需要或实际情况来设置单字索引库的文字索引,但必须注意避免单字索引成为双字索引的字首,这可以通过控制单字索引库的数据量来实现。如图3所示,将文字索引中前两个字符为外文或者数字的信息点数据加入到外文索引库。外文索引库为一级索引模式,其中每个外文索引对应于一个具体地址信息。如图4所示,将文字索引中前两个字符均为汉字的信息点数据加入双字索引库。在双字索引库中,所有文字索引均包含大于或者等于两个汉字。为进一步提高匹配效率,对双字索引库建立二级索引模式,其文字索引包括第一级索引和第二级索引,具体如图4所示。其中,第二级索引与具体地址是一一对应的,其内容为该具体地址的常用简称;而第一级索引的内容是所述第二级索引的内容的前两个字。由于第二级索引前两个字会出现相同的情况,因此一个第一级索引可能对应于多个第二级索引。这样在进行步骤102所述匹配时,首先根据第一级索引的内容来进行匹配,可以减少匹配次数,提高匹配效率。下面将参照附图5,以待识别文字为“今天下午去798还是去人民大学西门呢?收至IJ速回”为例,结合如图2至图4所示的信息点数据库,详细介绍步骤102中所述的匹配步骤,具体如下步骤201,对于待识别文字,按照标点符号进行分节。即,将待识别文字“今天下午去798还是去人民大学西门呢?收到速回”按照标点符号“? ”进行分节,一共有两节,“? ”前后各为一节。步骤202,获取第一节待识别文字。S卩,获取“今天下午去798还是去人民大学西门呢”。步骤203,将本节待识别文字与单字索引库中的单字索引一一进行匹配,判断是否匹配成功。将图2所示的单字索引库中的单字I至单字η—一与本节待识别文字进行匹配。如果匹配成功,则继续步骤204,否则继续步骤205。具体地,本示例中第一节待识别文字与单字索引库未匹配成功。步骤205,将本节待识别文字与外文索引库中的外文索引进行匹配,判断是否匹配
成功。将图3中所示的外文索引库中的外文索引--与本节待识别文字进行匹配。如果匹
配成功则继续步骤206,否则继续步骤207。具体的,将外文索引中的外文I 一直到外文η--与第一节待识别文字进行匹配,
可见文字索引“798”与第一节待识别文字中的“798”匹配成功。继续步骤206。步骤206,记录识别到的代表地址信息的文字及其对应的具体地址。具体的,将与外文索引相匹配的文字记录下来,并且记录该外文索引所对应的具体地址。具体的,将“798”以及其对应的“北京市朝阳区酒仙桥路4号”记录下来。步骤207,将本节待识别文字与双字索引库中的第一级索引进行匹配,判断是否匹配成功。具体的,将图4中所示的双字索引库中的第一级索引的双字I至双字η—一与本节待识别文字进行匹配,如果匹配成功,则将匹配成功的双字所对应的第二级索引一一与本节待识别文字进行匹配,如果匹配成功,则继续步骤208,否则继续步骤209。更进一步地,当双字索引库中的第一级索引对应于多个第二级索引时,会出现某一组待识别文字与多个第二级索引匹配成功的情况,在这种情况下,优选采用最大化集合作为匹配结果,即将其中字数最多的第二级索引作为匹配结果。在本示例中,本节待识别文字为“今天下午去798还是去人民大学西门呢”,首先将第一级索引的双字I至双字η—一与所述待识别文字进行匹配,获得第一级匹配结果。具体的,当第一级索引为“人民”时,将“人民”依次与“今天”、“天下” “下午”一直到“门呢”进行匹配,匹配成功的第一级索引为“人民”后,则将“人民”对应的第二级索引一一与本节待识别文字进行匹配。具体的,将“人民大学”与待识别文字中的“人民大学”进行匹配,获得的匹配结果为“人民大学”;将“人民大学西门”与待识别文字中的“人民大学西门”进行匹配,获得匹配结果为“人民大学西门”。由于待识别文字中的“人民大学”对应于两个匹配结果,在匹配结果中优选采用最大化集合,即将“人民大学西门”作为最终的匹配结果。步骤208,记录识别到的代表地址信息的文字及其对应的具体地址。具体的,将与双字索引库的第二级索引相匹配的文字记录下来,并且记录该第二级索引所对应的具体地址。具体的,记录“人民大学西门”及其对应的“海淀区万泉河路”。步骤209,判断本节待识别文字是否是最后一节待识别文字。当本节待识别文字为最后一节待识别文字时,则继续步骤211,否则继续步骤210。具体的,本节待识别文字为“今天下午去798还是去人民大学西门呢”为第一节待识别文字,不是最后一节,因此继续步骤210。步骤210,获取下一节待识别文字。在本示例中,获取下一节待识别文字“收到速回”,并返回执行步骤203。步骤211,结束。在上面的实施例,通过本发明所述方法,快速并准确地在待识别文字“今天下午去798还是去人民大学西门呢?收到速回”中识别出地址信息“798”和“人民大学西门”。很明显,根据现有的地址识别方法,是无法识别出“798”和“人民大学西门”这样的地址信息的,因为它们根本不具有诸如“**区**路**号”的特定字符。在上面的实施例中,本领域技术人员也可以根据需要将所述双字索引库设置为大于二级索引的多级索引模式,以便于提高查找匹配效率;可替换地,如果数据库规模不大,也可以根据实际需要将所述双字索引库设置为一级索引模式;可替换地,由于实际生活中使用单字来表示某一具体地址的情形非常罕见,也可以取消所述单字索引库以简化所述信息点数据库的结构。更进一步的,也可以根据访问频率的高低将信息点数据库中的信息点数据进行排序,可使得数据库容量更加优化且能够进一步提高地址信息的识别速度。优选地,用户或者运营商可以在运营过程中随时向所述信息点数据库中添加信息、点数据,不断丰富和完善所述信息点数据库。具体的,所添加的信息点数据包括文字索引以及对应的具体地址。针对用户提交的信息点数据,运营商需要对该信息点数据的真实性和准确性进行审核,以保证添加到信息点数据库中的信息点数据是真实可靠的。优选地,可针对各个城市分别建立信息点数据库,在步骤102中所述的信息点数据库即为用户所在城市对应的信息点数据库。由于用户往往只对自己所在城市的地址感兴趣,因此仅利用所述本地数据库中的信息点数据与待识别文字进行匹配,不仅能够有效的減少信息点数据库的容量,更能够減少匹配所需时间,提高匹配效率。优选地,可以从网络侧服务器端下载其所在城市的信息点数据库到其移动终端或计算机作为本地数据库。当移动终端或计算机上下载有本地数据库时,则匹配过程可以在本地完成。当移动终端上并未下载本地数据库时,所述匹配过程则在网络侧服务器端完成, 通过移动終端与网络侧服务器之间的网络链接来实现通信。根据本发明提供的自动识别地址信息的方法,通过将预先建立的信息点数据库中的信息点数据与待识别文字进行匹配来查找待识别文字中的地址信息,能够保证识别结果准确无误。通过将具体地址与文字索引相关联,还可将该文字索引所关联的具体地址信息提供给用户,极大的方便了用户使用。以上实施例仅用于对本发明技术方案的说明,并不用于限制本发明的保护范围。本发明的保护范围以权利要求书为准。本领域技术人员根据以上实施例对本发明技术方案进行替换或者同等替代,均应包含在本发明的权利要求保护范围之内。
权利要求
1.一种自动识别地址信息的方法,包括步骤 获取待识别文字; 将待识别文字与预先设置的信息点数据库中的信息点数据进行匹配,以判断所述待识别文字中是否包含与所述信息点数据相同的文字; 其中,所述信息点数据包括文字索引和与所述文字索引相对应的具体地址;所述匹配步骤为将所述待识别文字与所述文字索引进行匹配。
2.根据权利要求I所述的自动识别地址信息的方法,其中所述待识别文字为移动終端上或计算机浏览器上显示的文字信息,所述方法进ー步包括步骤 在所显示的文字信息上对识别到的文字进行注释,并设置超链接。
3.根据权利要求I或2所述的自动识别地址信息的方法,所述匹配步骤包括 以标点符号为分隔点对所述待识别文字进行分节; 将每ー节待识别文字与信息点数据库中的文字索引进行匹配。
4.根据权利要求I至3之任一所述的自动识别地址信息的方法,其中所述信息点数据库包括双字索引库,所述双字索引库的文字索引包含至少两个汉字。
5.根据权利要求4所述的自动识别地址信息的方法,其中所述双字索引库的文字索引包括第一级索引和第二级索引,所述第一级索引对应多个第二级索引,所述第二级索引与具体地址——对应; 其中,与同一第一级索引相对应的多个第二级索引在首位具有两个相同的汉字,且所述同一第一级索引即为所述两个相同的汉字。
6.根据权利要求5所述的自动识别地址信息的方法,所述匹配步骤包括 将待识别文字与第一级索引进行匹配; 如待识别文字包含与第一级索引相同的文字,将所述待识别文字与所述第一级索引对应的多个第二级索引依次进行匹配。
7.根据权利要求6所述的自动识别地址信息的方法,所述匹配步骤进一歩包括 如待识别文字包含与所述第一级索引对应的单个第二级索引相同的文字,则所述单个第二级索引为匹配結果; 如待识别文字包含与所述第一级索引对应的多个第二级索引相同的文字,则所述多个第二级索引中字数最多的为匹配結果。
8.根据权利要求1-3之任一所述的自动识别地址信息的方法,其中所述信息点数据库还包括外文索引库和/或单字索引库;其中外文索引库的文字索引为英文字母或数字,单字索引库的文字索引为单个汉字且该单个汉字不能为所述双字索引库的文字索引的首字。
9.根据权利要求2所述的自动识别地址信息的方法,其中 所述注释为下列方式中的ー种或者几种高亮显示、反色显示、下划线; 所述超链接为下列链接中的一种或者几种 -所述超链接连接到地图,并在地图上显示该文字对应的具体地址; -所述超链接连接到移动设备的导航软件,直接将该代表地址信息的文字所对应的具体地址设为导航目的地,进入路线引导; -所述超链接连接到计算机的通信程序,将该代表地址信息的文字和/或其对应的具体地址发送到移动设备;-所述超链接连接到移动设备的即时通信程序,将该代表地址信息的文字和/或其对应的具体地址发送到其他移动设备; -所述超链接连接到微博,通过微博可以分享该文字对应的具体地址; -所述超链接连接到搜索引擎,通过搜索引擎搜索该文字对应的具体地址和/或所述具体地址的周边设施。
10.根据权利要求1-9之任一所述的自动识别地址信息的方法,其中,用户或运营商都可以向所述信息点数据库中不断添加信息点数据。
全文摘要
本发明公开了一种自动识别地址信息的方法,通过将预先建立的信息点数据库中的地址数据与待识别文字进行匹配来查找待识别文字中的地址信息,能够保证识别结果准确无误。通过将具体地址与文字索引相关联,可以自动识别出来文字索引标识的地址,并且将该文字索引所关联的具体地址信息提供给用户,极大的方便了用户使用。
文档编号G06F17/30GK102646124SQ20121004699
公开日2012年8月22日 申请日期2012年2月27日 优先权日2012年2月27日
发明者杨志远 申请人:杨志远
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1