提供地域化信息的方法和系统的制作方法

文档序号:7917428阅读:233来源:国知局
专利名称:提供地域化信息的方法和系统的制作方法
技术领域
本发明涉及互联网技术领域,特别涉及一种提供地域化信息的方法和系统。
背景技术
互联网技术中,可以提供各种形式的信息,诸如新闻、体育、娱乐信息等。
还有通过论坛(BBS)、博客(Blog)、相册、视频等网站提供的丰富的信息。
目前,这些信息的提供都是网站自主提供的。即使存在提供按照关键字搜 索或分类的互联网信息,例如一些门户网站通过搜索引擎提供的按照关键字搜 索得到的互联网信息,也仅仅能做到从原始抓取的来源丰富的网页中收集出现 该关键字的信息。例如通过搜索引擎中搜索"北京"关键字的新闻,则搜索到 的内容是所有包含"北京"关键字的新闻,而往往这类搜索到的新闻中并不都 是发生在北京本地的新闻,也就不能满足用户真正的按照地域搜索新闻的意 图。
随着互联网技术的发展和互联网用户需求的增加,需要一种技术来实现地 域化信息的提供。但是现有技术中还没有这样一种技术来满足用户的需求。

发明内容
本发明实施例的目的是提供一种提供地域化信息的方法和系统,以实现地 域化信息的提供。
为解决上述技术问题,本发明实施例提供一种提供地域化信息的方法和系 统这样实现的
一种提供地域化信息的方法,包括 萃取文档数据中的地理信息;
根据萃取的地理信息在预置的地理信息库查找对应的地理属性,并为所述 文档数据标记所述查找到的地理属性; 获取用户的地理属性;
将标记的地理属性与用户的地理属性匹配的文档数据提供给用户。一种^是供地域化信息的方法,包括 萃取文档数据中的地理信息; 获取用户的地理属性;
将地理信息与用户的地理属性匹配的文档数据^提供给用户。 一种提供地域化信息的系统,包括
文档数据地理信息萃取模块,用于萃取文档数据中的地理信息; 地理信息库,用于存储地名名称和表示地理信息的词以及地理信息之间的 隶属关系;
标记才莫块,用于才艮据萃取的地理信息在地理信息库查找对应的地理属性, 并为所述文档lt据标记所述查找到的地理属性;
用户地理属性获^^莫块,用于获取用户的地理属性;
输出^f莫块,用于将标记的地理属性与用户的地理属性匹配的文档数据提供 给用户。
一种提供地域化信息的系统,包括
文档数据地理信息萃取模块,用于萃取文档数据中的地理信息; 用户地理属性获取模块,用于获取用户的地理属性; 输出模块,用于将与用户的地理属性匹配的文档数据提供给用户。 由以上本发明实施例提供的技术方案可见,萃取文档数据中的地理信息, 根据萃取的地理信息在预置的地理信息库查找对应的地理属性,并为所述文档
数据标记所述地理属性,获取用户的地理属性,将标记的地理属性与用户的地 理属性匹配的文档数据提供给用户,这样,可以提供适于用户的地域化信息。 而且,该方法实施例中,实现了对用户和文档数据信息的地域化,从而帮助用 户更快更精准的找到需要的信息。


图1为本发明方法一个实施例的流程图; 图2为本发明地理信息库的组织结构图; 图3为本发明方法另一实施例的流程图;图4为本发明系统一个实施例的框图5为本发明系统一个实施例的框图6为本发明系统一个实施例的框图7为本发明系统一个实施例的框图8为本发明系统一个实施例的框图9为本发明系统一个实施例的框图IO为本发明系统一个实施例的框图11为本发明系统一个实施例的框图12为本发明系统一个实施例的框图13为本发明系统一个实施例的框图。
具体实施例方式
本发明实施例提供一种提供地域化信息的方法和系统。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和实施方 式对本发明实施例作进一步的详细说明。
以下介绍本发明提供地域化信息的方法实施例。图1示出了该实施例的流 程,如图l所示,该方法实施例包括
S101:萃取文档数据中的地理信息。
互联网中,存在于网页形式中的新闻、体育、娱乐、博客、论坛、相册、 视频等的内容,很多存在地理信息。例如,存在省、市、区之类信息,而网页 中的这些信息一般都是文档数据。该步骤中,就是要将文档数据内容中的地理 信息萃取出来。
以下例举该步骤的两种具体的实现方式。
以下介绍方式一
该方式中,可以预置地名词库,该地名词库中存储有地名名称。例如省级 行政区类的省、直辖市、自治区、特别行政区,地区级行政区类的地区市、地 区、自治州、盟名称等,县级行政区类的市辖区、县级市、县、自治县、旗、 自治旗、特区、林区名称等,乡级行政区类的镇、乡、街道、苏木名称等,村级行政区类的社区、居委会、村名称等。
当然,这个地名词库中还可以包括任何表示地理信息的词,例如高校名称、
兴趣点数据(Point Of Interest, POI)名称、企业名称、特产名称、小区名称、景点名称等,因为这些词也都可以代表地理信息。例如高校,清华大学可以代表北京市海淀区五道口地区这一地理信息;例如兴趣点数据,毛家饭店蓝堡店可以代表北京市西大望路蓝堡国际中心这一地理信息;例如企业名称,淘宝网可以代表浙江省杭州市文二路391号这一地理信息;例如特产名称,西湖龙井可以代表浙江省杭州市西湖区这一地理信息;例如景点名称,颐和园可以代表北京市海淀区这一地理信息;例如小区名称,阳光100可以代表北京市朝阳区西大望路这一地理信息;等等。
则该方式可以包括根据预置的地名词库萃取文档数据中的地理信息。该步骤,简单地说,即是查找出文档数据中出现在预置的地名词库中的地名名称。关于如何利用预置的地名词库查找文档数据中的地名名称或其它地理信息,所述其它地理信息可以如上面描述的高校名称、兴趣点数据名称、企业名称、特产名称、小区名称、景点名称等。具体的,所述^^艮据预置的地名词库萃取文档数据中的地理信息可以有多种方式实现,这里不再具体展开描述。以下介绍方式二
该方式中,可以预置地名后缀词库,该地名后缀词库中存储有地名后缀。例如,该地名后缀词库中包括省、市、县、乡、区、路、街等地名后缀。
则该方式可以包括才艮据预置的地名后缀词库查找文档数据中存在的地名后缀,并将地名后缀前固定出现的词作为该文档数据的地理信息。
例如文档数据中可以查找到地名后缀词库中的"市,,,并且在该后缀"市"之前固定出现的词为"北京",则可以将"北京"作为该文档数据的地理信息。
这里,作为实施例,给出了两种萃取文档数据中地理信息的方式,当然,本领域技术人员应当知道,还存在其它萃取文档数据中地理信息的方式,而本发明涵盖的范围应当包括该步骤的这些不同实施方式。
实际当中,还可能存在同一文档数据中出现多个不同地理信息的情况。这时候,按照上述两种方式或其它方式萃取地理信息后,该文档数据中可能萃取出若干不同的地理信息。而一般地,同一文档数据中,描述的内容应当具有一个中心地理信息。例如,在谈到四川地震新闻的文档数据中,会萃取得到四川这一地理信息,但是,同时该新闻中还可能谈到其它省、市对四川的援助,这样还会萃取得到例如广东、北京这些地理信息。而萃取到的这些地理信息中,四川应当是中心地理信息。
那么,以下给出确定萃取的多个地理信息中的中心地理信息的一种实现方

对于同一文档数据中萃取出的多个地理信息,将这些地理信息中出现次数
最多的作为该文档数据的中心地理信息,也就是作为该文档数据最终的地理信自
例如上述例子中,四川在该文档数据中出现6次,北京出现2次,广东出现l次,则将出现次数最多的,即出现6次的四川确定为该文档数据的中心地理信息,也就是确定为该文档数据最终的地理信息。
仍然以四川地震新闻的文档数据为例,可能在该文档数据中,谈到较多的
是四川境内发生灾情的市、县、自治区等。同时,还可能谈到北京、广东等省市对灾区的4爰助。该情况下,四川、北京、广东在该文档教:据中出现的次数可能相同,但是,四川应当是该文档数据中的中心地理信息。
那么,以下给出确定萃取的多个地理信息中的中心地理信息的一种实现方

对于萃取出的多个地理信息,按照行政区划隶属关系统计隶属的地理信息出现次数;将萃取到的地理信息和统计的隶属于的地理信息中出现次数最多的作为该文档数据的中心地理信息,也就是作为该文档数据最终的地理信息。
如文档凄t据中出现1次四川,1次汶川,1次绵竹,1次北川,1次北京,l次广东,则,由于汶川、绵竹、北川都隶属于四川这一行政区划,因此统计为3次四川,加上出现的l次四川,则四川共统计出现4次,而北京和广东各出现1次,这样,四川出现次数最多,将四川作为该文档数据中萃取的中心地
ii理信息,也就是该文档数据最终的地理信息。
这里的行政区划隶属关系,可以通过预置的地理信息库实现。该地理信息库中,除了具备前述预置的地名词库的全部地理名称外,还有所有地理信息之间的隶属关系。例如,该地理信息词库中包括四川这一省级区划,四川之下包括所有市级的行政区划,每个市下面包括县级的行政区划,每个县下面包括区给的行政区划,依次类推,并且其它省级行政区划也类似。当然,所述地理信息库中还可以包括国家级别的地理信息,并且,不同国家之下包括各自的州、省等行政区划,在此不再赘述。
这样,按照预置的地理信息库,可以实现将萃取出的多个地理信息按照行政区划隶属关系统计隶属的地理信息出现次数。
需要说明的是,前述方式一中的预置的地名词库,可以采用这里的地理信息库。
S102:根据萃取的地理信息在预置的地理信息库查找对应的地理属性,并为所述文档ft据标记所述地理属性。
这里的预置的地理信息库,可以与前述S101中的地理信息库相同。其中存储有地名名称。例如省级行政区类的省、直辖市、自治区、特别行政区,地区级行政区类的地区市、地区、自治州、盟名称等,县级行政区类的市辖区、县级市、县、自治县、旗、自治旗、特区、林区名称等,乡级行政区类的镇、乡、街道、苏木名称等,村级行政区类的社区、居委会、村名称等。不同地名名称之间,还存在行政区划的隶属关系。以中国为例,其下可以包括省、直辖市、特别行政区、自治区这类省级行政区划,省级行政区下包括地区市、地区、自治州、盟等地区级行政区划,地区级行政区下包括市辖区、县级市、县、自治县、旗、自治旗、特区、林区及其它县级行政区划,县级行政区下包括镇、乡、街道、苏木及其它乡级行政区划,乡级行政区下包括社区、居委会、村等村级行政区划。图2示出了预置的地理信息库的结构图。上述地理信息库中的地名名称与行政区划的隶属关系可以如图2中组织。
特别的,预置的地理信息库中,还可以包括任何表示地理信息的词,例如高校名称、兴趣点数据名称、企业名称、特产名称、小区名称、景点名称等,因为这些词也都可以代表地理信息。这样,与前面类似的,例如高校,清华大
学可以代表北京市海淀区五道口地区这一地理信息;例如兴趣点数据,毛家饭店蓝堡店可以代表北京市西大望3各蓝堡国际中心这一地理信息;例如企业名称,淘宝网可以代表浙江省杭州市文二路391号这一地理信息;例如特产名称,西湖龙井可以代表浙江省杭州市西湖区这一地理信息;例如景点名称,颐和园可以代表北京市海淀区这一地理信息;例如小区名称,阳光100可以代表北京市朝阳区西大望路这一地理信息;等等。当然,这些表示地理信息的词也有与预置的地理信息库中地理信息之间的行政区划隶属关系。
前述S101中萃取出文档数据中的地理信息后,可以在预置的地理信息库中查找对应的地理属性,并将地理属性标记在所述文档数据上。
例如萃取到文档数据中的地理信息为"大望路,',根据预置的地理信息库
中可以查找到地理属性为"北京市-朝阳区-大望路",这样,可以对该文档数据标记地理属性,例如完整的"北京市-朝阳区-大望路"。S103:获耳又用户的地理属性。
用户具有一定的地理属性。例如,用户操作终端接入互联网过程中,所处的地理位置。这一地理位置可以通过用户终端接入互联网的IP地址表明。
例如当前用户终端的IP地址为202.115.33.3,通过网际协i义(InternetProtocol, IP )地址的查询,可以得知该IP地址来自"四川大学工程设计中心,,,而该地址的完整地址为"四川省-成都市-四川大学工程i殳计",则该地址可以作为用户的地理属性。
这样,通过查询用户终端的IP地址,可以获取用户的地理属性。
用户的地理属性,还可以是用户登记的地址,如登记家庭住址、学校地址、工作地址等。通过查询用户登记的地址,可以获取用户的地理属性。
此外,用户的地理属性,还可以是用户定制的地理位置。例如,用户定制了厦门这一地理位置,则S103中,通过查询用户定制的地理位置,可以获取到这一地理属性。
13另外,用户的地理属性,还可以是通过获取用户的经绵度信息得到用户的
地理属性。例如用户通过手持式GPS定位了当前的经炜度信息,则可以通过
获取该经绵度信息得到用户当前的地理位置。
再者,还可以是通过搜集用户的上网浏览焦点得到用户的地理属性。例如,用户在一定时间段内通过互联网搜索或查询九寨沟这一地理位置,则很有可能用户希望在未来的一段时期内去该地旅行,则通过4叟集用户这一段时间内搜索或查询的这一地理位置得到用户的地理属性。
获取用户地理属性的方式有很多种,上面仅例举出了几种,本领域技术人员应当知道,本发明并不限于上述几种方式。只要可以获取用户的地理属性,无论该地理属性是用户当前的IP地址,或用户登记的地理位置,或用户定制的地理位置,或用户的经绵度信息,或用户的上网浏览焦点,或者其它方式的用户地理属性,都应当涵盖在本发明实施例的范围内。
S104:将标记的地理属性与用户的地理属性匹配的文档凝:据提供给用户。
该步骤中,首先对文档数据上标记的地理属性与获取的用户地理属性进行匹配,如果匹配,则将对应的文档凝:据4是供给用户。
需要说明的是,由于S101、 S102中的文档数据可以有很多,例如类似于搜索引擎,通过网络爬虫抓取的当天互联网中所有的文档数据,或是几天内的互联网中所有的文档数据。现有的网站提供的服务中,完全可以有能力做到收集互联网上所有的文档数据。
前述提到,标记到文档数据上的地理属性中,可以包括不同的行政区划等级,例如一些文档数据上标记的完整地理属性为"北京市-朝阳区-大望路,,,而另一些文档数据上标记的完整地理属性为"北京市-朝阳区-建国门",还有一些文档数据上标记的完整地理属性为"北京市-朝阳区"。如果用户的地理位置为大望路,则可以提供标记为"北京市-朝阳区-大望路,,的文档数据给用户,而不提供标记为"北京市-朝阳区-建国门"的文档凄t据给用户。
当然,也可以提供标记为"北京市-朝阳区"的文档数据给用户。此时,标记为"北京市-朝阳区"的文档数据,可以包括标记为"北京市-朝阳区-大望路"的文档数据和标记为"北京市-朝阳区-建国门"的文档数据,当然还可以包括其它标记中包括"北京市-朝阳区,,的文档数据。
上述不同行政区划等级的文档数据,可以分级提供给用户,即为用户的浏览进行逐级地域导航,或提供由用户选择,例如提供给用户选择某一等级的行政区划的文档数据,如选择北京市这一行政区划等级的文档数据,或选择朝阳区这一行政区划等级的文档数据。
所述将文档数据提供给用户,本领域技术人员和一般用户都可以理解,包括将包含文档数据的网页通过标题链接的方式发送到用户终端的浏览器页面上。
需要说明的是,上述S101、 S102与S103之间并没有严格的先后顺序,也可以是先执行S103,再执行S101和S102,也就是说只要在S104之前得到S102和S103的结果即可。
从上述本发明方法实施例可以看出,萃取文档数据中的地理信息,根据萃取的地理信息在预置的地理信息库查找对应的地理属性,并为所述文档数据标记所述地理属性,获取用户的地理属性,将标记的地理属性与用户的地理属性匹配的文档数据提供给用户,这样,可以提供适于用户的地域化信息。而且,该方法实施例中,实现了对文档数据的地域化,从而帮助用户更快更精准的找到需要的信息。
本发明4是供地域化信息的方法实施例,应用范围广泛,例如可以应用到以下几种产品和服务中
1) 新闻搜索
通过上述方法实施例,可以自动对新闻按照地域进行分类,生成地方新闻聚合,再根据访问用户的地域属性,主动推荐相关的新闻内容给用户,真正实现"讲述老百姓身边的故事",同时还可以通过给新闻标注完整地域信息的优势,为用户的浏览进行逐级地域导航。
2) 生活服务信息提供
生活服务是当前中国互联网热点。同其他信息相比,生活服务信息更强调
15地域化、准确、及时。利用上述本发明的方法实施例,可以对生活服务信息按照地域进行有效的聚合,当用户访问时,能够有效地识别用户的地域属性,配合经过地域化处理的数据,可以主动将本地生活服务信息推送给用户,以便于用户对生活服务信息使用的便利度,提高生活服务信息的服务效果和效率。例如关于某一地区内的餐饮信息,打折信息、房屋租售信息、小时工信息等生活服务信息,针对性的提供给与该地区相关的用户,可以利用用户便利的了解该地区的生活服务信息,从而提高生活服务信息的服务效果和效率。
3 )社区(Community )和社会化网络服务(Society Network Service, SNS )
当前的社区服务包括论坛,博客,相册,群组等服务,目前多是以话题来聚合信息,用户在检索数据也大多是通过关键词进行。采用本发明上述方法实施例对这些数据进行地域化处理后,就可以分不同地方、不同区域等级来聚合数据,同样是根据用户的地域属性进行有效引导和推荐,让用户方便地了解到身边网友都在关注什么,并能够按地域来聚合朋友圈,形成社会化网络,加强用户的网上社交和互动。
综上,通过对互联网信息的地域化处理,并对用户地域属性的识别,可以有效的将互联网中的海量数据根据用户地理属性提供给用户,从而提高了用户获取数据和信息的效率和效果,在互联网服务中具有广阔的应用前景。
以下介绍本发明提供地域化信息的另一方法实施例,图3示出了该方法实施例的流程图,如图3中所述,该方法实施例可以包括
S301:萃取文档数据中的地理信息。
该步骤与前述S101类似,可以包括两种实现方式
方式一根据预置的地名词库萃取文档数据中的地理信息;所述地名词库中存储有地名名称和表示地理信息的词。
方式二根据预置的地名后缀词库查找文档数据中存在的地名后缀,并将地名后缀前固定出现的词作为所述文档数据的地理信息。
上述两种方式具体请参见S101中对应的两种方式,在此不再赘述。
实际当中,还可能存在同一文档数据中出现多个不同地理信息的情况。这时候,按照上述两种方式或其它方式萃取地理信息后,该文档数据中可能萃取 出若干不同的地理信息。而一般地,同一文档数据中,描述的内容应当具有一 个中心地理信息。
那么,以下给出确定萃取的多个地理信息中的中心地理信息的两种实现方

方式一对于同一文档数据中萃取出的多个地理信息,将这些地理信息中 出现次数最多的作为该文档数据最终的地理信息。
方式二对于萃取出的多个地理信息,根据预置的地理信息库,按照行政 区划隶属关系统计隶属的地理信息出现次数;所述地理信息库中存储有地名名 称和表示地理信息的词以及地理信息之间的隶属关系;将萃取到的地理信息和 统计的隶属于的地理信息中出现次数最多的作为该文档数据最终的地理信息。
上述确定萃取的多个地理信息中的中心地理信息的两种实现方式与前述 S101中对应的两种方式类似,在此也不再赘述。
S302:获取用户的地理属性。
通过查询用户终端的IP地址获耳又用户的地理属性;或, 通过查询用户登记的地址获取用户的地理属性;或, 通过查询用户定制地理位置获:f又到这一地理属性;或, 通过获取用户的经绰度信息得到用户的地理属性;或, 通过搜集用户的上网浏览焦点得到用户的地理属性。 该步骤与前述S103类似。
S303:将地理信息与用户的地理属性匹配的文档数据提供给用户。
该步骤中,直接将文档数据的地理信息与获取的用户地理属性进行匹配, 如果匹配,则将对应的文档数据提供给用户。
上述不同行政区划等级的文档数据,可以分级提供给用户,即为用户的浏 览进行逐级地域导航,或提供由用户选择,例如提供给用户选择某一等级的行 政区划的文档数据。
这样,具体的,可以将文档数据的地理信息与用户的地理属性匹配的文档
17数据,按照不同行政区划等级分级提供给用户,或提供由用户选择。
所述将文档数据提供给用户,本领域技术人员和一般用户都可以理解,包 括将包含文档数据的网页通过标题链接的方式发送到用户终端的浏览器页面 上。
需要说明的是,上述S301与S302间并没有严格的先后顺序,也可以是先 执行S302,再执行S301,也就是说只要在S303之前完成S301的结果和S302 的结果即可。
以下介绍本发明提供地域化信息的系统的一个实施例,图4示出了该系统
实施例的框图,如图4所示,该系统实施例可以包括
文档数据地理信息萃取;漠块41 ,用于萃取文档数据中的地理信息; 地理信息库42,用于存储地名名称和表示地理信息的词以及地理信息之
间的隶属关系;
标记模块43,用于根据萃取的地理信息在地理信息库查找对应的地理属
性,并为所述文档数据标记所述查找到的地理属性;
用户地理属性获取模块44,用于获取用户的地理属性;
输出模块45,用于将标记的地理属性与用户的地理属性匹配的文档数据
提供给用户。
优选地,所述系统还可以如图5所示,在图4的基础上进一步包括地名词 库51,其中存储有地名名称和表示地理信息的词;
这样,所述文档数据地理信息萃取模块41可以根据地名词库萃取文档数 据中的地理信息。
需要说明的是,地名词库51,可以位于文档数据地理信息萃取模块41之 内,也可以位于文档数据地理信息萃取模块41之外的系统中。
所述系统还可以如图6所示,在图4的基础上进一步包括地名后缀词库 61,所述文档数据地理信息萃取41模块根据预置的地名后缀词库61查找文档 数据中存在的地名后缀,并将地名后缀前固定出现的词作为所述文档数据的地 理信息。
18需要说明的是,地名后缀词库61,可以位于文档数据地理信息萃取模块
41之内,也可以位于文档数据地理信息萃取^^莫块41之外的系统中。
所述系统还可以在图4、或图5、或图6的基础上进一步包括中心地理信 息确定模块71,这里仅示出在图4基础上包括中心地理信息确定模块71的情 况,如图7所示,用于将文档数据地理信息萃取模块41对同一文档数据中萃 取出的多个地理信息中的出现次数最多的确定为该文档数据最终的地理信息。 所述系统还还可以在图4、或图5、或图6的基础上进一步包括中心地理 信息确定模块81和预置的地理信息库82,这里仅示出在图4基础上包括中心 地理信息确定模块81和预置的地理信息库82的情况,如图8所示。
中心地理信息确定模块81,用于将文档数据地理信息萃取^莫块41对同一 文档数据中萃取出的多个地理信息,根据预置的地理信息库82,按照行政区 划隶属关系统计隶属的地理信息出现次数,并将萃取到的地理信息和统计的隶 属于的地理信息中出现次数最多的作为该文档数据最终的地理信息;所述地理 信息库82中存储有地名名称和表示地理信息的词以及地理信息之间的隶属关 系。
优选地,所述系统中,所述用户地理属性获取;f莫块44,通过查询用户终 端的IP地址获取用户的地理属性;或,
通过查询用户登记的地址获取用户的地理属性;或, 通过查询用户定制地理位置获:f又到这一地理属性;或, 通过获取用户的经炜度信息得到用户的地理属性;或, 通过搜集用户的上网浏览焦点得到用户的地理属性。
以下介绍本发明提供地域化信息的系统的另 一实施例,图9示出了该系统 实施例的框图,如图9所示,该系统实施例可以包:fe:
文档数据地理信息萃取模块91,用于萃取文档数据中的地理信息;
用户地理属性获取模块92,用于获取用户的地理属性;
输出模块93,用于将与用户的地理属性匹配的文档数据提供给用户。
19优选地,所述系统还可以如图IO所示,进一步包括地名词库101,其中 存储有地名名称和表示地理信息的词;
这样,所述文档数据地理信息萃^^莫块91根据地名词库萃取文档数据中 的地理信息。
需要说明的是,地名词库101,可以位于文档数据地理信息萃取模块91 之内,也可以位于文档数据地理信息萃取模块91之外的系统中。
优选地,所述系统还可以如图11所示,进一步包括地名后缀词库111, 所述文档数据地理信息萃取模块91根据预置的地名后缀词库111查找文档数 据中存在的地名后缀,并将地名后缀前固定出现的词作为所述文档数据的地理 信息。
需要说明的是,地名后缀词库lll,可以位于文档数据地理信息萃取模块 91之内,也可以位于文档数据地理信息萃取模块91之外的系统中。
优选地,所述系统还可以在图9、或图10、或图11的基础上进一步包括 中心地理信息确定才莫块121,这里^5l示出在图9基础上包括中心地理信息确定 模块121的情况,如图12所示,中心地理信息确定模块121用于将文档数据 地理信息萃取模块91对同一文档数据中萃取出的多个地理信息中的出现次数 最多的确定为该文档数据最终的地理信息。
需要说明的是,中心地理信息确定才莫块121,可以位于文档数据地理信息 萃取模块91之内,也可以位于文档数据地理信息萃取模块91之外的系统中。
优选地,所述系统还可以在图9、或图10、或图11的基础上进一步包括 中心地理信息确定模块131和预置的地理信息库132,这里仅示出在图9基础 上包括中心地理信息确定模块131和预置的地理信息库132的情况,如图13 所示。
中心地理信息确定模块131,用于将文档数据地理信息萃取模块91对同 一文档数据中萃取出的多个地理信息,根据预置的地理信息库132,按照行政 区划隶属关系统计隶属的地理信息出现次数,并将萃取到的地理信息和统计的 隶属于的地理信息中出现次数最多的作为该文档数据最终的地理信息;所述地理信息库132中存储有地名名称和表示地理信息的词以及地理信息之间的隶 属关系。
优选地,所述系统中,所述用户地理属性获取;f莫块92,可以通过查询用 户终端的IP地址获取用户的地理属性;或,
通过查询用户登记的地址获取用户的地理属性;或, 通过查询用户定制地理位置获取到这一地理属性;或, 通过获取用户的经绵度信息得到用户的地理属性;或, 通过搜集用户的上网浏览焦点得到用户的地理属性。
虽然通过实施例描绘了本发明,本领域普通技术人员知道,本发明有许多 变形和变化而不脱离本发明的精神,希望所附的权利要求包括这些变形和变化 而不脱离本发明的精神。
权利要求
1、一种提供地域化信息的方法,其特征在于,包括萃取文档数据中的地理信息;根据萃取的地理信息在预置的地理信息库查找对应的地理属性,并为所述文档数据标记所述查找到的地理属性;获取用户的地理属性;将标记的地理属性与用户的地理属性匹配的文档数据提供给用户。
2、 如权利要求1所述的方法,其特征在于,所述萃取文档数据中的地理 信息包括根据预置的地名词库萃取文档数据中的地理信息;所述地名词库中存储有 地名名称和表示地理信息的词。
3、 如权利要求1所述的方法,其特征在于,所述萃取文档数据中的地理 信息包括根据预置的地名后缀词库查找文档数据中存在的地名后缀,并将地名后缀 前固定出现的词作为所述文档凝:据的地理信息。
4、 如权利要求l、 2或3所述的方法,其特征在于,所述萃取文档数据中 的地理信息包括对于同一文档数据中萃取出的多个地理信息,将这些地理信息中出现次数 最多的作为该文档数据最终的地理信息。
5、 如权利要求l、 2或3所述的方法,其特征在于,所述萃取文档数据中 的地理信息包括对于萃取出的多个地理信息,根据预置的地理信息库,按照行政区划隶属 关系统计隶属的地理信息出现次数;所述地理信息库中存储有地名名称和表示 地理信息的词以及地理信息之间的隶属关系;将萃取到的地理信息和统计的隶属于的地理信息中出现次数最多的作为 该文档数据最终的地理信息。
6、 如权利要求1所述的方法,其特征在于,所述获取用户的地理属性包括通过查询用户终端的IP地址获取用户的地理属性;或, 通过查询用户登记的地址获取用户的地理属性;或, 通过查询用户定制地理位置获取到这一地理属性;或, 通过获取用户的经绵度信息得到用户的地理属性;或, 通过^l叟集用户的上网浏览焦点得到用户的地理属性。
7、 如权利要求1所述的方法,其特征在于,所述将标记的地理属性与用 户的地理属性匹配的文档数据提供给用户,包括将标记的地理属性与用户的地理属性匹配的文档数据,按照不同行政区划 等级分级提供给用户,或提供由用户选择。
8、 一种提供地域化信息的方法,其特征在于,包括 萃取文档数据中的地理信息; 获取用户的地理属性;将地理信息与用户的地理属性匹配的文档数据提供给用户。
9、 如权利要求8所述的方法,其特征在于,所述萃取文档数据中的地理 信息包括根据预置的地名词库萃取文档数据中的地理信息;所述地名词库中存储有 地名名称和表示地理信息的词。
10、 如权利要求8所述的方法,其特征在于,所述萃取文档数据中的地理 信息包括才艮据预置的地名后缀词库查找文档凄t据中存在的地名后缀,并将地名后缀 前固定出现的词作为所述文档数据的地理信息。
11、 如权利要求8、 9或10所述的方法,其特征在于,所述萃取文档数据 中的地理信息包括对于同 一文档数据中萃取出的多个地理信息,将这些地理信息中出现次数 最多的作为该文档数据最终的地理信息。
12、 如权利要求8、 9或10所述的方法,其特征在于,所述萃取文档数据 中的地理信息包括对于萃取出的多个地理信息,根据预置的地理信息库,按照行政区划隶属关系统计隶属的地理信息出现次数;所述地理信息库中存储有地名名称和表示 地理信息的词以及地理信息之间的隶属关系;将萃取到的地理信息和统计的隶属于的地理信息中出现次数最多的作为 该文档数据最终的地理信息。
13、 如权利要求8所述的方法,其特征在于,所述获取用户的地理属性包括通过查询用户终端的IP地址获取用户的地理属性;或, 通过查询用户登记的地址获取用户的地理属性;或, 通过查询用户定制地理位置获取到这一地理属性;或, 通过获取用户的经绵度信息得到用户的地理属性;或, 通过搜集用户的上网浏览焦点得到用户的地理属性。
14、 如权利要求9所述的方法,其特征在于,所述将地理信息与用户的地 理属性匹配的文档数据提供给用户,包括将文档数据的地理信息与用户的地理属性匹配的文档数据,按照不同行政 区划等级分级提供给用户,或提供由用户选择。
15、 一种提供地域化信息的系统,其特征在于,包括 文档数据地理信息萃取模块,用于萃取文档数据中的地理信息; 地理信息库,用于存储地名名称和表示地理信息的词以及地理信息之间的隶属关系;标记模块,用于根据萃取的地理信息在地理信息库查找对应的地理属性, 并为所述文档数据标记所述查找到的地理属性;用户地理属性获取^莫块,用于获取用户的地理属性;输出模块,用于将标记的地理属性与用户的地理属性匹配的文档数据提供 给用户。
16、 如权利要求15所述的系统,其特征在于,所述系统还包括地名词库, 其中存储有地名名称和表示地理信息的词;所述文档数据地理信息萃取模块根据地名词库萃取文档数据中的地理信台
17、 如权利要求15所述的系统,其特征在于,所述系统还包括地名后缀词库,所述文档数据地理信息萃取模块根据预置的地名后缀词库查找文档数据中存在的地名后缀,并将地名后缀前固定出现的词作为所述文档数据的地理信 台
18、 如权利要求15所述的系统,其特征在于,所述系统还包括中心地理 信息确定模块,用于将文档数据地理信息萃取模块对同一文档数据中萃取出的 多个地理信息中的出现次数最多的确定为该文档数据最终的地理信息。
19、 如权利要求15所述的系统,其特征在于,所述系统还包括中心地理 信息确定模块,用于将文档数据地理信息萃取模块对同一文档数据中萃取出的 多个地理信息,根据预置的地理信息库,按照行政区划隶属关系统计隶属的地 理信息出现次数,并将萃取到的地理信息和统计的隶属于的地理信息中出现次 数最多的作为该文档数据最终的地理信息;所述地理信息库中存储有地名名称 和表示地理信息的词以及地理信息之间的隶属关系。
20、 如权利要求15所述的系统,其特征在于,所述用户地理属性获取模 块,通过查询用户终端的IP地址获取用户的地理属性;或,通过查询用户登记的地址获取用户的地理属性;或, 通过查询用户定制地理位置获取到这一地理属性;或, 通过获取用户的经炜度信息得到用户的地理属性;或, 通过搜集用户的上网浏览焦点得到用户的地理属性。
21、 一种提供地域化信息的系统,其特征在于,包括 文档数据地理信息萃取模块,用于萃取文档数据中的地理信息; 用户地理属性获取模块,用于获取用户的地理属性; 输出模块,用于将与用户的地理属性匹配的文档数据提供给用户。
22、 如权利要求21所述的系统,其特征在于,所述系统还包括地名词库, 其中存储有地名名称和表示地理信息的词;所述文档数据地理信息萃取模块根据地名词库萃取文档数据中的地理信台
23、 如权利要求21所述的系统,其特征在于,所述系统还包括地名后缀词库,所述文档数据地理信息萃取模块根据预置的地名后缀词库查找文档数据中存在的地名后缀,并将地名后缀前固定出现的词作为所述文档数据的地理信 台
24、 如权利要求21所述的系统,其特征在于,所述系统还包括中心地理 信息确定模块,用于将文档数据地理信息萃取模块对同一文档数据中萃取出的 多个地理信息中的出现次数最多的确定为该文档数据最终的地理信息。
25、 如权利要求21所述的系统,其特征在于,所述系统还包括中心地理 信息确定模块,用于将文档数据地理信息萃取模块对同 一文档数据中萃取出的 多个地理信息,根据预置的地理信息库,按照行政区划隶属关系统计隶属的地 理信息出现次数,并将萃取到的地理信息和统计的隶属于的地理信息中出现次 数最多的作为该文档数据最终的地理信息;所述地理信息库中存储有地名名称 和表示地理信息的词以及地理信息之间的隶属关系。
26、 如权利要求21所述的系统,其特征在于,所述用户地理属性获取才莫 块,通过查询用户终端的IP地址获取用户的地理属性;或,通过查询用户登记的地址获取用户的地理属性;或, 通过查询用户定制地理位置获取到这一地理属性;或, 通过获取用户的经绵度信息得到用户的地理属性;或, 通过搜集用户的上网浏览焦点得到用户的地理属性。
全文摘要
本发明公开了提供地域化信息的方法和系统。一种提供地域化信息的方法实施例,包括萃取文档数据中的地理信息;根据萃取的地理信息在预置的地理信息库查找对应的地理属性,并为所述文档数据标记所述查找到的地理属性;获取用户的地理属性;将标记的地理属性与用户的地理属性匹配的文档数据提供给用户。利用本发明,可以提供适于用户的地域化信息。
文档编号H04L12/58GK101651634SQ200810135169
公开日2010年2月17日 申请日期2008年8月13日 优先权日2008年8月13日
发明者刘维佳, 周洪喜, 李晓拴, 暄 王, 王名悠, 陈传文, 雷国平, 娜 马 申请人:阿里巴巴集团控股有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1