一种从网页中自动提取网站拥有者行政属地信息的方法

文档序号：6611714阅读：253来源：国知局

专利名称：：一种从网页中自动提取网站拥有者行政属地信息的方法
技术领域：
：本发明涉及网页内容提取技术，具体涉及一种从网站所属的网页中自动提取网站拥有者行政属地的方法。
背景技术：
：-随着Internet的不断普及与发展，互联网上的资源日趋庞大和复杂。如何确定互联网资源的地理位置信息，是人们非常关注的问题之一。当前，互联网的资源主要以网站为基本依托单位存在于互联网中，有效地确定网站拥有者的行政属地信息，将有助于人们从地理分布的角度了解和研究互联网的发展现状和发展趋势。目前，人们获得网站拥有者行政属地信息主要有以下几种技术手段(1)通过定位系统来确定网站拥有者的行政属地，如全球定位系统(GlobalPositioningSystem,GPS)、手机定位系统等。但这种手段对于确定有限网站来说是有效的，但对于整个互联网来说，则并不可行。同时，获得的地理位置信息是网站所在物理机器的位置，由于互联网托管业务的存在，它并不能完全代表网站拥有者的行政属地。(2)通过IP地址所属的区域来确定网站拥有者的行政属地。掌管IP分配的部门通常掌握有IP地址的地理分布信息，但这些信息仅仅是大跨度IP地址范围的分配信息，有些是按行政区划分配的，只到省一级；而另一部分，则是按行业或运营商分配的，并不包含地理信息。而且，随着互联网托管业务的发展，IP地址的地理位置，并不能代表网站拥有者的行政属地。(3)通过注册机构来确定网站拥有者的行政属地。比如中国互联网信息中心(ChinaInternetNetworkInformationCenter,C窗IC，http:〃www.cnnic.net/)，它要求用户注册域名时提供有关的地理位置信息，由此可以得到有关网站拥有者的行政属地信息。但这种信息也有其局限性，一方面同样由于托管等原因，它并不能完全正确反映网站拥有者的行政属地；另一方面，由于管理的原因，一个注册机构并不能完整拥有整个互联网上所有的域名信息。从上面的分析可以看出，不管是哪种方法，基本上都是需要人工进行收集,—并且并不能正确反映网站拥有者的行政属地。
发明内容本发明旨在提供一种方法，能够自动获取所有网站的拥有者的行政属地信息。本发明的从网页中自动提取网站拥有者行政属地信息的方法，其步骤包括1)建立行政区划数据库，该数据库存储下列信息省、自治区、直辖市全称和简称；与省、自治区、直辖市具有从属关系的市一级行政区划全称和简称；与市一级行政区划匹配的电话区号；与市一级行政区划匹配的邮政编码；2)访问给定的网站，链接该网站的网页；3)分别按照下述方式提取网页的信息，与数据库中的行政区划信息进行匹配，直到获得该网页包含的行政属地信息-提取该网页的标题信息；以提示邮政编码信息的关键词检索该网页源文件，提取关键词后的连续6个数字信息；以提示直接地址信息的关键词检索该网页源文件，提取关键词后的汉字内容；以提示电话区号信息的关键词检索该网页源文件，提取关键词后的电话号码信息；以提示版权信息的关键词检索该网页源文件，提取关键词前后的汉字内容；以提示营业执照信息的关键词检索该网页源文件，提取关键词前的一个汉字内容；根据该网页的URL提取地址信息。所述提示邮政编码信息的关键词包括但不限于下列关键词的一种或几种"联系地点"，"联系方式"，"邮编"，"邮汇请寄"，"address","邮政编码"，"地址"，"办公地点"，"联系方法"，"社址"，"联系地点"，"联系方式"，"邮编"，"邮汇请寄"，"address:"，"邮政编码"，"地址"，"办公地点"，"联系方法"，"社址"，"联系地点:"，"联系方式:"，"邮编:"，"邮汇请寄:"，"address:","邮政编码:"，"地址:"，"办公地点:"，"联系方法:"，"社址:"；所述提示直接地址信息的关键词包括但不限于下列关键词的一种或几种"主办单位"，"联系地点"，"联系方式"，"邮汇请寄"，"address","地址"，"所属地区"，"发售地点"，"技术支持"，"制作维护"，"公司全称"，"办公地点"，"联系方法"，"单位所在省市"，"单位所在地"，"单位名称"，"社址"，"承办单位"，"add","主办单位"，"联系地点"，"联系方式"，"邮汇请寄:"，"address:"，"地址:"，"所属地区:"，"发售地点:"，"技术支持:"，"制作维护"，"公司全称"，"办公地点"，"联系方法"，"单位所在省市"，"单位名称"，"社址"，"承办单位"，"add:","主办单位:"，"联系地点:"，"联系方式:"，"邮汇请寄:","add跳"，"地址:"，"所属地区:"，"发售地点:"，"技术支持:"，"制作维护:"，"公司全称:","办公地点:"，"联系方法:"，"单位所在省市:"，"单位名称:"，"社址:"，"承办单位:"，"add:";所述提示电话区号信息的关键词包括但不限于下列关键词的一种或几种"联系方式"，"电话"，"tel"，"Td"，"TEL"，"客户服务热线"，"传真"，"联系方法"，"address","telephone","Fax"，"热线"，"联系方式"，"电话"，"tel:"，"telephone:","客户服务热线"，"传真"，"联系方法"，"TEL:"，"Tel:"，"Fax:"，"联系方式:"，"电话:"，"tel:"，"telephone:"，"客户服务热线","address:","传真:"，"联系方法:"，"TEL:"，"Tel:"，"Fax:"，"热线:";所述提示版权信息的关键词包括但不限于下列关键词的一种或几种"版权所有"，"&c叩y"，"责任公司"，"有限公司"，"制作维护"，"CopyRights";所述提示营业执照信息的关键词包括但不限于下列关键词的一种或几种"ICP证"，"ICP备"。上述网页为主页。当从网站的主页中提取不到行政属地信息时，链接该网站的地理特征网页，按与主页相同的方式提取相关信息，直到获得行政区划信息；所述地理特征网页为满足下列条件之一的网页1.该网页的URL名中含有下列之一的关键词Gsjs.htmcompany.htmcontact.htm/about/lxff.htmdxjj.h加gsjj.htm;2.该网页标题中含有下列之一的关键词简介，介绍，关于我们，概况；3.跳到该网页的链接中含有下列之一的关键词公司介绍，关于我们，饭店介绍，公司信息，联系我们，关于站长，关于本站，联系我，与我联系，联系本人，关于本人，contact,学校概况，学校简介，公司简介，公司概述，联系方式，付款方式，业务联系，招聘信息，企业介绍。对于地理特征网页，还可检索该地理特征网页的全文，与数据库中的行政区划信息进行匹配，获得该网页包含的行政属地信息。当从主页中无法获得行政属地信息，且该网站没有地理特征网页时，或从地理特征网站中仍无法获得行政属地信息时，链接该网站的普通网页，按与主页相同的方式提取相关信息，直到获得行政属地信息。本发明所采取的方法是分析网站拥有者行政属地信息在网站的网页中出现的规律，从网站的网页内容中自动提取出网站拥有者的行政属地信息，最终能够帮助建设一个网站拥有者行政属地关系数据库<网站，所在省，所在市>。本发明分两个步骤来完成网站拥有者行政属地信息的自动确定。首先是分析网站拥有者行政属地信息在网站的网页中出现的规律，其次是根据有关规律，制定相应的行政属地信息提取规则，自动获取网站拥有者的行政属地信息。首先，经过实际分析，网页中地址信息出现的形式主要有以下几类■行政区划地名，如北京市、海淀区；江西省、南昌市。■行政区划地名简称，这包括中文和拼音2种简称，如"京"表示北京市，"赣"表示江西省；"bj"表示北京市，"jX"表示江西省。■电话区号，如010表示北京，0796表示江西省吉安市。醒邮政编码，如100871，表示北京大学。依据这些信息，我们建立了行政区划有关的地址数据库，作为确定网站拥有者行政属地信息的依据，包括讓〈province,provinceAbl，provinceAb2,city,cityAbl,cityAb2〉的关系数据库。数据库中的六个数据项分别为省、自治区和直辖市的全称和简称，其中第1个简称是中文，第2个简称是拼音；市一级行政单位的全称和简称。在一条记录中，city、cityAM禾口cityAb2X寸应同一个市级行政单位，从属于province、provinceAbl禾卩provinceAb2中存储的省级行政单位。膽〈province,city，tel-cod^的关系数据库。数据库中的三个数据项分别为省、自治区和直辖市的全称；市一级行政单位的全称；电话区号。在一条记录中，tel-code存储了city中存储的城市的电话区号，且该城市从属于province中存储的省级行政单位。■<provinCe,city，zipcode〉的关系数据库。数据库中的三个数据项分别为省、自治区和直辖市的全称；市一级行政单位的全称；邮政编码。在一条记录中，zipcode存储了city中存储的城市的邮政编码，且该城市从属于province中存储的省级行政单位。(1)网站中拥有者行政属地信息出现的规律分析网站中拥有者行政属地信息出现的规律主要包括以下几种(I)URL自身的特征很多以.cn作为顶级域名的门户网站以其所在地的省份简称作为二级域名，比如.bj.cn表示北京市的网站；.fj.cn表示福建省的网站等等。通过提取这些二级域名，可以很方便的获得网站拥有者行政属地信息。安徽省北京市福建省甘肃省广东省广西壮族自治区贵州省海南省.ah.cn.bj.cn.0.cn.gs.cn.gd,cn.gx,cn.gz.cn.hi.cn河北省河南省黑龙江省湖北省湖南省吉林省江苏省江西省辽宁省.he.cn.ha.cn.hl.cn.hb.cn,hn.cn,jl.cn.js.cn.jx.cn.ln.cn内蒙古自治区宁夏回族自治区青海省山东省山西省陕西省上海市.nm.cn.nx.cn.qh.cn.sd.cn.sx.cn.sn.cn.sh.cn四川省天津市西藏s治区新疆维吾尔自治区云南省浙江省重庆市.sc.cn.tj.cn.xz.cn.xj.cn.yn.cn.zj.cn.cq,cn直接从URL获得地址的办法也可以适用于通过三级域名确定市一级行政单位，比如.fz.fi.cn可以确定是福建省福州市。(II)标题里反映的地理信息HTML文件中的大量tag标签提示了某一特定内容在网页中的特殊位置，这些提示可以用来帮助我们确定地理位置。比如々itleXtitle;4示签，其中的内容是网页的标题，这些标题中往往包含了该网页所在的地址。(III)主页中的地理信息我们把网站中第一个具有实质内容的网页称为"主页"，大多数情况下，网站拥有者行政属地信息都在主页中出现。网站拥有者行政属地信息在这类网页中出现的规律比较简单，一般是出现在网页的最下方或最上方。在出现网站拥有者行政属地信息的地方，在它们的前后往往都会有固定的关键词出现。根据不同类型的关键词，可以提取出相应的跟网站拥有者行政属地相关的地址内容。再根据这些地址内容，借助己建立的行政区划有关的地址数据库，就可以确定网站拥有者的行政属地信息。这些关键词分通常有五类■直接给出地址信息的关键词在源文件中检索提示直接地址信息的关键词，并提取出关键词之后的30个汉字内容，网站拥有者行政属信息通常就包含在这30个汉字中(注1、这里的30个汉字是经验值。2、这里的汉字内容并不是直接拷贝网页上的内容，而是经过了过滤处理，具体处理策略见后文)。此类关键词常见的包括(以空格分隔，下同)主办单位联系地点联系方式邮汇请寄address地址所属地区发售地点技术支持制作维护公司全称办公地点联系方法单位所在省市单位所在地单位名称社址承办单位add主办单位联系地点联系方式邮汇请寄address:地址所属地区发售地点技术支持制作维护公司全称办公地点联系方法单位所在省市单位名称社址承办单位add:主办单位联系地点联系方式邮汇请寄address:地址所属地区发售地点技术支持制作维护公司全称办公地点联系方法单位所在省市单位名称社址承办单位:add:上述所列的55个关键字并不是3次重复，请注意关键字后面有无标点，以及标点的半角、全角形式，不同的标点可以代表不同的关键字。鹏给出电话区号的关键词在源文件中检索提示电话号码的关键词，并提取出其后的电话号码。此类关键词常见的包括联系方式电话telTelTEL客户服务热线传真联系方法addresstelephoneFax热线联系方式电话tel:tel印hone:客户服务热线传真联系方法TEL:Tel:Fax:联系方式电话:tel:tel印hone:客户服务热线address:传真联系方法TEL:Tel:Fax:热线类似的，上述34个关键字也要区别它们所带的标点符号。再根据电话号码的书写规范，提取出电话区号。电话号码的书写规范主要有-86***86**0086***0086**0086—*承*—0086—**—00860086**0086——***——0086—**——0***0**0***——0**一86+***+86十***++86***+86**+86(***)+86(**)+86(***)+86(*"(***)(*"(86)***(86)**(86)***(86)**(86)***(86)**(86)***(86)**(86***)(86**)■给出邮政编码的关键词在源文件中检索提示邮政编码的关键词，并提取出其后(或隔了一个"("之后)的连续6个数字作为邮政编码，同时需要检验第7个连续的有效字符不是数字(如果第7个字符还是数字，则前面所提取的6个数字可能并不是邮政编码)。此类关键词常见的包括(同样要区别它们所带的标点符号)联系地点联系方式邮编邮汇请寄address邮政编码地址办公地点联系方法社址联系地点联系方式邮编邮汇请寄address:邮政编码地址办公地点联系方法社址联系地点联系方式邮编邮汇请寄address:邮政编码地址办公地点联系方法社址■给出版权信息的关键词在源文件中检索提示版权信息的关键词，并分别提取出关键词之前和之后的各30个汉字，共60个汉字的内容(注1、这里的60个汉字是经验值。2、这里的汉字内容并不是直接拷贝网页上的内容，而是经过了过滤处理，具体处理策略见后文)。此类关键词常见的包括:版权所有&copy责任公司有限公司制作维护CopyRights■给出营业执照信息的关键词在源文件中检索提示营业执照信息的关键词，并提取该关键词前紧挨着的最后一个汉字作为提取内容(注这里的"紧挨着"是指经过了过滤处理以后紧挨着，具体处理策略见后文)，该内容在正常情况下应当为省、自治区、直辖市的中文简称。这类关键词主要有2个ICP证ICP备(IV)地理特征网页地理特征网页是一个网站中的一类特殊的网页，这类网页的主要内容就是介绍该网站拥有者的信息，因此可以认为该网页内容中出现的所有和地理位置相关的词汇均是反映该网站拥有者的行政属地。比如http:Wwww.fzu.edu.cn/h31514/fzdxjj.html，该网页的主要内容就是介绍其属主福州大学的情况。一般可以通过如下三条渠道来确定一个网页是地理特征网页■URL中的网页名字特征含有如下关键词Gsjs.htmcompany.htmcontact.htm/about/lxff.h加dxjj.htmgsjj.h加在上例屮，http:〃www.fzu.edu.cn/h31514/fzdxjj.html就含有dxjj.htm的关键字("大学简介"的简拼)。■网页标题中含有如下关键词简介介绍关于我们概况在上例中，源代码中出现"々itl^简介々title〉"，即标题里含有"简介"的关键字。■跳到该网页的链接提示中含有如下关键词公司介绍关于我们饭店介绍公司信息联系我们关于站长关T本站联系我与我联系联系本人关于本人contact学校概况学校简介公司简介公司概述联系方式付款方式业务联系招聘信息企业介绍在上例中，可以通过在网页http:〃www.fzu.edu.cn/cindex/cindex.html中点击"学校简介"的链接进入http:〃www.fzu.edu.cn/h31514/fzdxjj.html。链接提示中含有"学校简介"的关键词。需要特别说明的是，上述各类关键词，在下面的自动提取过程中，是可以根据实际需要进行不断的补充的，并不局限于上文所列举的。(2)从网站的网页中自动获取网站拥有者行政属地信息(I)网页内容过滤处理这里以一个具体的例子来说明网页内容的过滤处理。下面是一个具体的网页源代码片段:<tdalign=middlebgcolor=#D2D3DFnowrapwidth='30'height='30'><fontcolor-'糾00000'xb〉单位〈br〉地址々bx/fontx/pxZtd〉<tdbgcolor=#DEDFE7height='35'>《ontcoOF'恥00000'〉中国广州沙面南街1号々fontx/tc^<tdalign=middlebgcolor=#D2D3DFwidth='30'height='30'>〈pxfontcolor-W000000'xb〉单位〈br〉电话々bx/fontx/px/td〉<tdbgcolor=#DEDFE7height='35'><fontcolor=W000000'>+862081886968</font></td><tdalign-middlebgcolor=#D2D3DFheight='30'width='30'>〈pxfontcolor^弁000000'xb〉单位〈br〉传真〈/bx/fontx/px/td〉<tdbgcobr=#DEDFE7height='35'><fontcolor='#000000'>+862081861188</font></td><tdalign=middlebgcolor=#D2D3DFwidth='30'height='30'>〈pxfontcolor^弁000000'xb〉单位〈br〉邮编〈/bx/fontx/px/td〉<tdbgcolor=#DEDFE7height='35'><fontcolor='#000000'>510070</font></td>这个源代码片段在网页里的表现形式是-个如下的Table:地上.l:'丫'.位屯IA仏A:弹中闺广州沙血南街l"+8(>2081886968+8620818611885H)',7(>"地址"、"电话"、"传真"和"邮编"是可以用来提取地址信息的关键词，但是在上例中，这些关键词和其后含有信息的网页内容并不是紧挨着的，中间插入了一些关于字体、颜色等等的修饰信息，这就需要在提取关键词前后的信息时对这些修饰信息加以过滤过滤掉所有的"空格符"。过滤掉所有的"回车符"。*过滤掉所有的"Tab"(制表符)。过滤掉所有的"o"中的内容(可以用一个堆栈计算"o"的匹配，处理""嵌套的问题)。(II)提取一个网页中地址信息的Search模块Search模块的作用是从一个已知内容的网页中提取出网站拥有者行政属地信息。根据前面描述的规律，可以按照以下步骤进行提取(如图l所示)*可否从标题获得地址？如果是，获得地址，跳出。*可否从邮政编码获得地址？如果是，获得地址，跳出。*可否从直接的地址信息获得地址？如果是，获得地址，跳出。*可否从电话区号获得地址？如果是，获得地址，跳出。*可否从版权信息获得地址？如果是，获得地址，跳出。*可否从营业执照获得地址？如果是，获得地址，跳出。O可否从URL直接获得地址？如果是，获得地址，跳出。*是不是地理特征网页？如果是，可否全文检索获得地址？如果可以，获得地址，跳出。否则，Search模块没有办法获得地址。按照这样的顺序执行Search模块的原因首先，根据各个单项指标提取正确率的测试结果(具体样本釆集及结果分析参见表l)，按照从高到低的顺序安排了"标题测试"、"直接地址信息测试"、"邮政编码测试"、"电话区号测试"和"版权信息测试"。这五个单项指标的提取正确率都达到了95%以上，可以认为是基本可信的，所以一旦其中某一个测试得到了结果，就认为这个结果是正确的，不再做进一步的测试了。同时，如果某一个单项测试没有提取出地理位置，那么其后进行的其他单项测试仍然可能提取出地理位置，所以在这里，各个单项测试指标的提取覆盖率不影响它们执行的前后顺序。其次，虽然使用营业执照信息和URL自身的信息的提取准确率都非常高(使用营业执照信息的准确率达到100%,参见表1)，但是这两个提取指标在提取时只能达到省一级行政单位的精确度，不如其他五类提取指标的精确度，所以把这两个指标放在最后。(III)提取一个网站地址信息的主模块上面己经详细描述了从一个给定网页中提取地址信息的方法，这里讨论确定一个给定网站的拥有者行政属地信息的方法。换句话说，要找到一种流程，能够确定一个网站中最具有代表性的一个网页，并利用上面的方法处理该网页，获得网站拥有者行政属地信息。具体流程如图2所示。*给定的网站能否访问？如果不能访问，无法获得地址，退出。*该网站的主页使用Search模块能否获得地址？如果可以获得，退出。*检査主页中的所有链接提示，是否能够找到地理特征网页的链接提示关键词。如果是，对于所有找到的链接提示，提取出其后的链接并跟踪，按照地理特征网页的处理办法处理这些链接到的网页。*如果找不到这样的关键词或者找遍了所有这样的关键词所带的链接，仍然不能确定地址，对主页中的所有链接进行跟踪，并按处理"主页"的处理办法处理这些链接到的网页(称为普通网页)。这里并不对普通网页中的链接再做处理。来看一下这样做的原因首先，仍然是只要在以上任一步骤中确定了地址，就不再往下做了。其次，把提示地理特征网页的链接和普通链接分开处理，是基于效率上的考虑。地理特征网页的地理位置提取率要远远高于普通链接的网页，而且这一类网页链接的数目又要远远小于普通链接的数目。所以我们将这类链接和普通链接区分开来，优先处理。首先，为了验证网站中拥有者行政属地信息出现的规律，我们依据北大"天网"搜索引擎的搜索记录，随机地选取了一些网站，分别对"直接地理位置信息"、"电话区号信息"、"邮政编码信息"、"标题信息"和"营业执照信息"五个单项指标进行了分类调査，总结出当网站的网页信息中拥有某类地址提不信息时，能够正确获得网站拥有者行政属地信息的比率，如表1所示。表1分类调査结果<table>tableseeoriginaldocumentpage14</column></row><table>表1的结果说明了本发明方法的可用性。其次，我们从中国互联网信息中心(CNNIC，http:〃www.cnnic.net)上收集了44685个网站及其拥有者的行政属地信息，按照其中二级域名的分类数量，按比例随机选择了634个网站，运用我们的方法进行测试，所得结果如表2所示。表2CNNIC上网站抽样分析结果1<table>tableseeoriginaldocumentpage14</column></row><table>表2中，"有提示，但信息不足"指得是这些网站中出现过本发明中提到的各类关键词中的一个或几个，或者出现过引导地理特征网页链接的关键词。但是根据这些关键词提取出来的相关网页内容不足以帮助我们确定一个网站拥有者的行政属地，我们还需要额外的外部知识。主要原因在于我们所建的行政区划有关的地址数据库不够。如以拼音形式出现的地名"Bdjing"，一些著名的景点、机构等与行政区划之间的关系，如"鲁能俱乐部"位于"山东济南"，"迎客松"代表"安徽黄山"等。表2的结果说明了本发明的有效性，运用本发明方法，能够帮助建设一个网站拥有者行政属地关系数据库<网站，所在省，所在市>。所建立的网站拥有者行政属地关系数据库，对于在互联网上提供全面的"WHOIS査询"服务有重要作用；同时，也可以为人们从地理分布的角度了解和研究互联网的发展现状和发展趋势提供直接的帮助。图1是提取一个给定网页的地址信息的流程图，其中，"T"表示"是"，"F"表示"否"，(1)为"给定网页的URL"，(2)为"可否从标题获得地址？"，(3)为"可否从邮政编码获得地址？"，(4)为"可否从直接的地址信息获得地址？"，(5)为"可否从电话区号获得地址？"，(6)为"可否从版权信息获得地址？"，(7)为"可否从营业执照获得地址？"，(8)为"可否从URL直接获得地址？"，(9)为"是不是地理特征网页？"，(10)为"可否通过全文检索获得地址？"，(11)为"该网页所在位置"，(12)为"无法获得地址"。图2是提取一个给定网站的地址信息的流程图，其中，"T"表示"是"，"F"表示"否"，(1)为"给定网站的URL"，(2')为"该网站可否被访问？"，(3')为"能否获得网站'主页'？"，(4')为"调用Search模块可否获得地址？"，(5')为"是否存在未被访问的地理特征链接？"，(6')为,对链接网页用Search模块获得地址？"，(7')为"是否存在未被访问的普通链接？"，(8')为"对链接网页用Search模块获得地址？"，(9')为"获得网站的地址"，(IO')为"无法获得地址"。具体实施方式-下面通过几个具体的网站来说明如何实施本发明方法来确定网站拥有者行政属地。()石家庄高新技术产业开发区网站(http://www.shidz.com/index.jsp)，该网站主页拥有丰富的地址信息，本发明方法从其主页的标题信息"石家庄高新技术产业开发区"中，可以很快地确定该网站拥有者的行政属地为"河北省石家庄市"。(2)同样在该网站的首页上，还包括以下信息-园区概览I招商引资I诺亚招聘网I企业在线I产业园地I园区生活I网站地图I联系我们石家庄国家高新技术产业开发区管理委员会版权所有86-311-8509511385962248石家庄高新技术产业开发区信息中心运行维护地址石家庄市黄河大道151号邮编050035冀ICP备05011315从上面的信息中，可以通过"直接地理位置信息"、"电话区号信息"、"邮政编码信息"和"营业执照信息"等各类关键词来确定该网站拥有者的行政属地。(3)上面的主页信息中，也包含提示地理特征网页链接的关键词"园区概览"，其URL中的网页名字为"yqgk.jsp"，其具体内容为石家庄高新技术产业开发区是1991年3月经国务院批准设立的首批国家级开发区之一。经过十余年建设，高新区注册企业己达1520家，其中，外商投资企业110家，实际利用外资8.17亿美元，项目总投资超过200亿元人民币。涉及美国、德国、英国、意大利、日本、加拿大、瑞典、马来西亚、韩国、香港、澳门和台湾等十多个国家和地区。随着一大批项目的成功建设，初步形成了以电子通信、医药化工、光机电一体化、新材料为支柱的特色产业。四大支柱产业的技工贸总收入占全区技工贸总收入的80%以上。2003年全区实现技工贸总收入237.96亿元，实现工业总产值182.82亿元，实现财政收入4.87亿元，出口创汇1.41亿美元。开发区政策区面积18平方公里，分为东区、西区、良村园区。同样，可以通过对该网页的内容进行全文检索，得到"石家庄"这个地址信息，作为该网站拥有者的行政属地。权利要求1.一种从网页中自动提取网站拥有者行政属地信息的方法，其步骤包括1)建立行政区划数据库，该数据库存储下列信息省、自治区、直辖市全称和简称；与省、自治区、直辖市具有从属关系的市一级行政区划全称和简称；与市一级行政区划匹配的电话区号；与市一级行政区划匹配的邮政编码；2)访问给定的网站，链接该网站的网页；3)分别按照下述方式提取网页的信息，与数据库中的行政区划信息进行匹配，直到获得该网页包含的行政属地信息提取该网页的标题信息；以提示邮政编码信息的关键词检索该网页源文件，提取关键词后的连续6个数字信息；以提示直接地址信息的关键词检索该网页源文件，提取关键词后的汉字内容；以提示电话区号信息的关键词检索该网页源文件，提取关键词后的电话号码信息；以提示版权信息的关键词检索该网页源文件，提取关键词前后的汉字内容；以提示营业执照信息的关键词检索该网页源文件，提取关键词前的一个汉字内容；根据该网页的URL提取地址信息。2.如权利要求1所述的从网页中自动提取网站拥有者行政属地信息的方法，其特征在于过滤掉所述提取的网页信息中所有的空格符，回车符，制表符和所有O中的内容。3.如权利要求l所述的从网页中自动提取网站拥有者行政属地信息的方法，其特征在于所述简称包括汉字简称和汉语拼音简称。4.如权利要求1或2所述的从网页中自动提取网站拥有者行政属地信息的方法，其特征在于以提示直接地址信息的关键词检索该网页源文件，提取关键词后的30个汉字内容；以提示版权信息的关键词检索该网页源文件，提取关键词前后各30个汉字内容。5.如权利要求l所述的从网页中自动提取网站拥有者行政属地信息的方法，其特征在于所述提示邮政编码信息的关键词包括但不限于下列关键词的一种或几种"联系地点"，"联系方式"，"邮编"，"邮汇请寄"，"address","邮政编码"，"地址"，"办公地点"，"联系方法"，"社址"，"联系地点"，"联系方式"，"邮编"，"邮汇请寄"，"address:"，"邮政编码"，"地址"，"办公地点"，"联系方法"，"社址"，"联系地点:"，"联系方式:"，"邮编:"，"邮汇请寄:"，"address:","邮政编码:"，"地址:"，"办公地点:"，"联系方法:"，"社址:"；所述提示直接地址信息的关键词包括但不限于下列关键词的一种或几种"主办单位"，"联系地点"，"联系方式"，"邮汇请寄"，"address","地址"，"所属地区"，"发售地点"，"技术支持"，"制作维护"，"公司全称"，"办公地点"，"联系方法"，"单位所在省市"，"单位所在地"，"单位名称"，"社址"，"承办单位"，"add","主办单位"，"联系地点"，"联系方式"，"邮汇请寄:"，"add簡:"，"地址:"，"所属地区:"，"发售地点:"，"技术支持:"，"制作维护"，"公司全称"，"办公地点"，"联系方法"，"单位所在省市"，"单位名称"，"社址"，"承办单位"，"add:"，"主办单位:"，"联系地点:"，"联系方式:"，"邮汇请寄:"，"address:","地址:","所属地区:"，"发售地点:"，"技术支持:"，"制作维护:"，"公司全称:"，"办公地点:"，"联系方法:","单位所在省巿:"，"单位名称:"，"社址:"，"承办单位:"，"add:";所述提示电话区号信息的关键词包括但不限于下列关键词的一种或几种"联系方式"，"电话"，"tel","Tel"，"TEL"，"客户服务热线"，"传真"，"联系方法"，"address","telephone","Fax","热线"，"联系方式"，"电话"，"tel:"，"telephone:"，"客户服务热线"，"传真"，"联系方法","TEL:"，"Tel:"，"Fax:","联系方式:"，"电话:"，"tel:"，"telephone:","客户服务热线:"，"address:","传真:"，"联系方法:"，"TEL:","Tel:"，"Fax:"，"热线:"；所述提示版权信息的关键词包括但不限于下列关键词的一种或几种"版权所有"，"&copy"，"责任公司"，"有限公司"，"制作维护"，"CopyRights";所述提示营业执照信息的关键词包括但不限于下列关键词的一种或几种"ICP证"，"ICP备"。6.如权利要求l所述的从网页中自动提取网站拥有者行政属地信息的方法，其特征在于所述网页为网站的主页。7.如权利要求6所述的从网页中自动提取网站拥有者行政属地信息的方法，其特征在于当从网站的主页中提取不到行政属地信息时，链接该网站的地理特征网页，按与主页相同的方式提取相关信息，直到获得行政区划信息；所述地理特征网页为满足下列条件之一的网页1)该网页的URL名中含有下列之一的关键词Gsjs.htmcompany.htmcontact.htm/about/lxff.htmdxjj.htmgsjj.htm;2)该网页标题中含有下列之一的关键词简介，介绍，关于我们，概况；3)跳到该网页的链接中含有下列之一的关键词公司介绍，关于我们，饭店介绍，公司信息，联系我们，关于站长，关于本站，联系我，与我联系，联系本人，关于本人，contact,学校概况，学校简介，公司简介，公司概述，联系方式，付款方式，业务联系，招聘信息，企业介绍。8.如权利要求7所述的从网页中自动提取网站拥有者行政属地信息的方法，其特征在于还可以提取该地理特征网页的全文信息，与数据库中的行政区划信息进行匹配，获得该网页包含的行政属地信息。9.如权利要求7所述的从网页中自动提取网站拥有者行政属地信息的方法，其特征在于当从主页中无法获得行政属地信息，且该网站没有地理特征网页时或从地理特征网站中仍无法获得行政属地信息时，链接该网站的普通网页，按与主页相同的方式提取相关信息，直到获得行政属地信息。全文摘要本发明涉及一种从网页中自动提取网站拥有者行政属地信息的方法，首先建立行政区划数据库，然后访问给定的网站，链接该网站的网页，提取网页的信息并与所建立的行政区划数据库中的信息进行匹配，直到获得该网页包含的行政属地信息；本方法对于在互联网上提供全面的“WHOIS查询”服务有重要作用；同时，也可以为人们从地理分布的角度了解和研究互联网的发展现状和发展趋势提供直接的帮助。文档编号G06F17/30GK101127050SQ20071014299公开日2008年2月20日申请日期2007年8月14日优先权日2007年7月3日发明者汪小林,罗英伟,许卓群申请人:北京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗英伟;汪小林;许卓群
技术所有人：北京大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。