基于互联网的组织机构信息整合与更新方法

文档序号:6370725阅读:122来源:国知局
专利名称:基于互联网的组织机构信息整合与更新方法
技术领域
本发明涉及互联网信息智能处理技术领域,更具体地说,本发明涉及一种基于互联网的组织机构信息整合与更新方法。
背景技术
组织机构信息主要指组织机构的名称、地址、联系人、联系电话、电子邮件等信息。组织机构数据库是用来存放大量组织机构信息的数据库,其在信息发布、商函投递、定向营销领域往往发挥着很大的作用。由于组织机构信息变更等原因,组织机构数据库中往往存在着不少错误记录,且这些错误记录很难进行更新。目前对组织机构信息进行更新的方法主要是通过周期性的人工校对方式对组织机构数据库进行更新,该方法的缺点是①对组织机构数据库更新的速度跟不上组织机构信息的变化,从而使得数据记录的质量持续下降组织机构信息更新成本高。本发明使用的已有技术包括元搜索引擎。元搜索引擎是通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)搜索引擎来实现检索操作,是对分布于网络的多种检索工具的全局控制机制。

发明内容
本发明的目的在于克服现有技术的缺点,解决目前无法对组织机构数据进行大规模有效整合和更新的问题,提出一种基于互联网的组织机构信息整合与更新方法。本发明的目的是通过下述技术方案实现的。—种基于互联网的组织机构信息自动整合与更新方法,用于对组织机构数据库中的组织机构信息进行更新;所述组织机构信息包括但不限于组织机构的名称、地址、联系人、联系电话、电子邮件;该方法的操作步骤包括步骤I至步骤6,具体为步骤I :获取包含指定组织机构的组织机构信息的网页,获取到的网页数量用N表示,N为正整数。从互联网上获取包含指定组织机构的组织机构信息的网页,具体为定时扫描组织机构数据库,依次将组织机构数据库中的组织机构的名称作为搜索关键词,利用搜索引擎在互联网上获取包含搜索关键词的网页。所述搜索引擎为元搜索引擎。所述包含搜索关键词的网页具体为对应组织机构的主页、包含对应组织机构招聘信息的网页。步骤2 :抽取组织机构信息。利用网页格式解析技术依次从步骤I获取到的包含指定组织机构的组织机构信息的网页上抽取组织机构信息,从N个网页上得到N条组织机构信息;具体操作为 步骤2. I :对步骤I获取到的包含指定组织机构的组织机构信息的网页进行HTML解析,得到DOM树。即根据网页标签建立DOM树的节点,将HTML文本转化为DOM树的结构。步骤2. 2 :对步骤2. I处理的网页进行DOM树分析,提取其中的组织机构信息。步骤3 :判断待匹配组织机构信息是否与原始组织机构信息一致。将步骤2抽取得到的组织机构信息称为待匹配组织机构信息,将组织机构数据库中对应的组织机构信息称为原始组织机构信息。设定临时变量k,0 < k < N,并将k的初始值设为I。依次判断第k个待匹配组织机构信息是否与原始组织机构信息一致,如果结果为不相关,则将第k个待匹配组织机构信息作为新数据补充至组织机构数据库中;如果第k个待匹配组织机构信息与原始组织机构信息不一致,执行步骤4的操作;否则,使k值自增 1,然后判断k > N是否成立,如果不成立,重复步骤3 ;否则,终止。所述判断待匹配组织机构信息是否与原始组织机构信息一致的具体方法是步骤3. I :判断待匹配组织机构信息中的组织机构名称与原始组织机构信息中的组织机构名称是否一致。如果判断的结果是一致,则执行步骤3. 2的操作;否则,得出待匹配组织机构信息与原始组织机构信息不相关的结论。所述判断待匹配组织机构信息中的组织机构名称与原始组织机构信息中的组织机构名称是否一致的具体操作是步骤3. I. I :分别从待匹配组织机构信息中的组织机构名称和原始组织机构信息中的组织机构名称中解析出一级行政区划、字号、所属行业等信息。步骤3. I. 2 :判断待匹配组织机构信息中的一级行政区划与原始组织机构信息中的一级行政区划是否一致如果待匹配组织机构信息中的一级行政区划与原始组织机构信息中的一级行政区划完全相同,或者其中一个缺失,则得出待匹配组织机构信息中的一级行政区划与原始组织机构信息中的一级行政区划一致的结论,执行步骤3. I. 3的操作;否贝U,得出待匹配组织机构信息中的组织机构名称与原始组织机构信息中的组织机构名称不一致的结论。步骤3. I. 3 :判断待匹配组织机构信息中的所属行业与原始组织机构信息中的所属行业是否一致如果待匹配组织机构信息中的所属行业与原始组织机构信息中的所属行业完全相同,或者待匹配组织机构信息中的所属行业与原始组织机构信息中的所属行业不完全相同,但通过查找行业近义词词典,确定待匹配组织机构信息中的所属行业与原始组织机构信息中的所属行业在行业近义词词典中是近义词,则得出待匹配组织机构信息中的所属行业与原始组织机构信息中的所属行业一致的结论,执行步骤3. I. 4的操作;否则,得出待匹配组织机构信息中的组织机构名称与原始组织机构信息中的组织机构名称不一致的结论。所述行业近义词词典是通过知网(www.keenage.com)获取行业近义词并编写而成。步骤3. I. 4 :判断待匹配组织机构信息中的字号与原始组织机构信息中的字号是否一致如果待匹配组织机构信息中的字号与原始组织机构信息中的字号完全相同,或者待匹配组织机构信息中的字号与原始组织机构信息中的字号有P%以上一致(P为人为设定值,P为正实数),不一致的部分通过查找同音字词典或者同形字词典,确定不一致的部分是同音字或者同形字,则得出待匹配组织机构信息中的组织机构名称与原始组织机构信息中的组织机构名称一致的结论;否则,得出待匹配组织机构信息中的组织机构名称与原始组织机构信息中的组织机构名称不一致的结论。所述同音字词典是根据新华字典汉字拼音表得到;所述同形字词典是根据中国九年义务教育六年制小学语文第I册至第8册课本内容整理得到。步骤3. 2 :判断待匹配组织机构信息中的组织机构地址与原始组织机构信息中的组织机构地址是否一致。如果判断的结果是一致,则执行步骤3. 3的操作;否则,得出待匹配组织机构信息是否与原始组织机构信息不一致的结论。
所述判断待匹配组织机构信息中的组织机构地址与原始组织机构信息中的组织机构地址是否一致的具体方法是步骤3. 2. I :分别从待匹配组织机构信息中的组织机构地址和原始组织机构信息中的组织机构地址中拆分出各级地址段。所述拆分各级地址段的最小级别为楼号。步骤3. 2. 2 :将从待匹配组织机构信息中的组织机构地址拆分出的各级地址段与从原始组织机构信息中的组织机构地址中拆分出的各级地址段依次对齐,并判断各级对应地址段是否一致,如果各级对应地址段完全一致,或者各级对应地址段不完全一致,但不一致的对应地址段通过查找地址缩略语词典,确定不一致的对应地址段是地址全称与地址缩略语的关系,则得出待匹配组织机构信息中的组织机构地址与原始组织机构信息中的组织机构地址一致的结论;否则,得出待匹配组织机构信息中的组织机构地址与原始组织机构信息中的组织机构地址不一致的结论。所述地址缩略语词典来源于中国邮政发布的地址缩略语词条。步骤3. 3 :判断待匹配组织机构信息中的联系人与原始组织机构信息中的联系人是否一致。如果待匹配组织机构信息中的联系人与原始组织机构信息中的联系人完全一致,则执行步骤3. 4的操作;否则,得出待匹配组织机构信息是否与原始组织机构信息不一致的结论。步骤3. 4 :判断待匹配组织机构信息中的联系电话与原始组织机构信息中的联系电话是否一致。如果待匹配组织机构信息中的联系电话与原始组织机构信息中的联系电话完全一致,则执行步骤3. 5的操作;否则,得出待匹配组织机构信息是否与原始组织机构信息不一致的结论。步骤3. 5 :判断待匹配组织机构信息中的电子邮箱与原始组织机构信息中的电子邮箱是否一致。如果待匹配组织机构信息中的电子邮箱与原始组织机构信息中的电子邮箱完全一致,则得出待匹配组织机构信息是否与原始组织机构信息一致的结论;否则,得出待匹配组织机构信息是否与原始组织机构信息不一致的结论。步骤4 :如果步骤3判断的结果为不一致,则进一步判断获取到待匹配组织机构信息的网页是否为该组织机构主页,如果不是,则执行步骤5的操作;如果获取到该组织机构信息的网页是该组织机构主页,执行步骤6的操作。步骤5 :通过人工核实方式,进一步判断待匹配组织机构信息是否需要更新,如果判断结果为需要更新,则执行步骤6的操作;否则,不对组织机构数据库进行更新操作,使k值自增I,然后判断k > N是否成立,如果不成立,重复步骤3 ;否则,终止。步骤6 :使用待匹配组织机构信息对原始组织机构信息进行更新;然后,使k值自增1,并判断k > N是否成立,如果不成立,重复步骤3 ;否则,终止。
有益效果本发明提出的方法与现有技术相比,有如下优点①克服了组织机构信息更新滞后的问题,减少信息延迟,提高组织机构数据库的质量。②克服了人力校对数据费时费力的问题,减少人为疏忽干扰。③提供了互联网数据来源这一崭新的渠道,信息量大,内容丰富,是传统数据来源的有益补充。


图I为本发明具体实施例I中的基于互联网的组织机构信息整合与更新方法的流程图。
具体实施例方式为了更好的说明本发明的技术方案,下面结合附图,通过2个实施例,对本发明做
进一步说明。行业近义词词典如表I所示,其每一行中的词为行业近义词。

权利要求
1.一种基于互联网的组织机构信息自动整合与更新方法,用于对组织机构数据库中的组织机构信息进行更新;所述组织机构信息包括但不限于组织机构的名称、地址、联系人、联系电话、电子邮件;其特征在于该方法的操作步骤包括步骤I至步骤6,具体为 步骤I :获取包含指定组织机构的组织机构信息的网页,获取到的网页数量用N表示,N为正整数; 从互联网上获取包含指定组织机构的组织机构信息的网页,具体为定时扫描组织机构数据库,依次将组织机构数据库中的组织机构的名称作为搜索关键词,利用搜索引擎在互联网上获取包含搜索关键词的网页; 步骤2 :抽取组织机构信息; 利用网页格式解析技术依次从步骤I获取到的包含指定组织机构的组织机构信息的网页上抽取组织机构信息,从N个网页上得到N条组织机构信息;具体操作为 步骤2. I :对步骤I获取到的包含指定组织机构的组织机构信息的网页进行HTML解析,得到DOM树;8卩根据网页标签建立DOM树的节点,将HTML文本转化为DOM树的结构;步骤2. 2 :对步骤2. I处理的网页进行DOM树分析,提取其中的组织机构信息; 步骤3 :判断待匹配组织机构信息是否与原始组织机构信息一致; 将步骤2抽取得到的组织机构信息称为待匹配组织机构信息,将组织机构数据库中对应的组织机构信息称为原始组织机构信息;设定临时变量k,0 < k < N,并将k的初始值设为I ;依次判断第k个待匹配组织机构信息是否与原始组织机构信息一致,如果结果为不相关,则将第k个待匹配组织机构信息作为新数据补充至组织机构数据库中;如果第k个待匹配组织机构信息与原始组织机构信息不一致,执行步骤4的操作;否则,使k值自增1,然后判断k > N是否成立,如果不成立,重复步骤3 ;否则,终止; 步骤4 :如果步骤3判断的结果为不一致,则进一步判断获取到待匹配组织机构信息的网页是否为该组织机构主页,如果不是,则执行步骤5的操作;如果获取到该组织机构信息的网页是该组织机构主页,执行步骤6的操作; 步骤5 :通过人工核实方式,进一步判断待匹配组织机构信息是否需要更新,如果判断结果为需要更新,则执行步骤6的操作;否则,不对组织机构数据库进行更新操作,使k值自增1,然后判断k > N是否成立,如果不成立,重复步骤3 ;否则,终止; 步骤6 :使用待匹配组织机构信息对原始组织机构信息进行更新;然后,使k值自增1,并判断k > N是否成立,如果不成立,重复步骤3 ;否则,终止。
2.如权利要求I所述的一种基于互联网的组织机构信息自动整合与更新方法,其特征在于其步骤I中所述搜索引擎为元搜索引擎。
3.如权利要求I或2中所述的一种基于互联网的组织机构信息自动整合与更新方法,其特征在于其步骤I中所述包含搜索关键词的网页具体为对应组织机构的主页、包含对应组织机构招聘信息的网页。
4.如权利要求I至3之一所述的一种基于互联网的组织机构信息自动整合与更新方法,其特征在于步骤3中所述判断待匹配组织机构信息是否与原始组织机构信息一致的具体方法是 步骤3. I :判断待匹配组织机构信息中的组织机构名称与原始组织机构信息中的组织机构名称是否一致;如果判断的结果是一致,则执行步骤3. 2的操作;否则,得出待匹配组织机构信息与原始组织机构信息不相关的结论; 所述判断待匹配组织机构信息中的组织机构名称与原始组织机构信息中的组织机构名称是否一致的具体操作是 步骤3. I. I :分别从待匹配组织机构信息中的组织机构名称和原始组织机构信息中的组织机构名称中解析出一级行政区划、字号、所属行业等信息; 步骤3. I. 2 :判断待匹配组织机构信息中的一级行政区划与原始组织机构信息中的一级行政区划是否一致如果待匹配组织机构信息中的一级行政区划与原始组织机构信息中的一级行政区划完全相同,或者其中一个缺失,则得出待匹配组织机构信息中的一级行政区划与原始组织机构信息中的一级行政区划一致的结论,执行步骤3. I. 3的操作;否则,得出待匹配组织机构信息中的组织机构名称与原始组织机构信息中的组织机构名称不一致的结论; 步骤3. I. 3 :判断待匹配组织机构信息中的所属行业与原始组织机构信息中的所属行业是否一致如果待匹配组织机构信息中的所属行业与原始组织机构信息中的所属行业完全相同,或者待匹配组织机构信息中的所属行业与原始组织机构信息中的所属行业不完全相同,但通过查找行业近义词词典,确定待匹配组织机构信息中的所属行业与原始组织机构信息中的所属行业在行业近义词词典中是近义词,则得出待匹配组织机构信息中的所属行业与原始组织机构信息中的所属行业一致的结论,执行步骤3. I. 4的操作;否则,得出待匹配组织机构信息中的组织机构名称与原始组织机构信息中的组织机构名称不一致的结论; 步骤3. I. 4 :判断待匹配组织机构信息中的字号与原始组织机构信息中的字号是否一致如果待匹配组织机构信息中的字号与原始组织机构信息中的字号完全相同,或者待匹配组织机构信息中的字号与原始组织机构信息中的字号有P%以上一致,P为人为设定值,P为正实数,不一致的部分通过查找同音字词典或者同形字词典,确定不一致的部分是同音字或者同形字,则得出待匹配组织机构信息中的组织机构名称与原始组织机构信息中的组织机构名称一致的结论;否则,得出待匹配组织机构信息中的组织机构名称与原始组织机构信息中的组织机构名称不一致的结论; 步骤3. 2 :判断待匹配组织机构信息中的组织机构地址与原始组织机构信息中的组织机构地址是否一致;如果判断的结果是一致,则执行步骤3. 3的操作;否则,得出待匹配组织机构信息是否与原始组织机构信息不一致的结论; 所述判断待匹配组织机构信息中的组织机构地址与原始组织机构信息中的组织机构地址是否一致的具体方法是 步骤3. 2. I :分别从待匹配组织机构信息中的组织机构地址和原始组织机构信息中的组织机构地址中拆分出各级地址段; 所述拆分各级地址段的最小级别为楼号; 步骤3. 2. 2 :将从待匹配组织机构信息中的组织机构地址拆分出的各级地址段与从原始组织机构信息中的组织机构地址中拆分出的各级地址段依次对齐,并判断各级对应地址段是否一致,如果各级对应地址段完全一致,或者各级对应地址段不完全一致,但不一致的对应地址段通过查找地址缩略语词典,确定不一致的对应地址段是地址全称与地址缩略语的关系,则得出待匹配组织机构信息中的组织机构地址与原始组织机构信息中的组织机构地址一致的结论;否则,得出待匹配组织机构信息中的组织机构地址与原始组织机构信息中的组织机构地址不一致的结论; 步骤3. 3 :判断待匹配组织机构信息中的联系人与原始组织机构信息中的联系人是否一致;如果待匹配组织机构信息中的联系人与原始组织机构信息中的联系人完全一致,则执行步骤3. 4的操作;否则,得出待匹配组织机构信息是否与原始组织机构信息不一致的结论; 步骤3. 4 :判断待匹配组织机构信息中的联系电话与原始组织机构信息中的联系电话是否一致;如果待匹配组织机构信息中的联系电话与原始组织机构信息中的联系电话完全一致,则执行步骤3. 5的操作;否则,得出待匹配组织机构信息是否与原始组织机构信息不一致的结论; 步骤3. 5 :判断待匹配组织机构信息中的电子邮箱与原始组织机构信息中的电子邮箱是否一致;如果待匹配组织机构信息中的电子邮箱与原始组织机构信息中的电子邮箱完全 一致,则得出待匹配组织机构信息是否与原始组织机构信息一致的结论;否则,得出待匹配组织机构信息是否与原始组织机构信息不一致的结论。
5.如权利要求4所述的一种基于互联网的组织机构信息自动整合与更新方法,其特征在于步骤3. I. 3中所述行业近义词词典是通过网站www. keenage. com获取行业近义词并编写而成。
6.如权利要求4所述的一种基于互联网的组织机构信息自动整合与更新方法,其特征在于步骤3. I. 4中所述同音字词典是根据新华字典汉字拼音表得到。
7.如权利要求4所述的一种基于互联网的组织机构信息自动整合与更新方法,其特征在于步骤3. I. 4中所述同形字词典是根据中国九年义务教育六年制小学语文第I册至第8册课本内容整理得到。
8.如权利要求4所述的一种基于互联网的组织机构信息自动整合与更新方法,其特征在于步骤3. 2. 2中所述地址缩略语词典来源于中国邮政发布的地址缩略语词条。
全文摘要
一种基于互联网的组织机构信息整合与更新方法,具体为①获取包含指定组织机构的组织机构信息的网页;②抽取组织机构信息;③判断待匹配组织机构信息是否与原始组织机构信息一致;④如果步骤③的结果不一致,则进一步判断获取到待匹配组织机构信息的网页是否为主页,如果不是主页,则执行步骤⑤;如果是主页,执行步骤⑥;如果步骤③的结果为一致,则不更新数据库。⑤人工核实方式进一步判断待匹配组织机构信息是否需要更新,如果判断结果为需要更新,则执行步骤⑥;否则,不更新数据库;⑥使用待匹配组织机构信息对原始组织机构信息进行更新。本发明提出的方法与现有技术相比,具有减少信息延迟,提高组织机构数据库的质量以及省时省力等优点。
文档编号G06F17/30GK102722562SQ20121017731
公开日2012年10月10日 申请日期2012年6月1日 优先权日2012年6月1日
发明者于满泉 申请人:浙江灵玖天下软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1