一种实现区域企业软件著作权公告摸底与管理的方法

文档序号:9432642阅读:267来源:国知局
一种实现区域企业软件著作权公告摸底与管理的方法
【技术领域】
[0001]本发明主要涉及一种实现区域企业软件著作权公告摸底与管理的方法,尤其是通过软件著作权公布网站的页面信息抓取、分析、整理、建档和运用以实现待查的区域的企业的软件著作权拥有情况摸底及运用的方法。
【背景技术】
[0002]目前,一个地区,或者说一定区域的企业,想查询所有企业各自的软件著作权拥有情况,尤其是广谱式的全民式查底,目前的方法相对难以实现,其不但需要到每个部门将软件著作权等数据归库,并且需要对每个地区数以百万计的企业与数以百万计的数据进行比对,这样不但成本高,而且数据源相对敏感而难以实现。
[0003]然而,一个地区的企业的知识产权状况,对于地方知识产权政策的制定与实施,以及地方政府对企业知识产权的管理等具有极强的基础性需求。

【发明内容】

[0004]为了解决上述问题,本发明提出了一种基于软件著作权的公众公开的登记或变更公告数据的页面级别的通过getHTTPPage方法的抓取技术,再结合数据库技术,采用企业数据预处理,第一次定性查询,第二次定量查询和第三次详情查询,最后进行第二数据库为基础的软件著作权情况等监控与管理的方法,此方法无需第三方的各种许可,而是通过合法的数据获取而低成本高速度地实现。
[0005]一种实现区域企业软件著作权公告摸底与管理的方法,其主要包含以下步骤: 步骤S102,在企业信息库中读出企业名称的待查数据;
步骤S103,将步骤S102所读出的企业名称通过函数转为下列所列的编码方式为GB2312,输出为第一变量;
步骤S104,以上述第一变量作为对应的URL的对应参数值生成第一 URL ;
步骤S105,通过getHTTPPage方式访问步骤S104生成的第一 URL,获得第一 URL对应的页面的HTML格式的数据源码供步骤S106进行标记截取;
步骤S106,通过S105获得的HTML格式的数据源码,通过以“〈title〉”标记开始和“〈/title〉”标记结束生成第一信息码;通过开始标记为“登记日期”,结束标记为“>2”截取生成第二信息码;通过开始标记为“中国”,结束标记为“<td class=”获取第三信息码;
当第一信息码的值为空时,返回S102步骤,同时检查网络是否正常;当第二信息码为空时,跳过步骤S107和步骤S108,并设置第四信息码的值为“O” ;当第二信息码不为空时,执行步骤S107 ;
步骤S107,生成第四信息码:当第二信息码不为空,并且第三信息码为空时,第四信息码通过开始标记为“[总数”,结束标记为“]”获取生成,第二信息码不为空并且第三信息码不为空时,第四信息码的值为“I” ;
步骤S108,当第二信息码不为空时,将第一信息码、第二信息码和第四信息码的信息,以及相应的辅助数据对应存贮在拥有软件著作权的企业信息库中;
将所有数据执行步骤S109存入软件著作权的企业信息总表,同时返回步骤SlOl将已经成功检索的记录的进行已执行的标记后,返回步骤S102循环执行,直至所有符合条件的企业数据检索完成为止;
当全部待查的企业信息库中符合条件的数据均已被正确执行,并存入第一比对信息库后,第一比对信息库里的信息即为拥有软件著作权的企业,接下来执行步骤S201获取详细的软件著作权数据;
步骤S201从第一比对信息库中获取企业名称,将编码方式设置为GB2312后生成符合规范的企业名称数据,并设置为第二变量;
步骤S202,生成对应的带第二变量的第二 URL,并通过getHTTPPage方式访问第二 URL,将结果HTML静态化,供步骤S203分别进行标记截取;
步骤S203,根据进行不同的标记进行HTML内容截取获得第五信息码、第六信息码、第七信息码和第八信息码;当第五信息码为空时,对应的企业的软件著作权公告信息截取出错,返回步骤S201,并检查网络连接状态、第一信息库连接情况和对应的软件著作权公告信息发布网站的URL是否发生变化;
当第五信息码不为空,第六信息码为空时,表明该企业软件著作权公布页面中显示只有一页,不需要翻页,程序依次标记并截取生成如下字段:企业名称、软件名称、软件著作权登记日期、软件著作权编号和软件著作权公开时间,同时与第二辅助信息存贮到第一企业知识广权?目息库;
当第五信息码和第六信息码同时不为空,并且第七信息码为空时,第八信息码即为页码,将第八信息码去杂余数字后加入URL的页码参数,生成第三URL,以第三URL中的第八信息码为结束码,O为开始码生成FOR循环列出第三URL的子URL,并且依次执行步骤S203步骤,直至FOR循环结束;
步骤S204,通过步骤S203,软件著作权的基本信息存入第一企业知识产权信息库;步骤S301,上述所有步骤完成后,分别对第一组步骤S101、S102、S103、S104、S105、S106、S107、S108和S109,第二组步骤S201、S202、S203和S204分别设定下一次的执行时间以定期检索,并且可以对SlOl的企业信息库中新增的企业进行增量的检索;
步骤S302,上述所有步骤完成后,结束全部步骤。
[0006]所述的第一信息码:通过以“〈title〉”标记开始和“〈/title〉”标记结束生成;标记生成第二信息码:开始标记为“登记日期”,结束标记为“>2”;软件著作权类型时获取第三信息码,其开始标记为“中国”,结束标记为“<td class=” ;第四信息码通过开始标记为“[总数”,结束标记为“]”获取生成。
[0007]执行步骤S102前执行步骤SlOl进行企业信息查询中,进行企业类型、企业名称、企业成立时间、企业注册资金和企业注册地址的一种条件或者多个条件组合检索筛选出所需要检索的数据。
[0008]步骤S109所述的辅助数据包括通过步骤S102所读出的企业名称传递而获得企业名称,通过步骤S107和步骤S108追加获取当前的系统时间。
[0009]在执行步骤S102前,通过设置一定数量的采样数据进行采样,采样数据包括企业拥有软件著作权的一定量的企业,以及没有任何软件著作权的一定量的企业,采样走完整个流程,查看相关采集是否正常,此步骤确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确。
[0010]步骤S203所述的第五信息码截取的开始标记与结束标记与第一信息码的标记相同,第六信息码截取的开始标记与结束标记与二信息码的标记相同,第七信息码截取的开始标记与结束标记与三信息码的标记相同,第八信息码起止标记分别如下:
软件著作权:开始标记:“页/共”,结束标记页”。
[0011]步骤S103所述的编码方式,当官方机构公布的数据对应的编码发生变更时,本方法将根据实际所发生的变化变更编码方式;步骤S104所述的URL中,当官方机构公布时采用的URL进行加密发布时,本方法将根据实际情况进行数据加密编码;步骤S104所述的URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,其加密编码根据实际情况进行一次加密、二次和多次加密。
[0012]步骤S203中,当第八信息码的值大于I时,通过获取软件著作权的条数的统计数据第十三信息码与现有的第二企业知识产权信息库中的数据对比,当第十三信息码不大于第二企业知识产权信息库中对应的企业的软件著作权的总计数值时,不必进行第二页及后面的读取;当第十三信息码大于第二企业知识产权信息库中对应的企业的软件著作权的总计数值时,根据超出的数量进行增量更新。
【附图说明】
[0013]图1一种实现区域企业软件著作权公告摸底与管理的方法的总体流程图。
[0014]图2—种实现区域企业软件著作权公告摸底与管理
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1