一种企业软件著作权公告信息抓取与管理的方法

文档序号:9418140阅读:407来源:国知局
一种企业软件著作权公告信息抓取与管理的方法
【技术领域】
[0001]本发明主要涉及一种企业软件著作权信息抓取与管理方法,尤其是通过软件著作权公布网站的页面信息抓取、分析、整理和建档的方法。
【背景技术】
[0002]目前,软件著作权的信息获取大多基于通过相关部门所公开的数据接口来实现软件著作权信息的同步,或者通过复杂的运算与抓取而获得信息量较少的信息。此方法对于经常性的、大数据的企业软件著作权的信息获取显得难以胜任,并且应用成本高,风险大,不利于中小中介服务机构推广应用。
[0003]软件著作权的信息,尤其是建立企业研发信用体系,更显得非常重要,同时也是中介服务机构提尚自身服务质量的有力支持。

【发明内容】

[0004]为了解决上述问题,本发明提出了一种基于专利、商标和软件著作权三种常用的软件著作权的公众公开的登记或变更公告数据的页面级别的通过getHTTPPage方法的抓取技术,再结合标记分析方法获得第一信息码、第二信息码和第三信息码,再通过上述信息码之间的对比,在相应程序下生成第四信息码,然后依对应的方法写入第一软件著作权信息库和第二软件著作权信息库,以备不同的场合使用的一种企业软件著作权公告信息抓取与管理的方法。
[0005]一种企业一种企业软件著作权公告信息抓取与管理的方法,其主要包含以下步骤:
步骤S102,在企业信息库中读出企业名称的待查数据;
步骤S103,将步骤S102所读出的企业名称通过函数转为下列所列的编码方式为GB2312,输出为第一变量;
步骤S104,以上述第一变量作为对应的URL的对应参数值生成第一 URL ;
步骤S105,通过getHTTPPage方式访问步骤S104生成的第一 URL,获得第一 URL对应的页面的HTML格式的数据源码供步骤S106进行标记截取;
步骤S106,通过S105获得的HTML格式的数据源码,通过以“〈title〉”标记开始和“〈/title〉”标记结束生成第一信息码;通过开始标记为“登记日期”,结束标记为“>2”截取生成第二信息码;通过开始标记为“中国”,结束标记为“<td class=”获取第三信息码;
当第一信息码的值为空时,返回S102步骤,同时检查网络是否正常;当第二信息码为空时,跳过步骤S107和步骤S108,并设置第四信息码的值为“O” ;当第二信息码不为空时,执行步骤S107 ;
步骤S107,生成第四信息码:当第二信息码不为空,并且第三信息码为空时,第四信息码通过开始标记为“[总数”,结束标记为“]”获取生成,第二信息码不为空并且第三信息码不为空时,第四信息码的值为“I” ; 步骤S108,当第二信息码不为空时,将第一信息码、第二信息码和第四信息码的信息,以及相应的辅助数据对应存贮在拥有软件著作权的企业信息库中;
将所有数据执行步骤S109存入软件著作权的企业信息总表,同时返回步骤SlOl将已经成功检索的记录的进行已执行的标记后,返回步骤S102循环执行,直至所有符合条件的企业数据检索完成为止。
[0006]执行步骤S102前执行步骤SlOl进行企业信息查询中,进行企业类型、企业名称、企业成立时间、企业注册资金和企业注册地址的一种条件或者多个条件组合检索筛选出所需要检索的数据。
[0007]步骤S109通过将数据存贮在步骤SlOl所述的企业信息表对应的字段中,同时将相应的执行标记字段的值标记为已执行,然后步骤S102循环执行,直至所有符合条件的企业数据检索完成为止。
[0008]步骤S108所述的辅助数据包括通过步骤S102所读出的企业名称传递而获得企业名称,通过步骤S106和步骤S107追加获取当前的系统时间。
[0009]在执行步骤S102前,通过设置一定数量的采样数据进行采样,采样数据包括企业拥有三种软件著作权类别的一种、两种、三种及上述组合的一定量的企业,以及没有任何软件著作权的一定量的企业,采样走完整个流程,查看相关采集是否正常,此步骤确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确。
[0010]步骤S106所述,当第二信息码不为空时,通过设置第四信息码的值为“I”而不采集生成第二 ?目息码。
[0011]步骤S103所述的编码方式,当官方机构公布的数据对应的编码发生变更时,本方法将根据实际所发生的变化变更编码方式。
[0012]步骤S104所述的URL中,当官方机构公布时采用的URL进行加密发布时,本方法将根据实际情况进行数据加密编码。
【附图说明】
[0013]图1一种企业软件著作权公告信息抓取与管理的方法流程图。
【具体实施方式】
[0014]一种企业软件著作权公告信息抓取与管理的方法,其主要包含以下步骤:
步骤S101,进行企业信息查询中,进行企业类型等条件检索筛选出所需要检索的数据。
[0015]步骤S102,在企业信息库中读出企业名称的待查数据,设变量为“aa”。
[0016]步骤S103,根据三种类别将步骤S102所读出的企业名称通过函数转为下列所列的对应数据编码,设变量为“bb”:软件著作权公告信息对应编码方式为GB2312。
[0017]其中读取URL的页面需要在文件头加入以下代码段:
〈head〉
<meta http-equiv=〃Content_Type〃 content=〃text/html; charset=gb2312〃>
〈/head〉
[0018]步骤S104,以上述“ bb”变量作为对应的URL的对应参数值生成第一 URL,使用ASP开发语言表达如下:“ bb”变量假设为cname,假设软件著作权公告信息发布网站为www.abcda.com:
http: //www.adcda.com/cpcc/RRegi sterAct1n.do?method=l ist&no=f ck&sql_name=&sql_regnum=&sql_author=<%=cname%>&curPage=l&count=10&sort0rder=&sortLabel=0
[0019]步骤S105,通过getHTTPPage方式访问步骤S104生成的第一 URL,获得第一 URL对应的页面的HTML格式的数据源码供步骤S106进行标记截取。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1