一种企业软件著作权公告信息抓取方法与流程

文档序号:15492553发布日期:2018-09-21 20:55阅读:355来源:国知局

本发明主要涉及一种企业软件著作权公告信息抓取方法,尤其是通过软件著作权公布网站的页面信息抓取、分析、整理和建档的系统。



背景技术:

目前,软件著作权的信息获取大多基于通过相关部门所公开的数据接口来实现软件著作权信息的同步,或者通过复杂的运算与抓取而获得信息量较少的信息。此方法对于经常性的、大数据的企业软件著作权的信息获取显得难以胜任,并且应用成本高,风险大,不利于中小中介服务机构推广应用。

软件著作权的信息,尤其是建立企业研发信用体系,更显得非常重要,同时也是中介服务机构提高自身服务质量的有力支持。



技术实现要素:

为了解决上述问题,本发明提出了一种基于软件著作权的公众公开的登记或变更公告数据的页面级别的通过gethttppage方法的抓取技术,再结合标记分析方法获得第一信息码、第二信息码和第三信息码,再通过上述信息码之间的对比,在相应程序下生成第四信息码,然后依对应的方法写入第一软件著作权信息库和第二软件著作权信息库,以备不同的场合使用的一种企业软件著作权公告信息抓取与管理的系统。

一种企业软件著作权公告信息抓取方法,其主要包含以下结构:

企业信息库、编码管理程序、软件著作权公布数据采集管理模块、信息码管理模块、第一比对信息库、第二比对信息库、企业软件著作权公告信息库和接口管理模块;其中信息码管理模块由第一信息码、第二信息码、第三信息码和第四信息码组成;企业信息库包含企业信息数据和sql语句管理模块,其通过sql语句条件检索后返回值给编码管理程序确定编码方式,然后输出对应编码方式编码后的企业名称,同时发送到软件著作权公布数据采集管理模块生成相应的以上述编码后的企业名称为变量的url,信息码管理模块通过gethttppage方式访问生成的url,并将获得的页面html静态化,同时执行信息码管理模块中的标记识别截取页面信息以对应生成第一信息码、第二信息码、第三信息码和第四信息码;当第一信息码为空时,系统将返回重新执行企业信息库的sql语句操作,并检查网络、数据可靠性以及各模块运作是否正常;当第一信息码不为空,第二信息码为空时,将第三信息码和第四信息码设置为“0”,然后写入第一比对信息库,同时写入企业软件著作权公告信息库;当第二信息码不为空,通过信息码管理模块标记识别截取页面信息,去杂后生成第三信息码,当第三信息码也为空时,设置第四信息码为“1”,当第三信息码不为空时,设置第四信息码的值与第三信息码的值相同,与辅助信息一并写入第二比对信息库,同时写入企业软件著作权公告信息库;企业软件著作权公告信息库通过sql语句与存贮过程共同组成接口,通过接口管理模块供第三方系统调用。

所述的企业信息库所包含的sql语句管理模块,包括企业类型、企业成立时间、企业注册资金、企业注册地址和企业是否是高新技术企业分别或者组合作为条件检索筛选时所需要的sql语句或sql语句集合。

企业信息库还可以包含采集比对记录字段集,将比对的结果、比对次数和比对时间进行记录。

所述的辅助数据包括企业名、当前的系统时间、操作人员的session值或值的组合和数据对比的次数的信息的一种或多种的集合。

每个企业信息库还可以设置一定数量的采样数据进行采样,采样数据包括企业拥有软件著作权公告的一定量的企业,以及没有任何软件著作权的一定量的企业,采样走完整个流程,查看相关采集是否正常,确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确,采样数据通过独立的字段值进行标识,或者通过单独的表进行存放,在进行比对时,通过sql语句检索获得相应的数据。

当第二信息码不为空时,信息码管理模块还可以设置第四信息码的值为“1”而不采集生成第三信息码。

所述软件著作权公布数据采集管理模块包含手动设置url、编码方式和采集规则的程序,当官方机构公布的url、发布的编码方式、发布的数据结构发生变更时,软件著作权公布数据采集管理模块的手动设置程序对所发生的变化进行容错更正。

附图说明

图1一种企业软件著作权公告信息抓取方法结构图。

具体实施方式

如图1,一种企业软件著作权公告信息抓取方法,其主要包含以下结构:企业信息库(a01)、编码管理程序(a02)、软件著作权公布数据采集管理模块(a03)、信息码管理模块(a04)、第一比对信息库(a05)、第二比对信息库(a06)、企业软件著作权公告信息库(a07)和接口管理模块(a08);其中信息码管理模块(a04)由第一信息码(b11)、第二信息码(b12)、第三信息码(b13)和第四信息码(b14)组成;企业信息库(a01)包含企业信息数据和sql语句管理模块,其通过sql语句条件检索后返回值给编码管理程序(a02)确定编码方式,然后输出对应编码方式编码后的企业名称,同时发送到软件著作权公布数据采集管理模块(a03)生成相应的以上述编码后的企业名称为变量的url,信息码管理模块(a04)通过gethttppage方式访问生成的url,并将获得的页面html静态化,同时执行信息码管理模块(a04)中的标记识别截取页面信息以对应生成第一信息码(b11)、第二信息码(b12)、第三信息码(b13)和第四信息码(b14);当第一信息码(b11)为空时,系统将返回重新执行企业信息库(a01)的sql语句操作,并检查网络、数据可靠性以及各模块运作是否正常;当第一信息码(b11)不为空,第二信息码(b12)为空时,将第三信息码(b13)和第四信息码(b14)设置为“0”,然后写入第一比对信息库(a05),同时写入企业软件著作权公告信息库(a07);当第二信息码(b12)不为空,通过信息码管理模块(a04)标记识别截取页面信息,去杂后生成第三信息码(b13),当第三信息码(b13)也为空时,设置第四信息码(b14)为“1”,当第三信息码(b13)不为空时,设置第四信息码(b14)的值与第三信息码(b13)的值相同,与辅助信息一并写入第二比对信息库(a06),同时写入企业软件著作权公告信息库

(a07);企业软件著作权公告信息库(a07)通过sql语句与存贮过程共同组成接口,通过接口管理模块(a08)供第三方系统调用。

所述的企业信息库(a01)所包含的sql语句管理模块,包括企业类型、企业成立时间、企业注册资金、企业注册地址和企业是否是高新技术企业分别或者组合作为条件检索筛选时所需要的sql语句或sql语句集合。

企业信息库(a01)还可以包含采集比对记录字段集,将比对的结果、比对次数和比对时间进行记录。

所述的辅助数据包括企业名、当前的系统时间、操作人员的session值或值的组合和数据对比的次数的信息的一种或多种的集合。

每个企业信息库(a01)还可以设置一定数量的采样数据进行采样,采样数据包括企业拥有软件著作权公告的一定量的企业,以及没有任何软件著作权的一定量的企业,采样走完整个流程,查看相关采集是否正常,确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确,采样数据通过独立的字段值进行标识,或者通过单独的表进行存放,在进行比对时,通过sql语句检索获得相应的数据。

当第二信息码(b12)不为空时,信息码管理模块(a04)还可以设置第四信息码(b14)的值为“1”而不采集生成第三信息码(b13)。

所述软件著作权公布数据采集管理模块(a03)包含手动设置url、编码方式和采集规则的程序,当官方机构公布的url、发布的编码方式、发布的数据结构发生变更时,软件著作权公布数据采集管理模块(a03)的手动设置程序对所发生的变化进行容错更正。

一种企业软件著作权公告信息抓取方法,其主要包含以下步骤:

步骤s101,进行企业信息查询中,进行企业类型等条件检索筛选出所需要检索的数据。

步骤s102,在企业信息库中读出企业名称的待查数据,设变量为“aa”。

步骤s103,根据三种类别将步骤s102所读出的企业名称通过函数转为下列所列的对应数据编码,设变量为“bb”:软件著作权公告信息对应编码方式为gb2312。

其中读取url的页面需要在文件头加入以下代码段:

<head>

<metahttp-equiv="content-type"content="text/html;charset=gb2312">

</head>

步骤s104,以上述“bb”变量作为对应的url的对应参数值生成第一url,使用asp开发语言表达如下:“bb”变量假设为cname,设软件著作权公告公布网站的域名为www.abcda.com:

http://www.abcda.com/cpcc/rregisteraction.domethod=list&no=fck&sql_name=&sql_regnum=&sql_author=<%=cname%>&curpage=1&count=10&sortorder=&sortlabel=。

步骤s105,通过gethttppage方式访问步骤s104生成的第一url,获得第一url对应的页面的html格式的数据源码供步骤s106进行标记截取。

步骤s106,通过s105获得的html格式的数据源码,通过以“&lt;title&gt;”标记开始和“&lt;/title&gt;”标记结束生成第一信息码;通过如下标记生成第二信息码:开始标记为“登记日期”,结束标记为“&gt;2”;通过如下标记获取第三信息码:开始标记为“中国”,结束标记为“&lt;tdclass=”。

当第一信息码的值为空时,返回s102步骤,同时检查网络是否正常;当第二信息码为空时,跳过步骤s107和步骤s108,并设置第四信息码的值为“0”;当第二信息码不为空时,执行步骤s107。

步骤s107,生成第四信息码:当第二信息码不为空,并且第三信息码为空时,第四信息码通过开始标记为“[总数”,结束标记为“]”获取生成,第二信息码不为空并且第三信息码不为空时,第四信息码的值为“1”;第二信息码不为空时,第四信息码通过第二信息码去杂质后剩下数字。

步骤s108,当第二信息码不为空时,将第一信息码、第二信息码和第四信息码的信息,以及相应的辅助数据对应存贮在拥有软件著作权的企业信息库中,辅助数据包括通过步骤s102所读出的企业名称传递而获得企业名称,通过步骤s106和步骤s107追加获取当前的系统时间。

将所有数据执行步骤s109存入软件著作权的企业信息总表,同时返回步骤s101将已经成功检索的记录的进行已执行的标记然后,返回步骤s102循环执行,直至所有符合条件的企业数据检索完成为止。

在执行步骤s102前,通过设置一定数量的采样数据进行采样,采样数据包括企业拥有三种软件著作权类别的一种、两种、三种及上述组合的一定量的企业,以及没有任何软件著作权的一定量的企业,采样走完整个流程,查看相关采集是否正常,此步骤确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确。

上述实施方式仅仅为本发明的其中实施方式之一。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1