一种知识产权信息抓取与管理的方法_2

文档序号:9667441阅读:来源:国知局
&select-key%3Ashenqingr_from=&select-key%3Ashenqingr_to=&attribute_node:record_start-row=60&attribute_node:record_page-row=100&#anchor
2.商标公告数据:
http://sbcx.saic.gov.cn:9080/tmois/wszhcx_getLikeCondit1n.xhtml?appCnName=<%cname%>&intCls=&paiType=0
3.软件著作权公告数据:
http://www.ccopyright.com.cn/cpcc/RRegisterAct1n.do?method=list&no=fck&sql_name=&sql_regnum=&sql_author=<%=cname%>&curPage=l&count=10&sort0rder=&sortLabel=o
[0020]步骤S106,通过getHTTPPage方式访问步骤S105生成的第一 URL,获得第一 URL对应的页面的HTML格式的数据源码供步骤S107进行标记截取。
[0021]步骤S107,通过S106获得的HTML格式的数据源码,通过以“〈title〉”标记开始和“〈/title〉”标记结束生成第一信息码;三种类别的知识产权类型对应如下标记生成第二信息码:专利类型的开始标记为“sop-totalCount”,结束标记为“〈/span〉] ”,商标类型的开始标记为“regNum”,结束标记为“regNum”,软件著作权类型的开始标记为“登记日期”,结束标记为“>2” ;软件著作权类型时获取第三信息码,其开始标记为“中国”,结束标记为“<td class=”,其中商标类型和专利类型没有第三信息码。
[0022]当第一信息码的值为空时,返回S102步骤,同时检查网络是否正常;当第二信息码为空时,跳过步骤S108,并设置第四信息码的值为“0”;当第二信息码不为空时,执行步骤S108o
[0023]步骤S108,生成第四信息码:知识产权类型为软件著作权类型时,当第二信息码不为空,并且第三信息码为空时,第四信息码通过开始标记为“[总数”,结束标记为“]”获取生成,第二信息码不为空并且第三信息码不为空时,第四信息码的值为“ 1” ;知识产权类型为专利时,第二信息码不为空时,第四信息码通过第二信息码去杂质后剩下数字;知识产权类型为商标时,第二信息码不为空时,第四信息码的值为“1”。
[0024]步骤S109,当第二信息码不为空时,将第一信息码、第二信息码和第四信息码的信息,以及相应的辅助数据对应存贮在拥有知识产权的企业信息库中,辅助数据包括通过步骤S102所读出的企业名称传递而获得企业名称,通过步骤S107和步骤S108追加获取当前的系统时间。
[0025]将所有数据执行步骤S110存入知识产权的企业信息总表,同时返回步骤S101将已经成功检索的记录的进行已执行的标记然后,返回步骤S102循环执行,直至所有符合条件的企业数据检索完成为止。
[0026]在执行步骤S102前,通过设置一定数量的采样数据进行采样,采样数据包括企业拥有三种知识产权类别的一种、两种、三种及上述组合的一定量的企业,以及没有任何知识产权的一定量的企业,采样走完整个流程,查看相关采集是否正常,此步骤确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确。
[0027]上述实施方式仅仅为本发明的其中实施方式之一。
【主权项】
1.一种知识产权信息抓取与管理的方法,其特征包括,其主要包含以下步骤: 步骤S102,在企业信息库中读出企业名称的待查数据; 步骤S103,根据三种类别将步骤S102所读出的企业名称通过函数转为下列所列的对应数据编码:专利公告信息对应编码方式为UTF8,软件著作权公告信息对应编码方式为GB2312,商标公告信息对应编码方式为UTF8 ; 步骤S104,在步骤S103生成的对应编码方式的数据后,通过URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,并输出为第一变量,其中软件著作权公告信息中,第一变量为明文,不进行加密; 步骤S105,以上述第一变量作为对应的URL的对应参数值生成第一 URL ; 步骤S106,通过getHTTPPage方式访问步骤S105生成的第一 URL,获得第一 URL对应的页面的HTML格式的数据源码供步骤S107进行标记截取; 步骤S107,通过S106获得的HTML格式的数据源码,通过以“〈title〉”标记开始和“〈/title〉”标记结束生成第一信息码;三种类别的知识产权类型对应如下标记生成第二信息码:专利类型的开始标记为“sop-totalCount”,结束标记为“〈/span〉] ”,商标类型的开始标记为“regNum”,结束标记为“regNum”,软件著作权类型的开始标记为“登记日期”,结束标记为“ >2 ” ;软件著作权类型时获取第三信息码,其开始标记为“中国”,结束标记为“ <tdclass=”,其中商标类型和专利类型没有第三信息码; 当第一信息码的值为空时,返回S102步骤,同时检查网络是否正常;当第二信息码为空时,跳过步骤S108,并设置第四信息码的值为“0”;当第二信息码不为空时,执行步骤S108 ; 步骤S108,生成第四信息码:知识产权类型为软件著作权类型时,当第二信息码不为空,并且第三信息码为空时,第四信息码通过开始标记为“[总数”,结束标记为“]”获取生成,第二信息码不为空并且第三信息码不为空时,第四信息码的值为“ 1” ;知识产权类型为专利时,第二信息码不为空时,第四信息码通过第二信息码去杂质后剩下数字;知识产权类型为商标时,第二信息码不为空时,第四信息码的值为“ 1” ; 步骤S109,当第二信息码不为空时,将第一信息码、第二信息码和第四信息码的信息,以及相应的辅助数据对应存贮在拥有知识产权的企业信息库中; 将所有数据执行步骤S110存入知识产权的企业信息总表,同时返回步骤S101将已经成功检索的记录的进行已执行的标记然后,返回步骤S102循环执行,直至所有符合条件的企业数据检索完成为止;执行步骤S102前执行步骤S101进行企业信息查询中,进行企业类型、企业名称、企业成立时间、企业注册资金和企业注册地址的一种条件或者多个条件组合检索筛选出所需要检索的数据;步骤S110还可以通过将数据存贮在步骤S101所述的企业信息表对应的字段中,同时将相应的执行标记字段的值标记为已执行,然后步骤S102循环执行,直至所有符合条件的企业数据检索完成为止;步骤S109所述的辅助数据包括通过步骤S102所读出的企业名称传递而获得企业名称,通过步骤S107和步骤S108追加获取当前的系统时间;在执行步骤S102前,通过设置一定数量的采样数据进行采样,采样数据包括企业拥有三种知识产权类别的一种、两种、三种及上述组合的一定量的企业,以及没有任何知识产权的一定量的企业,采样走完整个流程,查看相关采集是否正常,此步骤确定网络是否正常,官方公布数据格式是否发生变化和确定所设置的数据编码方式是否正确;S107所述的知识产权类型为软件著作权时,当第二信息码不为空时,通过设置第四信息码的值为“1”而不采集生成第三信息码;步骤S103所述的编码方式,当官方机构公布的数据对应的编码发生变更时,本方法将根据实际所发生的变化变更编码方式;步骤S104所述的URL中,当官方机构公布时采用的URL进行加密发布时,本方法将根据实际情况进行数据加密编码?’步骤S104所述的URLencode/URLDecode加密/解密函数将上述步骤S103的数据进行加密,其加密编码根据实际情况进行一次加密、二次和多次加密。
【专利摘要】本发明公开了一种知识产权信息抓取与管理的方法,其基于专利、商标和软件著作权三种常用的知识产权的公众公开的登记或变更公告数据的页面级别的通过getHTTPPage方法的抓取技术,再结合标记分析方法获得第一信息码、第二信息码和第三信息码,再通过上述信息码之间的对比,在相应程序下生成第四信息码,然后依对应的方法写入第一知识产权信息库和第二知识产权信息库,以备不同的场合使用的一种企业知识产权信息抓取与管理的方法。
【IPC分类】G06F17/30
【公开号】CN105426492
【申请号】CN201510820954
【发明人】陈秀成
【申请人】清远市恒南资讯有限公司
【公开日】2016年3月23日
【申请日】2015年11月24日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1