一种网络内容服务商ICP上报数据检查方法及装置与流程

文档序号:11479520阅读:191来源:国知局
一种网络内容服务商ICP上报数据检查方法及装置与流程

本发明实施例涉及网络数据处理技术,尤其涉及一种网络内容服务商icp上报数据检查方法及装置。



背景技术:

随着互联网的迅速发展,icp(internetcontentprovider,网络内容服务商)网络应用层出不穷,icp网络内容服务提供商也是不计其数。icp上报给监管平台的数据多种多样,这些数据往往与icp数据传输标准本身存在一定的不一致性,从而导致把数据接入到监管平台难度大、排查操作复杂、丢失率高等问题。根据实际应用的需要,巨大且持续快速增长的icp数据量需要高效快速的接入到监管平台,这给监管平台数据接入工作带来了很大的压力与挑战。

目前,通常采用人工的数据分析方式,对不同的icp数据进行逐网站、逐类型的分析筛别,这种方式无疑是低效的,并且需要付出较高的人力和经济成本。随着新增网站数据及数据类型的持续膨胀,完全依靠人工分析已无法应对。



技术实现要素:

本发明实施例提供一种网络内容服务商icp上报数据检查方法及装置,以实现icp上报数据的自动化检测。

第一方面,本发明实施例提供了一种网络内容服务商icp上报数据检查方法,该方法包括:

识别icp上报数据的编码格式;

若所述icp上报数据的编码格式为标准编码格式,则解析所述icp上报数据的首行数据信息,并获取所述icp上报数据的协议名;

根据所述协议名查找相应的数据描述信息;

在找到所述数据描述信息时,将所述数据描述信息与所述icp上报数据中的数据内容进行匹配,若匹配成功,则确定所述icp上报数据符合标准。

第二方面,本发明实施例还提供了一种网络内容服务商icp上报数据检查装置,该装置包括:

编码格式识别模块,用于识别icp上报数据的编码格式;

解析模块,用于若所述icp上报数据的编码格式为标准编码格式,则解析所述icp上报数据的首行数据信息,并获取所述icp上报数据的协议名;

描述信息查找模块,用于根据所述协议名查找相应的数据描述信息;

标准符合确定模块,用于在找到所述数据描述信息时,将所述数据描述信息与所述icp上报数据中的数据内容进行匹配,若匹配成功,则确定所述icp上报数据符合标准。

本发明实施例通过识别icp上报数据的编码格式;若icp上报数据的编码格式为标准编码格式,则解析icp上报数据的首行数据信息,并获取所述icp上报数据的协议名;根据协议名查找相应的数据描述信息;在找到数据描述信息时,将数据描述信息与icp上报数据中的数据内容进行匹配,若匹配成功,则确定icp上报数据符合标准,解决了采用人工的数据分析方式,对不同的icp数据进行逐网站、逐类型的分析筛别,导致的效率低甚至无法应对的问题,使得icp上报数据实现自动化检测,并为icp的数据返修提供依据以及减少返工。

附图说明

图1是本发明实施例一中提供的一种icp上报数据检查方法的流程图;

图2是本发明实施例二中提供的一种icp上报数据检查方法的流程图;

图3是本发明实施例三中提供的一种icp上报数据检查方法的流程图;

图4是本发明实施例四中提供的一种icp上报数据检查方法的流程图;

图5是本发明实施例五中提供的一种icp上报数据检查方法的流程图;

图6a是本发明实施例六中提供的一种icp上报数据检查方法的流程图;

图6b是本发明实施例六中提供的一种结果总览的界面显示示意图;

图6c是本发明实施例六中提供的一种标准数据的界面显示示意图;

图6d是本发明实施例六中提供的一种兼容通过数据的界面显示示意图;

图6e是本发明实施例六中提供的一种错误数据的界面显示示意图;

图7是本发明实施例七中提供的一种icp上报数据检查装置的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种icp上报数据检查方法的流程图,本实施例可用于提升监管平台数据接入的效率,该方法可以由网络内容服务商icp上报数据检查装置来执行,该装置可以由软件和/或硬件的方式实现,该装置可以集成在监管平台中,还可以将该装置作为与监管平台连接的通信接口,用于过滤错误数据,并对非标准但高吻合数据进行兼容处理,可减轻监管平台对文件的解析压力,同时减少错误数据的丢弃率。该方法具体包括如下步骤:

步骤110、识别icp上报数据的编码格式。

其中,根据icp传输标准的规定,标准的icp数据一般是无bom的utf-8编码格式。不同的编码格式,采用不同的字节数和编码规律来对字符进行编码。相同的原始数据,采用不同的编码格式,生成不同的编码数据。但是,网络内容服务商上报数据的编码格式包括各种编码格式,而大部分icp上报数据的编码格式为非标准的编码格式,故需要识别上报数据的编码格式。若icp上报数据的编码格式为非标准编码格式,则可以确定检查结果可以包括数据不是无bom的utf-8编码格式。若兼容处理功能未开启,则停止对icp上报数据的检查。若兼容处理功能为开启状态,可以对icp上报数据进行编码格式转换处理。

步骤120、若所述icp上报数据的编码格式为标准编码格式,则解析所述icp上报数据的首行数据信息,并获取所述icp上报数据的协议名。

其中,icp上报数据可以包括多个文件。每个文件可以包括多行数据信息,其中首行数据信息可以包括三个字段,分别表示icp、版本信息和协议名。字段之间通过分隔符来划分,该分隔符可以用键盘上的tab产生的符号。icp上报数据可以从第二行开始为真正的数据,满足描述信息所描述的规定。

icp上报数据可以是用户登录信息记录数据,如:文件名可以为login_passprot_1481013900_0.bcp,文件内容可以为:

icp2.1login

小明18男20161010

小华21男20160915

icp上报数据还可以是用户注册信息记录数据,如:文件名可以为register_passprot_1481013900_1.bcp,文件内容可以为:

icp2.1register

小明北京身份证号xxx

小华上海身份证号xxx

优选的,若所述icp上报数据的编码格式为标准编码格式,则解析所述icp上报数据的首行数据信息,并获取所述icp上报数据的协议名,包括:若所述icp上报数据的编码格式为标准编码格式,则判断所述icp上报数据的首行数据信息包含的字段数是否为预设数值,若是,则解析所述icp上报数据的首行数据信息,并获取所述icp上报数据的协议名。

其中,根据icp数据传输标准,要求icp上报数据的首行数据信息包含的字段数为预设数值。若icp上报数据的首行数据信息包含的字段数不是预设数值,则可以确定检查结果可以包括数据首行信息有误,并停止对icp上报数据的检查。

步骤130、根据所述协议名查找相应的数据描述信息。

其中,协议名可以包括login和register等类型。不同的数据描述信息有对icp上报数据有不同规定,包括对字段数、字段类型和字段含义等的规定。数据描述文件中可以包括不同类型的描述信息,分别与协议名对应。数据描述文件可以为index.xml文件,在index.xml文件中,查找与协议名匹配的protocol的值。若查找到与协议名匹配的protocol的值,则icp上报数据的每行数据应与该与协议名匹配的protocol的值对应的这部分描述信息一致。若无法查找到与协议名匹配的protocol的值,且兼容处理功能为开启状态,则可以对icp上报数据进行版本兼容处理。index.xml文件的内容可以是:

步骤140、在找到所述数据描述信息时,将所述数据描述信息与所述icp上报数据中的数据内容进行匹配,若匹配成功,则确定所述icp上报数据符合标准。

其中,可以是根据数据描述信息对字段类型和字段含义等的规定,判断数据描述信息与icp上报数据中的数据内容进行匹配。描述信息中的itemnum的值表示每行数据的标准字段数。在找到所述数据描述信息时,将数据描述信息与icp上报数据中的数据内容进行匹配,可以是获取icp上报数据的第二行数据或随机获取预设行数据的字段数,判断该字段数与itemnum的值是否一致,若一致即匹配成功,则确定icp上报数据符合标准,可以确定检查结果可以包括检测通过;否则,可以确定检查结果可以包括数据字段数与标准不一致,并停止对icp上报数据的检查。

本实施例的技术方案,通过识别icp上报数据的编码格式;若icp上报数据的编码格式为标准编码格式,则解析icp上报数据的首行数据信息,并获取所述icp上报数据的协议名;根据协议名查找相应的数据描述信息;在找到数据描述信息时,将数据描述信息与icp上报数据中的数据内容进行匹配,若匹配成功,则确定icp上报数据符合标准,解决了采用人工的数据分析方式,对不同的icp数据进行逐网站、逐类型的分析筛别,导致的效率低甚至无法应对的问题,使得icp上报数据实现自动化检测,并为icp的数据返修提供依据以及减少返工。

实施例二

图2是本发明实施例二提供的一种icp上报数据检查方法的流程图,本实施例是以上述实施例为基础进行优化,提供了编码格式的识别方法,具体是所述识别icp上报数据的编码格式包括:根据至少两种编码格式识别方法,对所述icp上报数据的编码格式进行识别,以获取至少两种识别结果;根据所述至少两种识别结果,确定所述icp上报数据的编码格式。相应的,本实施例的方法包括:

步骤210、根据至少两种编码格式识别方法,对所述icp上报数据的编码格式进行识别,以获取至少两种识别结果。

其中,根据至少两种编码格式识别方法,对icp上报数据的编码格式进行识别,以获取至少两种识别结果。一种编码格式识别方法对应一种识别结果。

优选的,所述至少两种编码格式识别方法包括:第一编码格式识别方法、第二编码格式识别方法和第三编码格式识别方法中的至少两种;

其中,第一编码格式识别方法包括:将所述icp上报数据的编码规律依次与至少一种编码格式的编码表进行匹配,根据匹配结果确定所述icp上报数据的编码格式的识别结果;

第二编码格式识别方法包括:从所述icp上报数据的文件中随机获取预设段数的字符,统计与所述至少一种编码格式匹配的字符个数,将匹配个数最多的编码格式作为所述icp上报数据的编码格式的识别结果;

第三编码格式识别方法包括:根据所述icp上报数据的文件的文件头部的标示信息,确定所述icp上报数据的编码格式的识别结果;

其中,所述至少一种编码格式包括:汉字内码扩展规范gbk、大五码big5和统一码unicode,其中,所述统一码unicode包括有无bom的utf-8、有无bom的utf-16和有无bom的utf-32。

其中,不同的编码格式,有不同的编码规律,对应不同的编码表。可以参照编码表,严格根据utf-8等编码格式的编码规律进行判断;还可以从文件中随机获取预设段数的字符,然后根据字串中与utf-8、gbk等编码格式匹配的统计个数进行判断;可以获取文件头部的标示信息,即调用文件系统的标准接口,根据一个文件的前三个字节进行判断。采用多种编码格式识别方法对icp上报数据的编码格式进行识别,可以提升编码格式识别的准确率,可以精确地识别出gbk、big5、unicode、有无bom的utf-8、有无bom的utf-16、有无bom的utf-32等编码格式,提高应对各式各样的icp数据的能力。

步骤220、根据所述至少两种识别结果,确定所述icp上报数据的编码格式。

其中,根据至少两种识别结果,确定icp上报数据的编码格式。采用多层次结果汇聚及高概率选举的方法,来确定icp上报数据的编码格式。每种识别结果可以包括至少一种编码格式的分数。可按照预先约定的规则确定每种编码格式的分数。以第一编码格式识别方法为例,该分数可根据icp上报数据的编码规律与编码表匹配程度决定。将多个识别结果进行汇总,取得分最多的编码格式作为最终的结果。例如可以是将icp上报数据的编码规律依次与utf-8、gbk等编码格式的编码表进行匹配,若icp上报数据的编码规律与utf-8的编码表匹配程度高于与gbk的编码表匹配程度,则utf-8的编码格式得分高于gbk的编码格式得分。可以将多种编码格式识别方法中的识别结果中的各编码格式的得分进行汇总,可以取得分最多的编码格式作为最终的结果。

步骤230、若所述icp上报数据的编码格式为标准编码格式,则解析所述icp上报数据的首行数据信息,并获取所述icp上报数据的协议名。

步骤240、根据所述协议名查找相应的数据描述信息。

步骤250、在找到所述数据描述信息时,将所述数据描述信息与所述icp上报数据中的数据内容进行匹配,若匹配成功,则确定所述icp上报数据符合标准。

本实施例的技术方案提供了一种网络内容服务商icp上报数据检查方法,该实施例在上述实施例的基础上,提供了编码格式的识别方法,根据至少两种编码格式识别方法,对icp上报数据的编码格式进行识别,以获取至少两种识别结果;根据至少两种识别结果,确定icp上报数据的编码格式,提高了对icp上报数据的编码格式的识别的准确率和可靠性。

实施例三

图3是本发明实施例三提供的一种icp上报数据检查方法的流程图,本实施例是以上述实施例为基础进行优化,提供了编码格式转换的方法,具体是在所述识别icp上报数据的编码格式之后,还包括:若所述icp上报数据的编码格式为非标准编码格式,则根据至少一种编码格式转换方法将所述icp上报数据转换为标准编码格式的数据,作为兼容icp上报数据,其中,当根据第一编码格式转换方法对所述icp上报数据进行转换时,若转换失败,则根据第二编码格式转换方法对所述icp上报数据进行转换;所述解析所述icp上报数据的首行数据信息,并获取所述icp上报数据的协议名,包括:解析所述兼容icp上报数据的首行数据信息,并获取所述兼容icp上报数据的协议名。

进一步的,在所述根据至少一种编码格式转换方法将所述icp上报数据转换为标准编码格式的数据之后,还包括:随机提取所述兼容icp上报数据的预设数量的数据,作为采样数据;对所述采样数据进行中文半角检查;若未发现中文半角的存在,则确定所述icp上报数据转换成功。

相应的,本实施例的方法包括:

步骤310、识别icp上报数据的编码格式。

步骤320、若所述icp上报数据的编码格式为非标准编码格式,则根据至少一种编码格式转换方法将所述icp上报数据转换为标准编码格式的数据,作为兼容icp上报数据,其中,当根据第一编码格式转换方法对所述icp上报数据进行转换时,若转换失败,则根据第二编码格式转换方法对所述icp上报数据进行转换。

其中,该至少一种编码格式转换方法可以包括linux系统提供的编码转换函数和预设编程封装函数。其中,预设编程封装函数可根据实际需求进行编写。具体的,可根据调研结果进行编写,例如,可预先调研多种非标准编码格式样本,将每种非标准编码格式样本分别转换为标准编码格式,并记录转换过程中的各种参数值,根据参数值编写多个预设编程封装函数。在实际应用中,可先识别当前需要转换的非标准编码格式与非标准编码格式样本进行匹配,并选择匹配程度高的非标准编码格式样本对应的预设编程封装函数进行转换。采用逐级分层转换处理的方式,若根据至少一种编码格式转换方法,依次进行编码格式转换后均失败,则编码格式兼容处理失败,编码格式兼容未通过,也为检测未通过,并确定检查结果为数据不是无bom的utf-8编码格式。

步骤330、随机提取所述兼容icp上报数据的预设数量的数据,作为采样数据。

实际的编码转换过程中可能会发现编码转换后的文件中存在乱码现象,其中,乱码指电脑系统不能显示正确的字符,而显示其他无意义的字符或空白。为避免这种情况发生,本发明实施例进一步引入了二次确认技术。在编码转换成功后,会对转换后的文件内容进行中文区块采样。

步骤340、对所述采样数据进行中文半角检查。

其中,对采样数据进行中文半角检查,检查采样数据中字节是否减少。无bom的utf-8编码格式通过两个字节编码一个字符,通过中文半角检查,若字符数与字节数不符,若字节减少,则发现中文半角的存在,即采样数据产生乱码。

步骤350、若未发现中文半角的存在,则确定所述icp上报数据转换成功。

其中,若检查结果未发现中文半角的存在,则确定兼容数据转换成功,故编码格式兼容处理成功,编码格式兼容通过。通过检查可以保证编码格式转换后的数据的有效性,以避免将编码格式转换后具有乱码的文件接入监管平台。若检查结果有乱码,则确定兼容数据转换失败,故编码格式兼容处理失败,编码格式兼容未通过,也为检测未通过。

步骤360、解析所述兼容icp上报数据的首行数据信息,并获取所述兼容icp上报数据的协议名。

步骤370、根据所述协议名查找相应的数据描述信息。

步骤380、在找到所述数据描述信息时,将所述数据描述信息与所述icp上报数据中的数据内容进行匹配,若匹配成功,则确定所述icp上报数据符合标准。

本实施例的技术方案提供了一种网络内容服务商icp上报数据检查方法,该实施例在上述实施例的基础上,若icp上报数据的编码格式非标准编码格式,则根据至少一种编码格式转换方法,将icp上报数据转换为标准编码格式的数据,作为兼容icp上报数据,随机提取兼容数据的预设数量的数据,作为采样数据;对采样数据进行中文半角检查;若未发现中文半角的存在,则确定兼容数据转换成功,以实现对非标准编码格式的icp上报数据转换为标准编码格式,以减少对非标准但高吻合的上报数据的丢弃。

实施例四

图4是本发明实施例四提供的一种icp上报数据检查方法的流程图,本实施例是以上述实施例为基础进行优化,具体是所述解析所述icp上报数据的首行数据信息,并获取所述icp上报数据的协议名,包括:判断所述icp上报数据的数据源类型;当所述数据源类型为关注版本数据源时,解析所述icp上报数据的首行数据信息,并从解析结果中获取所述icp上报数据的版本信息和协议名;当所述数据源类型为非关注版本数据源时,解析所述icp上报数据的首行数据信息,并从解析结果中获取所述icp上报数据的协议名。

相应的,当所述数据源类型为关注版本数据源时,所述根据所述协议名查找相应的数据描述信息包括:从数据描述文件目录中查询与所述版本信息对应的目标数据描述文件,并从所述目标数据描述文件中获取与所述协议名对应的数据描述信息;当所述数据源类型为非关注版本数据源时,所述根据所述协议名查找相应的数据描述信息包括:查找所述icp上报数据所属icp对应的数据描述文件,并从所查找到的数据描述文件中获取与所述协议名对应的数据描述信息。相应的,本实施例的方法包括:

步骤410、识别icp上报数据的编码格式。

步骤420、若所述icp上报数据的编码格式为标准编码格式,则判断所述icp上报数据的数据源类型。

其中,数据源类型可以包括关注版本数据源和不关注版本数据源。关注版本数据源区分版本,例如可以是baidu、sina,而不关注版本数据源不区分版本,例如可以是:xiecheng。关注版本数据源的数据描述文件可以包括与各种版本对应的描述文件;不关注版本数据源的数据描述文件可以为预设数据描述文件,与不关注版本数据源对应。

步骤430、当所述数据源类型为关注版本数据源时,解析所述icp上报数据的首行数据信息,并从解析结果中获取所述icp上报数据的版本信息和协议名。

其中,根据icp传输标准的规定,标准版本可以包括1.0、2.1等,而icp上报数据的版本信息的形式多样,包括version1.0、ver1.0、v1.0、1.0、v2.0.17、v2.1.0、2.1等,其中版本信息为version1.0、ver1.0、v1.0、v2.0.17或v2.1.0,均为非标准版本。甚至存在一些icp上报数据,根据该icp上报数据的首行数据信息,无法获取版本信息,即版本信息缺省。

步骤440、从数据描述文件目录中查询与所述版本信息对应的目标数据描述文件,并从所述目标数据描述文件中获取与所述协议名对应的数据描述信息。

其中,数据描述文件目录可以包含所有数据描述文件名称的目录,从数据描述文件目录中可以与版本信息对应的目标数据描述文件,进而可以从目标数据描述文件中获取与协议名对应的数据描述信息。从目标数据描述文件中无法获取与协议名对应的数据描述信息,则可以确定检查结果可以包括版本信息和协议名有误。数据描述文件的目录结构可以为:

index/source_600/1.0/index.xml

index/source_600/2.1/index.xml

index/source_601/index.xml

其中,index/source_600/1.0/index.xml和index/source_600/2.1/index.xml分别对应版本1.0和2.1的数据描述文件。

步骤450、当所述数据源类型为非关注版本数据源时,解析所述icp上报数据的首行数据信息,并从解析结果中获取所述icp上报数据的协议名。

其中,当数据源类型为非关注版本数据源时,解析icp上报数据的首行数据信息,并从解析结果中获取icp上报数据的协议名,而无需解析版本信息,可以直接查找所属icp对应的数据描述文件,例如可以是数据描述文件index/source_601/index.xml。

步骤460、查找所述icp上报数据所属icp对应的数据描述文件,并从所查找到的数据描述文件中获取与所述协议名对应的数据描述信息。

其中,查找icp上报数据所属icp对应的数据描述文件,并从所查找到的数据描述文件中获取与协议名对应的数据描述信息,若从所查找到的数据描述文件中无法获取与协议名对应的数据描述信息,可以确定检查结果可以包括版本信息和协议名有误。

步骤470、在找到所述数据描述信息时,将所述数据描述信息与所述icp上报数据中的数据内容进行匹配,若匹配成功,则确定所述icp上报数据符合标准。

本实施例的技术方案提供了一种网络内容服务商icp上报数据检查方法,该实施例在上述实施例的基础上,通过判断icp上报数据的数据源类型;当数据源类型为关注版本数据源时,从数据描述文件目录中查询与所述版本信息对应的目标数据描述文件,并从目标数据描述文件中获取与协议名对应的数据描述信息;当数据源类型为非关注版本数据源时,查找icp上报数据所属icp对应的数据描述文件,并从所查找到的数据描述文件中获取与协议名对应的数据描述信息,以实现提高获取数据描述信息的速度,从而提高对icp上报数据的自动化检测速度。

实施例五

图5是本发明实施例五提供的一种icp上报数据检查方法的流程图,本实施例是以上述实施例为基础进行优化,具体是当所述数据源类型为关注版本数据源时,在所述根据所述协议名查找相应的数据描述信息之后,还包括:若从数据描述文件目录中无法查询到与所述版本信息对应的目标数据描述文件,则根据所述icp上报数据的版本信息查询版本映射关系表,得到目标版本信息;根据所述目标版本信息从数据描述文件目录中查询与所述目标版本信息对应的目标数据描述文件。相应的,本实施例的方法包括:

步骤510、识别icp上报数据的编码格式。

步骤520、若所述icp上报数据的编码格式为标准编码格式,则判断所述icp上报数据的数据源类型。

步骤530、当所述数据源类型为关注版本数据源时,解析所述icp上报数据的首行数据信息,并从解析结果中获取所述icp上报数据的版本信息和协议名。

步骤540、从数据描述文件目录中查询与所述版本信息对应的目标数据描述文件。

其中,若从数据描述文件目录中无法查询到与所述版本信息对应的目标数据描述文件,则执行步骤550;若从数据描述文件目录中查询到与所述版本信息对应的目标数据描述文件,则执行步骤580。

步骤550、若从数据描述文件目录中无法查询到与所述版本信息对应的目标数据描述文件,则根据所述icp上报数据的版本信息查询版本映射关系表,得到目标版本信息。

其中,若版本信息为非标准版本,则从数据描述文件目录中无法查询到与所述版本信息对应的目标数据描述文件。可以将版本信息缺省或其他形式的版本信息与预设标准版本对应。设置系统配置文件,建立非标准版本与目标版本信息的对应关系,即版本映射关系表。若icp上报数据的版本信息非标准版本,则根据icp上报数据的版本信息,从版本配置文件中查找对应的目标版本信息。版本配置文件的内容可以是:

<datadefault=1.0>//缺省版本

<itemsrcver=version1.0dstver=1.0\>//版本映射关系

<itemsrcver=ver1.0dstver=1.0\>

<itemsrcver=v1.0dstver=1.0\>

<itemsrcver=1.0dstver=1.0\>

<itemsrcver=v2.0.17dstver=2.1\>

<itemsrcver=v2.1.0dstver=2.1\>

<itemsrcver=2.1dstver=2.1\>

</data>

其中,srcver为icp上报数据的版本信息,dstver为目标版本信息,default=1.0表示icp上报数据的版本信息的形式在版本配置文件中未出现或无法获取icp上报数据的版本信息时,将该icp上报数据的目标版本信息设为1.0。通过设置icp上报数据的版本信息和目标版本信息的对应关系,使得无论对icp上报数据是否进行版本区分,都可以通过对版本配置文件进行微小的调整,实现版本的兼容处理。

步骤560、根据所述目标版本信息从数据描述文件目录中查询与所述目标版本信息对应的目标数据描述文件。

步骤570、从所述与所述目标版本信息对应的目标数据描述文件中获取与所述协议名对应的数据描述信息。

步骤580、若从数据描述文件目录中查询到与所述版本信息对应的目标数据描述文件,从所述与所述版本信息对应的目标数据描述文件中获取与所述协议名对应的数据描述信息。

步骤590、当所述数据源类型为非关注版本数据源时,解析所述icp上报数据的首行数据信息,并从解析结果中获取所述icp上报数据的协议名。

步骤5100、查找所述icp上报数据所属icp对应的数据描述文件,并从所查找到的数据描述文件中获取与所述协议名对应的数据描述信息。

步骤5110、在找到所述数据描述信息时,将所述数据描述信息与所述icp上报数据中的数据内容进行匹配,若匹配成功,则确定所述icp上报数据符合标准。

本实施例的技术方案提供了一种网络内容服务商icp上报数据检查方法,该实施例在上述实施例的基础上,若从数据描述文件目录中无法查询到与版本信息对应的目标数据描述文件,则根据icp上报数据的版本信息查询版本映射关系表,得到目标版本信息;根据目标版本信息从数据描述文件目录中查询与目标版本信息对应的目标数据描述文件,以实现对非标准版本的icp上报数据进行版本兼容处理,以减少对非标准但高吻合的上报数据的丢弃。

实施例六

图6a是本发明实施例六提供的一种icp上报数据检查方法的流程图,本实施例是以上述实施例为基础进行优化,具体是在确定所述icp上报数据符合标准之后,还包括:将所述icp上报数据接入监管平台。相应的,本实施例的方法包括:

步骤610、识别icp上报数据的编码格式。

步骤620、若所述icp上报数据的编码格式为标准编码格式,则解析所述icp上报数据的首行数据信息,并获取所述icp上报数据的协议名。

步骤630、根据所述协议名查找相应的数据描述信息。

步骤640、在找到所述数据描述信息时,将所述数据描述信息与所述icp上报数据中的数据内容进行匹配,若匹配成功,则确定所述icp上报数据符合标准。

步骤650、将所述icp上报数据接入监管平台。

其中,将符合标准的icp上报数据接入监管平台。将各种类型的数据分别输出在各自的目录下。优选的,在步骤640之后,还可包括对icp上报数据检查结果进行显示。如图6b所示,界面可以显示出在各个icp中符合icp数据传输标准的文件数、与icp数据传输标准不符的文件数、对非标准数据采用兼容处理后满足标准的文件数、数据检测通过率。如图6c所示,界面还可以显示检测通过的icp上报数据的文件的输入绝对路径、文件大小、文件中的数据条数、数据所属的大小协议、数据行结尾符、数据采集地和时间等信息。这些信息可通过通信接口发送给监管平台以供数据接入处理时使用。如图6d所示,界面还可以显示通过兼容处理后满足icp传输标准的兼容数据,为兼容通过。如图6e所示,界面还可以显示一些错误数据,其中包括文件为空,文件本身乱码、文件目录和文件名不符等类型的错误数据和兼容处理后仍不符合icp传输标准的数据,为检测未通过。

本实施例的技术方案提供了一种网络内容服务商icp上报数据检查方法,该实施例在上述实施例的基础上,通过将符合标准的icp上报数据接入监管平台,可以有效提升监管平台数据接入的效率和能力。

实施例七

图7是本发明实施例七提供的一种网络内容服务商icp上报数据检查装置的结构示意图,该装置适用于执行本发明实施例提供的网络内容服务商icp上报数据检查方法,如图7所示,该装置包括:编码格式识别模块710、解析模块720、描述信息查找模块730和标准符合确定模块740。

其中,编码格式识别模块710,用于识别icp上报数据的编码格式;解析模块720,用于若所述icp上报数据的编码格式为标准编码格式,则解析所述icp上报数据的首行数据信息,并获取所述icp上报数据的协议名;描述信息查找模块730,用于根据所述协议名查找相应的数据描述信息;标准符合确定模块740,用于在找到所述数据描述信息时,将所述数据描述信息与所述icp上报数据中的数据内容进行匹配,若匹配成功,则确定所述icp上报数据符合标准。

本实施例的技术方案,通过识别icp上报数据的编码格式;若icp上报数据的编码格式为标准编码格式,则解析icp上报数据的首行数据信息,并获取所述icp上报数据的协议名;根据协议名查找相应的数据描述信息;在找到数据描述信息时,将数据描述信息与icp上报数据中的数据内容进行匹配,若匹配成功,则确定icp上报数据符合标准,解决了采用人工的数据分析方式,对不同的icp数据进行逐网站、逐类型的分析筛别,导致的效率低甚至无法应对的问题,使得icp上报数据实现自动化检测,并为icp的数据返修提供依据以及减少返工。

优选的,所述解析模块720具体用于:若所述icp上报数据的编码格式为标准编码格式,则判断所述icp上报数据的首行数据信息包含的字段数是否为预设数值,若是,则解析所述icp上报数据的首行数据信息,并获取所述icp上报数据的协议名。

优选的,所述编码格式识别模块710包括:根据至少两种编码格式识别方法,对所述icp上报数据的编码格式进行识别,以获取至少两种识别结果;根据所述至少两种识别结果,确定所述icp上报数据的编码格式。

优选的,所述至少两种编码格式识别方法包括:第一编码格式识别方法、第二编码格式识别方法和第三编码格式识别方法中的至少两种;

其中,第一编码格式识别方法包括:将所述icp上报数据的编码规律依次与至少一种编码格式的编码表进行匹配,根据匹配结果确定所述icp上报数据的编码格式的识别结果;

第二编码格式识别方法包括:从所述icp上报数据的文件中随机获取预设段数的字符,统计与所述至少一种编码格式匹配的字符个数,将匹配个数最多的编码格式作为所述icp上报数据的编码格式的识别结果;

第三编码格式识别方法包括:根据所述icp上报数据的文件的文件头部的标示信息,确定所述icp上报数据的编码格式的识别结果;

其中,所述至少一种编码格式包括:汉字内码扩展规范gbk、大五码big5和统一码unicode,其中,所述统一码unicode包括有无bom的utf-8、有无bom的utf-16和有无bom的utf-32。

优选的,该装置还包括编码格式转换模块:用于在所述编码格式识别模块710识别icp上报数据的编码格式之后,若所述icp上报数据的编码格式为非标准编码格式,则根据至少一种编码格式转换方法将所述icp上报数据转换为标准编码格式的数据,作为兼容icp上报数据,其中,当根据第一编码格式转换方法对所述icp上报数据进行转换时,若转换失败,则根据第二编码格式转换方法对所述icp上报数据进行转换;

相应的,所述解析模块具体用于:解析所述兼容icp上报数据的首行数据信息,并获取所述兼容icp上报数据的协议名。

优选的,该装置还包括确认模块:用于在所述编码格式转换模块根据至少一种编码格式转换方法将所述icp上报数据转换为标准编码格式的数据之后,随机提取所述兼容icp上报数据的预设数量的数据,作为采样数据;对所述采样数据进行中文半角检查;若未发现中文半角的存在,则确定所述icp上报数据转换成功。

优选的,所述解析模块具体用于:判断所述icp上报数据的数据源类型;

当所述数据源类型为关注版本数据源时,解析所述icp上报数据的首行数据信息,并从解析结果中获取所述icp上报数据的版本信息和协议名;当所述数据源类型为非关注版本数据源时,解析所述icp上报数据的首行数据信息,并从解析结果中获取所述icp上报数据的协议名;

相应的,当所述数据源类型为关注版本数据源时,所述根据所述协议名查找相应的数据描述信息包括:从数据描述文件目录中查询与所述版本信息对应的目标数据描述文件,并从所述目标数据描述文件中获取与所述协议名对应的数据描述信息;当所述数据源类型为非关注版本数据源时,所述根据所述协议名查找相应的数据描述信息包括:查找所述icp上报数据所属icp对应的数据描述文件,并从所查找到的数据描述文件中获取与所述协议名对应的数据描述信息。

优选的,所述解析模块还具体用于:当所述数据源类型为关注版本数据源时,在所述根据所述协议名查找相应的数据描述信息之后,若从数据描述文件目录中无法查询到与所述版本信息对应的目标数据描述文件,则根据所述icp上报数据的版本信息查询版本映射关系表,得到目标版本信息;根据所述目标版本信息从数据描述文件目录中查询与所述目标版本信息对应的目标数据描述文件。

优选的,该装置还包括数据接入模块:用于在标准符合确定模块740确定所述icp上报数据符合标准之后,将所述icp上报数据接入监管平台。

上述网络内容服务商icp上报数据检查装置可执行本发明任意实施例所提供的网络内容服务商icp上报数据检查方法,具备执行方法相应的功能模块和有益效果。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1