一种判断html网页为非文本类型的方法

文档序号:6520721阅读:255来源:国知局
一种判断html网页为非文本类型的方法
【专利摘要】本发明公开了一种判断html网页为非文本类型的方法,该方法通过下载URL对应的网页,判断该网页的编码,转换成对应的编码网页,与特征库进行对比,判断网页中是否出现了特征库中的乱码特征字符,若出现了就判定为非文本类型,否则再判断是否出现了连续的乱码字符,若出现了判断为非文本类型,否则为文本类型。通过本发明方法能够智能的识别网页的编码,并识别出是否为非文本类型。
【专利说明】一种判断html网页为非文本类型的方法
【技术领域】
[0001]本发明涉及计算机网络数据【技术领域】,尤其涉及一种判断html网页为非文本类型的方法。
【背景技术】
[0002]要识别网页是否为非文本类型,仅仅从链接的后缀进行区分,是无法做到稳定识别的。必须分析该网页的内容,分析其内容是否含有不可识别的字符,也就是俗称乱码的内容。
[0003]发明专利ZL200810180824.6公开了一种同话题定位跟踪式论坛爬虫系统,通过分析URL链接名称中是否包含一些非文本类型的后缀,如wav, jpg, ocx等,来分析该链接是否为非文本类型的网页。该发明的关注点为URL的名称,而非URL对应网页的内容,只是简单通过分析URL链接的名字,来确定网页是否为非文本类型,具有较大的误差。

【发明内容】

[0004]本发明的目的是为了克服现有技术的缺陷,提供一种判断html网页为非文本类型的方法,该方法包括以下步骤:
[0005]St印1:下载URL对应的网页;
[0006]Step2:判断该网页的编码,转换成对应的编码网页;
[0007]Step3:与特征库进行对比,判断网页中是否出现了特征库中的乱码特征字符,若出现乱码特征字符就判定为非文本类型,否则再判断是否出现了连续的乱码字符,若出现连续的乱码字符就判定为非文本类型,否则为文本类型。
[0008]本发明技术方案带来的有益效果:
[0009]本发明技术方案通过使用特征库匹配、连续乱码字符段匹配等手段,识别网页的正确编码,并进行自动转码,即使网页中未包含编码说明,仍能正常识别网页的编码是否为非文本类型,识别率高且稳定。
【专利附图】

【附图说明】
[0010]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0011]图1是本发明的一种判断html网页为非文本类型的方法的流程图。
【具体实施方式】
[0012]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0013]在对web业务系统进行流程监控及分析时,需要分析的内容通常都是网页中的文本内容,因此需要智能的对非文本内容的网页进行识别。通过本发明的一种判断html网页为非文本类型的方法,能够自动、无人值守的识别WEB网站中的非文本类型的网页、URL链接,如图片、音乐、FLASH文件、二进制文件等。
[0014]本发明的主要创新点在于通过内容分析及非文本字符特征库,能够智能的识别网页的编码,并识别出是否为非文本类型。如图1所示为本发明的方法流程图,具体步骤为:
[0015]St印1:下载URL对应的网页;
[0016]Step2:判断该网页的编码,转换成对应的编码网页;
[0017]Step3:与特征库进行对比,判断网页中是否出现了特征库中的乱码特征字符,若出现乱码特征字符就判定为非文本类型,否则再判断是否出现了连续的乱码字符,若出现连续的乱码字符就判定为非文本类型,否则为文本类型。
[0018]本发明方法能够识别网页的正确编码,并进行自动转码,即使网页中未包含编码说明,如charset=utf_8等,仍可正常识别网页的编码。
[0019]本发明还收集了常见的乱码特征符,能够快速的识别网页是否为非文本类型。
[0020]本发明即使出现生僻字符,只要不是连续出现,也不会被识别为非文本,避免了因网页偶然出现的生僻字而影响识别率。
[0021]以上对本发明实施例所提供的一种判断html网页为非文本类型的方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
【权利要求】
1.一种判断html网页为非文本类型的方法,其特征在于,该方法包括以下步骤: Stepl:下载URL对应的网页; Step2:判断该网页的编码,转换成对应的编码网页; Step3:与特征库进行对比,判断网页中是否出现了特征库中的乱码特征字符,若出现乱码特征字符就判定为非文本类型,否则再判断是否出现了连续的乱码字符,若出现连续的乱码字符就判定为非文本类型,否则为文本类型。
2.根据权利要求1所述的方法,其特征在于,该方法能够识别网页的正确编码,并进行自动转码,即使网页中未包含编码说明,仍能正常识别网页的编码。
3.根据权利要求1所述的方法,其特征在于,该方法即使出现生僻字符,只要不是连续出现,也不会被识别为非文本,避免了因网页偶然出现的生僻字而影响识别率。
【文档编号】G06F17/30GK103593463SQ201310608481
【公开日】2014年2月19日 申请日期:2013年11月26日 优先权日:2013年11月26日
【发明者】杨育斌, 柯宗贵, 李佳 申请人:蓝盾信息安全技术股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1