一种基于URL的互联网信息分类识别方法及系统与流程

文档序号：12363907阅读：来源：国知局

技术特征：

1.一种基于URL的互联网信息分类识别方法，其特征在于，所述基于URL的互联网信息分类识别方法包括以下步骤：

从互联网抓取模式化的信息；

基于关键字对抓取的信息进行人工分类处理以获得分类信息来建立分类信息库；

向知识库中导入分类信息库中的分类信息；

根据知识库中的分类信息结合URL结构对互联网信息的URL进行分层识别及分类；

输出识别和分类的结果。

2.根据权利要求1所述的基于URL的互联网信息分类识别方法，其特征在于，所述向知识库中导入分类信息库中的分类信息的具体实施方式可为：导入分类信息库中的分类信息到知识库中进行存储，并将所有知识库加载到内存中。

3.根据权利要求1所述的基于URL的互联网信息分类识别方法，其特征在于，所述根据知识库中的分类信息结合URL结构对互联网信息的URL进行分层识别及分类包括以下步骤：根据知识库中的分类信息对互联网信息的URL进行初步分类，基于URL结构对初步分类后的互联网信息进行进一步分层识别及分类。

4.根据权利要求3所述的基于URL的互联网信息分类识别方法，其特征在于，所述根据分类信息库对互联网信息的URL进行初步分类的具体实施方式可为：根据分类信息库中的关键字，对包含所述关键字的互联网信息的URL进行初步分类。

5.根据权利要求4所述的基于URL的互联网信息分类识别方法，其特征在于，所述基于URL结构对初步分类后的互联网信息进行进一步分层识别及分类的具体实施方式可为：对初步分类后的互联网信息的URL结构进行分析，基于分层的概念，根据URL层次的不同将所述互联网信息进行进一步分类。

6.根据权利要求1所述的基于URL的互联网信息分类识别方法，其特征在于，所述基于关键字对抓取的信息进行人工分类处理以获得分类信息来建立分类信息库中的分类信息具体可包括：明文分类信息和密文分类信息。

7.根据权利要求1至6之一所述的基于URL的互联网信息分类识别方法，其特征在于，所述基于URL的互联网信息分类识别方法包括以下步骤：通过socket连接的方式输入互联网信息以进行查询和分类识别。

8.一种基于URL的互联网信息分类识别系统，其特征在于，所述基于URL的互联网信息分类识别系统包括：

搜集模块，用于从互联网抓取模式化的信息；

信息分类模块，用于基于关键字对抓取的信息进行人工分类处理以获得分类信息来建立分类信息库；

导入模块，用于向知识库中导入分类信息库中的分类信息；

分类识别模块，用于根据知识库中的分类信息结合URL结构对互联网信息的URL进行分层识别及分类；

输出模块，用于输出识别和分类的结果。

9.根据权利要求8所述的基于URL的互联网信息分类识别系统，其特征在于，所述分类识别模块包括：初步分类模块，用于根据知识库中的分类信息对互联网信息的URL进行初步分类；分层识别模块，用于基于URL结构对初步分类后的互联网信息进行进一步分层识别及分类。

10.根据权利要求7至9之一所述的基于URL的互联网信息分类识别系统，其特征在于，所述基于URL的互联网信息分类识别系统还包括：socket连接模块，用于通过socket连接的方式输入互联网信息以进行查询和分类识别。

完整全部详细技术资料下载

当前第2页1 2 3