信息采集方法及系统的制作方法

文档序号:6465250阅读:171来源:国知局
专利名称:信息采集方法及系统的制作方法
技术领域
本发明涉及互联网信息处理技术,尤其涉及一种Internet信息定 向采集处理的方法及系统。
背景技术
随着Internet的发展和日益普及,经济全球化与科技创新的竟争 日益剧烈,很多技术的前沿信息都率先在Internet上公布,全球经济 的发展呈现出对Internet中知识的扩散和应用的依赖,这使得Internet 信息的数量呈几何级增长,在这个巨大的、异构的信息海洋中,蕴含 着具有巨大潜在价值的信息和知识,采集和利用这些信息和知识已经 成为国家、企业、个人的迫切需求。
此外,这些Internet信息90%以上为非结构化的信息,如各类电 子文档、网页、多媒体内容等,仅有不到10%的信息内容为数字等结 构化信息,在管理与利用这些非结构化的信息资源时现有的信息管理 方式管理起来比较困难。
为了利用海量的非结构化信息占绝大多数的Internet信息,现有 的以搜索引擎为主要产品的快速搜索技术为人们提供了 一种查找信息 的渠道,而这种快速搜索是建立在Internet信息采集的基础上。
现有的Internet信息采集系统主要是利用网页中存在的链接地 址直接获取到页面内容或者二进制文件,在现有的信息采集系统中, 由于当前各种先进技术的运用,许多网站的格局千变万化,对于动态 生成的网页和利用脚本生成的网页,难以进行采集。另外,由于URL 链接地址数量巨大,为了避免浪费系统资源,需要对地址进行去重操 作,现有的去重操作均是对地址直接进行去重,由于这些地址会占去 很大的存储空间,因此去重效率比较低下。

发明内容
本发明的目的是提出一种信息采集方法及系统,能够对各种网页 格式的网页进行内容的提取,来实现网页信息的采集。
为实现上述目的,本发明提供了一种信息采集方法,包括以下步

根据预设的采集任务模板从互联网上获取符合采集要求的一个 或多个网页链接地址;
对所述一个或多个网页链接地址执行去重操作,并将去重后得到 的结果存入地址列表数据文件;
修补所述地址列表数据文件所对应的内容信息的超文本标记语 言标签,并对修补后的网页内容进行文本信息提取;
对提取的文本信息进行自动分类,然后对分类后的文本信息进行 分词处理,并提取所述文本信息的摘要;
将所述文本信息的分类給果、分词操作得到的词条以及摘要输出。
进一步的,还包括预先设置采集任务模板的操作,具体为在超 文本标记语言页面标签树结构的各个节点中保存用户输入的采集任务 的要求。
进一步的,所述对所述一个或多个网页链接地址执行去重操作, 并将去重后得到结果存入地址列表数据文件的操作具体为将所述一 个或多个网页链接地址进行哈希变换,生成与所述一个或多个网页链 接地址对应的标识码列表,对所述标识码列表进行去重操作,将去重 后的标识码列表存入地址列表数据文件。
进一步的,修补超文本标记语言标签的操作具体为根据预先构 造的超文本标记语言解析器,对所述地址列表数据文件所对应的内容 信息的超文本标记语言标签进行修补。
进一步的,对修补后的网页内容进行文本信息提取的操作具体 为对修补后的网页内容中的文本格式数据和/或能够提取出文本信息
6的二进制格式数据进行文本信息提取。
进一步的,从二进制格式数据中提取文本信息的操作具体为根 据所述二进制格式数据的文件格式选择对应的提取插件对文本信息进 行提取。
进一步的,当对修补后的网页内容进行文本信息提取的操作失败 时,重新对超文本标记语言解析器进行构造,并根据重新构造的超文 本标记语言解析器对网页内容进行修补。
进一步的,对提取的文本信息进行自动分类的操作具体为通过 百分比阈值确定法确定分类阈值,并根据所述分类阈值对提取的文本 信息进行自动分类。
进一步的,在对分类后的文本信息进行分词处理之前,还包括语 种识别的操作,并根据识别出的语种选择分词方式。
进一步的,所述分词处理的操作具体为
根据预设的分词词典对所述分类后的文本信息进行正向最大匹 配分词及逆向最大匹配分词;
判断所述正向最大匹配分词及逆向最大匹配分词得到的词条是 否匹配,如果匹配,则确定正向最大匹配分词或逆向最大匹配分词得 到的词条为分词结果,否则确定正向最大匹配分词和逆向最大匹配分 词得到的权重较大的词条为分词结果。
进一步的,所述提取文本信息的摘要的操作具体为
提取分词处理后得到的词条的类别特征,并计算该词条的权重;
根据所述词条的权重计算文本信息中各个句子的权重,并依据所 迷各个句子中的权重进行排序;
取出权重较大的排序前预设位数的句子作为文摘句,以原文顺序 输出文摘句的集合;
对所述文摘句的集合进行平滑方法和缩句处理,得到所述文本信 息的摘要。
为实现上述目的,本发明提供了一种信息采集系统,包括 地址获取模块,用于根据预设的釆集任务模板从互联网上获取符合采集要求的一个或多个网页链接地址;
地址去重模块,用于对所述一个或多个网页链接地址执行去重操 作,并将去重后得到的结果存入地址列表数据文件;
标签修补模块,用于修补所述地址列表数据文件所对应的内容信 息的超文本标记语言标签;
文本信息提取模块,用于对修补后的网页内容进行文本信息提
取;
自动分类模块,用于对提取的文本信息进行自动分类; 分词处理模块,用于对分类后的文本信息进行分词处理; 摘要提取模块,用于提取所述文本信息的摘要; 结果输出模块,用于将所述文本信息的分类结果、分词操作得到 的词条以及摘要输出。
基于上述技术方案,本发明在信息采集过程中通过对网页中的内 容信息进行HTML标签的修补,实现对各种网页格式的内容的采集; 通过对网页链接地址进行哈希转换,增加网页链接地址去重的效率。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请 的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构
成对本发明的不当限定。在附图中
图1为本发明信息釆集方法的一实施例的流程示意图。 图2为本发明信息采集方法的去重操作的流程示意图。 图3为本发明信息采集方法的分词处理的流程示意图。 图4为本发明信息釆集方法的摘要提取的流程示意图。 图5为本发明信息采集系统的一实施例的结构示意图。
具体实施例方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
8如图l所示,为本发明信息采集方法的一实施例的流程示意图。
在本实施例中,信息采集过程包括以下步骤
步骤IOI、根据预设的采集任务模板从互联网上获取符合采集要 求的一个或多个网页链接地址;
步骤102、对所述一个或多个网页链接地址执行去重操作,并将 去重后得到的结果存入地址列表数据文件;
步骤103、修补所述地址列表数据文件所对应的内容信息的超文 本标记语言标签;
步骤104、对修补后的网页内容进行文本信息提取;
步骤105、对提取的文本信息进行自动分类;
步骤106、然后对分类后的文本信息进行分词处理,并提取所述 文本信息的摘要;
步骤107、将所述文本信息的分类结果、分词操作得到的词条以 及摘要输出。
在步骤101中提到的釆集任务模板可以釆用用户预先设置的方 式,用户可以利用模板定制的方式制作自己要采集对象的任务模板, 任务模板可以指导采集器进行定向釆集。模板的可自己定制性极大的 灵活了用户的操作,用户可以对每一个站点中大量的数据中自己感兴 趣的栏目制定模板,这样就可以直接采集那个栏目中的内容,不会出 现对整个站点到内容全部采集,而后再进行处理获取到自己想要的信 息数据,不仅加快的采集的速度,而且节约的网络资源。
本发明的这种设置方式摆脱了传统的模板定制方式,利用HTML 中各个标签节点形成一颗直观的树形结构,用户只需要根据自身的需 求选择节点就可以直接制作成为采集任务模板。
由于通过步骤101获取到的大量的URL地址存在众多的重复链 接,考虑到效率原因,必须对地址进行去重操作,现有技术中的地址 去重思路适用于本实施例,例如先将所有的URL地址存入数据库, 做好索引后,利用数据库的查找来判断该URL是否被重复下载,或 者利用文件存储,并建立基于文件的查找索引,通过文件的查找来该URL是否被重复下栽。
由于互联网中的网页数量极其庞大,假设有4亿左右的网页,而 每一个URL的平均长度假设为25个字符,那么存储这些网页的URL 地址需要的空间为8G左右,很显然面对如此大的文件,现有的去重 机制无法快速的进行URL查找,也就不能保证快速的下载和去重。 为了进一步解决此问题,在另一个实施例中采用了哈希转换的方式文 来实现URL的快速去重。
如图2所示,为本发明信息采集方法的去重操作的流程示意图。 该去重操作包括以下步骤
步骤201、将从互联网上获取到的一个或多个网页链接地址进行 哈希变换(例如釆用CRC32转换),生成与一个或多个网页链接地 址对应的标识码列表,标识码与网页链接地址一^*对应;
步骤202、对该标识码列表进行去重操作,也就是去掉重复的标
识码;
步骤203、将去重后的标识码列表存入地址列表数据文件。
当采用CRC32转换时,可以生成一个与地址唯一对应的4字节 32位的编码,远小于URL地址的平均长度,这是因为哈希转换可以 快速的进行定位,极大的提高了去重效率。系统的实际运行证明这种 URL去重机制的速度比传统的URL去重机制处理速度快2个以上的 数量级,具有极好的应用和推广价值。
在釆集网页信息的时候, 一般会识别网页的HTML代码,而在 代码部分会有META标识。通过这些标识,可以获知该网页是否需要 被抓取,以及该网页中的链接是否需要被继续跟踪等信息。在信息采 集过程中,抓取下来的网页可能包括各种格式,包括html、图片、doc、 pdf、多媒体、动态网页及其它格式等,这些文件抓取下来后,需要把 这些文件中的文本信息提取出来。对于如何准确提取这些文档的信息, 一方面对搜索引擎的搜索准确性有重要作用,另一方面对于信息采集 系统正确跟踪其它链接有 一 定影响。
为了获取各种网页格式的网页中的内容,在本实施例中构造了具200810126496.1
备较强容错能力的HTML解析器,通过大量的样例学习,提取了对访 问内容相关度很低的标签(大约有10 20个),认为是可忽视标签库。 具体数据结构描述如下
struct JagElement〃对象结构体; {char * tagName; 〃才示签的名称; 一tagElement * parentEIement;〃父标签节点; unsigned int index;〃此标签处在父标签节点的孩子节点中的
位置;
unsigned int childCount;〃此标签所含孩子节点的个数;
int * childElements;〃此标签的孩子节点;
bool isText;〃此标签所代表的内容是否为文本内容;
char * text;〃存储文本内容。 这样通过预先构造的HTML解析器,对前面提到的地址列表数 据文件所对应的内容信息的HTML标签进行修补,这样就可以对各种 网页格式的网页中的内容进行提取。
由于网页内容中可能有文本格式的数据以及二进制格式的数据, 因此对于文本格式数据可以直接提取出文本信息,而对于二进制格式 的数据,可以通过选择预先设定的与该格式对应的提取插件进行文本 信息的提取。当然, 一般要求这些二进制格式的数据中应该可以提取 出文本信息,例如pdf格式、word格式、ppt格式等。
本实施例里还可以通过设置一个插件管理服务程序对不同格式 的网页采用不同的插件处理。这种方式的好处在于扩充性好,以后每 发现一种新的类型,就可以把其处理方式做成一个插件补充到插件管 理服务程序之中。
由于网页的更新通常是比较快的,可能会出现一些新的网页格 式,因此当对修补后的网页内容进行文本信息提取的操作失败时,需 要重新对HTML解析器进行构造,并根据重新构造的HTML解析器 对网页内容进行修补。在网页的提取过程中,也可以通过对新提取的 网页的属性(例如生成时间等)与以前提取的网页的属性的比较,来
ii在文本信息的自动分类中, 一般需要先确定分类阈值,然后根据 该分类阈值对文本信息进行自动分类。其中确定分类阈值的方式可采 用百分比阈值确定法,首先依据上述训练算法和分类算法构造分类器, 然后对于要确定阈值的类,用分类器分类该类中所有的训练文本,从
而每个文本都得到一个相关的值,以上述算法为例
简单向量距离分类法文本与本类中心向量间的相似度值 KNN算法K个邻居中的类权重
然后按递减顺序排列所有本类训练文本得到的值,假定本类有n 篇文本,那么这些文本的值为"',"2……《,那么本类阅值y确定如下
少=《"%
其中,s为初始值,根据训练文本的质量程度,可以确定为80 或更高,这样就确定了本类的初始阁值,可以想象,S越大,该分类 器的查全率就越高,准确度就越低,相反地,S越小,查全率就越低, 准确率就越高,然后根据测试进行调整。
相应地,调整阈值可以转化为调整s值,如果对查全率满意而对 准确率不满意,那么可以减少s值,否则就增加s值。
在文本信息的自动分类上,可采用现有的K-NN算法或者SVM 算法,或者采用效果更好的K-NN与SVM相结合的分类算法。这种 改进算法中将文本分类与聚类技术相结合,利用文本聚类技术构造文 档类别的代表点来优化K-NN算法,同时利用sigmoid函数对SVM 输出结果进行概率转换以提高SVM的性能,在融合的策略上利用 CLA置信度估计将K-NN的输出类别作为SVM分类器的输入候 选,利用SVM对K-NN算法的分类决策中由于只统计临近样本的个 数而导致的结果不够精确的情况进行改进。
在对文本信息进行自动分类后,需要对分类后的文本信息进行分 词处理,具体的处理参见图3,包括以下步骤
步骤301、根据预设的分词词典对所述分类后的文本信息进行正 向最大匹配分词及逆向最大匹配分词;步骤302、判断所述正向最大匹配分词及逆向最大匹配分词得到 的词条是否匹配,如果匹配,则执行步骤303,否则执行步骤304;
步骤303、确定正向最大匹配分词或逆向最大匹配分词得到的词 条为分词结果;
步骤304、确定正向最大匹配分词和逆向最大匹配分词得到的权 重较大的词条为分词结果。
在对分类后的文本信息进行分词处理之前,还可以增加语种识别 的操作,根据识别出的语种选择分词方式,例如对于英语按照单词获 词组进行切分,对于汉语按照单字或词语进行切分等。
除了要对文本信息进行分词处理,还需要对文本信息的摘要进行 提取,提取操作参见图4,包括以下步骤
步骤401、提取分词处理后得到的词条的类别特征,并计算该词 条的权重;
步骤402、根据所述词条的权重计算文本信息中各个句子的权重, 并依据所述各个句子中的权重进行排序;
步骤403、取出权重较大的排序前预设位数的句子作为文摘句, 以原文顺序输出文摘句的集合;
步骤404、对所述文摘句的集合进行平滑方法和缩句处理,得到 所述文本信息的摘要。
在上述摘要生成的算法中,部分元数据如对标题的分析、作者、 主题词的提取,也可以作为中间结果也将被输出和保存,以形成完整
的符合基本文献规范的元数据体系。
最后,经过上迷过程,把系统中采集到的文本信息的分类结果、
分词操作得到的词条以及摘要转化为数据资源形成文件输出。
本领域普通技术人员可以理解实现上述方法实施例的全部或部 分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于 一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实 施例的步骤;而前述的存储介质包括ROM、 RAM、磁碟或者光盘 等各种可以存储程序代码的介质。如图5所示,为本发明信息釆集系统的一实施例的结构示意图。 在本实施例中包括以下模块地址获取模块1,用于根据预设的采集 任务模板从互联网上获取符合采集要求的一个或多个网页链接地址。 地址去重模块2用于对该一个或多个网页链接地址执行去重操作,并 将去重后得到的结果存入地址列表数据文件。标签修补模块3用于修 补该地址列表数据文件所对应的内容信息的超文本标记语言标签。文 本信息提取模块4用于对修补后的网页内容进行文本信息提取。自动 分类模块5用于对提取的文本信息进行自动分类。分词处理模块6用 于对分类后的文本信息进行分词处理。摘要提取模块7用于提取该文 本信息的摘要。结果输出模块8用于将该文本信息的分类结果、分词 操作得到的词条以及摘要输出。
本发明在信息采集过程中通过对网页中的内容信息进行HTML 标签的修补,实现对各种网页格式的内容的采集;通过对网页链接地 址进行哈希转换,增加网页链接地址去重的效率。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而 非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属 领域的普通技术人员应当理解依然可以对本发明的具体实施方式
进 行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案 的精神,其均应涵盖在本发明请求保护的技术方案范围当中。
1权利要求
1、一种信息采集方法,包括以下步骤根据预设的采集任务模板从互联网上获取符合采集要求的一个或多个网页链接地址;对所述一个或多个网页链接地址执行去重操作,并将去重后得到的结果存入地址列表数据文件;修补所述地址列表数据文件所对应的内容信息的超文本标记语言标签,并对修补后的网页内容进行文本信息提取;对提取的文本信息进行自动分类,然后对分类后的文本信息进行分词处理,并提取所述文本信息的摘要;将所述文本信息的分类结果、分词操作得到的词条以及摘要输出。
2、 根据权利要求1所迷的信息釆集方法,其中还包括预先设置 釆集任务模板的操作,具体为在超文本标记语言页面标签树结构的各个节点中保存用户输入 的采集任务的要求。
3、 根据权利要求1所述的信息采集方法,其中所述对所述一个 或多个网页链接地址执行去重操作,并将去重后得到结果存入地址列 表数据文件的操作具体为将所述一个或多个网页链接地址进行哈希变换,生成与所述一个 或多个网页链接地址对应的标识码列表,对所述标识码列表进行去重 操作,将去重后的标识码列表存入地址列表数据文件。
4、 根据权利要求1所迷的信息采集方法,其中修补超文本标记 语言标签的操作具体为根据预先构造的超文本标记语言解析器,对所述地址列表数据文 件所对应的内容信息的超文本标记语言标签进行修补。
5、 根据权利要求4所述的信息采集方法,其中对修补后的网页 内容进行文本信息提取的操作具体为对修补后的网页内容中的文本格式数据和/或能够提取出文本信 息的二进制格式数据进行文本信息提取。
6、 根据权利要求5所述的信息采集方法,其中从二进制格式数 据中提取文本信息的操作具体为根据所述二进制格式数据的文件格式选择对应的提取插件对文 本信息进行提取。
7、 根据权利要求4所述的信息采集方法,其中当对修补后的网 页内容进行文本信息提取的操作失败时,重新对超文本标记语言解析 器进行构造,并根据重新构造的超文本标记语言解析器对网页内容进 行修补。
8、 根据权利要求1所述的信息采集方法,其中对提取的文本信 息进行自动分类的操作具体为通过百分比阈值确定法确定分类阈值,并根据所述分类阈值对提 取的文本信息进行自动分类。
9、 根据权利要求1所述的信息釆集方法,其中在对分类后的文 本信息进行分词处理之前,还包括语种识别的操作,并根据识别出的 语种选择分词方式。
10、 根据权利要求9所述的信息采集方法,其中所述分词处理的 操作具体为根据预设的分词词典对所述分类后的文本信息进行正向最大匹 配分词及逆向最大匹配分词;判断所述正向最大匹配分词及逆向最大匹配分词得到的词条是 否匹配,如果匹配,则确定正向最大匹配分词或逆向最大匹配分词得 到的词条为分词结果,否则确定正向最大匹配分词和逆向最大匹配分 词得到的权重较大的词条为分词结果。
11、 根据权利要求1所述的信息釆集方法,其中所述提取文本信 息的摘要的操作具体为提取分词处理后得到的词条的类别特征,并计算该词条的权重; 根据所述词条的权重计算文本信息中各个句子的权重,并依据所述各个句子中的权重进行排序;取出权重较大的排序前预设位数的句子作为文摘句,以原文顺序 输出文摘句的集合;对所述文摘句的集合进行平滑方法和缩句处理,得到所述文本信 息的摘要。
12、 一种信息采集系统,包括地址获取模块,用于根据预设的采集任务模板从互联网上获取符 合采集要求的一个或多个网页链接地址;地址去重模块,用于对所述一个或多个网页链接地址执行去重操 作,并将去重后得到的结果存入地址列表数据文件;标签修补模块,用于修补所述地址列表数据文件所对应的内容信 息的超文本标记语言标签;文本信息提取模块,用于对修补后的网页内容进行文本信息提取;自动分类模块,用于对提取的文本信息进行自动分类; 分词处理模块,用于对分类后的文本信息进行分词处理; 摘要提取模块,用于提取所述文本信息的摘要; 结果输出模块,用于将所述文本信息的分类结果、分词操作得到 的词条以及摘要输出。
全文摘要
本发明涉及一种信息采集方法,包括根据预设的采集任务模板从互联网上获取符合采集要求的一个或多个网页链接地址;对一个或多个网页链接地址执行去重操作,并将去重结果存入地址列表数据文件;修补地址列表数据文件所对应的内容信息的HTML标签,并对修补后的网页内容进行文本信息提取;对提取的文本信息进行自动分类,然后对分类后的文本信息进行分词处理,并提取文本信息的摘要;将文本信息的分类结果、分词操作得到的词条以及摘要输出。本发明还涉及一种信息采集系统。本发明在信息采集过程中通过对网页中的内容信息进行HTML标签的修补,实现对各种网页格式的内容的采集;通过对网页链接地址进行哈希转换,增加网页链接地址去重的效率。
文档编号G06F17/30GK101620608SQ20081012649
公开日2010年1月6日 申请日期2008年7月4日 优先权日2008年7月4日
发明者蓝培瑜 申请人:全国组织机构代码管理中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1