基于网页链接分析和支持向量机的网页文本分类算法研究的制作方法

文档序号：9453090阅读：351来源：国知局

基于网页链接分析和支持向量机的网页文本分类算法研究的制作方法
【技术领域】：
[0001] 本发明涉及基于网页链接分析和支持向量机的网页文本分类算法研究，属于网页分类技术领域。
【背景技术】：
[0002] 随着计算机与通讯技术的快速发展，互联网迅速普及应用，网络上的网页正以几何级数的速度增长。面对这些爆炸式增长的海量网络信息，如何从中快速、有效地获得有用的、感兴趣的信息变得越来越重要。因此，有效地组织和管理网页资源，缩短用户获取所需信息的时间，成为了目前急需解决的问题。网页分类技术应运而生，并逐渐成为继文本分类之后机器学习领域的研究热点。
[0003] 传统上的网页分类是先由人工判断类别，即在分析网页的内容之后，人工手动选择一个合适的类别。但是，这种人工分类的做法存在着许多缺点：一是在网页文本数量急剧增长的情况下，用人工分类方法来进行分类变得不切实际，需要耗费大量的人力资源；二是人工对网页文本进行分类无法保证较高的分类准确率，主要是由于每个人的经验知识等主观因素不同，分类结果可能会出现不一致的情况。因此，急需一种有效的方法对网页文本进行管理，由此网页文本自动分类技术开始显示出其优越性。
[0004] 网页文本自动分类技术来源于文本自动分类技术，其目标和文本分类技术一致，即在预先定义的网页分类体系下，把待分类的网页准确归属到一个或多个相应的类别。常用的网页文本分类算法有以下几种：knn算法、NB(NaiveBayes)算法、支持向量机 (SVM)、遗传算法（GA)、R〇cchi〇算法等。这些网页文本自动分类技术仍然存在着许多问题，如网页文本特征空间的维数过高，导致存储空间大，分类速度慢；网页中包含有大量网站标记、广告等噪声信息，严重干扰了对网页类别的确定，从而降低了分类的准确率；同时网页中不同位置的信息表达网页的能力不同，对分类的准确性有一定的影响。因此，迫切需要找到一种有效的网页文本分类技术，来减少分类的时间，并提高分类的准确率。

【发明内容】
：
[0005] 针对上述问题，本发明要解决的技术问题是提供基于网页链接分析和支持向量机的网页文本分类算法研究。
[0006] 本发明的基于网页链接分析和支持向量机的网页文本分类算法研究，它的具体步骤为：一、把大量网页分为训练集和测试集两部分，一般要求训练接总网页数的40%左右，测试集取剩下的部分；二、对网页（包括训练集和测试集）进行预处理，主要是对网页进行分词，将网页内的文本切割为单个的词语，去除网页中对分类无关的噪音信息，去除停用词等；三、结合特征词（网页内所有能表示网页内容的词）的位置特征，计算训练集中每个网页内特征词的词频；四、结合特征词的在网页文本中的位置分布，计算出训练集中每个网页内特征词的权重（通过TF-IDF函数）；五、根据每个类中各网页的文本特征向量，计算测试集中每个类的特征向量；六、结合每个网页内特征词的权重，计算训练集中每个网页的文本特征向量；七、计算各类中每个网页与类的特征向量的文本相似度（采用余弦夹角公式），确定相似度最小值为阀值；八、通过阀值确定最大TF-IDF值，最大程度减少特征词的数量；九、通过支持向量机训练出初始分类器，对测试集网页的文本特征向量进行分类；十、同时计算测试网页分类后与此类特征向量的相似度，若相似度大于阀值，则不需改变分类器，若相似度小于阀值，则重新确定特征词和特征向量，获得新的支持向量分类器，返回步骤九。
[0007] 作为优选，本发明由于网页的半结构化，不同位置的信息对网页信息的描述能力存在差异，故将分别根据网页中的标题，超链接文本，具有强调标记和网页正文中的特征词的词频给予不同的权重，分别进行加权，特征词的词频计算如下：
[0008]
[0009] 其中，a为不同位置的系数，tfn指对应位置的词频
[0010]
[0011] 采用基于TF-IDF特征向量的文本相似度，文档dj和文档dk的主题相关度表示为：
[0012]
[0013] 本发明的有益效果为：
它利用空间向量模型和支持向量机的方法，具有分类时间短，召回率高，内存需求少，学习速度快的特点。
【附图说明】：
[0014] 为了易于说明，本发明由下述的具体实施及附图作以详细描述。
[0015] 图1为本发明中web文本分类系统的结构框图，
[0016] 图2为本发明实施例中改进前的SVM分类结果表示意图，
[0017] 图3为本发明实施例中改进后的文本分类结果表示意图，
[0018] 图4为本发明中实施例的两种分类方法的准确率曲线图，
[0019] 图5为本发明中实施例的两种分类方法召回率曲线图，
[0020] 图6为本发明中实施例的两种分类方法的F-measure曲线图，
[0021] 图7为本发明实施例中召回率对比曲线图，
[0022] 图8为本发明实施例中准确率对比曲线图，
[0023] 图9为本发明实施例中F值的对比曲线图。
【具体实施方式】：
[0024]为使本发明的目的、技术方案和优点更加清楚明了，下面通过附图中示出的具体实施例来描述本发明。但是应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。
[0025] 如图1所示，本【具体实施方式】采用以下技术方案：它的具体步骤为：一、把大量网页分为训练集和测试集两部分，一般要求训练接总网页数的40%左右，测试集取剩下的部分；二、对网页（包括训练集和测试集）进行预处理，主要是对网页进行分词，将网页内的文本切割为单个的词语，去除网页中对分类无关的噪音信息，去除停用词等；三、结合特征词（网页内所有能表示网页内容的词）的位置特征，计算训练集中每个网页内特征词的词频；四、结合特征词的在网页文本中的位置分布，计算出训练集中每个网页内特征词的权重 (通过TF-IDF函数）；五、根据每个类中各网页的文本特征向量，计算测试集中每个类的特征向量；六、结合每个网页内特征词的权重，计算训练集中每个网页的文本特征向量；七、计算各类中每个网页与类的特征向量的文本相似度（采用余弦夹角公式），确定相似度最小值为阀值；八、通过阀值确定最大TF-IDF值，最大程度减少特征词的数量；九、通过支持向量机训练出初始分类器，对测试集网页的文本特征向量进行分类；十、同时计算测试网页分类后与此类特征向量的相似度，若相似度大于阀值，则不需改变分类器，若相似度小于阀值，则重新确定特征词和特征向量，获得新的支持向量分类器，返回步骤九。
[0026] 进一步的，本发明由于网页的半结构化，不同位置的信息对网页信息的描述能力存在差异，故将分别根据网页中的标题，超链接文本，具有强调标记和网页正文中的特征词的词频给予不同的权重，分别进行加权，特征词的词频计算如下：
[0027] n=i
[0028] 其中，a为不同位置的系数，tfn指对应位置的词频
[0029]
[0030] 采用基于TF-IDF特征向量的文本相似度，文档dj和文档dk的主题相关度表示为：
[0031

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王冰;陈浩;
技术所有人：湖南大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。