一种基于文本分类技术的信息处理方法与流程

文档序号:11950423阅读:212来源:国知局

本发明属于网络方法领域,更具体地说,本发明涉及一种基于文本分类技术的信息处理方法。



背景技术:

目前,网络信息呈现出数量巨大、内容广泛、形式多样等特点,就我国而言,相关调查报告显示到 2005 年底全国网页总数为 1.87 亿,包含科技、新闻、教育、商务、娱乐等诸多方面的内容。如此大量的信息给人们的生活带来了极大便利的同时,也存在着一些日益突出的问题:一是大量的信息资源给检索带来困难,基于关键字的检索结果会有很多不相关的文档;二是网络安全的问题;如何在这些大量、异质的海量信息资源中,快速有效的发掘具有巨大潜在价值的有用知识和信息;如何合理分类及准确地定位所需信息,同时处理大量无用的或不相关的内容,已成为知识获取和信息过滤的瓶颈以及当今网络安全技术中的一大热门课题。



技术实现要素:

本发明所要解决的问题是提供一种基于文本分类技术的信息处理方法。

为了实现上述目的,本发明采取的技术方案为:

一种基于文本分类技术的信息处理方法,包括如下步骤:

(1)文本预处理

对含有无关文本信息和错误文本信息进行过滤。无关文本信息的处理主要是删除描述网页信息的标签、脚本及非文本对象等。对于错

误信息本文主要针对将汉字拆分成偏旁部首的错误信息;

(2)分词处理

利用中文自动分词系统对经过预处理后的文本进行分词处理,所述中文自动分词系为汉语词法分析系统 ICTCLAS;

(3)停用词处理

将在所有类别文本中都通用的功能词和针对用户感兴趣的某类别敏感信息提取的两类词去除;

(4)加权

文本进行预处理后,被表示为词的集合,在该模块中利用加权函数对词集中的词加权,生成特征向量模型;

(5)文本特征的提取

文本被表示为向量空间模型后,在该模块中引入属性因子的概念,将文本的统计特征和简单的知识特征结合,提取出文本的整体特征。

优选的,所述步骤(1)采用HTML文本标记加权方案对文本进行预处理。

优选的,所述步骤(1)在对 HTML 文档进行扫描处理前,首先需要对 HTML 标记进行正确的识别和处理,并根据 HTML 标记对网页不同部分的文本进行加权处理,

优选的,所述步骤(2)建立符号字典过滤非汉字字符。

优选的,所述步骤(3)提取过程为将训练文本分词后,提取出在两类文本中都出现且出现频率高于某一阈值Tm的词,存入停用词表,其中 Freq(A)为词 si在 A 类文本中出现的词频,Freq(B)为同一词 si在 B 类文本中出现的词频,Tm是一个门限值,即当该词在两类文本中都出现,且词频大于这个门限值时作为停用词提取出。

优选的,,所述步骤(4)中加权步骤为选择词作为文本表示的特征项,文本 Ai经过预处理后,被表示为词的集合 Ai=(s1,s2,s3,...sn)的形式,其中 sk(l≤k≤n)为文本 Ai经预处理后得到词集中的第 k 个词。根据自定义的加权函数 f(sk)对文本的词集中的词加权,得到文本的特征向量模型:Ai=(s1,w1,s2,w2,s3,w3,...sn,wn),其中 sk(l≤k≤n)为特征项,wk为词 sk的权重。

有益效果:本发明提供了一种基于文本分类技术的信息处理方法,采用HTML文本标记加权方案对文本进行预处理,在对 HTML 文档进行扫描处理前,首先需要对 HTML 标记进行正确的识别和处理,并根据 HTML 标记对网页不同部分的文本进行加权处理,可以保留标题、页面描述、关键词和超链接等描述信息,从而提高分类效果,建立符号字典过滤非汉字字符,从而降低了初始文本向量的维度,提高了文本向量中的特征信息含量,去除停用词,可以提高后期对文本过滤的准确率和速率,该信息处理方法操作简单、实用性强,能够提高后期信息过滤的准确性和效率。

具体实施方式

一种基于文本分类技术的信息处理方法,包括如下步骤:

(1)文本预处理

对含有无关文本信息和错误文本信息进行过滤。无关文本信息的处理主要是删除描述网页信息的标签、脚本及非文本对象等。对于错误信息本文主要针对将汉字拆分成偏旁部首的错误信息,所述采用HTML文本标记加权方案对文本进行预处理,在对 HTML 文档进行扫描处理前,首先需要对 HTML 标记进行正确的识别和处理,并根据 HTML 标记对网页不同部分的文本进行加权处理;

(2)分词处理

利用中文自动分词系统对经过预处理后的文本进行分词处理,所述中文自动分词系为汉语词法分析系统 ICTCLAS,并建立符号字典过滤非汉字字符;

(3)停用词处理

将在所有类别文本中都通用的功能词和针对用户感兴趣的某类别敏感信息提取的两类词去除,所述提取过程为将训练文本分词后,提取出在两类文本中都出现且出现频率高于某一阈值Tm的词,存入停用词表,其中 Freq(A)为词 si在 A 类文本中出现的词频,Freq(B)为同一词 si在 B 类文本中出现的词频,Tm是一个门限值,即当该词在两类文本中都出现,且词频大于这个门限值时作为停用词提取出;

(4)加权

文本进行预处理后,被表示为词的集合,在该模块中利用加权函数对词集中的词加权,生成特征向量模型,所述加权步骤为选择词作为文本表示的特征项,文本 Ai经过预处理后,被表示为词的集合 Ai=(s1,s2,s3,...sn)的形式,其中 sk(l≤k≤n)为文本 Ai经预处理后得到词集中的第 k 个词。根据自定义的加权函数 f(sk)对文本的词集中的词加权,得到文本的特征向量模型:Ai=(s1,w1,s2,w2,s3,w3,...sn,wn),其中 sk(l≤k≤n)为特征项,wk为词 sk的权重;

(5)文本特征的提取

文本被表示为向量空间模型后,在该模块中引入属性因子的概念,将文本的统计特征和简单的知识特征结合,提取出文本的整体特征。

本发明提供了一种基于文本分类技术的信息处理方法,采用HTML文本标记加权方案对文本进行预处理,在对 HTML 文档进行扫描处理前,首先需要对 HTML 标记进行正确的识别和处理,并根据 HTML 标记对网页不同部分的文本进行加权处理,可以保留标题、页面描述、关键词和超链接等描述信息,从而提高分类效果,建立符号字典过滤非汉字字符,从而降低了初始文本向量的维度,提高了文本向量中的特征信息含量,去除停用词,可以提高后期对文本过滤的准确率和速率,该信息处理方法操作简单、实用性强,能够提高后期信息过滤的准确性和效率。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1