本发明属于信息通信,涉及一种文本分类方法,尤其是一种基于fs-ipso的文本分类方法。
背景技术:
1、伴随着信息时代的到来,互联网迅速发展起来,大量文本信息也随之产生,丰富的信息背后蕴含着包括娱乐、农业、军事、经济等各领域的各种重要观点,巨大的价值亟待挖掘。因此如何更有效、更准确的对大量文本信息进行分析成为我们当前亟待研究的问题。文本分类方法的出现,帮助了人们更好更快地过滤垃圾信息、分析文本信息,从而将获取的信息利用于生活的方方面面。
2、但现有技术中的文本分类方法,存在噪声影响大和分类精度低的缺陷。
3、经检索,未发现与本发明相同或相似的现有技术的专利文献。
技术实现思路
1、本发明的目的在于克服现有技术基于经验而理论支撑体系不足,提出一种基于fs-ipso的文本分类方法,能够有效减少噪声的影响,获得更好的文本分类效果。
2、本发明解决其现实问题是采取以下技术方案实现的:
3、一种基于fs-ipso的文本分类方法,包括以下步骤:
4、步骤1、初始化种群:
5、步骤2、执行混沌微粒子群优化算法,目标搜索边界为xi∈[0,2d-1];
6、步骤3、判断是否以满足终止条件;
7、步骤4、初始化最终特征集rs为空;
8、步骤5、初始化粒子速度和位置;
9、步骤6、根据惯性权重策略以及混沌扰动规则更新微粒xi的速度和位置;如果满足混沌扰动条件,先将粒子转化到扰动空间,根据粒子xi的第一维对粒子的每一维进行扰动,再映射回目标空间,更新粒子位置;
10、步骤7、用适应值计算方法计算微粒xi的适应值f(xi);
11、步骤8、对于每个粒子xi自身的历史最优位置,如果xi当前位置的适应值优于自身历史最优位置,则更新xi当前位置为个体最优位置pbesti,否则pbesti保持原值不变;同理,将微粒xi的适应值f(xi)与种群历史最优位置进行比较,如果其中优于历史最优解,则更新gbest,否则保持原最优位置不变;
12、步骤9、判断算法是否已达到最大迭代次数t,如果是的话,特征选择结束。此时全局最优位置记为最优特征子集,将全局最优位置转换为最终形式置入最终特征集合集合rs中;否则转到步骤4;
13、步骤10、输出文本分类准确率和文本分类最优特征子集集合。
14、而且,所述步骤1的具体步骤包括:
15、每个粒子代表一个候选特征子集xi,粒子群构成特征选择的所有候选特征子集{x1,x2,…xi,…xn},粒子的每一维代表一个特征项。粒子xi的第j维值为1(xij=1)代表该特征子集包含此特征项;如果值为0(xij=0),则表示不包含此特征项。
16、而且,所述步骤3的终止条件为:
17、算法是否已达到最大迭代次数,或在10次迭代次数内最优特征子集无变化,如果是的话,此时全局最优位置记为最优特征子集;如果否,则转到步骤2;
18、而且,所述步骤5的具体方法为:
19、对文本分类中的一个主题进行特征提取,所有文本分类的特征子集用粒子群{x1,x2,…xi,…xn}来表示,一个粒子代表一个候选特征子集xi,粒子的每一维代表一个特征项;粒子维度为d维,粒子xi的第j维值为1(xij=1)代表该特征子集包含此特征项;如果值为0(xij=0),则表示不包含此特征项;扰动粒子的初始位置,粒子的初始速度采用随机函数进行初始化,粒子历史最好位置pbest等于粒子初始位置。
20、本发明的优点和有益效果:
21、1、本发明提出一种基于fs-ipso的文本分类方法,通过设计适应值方法,将分类精度和特征项个数共同作为评判解的优劣的标准,本发明适应值的计算方法能够更好地表示粒子的性能,有助于选出性能最优的粒子。
22、2、本发明通过混沌扰动粒子群初值,并随机的扰动迭代中的部分粒子位置,防止粒子陷入早熟收敛,混沌扰动的加入可以防止传统算法易于限于局部最优的缺点,求出全局最优解。
23、3、本发明通过非线性惯性权重选择,使粒子随着性能的优劣决定速度及搜索范围。惯性权重的设置可以动态的改变粒子的速度,有利于分类精度的提高。
24、4、本发明在中文文本集上分别针对上述三点改进和文本分类整体效果进行了四组对比实验。实验结果表明,利用fs-ipso算法对文本进行特征选择对比其他常用的特征选择方式,能够有效减少噪声的影响,获得更好的文本分类效果。
1.一种基于fs-ipso的文本分类方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种基于fs-ipso的文本分类方法,其特征在于:所述步骤1的具体步骤包括:
3.根据权利要求1所述的一种基于fs-ipso的文本分类方法,其特征在于:所述步骤3的终止条件为:
4.根据权利要求1所述的一种基于fs-ipso的文本分类方法,其特征在于:所述步骤5的具体方法为: