一种基于vonMises-Fisher概率模型的网页分类方法

文档序号:9787499阅读:650来源:国知局
一种基于von Mises-Fisher概率模型的网页分类方法
【技术领域】
[0001 ]本发明属于互联网及机器学习技术领域,涉及自然语言处理,具体涉及一种基于 正文内容的网页分类方法。
【背景技术】
[0002] 自然语言处理技术研究能实现人与计算机之间用自然语言进行有效通信的各种 理论和方法。一个中文文本或一个汉字(含标点符号等)串可能有多个含义。它是自然语言 理解中的主要困难和障碍。因此,自然语言的形式(字符串)与其意义之间是一种多对多的 关系。但从计算机处理的角度看,我们必须消除歧义。歧义现象的广泛存在使得消除它们需 要大量的知识和推理,这就给基于语言学的方法、基于知识的方法带来了巨大的困难,因而 以这些方法为主流的自然语言处理研究几十年来一方面在理论和方法方面取得了很多成 就,但在能处理大规模真实文本的系统研制方面,成绩并不显著。研制的一些系统大多数是 小规模的、研究性的演示系统。
[0003] 目前存在的问题有两个方面:一方面,迄今为止的语法都限于分析一个孤立的句 子,上下文关系和谈话环境对本句的约束和影响还缺乏系统的研究,因此分析歧义、词语省 略、代词所指、同一句话在不同场合或由不同的人说出来所具有的不同含义等问题,尚无明 确规律可循,需要加强语言学的研究才能逐步解决。另一方面,人理解一个句子不是单凭语 法,还运用了大量的有关知识,包括生活知识和专门知识,这些知识无法全部贮存在计算机 里。因此一个书面理解系统只能建立在有限的词汇、句型和特定的主题范围内;计算机的贮 存量和运转速度大大提高之后,才有可能适当扩大范围。
[0004] 许多不同类的机器学习算法已应用于自然语言处理任务。这些算法的输入是一大 组从输入数据生成的"特征"。一些最早使用的算法,如决策树、逻辑回归和朴素贝叶斯分布 等。然而,越来越多的研究集中于统计模型,此类模型具有能够表达许多不同的可能的答 案,而不是只有一个相对的确定性。产生更可靠的结果时,这种模型被包括作为较大系统的 一个组成部分的优点。

【发明内容】

[0005] 本发明采用一种未在自然语言处理领域使用过的von Mises-Fisher概率模型,通 过网页正文内容进行特征提取及建模,基于所得的概率密度函数进行分类,达到了更高的 网页分类准确度,具有效率高、分类准确度高等优势。
[0006] 本发明提供一种基于von Mises-Fisher概率模型的网页分类方法,包括以下步 骤:
[0007] 步骤1:数据预处理:对于训练样本,去除无用信息,得到第一行为样本类别标签的 样本文档。所述的训练样本为带有类别标签的网页。
[0008] 步骤2:特征提取:采用向量空间模型对样本文档进行建模,统计样本文档中各单 词作为特征,单词出现的频率作为特征值。
[0009]步骤 3:特征筛选:计算单词的TF_IDF(Term Frequency-Inverse Document Frequency)值,按TF-IDF值大小排序,筛选具有代表性的单词,组成最终的特征向量。
[00?0]步骤4:建模:使用von Mises-Fisher混合概率模型对特征向量进行建模,得到各 类别的von Mises-Fisher混合概率模型。
[0011] 步骤5:网页分类:根据von Mises-Fisher混合概率模型,统计样本文档特征向量 中出现的所有词汇在待分类网页中出现的次数,得到待分类网页的特征向量,将待分类网 页的特征向量带入各概率密度函数,从而完成分类。
[0012] 本发明一种基于von Mises-Fisher概率模型的网页分类方法的优点在于:
[0013] (1)对所得特征向量进行二范数归一化,在消除文本长度对特征向量影响的同时 可为von Mises-Fisher概率模型建模做准备。
[0014] (2)使用von Mises-Fisher概率模型对文本特征向量进行建模,此模型为首次应 用于自然语言处理领域。
【附图说明】
[0015] 图1为本发明的网页分类方法总体流程图;
[0016] 图2为步骤4流程图。
【具体实施方式】
[0017]下面结合附图和实施例对本发明进行详细说明。
[0018] 本发明提供一种基于von Mises-Fisher概率模型的网页分类方法,采用一种未在 自然语言处理领域使用过的von Mises-Fisher概率模型,通过对预处理后的网页正文内容 进行特征提取及建模,基于所得的概率密度函数进行分类,达到了更高的网页分类准确度, 具有效率高,分类准确度高等优势。所述的 von Mises-Fisher概率模型也称冯?米泽斯-费 舍概率模型,参见参考文献[l]:Sra,S.'A short note on parameter approximation for von Mises-Fisher distributions:And a fast implementation of I s(x)' .Computational Statistics 27:177-190。
[0019] 实施平台:Python
[0020] 本发明提供的基于von Mises-Fisher概率模型的网页分类方法,如图I所示流程, 包括以下步骤:
[0021] 步骤1:数据预处理。
[0022]获取带有类别标签的训练样本(网页正文内容),所述的训练样本内容包含广告、 标点、语气词、助词等无用信息,且网页正文内容为长文本形式。所以获取训练样本后,首先 将长文本拆分为多个词语,并根据停用词表去除训练样本中的无意义词汇,从而获得有效 可用的分类信息。
[0023] 具体处理方法为:首先对网页正文内容中的长文本进行分词,将词语用7"隔开。 分词完毕后,去掉网页正文内容中的标点、符号、语气词和助词等无用词汇(可以参考现有 停用词表进行)。并将已知的样本类别标签写入网页正文内容的第一行,从而得到规范的网 页正文内容,即包含有用单词正文的样本文档。
[0024] 步骤2:特征提取;
[0025]本分类方法使用向量空间模型对包含有用单词正文的样本文档进行建模,将每一 包含有用单词正文的样本文档用一向量表示,向量的每一维为包含有用单词正文的样本文 档的一个特征。将单词作为特征,单词在包含有用单词正文的样本文档中出现的频率作为 特征值。
[0026] 步骤3:特征筛选;
[0027]若将所有单词都作为特征,会导致特征向量维数过大,冗余过多,严重影响分类效 率。所以,需要对单词特征进行筛选,保留比较有代表性的特征词,从而在不影响分类准确 率的情况下使分类高效进行。
[0028]本发明中根据特征词的TF-IDF值进行特征筛选。TF-IDF值的具体计算方法为: [0029] TF-IDF = TF* IDF
[0030] TF是指某一给定的单词在包含有用单词正文的样本文档中出现的频率。TF要对词 数进行归一化,以防止TF偏向长的文件(同一个单词在长文件里可能会比短文件有更高的 词数,而不管该单词重要与否)。单词i的词频tf lu的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1