基于用户行为的智能网页分类器的制作方法

文档序号:6330429阅读:224来源:国知局
专利名称:基于用户行为的智能网页分类器的制作方法
技术领域
本发明涉及一种对网页进行智能分类的技术,特别是结合用户行为特征和网页内容进行 了分类器的智能学习。
技术背景现有的网页分类器主要包括两大类人工分类。比如YAHOO的目录搜索便是采取人工的 方式对保存在本地数据库中进行分类。虽然分类精确度较高,但是效率非常低,更新速度慢,维护工作量大。自动分类。用计算机系统代替人工对网页进行分类,主要包括两种实现方法 基于知识工程的分类器和基于统计的分类器。前者主要依赖语自学知识,需要编制大量推理 规则作为分类知识,搜索结果很精确,但是实现相当复杂,而且开发费用昂贵。后者忽略文 本的语言学结构,将文本视为特征项集合,利用加权特征项构成向量进行文本表示,利用词 语出现的频率对文本特征进行加权,实现比较简单,分类准确度较高,能满足一般应用的要 求。但存在缺点是没有考虑到与用户搜索行为进行互动,并且也不适合科学文献之类要求精 确度很高的查询。 发明内容为了克服现有分类器的上述不足,在传统的基于统计的向量空间模型网页分类器的基础 上,本发明提供-种新型智能网页分类器,该分类器不仅能满足具有庞大规模存储网页的准 确分类要求,而且能结合用户行为来动态调整初始分类样本集,为搜索引擎甜台提供满足用 户需求的分类结果。基于用户行为的智能网页分类器(1) 后台输入初始分类样本集进行训练,获得每个分类在特征空间上的聚类中心。(2) 接收用户输入的URL,后台抓取并分析相应的页面,输出页面内有索引价值的文 本。并且根据用户输入内容和网页内容,提取特征集合,对初始分类样本集的特征空间进行 回馈修改,调整向量空间的特征权重值。(3) 采用用户选择的分类器对上一歩生成的文本进行自动分类,并输出结果。 当用户执行了一次搜索以后,分类器自动判断出每条结果所属的分类,并且对分类器进行逐步调整,用户执行的搜索次数越多,网页分类器的分类就越精确,从而帮助不同用户有 效縮小搜索结果的集合,更精准地找到所需的信息。本方法适用于各种语言文本的分类,只 不过对于亚洲语^要采用不同于拉丁语系的切分词方法。
具体实施例在向量空间模型中,文本泛指各种机器可读的记录,用D (Document)表示。特征项T (Term)是指出现在文档D中且能够代表该文档内容的基本语言单位,主要是由词或者短语 构成,文本可以用特征项集表示为D(T,, T"…,Tn),其中Tk是特征项,kel,2,…,N。 对含有n个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度。即D =D(T1, Wl; T2, W2:…,Tn, Wn),简记为D二D(W1, W2,, Wn),这被成为文本的向量 表示,其中Wk是Tk的权重,kEl,2,…,N。在向量空间模型中,两个任意文本Di和D」之间 的内容相关度Sim(Di, Dj)常用向量之间夹角的余弦值表示,公式为其中,Wlk、 W」k分别表示文本Di和D」第k个特征项的权值,kei,2,…,N。设用户的搜索 输入某个关键词次数的阈值为Th[i]。 具体方法步骤如下(1) 选择合适的标准词表。结合分类器的应用范围,选择合适的分类词表,比如属于图 书馆应用就选择杜威十进分类法分类表。词表中的各个词语被赋予不同的顺序号和散列函数 值。并为每个词语指定用户输入次数的阈值Th[i]。(2) 建立训练样本集。结合网络爬行器的爬行结果对己经被索引的网页进行初步的分 析,建立训练样本集为矩阵0[ij]^W[ij]!, iSl,2,…,M, jei,2,…,N。其中,每一行特征 值包括分类号, 一长串关键词的初始权重值和同义词的初始权重值。当某行某列与标准词表 不对应或者无法赋予权重值时,训练样本集的该行列的权重值为O,并且矩阵的所有权重值 不能为负数。(3) 网页特征提取和加权。对被索引的网页进行自动标引,对网页中的语词根据它们的 词频和网页中出现的位置赋予权重,得到网页的原始特征集合D[ij]。若D[ijhO,则退出; 否则转第(4)步;(4) 网页分类。则求出每个网页特征矩阵与训练样本集矩阵每一行之间的内容相关度 Sim(Di,0j),比较得到最小匹配值Min(Sini(Di,Oj)),则将第i个网页划分到初始训练集的第j 类中。若所有网页都被归类完毕,则退出。(6)若用户进行搜索,输入关键词的搜索次数小于预先设定的阈值Th[i],则转第(7) 步;否则,结合标准词表求出所有用户输入的关键词加权平均值,用该值替换初始训练样本 集矩阵的对应位置的关键词的权重值,得到新的训练样本集矩阵O[ij],转第(2)步。
(7)若用户不再输入关键词进行搜索,则后台分类器不响应该用户的搜索请求,用户得 到满意的搜索结果,对样本集的训练停止。
权利要求
1. 一种基于用户行为的智能网页分类器,其特征在于,(1)后台输入初始分类样本集进行训练,获得每个分类在特征空间上的聚类中心;(2)接收用户输入的URL,后台抓取并分析相应的页面,输出页面内有索引价值的文本;并且根据用户输入内容和网页内容,提取特征集合,对初始分类样本集的特征空间进行回馈修改,调整向量空间的特征权重值;(3)采用用户选择的分类器对上一步生成的文本进行自动分类,并输出结果。
2、按照权利要求l所述的基于用户行为的智能网页分类器,其特征在于, 具体方法歩骤如下(1) 选择合适的标准词表;结合分类器的应用范围,选择合适的分类词表,比如属于图 书馆应用就选择杜威十进分类法分类表;词表中的各个词语被赋予不同的顺序号和散列函数 值;并为每个词语指定用户输入次数的阈值Th[i];(2) 建立训练样本集;结合网络爬行器的爬行结果对己经被索引的网页进行初歩的分析,建立训练样本集为矩阵O[ij]HW[ij]l, iei,2,…,M, jei,2,…,N;其中,每一行特征 值包括分类号, 一长串关键词的初始权重值和同义词的初始权重值;当某行某列与标准词表 不对应或者无法赋予权重值时,训练样本集的该行列的权重值为0,并且矩阵的所有权重值 不能为负数;(3) 网页特征提取和加权;对被索引的网页进行自动标引,对网页中的语词根据它们的 词频和网页中出现的位置赋予权重,得到网页的原始特征集合D[ij];若D[ij]i,则退出; 否则转第(4〉步;(4) 网页分类;则求出每个网页特征矩阵与训练样本集矩阵每一行之间的内容相关度Sim(Di,Oj),比较得到最小匹配值Min(Sim(Di,Oj)),则将第i个网页划分到初始训练集的第j 类中;若所有网页都被归类完毕,则退出;(6) 若用户进行搜索,输入关键词的搜索次数小于预先设定的阈值Th[i],则转第(7) 步;否则,结合标准词表求出所有用户输入的关键词加权平均值,用该值替换初始训练样本 集矩阵的对应位置的关键词的权重值,得到新的训练样本集矩阵O[ij],转第(2)步;(7) 若用户不再输入关键词进行搜索,则后台分类器不响应该用户的搜索请求,用户得 到满意的搜索结果,对样本集的训练停止。
全文摘要
基于用户行为的智能网页分类器(1)后台输入初始分类样本集进行训练,获得每个分类在特征空间上的聚类中心。(2)接收用户输入的URL,后台抓取并分析相应的页面,输出页面内有索引价值的文本。并且根据用户输入内容和网页内容,提取特征集合,对初始分类样本集的特征空间进行回馈修改,调整向量空间的特征权重值。(3)采用用户选择的分类器对上一步生成的文本进行自动分类,并输出结果。当用户执行了一次搜索以后,分类器自动判断出每条结果所属的分类,并且对分类器进行逐步调整,用户执行的搜索次数越多,网页分类器的分类就越精确,从而帮助不同用户有效缩小搜索结果的集合,更精准地找到所需的信息。
文档编号G06F17/30GK101211339SQ20061014834
公开日2008年7月2日 申请日期2006年12月29日 优先权日2006年12月29日
发明者蔡阳波, 勇 陈 申请人:上海芯盛电子科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1