网站分类的方法及系统的制作方法

文档序号:6472085阅读:140来源:国知局

专利名称::网站分类的方法及系统的制作方法
技术领域
:本发明涉及网络4支术领域,尤其涉及一种网站分类的方法及系统。
背景技术
:搜索引擎运营商需要事先对众多网站进行分类,以便在用户输入关^:字时,有针对性地从对应类型的网站显示关键字对应的信息。参见表i,为网站分类举例。表i网站类型关键字举例网站举例视频公主小妹在线观看遍地英雄视频钻石王老五全集www.qire.comwww.tudou.comwww.youku.com小说兰心有期小"i兌玄幻这辈子爱定你www.xxsy.combook.sohu.comhjsm.tom.com软件office2000文件格式兼容包dos矮人视频转换软件download.zol.com.cndl.pconline.com.cnwww.skycn.com财经搜狐股票多股行情关税减让易基价值精选stock.business.sohu.comwww.mathfund.comgb.chineseworldnet.com搜索引擎如果能够预先对网站进行分类,用户在搜索时发给搜索引擎一个特定类型的关键字(例如视频类查询词),搜索引擎可以优先到对应类型网站(如视频类网站)中进行检索,或者将检索结果中来自对应类型网站(如视频类网站)的结果排在前面,以提高搜索的精度。下面介绍现有的网站方类方案如果某一用户搜索关^t定字q之后,在搜索结果中点击了网站s的网页,则称q指向s。所有用户搜索关键字q之后,在搜索结果中点击了网站s的网页的次数累积之和,称为q指向s的次数。现有的确定网站是否属于某一类型网站的方案,是基于关键字的。第一步生成该类型t关键字的集合;第二步为了判断某个网站s是否属于类型t,统计指向s的所有关4建字,计算其中属于t的关键字的比例。定义"网站s属于类型t的概率"为p(S—r),则有ycow""")其中,ef是指向网站s的属于类型t的关键字,②"""《)是e「指向网站s的次数,e,是指向网站s的所有关键字,co"",(2,)是e,指向网站s的次数。在尸(s—r)达到设定的阈值时,确定网站s属于类型t。上述方案存在以下不足(1)由于属于某类网站的关键字往往是数目庞大的,因此很难枚举出某个类型的所有关键字,比如,视频类关键字可能有无数个,无法找全,采用某类不全的关4定字计算出来的p(s—r)会偏小。(2)该方案以关键字分类为前提,而关键字分类本身还是一个尚未得到完善的技术问题,关键字分类结果中难以避免含有错误,因此造成以此为基础的网站分类方案不准确。本申请人在申请号200710103028.8的专利文件中,7>开了一种网站分类方法,概括而言,该专利的方法就是采用类似上述介绍的以关键字分类为基础的网站分类方法,因此也存在上述(l)、(2)的不足。
发明内容本发明提供一种网站分类的方法及系统,以解决现有方案分类不准确的问题。为此,本发明实施例采用如下技术方案一种网站分类的方法,包括以网站为单位,统计用户搜索关^t字并点击网址的信息;利用统计信息,确定指向待分类网站的关键字集合,并以该关键字集合建立待分类网站的向量;确定已知类型的种子网站,并以所述关键字集合建立所述种子网站的向量;利用待分类网站的向量与种子网站的向量,计算待分类网站和种子网站的相似度;根据相似度大小,确定待分类网站的类型。所述以该关键字集合建立待分类网站的向量的过程为统计所述关键字集合中各关键字分别指向待分类网站的次数;构成所述待分类网站的向量,其中,由所述关键字集合中关键字数量确定向量维度,并将各关键字指向待分类网站的次数作为各维度的数值。所述根据相似度大小确定待分类网站的类型的过程为将所述相似度与预置的相似度阈值进行比较;如果所述相似度大于或等于相似度阈值,则确定待分类网站的类型为所述种子网站的类型;否则,将待分类网站划为杂类,或者,将待分类网站的向量与所述关键字集合对应的其他种子网站的向量进行相似度计算,确定网站是否同属于该其他种子网站的类型。优选地,所述种子网站为多个,并且,各个种子网站属于相同类型的网站;所述确定关键字集合对应于种子网站的向量,是指分别计算所述关4定字集合对应各个种子网站的向量;所述计算待分类网站和种子网站的相似度,是指分别利用待分类网站的向量与各个种子网站的向量,计算待分类网站与各个种子网站的相似度,并采用加权累加法或平均值法,根据这多个相似度确定所述待分类网站和种子网站的相似度。7或者,所述种子网站为多个,并且,各个种子网站属于不同类型的网站;所述确定关键字集合对应于种子网站的向量,是指分别计算所述关键字集合对应各个种子网站的向量;所述计算待分类网站和种子网站的相似度,是指分别利用待分类网站的向量与各个种子网站的向量,计算待分类网站与各个种子网站的相似度,并从这多个相似度中选取出最大值作为所述待分类网站和种子网站的相似度。或者,所述种子网站为多类种子网站集,各类种子网站集包括多个种子网站;所述确定关键字集合对应于种子网站的向量,是指分别计算所述关键字集合对应各类种子网站集中各个种子网站的向量;所述计算待分类网站和种子网站的相似度,是指分别利用待分类网站的向量与各类种子网站集中各个种子网站的向量,计算待分类网站与各个种子网站的相似度,并采用加权累加法或平均值法,根据这多个相似度确定所述待分类网站和各类种子网站集的相似度;从所述待分类网站和各类种子网站集的相似度中,选取最大值作为所述待分类网站和种子网站的相似度。其中,釆用向量夹角余弦法或者空间坐标距离法计算待分类网站和种子网站的相似度。一种网站分类的系统,包括统计单元,用于以网站为单位,统计用户搜索关键字并点击网址的信息;待分类网站控制单元,用于利用所述统计单元获得的统计信息,确定指向待分类网站的关键字集合,并以该关键字集合建立待分类网站的向量;种子网站控制单元,用于确定已知类型的种子网站,并以所述关键字集合建立所述种子网站的向量;相似度计算单元,用于利用所述待分类网站控制单元获得的待分类网站的向量,以及所述种子网站控制单元获得的种子网站的向量,计算待分类网站和种子网站的相似度;判断单元,用于根据所述相似度计算单元获得的相似度大小,确定待分类网站的类型。所述待分类网站控制单元包括关键字集合确定子单元,用于利用所述统计单元获得的统计信息,确定指向待分类网站的关^t建字集合;统计子单元,用于统计所述关键字集合中各关键字分别指向待分类网站的次数;向量确定8子单元,用于构成所述待分类网站的向量,其中,由所述关键字集合中关键字数量确定向量维度,并将各关键字指向待分类网站的次数作为各维度的数值。所述判断单元包括比较子单元,用于将所述相似度计算单元获得的相似度与子贞置的相似度阈1直进^亍比较;类型确定及指示子单元,用于才艮4居所述比较子单元的比较结果划分待分类网站的类型如果所述相似度大于或等于相似度阈值,则确定待分类网站的类型为所述种子网站的类型;否则,将待分类网站划为杂类,或者,指示所述种子网站控制单元确定其他种子网站,并指示所述相似度计算单元计算待分类网站与所述其他种子网站的相似度,确定网站是否同属于该其他种子网站的类型。对于上述技术方案的技术效果分析如下在现有方案中,例如,存在关键字"火箭对爵士比赛"和"青花瓷",其中,"火箭对爵士比赛,,属于体育类关键字,但用户搜索之后若想观看视频,就会点击视频网站,"青花瓷"属于百科类关键字,但它同时也是一首歌曲的名字,如果用户目的是看它的MV,也会点击视频网站。若釆用现有方案,如果不把这两个关键字作为视频类关键字,则指向视频类网站的视频类关键字的比例就会偏低。也就是说,由于"火箭对爵士比赛,,不属于生成该视频类型T关键字的集合,那么按照现有方案,不会将此关键字计算到T指向视频网站的次数,继而导致指向视频类网站的视频类关键字的比例偏低。而在本发明中,不考虑"火箭对爵士比赛"和"青花瓷"本身的关键字类型,只要这样的关键字指向某类种子网站,且指向待确定的网站,则就可以根据待分类网站与种子网站的相似度判断待分类网站的类型。可见,本发明与现有方案相比,不依赖关键字分类,而是通过与确定类型的种子网站的相似度确定网站类型,实现更加准确的网站分类。图1为本发明网站分类方法流程图2为本发明网站分类系统结构示意图。具体实施例方式本发明中,一个网站类型采用点击了这个网站的关键字组成的向量表示,首先枚举出一个或几个典型的已知类型的种子网站,然后,再计算待分类网站与种子网站的向量相似度,如果相似度足够高,则确定该网站属于种子网站相同类型的网站。概括而言,本发明提供的网站分类方法包括以下步骤步骤l:以网站为单位,统计用户搜索关键字并点击网址的信息;步骤2:利用统计信息,确定指向待分类网站的关键字集合,并以该关键字集合建立待分类网站的向量;步骤3:确定已知类型的种子网站,并以所述关4定字集合建立所述种子网站的向量;步骤4:利用待分类网站的向量与种子网站的向量,计算待分类网站和种子网站的相似度;步骤5:根据相似度大小,确定待分类网站的类型。其中,关键字集合至少包括一个关键字,一般包括多个关键字,由此计算的向量才能够更加全面表示网站的类型。下面结合附图,对本发明实施例进行详细介绍。参见图1,为本发明网站分类方法流程图,包括S101:以网站为单位,统计用户搜索关键字并点击网址的信息;对于某段时间内,统计的原始数据包括用户搜索的关键字,以及最后点击的网站地址,参见表2,为搜索的关键字与点击的网址的统计示例。表2<table>tableseeoriginaldocumentpage11</column></row><table>通过表2的原始数据,可统计出一段时间内点击各个网站的关键字及其搜索次数,参见表3。表3<table>tableseeoriginaldocumentpage11</column></row><table>S102:利用S101统计信息,采用向量表示网站;用向量^表示网站S,^的每一维度是指向S的关键字Q,维度的数值是Q指向S的次数。假设共有四个关键字Q1、Q2、Q3和Q4;假设网站S#皮Ql指向1次,#皮Q2指向0次,净皮Q3指向3次,净皮Q4指向2次;则S对应的向量为rs={l,0,3,2}。S103:确定种子网站及其向量;对于一个类别,枚举一个或多个种子网站,并计算出上述四个关键字Ql、Q2、Q3和Q4对应该种子网站的向量。^i殳确定一个种子网站M,其向量为S104:利用待分类网站的向量与种子网站的向量,计算待分类网站与种子网站的相似度;在待分类网站S和种子网站M的向量都已知的情况下,可利用向量夹角余弦或者空间坐标距离等方法,计算出二者的相似度。上述相似度计算方法都是成熟的算法,此处不多作介绍。下面以向量夹角余弦为例,计算网站S和M之间的相似度若网站S的向量为^=(a,,a2,a3,...,a),种子网站M的向量为7M=(/73,...,6),则网站S和M之间的相似度丄^为S'M+a22十…+《x》j2+622+...+62S105:根据待分类网站和种子网站的相似度,判断待分类网站的类型。如果待分类网站S和种子网站的相似度丄^足够大,例如,大于或等于预置的相似度阈值,则可确定网站S是与种子网站M类型相同的网站,比如,如果种子网站M为#见频网站,则可确定S也为一见频类网站。如果相似度丄^小于预置的相似度阈值,则可进一步计算S与其他类型的种子网站的相似度、并判断是否与其他种子网站类型相同,或者,直接将网站S划定为杂类网站,所谓杂类网站即是除一般类型网站之外的类型不确定网站。本发明与现有方法相比,不依赖关键字分类,而是通过与确定类型的种子网站的相似度确定网站类型,实现更加准确的网站分类。例如,存在关键字"火箭对爵士比赛,,和"青花瓷",其中,"火箭对爵士比赛"属于体育类关键字,但用户搜索之后若想观看视频,就会点击视频网站,"青花瓷"属于百科类关键字,但它同时也是一首歌曲的名字,如果用户目的是看它的MV,也会点击视频网站。如果采用现有方案,如果不把这两个关键字作为视频类关键字,则指向视频类网站的视频类关键字的比例就会偏低。也就是说,由于"火箭对爵士比赛,,不属于生成该视频类型T关键字的集合,那么按照现有方案,不会将此关键字计算到T指向视频网站的次数,继而导致指向视频类网站的视频类关键字的比例偏低。而在本发明中,不考虑"火箭对爵士比赛,,和"青花瓷,,本身的关键字类型,只要这样的关键字指向某类种子网站,且指向待确定的网站,则就可以根据待分类网站与种子网站的相似度确定待分类网站的类型。进一步而言,一个关键字可以指向若干个类型的网站,计算网站A与网站B的相似度时,仅考虑关键字指向网站A和B的次数,而不考虑关键字指向其他网站的次数,例如四个关键字,前三个仅是视频关键字,第四个既是视频类也是体育类关键字,网站A对应的向量是(100,100,100,1),网站B对应的向量是(200,200,200,2),网站C对应的向量是(O,1,1,100),由此,网站A和B的相似度为1,完全相关,如果网站B为视频类种子网站,即可确定网站A也是视频类网站,网站A和网站B的相似度与网站C无关。由此可以看出,跨类别的关键字(第四个关键字)或者不易区分类别的关键字,对于本发明不会带来负面影响。下面介绍应用本发明的两个具体实例。如前所述,本发明主要是计算待分类网站与某类型种子网站之间的相似度,从而确定网站类型,在具体应用中,可依据同一类型的多个种子网站,以及,不同类型的多个种子网站,来确定网站类型。第一实例对于同属某类型的多个网站,其侧重点也有所不同,因此被相同关键字指向的概率也不尽相同。例如,同属于视频类的多个网站,有的侧重电影视频和电视剧视频,有的侧重歌曲MV,有的则侧重时事新闻的视频,因此,当用户输入某个视频关键字时,各个视频网站被用户点击的概率是不同的,假如用户搜索一个典型的影视名称关键字,则该关键字指向侧重电影视频的网站的概率就最高。因此,在执行S103步骤时,可以确定同属该类型的多个网站作为种子网站,并计算待分类网站与各种子网站的相似度,最终确定网站类型。参见表4,为第一实例表格,其中包括同属某类A的多个种子网站与待分类网站X的相似度关系。<table>tableseeoriginaldocumentpage14</column></row><table>假设存在多个同属类型a的种子网站4、4.....4,在采用某个关键字集合计算待分类网站x与种子网站的相似度时,分别计算网站x与种子网站4、4、…、4的相似度丄K4A、…、zXA,最后,由相似度z^、…、丄n按照比例计算出网站x与类型a网站的相似度丄n,即采用加权累加法乂a确定丄丄U="A,4+"2丄^2十…+""丄义A其中,"。%.....^均为大于等于0、小于等于1的数值,并且%+2++=1。具体各a、a,、…、a"的取^f直可以才艮4居对应网站4、4、…、4的知名度或者历史被点击率确定。最简单的一种做法,直接采用平均值法确定丄^:可见,第一实例采用多个同属类型的种子网站,较仅采用一个种子网站判断待分类网站类型的方案,能够进一步提高网站分类的精度。第二实例在根据某类种子网站判断待分类网站类型时,有可能存在待分类网站与某类种子网站相似度较小的情况,从而导致无法将待分类网站划分为该类种子网站的范畴。如果此时仅有一个类型的种子网站,就难以明确待分类网站的类型,因此,可枚举多个类型的网站作为种子网站。参见表5,为第二实例表格,其中包括属于不同某类的多个种子网站与待分类网站X的相似度关系。表5<table>tableseeoriginaldocumentpage15</column></row><table>假设存在多个属于不同类型的种子网站A、B.....W,在采用某个关键字集合计算待分类网站X与种子网站的相似度时,分别计算网站X与种子网站A、B、…、W的相似度丄w、i^B、…、4,『,最后,通过比较相似度Z^、4,,.....、w大小,确定网站X为相似度最大值对应的类型。假设网站X与类型I的种子网站相似度最大则将网站X与类型I种子网站的相似度作为与相似度作为最终的相似度,与预置的相似度阈值进行比较,如果大于或等于相似度阈值,则可确定网站X是属于类型I的网站。可见,第二实例通过枚举多个类型的种子网站,可判断出待分类网站与哪类种子网站相似度更高,从而更加准确地划分网站类型。另外,第一实例与第二实例的方法可结合应用,即,同时枚举出多个类型的种子网站集,每类种子网站集又包括多个种子网站,在计算待分类网站与种子网站相似度时,首先釆用第一实例的方法,计算出各类种子网站集与待分类网站的相似度,然后再通过第二实例的方法,选取出相似度最大的种子网站集,将此相似度与预置的相似度阈值进行比较,从而确定网站类型。与上述方法相对应,本发明还提供一种网站分类系统,该系统可由软件、硬件或软硬件结合实现,在实际应用中,该系统可存在于搜索引擎的服务器中。参见图2,为本发明提供的系统内部结构示意图,该系统包括统计单元201、待分类网站控制单元202、种子网站控制单元203、相似度计算单元204以及判断单元205,其中统计单元201,用于以网站为单位,统计用户搜索关键字并点击网址的信自待分类网站控制单元202,用于利用统计单元201获得的统计信息,确定指向待分类网站的关键字集合,并以该关键字集合建立待分类网站的向量;种子网站控制单元203,用于确定已知类型的种子网站,并以所述关键字集合建立所述种子网站的向量;相似度计算单元204,用于利用待分类网站控制单元202获得的待分类网站的向量,以及种子网站控制单元203获得的种子网站的向量,计算待分类网站和种子网站的相似度;判断单元205,用于根据相似度计算单元204获得的相似度大小,确定待分类网站的类型。优选地,待分类网站控制单元202包括关键字集合确定子单元2021,用于利用统计单元201获得的统计信息,确定指向待分类网站的关键字集合;统计子单元2022,用于统计所述关键字集合中各关键字分别指向待分类网站的次it;向量确定子单元2023,用于构成所述待分类网站的向量,其中,由所述关键字集合中关键字数量确定向量维度,并将各关键字指向待分类网站的次数作为各维度的数值。优选地,判断单元205包括比较子单元2051,用于将相似度计算单元204获得的相似度与预置的相似度阈值进行比较;16类型确定及指示子单元2052,用于根据比较子单元2051的比较结果划分待分类网站的类型如果所述相似度大于或等于相似度阈值,则确定待分类网站的类型为所述种子网站的类型;否则,将待分类网站划为杂类,或者,指示种子网站控制单元203确定其他种子网站,并指示相似度计算单元204计算待分类网站与所述其他种子网站的相似度,确定网站是否同属于该其他种子网站的类型。另外,本发明提供的系统可以采用上述介绍的第一实例或/和第二实例方式进^f亍工作,即,可通过种子网站控制单元203设置多个属于同一类型的种子网站,并分别计算各种子网站的向量;通过相似度计算单元204分别计算待分类网站与各种子网站的相似度,最后根据这多个相似度,采用加权累加法或取平均值法,计算出待分类网站与种子网站的相似度。或者,可通过种子网站控制单元203设置多个属于不同类型的种子网站,并分别计算各类种子网站的向量;通过相似度计算单元204分别计算待分类网站与各类种子网站的相似度,最后从这多个相似度选取出最大值,作为待分类网站与种子网站的相似度。或者,可通过种子网站控制单元203设置多类种子网站集,其中各类种子网站集包括多个种子网站,并计算各类种子网站集中各个种子网站的向量;通过相似度计算单元204分别利用待分类网站的向量与各类种子网站集中各个种子网站的向量,计算待分类网站与各个种子网站的相似度,并采用加权累加法或平均值法,根据这多个相似度确定所述待分类网站和各类种子网站集的相似度,并从待分类网站和各类种子网站集的相似度中,选取最大值作为待分类网站和种子网站的相似度。本发明与现有方案相比,不依赖关键字分类,而是通过与确定类型的种子网站的相似度确定网站类型,可实现更加准确的网站分类。本领域普通技术人员可以理解,实现上述实施例的方法的过程可以通过程序指令相关的硬件来完成,所述的程序可以存储于可读取存储介质中,该程序在执行时执行上述方法中的对应步骤。所述的存储介质可以如ROM/RAM、磁碟、光盘等。以上所述仅是本发明的优选实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。权利要求1、一种网站分类的方法,其特征在于,包括以网站为单位,统计用户搜索关键字并点击网址的信息;利用统计信息,确定指向待分类网站的关键字集合,并以该关键字集合建立待分类网站的向量;确定已知类型的种子网站,并以所述关键字集合建立所述种子网站的向量;利用待分类网站的向量与种子网站的向量,计算待分类网站和种子网站的相似度;根据相似度大小,确定待分类网站的类型。2、根据权利要求l所述方法,其特征在于,所述以该关键字集合建立待分类网站的向量的过程为统计所述关键字集合中各关键字分别指向待分类网站的次数;构成所述待分类网站的向量,其中,由所述关键字集合中关键字数量确定向量维度,并将各关键字指向待分类网站的次数作为各维度的数值。3、根据权利要求l所述方法,其特征在于,所述根据相似度大小确定待分类网站的类型的过程为将所述相似度与预置的相似度阔值进行比较;如果所述相似度大于或等于相似度阈值,则确定待分类网站的类型为所述种子网站的类型;否则,将待分类网站划为杂类,或者,将待分类网站的向量与所述关键字集合对应的其他种子网站的向量进行相似度计算,确定网站是否同属于该其他种子网站的类型。4、根据权利要求l所述方法,其特征在于,所述种子网站为多个,并且,各个种子网站属于相同类型的网站;所述确定关键字集合对应于种子网站的向量,是指分别计算所述关键字集合对应各个种子网站的向量;所述计算待分类网站和种子网站的相似度,是指分别利用待分类网站的向量与各个种子网站的向量,计算待分类网站与各个种子网站的相似度,并采用加权累加法或平均值法,根据这多个相似度确定所述待分类网站和种子网站的相似度。5、根据权利要求l所述方法,其特征在于,所述种子网站为多个,并且,各个种子网站属于不同类型的网站;所述确定关键字集合对应于种子网站的向量,是指分别计算所述关键字集合对应各个种子网站的向量;所述计算待分类网站和种子网站的相似度,是指分别利用待分类网站的向量与各个种子网站的向量,计算待分类网站与各个种子网站的相似度,并从这多个相似度中选取出最大值作为所述待分类网站和种子网站的相似度。6、根据权利要求l所述方法,其特征在于,所述种子网站为多类种子网站集,各类种子网站集包括多个种子网站;所述确定关键字集合对应于种子网站的向量,是指分别计算所述关键字集合对应各类种子网站集中各个种子网站的向量;所述计算待分类网站和种子网站的相似度,是指分别利用待分类网站的向量与各类种子网站集中各个种子网站的向量,计算待分类网站与各个种子网站的相似度,并采用加权累加法或平均值法,根据这多个相似度确定所述待分类网站和各类种子网站集的相似度;从所述待分类网站和各类种子网站集的相似度中,选取最大值作为所述待分类网站和种子网站的相似度。7、根据权利要求1至6任一项所述方法,其特征在于,采用向量夹角余弦法或者空间坐标距离法计算待分类网站和种子网站的相似度。8、一种网站分类的系统,其特征在于,包括统计单元,用于以网站为单位,统计用户搜索关^t字并点击网址的信息;待分类网站控制单元,用于利用所述统计单元获得的统计信息,确定指向待分类网站的关键字集合,并以该关键字集合建立待分类网站的向量;种子网站控制单元,用于确定已知类型的种子网站,并以所述关键字集合建立所述种子网站的向量;相似度计算单元,用于利用所述待分类网站控制单元获得的待分类网站的向量,以及所述种子网站控制单元获得的种子网站的向量,计算待分类网站和种子网站的相似度;判断单元,用于根据所述相似度计算单元获得的相似度大小,确定待分类网站的类型。9、根据权利要求8所述系统,其特征在于,所述待分类网站控制单元包括关^:字集合确定子单元,用于利用所述统计单元获得的统计信息,确定指向待分类网站的关键字集合;统计子单元,用于统计所述关键字集合中各关键字分别指向待分类网站的次凄大;向量确定子单元,用于构成所述待分类网站的向量,其中,由所述关4建字集合中关键字数量确定向量维度,并将各关键字指向待分类网站的次数作为各维度的数值。10、根据权利要求8所述系统,其特征在于,所述判断单元包括比较子单元,用于将所述相似度计算单元获得的相似度与预置的相似度阈值进行比较;类型确定及指示子单元,用于根据所述比较子单元的比较结果划分待分类网站的类型如果所述相似度大于或等于相似度阈值,则确定待分类网站的类型为所述种子网站的类型;否则,将待分类网站划为杂类,或者,指示所述种子网站控制单元确定其他种子网站,并指示所述相似度计算单元计算待分类网站与所述其他种子网站的相似度,确定网站是否同属于该其他种子网站的类型。全文摘要本发明公开了一种网站分类方法及系统,其中的方法包括以网站为单位,统计用户搜索关键字并点击网址的信息;利用统计信息,确定指向待分类网站的关键字集合,并以该关键字集合建立待分类网站的向量;确定已知类型的种子网站,并以所述关键字集合建立所述种子网站的向量;利用待分类网站的向量与种子网站的向量,计算待分类网站和种子网站的相似度;根据相似度大小,确定待分类网站的类型。本发明与现有方法相比,不依赖关键字分类,而是通过与确定类型的种子网站的相似度确定网站类型,可实现更加准确的网站分类。文档编号G06F17/30GK101458713SQ200810246669公开日2009年6月17日申请日期2008年12月29日优先权日2008年12月29日发明者勇王申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1