一种站点语种分类的方法和系统的制作方法_2

文档序号:8258639阅读:来源:国知局
索词库,选择该语种第一数量的热门搜索词,然 后用谷歌或雅虎搜索工具,对每一个搜索词提取出搜索结果的前第二数量url,这样就得到 了对应于该语种的url集合,以保证后续过程具有足够的站点基数。
[0060] 在本发明的一个实施例中,需要根据所述所有页面链接的链接地址,将所有页面 链接进行分类。优选地,可以利用有效合法的url特征来提取:站点地址应位于http前缀 和url路径后缀之间,因此可以对url去重后,按照上述规律提取站点地址,并按照站点地 址进行分类。在本发明的另一个实施例中,优选地,站点的语种信息可以包括:首页语种、各 url语种、语种lurl数量占比、语种2url数量占比、...语种nurl数量占比等。这些站点 的强特征可以从多个维度有效地表征站点的语种信息,具有良好的区分度。
[0061] 在本发明的一个实施例中,为了在各个语种站点集合的大量信息中进行选择性分 析,优选地,可以采用从每一个站点对应的分类中抽样部分页面链接的方法。其中,可以对 每一个站点对应的分类进行随机抽样;或根据每一个站点对应的分类中页面链接数量的比 例,对每一个站点对应的分类进行有偏抽样,也即意味着使拥有越多站内url数量的站点, 相对来说所占的比例越大。
[0062] 在完成抽样步骤之后,优选地,在本发明的另一个实施例中,可以在抽样后的分语 种站点集合中,提取样本集合中页面链接的数量为预设数量以上的站点,当所对应的语种 为首页语种,或在各语种数量占比中占预设比例以上时,提取并利用模型训练系统生成对 应于该语种的训练模型。此时可以对每一个语种都采用上述相同的步骤,以得到对应于每 一个语种的训练模型,最终获得所有语种的训练模型总集合。
[0063] 在本发明的一个实施例中,在得到了语种训练模型之后,可以开始对网页资源进 行语种分类。优选地,在将需检测的网页资源的页面链接集合按照站点进行分类之前,还可 以统计各站点的首页语种、站点url总数、语种lurl数量占比、语种2url数量占比、...语 种nurl数量占比等站点基础信息。
[0064] 在本发明的另一个实施例中,还可以将同一语种的所有站点进行聚合,放到同一 文件,以方便使用。
[0065] 下面以阿拉伯语为例,来详细说明本发明实施例中站点语种分类方法的具体实现 过程,参见图2 :
[0066] 步骤201 :对于阿拉伯语,利用该语种的预设搜索词进行搜索,得到对应于阿拉伯 语的所有页面链接。
[0067] 本步骤中,利用阿拉伯语的热门搜索词库,选择5000条阿拉伯语热门搜索词,然 后对于每一个搜索词,利用谷歌或雅虎搜索工具进行搜索,提取出搜索结果的前1〇〇条 url,从而得到50万条url集合。这样其中阿拉伯语的站点约为四五千个,满足了后续过程 样本数量的需求。
[0068] 步骤202 :根据所有页面链接的链接地址,将所有页面链接分类,每一类对应一个 站点。
[0069] 由于有效合法的url,站点地址都是具有明显规律的,一般位于http前缀和url 路径后缀之间,I;匕如http: //arabic.news,cn/speak/index,htm,站点地址艮P为arabic.news,cn。因此可以对url去重后,按照上述规律提取站点地址,并按照站点进行分类,得到 站点集合。
[0070] 步骤203:从每一个站点对应的分类中抽样部分页面链接,组成样本集合。
[0071] 根据应用的不同,抽样的方式可以选择随机抽样或有偏抽样。本实施例中,采用有 偏抽样,使阿拉伯语样本集中拥有较多的站内url数量的较大的站点,所占比例较大。
[0072] 步骤204:对所有url样本集合进行语种识别。
[0073] 本步骤中,需要预先识别所有抽样得到的url样本集合的网页单页面语种,并以 格式化的方式保存。具体格式如表1 :
[0074]
【主权项】
1. 一种站点语种分类的方法,其特征在于,包括: 对于每一种语种,利用该语种的预设搜索词进行搜索,得到对应于该语种的所有页面 链接; 根据所述所有页面链接的链接地址,将所有页面链接分类,每一类对应一个站点; 从每一个站点对应的分类中抽样部分页面链接,组成样本集合,根据样本集合中页面 链接的数量和语种信息,生成对应于该语种的训练模型; 将需检测的网页资源的页面链接集合按照站点进行分类,得到各个需检测的站点; 根据所述语种训练模型,得到每一个所述需检测的站点的语种预测值。
2. 根据权利要求1所述的站点语种分类的方法,其特征在于: 所述利用该语种的预设搜索词进行搜索,得到对应于该语种的所有页面链接包括:利 用该语种的热口搜索词库,选择该语种第一数量的热口搜索词,对每一个搜索词,提取搜索 结果的前第二数量页面链接,得到对应于该语种的所有页面链接。
3. 根据权利要求1所述的站点语种分类的方法,其特征在于: 所述根据所述所有页面链接的链接地址,将所有页面链接分类包括:对所述所有页面 链接的链接地址去重,按照有效合法的链接地址特征提取站点地址,按照站点地址进行分 类; 和/或,所述语种信息包括:首页语种、各页面链接语种、各语种数量占比中的一个或 多个。
4. 根据权利要求1所述的站点语种分类的方法,其特征在于,所述从每一个站点对应 的分类中抽样部分页面链接包括: 对每一个站点对应的分类进行随机抽样,或根据每一个站点对应的分类中页面链接数 量的比例,进行有偏抽样。
5. 根据权利要求4所述的站点语种分类的方法,其特征在于,所述根据样本集合中页 面链接的数量和语种信息,生成对应于该语种的训练模型包括: 提取样本集合中页面链接的数量为预设数量W上的站点,当所对应的语种为首页语 种,或在各语种数量占比中占预设比例W上时,提取并利用模型训练系统生成对应于该语 种的训练模型。
6. 根据权利要求1至5中任一项所述的站点语种分类的方法,其特征在于,在所述将需 检测的网页资源的页面链接集合按照站点进行分类之前,还包括: 统计各站点的首页语种、各站点页面链接数量、各页面链接语种、各语种数量占比中的 一个或多个站点基础信息。
7. -种站点语种分类的系统,其特征在于,包括:链接获取单元、站点分类单元、训练 模型单元、检测分类单元和语种预测单元;链接获取单元、站点分类单元、训练模型单元和 语种预测单元顺序相连,语种预测单元还与检测分类单元相连,其中: 链接获取单元,用于对于每一种语种,利用该语种的预设搜索词进行搜索,得到对应于 该语种的所有页面链接,并输出至站点分类单元; 站点分类单元,用于根据所述所有页面链接的链接地址,将所有页面链接分类,每一类 对应一个站点,并输出至训练模型单元; 训练模型单元,用于从每一个站点对应的分类中抽样部分页面链接,组成样本集合,根 据样本集合中页面链接的数量和语种信息,生成对应于该语种的训练模型,并输出至语种 预测单元; 检测分类单元,用于将需检测的网页资源的页面链接集合按照站点进行分类,得到各 个需检测的站点,并输出至语种预测单元; 语种预测单元,用于根据所述语种训练模型,得到每一个所述需检测的站点的语种预 测值。
8. 根据权利要求7所述的站点语种分类的系统,其特征在于: 所述链接获取单元包括;搜索子单元,用于利用该语种的热口搜索词库,选择该语种第 一数量的热口搜索词,对每一个搜索词,提取搜索结果的前第二数量页面链接,得到对应于 该语种的所有页面链接。
9. 根据权利要求7所述的站点语种分类的系统,其特征在于: 所述站点分类单元包括:分类子单元,用于对所述所有页面链接的链接地址去重,按照 有效合法的链接地址特征提取站点地址,按照站点地址进行分类; 和/或,所述语种信息包括:首页语种、各页面链接语种、各语种数量占比中的一个或 多个。 1化根据权利要求7所述的站点语种分类的系统,其特征在于,所述训练模型单元包 括: 随机抽样子单元,用于对每一个站点对应的分类进行随机抽样; 或,有偏抽样子单元,用于根据每一个站点对应的分类中页面链接数量的比例,进行有 偏抽样。
11. 根据权利要求10所述的站点语种分类的系统,其特征在于,所述训练模型单元包 括: 模型生成子单元,用于提取样本集合中页面链接的数量为预设数量W上的站点,当所 对应的语种为首页语种,或在各语种数量占比中占预设比例W上时,提取并利用模型训练 系统生成对应于该语种的训练模型。
12. 根据权利要求7至11中任一项所述的站点语种分类的系统,其特征在于,所述系统 还包括: 检测信息单元,与检测分类单元相连,用于统计各站点的首页语种、各站点页面链接数 量、各页面链接语种、各语种数量占比中的一个或多个站点基础信息。
【专利摘要】本发明提供一种站点语种分类的方法和系统,包括:对于每一种语种,利用该语种的预设搜索词进行搜索,得到对应于该语种的所有页面链接;根据所述所有页面链接的链接地址,将所有页面链接分类,每一类对应一个站点;从每一个站点对应的分类中抽样部分页面链接,组成样本集合,根据样本集合中页面链接的数量和语种信息,生成对应于该语种的训练模型;将需检测的网页资源的页面链接集合按照站点进行分类,得到各个需检测的站点;根据所述语种训练模型,得到每一个所述需检测的站点的语种预测值。本发明基于网页单页面语种识别技术,给出了一种合理高效的站点语种分类方法,系统架构简单易维护,满足了现代搜索引擎技术的要求。
【IPC分类】G06F17-30
【公开号】CN104572767
【申请号】CN201310514221
【发明人】甘文杰, 于晓明, 杨建武, 张涛
【申请人】北大方正集团有限公司, 北京大学, 北京北大方正电子有限公司
【公开日】2015年4月29日
【申请日】2013年10月25日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1