一种站点语种分类的方法和系统的制作方法

文档序号:8258639阅读:321来源:国知局
一种站点语种分类的方法和系统的制作方法
【技术领域】
[0001] 本发明涉及计算机互联网技术领域,尤其涉及一种站点语种分类的方法和系统。
【背景技术】
[0002] 在现代搜索引擎技术中,站点语种对于搜索引擎的资源抓取和处理有重要的指导 意义。首先,站点语种信息用于搜索引擎的爬虫调度,可以控制不同语种的资源抓取压力, 提高网络带宽和抓取资源的效率,也可以针对性收录目标语种资源,以丰富相关语种的搜 索展现;其次,站点语种信息也可以用于指导垃圾资源的删除和屏蔽。
[0003] 在现有技术中,对于网页单页面而言,目前已经有较为成熟的方法通过爬虫系统 抓取网页资源,来完成单页面的语种识别。而站点则是包含多个页面链接、多个网页单页面 的集合。如果认为一个站点为某个语种,一般而言该站点下的页面链接(url)应主要为该 语种,也即站点语种应为网页单页面语种的统计集合。
[0004] 对于站点级别的语种,至今还没有相应的识别方法。现有技术缺乏一个抓取并识 别站点语种的系统,来合理高效地对网页单页面语种信息进行挖掘扩展,以满足现代搜索 引擎技术的要求。

【发明内容】

[0005](一)要解决的技术问题
[0006] 本发明提供一种站点语种分类的方法和系统,以解决现有技术中无法针对站点级 别进行语种识别的技术问题。
[0007](二)技术方案
[0008] 为解决上述技术问题,本发明提供一种站点语种分类的方法,其包括:
[0009] 对于每一种语种,利用该语种的预设搜索词进行搜索,得到对应于该语种的所有 页面链接;
[0010] 根据所述所有页面链接的链接地址,将所有页面链接分类,每一类对应一个站 占.
[0011] 从每一个站点对应的分类中抽样部分页面链接,组成样本集合,根据样本集合中 页面链接的数量和语种信息,生成对应于该语种的训练模型;
[0012] 将需检测的网页资源的页面链接集合按照站点进行分类,得到各个需检测的站 占.
[0013] 根据所述语种训练模型,得到每一个所述需检测的站点的语种预测值。
[0014] 进一步地,
[0015] 所述利用该语种的预设搜索词进行搜索,得到对应于该语种的所有页面链接包 括:利用该语种的热门搜索词库,选择该语种第一数量的热门搜索词,对每一个搜索词,提 取搜索结果的前第二数量页面链接,得到对应于该语种的所有页面链接。
[0016] 进一步地,
[0017] 所述根据所述所有页面链接的链接地址,将所有页面链接分类包括:对所述所有 页面链接的链接地址去重,按照有效合法的链接地址特征提取站点地址,按照站点地址进 行分类;
[0018] 和/或,所述语种信息包括:首页语种、各页面链接语种、各语种数量占比中的一 个或多个。
[0019] 进一步地,所述从每一个站点对应的分类中抽样部分页面链接包括:
[0020] 对每一个站点对应的分类进行随机抽样,或根据每一个站点对应的分类中页面链 接数量的比例,进行有偏抽样。
[0021] 进一步地,所述根据样本集合中页面链接的数量和语种信息,生成对应于该语种 的训练模型包括:
[0022] 提取样本集合中页面链接的数量为预设数量以上的站点,当所对应的语种为首页 语种,或在各语种数量占比中占预设比例以上时,提取并利用模型训练系统生成对应于该 语种的训练模型。
[0023] 进一步地,
[0024] 在所述将需检测的网页资源的页面链接集合按照站点进行分类之前,还包括:统 计各站点的首页语种、各站点页面链接数量、各页面链接语种、各语种数量占比中的一个或 多个站点基础信息。
[0025] 另一方面,本发明还提供一种站点语种分类的系统,包括:链接获取单元、站点分 类单元、训练模型单元、检测分类单元和语种预测单元;链接获取单元、站点分类单元、训练 模型单元和语种预测单元顺序相连,语种预测单元还与检测分类单元相连,其中:
[0026] 链接获取单元,用于对于每一种语种,利用该语种的预设搜索词进行搜索,得到对 应于该语种的所有页面链接,并输出至站点分类单元;
[0027] 站点分类单元,用于根据所述所有页面链接的链接地址,将所有页面链接分类,每 一类对应一个站点,并输出至训练模型单元;
[0028] 训练模型单元,用于从每一个站点对应的分类中抽样部分页面链接,组成样本集 合,根据样本集合中页面链接的数量和语种信息,生成对应于该语种的训练模型,并输出至 语种预测单元;
[0029] 检测分类单元,用于将需检测的网页资源的页面链接集合按照站点进行分类,得 到各个需检测的站点,并输出至语种预测单元;
[0030] 语种预测单元,用于根据所述语种训练模型,得到每一个所述需检测的站点的语 种预测值。
[0031] 进一步地,
[0032] 所述链接获取单元包括:搜索子单元,用于利用该语种的热门搜索词库,选择该语 种第一数量的热门搜索词,对每一个搜索词,提取搜索结果的前第二数量页面链接,得到对 应于该语种的所有页面链接。
[0033] 进一步地,
[0034] 所述站点分类单元包括:分类子单元,用于对所述所有页面链接的链接地址去重, 按照有效合法的链接地址特征提取站点地址,按照站点地址进行分类;
[0035] 和/或,所述语种信息包括:首页语种、各页面链接语种、各语种数量占比中的一 个或多个。
[0036] 进一步地,所述训练模型单元包括:
[0037] 随机抽样子单元,用于对每一个站点对应的分类进行随机抽样;
[0038] 或,有偏抽样子单元,用于根据每一个站点对应的分类中页面链接数量的比例,进 行有偏抽样。
[0039] 进一步地,所述训练模型单元包括:
[0040] 模型生成子单元,用于提取样本集合中页面链接的数量为预设数量以上的站点, 当所对应的语种为首页语种,或在各语种数量占比中占预设比例以上时,提取并利用模型 训练系统生成对应于该语种的训练模型。
[0041] 进一步地,所述系统还包括:
[0042] 检测信息单元,与检测分类单元相连,用于统计各站点的首页语种、各站点页面链 接数量、各页面链接语种、各语种数量占比中的一个或多个站点基础信息。
[0043](三)有益效果
[0044] 可见,在本发明提出的一种站点语种分类的方法和系统中,能够对于每一种语种 的页面链接按照站点进行分类抽样统计,生成对应于该语种的训练模型,并在此训练模型 的基础上对需检测的站点进行语种预测,最终输出语种预测值。本发明基于网页单页面语 种识别技术,给出了一种合理高效的站点语种分类方法,系统架构简单易维护,满足了现代 搜索引擎技术的要求。
[0045] 利用本发明的一种站点语种分类的方法和系统,能够使所得到的站点语种数据中 各语种准确率和召回率均在80%以上,且可以在不降低其他语种分类效果的情况下,对单 个语种进行优化,并可以动态增减待分类语种。本发明适用于单机和分布式环境。
【附图说明】
[0046] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发 明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根 据这些附图获得其他的附图。
[0047] 图1是本发明实施例站点语种分类的方法基本流程示意图;
[0048] 图2是本发明一个优选实施例站点语种分类的方法流程示意图;
[0049] 图3是本发明实施例站点语种分类的系统基本结构示意图;
[0050] 图4是本发明一个优选实施例站点语种分类的系统结构示意图。
【具体实施方式】
[0051] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员 在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0052] 本发明实施例首先提出一种站点语种分类的方法,参见图1,包括:
[0053] 步骤101:对于每一种语种,利用该语种的预设搜索词进行搜索,得到对应于该语 种的所有页面链接。
[0054] 步骤102:根据所述所有页面链接的链接地址,将所有页面链接分类,每一类对应 一个站点。
[0055] 步骤103:从每一个站点对应的分类中抽样部分页面链接,组成样本集合,根据样 本集合中页面链接的数量和语种信息,生成对应于该语种的训练模型。
[0056] 步骤104:将需检测的网页资源的页面链接集合按照站点进行分类,得到各个需 检测的站点。
[0057] 步骤105:根据所述语种训练模型,得到每一个所述需检测的站点的语种预测值。
[0058] 可见,在本发明实施例提出的一种站点语种分类的方法和系统中,能够对于每一 种语种的页面链接按照站点进行分类抽样统计,生成对应于该语种的训练模型,并在此训 练模型的基础上对需检测的站点进行语种预测,最终输出语种预测值。本发明基于网页单 页面语种识别技术,给出了一种合理高效的站点语种分类方法,系统架构简单易维护,满足 了现代搜索引擎技术的要求。
[0059] 在本发明的一个实施例中,语种可以包括:汉语、英语、德语、俄语、西班牙语、法 语、阿拉伯语等各国语种中的一个或多个。在本发明的另一个实施例中,为了满足样本数量 的需求,优选地,可以利用该语种的热门搜
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1