一种站点语种分类的方法和系统的制作方法

文档序号：8258639阅读：321来源：国知局

一种站点语种分类的方法和系统的制作方法
【技术领域】
[0001] 本发明涉及计算机互联网技术领域，尤其涉及一种站点语种分类的方法和系统。
【背景技术】
[0002] 在现代搜索引擎技术中，站点语种对于搜索引擎的资源抓取和处理有重要的指导意义。首先，站点语种信息用于搜索引擎的爬虫调度，可以控制不同语种的资源抓取压力，提高网络带宽和抓取资源的效率，也可以针对性收录目标语种资源，以丰富相关语种的搜索展现；其次，站点语种信息也可以用于指导垃圾资源的删除和屏蔽。
[0003] 在现有技术中，对于网页单页面而言，目前已经有较为成熟的方法通过爬虫系统抓取网页资源，来完成单页面的语种识别。而站点则是包含多个页面链接、多个网页单页面的集合。如果认为一个站点为某个语种，一般而言该站点下的页面链接（url)应主要为该语种，也即站点语种应为网页单页面语种的统计集合。
[0004] 对于站点级别的语种，至今还没有相应的识别方法。现有技术缺乏一个抓取并识别站点语种的系统，来合理高效地对网页单页面语种信息进行挖掘扩展，以满足现代搜索引擎技术的要求。

【发明内容】

[0005](一）要解决的技术问题
[0006] 本发明提供一种站点语种分类的方法和系统，以解决现有技术中无法针对站点级别进行语种识别的技术问题。
[0007](二）技术方案
[0008] 为解决上述技术问题，本发明提供一种站点语种分类的方法，其包括：
[0009] 对于每一种语种，利用该语种的预设搜索词进行搜索，得到对应于该语种的所有页面链接；
[0010] 根据所述所有页面链接的链接地址，将所有页面链接分类，每一类对应一个站占.
[0011] 从每一个站点对应的分类中抽样部分页面链接，组成样本集合，根据样本集合中页面链接的数量和语种信息，生成对应于该语种的训练模型；
[0012] 将需检测的网页资源的页面链接集合按照站点进行分类，得到各个需检测的站占.
[0013] 根据所述语种训练模型，得到每一个所述需检测的站点的语种预测值。
[0014] 进一步地，
[0015] 所述利用该语种的预设搜索词进行搜索，得到对应于该语种的所有页面链接包括：利用该语种的热门搜索词库，选择该语种第一数量的热门搜索词，对每一个搜索词，提取搜索结果的前第二数量页面链接，得到对应于该语种的所有页面链接。
[0016] 进一步地，
[0017] 所述根据所述所有页面链接的链接地址，将所有页面链接分类包括：对所述所有页面链接的链接地址去重，按照有效合法的链接地址特征提取站点地址，按照站点地址进行分类；
[0018] 和/或，所述语种信息包括：首页语种、各页面链接语种、各语种数量占比中的一个或多个。
[0019] 进一步地，所述从每一个站点对应的分类中抽样部分页面链接包括：
[0020] 对每一个站点对应的分类进行随机抽样，或根据每一个站点对应的分类中页面链接数量的比例，进行有偏抽样。
[0021] 进一步地，所述根据样本集合中页面链接的数量和语种信息，生成对应于该语种的训练模型包括：
[0022] 提取样本集合中页面链接的数量为预设数量以上的站点，当所对应的语种为首页语种，或在各语种数量占比中占预设比例以上时，提取并利用模型训练系统生成对应于该语种的训练模型。
[0023] 进一步地，
[0024] 在所述将需检测的网页资源的页面链接集合按照站点进行分类之前，还包括：统计各站点的首页语种、各站点页面链接数量、各页面链接语种、各语种数量占比中的一个或多个站点基础信息。
[0025] 另一方面，本发明还提供一种站点语种分类的系统，包括：链接获取单元、站点分类单元、训练模型单元、检测分类单元和语种预测单元；链接获取单元、站点分类单元、训练模型单元和语种预测单元顺序相连，语种预测单元还与检测分类单元相连，其中：
[0026] 链接获取单元，用于对于每一种语种，利用该语种的预设搜索词进行搜索，得到对应于该语种的所有页面链接，并输出至站点分类单元；
[0027] 站点分类单元，用于根据所述所有页面链接的链接地址，将所有页面链接分类，每一类对应一个站点，并输出至训练模型单元；
[0028] 训练模型单元，用于从每一个站点对应的分类中抽样部分页面链接，组成样本集合，根据样本集合中页面链接的数量和语种信息，生成对应于该语种的训练模型，并输出至语种预测单元；
[0029] 检测分类单元，用于将需检测的网页资源的页面链接集合按照站点进行分类，得到各个需检测的站点，并输出至语种预测单元；
[0030] 语种预测单元，用于根据所述语种训练模型，得到每一个所述需检测的站点的语种预测值。
[0031] 进一步地，
[0032] 所述链接获取单元包括：搜索子单元，用于利用该语种的热门搜索词库，选择该语种第一数量的热门搜索词，对每一个搜索词，提取搜索结果的前第二数量页面链接，得到对应于该语种的所有页面链接。
[0033] 进一步地，
[0034] 所述站点分类单元包括：分类子单元，用于对所述所有页面链接的链接地址去重，按照有效合法的链接地址特征提取站点地址，按照站点地址进行分类；
[0035] 和/或，所述语种信息包括：首页语种、各页面链接语种、各语种数量占比中的一个或多个。
[0036] 进一步地，所述训练模型单元包括：
[0037] 随机抽样子单元，用于对每一个站点对应的分类进行随机抽样；
[0038] 或，有偏抽样子单元，用于根据每一个站点对应的分类中页面链接数量的比例，进行有偏抽样。
[0039] 进一步地，所述训练模型单元包括：
[0040] 模型生成子单元，用于提取样本集合中页面链接的数量为预设数量以上的站点，当所对应的语种为首页语种，或在各语种数量占比中占预设比例以上时，提取并利用模型训练系统生成对应于该语种的训练模型。
[0041] 进一步地，所述系统还包括：
[0042] 检测信息单元，与检测分类单元相连，用于统计各站点的首页语种、各站点页面链接数量、各页面链接语种、各语种数量占比中的一个或多个站点基础信息。
[0043](三）有益效果
[0044] 可见，在本发明提出的一种站点语种分类的方法和系统中，能够对于每一种语种的页面链接按照站点进行分类抽样统计，生成对应于该语种的训练模型，并在此训练模型的基础上对需检测的站点进行语种预测，最终输出语种预测值。本发明基于网页单页面语种识别技术，给出了一种合理高效的站点语种分类方法，系统架构简单易维护，满足了现代搜索引擎技术的要求。
[0045] 利用本发明的一种站点语种分类的方法和系统，能够使所得到的站点语种数据中各语种准确率和召回率均在80%以上，且可以在不降低其他语种分类效果的情况下，对单个语种进行优化，并可以动态增减待分类语种。本发明适用于单机和分布式环境。
【附图说明】
[0046] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
[0047] 图1是本发明实施例站点语种分类的方法基本流程示意图；
[0048] 图2是本发明一个优选实施例站点语种分类的方法流程示意图；
[0049] 图3是本发明实施例站点语种分类的系统基本结构示意图；
[0050] 图4是本发明一个优选实施例站点语种分类的系统结构示意图。
【具体实施方式】
[0051] 为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0052] 本发明实施例首先提出一种站点语种分类的方法，参见图1，包括：
[0053] 步骤101:对于每一种语种，利用该语种的预设搜索词进行搜索，得到对应于该语种的所有页面链接。
[0054] 步骤102:根据所述所有页面链接的链接地址，将所有页面链接分类，每一类对应一个站点。
[0055] 步骤103:从每一个站点对应的分类中抽样部分页面链接，组成样本集合，根据样本集合中页面链接的数量和语种信息，生成对应于该语种的训练模型。
[0056] 步骤104:将需检测的网页资源的页面链接集合按照站点进行分类，得到各个需检测的站点。
[0057] 步骤105:根据所述语种训练模型，得到每一个所述需检测的站点的语种预测值。
[0058] 可见，在本发明实施例提出的一种站点语种分类的方法和系统中，能够对于每一种语种的页面链接按照站点进行分类抽样统计，生成对应于该语种的训练模型，并在此训练模型的基础上对需检测的站点进行语种预测，最终输出语种预测值。本发明基于网页单页面语种识别技术，给出了一种合理高效的站点语种分类方法，系统架构简单易维护，满足了现代搜索引擎技术的要求。
[0059] 在本发明的一个实施例中，语种可以包括：汉语、英语、德语、俄语、西班牙语、法语、阿拉伯语等各国语种中的一个或多个。在本发明的另一个实施例中，为了满足样本数量的需求，优选地，可以利用该语种的热门搜

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：甘文杰;于晓明;杨建武;张涛;
技术所有人：北大方正集团有限公司;北京大学;北京北大方正电子有限公司;
我是此专利的发明人

上一篇：一种在网络论坛内使用的十字形快速导航办法
上一篇：一种社交网络的用户状态识别方法及装置的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。