一种站点语种分类的方法和系统的制作方法_2

文档序号：8258639阅读：来源：国知局

索词库，选择该语种第一数量的热门搜索词，然后用谷歌或雅虎搜索工具，对每一个搜索词提取出搜索结果的前第二数量url，这样就得到了对应于该语种的url集合，以保证后续过程具有足够的站点基数。
[0060] 在本发明的一个实施例中，需要根据所述所有页面链接的链接地址，将所有页面链接进行分类。优选地，可以利用有效合法的url特征来提取：站点地址应位于http前缀和url路径后缀之间，因此可以对url去重后，按照上述规律提取站点地址，并按照站点地址进行分类。在本发明的另一个实施例中，优选地，站点的语种信息可以包括：首页语种、各 url语种、语种lurl数量占比、语种2url数量占比、...语种nurl数量占比等。这些站点的强特征可以从多个维度有效地表征站点的语种信息，具有良好的区分度。
[0061] 在本发明的一个实施例中，为了在各个语种站点集合的大量信息中进行选择性分析，优选地，可以采用从每一个站点对应的分类中抽样部分页面链接的方法。其中，可以对每一个站点对应的分类进行随机抽样；或根据每一个站点对应的分类中页面链接数量的比例，对每一个站点对应的分类进行有偏抽样，也即意味着使拥有越多站内url数量的站点，相对来说所占的比例越大。
[0062] 在完成抽样步骤之后，优选地，在本发明的另一个实施例中，可以在抽样后的分语种站点集合中，提取样本集合中页面链接的数量为预设数量以上的站点，当所对应的语种为首页语种，或在各语种数量占比中占预设比例以上时，提取并利用模型训练系统生成对应于该语种的训练模型。此时可以对每一个语种都采用上述相同的步骤，以得到对应于每一个语种的训练模型，最终获得所有语种的训练模型总集合。
[0063] 在本发明的一个实施例中，在得到了语种训练模型之后，可以开始对网页资源进行语种分类。优选地，在将需检测的网页资源的页面链接集合按照站点进行分类之前，还可以统计各站点的首页语种、站点url总数、语种lurl数量占比、语种2url数量占比、...语种nurl数量占比等站点基础信息。
[0064] 在本发明的另一个实施例中，还可以将同一语种的所有站点进行聚合，放到同一文件，以方便使用。
[0065] 下面以阿拉伯语为例，来详细说明本发明实施例中站点语种分类方法的具体实现过程，参见图2 :
[0066] 步骤201 :对于阿拉伯语，利用该语种的预设搜索词进行搜索，得到对应于阿拉伯语的所有页面链接。
[0067] 本步骤中，利用阿拉伯语的热门搜索词库，选择5000条阿拉伯语热门搜索词，然后对于每一个搜索词，利用谷歌或雅虎搜索工具进行搜索，提取出搜索结果的前1〇〇条 url，从而得到50万条url集合。这样其中阿拉伯语的站点约为四五千个，满足了后续过程样本数量的需求。
[0068] 步骤202 :根据所有页面链接的链接地址，将所有页面链接分类，每一类对应一个站点。
[0069] 由于有效合法的url，站点地址都是具有明显规律的，一般位于http前缀和url 路径后缀之间，I；匕如http: //arabic.news,cn/speak/index,htm,站点地址艮P为arabic.news,cn。因此可以对url去重后，按照上述规律提取站点地址，并按照站点进行分类，得到站点集合。
[0070] 步骤203:从每一个站点对应的分类中抽样部分页面链接，组成样本集合。
[0071] 根据应用的不同，抽样的方式可以选择随机抽样或有偏抽样。本实施例中，采用有偏抽样，使阿拉伯语样本集中拥有较多的站内url数量的较大的站点，所占比例较大。
[0072] 步骤204:对所有url样本集合进行语种识别。
[0073] 本步骤中，需要预先识别所有抽样得到的url样本集合的网页单页面语种，并以格式化的方式保存。具体格式如表1 :
[0074]
【主权项】
1. 一种站点语种分类的方法，其特征在于，包括：对于每一种语种，利用该语种的预设搜索词进行搜索，得到对应于该语种的所有页面链接；根据所述所有页面链接的链接地址，将所有页面链接分类，每一类对应一个站点；从每一个站点对应的分类中抽样部分页面链接，组成样本集合，根据样本集合中页面链接的数量和语种信息，生成对应于该语种的训练模型；将需检测的网页资源的页面链接集合按照站点进行分类，得到各个需检测的站点；根据所述语种训练模型，得到每一个所述需检测的站点的语种预测值。
2. 根据权利要求1所述的站点语种分类的方法，其特征在于：所述利用该语种的预设搜索词进行搜索，得到对应于该语种的所有页面链接包括：利用该语种的热口搜索词库，选择该语种第一数量的热口搜索词，对每一个搜索词，提取搜索结果的前第二数量页面链接，得到对应于该语种的所有页面链接。
3. 根据权利要求1所述的站点语种分类的方法，其特征在于：所述根据所述所有页面链接的链接地址，将所有页面链接分类包括：对所述所有页面链接的链接地址去重，按照有效合法的链接地址特征提取站点地址，按照站点地址进行分类；和/或，所述语种信息包括：首页语种、各页面链接语种、各语种数量占比中的一个或多个。
4. 根据权利要求1所述的站点语种分类的方法，其特征在于，所述从每一个站点对应的分类中抽样部分页面链接包括：对每一个站点对应的分类进行随机抽样，或根据每一个站点对应的分类中页面链接数量的比例，进行有偏抽样。
5. 根据权利要求4所述的站点语种分类的方法，其特征在于，所述根据样本集合中页面链接的数量和语种信息，生成对应于该语种的训练模型包括：提取样本集合中页面链接的数量为预设数量W上的站点，当所对应的语种为首页语种，或在各语种数量占比中占预设比例W上时，提取并利用模型训练系统生成对应于该语种的训练模型。
6. 根据权利要求1至5中任一项所述的站点语种分类的方法，其特征在于，在所述将需检测的网页资源的页面链接集合按照站点进行分类之前，还包括：统计各站点的首页语种、各站点页面链接数量、各页面链接语种、各语种数量占比中的一个或多个站点基础信息。
7. -种站点语种分类的系统，其特征在于，包括：链接获取单元、站点分类单元、训练模型单元、检测分类单元和语种预测单元；链接获取单元、站点分类单元、训练模型单元和语种预测单元顺序相连，语种预测单元还与检测分类单元相连，其中：链接获取单元，用于对于每一种语种，利用该语种的预设搜索词进行搜索，得到对应于该语种的所有页面链接，并输出至站点分类单元；站点分类单元，用于根据所述所有页面链接的链接地址，将所有页面链接分类，每一类对应一个站点，并输出至训练模型单元；训练模型单元，用于从每一个站点对应的分类中抽样部分页面链接，组成样本集合，根据样本集合中页面链接的数量和语种信息，生成对应于该语种的训练模型，并输出至语种预测单元；检测分类单元，用于将需检测的网页资源的页面链接集合按照站点进行分类，得到各个需检测的站点，并输出至语种预测单元；语种预测单元，用于根据所述语种训练模型，得到每一个所述需检测的站点的语种预测值。
8. 根据权利要求7所述的站点语种分类的系统，其特征在于：所述链接获取单元包括；搜索子单元，用于利用该语种的热口搜索词库，选择该语种第一数量的热口搜索词，对每一个搜索词，提取搜索结果的前第二数量页面链接，得到对应于该语种的所有页面链接。
9. 根据权利要求7所述的站点语种分类的系统，其特征在于：所述站点分类单元包括：分类子单元，用于对所述所有页面链接的链接地址去重，按照有效合法的链接地址特征提取站点地址，按照站点地址进行分类；和/或，所述语种信息包括：首页语种、各页面链接语种、各语种数量占比中的一个或多个。 1化根据权利要求7所述的站点语种分类的系统，其特征在于，所述训练模型单元包括：随机抽样子单元，用于对每一个站点对应的分类进行随机抽样；或，有偏抽样子单元，用于根据每一个站点对应的分类中页面链接数量的比例，进行有偏抽样。
11. 根据权利要求10所述的站点语种分类的系统，其特征在于，所述训练模型单元包括：模型生成子单元，用于提取样本集合中页面链接的数量为预设数量W上的站点，当所对应的语种为首页语种，或在各语种数量占比中占预设比例W上时，提取并利用模型训练系统生成对应于该语种的训练模型。
12. 根据权利要求7至11中任一项所述的站点语种分类的系统，其特征在于，所述系统还包括：检测信息单元，与检测分类单元相连，用于统计各站点的首页语种、各站点页面链接数量、各页面链接语种、各语种数量占比中的一个或多个站点基础信息。
【专利摘要】本发明提供一种站点语种分类的方法和系统，包括：对于每一种语种，利用该语种的预设搜索词进行搜索，得到对应于该语种的所有页面链接；根据所述所有页面链接的链接地址，将所有页面链接分类，每一类对应一个站点；从每一个站点对应的分类中抽样部分页面链接，组成样本集合，根据样本集合中页面链接的数量和语种信息，生成对应于该语种的训练模型；将需检测的网页资源的页面链接集合按照站点进行分类，得到各个需检测的站点；根据所述语种训练模型，得到每一个所述需检测的站点的语种预测值。本发明基于网页单页面语种识别技术，给出了一种合理高效的站点语种分类方法，系统架构简单易维护，满足了现代搜索引擎技术的要求。
【IPC分类】G06F17-30
【公开号】CN104572767
【申请号】CN201310514221
【发明人】甘文杰, 于晓明, 杨建武, 张涛
【申请人】北大方正集团有限公司, 北京大学, 北京北大方正电子有限公司
【公开日】2015年4月29日
【申请日】2013年10月25日

完整全部详细技术资料下载

当前第2页1 2