网页训练方法及系统、网页预测方法及系统的制作方法

文档序号：6498837阅读：127来源：国知局

网页训练方法及系统、网页预测方法及系统的制作方法
【专利摘要】本申请涉及一种网页训练方法及系统、网页预测方法及系统，包括：根据与分类关键词相关联的已有数据获得分类关键词的先验概率表；对待训练网页进行预处理以获得待训练网页文本；根据先验概率表在所述待训练网页文本中提取特征得出待训练网页与指定类目之间的关联关系特征向量表示F1；对所述关联关系特征向量表示F1进行模型训练以得出所述待训练网页的分类结果。本申请可以同时处理异构性很强的类目体系，并且利用相对非常少的训练数据处理规模庞大的类目体系，此外，通过收集用户在全网上的浏览/搜索行为，而不仅仅是在一家网站上的行为，很大程度上解决了数据的稀疏性问题。
【专利说明】网页训练方法及系统、网页预测方法及系统
【技术领域】
[0001]本申请涉及互联网领域，尤其涉及一种对用户访问互联网行为的分类与预测。
【背景技术】
[0002]随着计算机技术的不断普及，现代社会已经十分依赖信息技术带来的便利。随着计算机和网络技术越来越高效，安全和可靠，越来越多的批发商，零售商，消费者选择在互联网上进行商品的交易。特定网站正在成为互联网上最富商业价值的服务提供商。
[0003]用户可以在特定网站上进行浏览，搜索，比价，购买，付款，评价等一系列的动作来购买符合其商业意图的商品。
[0004]同时特定网站的规模与数量也不断的增长。例如，淘宝，天猫，京东，亚马逊，当当，以及为数众多的中小特定网站。
[0005]商业意图分析结果可以让特定网站为每一个用户提供个性化的广告与推荐结果，个性化网站入口。通过提供符合用户商业意图的产品与服务，可以大幅提高交易量与交易额。因此，用户的商业意图分析对特定网站而言非常重要。
[0006]对于特定网站而言，要分析其用户的商业意图，有如下困难:
[0007](I)相对于用户访问互联网的行为而言，用户在某一家特定网站的行为的数量是非常稀少的。数据的稀疏性会导致无法全面地判断一个用户的商业意图；同时数据样本稀少会导致概率分布参数估计的置信区间范围过大，以至于无法做出准确的预测。
[0008](2)特定网站的商品类目体系具有非常强的异构性，S卩，任何两家特定网站的类目体系都有非常大的差异。若使用经典的网页分类方法，那么对于任何一家特定网站，都需要采集规模庞大的标注数据(标注数据的数量与类目的数量成正比)，根据类目体系的不同提取形式各异的特征，最后学习得到机器学习分类模型。这会带来昂贵的成本。
[0009](3)特定网站的商品类目体系往往非常庞大。在一个实例中，商品类目体系由一棵5层的类目结构树定义，其中叶子节点的数量达到2万的规模。类目体系过于庞大会导致三类问题，第一，需要标注的训练数据的数量非常庞大。第二，类目预测的准确率会大幅下降。第三，要求对每一个网页给出多类目标签的预测；多类目标签反过来又会导致准确率的进一步下降。
[0010]综上所述，需要一种能够克服上述三个难题的利用用户行为分析用户商业意图的解决方案。

【发明内容】

[0011]本申请的主要目的在于提供一种网页训练方案以及网页预测方案，以解决现有技术难以克服的网站异构性、类目体系庞大和数据稀疏性问题。
[0012]为了解决上述技术问题，本申请的目的是通过以下技术方案实现的:
[0013]本申请公开了一种网页训练方法，用于对网页进行分类，包括以下步骤:根据与分类关键词相关联的已有数据获得分类关键词的先验概率表；对待训练网页进行预处理以获得待训练网页文本；根据先验概率表在所述待训练网页文本中提取特征得出待训练网页与指定类目之间的关联关系特征向量表示Fl ;对所述关联关系特征向量表示Fl进行模型训练以得出所述待训练网页的分类结果。
[0014]优选的，在根据本申请的所述方法中，所述与分类关键词相关联的已有数据包括网站类目体系以及用户点击日志。
[0015]优选的，在根据本申请的所述方法中，根据与分类关键词相关联的已有数据获得分类关键词的先验概率表的步骤包括:从所述用户点击日志中获取搜索关键词，并过滤得到分类关键词；计算每个分类关键词在不同分类中出现的频率；采用自底向上的方法遍历所述网站类目体系中的每一个非叶子节点类目，计算每一个分类关键词的信息增益与卡方检验。
[0016]优选的，在根据本申请的所述方法中，对待训练网页进行预处理包括以下中的一个或多个处理:网页解析；正文抽取；分词/停用词过滤。
[0017]优选的，在根据本申请的所述方法中，根据先验概率表在待训练网页文本中提取特征得出待训练网页与指定类目之间的关联关系特征向量表示Fl的步骤包括:计算分类关键词在待训练网页中的重要性得分；针对分类关键词的重要性得分以及分类关键词的先验概率进行离散化处理；根据分类关键词的离散化重要性以及分类关键词的离散化先验概率得到二维特征矩阵；分别在待训练网页文本的不同部分中计算所述二维特征矩阵，将所有矩阵元素依次排列得到一个固定长度的特征向量。
[0018]优选的，在根据本申请的所述方法中，所述待训练网页文本的不同部分包括网页标题、网页正文、网页超链接文本。
[0019]优选的，在根据本申请的所述方法中，对关联关系特征向量表示Fl进行模型训练以得出待训练网页的分类结果的步骤包括:根据预先设置的回归模型算法对标注数据进行回归模型训练；以及针对所训练的所述回归模型计算对应的ROC曲线，并基于ROC曲线设定不同的切分阈值以得到分类结果。
[0020]本申请还公开了一种网页训练系统，用于对网页进行分类，包括:用于根据与分类关键词相关联的已有数据获得分类关键词的先验概率表的装置；用于对待训练网页进行预处理以获得待训练网页文本的装置；用于根据先验概率表在所述待训练网页文本中提取特征得出待训练网页与指定类目之间的关联关系特征向量表示Fl的装置；用于对所述关联关系特征向量表示Fl进行模型训练以得出所述待训练网页的分类结果的装置。
[0021]优选的，在所述的网页训练系统中，所述与分类关键词相关联的已有数据包括网站类目体系以及用户点击日志。
[0022]优选的，在所述的网页训练系统中，用于根据与分类关键词相关联的已有数据获得分类关键词的先验概率表的装置包括:用于从所述用户点击日志中获取搜索关键词，并过滤得到分类关键词的装置；用于计算每个分类关键词在不同分类中出现的频率的装置；用于采用自底向上的方法遍历所述网站类目体系中的每一个非叶子节点类目，计算每一个分类关键词的信息增益与卡方检验的装置。
[0023]优选的，在所述的网页训练系统中，用于对待训练网页进行预处理的装置包括:网页解析装置；正文抽取装置；分词/停用词过滤装置。
[0024]优选的，在所述的网页训练系统中，用于根据先验概率表在待训练网页文本中提取特征得出待训练网页与指定类目之间的关联关系特征向量表示Fl的装置包括:用于计算分类关键词在待训练网页中的重要性得分的装置；用于针对分类关键词的重要性得分以及分类关键词的先验概率进行离散化处理的装置；用于根据分类关键词的离散化重要性以及分类关键词的离散化先验概率得到二维特征矩阵的装置；用于分别在待训练网页文本的不同部分中计算所述二维特征矩阵，将所有矩阵元素依次排列得到一个固定长度的特征向量的装置。
[0025]优选的，在所述的网页训练系统中，所述待训练网页文本的不同部分包括网页标题、网页正文、网页超链接文本。
[0026]优选的，在所述的网页训练系统中，用于对关联关系特征向量表示Fl进行模型训练以得出待训练网页的分类结果的装置包括:回归建模装置，用于根据预先设置的回归模型算法对标注数据进行回归模型训练；以及ROC分析装置，用于针对所训练的所述回归模型计算对应的ROC曲线，并基于ROC曲线设定不同的切分阈值以得到分类结果。
[0027]本申请公开了一种网页预测方法，用于利用所述网页训练方法训练得出的分类结果，针对用户意图进行类目预测，包括:收集用户访问日志；从所述用户访问日志获得网页html源码；对所述网页html源码进行预处理以获得网页文本；根据先验概率表在所述网页文本中提取特征得出网页与指定类目之间的关联关系特征向量表示F2 ;根据所述分类结果和所述关联关系特征向量表示F2获得用户意图类目预测结果。
[0028]优选的，在根据本申请的所述方法中，从所述用户访问日志获得网页html源码的步骤包括:对所述用户访问日志进行url筛选；爬取筛选后的url以获得网页html源码。
[0029]优选的，在根据本申请的所述方法中，对所述用户访问日志进行url筛选的步骤包括:针对所述用户访问日志，计算去重后的url集合；为每一个url计算网页重要性得分；根据网页重要性得分为所有的去重后的url进行排序，取前若干条url作为待爬取的url集合。
[0030]优选的，在根据本申请的所述方法中，对所述网页html源码进行预处理的步骤包括:网页解析；正文抽取；分词/停用词过滤。
[0031]优选的，在根据本申请的所述方法中，根据先验概率表在网页文本中提取特征得出网页与指定类目之间的关联关系特征向量表示F2的步骤包括:计算分类关键词在网页中的重要性得分；针对分类关键词的重要性得分以及分类关键词的先验概率进行离散化处理；根据分类关键词的离散化重要性以及分类关键词的离散化先验概率得到二维特征矩阵；分别在网页文本的不同部分中计算所述二维特征矩阵，将所有矩阵元素依次排列得到一个固定长度的特征向量。
[0032]优选的，在根据本申请的所述方法中，根据所述分类结果和所述关联关系特征向量表示F2获得用户意图类目预测结果的步骤包括:根据所述分类结果和所述关联关系特征向量表示F2，得到网页级别的分析结果；将网页级别的分析结果与所述用户访问日志进行连接操作，得到用户每次网页访问行为所指示的意图，在用户维度进行聚合操作得到用户意图类目预测结果。
[0033]本申请还公开了一种网页预测系统，用于利用所述的网页训练系统训练得出的分类结果，针对用户意图进行类目预测，包括:用于收集用户访问日志的装置；用于从所述用户访问日志获得网页html源码的装置；用于对所述网页html源码进行预处理以获得网页文本的装置；用于根据先验概率表在所述网页文本中提取特征得出网页与指定类目之间的关联关系特征向量表示F2的装置；用于根据所述分类结果和所述关联关系特征向量表示F2获得用户意图类目预测结果的装置。
[0034]优选的，在所述的系统中，用于从所述用户访问日志获得网页html源码的装置包括:用于对所述用户访问日志进行url筛选的装置；用于爬取筛选后的url以获得网页html源码的装置。
[0035]优选的，在所述的系统中，用于对所述用户访问日志进行url筛选的装置包括:用于针对所述用户访问日志，计算去重后的url集合的装置；用于为每一个url计算网页重要性得分的装置；用于根据网页重要性得分为所有的去重后的url进行排序，取前若干条url作为待爬取的url集合的装置。
[0036]优选的，在所述的系统中，用于对所述网页html源码进行预处理的装置包括:网页解析装置；正文抽取装置；分词/停用词过滤装置。
[0037]优选的，在所述的系统中，用于根据先验概率表在网页文本中提取特征得出网页与指定类目之间的关联关系特征向量表示F2的装置包括:用于计算分类关键词在网页中的重要性得分的装置；用于针对分类关键词的重要性得分以及分类关键词的先验概率进行离散化处理的装置；用于根据分类关键词的离散化重要性以及分类关键词的离散化先验概率得到二维特征矩阵的装置；用于分别在网页文本的不同部分中计算所述二维特征矩阵，将所有矩阵元素依次排列得到一个固定长度的特征向量的装置。
[0038]优选的，在所述的系统中，其特征在于，用于根据所述分类结果和所述关联关系特征向量表示F2获得用户意图类目预测结果的装置包括:用于根据所述分类结果和所述关联关系特征向量表示F2，得到网页级别的分析结果的装置；用于将网页级别的分析结果与所述用户访问日志进行连接操作，得到用户每次网页访问行为所指示的意图，在用户维度进行聚合操作得到用户意图类目预测结果的装置。
[0039]与现有技术相比，根据本申请的技术方案，可以同时处理异构性很强的类目体系，并且利用相对非常少的训练数据处理规模庞大的类目体系，此外，通过收集用户在全网上的浏览/搜索行为，而不仅仅是在一家网站上的行为，很大程度上解决了数据的稀疏性问题。
【专利附图】

【附图说明】
[0040]此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中:
[0041]图1是本申请实施例的网页训练方法的流程图；
[0042]图2是本申请实施例的ROC曲线；
[0043]图3是本申请实施例的网页训练系统的框图；
[0044]图4是本申请实施例的网页预测方法的流程图；
[0045]图5是本申请实施例的网页预测系统的框图；
[0046]图6是本申请实施例的有效识别用户商业意图的示例性系统的架构图。
【具体实施方式】[0047]本申请的主要思想在于，通过统一处理用户在互联网上的浏览/搜索行为、通用的数据接口、具备自动适配能力的分类算法，本申请可以很好地解决数据稀疏性，类目体系异构性，类目数量过于庞大这三个重要的难题，并在统一的流程中同时为众多网站提供服务。
[0048]为使本申请的目的、技术方案和优点更加清楚，以下结合附图及具体实施例，对本申请作进一步地详细说明。
[0049]用户在互联网上的浏览与搜索行为的意图可以是商业性质的或者是非商业性质的，其中商业性质的意图又可以根据特定网站的具体商品类目体系做进一步划分。
[0050]用户的在线商业意图的识别对于特定网站而言是一个非常重要的功能。通过推荐与广告的方式，它能直接促进特定网站的成交量与成交金额。
[0051]另外一方面，任何一家特定网站内部的访问行为只占据了全网用户浏览/搜索行为的一小部分，大量的浏览/搜索行为发生在特定网站外部。利用用户在全网上的行为识别用户的商业意图会给特定网站带来极大的价值。
[0052]任何一家特定网站都有自己的商品类目体系，对于特定网站而言，希望分析得到的用户商业意图与其商品的类目体系是吻合的，否则，无法给出一致的推荐与广告。特别需要注意的是，商品的类目体系可以是非常庞大的。在给出的一个实例中，商品类目体系由多达5层的类目体系树状结构给出，所有的叶子节点的数量达到2万个。
[0053]本申请是一个处理商业意图分析的平台系统，该平台收集用户在互联网上的浏览/搜索行为，并开放数据接口给特定网站。特定网站通过数据接口上传商品类目体系，用户搜索点击日志，以及训练数据样本。结合用户在全网上的行为记录与特定网站的特定信息，提取与商业意图相关的特征，从这些特征构建的机器学习分类器自动检测用户在任意给定特定网站语境内的在线商业意图(0CI)。
[0054]根据本申请的实施例，提供了一种网页训练方法，用于对网页进行分类。
[0055]参考图1，图1是本申请实施例的网页训练方法100的流程图。训练流程的目标是根据任意一个特定网站通过开放数据接口上传的类目体系数据，用户搜索点击数据，标注数据，训练得到针对该网站的商业意图分类结果。
[0056]在步骤S102中，根据与分类关键词相关联的已有数据获得分类关键词的先验概率表。与分类关键词相关联的已有数据可以包括网站类目体系以及用户点击日志。该步骤实际上就是根据用户点击日志和网站类目体系结构获得先验概率表的日志处理流程。
[0057]举例而言，首先，通过“特定网站开放接口”(例如，可以是电子商务网站开放接口)获取针对特定网站的类目体系，用户搜索点击日志，以及标注好的训练数据。其中，针对特定网站的类目体系和用户搜索点击日志与分类关键词相关联，将用来获得分类关键词的先验概率表。而标注好的训练数据将用来在后面的步骤中用于模型训练。
[0058]类目体系:例如是树状结构的类目体系，可以使用任何可以表达树状结构的结构化描述语言。例如，在一个应用实例中，使用可扩展标记语言(XML)来描述类目体系:
[0059]
【权利要求】
1.一种网页训练方法，用于对网页进行分类，其特征在于，包括: 根据与分类关键词相关联的已有数据获得分类关键词的先验概率表；对待训练网页进行预处理以获得待训练网页文本；根据先验概率表在所述待训练网页文本中提取特征得出待训练网页与指定类目之间的关联关系特征向量表示Fl; 对所述关联关系特征向量表示Fl进行模型训练以得出所述待训练网页的分类结果。
2.根据权利要求1所述的方法，其特征在于，所述与分类关键词相关联的已有数据包括网站类目体系以及用户点击日志。
3.根据权利要求2所述的方法，其特征在于，根据与分类关键词相关联的已有数据获得分类关键词的先验概率表的步骤包括: 从所述用户点击日志中获取搜索关键词，并过滤得到分类关键词；计算每个分类关键词在不同分类中出现的频率；采用自底向上的方法遍历所述网站类目体系中的每一个非叶子节点类目，计算每一个分类关键词的信息增益与卡方检验。
4.根据权利要求1所述的方法，其特征在于，对待训练网页进行预处理包括以下中的一个或多个处理: 网页解析；正文抽取；分词/停用词过滤。
5.根据权利要求1所述的方法，其特征在于，根据先验概率表在待训练网页文本中提取特征得出待训练网页与指定类目之间的关联关系特征向量表示Fl的步骤包括: 计算分类关键词在待训练网页中的重要性得分；针对分类关键词的重要性得分以及分类关键词的先验概率进行离散化处理；根据分类关键词的离散化重要性以及分类关键词的离散化先验概率得到二维特征矩阵；分别在待训练网页文本的不同部分中计算所述二维特征矩阵，将所有矩阵元素依次排列得到一个固定长度的特征向量。
6.根据权利要求5所述的方法，其特征在于，所述待训练网页文本的不同部分包括网页标题、网页正文、网页超链接文本。
7.根据权利要求1所述的方法，其特征在于，对关联关系特征向量表示Fl进行模型训练以得出待训练网页的分类结果的步骤包括: 根据预先设置的回归模型算法对标注数据进行回归模型训练；以及针对所训练的所述回归模型计算对应的ROC曲线，并基于ROC曲线设定不同的切分阈值以得到分类结果。
8.—种网页训练系统，用于对网页进行分类，其特征在于，包括: 用于根据与分类关键词相关联的已有数据获得分类关键词的先验概率表的装置；用于对待训练网页进行预处理以获得待训练网页文本的装置；用于根据先验概率表在所述待训练网页文本中提取特征得出待训练网页与指定类目之间的关联关系特征向量表示Fl的装置；用于对所述关联关系特征向量表示Fl进行模型训练以得出所述待训练网页的分类结果的装置。
9.一种网页预测方法，用于利用根据权利要求1-7中任一项所述的网页训练方法训练得出的分类结果，针对用户意图进行类目预测，其特征在于，包括: 收集用户访问日志；从所述用户访问日志获得网页html源码；对所述网页html源码进行预处理以获得网页文本；根据先验概率表在所述网页文本中提取特征得出网页与指定类目之间的关联关系特征向量表示F2 ；根据所述分类结果和所述关联关系特征向量表示F2获得用户意图类目预测结果。
10.根据权利要求9所述的方法，其特征在于，从所述用户访问日志获得网页html源码的步骤包括: 对所述用户访问日志进行url筛选；爬取筛选后的url以获得网页html源码。
11.根据权利要求10所述的方法，其特征在于，对所述用户访问日志进行url筛选的步骤包括: 针对所述用户访问日志，计算去重后的url集合；为每一个url计算网页重要性得分；根据网页重要性得分为所有的去重后的url进行排序，取前若干条url作为待爬取的urI集合。
12.根据权利要求9所述的方法，其特征在于，根据先验概率表在网页文本中提取特征得出网页与指定类目之间的关联关系特征向量表示F2的步骤包括: 计算分类关键词在网页中的重要性得分；针对分类关键词的重要性得分以及分类关键词的先验概率进行离散化处理；根据分类关键词的离散化重要性以及分类关键词的离散化先验概率得到二维特征矩阵；分别在网页文本的不同部分中计算所述二维特征矩阵，将所有矩阵元素依次排列得到一个固定长度的特征向量。
13.根据权利要求9所述的方法，其特征在于，根据所述分类结果和所述关联关系特征向量表示F2获得用户意图类目预测结果的步骤包括: 根据所述分类结果和所述关联关系特征向量表示F2，得到网页级别的分析结果；将网页级别的分析结果与所述用户访问日志进行连接操作，得到用户每次网页访问行为所指示的意图，在用户维度进行聚合操作得到用户意图类目预测结果。
14.一种网页预测系统，用于利用根据权利要求8中任一项所述的网页训练系统训练得出的分类结果，针对用户意图进行类目预测，其特征在于，包括: 用于收集用户访问日志的装置；用于从所述用户访问日志获得网页html源码的装置；用于对所述网页html源码进行预处理以获得网页文本的装置；用于根据先验概率表在所述网页文本中提取特征得出网页与指定类目之间的关联关系特征向量表示F2的装置；用于根据所述分类结果和所述关联关系特征向量表示F2获得用户意图类目预测结果的装置。
【文档编号】G06F17/30GK103914478SQ201310003765
【公开日】2014年7月9日申请日期:2013年1月6日优先权日:2013年1月6日
【发明者】陈俊波, 薛贵荣, 李玉龙, 严孝伟, 李华康, 韩定一申请人:阿里巴巴集团控股有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈俊波;薛贵荣;李玉龙;严孝伟;李华康;韩定一
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：一种图像识别方法、装置和电子设备的制作方法
上一篇：生成页面的方法及服务器的制造方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。