一种表单的获取方法及装置的制造方法

文档序号:9911193阅读:221来源:国知局
一种表单的获取方法及装置的制造方法
【专利说明】
【技术领域】
[0001]本发明涉及互联网技术领域,尤其涉及一种表单的获取方法及装置。
【【背景技术】】
[0002]目前,用户在访问网站后可以生成相应的访问记录,可以通过对访问记录的离线分析,判断用户是否访问了网站的转化页面,如用户是否访问过网站的注册、预定、购买或者咨询等页面,而且还会更进一步分析用户是否在这些转化页面提供了有效转化表单,从而能够识别出用户是否真实地转化成了指定类型的用户,如广告用户,有效转化表单可以用于为资源投放的决策提供支持。
[0003]现有技术中,识别有效转化表单的方式比较简单,是通过识别页面的文档对象模型(Document Object Model,D0M)树中的表单(form)标签来获取页面中的有效转化表单。然而,页面的规范设计中往往使用form标签来标识表单,但会存在很多不规范设置的页面,其采用的并不是form标签,如果使用form表单识别有效转化表单,不规范设置的页面中的表单将无法被识别到。因此,现有技术中有效转化表单的识别方式的识别率比较低。

【发明内容】

[0004]有鉴于此,本发明实施例提供了一种表单的获取方法及装置,可以实现提高有效转化表单的识别率。
[0005]本发明实施例的一方面,提供一种表单的获取方法,包括:
[0006]获取用户访问的页面的文档对象模型DOM树;
[0007]根据所述DOM树的节点,确定所述页面包含的表单的边界信息;
[0008]利用所述边界信息,从所述DOM树提取表单信息,以作为候选转化表单;
[0009]识别所述候选转化表单是否为有效转化表单。
[0010]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获取用户访问的页面的DOM树,包括:
[0011 ]从用户访问日志中获取用户访问的页面的统一资源定位符URL;
[0012]根据用户访问的页面的URL,访问所述URL对应的页面,以获取用户访问的页面的DOM 树。
[0013]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,根据所述DOM树的节点,确定所述页面包含的表单的边界信息,包括:
[0014]根据所述DOM树的节点属性,从所述DOM树中提取所述页面中可视内容的DOM树;
[0015]在所述可视内容的DOM树中确定按钮标签和文本框标签;
[0016]在所述可视内容的DOM树中获取距离所述按钮标签和所述文本框标签最近的公共父节点,以作为所述表单的边界信息。
[0017]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,利用所述边界信息,从所述DOM树提取表单信息,以作为候选转化表单,包括:
[0018]在所述可视内容的DOM树中,提取距离所述按钮标签和所述文本框标签最近的公共父节点的所有子节点的信息,以作为所述表单信息。
[0019]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,根据所述DOM树的节点属性,从所述DOM树中提取所述页面中可视内容的DOM树,包括:
[0020]根据所述DOM树的节点属性,获取所述DOM树中具有显示框类型属性的节点,若所述节点的显示框类型属性的属性值指示所述节点对应的元素在所述页面中不显示,在所述DOM树中删除所述节点以及所述节点的所有子节点,以获得所述页面中可视内容的DOM树。
[0021]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,根据所述DOM树的节点属性,从所述DOM树中提取所述页面中可视内容的DOM树,包括:
[0022]根据所述DOM树的节点属性,获取所述DOM树中具有隐藏属性的节点,在所述DOM树中删除具有隐藏属性的节点以及所述节点的所有子节点,以获得所述页面中可视内容的DOM 树。
[0023]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述可视内容的DOM树中确定按钮标签,包括:
[0024]利用button标签、输入标签和作为按钮的a标签中至少一个标签,在所述可视内容的DOM树中确定按钮标签。
[0025]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,在所述可视内容的DOM树中确定文本框标签,包括:
[0026]在所述可视内容的DOM树中,查找所述按钮标签的各父节点下的文本框标签,将各文本框标签中与所述按钮标签之间距离最近的文本框标签,作为所述按钮标签对应的文本框标签。
[0027]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,识别所述候选转化表单是否为有效转化表单,包括:
[0028]为指定的各有效转化表单生成特征向量;
[0029]根据所述候选转化表单的特征向量和各有效转化表单的特征向量,获得所述候选转化表单与各有效转化表单的相似度,并获取最高的相似度;
[0030]比较最高的相似度与预设的置信度阈值的大小,若所述最高的相似度大于或者等于所述置信度阈值,确定所述候选转化表单为有效转化表单。
[0031]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述方法还包括:
[0032]若所述最高的相似度小于所述置信度阈值,确定所述候选转化表单不是有效转化表单。
[0033]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述为指定的各有效转化表单生成特征向量,包括:
[0034]根据各表单样本中标签的类别和标签的说明信息,生成各表单样本的特征向量;
[0035]对各表单样本的特征向量进行聚类;
[0036]获取各类别中出现次数最多的至少一个特征向量,以作为相应类别的中心特征;
[0037]利用指定的有效转化表单,在各类别中删除不属于所述有效转化表单的类别,以获得有效转化表单的类别;
[0038]根据有效转化表单的类别的中心特征,生成有效转化表单的特征向量。
[0039]本发明实施例的一方面,提供一种表单的获取装置,包括:
[0040]信息获取单元,用于获取用户访问的页面的文档对象模型DOM树;
[0041]边界获取单元,用于根据所述DOM树的节点,确定所述页面包含的表单的边界信息;
[0042]表单获取单元,用于利用所述边界信息,从所述DOM树提取表单信息,以作为候选转化表单;
[0043]表单识别单元,用于识别所述候选转化表单是否为有效转化表单。
[0044]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述信息获取单元,具体用于:
[0045]从用户访问日志中获取用户访问的页面的统一资源定位符URL;
[0046]根据用户访问的页面的URL,访问所述URL对应的页面,以获取用户访问的页面的DOM 树。
[0047]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述边界获取单元进一步包括:
[0048]节点处理模块,用于根据所述DOM树的节点属性,从所述DOM树中提取所述页面中可视内容的DOM树;
[0049]标签定位模块,用于在所述可视内容的DOM树中确定按钮标签和文本框标签;
[0050]边界获取模块,用于在所述可视内容的DOM树中获取距离所述按钮标签和所述文本框标签最近的公共父节点,以作为所述表单的边界信息。
[0051]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述表单获取单元,具体用于:
[0052]在所述可视内容的DOM树中,提取距离所述按钮标签和所述文本框标签最近的公共父节点的所有子节点的信息,以作为所述表单信息。
[0053]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述节点处理模块,具体用于:
[0054]根据所述DOM树的节点属性,获取所述DOM树中具有显示框类型属性的节点,若所述节点的显示框类型属性的属性值指示所述节点对应的元素在所述页面中不显示,在所述DOM树中删除所述节点以及所述节点的所有子节点,以获得所述页面中可视内容的DOM树。
[0055]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述节点处理模块,具体用于:
[0056]根据所述DOM树的节点属性,获取所述DOM树中具有隐藏属性的节点,在所述DOM树中删除具有隐藏属性的节点以及所述节点的所有子节点,以获得所述页面中可视内容的DOM 树。
[0057]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述标签定位模块,具体用于:
[0058]利用button标签、输入标签和作为按钮的a标签中至少一个标签,在所述可视内容的DOM树中确定按钮标签。
[0059]如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述标签定位模块,具体用于:
[0060]在所述可视内容的DOM树中,查找所述按钮标签的各父节点
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1