网页输出选择的制作方法

文档序号:9493652阅读:700来源:国知局
网页输出选择的制作方法
【专利说明】
【背景技术】
[0001]可以选择网页的部分以用于打印、存储或传输。例如,用户可以拷贝网页的部分并且打印所选拷贝部分。选择网页的部分可以允许用户在更少附加混乱的情况下打印对用户更相关的网页部分。
【附图说明】
[0002]附图描述示例实施例。以下详细描述参照附图,其中:
图1是图示了选择要输出的网页部分的计算系统的一个示例的框图。
[0003]图2是图示了选择要输出的网页部分的方法的一个示例的流程图。
[0004]图3A是图示了选择要输出的网页部分的一个示例的图表。
[0005]图3B是图不了对要输出的网页部分分组的一个不例的图表。
【具体实施方式】
[0006]在一个实现中,处理器基于网页区段的自动评分来自动确定网页的哪些区段以用于输出,诸如用于打印或数字剪辑。可以基于由应用到多个用户对各种网页的之前选择的机器学习方法确定的特征和权重来为区段评分。与各种网页特征有关的一大群人的偏好可以用于自动创建用于为不同特征基于其与很可能被期望用于输出的区域的关系而进行加权的方式。在一个实现中,该方法应用到文档对象模型使得为每一个节点基于其特征根据由机器学习方法确定的用于特征的权重来评分。
[0007]打印、剪辑或存储来自网页的信息在未保存不相关的信息的情况下可以更有意义并且更容易领悟。相比于用户剪切和粘贴或选择多个区段,自动选择网页的区域可以更快速地施行并且具有更多的灵活性。例如,可以自动选择非连续区段。
[0008]图1是图示了选择要输出的网页部分的计算系统100的一个示例的框图。例如,计算系统100可以自动确定网页区段以用于输出,诸如用于打印、数字剪辑、存储和/或传输。计算系统100可以基于多个用户之前选择的网页部分来自动确定区段。例如,机器学习方法可以应用于确定更常被选择用于输出的网页的特征。可以分析网页的特征以确定哪些区段包括确定为值得输出的特征,并且可以自动选择那些区段以用于输出。计算系统100可以包括处理器101、机器可读存储介质102和存储装置107。计算系统可以包括单个装置内的组件,或者组件可以经由网络通信。
[0009]处理器101可以是中央处理单元(CPU)、基于半导体的微处理器或适合用于检索和执行指令的任何其它设备。作为替换或附加于提取、解码和执行指令,处理器101可以包括一个或多个集成电路(1C)或其它电子电路,其包括用于施行以下所描述的功能性的多个电子组件。以下所描述的功能性可以由多个处理器施行。
[0010]存储装置107可以是与处理器101通信的任何合适的存储装置。存储装置107可以存储关于网页的之前选择的信息以用于输出,诸如用于打印和/或数字剪辑。例如,数字剪辑可以涉及存储网页的区段以用于稍后检索,诸如剪辑图片或处方以存储在单个储存库中。存储装置107可以存储关于网页108的所选区段的特征的信息。存储装置107可以从处理器101接收关于特征的信息。在一个实现中,存储装置存储关于网页选择的信息,并且处理器101确定关于选择的特征的信息。在一个实现中,存储装置107存储关于周期性更新的网络(web)选择的信息,诸如其中处理器每周更新关于特征和/或权重的信息。在一个实现中,针对其中接收到选择信息的每一个新网页而调节权重。
[0011]处理器101可以与机器可读存储介质102通信。机器可读存储介质102可以是任何合适的机器可读介质,诸如存储可执行指令或其它数据的电子、磁、光学或其它物理存储设备(例如硬盘驱动器、随机存取存储器、闪速存储器等)。机器可读存储介质105可以是例如计算机可读非暂时性介质。机器可读存储介质102可以包括网页特征加权指令103、网页选择评分指令104、区段选择指令105和输出指令106。指令可以与打印机应用或用于数字剪辑的应用相关联。例如,处理器可以是接收向客户端打印或向客户端云账户输出内容的请求的网络服务器。
[0012]网页特征加权指令103可以包括基于网页的之前选择确定如何为网页内的特征加权的指令。例如,可以基于网页108的所选区段的特征来确定加权。网页的区段可以以任何合适的方式来描绘。例如,区段可以是由特定文档对象模型节点表示的网页的部分。在一些情况中,特征可以手动选择,并且处理器101可以为不同特征的相对重要性基于其在网页108的所选区段的特征集合内的频率而自动加权。可以基于存在于区段中的特征和特征的相关联的权重或加权方法而向网页的区段分配特征值。权重可以涉及例如与特征的出现数目或与指示特征的存在或缺失的二进制值相乘的值。在一些情况中,权重可以包括与特征值比较的值,诸如从与网络内容相关联的定位值减去权重。
[0013]网页区段评分指令104可以包括基于网页的特征和与那些特征相关联的权重为网页的区段评分的指令。例如,可以合计权重和特征信息以确定与网页的特定区段相关联的得分。可以根据与特定特征相关联的权重向在网页区段中发现的每一个特征分配特征值。
[0014]区段选择指令105可以包括基于不同区段的评分选择网页区段的指令。例如,可以选择具有最高X得分、阈值以上得分和/或最高Y百分数以内的区段。
[0015]输出指令106可以包括输出网页的所选区段的指令。输出指令106可以包括传输、显示或存储所选区段的指令。在一个实现中,输出所选区段涉及输出要打印和/或数字剪辑以供存储的所选区段。
[0016]图2是图示了选择要输出的网页部分的方法的一个示例的流程图。处理器可以自动确定网页部分以输出,诸如以打印、数字剪辑或传输。在一个实现中,用户可以选择用户接口输入机制,诸如用于打印的按钮,并且处理器自动确定要输出当前查看的网页的哪些部分。可以向用户示出该部分以进行预览使得用户可以编辑自动选择。选择可以是基于网页的不同部分的特征和与不同部分相关联的权重。权重可以基于涉及访问各种网页的一组用户选择用于输出的内容类型的数据来确定。方法可以例如由图1的处理器101实现。
[0017]在200处开始,处理器确定网页区段的特征。可以以任何合适的方式将文档划分成区段。在一个实现中,将文档划分成树结构,并且每一个区段是树结构中的节点或连接节点的分组。在一个实现中,文档是网页,并且树结构是与网页相关联的文档对象模型结构。
[0018]特征可以是从用于确定很可能与选择用于输出的区段(诸如文档对象模型节点)相关联的特征的机器学习方法确定的任何合适的特征。特征可以涉及例如定位、中心距离、区域大小、文本区域大小比例、字体大小、字体大小流行度、字体颜色流行度、文本字符的数目、HTML标签重要性、HTML标签密度和/或链接密度。机器学习方法可以用于确定很可能指示输出的意图的特征列表和每一个特征的相对重要性或权重。
[0019]处理器可以比较一组特征与网页区段的内容和样式以确定区段内的特征。可以基于由机器学习方法确定的特定特征的加权来向特定区段的每一个特征分配值。确定特征的存在可以涉及分配二进制值以表示特征的存在或缺失。在一个实现中,处理器确定区段中的特征存在程度并且基于存在程度分配特征值。
[0020]继续到201,处理器基于用于确定权重的机器学习方法分别向每一个特征分配权重。机器学习方法可以是任何合适的自动化学习方法,诸如逻辑回归模型。用于分配权重的处理器可以执行机器学习方法以确定相关特征和相对权重。在一些情况中,不同的处理器执行机器学习方法并且存储关于当确定要输出的网页部分时访问的特征和权重的信息。用于机器学习的训练数据集合可以是选择用于输出的网页的部分。在一个实现中,与所选内容相关联的文档对象模型节点的特征被分析和根据特定特征在确定选择用于输出中的与节点相关联的内容的统计可能性中的重要性来加权。
[0021]特征值可以是例如反映特征是否存在于特定区段中的二进制值。在一些情况中,值可以与特征相关联,并且值用于确定适当的特征值,诸如其中不同的权重用于与特征相关联的值的不同范围。在一些情况中,针对特征确定值,并且值与用于特征的权重相乘使得特征的较大存在性将导致比与较低值相关联的特征值更高的特征。在一些情况中,可以利用负值为特征加权。例如,特定特征可以有利于并非将很可能被选择用于输出的部分的区段来加权。
[0022]特征可以是确定为影响用户将会选择网页的区段以用于输出的可能性的任何合适特征。在一个实现中,区段的内容相对于网页的定位是特征。训练数据可以被学习方法用于确定很可能选择用户输出的内容的优选定位。优选定位可以用于为与节点相关联的内容的左定位加权。作为示例,优选定位可以基于与页面大小除以节点数目以确定特征值有关的所选内容的定位总和来确定。确定可以针对训练集合中的每一个页面而做出使得值被加和并且除以训练集合中的网页数目以确定特征值。可以(诸如通过从定位减去优选定位并且使用结果作为用于特征的权重以确定特征值)将网页上的内容的定位与优选定位比较。定位可以是例如网页上的左、右、上、下、中心X或中心Y定位。
[0023]区段内容的相对区域大小可以是所考虑的特征。例如,可以比较相比于整个网页的区域的区段内容的区域。然后可以将权重与结果得到的值相乘来考虑以示出区域对是否应当输出某物的重要性。
[0024]可以考虑与作为整体的网页中的频率相比的区段中的特征频率。例如,字体颜色可以被视为特征。在一个实现中,可以将具有字体颜色的网页上的字符的百分数与特定颜色的区段上的字符的百分数比较。类似的特征可以用于字体大小。可以将区段中的可见字符数目与作为整体的页面上的可见字符数目比较。可以将区段中的其它标签或HTML的
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1