一种网页转换方法及装置与流程

文档序号:11950172阅读:173来源:国知局
一种网页转换方法及装置与流程

本发明涉及文档转换应用技术领域,特别是涉及一种网页转换方法及装置。



背景技术:

在用户的日常学习及工作中,可以通过浏览网页的方式来获得所需要的信息,针对比较重要的网页,用户常需要将其存储到本地。

现有技术中,用户可以采用“粘贴、复制”的方式,将网页中的网页元素拷贝到本地文档进行存储。

然而,这种“粘贴、复制”的方式需要用户进行多次操作,较为繁琐,无法将网页快速保存在本地。



技术实现要素:

本发明实施例的目的在于提供一种网页转换方法及装置,以实现将所浏览的重要网页自动快速地保存至本地文档。

为达到上述目的,本发明实施例公开了一种网页转换方法,包括步骤:

接收用户对待转换网页的转换操作;

根据所述转换操作对所述待转换网页进行解析,获得解析结果,所述解析结果至少包括:所述待转换网页中的网页元素的网页元素类型;

确定进行转换后得到的目标文档的文档格式;

根据目标文档的文档元素类型与网页元素类型的预设类型对应关系,将所述待转换网页中的网页元素转换为类型相对应的文档元素,并保存于所确定的文档格式的文档中。

较佳的,所述解析结果,还包括:所述待转换网页中的网页元素的坐标;

在所述根据目标文档的文档元素类型与网页元素类型的预设类型对应关 系,将所述待转换网页中的网页元素转换为类型相对应的文档元素,并保存于所确定的文档格式的文档中之前,所述方法还包括:根据所述解析结果中的网页元素的坐标确定网页元素在所述待转换网页中的相对位置;

所述根据目标文档的文档元素类型与网页元素类型的预设类型对应关系,将所述待转换网页中的网页元素转换为类型相对应的文档元素,并保存于所确定的文档格式的文档中,包括:

根据目标文档的文档元素类型与网页元素类型的预设类型对应关系,将所述待转换网页中的网页元素转换为类型相对应的文档元素;

对各网页元素:将该网页元素在所述待转换网页中的相对位置确定为该网页元素转换得到的文档元素在文档页面中的相对位置;

对各网页元素:将该网页元素设置于所确定的文档格式的文档页面中的所确定的相对位置中,并进行保存。

较佳的,在所述解析结果仅包括:所述待转换网页中的网页元素的网页元素类型时,所述根据目标文档的文档元素类型与网页元素类型的预设类型对应关系,将所述待转换网页中的网页元素转换为类型相对应的文档元素,并保存于所确定的文档格式的文档中,包括:

根据目标文档的文档元素类型与网页元素类型的预设类型对应关系,将所述待转换网页中的网页元素转换为类型相对应的文档元素;

按照网页元素读取顺序,将各网页元素转换得到的文档元素依次逐行排列在目标文档中,并进行保存。

较佳的,所述确定进行转换后得到的目标文档的文档格式,包括:

接收用户的文档格式选取操作;

将用户所选取的文档格式确定进行转换后得到的目标文档的文档格式。

较佳的,所述确定进行转换后得到的目标文档的文档格式,包括:

根据所述解析结果中的网页元素类型,确定进行转换后得到的目标文档的文档格式。

较佳的,所述根据所述解析结果中的网页元素类型,确定进行转换后得到 的目标文档的文档格式,包括:

判断所述网页元素类型中是否具有多媒体元素,如果是,确定进行转换后得到的目标文档的文档格式为演示文稿;

在判断为否的情况下,进一步判断所述网页元素类型中是否具有表格元素,如果是,确定进行转换后得到的目标文档的文档格式为电子表格;如果否,确定进行转换后得到的目标文档的文档格式为文本文档。

为达到上述目的,本发明实施例公开了一种网页转换装置,包括:

转换操作接收模块,用于接收用户对待转换网页的转换操作;

解析结果获得模块,用于根据所述转换操作对所述待转换网页进行解析,获得解析结果,所述解析结果至少包括:所述待转换网页中的网页元素的网页元素类型;

文档格式确定模块,用于确定进行转换后得到的目标文档的文档格式;

网页转换模块,用于根据目标文档的文档元素类型与网页元素类型的预设类型对应关系,将所述待转换网页中的网页元素转换为类型相对应的文档元素,并保存于所确定的文档格式的文档中。

较佳的,所述解析结果获得模块所获得的解析结果还包括:所述待转换网页中的网页元素的坐标,所述装置还包括:第一相对位置确定模块;

所述第一相对位置确定模块,用于在所述网页转换模块根据目标文档的文档元素类型与网页元素类型的预设类型对应关系,将所述待转换网页中的网页元素转换为类型相对应的文档元素,并保存于所确定的文档格式的文档中之前,根据所述解析结果中的网页元素的坐标确定网页元素在所述待转换网页中的相对位置;

所述网页转换模块,包括:网页元素转换子模块、第二相对位置确定子模块和文档保存子模块:

所述网页元素转换子模块,用于根据目标文档的文档元素类型与网页元素类型的预设类型对应关系,将所述待转换网页中的网页元素转换为类型相对应的文档元素;

所述第二相对位置确定子模块,用于将所述第一相对位置确定模块所确定的各网页元素在所述待转换网页中的相对位置确定为该网页元素转换得到的文档元素在文档页面中的相对位置;

所述文档保存子模块,用于将各网页元素设置于所述第二相对位置确定模块所确定的文档格式的文档页面中的所确定的相对位置中,并进行保存。

较佳的,所述解析结果获得模块所获得的解析结果仅包括网页元素类型,所述网页转换模块,包括:网页元素转换子模块和元素位置排列子模块:

所述网页元素转换子模块,用于根据目标文档的文档元素类型与网页元素类型的预设类型对应关系,将所述待转换网页中的网页元素转换为类型相对应的文档元素;

所述元素位置排列子模块,用于按照网页元素读取顺序,将各网页元素转换得到的文档元素依次逐行排列在目标文档中,并进行保存。

较佳的,所述文档格式确定模块,包括:格式选取操作接收子模块和格式确定子模块;

所述格式选取操作接收子模块,用于接收用户的文档格式选取操作;

所述目标文档格式手动确定子模块,用于将用户所选取的文档格式确定进行转换后得到的目标文档的文档格式。

较佳的,所述文档格式确定模块,具体用于:根据所述解析结果中的网页元素类型,确定进行转换后得到的目标文档的文档格式。

较佳的,所述文档格式确定模块,包括:第一格式确定子模块和第二格式确定子模块;

所述第一格式确定子模块,用于判断所述网页元素类型中是否具有多媒体元素,如果是,则触发演示文稿确定子模块,否则触发第二格式确定子模块;

所述演示文稿确定子模块,用于确定进行转换后得到的目标文档的文档格式为演示文稿;

所述第二格式确定子模块,用于判断所述网页元素类型中是否具有表格元素,如果是,则触发表格确定子模块,否则触发文本文档确定子模块;

所述表格确定子模块,用于确定进行转换后得到的目标文档的文档格式为电子表格;

所述文本文档确定子模块,用于确定进行转换后得到的目标文档的文档格式为文本文档。

本发明实施例提供的一种网页转换方法及装置,可以对待转换网页进行解析并得到解析结果,文档格式确定模块根据得到的解析结果或用户的文档格式确定操作,确定转换后的目标文档的文档格式,根据所确定的文档格式,网页转换模块将解析结果中的网页元素转换为在目标文档中的文档元素,并自动保存至本地。由此可见,应用本发明实施例可以直接对待转换的网页进行处理,无需用户手动反复采用粘贴复制的方法将网页本地化,因而能够将用户所浏览的网页内容自动快速地保存至本地文档,用户操作更便捷。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种网页转换方法的一种流程示意图;

图2为本发明实施例提供的一种网页转换方法的另一种流程示意图;

图3为本发明实施例提供的一种网页转换方法的另一种流程示意图;

图4为本发明实施例提供的一种网页转换方法的另一种流程示意图;

图5为本发明实施例提供的一种网页转换装置的一种结构示意图;

图6为本发明实施例提供的一种网页转换装置的另一种结构示意图;

图7为本发明实施例提供的一种网页转换装置的另一种结构示意图;

图8为本发明实施例提供的一种网页转换方法的另一种结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

首先对本发明实施例提供的一种网页转换方法进行说明,该方法可以包括以下步骤:

接收用户对待转换网页的转换操作;

根据所述转换操作对所述待转换网页进行解析,获得解析结果,所述解析结果至少包括:所述待转换网页中的网页元素的网页元素类型;

确定进行转换后得到的目标文档的文档格式;

根据目标文档的文档元素类型与网页元素类型的预设类型对应关系,将所述待转换网页中的网页元素转换为类型相对应的文档元素,并保存于所确定的文档格式的文档中。

由此可见,应用本发明实施例可以直接对待转换的网页进行处理,无需用户手动反复采用粘贴复制的方法将网页本地化,因而能够将用户所浏览的网页内容自动快速地保存至本地文档,用户操作更便捷。

下面对本发明实施例所提供的一种网页转换方法的步骤进行详细介绍。

图1为本发明实施例提供的一种网页转换方法的一种流程示意图,该方法可以包括以下步骤:

步骤S101:接收用户对待转换网页的转换操作。

其中,接收到的用户对待转换网页的转换操作,可以是针对整页网页内容的转换操作,还可以是针对网页中的部分网页内容的转换操作,用户可以选择待转换的网页内容区域范围。

步骤S102:根据所述转换操作对所述待转换网页进行解析,获得解析结果,所述解析结果至少包括:所述待转换网页中的网页元素的网页元素类型。

在本发明的一种具体实施例中,该解析结果可以包括:

待转换网页中的网页元素的网页元素类型和待转换网页中的网页元素的坐标。

需要说明的是,这里所说的待转换网页中的网页元素的坐标,可以在生成网页时的CSS网页样式文档中解析得到。

在本发明的另一种具体实施例中,该解析结果可以包括:

待转换网页中的网页元素的网页元素类型。

需要说明的是,对于所获得解析结果仅有待转换网页中的网页元素的网页元素类型的情况,通常是没有CSS网页样式文档与之对应的,对于这种情况,需要按照网页元素的读取顺序设置转换后的文档元素在转换后的目标文档中的位置。

步骤S103:确定进行转换后得到的目标文档的文档格式。

在实际应用中,确定进行转换后得到的目标文档的文档格式,可以包括以下两种方式:

方式一:

接收用户的文档格式选取操作;

将用户所选取的文档格式确定进行转换后得到的目标文档的文档格式。

需要说明的是,采用方式一所确定的进行转换后得到的目标文档的文档格式,对于待转换网页中的网页元素会丢失网页元素的功能。举例而言,如果用户所选取的文档格式为文本文档格式,根据方式一中的方法,确定进行转化后得到的目标文档的文档格式为文本文档格式,假设,待转换网页中的网页元素包括视频元素,那么,将该视频元素转换到目标文档中时视频元素无法播放,丢失了视频元素的功能。

方式二:

根据解析结果中的网页元素类型,确定进行转换后得到的目标文档的文档格式。

参见图2,步骤S103,可以包括:

步骤S103a:判断网页元素类型中是否具有多媒体元素,如果是,执行步骤S103c,否则执行步骤S103b;

步骤S103c:确定进行转换后得到的目标文档的文档格式为演示文稿;

步骤S103b:进一步判断网页元素类型中是否具有表格元素,如果是,执行步骤S103d,否则执行步骤S103e;

步骤S103d:确定进行转换后得到的目标文档的文档格式为电子表格;

步骤S103e:确定进行转换后得到的目标文档的文档格式为文本文档。

需要说明的是,采用方式二所确定的进行转换后得到的目标文档的文档格式,能够尽可能地保留网页元素的功能。

在实际应用中,具体采用何种方式来确定待转换后得到的目标文档的文档格式还需结合实际情况而定,在对于有保留网页元素功能要求的情况下,可以采用方式二来确定;在没有保留网页元素功能需求或者用户有特殊格式要求的情况下,可以采用方式一来确定。

步骤S104:根据目标文档的文档元素类型与网页元素类型的预设类型对应关系,将所述待转换网页中的网页元素转换为类型相对应的文档元素,并保存于所确定的文档格式的文档中。

针对步骤S102中的一种具体实施例,上述解析结果还可以在获得待转换网页中的网页元素的网页元素类型的基础上,还获得待转换网页中的网页元素的坐标。

在图1所示的步骤S104之前,所述方法还可以包括步骤S105:根据解析结果中的网页元素的坐标确定网页元素在待转换网页中的相对位置;

参见图3,所述步骤S104,可以包括:

步骤S104a:根据目标文档的文档元素类型与网页元素类型的预设类型对应关系,将待转换网页中的网页元素转换为类型相对应的文档元素;

具体的,在确定目标文档的文档格式后,针对不同的网页元素,具有不同的网页元素转换对应关系。

例如,当确定的目标文档的文档格式为演示文稿时,针对音频、视频等多媒体网页元素,首先在待转换网页的解析过程中,将音频、视频等多媒体网页元素的原文件从网页中下载至本地;然后按照演示文稿中添加多媒体文档元素 的规则,将下载至本地的多媒体原文件确定为该演示文稿的文档元素,添加至演示文稿的文档中。

例如,当确定的目标文档的文档格式为电子表格时,针对表格元素而言,首先确定网页元素中表格元素的属性(行高、列宽、字体、字号等);然后,按照所述网页元素中的表格属性确定为目标文档的表格属性,按照电子表格中添加表格的规则,将网页元素中的表格元素转换为目标文档中的表格元素。

例如,当确定的目标文档的文档格式为文本文档时,针对图片元素而言,首先在待转换网页的解析过程中,将该图片的原文件下载至本地;然后,根据文本文档中的页面宽度对图片进行压缩处理,将压缩后的图片按照文本文档中图片添加规则,将网页元素中的图片元素转换为目标文档中的图片元素。

例如,当确定的目标文档的文档格式为文本文档时,针对超链接元素,首先确定超链接中文字的属性(字体、字号、颜色、链接到的目标地址等);然后,按照文本文档中超链接的添加规则,将网页元素中的超链接元素转换为具有相同属性的文本文档中的超链接元素。

例如,当确定的目标文档的文档格式为文本文档时,针对图标元素,首先将图标元素中的图片下载至本地,然后将该图标元素的图片转换为文本文档中的图片元素。需要说明的是,当图标元素转换到目标文档中后,仅保留了该图标的图片,但是该图标在待转换网页中的功能已丢失。

还需要说明的是,当所确定的目标文档的文档格式是由用户的文档格式选取操作所确定的,这种情况下,对于待转换网页中的网页元素可能会出现元素功能丢失,例如,对于包含多媒体网页元素的待转换网页,用户所确定的目标文档的文档格式为文本文档,那么显然,该多媒体元素的播放音视频的功能无法展现在目标文档中,即网页元素的元素功能丢失

步骤S104b:对各网页元素:将该网页元素在所述待转换网页中的相对位置确定为该网页元素转换得到的文档元素在文档页面中的相对位置;

步骤S104c:对各网页元素:将该网页元素设置于所确定的文档格式的文档页面中的所确定的相对位置中,并进行保存。

由此可见,应用本发明实施例可以直接对待转换的网页进行处理,无需用 户手动反复采用粘贴复制的方法将网页本地化,因而能够将用户所浏览的网页内容自动快速地保存至本地文档,用户操作更便捷;另外,由于在对待转换网页的解析中还得到了网页元素的相对位置,并将该相对位置确定为文档元素在目标文档中的相对位置,进而设置转换后的网页元素,所以还保留了网页元素在待转换网页中的布局,因此,采用图3所示的具体实施方式使得转换后的目标文档更真实地将待转换网页保存至本地,用户使用更加方便。

针对步骤S102中的另一种具体实施例,解析结果仅包括待转换网页中的网页元素的网页元素类型,参见图4,所述步骤S104,可以包括:

步骤S104a:根据目标文档的文档元素类型与网页元素类型的预设类型对应关系,将所述待转换网页中的网页元素转换为类型相对应的文档元素;

步骤S104d:按照网页元素读取顺序,将各网页元素转换得到的文档元素依次逐行排列在目标文档中,并进行保存。

基于上述情况可知,在对待转换网页进行转换时,除了按照网页元素的类型进行了元素转换,也对网页元素的位置进行了设置,但是,由于网页元素是按照网页元素读取顺序依次排列的,因而,在对待转换网页进行转换的过程中,并没有保留网页元素在待转换网页中的布局。

由此可见,应用本发明实施例可以直接对待转换的网页进行处理,无需用户手动反复采用粘贴复制的方法将网页本地化,因而能够将用户所浏览的网页内容自动快速地保存至本地文档,用户操作更便捷。

对应于上述方法实施例,本发明实施例还提供一种网页转换装置,参见图5,该装置可以包括:转换操作接收模块210、解析结果获得模块220、文档格式确定模块230和网页转换模块240;其中,

转换操作接收模块210,用于接收用户对待转换网页的转换操作。

解析结果获得模块220,用于根据转换操作对待转换网页进行解析,获得解析结果,解析结果至少包括:待转换网页中的网页元素的网页元素类型。

文档格式确定模块230,用于确定进行转换后得到的目标文档的文档格式。

具体的,在本发明的一种实施例中,文档格式确定模块230,可以用于接收用户的文档格式选取操作;将用户所选取的文档格式确定进行转换后得到的 目标文档的文档格式。

具体的,在本发明的另一种实施方式中,文档格式确定模块230,可以用于:根据解析结果中的网页元素类型,确定进行转换后得到的目标文档的文档格式。

参见图6,在本发明的另一种实施例中,文档格式确定模块230,可以包括:第一格式确定子模块230a、第二格式确定子模块230b、演示文稿确定子模块230c、表格确定子模块230d和文本文档确定子模块230e。

其中,第一格式确定子模块230a,用于判断网页元素类型中是否具有多媒体元素,如果是,则触发演示文稿确定子模块230c,否则触发第二格式确定子模块230b;

演示文稿确定子模块230c,用于确定进行转换后得到的目标文档的文档格式为演示文稿;

第二格式确定子模块230b,用于判断网页元素类型中是否具有表格元素,如果是,则触发表格确定子模块230d,否则触发文本文档确定子模块230e;

表格确定子模块230d,用于确定进行转换后得到的目标文档的文档格式为电子表格;

文本文档确定子模块230e,用于确定进行转换后得到的目标文档的文档格式为文本文档。

网页转换模块240,用于根据目标文档的文档元素类型与网页元素类型的预设类型对应关系,将待转换网页中的网页元素转换为类型相对应的文档元素,并保存于所确定的文档格式的文档中。

在本发明的一种具体实施方式中,解析结果获得模块220所获得的解析结果,除了获得的待转换网页中的网页元素的网页元素类型,还获得:待转换网页中的网页元素的坐标,参见图7,与图3所述的方法对应,在图5所示实施例的基础上,该装置还包括:第一相对位置确定模块250;

第一相对位置确定模块250,用于在网页转换模块240根据目标文档的文档元素类型与网页元素类型的预设类型对应关系,将待转换网页中的网页元素转换为类型相对应的文档元素,并保存于所确定的文档格式的文档中之前,根据 解析结果中的网页元素的坐标确定网页元素在待转换网页中的相对位置;

在图7所示实施例中,网页转换模块240,可以包括:网页元素转换子模块240a、第二相对位置确定子模块240b和文档保存子模块240c:

网页元素转换子模块240a,用于根据目标文档的文档元素类型与网页元素类型的预设类型对应关系,将待转换网页中的网页元素转换为类型相对应的文档元素;

第二相对位置确定子模块240b,用于将第一相对位置确定模块250所确定的各网页元素在待转换网页中的相对位置确定为该网页元素转换得到的文档元素在文档页面中的相对位置;

文档保存子模块240c,用于将各网页元素设置于第二相对位置确定子模块所确定的文档格式的文档页面中的所确定的相对位置中,并进行保存。

应用本发明图7所示实施例可以直接对待转换的网页进行处理,无需用户手动反复采用粘贴复制的方法将网页本地化,因而能够将用户所浏览的网页内容自动快速地保存至本地文档,用户操作更便捷;另外,由于在对待转换网页的解析中还得到了网页元素的相对位置,并将该相对位置确定为文档元素在目标文档中的相对位置,进而设置转换后的网页元素,所以还保留了网页元素在待转换网页中的布局,因此,采用图7所示的具体实施方式使得转换后的目标文档更真实地将待转换网页保存至本地,用户使用更加方便。

在本发明的另一种具体实施方式中,解析结果获得模块220所获得的解析结果仅包括网页元素类型,参见图8,与图4所述的方法对应,图5所示实施例中的网页转换模块240,可以包括:网页元素转换子模块240a和元素位置排列子模块240d。

其中,网页元素转换子模块240a,用于根据目标文档的文档元素类型与网页元素类型的预设类型对应关系,将待转换网页中的网页元素转换为类型相对应的文档元素;

元素位置排列子模块240d,用于按照网页元素读取顺序,将各网页元素转换得到的文档元素依次逐行排列在目标文档中,并进行保存。

由图8所示实施例可知,在对待转换网页进行转换时,除了按照网页元素 的类型进行了元素转换,也对网页元素的位置进行了设置,但是,由于网页元素是按照网页元素读取顺序依次排列的,因而,在对待转换网页进行转换的过程中,并没有保留网页元素在待转换网页中的布局。

由此可见,应用本发明实施例可以直接对待转换的网页进行处理,无需用户手动反复采用粘贴复制的方法将网页本地化,因而能够将用户所浏览的网页内容自动快速地保存至本地文档,用户操作更便捷。

对于系统或装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。

以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1