一种数据处理方法及装置的制造方法_2

文档序号:9249329阅读:来源:国知局
于数据源可以为单个数据源也可以为多个不同的数据源,则可以通过预先接收包括数据源路径的设置信息,由数据源路径查找到数据源,再从数据源读取网页文件。
[0041]步骤202:在所述网页文件中进行查找以生成特定数据内容。
[0042]通过读取网页文件可以获得网页文件所对应的全部数据内容,但根据用户需求可能并不需要对全部数据内容进行导出,则需要在网页文件中进行查找以生成所需要的特定数据内容,例如,特定数据内容可以为文本、图片、文本摘要、文本摘要以及图片摘要等等。
[0043]在一些可能的实施方式中,根据特定数据内容的不同,步骤202的具体实现至少可以有以下四种方式:
[0044]在所述网页文件中进行查找以生成特定数据内容的第一种可能的实现方式中,可以查找所述网页文件中包含的文本标签,将所述文本标签对应的数据内容确定为特定数据内容。
[0045]例如,需要导出纯文本的数据内容,即特定数据内容为文本时,可以在网页文件中查找文本标签,在一种可能的实现方式中,在网页文件中可以直接包括文本标签对应的数据内容,在另一种可能的实现方式中,网页文件中也可以仅包括文本标签对应的数据内容的文件地址,通过该文本标签对应的数据内容的文件地址可以获得文本标签对应的数据内容,这样通过查找网页文件中包含的文本标签而获得的文本标签对应的数据内容即为文本数据内容,将文本标签对应的数据内容确定为特定数据内容。另外,在网页文件中查找文本标签的实现可以直接查找文本标签,也可以查找非文本标签,过滤掉非文本标签,网页文件中余下的标签则为文本标签。
[0046]在所述网页文件中进行查找以生成特定数据内容的第二种可能的实现方式中,可以查找所述网页文件中包含的图片标签,将所述图片标签对应的数据内容确定为特定数据内容。
[0047]例如,需要将全部图片进行导出,即特定数据内容为图片时,可以在网页文件中查找图片标签,在一种可能的实现方式中,在网页文件中可以直接包括图片标签对应的数据内容,在另一种可能的实现方式中,网页文件中也可以仅包括图片标签对应的数据内容的文件地址,通过该图片标签对应的数据内容的文件地址可以获得图片标签对应的数据内容,这样通过查找网页文件中包含的图片标签而获得的图片标签对应的数据内容即为图片数据内容,将图片标签对应的数据内容确定为特定数据内容。另外,在网页文件中查找图片标签的实现可以直接查找图片标签,也可以查找非图片标签,过滤掉非图片标签,网页文件中余下的标签则为图片标签。
[0048]在所述网页文件中进行查找以生成特定数据内容的第三种可能的实现方式中,可以查找所述网页文件中包含的文本标签,将所述文本标签对应的数据内容确定为中间文字内容;根据所述中间文字内容生成预设字数的摘要内容,将所述摘要内容确定为特定数据内容。
[0049]在一些情况下,需要将文本以文本摘要的形式导出,可以先在网页文件中进行查找以生成文本作为中间文字内容,再利用中间文字内容生成摘要内容作为特定数据内容。
[0050]在网页文件中进行查找以生成文本作为中间文字内容的方式,与上述在网页文件中进行查找以生成特定数据内容的第一种可能的实现方式类似,即可以在网页文件中查找文本标签,在网页文件中可以直接包括文本标签对应的数据内容,网页文件中也可以仅包括文本标签对应的数据内容的文件地址,通过该文本标签对应的数据内容的文件地址可以获得文本标签对应的数据内容,这样通过查找网页文件中包含的文本标签而获得的文本标签对应的数据内容即为文本数据内容,这样,可以将文本标签对应的数据内容确定为中间文字内容。
[0051]生成中间文字内容后,可以利用摘要生成算法生成预设字数的摘要内容,将摘要内容确定为特定数据内容,例如,将在某一网页文件中进行查找而生成的中间文字内容缩减为100个字以内,作为该网页文件对应的摘要内容。
[0052]在所述网页文件中进行查找以生成特定数据内容的第四种可能的实现方式中,可以查找所述网页文件中包含的图片标签,在所述图片标签中选定一个或者指定一个作为特定图片标签;将所述特定图片标签对应的数据内容确定为中间图片内容;将所述摘要内容以及所述中间图片内容确定为特定数据内容。
[0053]在一些情况下,还可以将文本以文本摘要的形式结合图片以图片摘要的形式一同导出,可以先在网页文件中进行查找以生成一幅图片作为中间图片内容,再结合文本的摘要内容共同作为特定数据内容。摘要内容的生成可以参见上述在网页文件中进行查找以生成特定数据内容的第三种可能的实现方式,在此不再赘述。而对于图片摘要,可以查找网页文件中包含的图片标签,在图片标签中,例如随机地,选定一个或者指定一个作为特定图片标签;将特定图片标签对应的数据内容确定为中间图片内容,即图片摘要。这样,可以将摘要内容以及中间图片内容共同作为特定数据内容。
[0054]步骤203:对所述特定数据内容进行导出。
[0055]由于特定数据内容是已经对网页文件中所包含的数据内容进行筛选、编辑等处理后的处理结果,直接对特定数据内容进行导出,导出的内容就是所需要的数据内容,而无需在导出后再进行编辑等处理工作,大幅提高了将网络数据进行导出后的数据处理过程的速度及效率。
[0056]在一些可能的实施方式中,所述对所述特定数据内容进行导出的具体实现可以包括:
[0057]将所述特定数据内容直接导出到本地;或者,将所述特定数据内容导出到第三方数据平台。
[0058]即特定数据内容可以直接导出到本地,例如,直接导出为本地word文件使用,也可以导出到第三方数据平台,例如,可以实现对同一用户的不同博客进行汇总筛选后导出到另一数据平台进行保存。
[0059]另外,在一些可能的实施方式中,还可以包括:
[0060]读取对所述网页文件设置的分类标签;将具有相同所述分类标签的网页文件中导出的所述特定数据内容划分为同一类别。
[0061]每个网页文件还可以设置有分类标签,例如,该网页文件对应的数据内容记录的是游记,则可以将分类标签设置为旅游,在导出过程中,可以将具有相同分类标签的网页文件中导出的特定数据内容放置到一起。
[0062]另外,在一些可能的实施方式中,还可以包括:
[0063]在所述网页文件中查找开始标识以及结束标识;
[0064]在导出所述开始标识与所述结束标识之间的所述特定数据内容之后插入分隔符。
[0065]即网页文件中开始标识以及结束标识之间的内容为所需的内容,在导出的开始标识与结束标识之间的特定数据内容之后插入分隔符,可以对导出的内容进行自动分段或分页。开始标识和结束标识用户可以设置。
[0066]在一些可能的实施方式中,还可以包括:根据排版设置文件对导出的所述特定数据内容进行排版。
[0067]例如,排版设置文件中可以对文本的字号、字体等、图片的尺寸等内容进行设置,则本实施例中还可以对导出的特定数据内容根据排版设置文件进行排版,进一步减少用户人工编辑过程。
[0068]这样,根据本发明实施方式的数据处理方法,可以从数据源中读取网页文件,先在网页文件中进行查找以生成所需要的特定数据内容,再仅对获得的特定数据内容进行导出,所导出的内容即为处理后的数据内容,而无需将数据源中的全部数据内容导出后再进行人工处理,从而显著地提高了数据处理的速度及效率,为用户带来了更好的体验。
[0069]以下再结合实际应用,对本发明中提供的数据处理方法实施例进行进一步说明。
[0070]例如,某一用户使用两个博客地址:aaaa.blog.163.com以及aaaa.blog.sina.com,每个博客中保存有100篇文章,则这两个博客共保存有200篇文章,用户希望将这200篇文章以特定的形式进行出版,则可以使用本发明实施例中提供的数据处理方法对所保存的网络数据内容进行处理。
[0071]首先数据源为这两个博客地址:aaaa.blog.163.com,aaaa.blog.sina.com,博客中每篇文章对应于一个网页,一个网页即为一个网页文件,则从这两个数据源一共可以读取到200个网页文件。可以理解的是博客中每篇文件可以包括文本和/或图片,则每个网页文件所指向的数据内容可以包括文本和/或图片。
[0072]则根据用户的具体需要可以(I)将每个网页文件中文本标签对应的数据内容作为特定数据内容进行导出,即将200篇文章以纯文字的形式进行导出;(2)将每个网页文件中图片标签对应的数据内容作为特定数据内容进行导出,即将200篇文章以图片的形式进行导出;(3)将每个网页文件中文本标签对应的数据内容进行摘要提取,将每篇文章缩减为摘要内容作为特定数据内容进行导出,即将200篇文章分别以摘要的形式进行导出;(4)结合(2)、(3)点,将每个网页文件中文本标签对应的数据内容进行摘要提取作为文本摘要,将每个网页文件中选取的一个图片标签对应的数据内容作为图片摘要,将文本摘要、图片摘要共同进行导出,即将200篇文章中的每
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1