一种数据处理方法及装置的制造方法_3

文档序号:9249329阅读:来源:国知局
篇文章以文本摘要加图片摘要的形式进行导出。
[0073]另外,每个网页文件可以有分类标签,即这200篇文章可以有不同的分类标签,在导出过程中可以将具有相同分类标签的文章放置到一起。例如,200篇文章中有50篇影评和150篇游记,则可以将50篇影评放在一起形成影评章节,将150篇游记放在一起形成游记章节。同时,可以在每篇文章所导出的特定数据内容之后插入分隔符,即在导出过程中可以每篇文章另起一段或另起一页以方便阅读或出版,也可以设置所导出的特定数据内容的排版格式,例如,文本的字号、字体、图片的尺寸等。
[0074]这样,可以从博客地址数据源中读取若干个网页文件,在每个网页文件中进行查找以生成所需要的特定数据内容,再对在每个网页文件中进行查找生成的特定数据内容进行导出,所导出的内容即为处理后的数据内容,同时,可以对导出的特定数据内容进行自动排版,显著提高了数据处理的速度及效率。
[0075]示例件设各
[0076]在介绍了本发明示例性实施方式的方法之后,接下来,参考图3对本发明示例性实施方式的、用于数据处理的装置进行说明。
[0077]参见图3,示出了本发明中数据处理的装置一实施例的结构图,例如具体可以包括:
[0078]读取单元301,用于从数据源读取网页文件。
[0079]生成单元302,用于在所述网页文件中进行查找以生成特定数据内容。
[0080]导出单元303,用于对所述特定数据内容进行导出。
[0081]在一些可能的实施方式中,所述生成单元302可以包括:
[0082]第一查找子单元,用于查找所述网页文件中包含的文本标签;
[0083]第一确定子单元,用于将所述文本标签对应的数据内容确定为特定数据内容。
[0084]在一些可能的实施方式中,所述生成单元302可以包括:
[0085]第二查找子单元,用于查找所述网页文件中包含的图片标签;
[0086]第二确定子单元,用于将所述图片标签对应的数据内容确定为特定数据内容。
[0087]在一些可能的实施方式中,所述生成单元302可以包括:
[0088]第一查找子单元,用于查找所述网页文件中包含的文本标签;
[0089]第三确定子单元,用于将所述文本标签对应的数据内容确定为中间文字内容;
[0090]第四确定子单元,用于根据所述中间文字内容生成预设字数的摘要内容,将所述摘要内容确定为特定数据内容。
[0091]在一些可能的实施方式中,所述生成单元302可以包括:
[0092]第二查找子单元,用于查找所述网页文件中包含的图片标签;
[0093]选定/指定子单元,用于在所述图片标签中选定一个或者指定一个作为特定图片标签;
[0094]第五确定子单元,用于将所述特定图片标签对应的数据内容确定为中间图片内容;
[0095]第六确定子单元,用于将摘要内容以及所述中间图片内容确定为特定数据内容。
[0096]在一些可能的实施方式中,本发明实施例中提供的数据处理装置还可以包括:
[0097]标签读取单元,用于读取对所述网页文件设置的分类标签;
[0098]分类单元,用于将具有相同所述分类标签的网页文件中导出的所述特定数据内容划分为同一类别。
[0099]在一些可能的实施方式中,本发明实施例中提供的数据处理装置还可以包括:
[0100]接收单元,用于接收包括数据源路径的设置信息,所述数据源包括单个数据源或者多个不同的数据源。
[0101]在一些可能的实施方式中,所述导出单元303可以具体用于:
[0102]将所述特定数据内容直接导出到本地;或者,将所述特定数据内容导出到第三方数据平台。
[0103]在一些可能的实施方式中,本发明实施例中提供的数据处理装置还可以包括:
[0104]查找单元,用于在所述网页文件中查找开始标识以及结束标识;
[0105]插入单元,用于在导出所述开始标识与所述结束标识之间的所述特定数据内容之后插入分隔符。
[0106]在一些可能的实施方式中,本发明实施例中提供的数据处理装置还可以包括:
[0107]排版单元,用于根据排版设置文件对导出的所述特定数据内容进行排版。
[0108]这样,根据本发明实施方式的数据处理装置,可以从数据源中读取网页文件,先在网页文件中进行查找以生成所需要的特定数据内容,再仅对获得的特定数据内容进行导出,所导出的内容即为处理后的数据内容,而无需将数据源中的全部数据内容导出后再进行人工处理,从而显著地提高了数据处理的速度及效率,为用户带来了更好的体验。
[0109]应当注意,尽管在上文详细描述中提及了数据处理装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
[0110]此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0111]虽然已经参考若干【具体实施方式】描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的【具体实施方式】,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
【主权项】
1.一种数据处理方法,包括: 从数据源读取网页文件; 在所述网页文件中进行查找以生成特定数据内容; 对所述特定数据内容进行导出。2.根据权利要求1所述的方法,其中,所述在所述网页文件中进行查找以生成特定数据内容,包括: 查找所述网页文件中包含的文本标签,将所述文本标签对应的数据内容确定为特定数据内容。3.根据权利要求1所述的方法,其中,所述在所述网页文件中进行查找以生成特定数据内容,包括: 查找所述网页文件中包含的图片标签,将所述图片标签对应的数据内容确定为特定数据内容。4.根据权利要求1所述的方法,其中,所述在所述网页文件中进行查找以生成特定数据内容,包括: 查找所述网页文件中包含的文本标签,将所述文本标签对应的数据内容确定为中间文字内容; 根据所述中间文字内容生成预设字数的摘要内容,将所述摘要内容确定为特定数据内容。5.根据权利要求4所述的方法,其中,所述在所述网页文件中进行查找以生成特定数据内容,包括: 查找所述网页文件中包含的图片标签,在所述图片标签中选定一个或者指定一个作为特定图片标签; 将所述特定图片标签对应的数据内容确定为中间图片内容; 将所述摘要内容以及所述中间图片内容确定为特定数据内容。6.根据权利要求1所述的方法,还包括: 读取对所述网页文件设置的分类标签; 将具有相同所述分类标签的网页文件中导出的所述特定数据内容划分为同一类别。7.根据权利要求1所述的方法,在从数据源读取网页文件之前,还包括: 接收包括数据源路径的设置信息,所述数据源包括单个数据源或者多个不同的数据源。8.根据权利要求1所述的方法,其中,所述对所述特定数据内容进行导出,包括: 将所述特定数据内容直接导出到本地; 或者, 将所述特定数据内容导出到第三方数据平台。9.根据权利要求1所述的方法,还包括: 在所述网页文件中查找开始标识以及结束标识; 在导出所述开始标识与所述结束标识之间的所述特定数据内容之后插入分隔符。10.根据权利要求1所述的方法,还包括: 根据排版设置文件对导出的所述特定数据内容进行排版。11.一种数据处理装置,包括:读取单元,用于从数据源读取网页文件;生成单元,用于在所述网页文件中进行查找以生成特定数据内容;导出单元,用于对所述特定数据内容进行导出。
【专利摘要】本发明的实施方式提供了一种数据处理方法。该方法包括:从数据源读取网页文件;在所述网页文件中进行查找以生成特定数据内容;对所述特定数据内容进行导出。通过先在网页文件中进行查找以生成所需要的特定数据内容,再仅对获得的特定数据内容进行导出,所导出的内容即为处理后的数据内容,本发明的方法使得无需将数据源中的全部数据内容导出后再进行人工处理,从而显著地提高了数据处理的速度及效率,为用户带来了更好的体验。此外,本发明的实施方式还提供了一种数据处理装置。
【IPC分类】G06F17/30
【公开号】CN104965929
【申请号】CN201510441030
【发明人】张琦, 刘锋
【申请人】网易传媒科技(北京)有限公司
【公开日】2015年10月7日
【申请日】2015年7月24日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1