一种筛选文本的方法及装置制造方法

文档序号:6634672阅读:192来源:国知局
一种筛选文本的方法及装置制造方法
【专利摘要】本发明的实施方式提供了一种筛选文本的方法。例如,该方法可以包括:对电子文档中的文本元素进行解析,得到所述文本元素的属性;根据所述文本元素的属性,从所述文本元素中筛选出属性符合属性筛选规则的文本元素。通过从文本元素中筛选出属性符合属性筛选规则的文本元素,本发明的方法使得用户可以得到具有该特定属性的文本元素的集合,无需反复执行复制、切换文档、粘贴的操作,用户操作简单,而且终端无需与用户进行大量的交互操作,提高了终端运行效率。此外,本发明的实施方式提供了一种筛选文本的装置。
【专利说明】一种筛选文本的方法及装置

【技术领域】
[0001]本发明的实施方式涉及文本处理领域,更具体地,本发明的实施方式涉及一种筛选文本的方法及装置。

【背景技术】
[0002]本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]随着各种格式的文档阅读器的出现,给人们阅读和编辑电子文档带来了很大方便。当用户看到电子文档中喜欢的一条文本内容时,可以通过这些文档阅读器中提供的复制功能,复制这条文本内容。当切换到另一电子文档页面时,可以将复制出的文本内容粘贴到另一电子文档中。例如,人们可以通过微软提供的办公软件自带的WORD工具浏览、新建、编辑WORD文档。还可以利用WORD工具提供的复制功能复制出一条文本内容。当切换到另一 WORD或TXT文档页面时,将复制出的这条文本内容粘贴到另一 WORD或TXT文档中。


【发明内容】

[0004]但是,当用户喜欢的内容分散地出现在电子文档中时,用户只能反复执行复制、切换文档、粘贴的操作,导致用户操作复杂,而且运行文档阅读器的终端需要与用户进行大量的交互操作,降低了终端运行效率。
[0005]因此在现有技术中,如何在电子文档中高效率地筛选出用户喜欢的文本内容是非常令人烦恼的问题。
[0006]为此,非常需要一种筛选文本的方法及装置,以实现高效率地筛选出用户喜欢的文本的目的。
[0007]在本上下文中,本发明的实施方式期望提供一种筛选文本的方法及装置。
[0008]在本发明实施方式的第一方面中,提供了一种筛选文本的方法。例如,该方法可以包括:对电子文档中的文本元素进行解析,得到所述文本元素的属性,根据所述文本元素的属性,从所述文本元素中筛选出属性符合属性筛选规则的文本元素。
[0009]在本发明实施方式的第二方面中,提供了一种筛选文本的装置。例如,该装置可以包括:解析单元,可以配置用于对电子文档中的文本元素进行解析,得到所述文本元素的属性。筛选单元,可以配置用于根据所述文本元素的属性,从所述文本元素中筛选出属性符合属性筛选规则的文本元素。
[0010]根据本发明实施方式的筛选文本的方法及装置,可以对电子文档中的文本元素进行解析,得到文本元素的例如高亮、下划线等属性,因此,根据文本元素的属性,可以从文本元素中筛选出属性符合属性筛选规则的文本元素。对于用户来说,在阅读文档过程中对喜欢的文本元素添加某特定属性后,可以得到具有该特定属性的文本元素的集合,无需反复执行复制、切换文档、粘贴的操作,用户操作简单,而且终端无需与用户进行大量的交互操作,提闻了终端运行效率。

【专利附图】

【附图说明】
[0011]通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
[0012]图1示意性地示出了根据本发明实施方式的应用场景示意图;
[0013]图2示意性地示出了根据本发明实施方式的筛选文本的方法的流程示意图;
[0014]图3示意性地示出了根据本发明一实施例的电子文档组成示意图;
[0015]图4示意性地示出了根据本发明再一实施例的文本元素及文本元素属性示意图;
[0016]图5示意性地示出了根据本发明实施方式的筛选文本的装置的结构示意图;
[0017]在附图中,相同或对应的标号表不相同或对应的部分。

【具体实施方式】
[0018]下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0019]本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
[0020]根据本发明的实施方式,提出了一种筛选文本的方法及装置。
[0021]在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
[0022]下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
[0023]发明概沭
[0024]本发明人发现,用户通常会在阅读电子文档过程中对自己喜欢的文本添加某些属性,例如,添加高亮、下划线等字体。如果能够对电子文档中的文本元素进行解析,则可以得到文本元素的例如高亮、下划线等属性。根据文本元素的属性,可以从文本元素中筛选出属性符合属性筛选规则的文本元素。例如,筛选出具有高亮字体属性的文本。因此,用户在阅读文档过程中添加某些属性后,可以筛选出具有该特定属性的文本元素的集合,无需反复执行复制、切换文档、粘贴的操作,用户操作简单,而且终端无需与用户进行大量的交互操作,提闻了终端运行效率。
[0025]在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
[0026]应用场景总览
[0027]首先参考图1,界面示意图101为利用word工具阅读word文档的界面示意图。本发明实施例提供的方法可以应用于图1所示word工具中。当用户想从word文档中得到高亮文本时,可以通过应用本发明实施例提供的方法的word工具对word文档中文本元素进行解析,得到其中文本元素的属性,根据文本元素的属性,从word文档的文本元素中筛选出具有高亮字体属性的文本元素,从而使用户得到筛选出的具有高亮字体属性的文本元素的集合,例如,可以通过输出到图1界面示意图102所示的另一电子文档中。
[0028]可以理解的是,本发明实施例可以依据任意属性筛选规则,从电子文档中筛选出部分文本元素,并不仅限于筛选高亮文本。
[0029]示例性方法
[0030]下面结合图1的应用场景,参考图2来描述根据本发明示例性实施方式的筛选文本的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。例如,本发明实施例提供的方法还可以应用于云阅读客户端、网页浏览器等客户端中。
[0031]例如,参见图2,为本发明实施例提供的筛选文本的方法流程示意图。如图2所示,该方法可以包括:
[0032]S210、对电子文档中的文本元素进行解析,得到所述文本元素的属性。
[0033]例如,文本元素可以包括表格、标题、段落等文本字符。文本元素的属性可以包括段落对齐方式、段间距、行间距、文字颜色、大小、背景色等。
[0034]可以理解的是,任意格式的电子文档均可解析得到其中文本元素的属性,因此,本发明实施例对电子文档的格式并不进行限制。例如,所述电子文档可以为遵守openxml协议的word文档(如,文件后缀为docx的word文档)、不遵守openxml协议的word文档(如,文件后缀为doc的word文档)、HTML网页文档、PDF文档等等。
[0035]其中,遵守openxml标准协议的word文档是由微软制定的基于xml格式的压缩文件格式。可以用来展示表格数据、图表、演示文稿和文字处理类文档。实际上,遵守openxml标准协议的word文档是一个压缩文件包,里面的子文件如图3所示的压缩包中包含的所有子文件组成了整个文档的内容。
[0036]例如,如果所述电子文档是遵守openxml标准协议的word文档,可以对所述电子文档进行解压缩,得到所述电子文档的子文件(如图3所示的子文件列表),根据openxml标准协议,从所述子文件中得到使用xml标签描述所述电子文档的文本元素及其属性的控制文件(如document, xml),从所述控制文件中读取出文本元素及用于描述所述文本元素属性的xml标签。如果所述电子文档不是遵守openxml标准协议的word文档(如,文件后缀为doc的word文档),则可以将所述电子文档转换为遵守openxml标准协议的文档,进入所述对电子文档进行解压缩的步骤。例如,对于文件后缀为doc的word文档,可以调用微软office的组件,将其强制转换为docx格式的文档。
[0037]一些可能的实施方式中,由于Apache POI可以自动提取出docx电子文档中包含的子文件,自动根据openxml标准协议读取子文件如document, xml中的内容。因此可以使用Apache POI提供的接口直接获取到docx电子文档中文本元素及用于描述所述文本元素属性的xml标签。
[0038]另一些可能的实施方式中,可以使用任意解压缩工具如7zip对docx电子文档中的控制文件document, xml进行解压缩,其中,document, xml中包含使用xml标签描述的文本元素及其属性。从控制文件document, xml中读取出如图4所示的文本元素及用于描述所述文本元素属性的xml标签。可以理解的是,按照openxml协议规定的文件之间属性的引用关系,docx的压缩包中还可能存在其他xml文件描述文本元素属性。所以,除了从document, xml文件获取文本元素的属性以外,还可以根据文件之间属性的引用关系,从其他相关的xml文件中获取文本元素的属性。
[0039]S220、根据所述文本元素的属性,从所述文本元素中筛选出属性符合属性筛选规则的文本元素。
[0040]例如,所述属性筛选规则可以包括:对具有指定字体属性的文本元素的筛选规则、对具有指定段落属性的文本元素的筛选规则、和/或者,对具有指定样式属性的文本元素的筛选规则。其中,所述字体属性可以包括高亮、颜色、下划线、黑体、字号等属性。所述段落属性可以包括列表、倒悬、首行缩进等属性。所述样式属性可以包括强调样式、标题样式、副标题样式等属性。当然,属性筛选规则所设置的需要被筛选出的文本元素的属性还可以是其他任意属性,在此不再一一赘述。
[0041]例如,如图4所示,从document, xml读取出的具有高亮字体属性的文本元素可能由xml标签“〈w:highlight w: val = "yellow"/〉”来标记。也就是说,高亮的文本元素对应了 highlight属性,因此,可以根据xml标签中是否包含关键字“highlight”来判断该xml标签标记的文本元素是否填充了高亮背景色。例如,对具有高亮字体属性的文本元素的筛选规则可以设置为:xml标签包含关键字“highlight”的文本元素。
[0042]再例如,从document, xml读取出的标题级别的文本元素可能由xml标签“<w:pStyle w: val =参数/>”来标记。其中,不同参数可以表示不同级别标题的级别数。因此,可以根据xml标签中是否包含关键字“<w:pStyle w: val =”来判断其标记的文本元素是否为标题,以及,根据val对应的参数判断标题所属级别。例如,对具有指定级别标题属性的文本元素的筛选规则可以设置为:xml标签包含关键字“<W:pStyle w:val =”的文本元素。
[0043]一些可能的实施方式中,本发明实施例提供的方法可以预置有多种属性筛选规贝U。相应地,本发明实施例提供的方法还可以接收用户对属性筛选规则的选定,从所述文本元素中筛选出属性符合用户选定的属性筛选规则的文本元素。
[0044]可以理解的是,本发明实施例筛选出属性符合属性筛选规则的文本元素,即得到了筛选出的文本元素的集合。如何将筛选出的文本元素的集合反馈给用户,可以根据实际需要设置。
[0045]例如,一些可能的实施方式中,可以将筛选出的所有文本元素的集合集中写在被筛选的电子文档的文件尾,以便用户集中查看、复制。
[0046]再例如,另一些可能的实施方式中,可以将筛选出的所有文本元素以预置属性输出到预置格式的另一电子文档中。例如,从一电子文档筛选出的具有标题属性的文本元素可以按相同或不同的标题属性输出到另一电子文档中。再例如,从一电子文档筛选出的具有高亮字体属性的文本元素可以按普通字体或高亮字体输出到另一电子文档中。其中,被筛选的电子文档以及输出到的另一电子文档可以为不同格式的电子文档,以满足不同用户的阅读需求。例如,从word文档中筛选出的文本元素可以输出到HTML文档或者epub等格式的电子文档中。
[0047]一些可能的实施方式中,可以在筛选属性符合属性筛选规则的文本元素的过程中,每筛选出一条属性符合属性筛选规则的文本元素,即将该条文本元素写入到另一电子文档中,直到筛选整个电子文档结束。
[0048]另一些可能的实施方式中,可以在筛选属性符合属性筛选规则的文本元素的过程中,每筛选出一条属性符合属性筛选规则的文本元素,即将该条文本元素保存在内存中,直到筛选整个电子文档结束,将内存中保存的所有文本元素一块输出到另一电子文档中。
[0049]可见,由于本发明实施例提供的方法对电子文档中的文本元素进行解析,得到了文本元素的例如高亮、下划线等属性,因此,根据文本元素的属性,可以从文本元素中筛选出属性符合属性筛选规则的文本元素。对于用户来说,在阅读文档过程中对喜欢的文本元素添加某特定属性后,可以得到具有该特定属性的文本元素的集合,无需反复执行复制、切换文档、粘贴的操作,用户操作简单,而且终端无需与用户进行大量的交互操作,提高了终端运行效率。
[0050]示例性设备
[0051]在介绍了本发明示例性实施方式的方法之后,接下来,参考图5对本发明示例性实施方式的筛选文本的装置进行介绍。
[0052]例如,参见图5,为本申请实施例提供的一种筛选文本的装置结构示意图。如图5所示,该装置可以包括:解析单元510,可以配置用于对电子文档中的文本元素进行解析,得到所述文本元素的属性。筛选单元520,可以配置用于根据所述文本元素的属性,从所述文本元素中筛选出属性符合属性筛选规则的文本元素。
[0053]一些可能的实施方式中,所述筛选单元520,可以配置用于根据所述文本元素的属性,从所述文本元素中筛选出具有指定字体属性的文本元素、具有指定段落属性的文本元素、和/或者,具有指定样式属性的文本元素。
[0054]具体地,例如,结合上面的实施方式,所述筛选单元,可以配置用于根据所述文本元素的属性,从所述文本元素中筛选出具有高亮字体属性的文本元素、以及,具有标题属性的文本元素。
[0055]一些可能的实施方式中,所述解析单元510可以包括:压缩文档解析子单元511,可以配置用于如果所述电子文档是遵守openxml标准协议的word文档,对所述电子文档进行解压缩,得到所述电子文档的子文件。标签读取子单元512,可以配置用于根据openxml标准协议,从所述子文件中得到使用xml标签描述所述电子文档的文本元素及其属性的控制文件,从所述控制文件中读取出文本元素及用于描述所述文本元素属性的xml标签。非压缩文档转换子单元513,可以配置用于如果所述电子文档不是遵守openxml标准协议的word文档,将所述电子文档转换为遵守openxml标准协议的文档,触发所述压缩文档解析子单元511对转换后的文档进行解压缩。其中,所述筛选单元520,具体可以配置用于从所述标签读取子单元读取出的文本元素中筛选出所述属性筛选规则设置的筛选xml标签所描述的文本元素。
[0056]可以理解的是,本发明实施例筛选出属性符合属性筛选规则的文本元素,即得到了筛选出的文本元素的集合。如何将筛选出的文本元素的集合反馈给用户,可以根据实际需要设置。例如,一些可能的实施方式中,本发明实施例提供的装置还可以包括输出单元530,可以配置用于将筛选出的所有文本元素以预置属性输出到预置格式的另一电子文档中。
[0057]可见,由于本发明实施例提供的装置中的解析单元510对电子文档中的文本元素进行解析,得到了文本元素的例如高亮、下划线等属性,因此,筛选单元520可以根据文本元素的属性,从文本元素中筛选出属性符合属性筛选规则的文本元素。对于用户来说,在阅读文档过程中对喜欢的文本元素添加某特定属性后,可以得到具有该特定属性的文本元素的集合,无需反复执行复制、切换文档、粘贴的操作,用户操作简单,而且终端无需与用户进行大量的交互操作,提高了终端运行效率。
[0058]需要注意的是,本发明实施例所述的压缩文档解析子单元511、标签读取子单元512、非压缩文档转换子单元513、以及输出单元530在图5中以虚线绘制,以表示这些单元不是本发明实施例提供的筛选文本的装置的必要单元。
[0059]应当注意,尽管在上文详细描述中提及了筛选文本的装置的若干单元或子单元,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
[0060]此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0061]虽然已经参考若干【具体实施方式】描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的【具体实施方式】,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
【权利要求】
1.一种筛选文本的方法,包括: 对电子文档中的文本元素进行解析,得到所述文本元素的属性; 根据所述文本元素的属性,从所述文本元素中筛选出属性符合属性筛选规则的文本元素。
2.根据权利要求1所述的方法,其中,所述属性筛选规则包括:对具有指定字体属性的文本元素的筛选规则、对具有指定段落属性的文本元素的筛选规则、和/或者,对具有指定样式属性的文本元素的筛选规则。
3.根据权利要求2所述的方法,其中,所述对具有指定字体属性的文本元素的筛选规则具体为,对具有高亮字体属性的文本元素的筛选规则; 所述对具有指定样式属性的文本元素的筛选规则具体为,对具有标题属性的文本元素的筛选规则。
4.根据权利要求1所述的方法,其中,所述对电子文档中的文本元素进行解析,得到所述文本元素的属性包括: 如果所述电子文档是遵守openxml标准协议的word文档,对所述电子文档进行解压缩,得到所述电子文档的子文件,根据openxml标准协议,从所述子文件中得到使用xml标签描述所述电子文档的文本元素及其属性的控制文件,从所述控制文件中读取出文本元素及用于描述所述文本元素属性的xml标签; 如果所述电子文档不是遵守openxml标准协议的word文档,将所述电子文档转换为遵守openxml标准协议的文档,进入所述对电子文档进行解压缩的步骤; 所述根据所述文本元素的属性,从所述文本元素中筛选出属性符合属性筛选规则的文本元素包括: 从读取出的文本元素中筛选出所述属性筛选规则设置的筛选xml标签所描述的文本元素。
5.根据权利要求1-4任一项所述的方法,还包括: 将筛选出的所有文本元素以预置属性输出到预置格式的另一电子文档中。
6.一种筛选文本的装置,包括: 解析单元,配置用于对电子文档中的文本元素进行解析,得到所述文本元素的属性;筛选单元,配置用于根据所述文本元素的属性,从所述文本元素中筛选出属性符合属性筛选规则的文本元素。
7.根据权利要求6所述的装置,其中,所述筛选单元,配置用于根据所述文本元素的属性,从所述文本元素中筛选出具有指定字体属性的文本元素、具有指定段落属性的文本元素、和/或者,具有指定样式属性的文本元素。
8.根据权利要求7所述的装置,其中,所述筛选单元,配置用于根据所述文本元素的属性,从所述文本元素中筛选出具有高亮字体属性的文本元素、以及,具有标题属性的文本元素。
9.根据权利要求6所述的装置,其中,所述解析单元包括: 压缩文档解析子单元,配置用于如果所述电子文档是遵守openxml标准协议的word文档,对所述电子文档进行解压缩,得到所述电子文档的子文件; 标签读取子单元,配置用于根据openxml标准协议,从所述子文件中得到使用xml标签描述所述电子文档的文本元素及其属性的控制文件,从所述控制文件中读取出文本元素及用于描述所述文本元素属性的xml标签; 非压缩文档转换子单元,配置用于如果所述电子文档不是遵守openxml标准协议的word文档,将所述电子文档转换为遵守openxml标准协议的文档,触发所述压缩文档解析子单元对转换后的文档进行解压缩; 所述筛选单元,具体配置用于从所述标签读取子单元读取出的文本元素中筛选出所述属性筛选规则设置的筛选xml标签所描述的文本元素。
10.根据权利要求6-9任一项所述的装置,还包括: 输出单元,配置用于将筛选出的所有文本元素以预置属性输出到预置格式的另一电子文档中。
【文档编号】G06F17/21GK104331390SQ201410658708
【公开日】2015年2月4日 申请日期:2014年11月18日 优先权日:2014年11月18日
【发明者】陈俊光, 罗尚虎 申请人:网易(杭州)网络有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1