1.一种计算机实现的方法,包括:
提取文档所包括的多个页面的特征信息,每个页面的特征信息表征该页面所包含的至少一种类型的内容;
至少基于所提取的特征信息来确定所述多个页面在所述文档中的相应重要度;以及
通过基于所述相应重要度从所述多个页面中选择预定数目的页面,来生成所述文档的概要,所述预定数目小于所述多个页面的数目。
2.根据权利要求1所述的方法,其中提取所述多个页面的特征信息包括:针对每个页面,
确定该页面所包含的内容是否包括文本;以及
响应于该页面包含的内容包括文本,提取以下至少一项以作为该页面的文本相关特征信息:所述文本的语义特征和指示所述文本包括的词语数目的特征信息。
3.根据权利要求1所述的方法,其中提取所述多个页面的特征信息包括:针对每个页面,
确定该页面所包含的内容是否包括图像;
响应于该页面包含的内容包括图像,提取以下至少一项以作为该页面的图像相关特征信息:所述图像的特征图、指示所述图像在该页面中占据的面积的特征信息和指示所述图像在该页面中的位置的特征信息。
4.根据权利要求1所述的方法,其中提取所述多个页面的特征信息包括:针对每个页面,
将该页面转换为图像;以及
从所述图像中提取特征图以作为该页面的混合特征信息。
5.根据权利要求1所述的方法,其中从所述多个页面中选择所述预定数目的页面还包括:
确定所述多个页面是否包括关注信息,所述关注信息包括以下至少一项:关键词、对多媒体文件的引用以及对另一文档的引用;以及
进一步基于所述多个页面中的所述关注信息的存在,从所述多个页面中选择所述预定数目的页面。
6.根据权利要求1所述方法,其中提取所述多个页面的特征信息包括:利用神经网络提取所述多个页面的特征信息,并且
其中确定所述多个页面的相应重要度包括:利用所述神经网络确定所述多个页面的相应重要度。
7.根据权利要求6所述的方法,其中所述神经网络利用包括多个训练页面的训练文档来训练,所述多个训练页面中的所述预定数目的训练页面被标注为所述训练文档的概要,并且所述预定数目的训练页面基于以下至少一项而被标注:
在所述训练文档的呈现期间所述训练页面被呈现的持续时间,
所述训练页面包含的备注信息,以及
与所述训练页面是否用作所述训练文档的概要相关的人工标注。
8.根据权利要求1所述的方法,进一步包括:
在所述多个页面的呈现中突出显示所选择的预定数目的页面。
9.根据权利要求1所述的方法,进一步包括:
独立于所述文档而呈现所选择的预定数目的页面或者与所述预定数目的页面对应的预览页面。
10.根据权利要求1所述的方法,其中所述文档选自由以下构成的组:演示幻灯片文档、文字处理文档、网页以及可打印文档格式(pdf)文档。
11.一种电子设备,包括:
处理单元;以及
存储器,耦合至所述处理单元并且包含存储于其上的指令,所述指令在由所述处理单元执行时使所述设备执行以下动作:
提取文档所包括的多个页面的特征信息,每个页面的特征信息表征该页面所包含的至少一种类型的内容;
至少基于所提取的特征信息来确定所述多个页面在所述文档中的相应重要度;以及
通过基于所述相应重要度从所述多个页面中选择预定数目的页面,来生成所述文档的概要,所述预定数目小于所述多个页面的数目。
12.根据权利要求11所述的设备,其中提取所述多个页面的特征信息包括:针对每个页面,
确定该页面所包含的内容是否包括文本;以及
响应于该页面包含的内容包括文本,提取以下至少一项以作为该页面的文本相关特征信息:所述文本的语义特征和指示所述文本包括的词语数目的特征信息。
13.根据权利要求11所述的设备,其中提取所述多个页面的特征信息包括:针对每个页面,
确定该页面所包含的内容是否包括图像;
响应于该页面包含的内容包括图像,提取以下至少一项以作为该页面的图像相关特征信息:所述图像的特征图、指示所述图像在该页面中占据的面积的特征信息和指示所述图像在该页面中的位置的特征信息。
14.根据权利要求11所述的设备,其中提取所述多个页面的特征信息包括:针对每个页面,
将该页面转换为图像;以及
从所述图像中提取特征图以作为该页面的混合特征信息。
15.根据权利要求11所述的设备,其中从所述多个页面中选择所述预定数目的页面还包括:
确定所述多个页面是否包括关注信息,所述关注信息包括以下至少一项:关键词、对多媒体文件的引用以及对另一文档的引用;以及
进一步基于所述多个页面中的所述关注信息的存在,从所述多个页面中选择所述预定数目的页面。
16.根据权利要求11所述设备,其中提取所述多个页面的特征信息包括:利用神经网络提取所述多个页面的特征信息,并且
其中确定所述多个页面的相应重要度包括:利用所述神经网络确定所述多个页面的相应重要度。
17.根据权利要求16所述的设备,其中所述神经网络利用包括多个训练页面的训练文档来训练,所述多个训练页面中的所述预定数目的训练页面被标注为所述训练文档的概要,并且所述预定数目的训练页面基于以下至少一项而被标注:
在所述训练文档的呈现期间所述训练页面被呈现的持续时间,
所述训练页面包含的备注信息,以及
与所述训练页面是否用作所述训练文档的概要相关的人工标注。
18.根据权利要求11所述的设备,其中所述动作进一步包括:
在所述多个页面的呈现中突出显示所选择的预定数目的页面。
19.根据权利要求11所述的设备,其中所述动作进一步包括:
独立于所述文档而呈现所选择的预定数目的页面或者与所述预定数目的页面对应的预览页面。
20.一种计算机程序产品,所述计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令,机器可执行指令在由设备执行时使设备执行权利要求1至10所述的方法。