文档的概要生成的制作方法

文档序号：19787056发布日期：2020-01-24 13:43阅读：191来源：国知局

背景技术：

人们在日常工作、学习、会议等活动中可能需要搜索或查看各类文档，诸如演示幻灯片文档、文字处理文档等。有时候一个文档可能包含非常多的页面。用户需要花费大量时间才能阅读全部页面，了解文档的主要内容。如果存在大量文档要阅读，这样的时间消耗会更长。例如，在搜索的场景下，搜索引擎返回较大数目的文档作为搜索结果，用户还需要一一翻阅每个文档的全部页面才能确定文档是否包含期望的内容。这样无效的文档浏览难以获得快速、方便的文档定位，为用户带来不必要的时间浪费。

技术实现要素：

根据本公开的实现，提出了一种用于生成文档的概要的方案。在该方案中，提取文档所包括的多个页面的特征信息，每个页面的特征信息表征该页面所包含的至少一种类型的内容。至少基于所提取的特征信息来确定多个页面在文档中的相应重要度。通过基于相应重要度从多个页面中选择预定数目的页面，来生成文档的概要，预定数目小于多个页面的数目。通过该方案，可以从文档的多个页面中自动确定包含重要内容的页面、而不是全部页面作为文档的概要。文档的概要有助于用户更快速地获得文档的主要内容、降低用户浏览文档所花费的时间和/或促使用户尽快定位感兴趣的文档。

提供发明内容部分是为了简化的形式来介绍对概念的选择，其在下文的具体实施方式中将被进一步描述。发明内容部分无意标识要求保护的主题的关键特征或主要特征，也无意限制要求保护的主题的范围。

附图说明

图1示出了能够实施本公开的多个实现的计算环境的框图；

图2示出了根据本公开的一个实现的概要生成模块的框图；

图3示出了根据本公开的一个实现的基于神经网络的特征提取和重要度确定的实现的示意图；

图4示出了根据本公开的一个实现的对页面的特征提取的示意图；

图5a至图5c示出了根据本公开的一些实现的呈现文档的概要的示例用户界面的示意图；以及

图6示出了根据本公开的一个实现的用于生成文档的概要的过程的流程图。

这些附图中，相同或相似参考符号用于表示相同或相似元素。

具体实施方式

现在将参照若干示例实现来论述本公开。应当理解，论述了这些实现仅是为了使得本领域普通技术人员能够更好地理解且因此实现本公开，而不是暗示对本公开的范围的任何限制。

如本文所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实现”和“一种实现”要被解读为“至少一个实现”。术语“另一个实现”要被解读为“至少一个其他实现”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上提及的，在文档包括多个页面时，用户需要花费较多时间浏览文档全部页面以从中抓取重要内容。因此，生成文档的概要用于呈现包括文档的主要内容是必要的。为此，本公开的实现提出了一种用于生成文档概要的方案。该方案涉及提取文档的多个页面的特征信息，所提取的特征信息表征相应页面所包含的至少一种类型的内容。基于所提取的特征信息来确定多个页面在文档中的相应重要度，并且基于所确定的重要度来选择多个页面中的一些页面以用于生成该文档的概要。通过特征提取和基于特征的重要度分析，可以从文档的多个页面中自动确定包含重要内容的页面、而不是全部页面作为文档的概要。文档的概要有助于用户更快速地获得文档的主要内容、降低用户浏览全部文档所花费的时间和/或促使用户尽快定位感兴趣的文档，以尽快确定需要对某个文档执行下一步操作(例如浏览、下载、转发等等)。

以下参考附图来说明本公开的基本原理和若干示例实现。图1示出了能够实施本公开的多个实现的计算设备100的框图。应当理解，图1所示出的计算设备100仅仅是示例性的，而不应当构成对本公开所描述的实现的功能和范围的任何限制。如图1所示，计算设备100包括通用计算设备形式的计算设备100。计算设备100的组件可以包括但不限于一个或多个处理器或处理单元110、存储器120、存储设备130、一个或多个通信单元140、一个或多个输入设备150以及一个或多个输出设备160。

在一些实现中，计算设备100可以被实现为各种用户终端或服务终端。服务终端可以是各种服务提供方提供的服务器、大型计算设备等。用户终端诸如是任意类型的移动终端、固定终端或便携式终端，包括移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(pcs)设备、个人导航设备、个人数字助理(pda)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，计算设备100能够支持任意类型的针对用户的接口(诸如“可佩戴”电路等)。

处理单元110可以是实际或虚拟处理器并且能够根据存储器120中存储的程序来执行各种处理。在多处理器系统中，多个处理单元并行执行计算机可执行指令，以提高计算设备100的并行处理能力。处理单元110也可以被称为中央处理单元(cpu)、微处理器、控制器、微控制器。

计算设备100通常包括多个计算机存储介质。这样的介质可以是计算设备100可访问的任何可以获得的介质，包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(ram))、非易失性存储器(例如，只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、闪存)或其某种组合。存储设备130可以是可拆卸或不可拆卸的介质，并且可以包括机器可读介质，诸如内存、闪存驱动、磁盘或者任何其他介质，其能够用于存储信息和/或数据并且可以在计算设备100内被访问。

计算设备100可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图1中示出，可以提供用于从可拆卸、非易失性磁盘进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中，每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。

通信单元140实现通过通信介质与另外的计算设备进行通信。附加地，计算设备100的组件的功能可以以单个计算集群或多个计算机器来实现，这些计算机器能够通过通信连接进行通信。因此，计算设备100可以使用与一个或多个其他服务器、个人计算机(pc)或者另一个一般网络节点的逻辑连接来在联网环境中进行操作。

输入设备150可以是一个或多个各种输入设备，例如鼠标、键盘、追踪球、语音输入设备等。输出设备160可以是一个或多个输出设备，例如显示器、扬声器、打印机等。计算设备100还可以根据需要通过通信单元140与一个或多个外部设备(未示出)进行通信，外部设备诸如存储设备、显示设备等，与一个或多个使得用户与计算设备100交互的设备进行通信，或者与使得计算设备100与一个或多个其他计算设备通信的任何设备(例如，网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(i/o)接口(未示出)来执行。

在一些实现中，除了被集成在单个设备上之外，计算设备100的各个部件中的一些或所有部件还可以以云计算架构的形式被设置。在云计算架构中，这些部件可以被远程布置，并且可以一起工作以实现本公开所描述的功能。在一些实现中，云计算提供计算、软件、数据访问和存储服务，它们不需要终端用户知晓提供这些服务的系统或硬件的物理位置或配置。在各种实现中，云计算使用适当的协议通过广域网(诸如因特网)提供服务。例如，云计算提供商通过广域网提供应用，并且它们可以通过web浏览器或任何其他计算组件被访问。云计算架构的软件或组件以及相应的数据可以被存储在远程位置处的服务器上。云计算环境中的计算资源可以在远程数据中心位置处被合并或者它们可以被分散。云计算基础设施可以通过共享数据中心提供服务，即使它们表现为针对用户的单一访问点。因此，可以使用云计算架构从远程位置处的服务提供商提供本文所描述的组件和功能。备选地，它们可以从常规服务器被提供，或者它们可以直接或以其他方式被安装在客户端设备上。

计算设备100可以用于实施本公开的多种实现中的文档摘要生成。存储器120可以包括一个或多个模块，其具有一个或多个程序指令，这些模块可以由处理单元110访问和运行，以实现本文所描述的各种实现的功能。例如，存储器120可以包括摘要生成模块122，用于执行生成文档的摘要。

在执行摘要生成时，计算设备100能够通过输入设备150接收文档152。文档152包括多个页面，例如页面102-1至页面102-9，这些页面在本文中被统称为页面102。文档152被提供给摘要生成模块122，以由摘要生成模块122从文档152中选择一些页面102作为文档152的概要162，并由输出设备160输出。在图1的示例中，摘要生成模块122从文档152中选择页面102-1、页面102-3、页面102-4和页面102-8作为文档152的概要162以供输出。

应当理解，图1中示出的页面的形式、文档所包括的页面的数目以及摘要所包括的页面的数目仅是示例。在其他示例中，文档可以包括任何数目、任何内容的页面，并且所生成的概要也可以包括任何数目的页面。取决于概要生成模块所利用的技术，从文档中选择作为概要的页面也会变化。

以下将参考图2至图5c来详细描述概要生成模块122如何生成文档152的摘要162。图2示出了根据本公开的一些实现的用于文档概要生成的概要生成模块122。如图所示，概要生成模块122包括特征提取模块210、重要度确定模块220和概要选择模块230。

特征提取模块210被配置为接收包括多个页面102的文档152。特征提取模块210被配置为提取多个页面的特征信息，每个页面的特征信息表征该页面所包含的至少一种类型的内容。特征提取模块210提取的特征被提供给重要度确定模块220，其被配置为基于所提取的多个特征来确定多个页面102在文档152中的相应重要度。页面的重要度指示该页面是否包含文档152的主要或重要内容。

概要选择模块230被配置为通过基于重要度确定模块220确定的重要度从文档152的多个页面102中选择预定数目的页面(例如，k个页面)，来生成文档的概要。所选择的预定数目的页面小于文档152包括中的页面的数目。假设文档152包括的页面的数目为n(n是大于1的整数)，概要包含的页面的预定数目为k，则k＜n。该预定数目可以由用户或系统预先配置并且对于多个文档是固定的。备选地，该预定数目还可以由动态变化，例如基于所确定的重要度的大小而变化或者基于文档所包括的页面的总数目而变化。例如，可以从文档152中选择重要度大于某个阈值重要度的一个或多个页面用于生成摘要162。又例如，如果文档152包含的页面数目较大，可以确定更大的预定数目，反之亦然。

根据本公开的实现，所生成的概要包含了更少数目的页面，有助于用户快速浏览文档重要内容，以做出下一步决策(例如，浏览全部页面、下载文档、转发文档、将文档用于其他目的等等)。

在一些实现中，文档152可以包括各种格式的文档，诸如演示幻灯片文档、文字处理文档、网页、可打印文档格式(pdf)文档，等等。这些类型的文档可以由对应的应用程序(例如演示应用、文字处理应用、网页浏览应用、pdf阅读器等)来呈现该文档所包含的页面102。页面102可能包括不同类型的内容。例如，演示幻灯片文档的页面通常可以包含精心排布的文本、图像(诸如插入图片、剪贴画、图标、背景图、图表等)、插入的多媒体(诸如视频、音频等)中的任一项的组合。其他格式的文档也可能包括一种或不同类型的内容的组合。例如，在文字处理文档中，除了包含纯文本的页面之外，有的页面也可能包括文字与图片、图形、图表的组合，用于丰富页面的内容呈现。

通常，在一个文档中，页面是否重要与页面所包含的内容相关。为了从多个页面中标识出重要的页面，可以通过特征提取的方式来确定每个页面的特征信息，用以表征该页面所包含的内容。所提取的特征信息可以用于衡量每个页面在文档中是否重要。在一些实现中，特征提取模块210可以被配置为基于每个页面102包含的内容类型不同来提取该页面的不同特征信息。

在一个实现中，如果确定页面102所包含的内容包括文本，文本的语义和文本本身的长度可以用于表征页面102的内容。因此，特征提取模块210可以被配置为提取页面102的文本相关特征信息，包括文本的语义特征和指示文本包括的词语数目的特征信息中的一项或多项。图3示出了一个页面102的示例，在该示例中，页面102包括文本310，包括文本形式的标题和文本形式的正文。特征提取模块210可以被配置为提取文本310的语义特征以及文本310包括的词语的数目。

在一个实现中，如果确定页面102所包含的一幅或多幅图像，图像在页面中的位置、图像占据页面的面积(与图像的大小和数目相关)、以及图像包含的图像内容的特征可以用于表征页面102的内容。因此，特征提取模块210可以被配置为提取页面102的图像相关特征信息，包括图像的特征图、指示图像在该页面中占据的面积的特征信息和指示图像在该页面中的位置的特征信息中的一项或多项。例如，在图3的示例中，页面102包括图像部分320，其中包括多个两幅图像。特征提取模块210可以被配置为提取这些图像的特征图，提取这些图像在页面中占据的总面积和/或每幅图像的面积(可以由图像的长度、宽度指示)，和/或提取这些图像在页面102中的相应位置(例如由二维坐标来指示)。

在一些实现中，页面102可能包含多种类型的内容或者同一类型的多个内容部分的混合，这些内容或内容部分可能以某种特殊方式被布置在页面102中(这特别可能体现在演示幻灯片或网页中)。为了探索不同内容或内容部分的组织所包含的特征信息，可以将页面102转换为图像，并且由特征提取模块210提取转换后的图像的特征图以作为该页面102的混合特征信息。在图3的示例中，可以将页面102整体视为一幅图像，由特征提取模块210提取该图像的特征图。

为页面102提取的不同特征信息(例如文本相关特征信息、图像相关特征信息和/或混合特征信息)可以被组合为页面102的总体特征信息，以用于由重要度确定模块220确定该页面的重要度。应当理解，也可以提取页面102的其他类型的特征信息。

在一些实现中，特征信息的提取和重要度的度量可以基于神经网络来实现。一般而言，神经网络被构造为包括一个或多个网络层，每个网络层包括一个或多个神经元。每个神经元根据训练获得的参数来处理输入，并产生输出。前一层的输出传递到下一层作为输入，以供进一步处理。神经网络的所有神经元的参数组成神经网络的参数集。当神经网络的参数集被确定时，神经网络可以被运行以执行相应功能。在本文中，神经网络也可以被称为“学习网络”或“神经网络模型”。在下文中，术语“学习网络”、“神经网络”、“神经网络模型”、“模型”和“网络”可替换地使用。

图4示出了根据本公开的一个实现的基于神经网络400的特征提取和重要度确定的示例。神经网络400用于对文档152中的每个页面102进行处理。如图3所示，神经网络400包括多个子网络412、414和416，用于实现特征提取模块220，这些神经子网络分别用于每个页面102的文本相关特征信息、图像相关特征信息和混合特征信息。

在一些实现中，在页面102包含的内容包括文本时，子网络412可以被配置为提取文本的语义特征和/或指示文本包括的词语的数目的特征信息以作为页面102的文本相关特征信息。在提取语义特征时，子网络412可以采用多种自然语言处理方法来实现文本的语义特征提取。在一些实现中，子网络412可以提取文本的每个词语的向量化表示，并且将全部词语的向量化表示组合为文本的语义特征。词语的向量化表示也可以被称为词语的向量编码。词语的向量化表示可以由一定维度的多个数值组成。不同词语的向量化表示的维度可以相同，但其中包含的数值不同。词语的向量化表示之间的相似度还可以指示不同词语之间的语义相似度。也就是说，相似的词语的向量化表示之间的差异较低，而完全不相关的词语的向量化表示之间的差异较高。

在一些实现中，词语的向量化表示例如可以从包含预先训练的词语向量化表示的库中选择，这样的词向量化表示的库可以包括诸如不同词语的glove向量、word2vec向量、fasttext向量等等。在另外一些实现中，可以利用多个文档包含的不同词语对子网络412进行训练，以使得子网络412能够为每个词语确定相应的向量化表示，用于指示这些词语之间的语义相似度。

在一些实现中，页面102的文本包括的全部词语提取为词语序列。对于页面102的文本中没有视觉呈现的符号、诸如换行符号，可以替换为特殊令牌，并且被包括在词语序列中，以便于表示文本中不同行之间的间隔。由于页面102的文本可能包含较多词语，并且不同页面102的文本所包含的词语的数目可能不同，为了使不同页面的文本的语义特征之间具有可比性，可以对词语的向量化表示进行降维处理，并且可以跨不同词语对向量化表示进行平均。具体地，假设表示页面102的文本的词语序列为s＝(w1,w2,…,wn)，其中n是序列s的长度，表示该序列中的词语(包括替换的特殊令牌)的数目。假设wei表示第i个词语的词向量表示，并且wi表示第i个词语的词向量表示用于降维的一次热向量(onehotvector)。页面102的文本的语义特征(被表示为s)可以被表示如下文本中的不同词语的向量化表示之间的平均，这可以被表示为：

在一些实现中，子网络412还可以被配置为提取指示页面102的文本包括的词语的数目的特征信息。例如，子网络412可以将页面102的文本所包括的词语的数目n映射成一个向量化表示wl。子网络412可以将页面102的文本的向量化表示和文本所包括的词语的数目的向量化表示级联，以作为页面102的文本相关特征信息(被表示为v)，这例如可以被表示为：

继续参考图3，在页面102包含的内容包括图像时，子网络414可以被配置为提取每个页面102的图像相关特征信息，诸如以上提及的图像的特征图、指示图像在该页面中占据的面积的特征信息和指示图像在该页面中的位置的特征信息。在提取图像的特征图时，子网络414可以包括各种用于图像处理的神经网络层，用于从图像中提取表征图像的各个方面(诸如图像颜色、纹理、轮廓、边缘等等)的特征信息。例如，子网络414可以包括在图像处理领域表现出色的卷积神经网络(cnn)、长短期记忆(lstm)神经网络等。在一些实现中，子网络414可以将页面102中的每幅图像的面积(或总图像面积)映射成一个向量化表示，或者可以将每幅图像在页面102中的位置(例如由页面102的中心像素的二维坐标)映射成一个向量化表示。图像的特征图、面积和/或位置相关的特征信息可以被级联为页面102的图像相关特征信息。

进一步地，子网络416被配置为在将页面102转换为图像的情况下提取图像的特征图以作为页面102的混合特征信息。在一些实现中，无论子网络416包含的内容包括文本、图像、其他类型的内容或者它们的混合，子网络416均可以提取页面102的混合特征信息。在提取页面102的整体图像的特征图的方法可以与提取页面102所包含的图像的特征图类似。例如，子网络416可以包括cnn、lstm等神经网络用于提取特征图。在一些实现中，子网络414可以仅提取页面102所包含的图像的面积和/或位置相关的特征信息，并且由子网络416提取整个页面102的特征图。

在一些实现中，为了提取图像的特征图，子网络414和/或416可以采用预先训练的用于图像处理的神经网络中执行特征图像的网络部分。例如，可以采用预先已被训练用于图像分类任务的神经网络中执行特征提取的网络层作为子网络414或416。

由子网络412、414和/或416提取的特征信息可以被级联并且被提供给重要度确定模块220。重要度确定模块220可以包括一个或多个网络层422，用于进一步处理级联后的各类特征信息。网络层422包括例如可以包括全连层。通常，全连层包括具有线性整流函数(relu)的激活神经元。在一些示例中，网络层422具有丢弃(drop)功能，即在处理过程中网络层422按照一定概率暂时丢弃一些神经元(即使这些神经元不进行处理)。重要度确定模块220还包括回归单元424，用于基于处理后的特征信息来确定重要度。回归单元424可以基于各类回归函数将处理后的特征信息映射成重要度。取决于设计的回归函数，特征信息可以被映射到一个标量值以用于指示重要度。

在一些实现中，用于特征提取的子网络412、414和/或416可以采用预先已经被训练用于文本特征提取和图像特征提取的神经网络。为了进一步优化这些子网络的特征提取，在一些实现中，预先训练的子网络412、414和/或416还可以与用于重要度确定的网络层422、424一起训练，以进一步优化这些子网络和网络层的参数，使它们可以一起合作来实现重要度确定的目的。当然，子网络412、414和/或416也可以被初始化为随机值并且与网络层422、424一起训练。

在训练过程中，可以用于一个或多个训练文档来使得特征提取模块210和重要度确定模块220中的神经网络能够学习到特征提取和重要度确定的能力。每个训练文档可以包括多个训练页面，这些训练页面中的预定数目的训练页面被标注为训练文档的概要。在这样的真值信息的监督下，提取模块210和重要度确定模块220中的神经网络的参数可以不断被调整，直到满足优化目标。

作为训练文档的概要，预定数目的训练页面可以基于多种方式被标注。一种可能的方式是与每个训练页面是否用作对应训练文档的概要相关的人工标注，即人工阅览文档并且标注每个训练页面对于训练文档是否重要、重要的程度或者是否可作为文档的概要。为了降低人工标注的昂贵成本，在一个实现中，可以自动标注每个训练页面是否可以作为训练文档的概要。通常，如果一个页面对于文档来说较为重要，那么在整个文档的呈现过程中该页面被呈现的时间将会更长。例如，在演示幻灯片文档中，如果一张幻灯片较为重要，演讲者将会花费更长时间来解说该幻灯片，因此该幻灯片被呈现的时间会更长。在用户浏览演示幻灯片文档、文字处理文档、网页等文档时，用户也可能会在感兴趣的重要页面上停留更长时间才会切换到下一个页面。

因此，为了获得训练文档的概要，可以基于在训练文档的呈现期间每个训练页面被呈现的持续时间来确定是否将该训练页面标注作为概要。例如，对于每个训练文档，可以将该文档中被呈现的持续时间较高的预定数目的文档标注为训练文档的概要。

在另外一些实现中，对于某些类型的文档，诸如演示幻灯片文档，文档中可能包含一些备注信息。这些备注信息是在文档编辑过程中用于进一步解释页面内容的信息。如果存在这样的信息，可以认为该页面较为重要，需要更多信息的解释。因此，在确定训练页面是否可以被标识为概要时，还可以基于该页面是否包含任何备注信息来确定。在一些实现中，训练页面中的备注信息的存在可以和训练页面被呈现的持续时间结合起来用于确定该页面是否可以被标注为训练文档的概要。

以上讨论了如何提取每个页面102的特征信息以及如何基于特征信息来确定重要度。如以上提及的，在文档152的全部页面102的相应重要度被确定后，摘要选择模块230基于重要度来选择预定数目的页面，并且然后从所选择的页面生成文档152的摘要162。具体地，摘要选择模块230可以基于重要度来对文档152的页面102进行排序，然后选择排序靠前的预定数目的页面。

在一些实现中，除了基于特征信息确定的重要度之外，摘要选择模块230还可以考虑其他信息来确定一个页面102是否可以被选择用于生成摘要162。在一个实现中，可以确定多个页面102是否包括关注信息。关注信息可以指示文档的重要信息的概率较高的一类信息。

例如，在一系列页面102的开头或结尾部分可能包括关于文档的概述或总结的页面。这样的页面可能包含一些关键词用于指示文档所包括的内容涉及概述性或总结性信息，这类信息可以被认为是关注信息。因此，在一些实现中，摘要选择模块230可以确定页面102是否包括关键词，这类关键词诸如可以是“概述”、“总结”、“overview”、“summary”之类的。关键词的选择可以基于不同语言来设定。在一些实现中，可以仅在页面102包括的文本中的标题部分，例如标题行、章节名等文本部分中确定是否包含关键词。如果某个页面102包括这样的关键词，摘要选择模块230可以直接选择该页面作为摘要162的一部分，而不管该页面的重要度如何。摘要选择模块230还可以在页面102包括关键词的情况下，对该页面的重要度进行调整(例如，通过加权或增加某个值而将重要度调整到指示更高重要度的值)。

在另外一些实现中，如果文档包含对其他内容的引用，诸如对多媒体文件(包括视频、音频、图像文件等)的引用和/或对另一文档的引用，这意味着该页面可能包含的内容需要由引用的扩展信息来进一步解释，因而对于整个文档而言相对较为重要。因此，关注信息还可以包括对多媒体文件和/或另一文档的引用。摘要选择模块230可以确定页面102是否包括对多媒体文件和/或另一文档的引用，并且基于确定的结果来确定是否将该页面选择作为概要162的一部分。例如，如果确定某个页面102包括对多媒体文件和/或另一文档的引用，摘要选择模块230可以直接选择该页面作为摘要162的一部分，而不管该页面的重要度如何。摘要选择模块230还可以在页面102包括对多媒体文件和/或另一文档的引用的情况下，对该页面的重要度进行调整(例如，通过加权或增加某个值而将重要度调整到指示更高重要度的值)。

由摘要选择模块230生成的摘要162可以以各种方式被呈现给用户。例如经由计算设备100的显示器呈现给用户。在一些实现中，在多个页面102的呈现中突出显示所选择的预定数目的页面。以此方式，作为文档的概要的页面可以与其他页面区别显示，因而用户可以从较多数目的页面中快速分辨出这些页面，以便可以选择首先浏览这些页面来获得文档的主要或重要内容。在一些实现中，还可以独立于文档而呈现所选择的预定数目的页面或者与所选择的预定数目的页面对应的预览页面。这有利于在需要文档预览的情况下使用户快速捕捉文档的主要或重要内容。

图5a至图5c示出了根据本公开的一些实现的呈现文档的概要的示例用户界面的示意图。在图5a至图5c的示例中，文档152被图示为演示幻灯片文档。图5a示出了在演示幻灯片应用的用户界面501，用户界面501中在幻灯片浏览“slidesorter”模式下呈现文档152的多个页面102-1至102-9。这些页面中被选择作为文档152的概要的页面102-1、102-3、102-4和102-8被突出显示。

图5b示出了在搜索的场景下的搜索应用的用户界面502。用户界面502显示了通过搜索应用返回与搜索项“deeplearningtutorial”相关的搜索结果，其中一个搜索结果510包括与搜索项“deeplearningtutorial”相关的演示幻灯片文档，该文档包括多个幻灯片。随着搜索结果一起还显示了与演示幻灯片文档的较少数目的页面对应的预览页面512，这些页面是根据本公开的实现选择作为文档的概要的页面。以此方式，用户可以从众多搜索结果中快速结果搜索结果510是否是期望的搜索结果，从而可以决定下一是否点击搜索结果510对应的链接，以进一步浏览文档的全部页面和/或下载该文档。

图5c示出了在邮件收发的场景下邮件收发应用的用户界面503。用户界面503显示了该邮件收发应用接收到的一封电子邮件，该电子邮件包含演示幻灯片文档152作为附件。用户界面503还显示与演示幻灯片文档152的较少数目的页面对应的预览页面512，这些页面是根据本公开的实现选择作为文档的概要的页面。以此方式，浏览电子邮件的用户可以快速确定该邮件所含附件的主要或重要内容，从而确定下一步动作，例如是否进一步查看附件、如何回复电子邮件等等。

图5a至图5c仅示出了文档概要的呈现的一些示例。可以根据实际应用场景的需要，以各种方式显示文档概要。本公开的方式在此方面不受限制。

图6示出了根据本公开一些实现的用于生成文档的概要的过程600的流程图。过程600可以由计算设备100来实现，例如可以被实现在计算设备100的存储器120中的摘要生成模块122处。在框610，计算设备100提取文档所包括的多个页面的特征信息，每个页面的特征信息表征该页面所包含的至少一种类型的内容。在框620，计算设备100至少基于所提取的特征信息来确定多个页面在文档中的相应重要度。在框630，计算设备100通过基于相应重要度从多个页面中选择预定数目的页面，来生成文档的概要，预定数目小于多个页面的数目。

在一些实现中，提取多个页面的特征信息包括：针对每个页面，确定该页面所包含的内容是否包括文本；以及响应于该页面包含的内容包括文本，提取以下至少一项以作为该页面的文本相关特征信息：文本的语义特征和指示文本包括的词语数目的特征信息。

在一些实现中，提取多个页面的特征信息包括：针对每个页面，确定该页面所包含的内容是否包括图像；响应于该页面包含的内容包括图像，提取以下至少一项以作为该页面的图像相关特征信息：图像的特征图、指示图像在该页面中占据的面积的特征信息和指示图像在该页面中的位置的特征信息。

在一些实现中，提取多个页面的特征信息包括：针对每个页面，将该页面转换为图像；以及从图像中提取特征图以作为该页面的混合特征信息。

在一些实现中，从多个页面中选择预定数目的页面还包括：确定多个页面是否包括关注信息，关注信息包括以下至少一项：关键词、对多媒体文件的引用以及对另一文档的引用；以及进一步基于多个页面中的关注信息的存在，从多个页面中选择预定数目的页面。

在一些实现中，提取多个页面的特征信息包括：利用神经网络提取多个页面的特征信息，并且确定多个页面的相应重要度包括：利用神经网络确定多个页面的相应重要度。

在一些实现中，神经网络利用包括多个训练页面的训练文档来训练，多个训练页面中的预定数目的训练页面被标注为训练文档的概要，并且预定数目的训练页面基于以下至少一项而被标注：在训练文档的呈现期间训练页面被呈现的持续时间，训练页面包含的备注信息，以及与训练页面是否用作训练文档的概要相关的人工标注。

在一些实现中，过程600进一步包括：在多个页面的呈现中突出显示所选择的预定数目的页面。

在一些实现中，过程600进一步包括：独立于文档而呈现所选择的预定数目的页面或者与预定数目的页面对应的预览页面。

在一些实现中，文档选自由以下构成的组：演示幻灯片文档、文字处理文档、网页以及可打印文档格式(pdf)文档。

以下列出了本公开的一些示例实现方式。

在一方面，本公开提供了一种计算机实现的方法。该方法包括：提取文档所包括的多个页面的特征信息，每个页面的特征信息表征该页面所包含的至少一种类型的内容；至少基于所提取的特征信息来确定多个页面在文档中的相应重要度；以及通过基于相应重要度从多个页面中选择预定数目的页面，来生成文档的概要，预定数目小于多个页面的数目。

在一些实现中，提取多个页面的特征信息包括：针对每个页面，将该页面转换为图像；以及从图像中提取特征图以作为该页面的混合特征信息。

在一些实现中，方法进一步包括：在多个页面的呈现中突出显示所选择的预定数目的页面。

在一些实现中，方法进一步包括：独立于文档而呈现所选择的预定数目的页面或者与预定数目的页面对应的预览页面。

在一些实现中，文档选自由以下构成的组：演示幻灯片文档、文字处理文档、网页以及可打印文档格式(pdf)文档。

在另一方面，本公开提供了一种电子设备。该电子设备包括：处理单元；以及存储器，耦合至处理单元并且包含存储于其上的指令，指令在由处理单元执行时使设备执行以下动作：提取文档所包括的多个页面的特征信息，每个页面的特征信息表征该页面所包含的至少一种类型的内容；至少基于所提取的特征信息来确定多个页面在文档中的相应重要度；以及通过基于相应重要度从多个页面中选择预定数目的页面，来生成文档的概要，预定数目小于多个页面的数目。

在一些实现中，提取多个页面的特征信息包括：针对每个页面，将该页面转换为图像；以及从图像中提取特征图以作为该页面的混合特征信息。

在一些实现中，提取多个页面的特征信息包括：利用神经网络提取多个页面的特征信息，并且其中确定多个页面的相应重要度包括：利用神经网络确定多个页面的相应重要度。

在一些实现中，动作进一步包括：在多个页面的呈现中突出显示所选择的预定数目的页面。

在一些实现中，动作进一步包括：独立于文档而呈现所选择的预定数目的页面或者与预定数目的页面对应的预览页面。

在一些实现中，文档选自由以下构成的组：演示幻灯片文档、文字处理文档、网页以及可打印文档格式(pdf)文档。

在又一方面，本公开提供了一种计算机程序产品，计算机程序产品被有形地存储在非瞬态计算机存储介质中并且包括机器可执行指令，机器可执行指令在由设备执行时使设备：提取文档所包括的多个页面的特征信息，每个页面的特征信息表征该页面所包含的至少一种类型的内容；至少基于所提取的特征信息来确定多个页面在文档中的相应重要度；以及通过基于相应重要度从多个页面中选择预定数目的页面，来生成文档的概要，预定数目小于多个页面的数目。

在一些实现中，提取多个页面的特征信息包括：针对每个页面，将该页面转换为图像；以及从图像中提取特征图以作为该页面的混合特征信息。

在一些实现中，机器可执行指令在由设备执行时还使设备：在多个页面的呈现中突出显示所选择的预定数目的页面。

在一些实现中，机器可执行指令在由设备执行时还使设备：独立于文档而呈现所选择的预定数目的页面或者与预定数目的页面对应的预览页面。

在一些实现中，文档选自由以下构成的组：演示幻灯片文档、文字处理文档、网页以及可打印文档格式(pdf)文档。

在又一方面，本公开提供了一种计算机可读介质，其上存储有机器可执行指令，机器可执行指令在由设备执行时使设备执行上述方面的方法。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实现的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张星星;黄绍晗;崔磊;葛涛;韦福如;周明
技术所有人：微软技术许可有限责任公司
我是此专利的发明人

上一篇：一种五金加工用钢板双面覆膜装置的制作方法
上一篇：贴合装置及方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。