针对电子书的基于实体的摘要的制作方法

文档序号:13674162阅读:159来源:国知局
技术领域本公开内容总体上涉及电子媒体的领域,并且具体涉及针对电子书的基于实体的摘要。

背景技术:
动作电子书(e-book)的发展已经启用许多特征来增强用户阅读体验。然而,阅读书籍花费时间,例如可能花费读者数周、数月或者甚至数年来完成特定书籍。因此,读者可能忘记关于书内的角色、地点、日期和事件的重要信息。另外,许多读者可能同时阅读多本书,从而使得更难以记住已经阅读的内容。在书中往回搜索以重新阅读这本书的部分可能明显地增加读者在阅读这本书时必须花费的时间量。代替重新阅读这本书的部分,读者可以尝试通过搜索互联网来发现信息。然而,该方法使用户面临发现关于他或她尚未阅读的部分的信息的风险。

技术实现要素:
公开了一种用于呈现电子书(e-book)的基于实体(entity)的摘要的计算机实现的方法。该方法的实施例标识要被概括的电子书并标识在所标识的电子书中引用的多个实体,例如角色、时间和日期。该方法的实施例还包括确定要被概括的电子书的类型并基于所确定的电子书的类型来标识一个或多个外部数据源,其中外部数据源提供关于所标识的电子书中的实体的信息。在接收到针对电子书的基于实体的摘要的请求时,生成描述电子书的、在请求中所指定的范围中引用的所标识的实体的电子书的基于实体的摘要。响应于请求而呈现所生成的基于实体的摘要。另一方面提供了一种用于呈现电子书的基于实体的摘要的客户端设备。客户端设备的一个实施例具有用于执行计算机程序模块的计算机处理器和存储计算机程序模块的非暂态计算机可读存储设备。计算机程序模块可执行以执行包括标识要被概括的电子书和向服务器提供针对电子书的基于实体的摘要的请求的步骤。该请求标识电子书的、在开始点和断点之间的指定范围。服务器适于标识所标识的电子书的文本中引用的多个实体,生成电子书的基于实体的摘要并且向客户的设备提供所生成的基于实体的摘要以用于呈现。另一方面提供一种非暂态计算机可读存储介质,其存储用于呈现电子书的基于实体的摘要的可执行计算机程序指令。计算机可读存储介质存储包括用于标识要被概括的电子书并标识在所标识的电子书中引用的多个实体的指令的计算机程序指令。计算机可读存储介质还存储用于接收针对电子书的基于实体的摘要的请求、生成电子书的基于实体的摘要和响应于请求而呈现所生成的基于实体的摘要的计算机程序指令。在本说明书中描述的特征和优点没有包含全部,具体地,鉴于附图、说明书和权利要求书,许多附加的特征和优点对于本领域普通技术而言将变得显而易见。此外,应当注意,在本说明书中使用的语言已经在原则上出于可读性和指导性的目的而被选择,并且可以不被选择为描绘或限制所公开的主题。附图说明图1是根据一个实施例的用于支持基于实体的摘要的计算环境的高级框图。图2是图示了根据一个实施例的用于用作客户端设备和/或存储服务器的计算机的示例的高级框图。图3是图示了根据一个实施例的摘要子系统的高级框图。图4是图示了根据一个实施例的客户端设备的高级框图。图5是图示了根据一个实施例的用于提供电子书的基于实体的摘要的过程的流程图。具体实施方式各附图(图)和下面的描述仅仅通过图示的方式来描述某些实施例。本领域技术人员从下文描述将容易意识到,可以在不偏离本文中描述的原理的情况下,采用本文中图示的结构和方法的备选实施例。现在将对若干实施例详细进行参考,若干实施例的示例被图示在附图中。应当注意,只要可行,相似或类似的参考标记可以在附图中用于指示相似或类似的功能。系统概述在本公开内容中,“数字内容”一般是指任何机器可读和机器可存储工作产品,例如电子书、视频和音乐文件。下面的讨论关注于电子书。然而,下面描述的技术也可以适用于其他类型的数字内容。图1示出了根据一个实施例的用于支持电子书的基于实体的摘要的计算环境100。计算环境100包括通过网络150连接的存储服务器110、多个客户端设备170和外部数据源160。仅仅在图1中示出了一个存储服务器110、三个客户端设备170和一个外部数据源160以便简化描述并使描述清楚。计算环境100的实施例可以具有连接到网络150的多个存储服务器110、客户端设备170和外部数据源160。类似地,由图1的各个实体执行的功能在不同的实施例中可以是不同的。存储服务器110存储可用于购买、聆听、租借、订阅和/或免费下载的电子书。可以在客户端设备170上查看电子书。在一个实施例中,存储服务器110可以提供用户可以使用客户端设备170浏览以标识并获得电子书和其他数字内容的在线店面。另外,存储服务器110在用户请求时提供电子书的各部分的基于实体的摘要。在一个实施例中,存储服务器110包括摘要子系统120、文献语料库130和摘要语料库140。存储服务器110的其他实施例包括不同的和/或附加的部件。另外,这些功能可以以与本文描述的不同的方式被分布在各部件之中。文献语料库130包括存储针对来自客户端设备170的用户访问可用的数字内容(例如,电子书)的一个或多个数据存储设备。在一个实施例中,数字内容被存储作为文件集合和相关联的元数据。每个文件与特定数字内容(诸如特定电子书)相关联,并且内容的单个单元可以由一个或多个相关联的文件构成。针对文件的元数据描述文件与其相关联的数字内容的属性。在一个实施例中,元数据包括为唯一地标识电子书的字符串的卷标识符(ID)。另外,元数据描述电子书的类型,例如小说、非小说、历史、法律或科学。元数据还可以描述例如与电子书相关的数字内容(例如,源自电子书的电影、电视剧或视频游戏)的标题、作者、出版者、内容的类别、以及其他类型。摘要子系统120生成针对存储在文献语料库130中的电子书的摘要并将摘要存储在摘要语料库140中。响应于针对来自客户端设备170的特定电子书的一部分的摘要的用户请求,摘要子系统120生成和/或选择来自摘要语料库130的、针对该电子书的该部分的已经生成的摘要。所选择的摘要经由网络150被发送到客户端设备170以用于呈现。下面参考图3更详细地描述摘要子系统120。摘要语料库140包括存储文献语料库130中的电子书的摘要的一个或多个数据存储设备。在一个实施例中,电子书的摘要是基于实体的。术语“实体”是指在电子书中描述的对象,例如角色、地点、日期或事件。例如,小说可以具有与小说中的故事的发展相关的多个角色、地点和事件。这样的角色、地点和事件中的每个可以是小说中的实体。实体可以与小说的一个或多个其他实体相互关联。摘要描述从指定开始点到指定断点在实体和电子书之间的关系,指定开始点例如电子书的开始或电子书中由用户选择作为针对摘要的开始点的位置。例如,针对小说中的角色,摘要可以描述从开始点到断点角色相对于小说的情节的活动。在一个实施例中,摘要语料库140存储描述在电子书中引用的实体的数据。即,针对给定电子书,摘要语料库140存储描述涉及该电子书的实体的数据。另外,摘要语料库140存储描述在电子书中引用的实体的位置的数据。在接收到来自用户的、标识电子书的部分的摘要请求时,摘要子系统120与摘要语料库140中的摘要数据交互以生成在请求中所标识的电子书的部分的基于实体的摘要。该部分可以被指定作为在该书中的开始点和断点之间的范围。网络150实现存储服务器110、客户端设备170和外部数据源160之间的通信并且可以包括因特网。在一个实施例中,网络150使用标准通信技术和/或协议。在另一实施例中,代替或除了以上描述的通信技术,实体可以使用定制和/或专用数据通信技术。外部数据源160包括存储文献语料库130中的电子书的外部的信息的一个或多个数据存储设备。在一个实施例中,外部数据源160提供关于文献语料库130中的电子书的实体的信息。例如,外部数据源可以包括描述现实世界实体(例如历史人物)的在线百科全书和描述虚构实体(例如电影和/或小说中的角色)的在线数据库。因此,外部数据源可以包含关于在文献语料库中的电子书中引用的实体的信息。另外,外部数据源可以包含与电子书相关联的信息,例如由给定电子书的作者撰写的其他书的文本和/或描述。客户端设备170是由用户用于执行诸如以下的功能的电子设备:消费包括基于实体的电子书的摘要的数字内容,执行软件应用,浏览由网络150上的网络服务器托管的网站,下载文件,以及与存储服务器110交互。例如,客户端设备170可以是专用的电子阅读器(e-Reader)、智能电话、或平板电脑、笔记本电脑或台式计算机。客户端设备170包括显示设备和/或与显示设备对接,用户在显示设备上可以查看电子书的文本和其他数字内容。另外,客户端设备170提供用户接口(UI)(例如物理按钮和/或屏上按钮),用户可以利用其与客户端设备170交互以执行诸如以下的功能:消费数字内容,选择数字内容,获得数字内容的样本,以及购买数字内容。下面参考图4更详细地描述示例性客户端设备170。在其中本文讨论的系统汇集关于用户的个人信息或者可以利用个人信息的情形中,用户可以被提供具有控制程序或特征是否汇集用户信息(例如,关于用户已经阅读的电子书、用户的社交网络、社交动作或活动、职业、用户的偏好或者用户的当前位置的信息)的机会,或者控制是否和/或如何从存储服务器110接收可能与用户较相关的内容的机会。另外,特定数据可以在其被存储或被使用之前以一种或多种方式来处置,使得个人可标识的信息被移除。例如,用户的身份可以被处置使得不能确定针对用户的个人可标识的信息,或者获得位置信息(例如城市、ZIP代码或国家层面)的用户的地理位置可以被一般化,使得不能确定用户的特定位置。因此,用户可以控制关于用户的信息是如何被存储服务器110收集和使用。计算系统架构图1中示出的实体使用一个或多个计算机来实现。图2是用于用作存储服务器110、外部数据源160和/或客户端设备170的计算机200的高级框图。图示的是耦合到芯片集204的至少一个处理器202。还耦合到芯片集204的是存储器206、存储设备208、键盘210、图形适配器212、指点设备214以及网络适配器216。显示器218耦合到图形适配器212。在一个实施例中,芯片集204的功能由存储器控制器集线器220和I/O控制器集线器222提供。在另一实施例中,存储器206直接耦合到处理器202而非芯片集204。存储设备208是任何非暂态计算机可读存储介质,例如硬盘驱动器、紧凑盘只读存储器(CD-ROM)、DVD或固态存储设备。存储器206保持由处理器202使用的指令和数据。指点设备214可以是鼠标、轨迹球或其他类型的指点设备,并且与键盘210组合使用以将数据输入到计算机系统200中。图形适配器212将图像和其他信息显示在显示器218上。网络适配器216将计算机系统200耦合到网络150。如本领域中已知的,计算机200的一些实施例可以具有与图2中示出的那些部件不同的部件和/或其他部件。另外,计算机200可以缺少某些图示的部件。例如,用作存储服务器110的计算机可以由一起链接到一个或多个分布式系统中的多个刀片服务器构成并且缺少诸如键盘和显示器的部件。此外,存储设备208可以是在计算机200的本地和/或远程(例如被实现在存储区域网络(SAN)内)。如本领域中已知的,计算机200适于运行用于提供本文中描述的功能的计算机程序模块。如本文中所使用的,术语“模块”是指用于提供指定功能的计算机程序逻辑。因此,模块能够被实施在硬件、固件和/或软件中。在一个实施例中,程序模块被存储在存储设备208上、被加载到存储器206中并且由处理器202执行。电子书的基于实体的摘要图3是图示了根据一个实施例的用于支持基于实体的摘要的存储服务器110的摘要子系统120的高级框图。在示出的实施例中,摘要子系统120具有分析模块310、实体提取模块320、摘要生成模块330和呈现模块340。本领域技术人员将意识到摘要子系统120的其他实施例可以具有除了本文描述的那些之外的不同的和/或附加的模块,并且各功能可以以不同的方式被分布在各模块之中。分析模块310标识要被概括的电子书。在一个实施例中,分析模块310在被发送到存储服务器110的、针对摘要的用户请求时标识要被概括的电子书。用户请求包括电子书的标识,例如该电子书的卷ID、标题或国际标准图书编号(ISBN)编号。用户请求还可以包括针对所标识的电子书的开始点和/或断点。分析模块130基于所请求的电子书的标识来搜索存储服务器110的文献语料库130。在另一实施例中,分析模块310在电子书被存储在文献语料库130中时自动地标识要被概括的电子书。分析模块310还确定520要被概括的电子书的类型。在一个实施例中,分析模块310分析与电子书相关联的元数据以将电子书分类成一个或多个类型类别。类别可以是一般的或特定的。例如,分析模块310的实施例可以将电子书分类为术语小说或非小说的一般类别。分析模块310可以之后进一步利用一般类别内的特定类别(例如,推理小说、历史小说、传记)来对电子书进行分类。分析模块310还通过分析电子书的文本来确定电子书的类型。例如,在没有针对书的元数据可获得的情况下,书的文本分析可以被执行以确定其是小说还是非小说。分析模块310还基于电子书的类型来标识针对电子书的一个或多个外部数据源。所标识的外部数据源是可能具有将通知针对电子书的实体标识过程的信息的外部数据源。例如,如果电子书被确定为非小说传记,则分析模块310可以标识可能包含关于传记的对象的信息的一个或多个外部数据源,例如在线百科全书。类似地,如果电子书被确定为科幻小说,则分析模块310可以标识可能包含关于在书中引用的实体、等等)的信息的一个或多个外部数据源,例如,粉丝网站、电影信息网站(在存在基于书的电影的情况下。分析模块310与实体提取模块320和摘要生成模块330交互以用于进一步处理。例如,分析模块可以将电子书的身份、电子书的类型、所标识的外部数据源以及开始点/断点提供到实体提取模块320和摘要生成模块330。实体提取模块320从电子书的文本中提取一个或多个实体。换言之,实体提取模块320标识在电子书的文本中引用的实体。实体提取模块320可以使用包括关键短语提取、文本挖掘、自然语言处理、语义分析、等等的各种技术中的一种或多种技术来从电子书文本中提取实体。实体提取模块320的实施例使用来自所标识的外部数据源的信息来通知实体提取过程。来自外部数据源的信息可以包含在电子书中引用的实体的隐式列表或显式列表。因此,实体提取模块320可以使用外部数据源来引导并改进在电子书上执行的实体提取过程。例如,如果电子书是某人的非小说传记,则外部数据源可以包括描述此人的生平的在线百科全书条目。在线百科全书条目可以包括与此人相关联的实体的显式列表,例如位置、日期和与此人交互的其他人。另外,在线百科全书条目可以包括隐式地标识与此人相关联的实体的标题、标签、链接、等等。在另一示例中,如果电子书是已经制作成电影的小说著作,则外部数据源可以包括到针对电影信息数据库中的电影的条目的链接。电影数据库条目可以包括电影中(并且因此可能在电子书中)的角色的显式列表、到与该电子书相关联的其他电影或书籍的链接、等等。实体提取模块320可以解析或以其他方式解释外部数据源以便标识电子书中的候选实体。实体提取模块320可以然后检查电子书文本以标识在电子书中对这些候选实体的引用,如果有的话。另外,实体提取模块320还可以辨别关于实体的其他信息,例如来自外部数据源中的信息的实体的相对重要性。实体提取模块320存储描述从电子书中提取的实体的数据。针对给定实体,数据可以包括电子书中引用实体的位置、实体的类型的指示(例如,人或位置)、对第一实体与其相关联的其他实体的交叉引用以及电子书中的对该实体特别相关的文本的位置或其他信息。摘要生成模块330使用所提取的实体来生成针对存储在文献语料库130中的电子书的摘要。在一个实施例中,摘要生成模块330基于由请求用户提供的开始点和/或断点来自动地且动态地生成基于实体的摘要。基于实体的摘要描述电子书的在由开始点和断点描绘的文本中的、关于电子书中引用的各个实体的内容。例如,如果接收到的摘要请求标识开始点作为书的开始并且标识断点作为书的文本内的位置,则摘要生成模块330生成从开始到由断点标识的位置的电子书文本的摘要。所生成的摘要由实体组织,并且使用来自仅仅开始点和断点之间的文本的关于实体的信息来描述在电子书中在那两点之间引用的实体。用户可以通过例如阅读由电子书在开始点和断点之间描述的角色和其他实体来恢复他或她对电子书的在那些点之间的内容的回忆。为了生成针对实体的摘要,摘要生成模块330的实施例标识在与实体相关联的开始点和断点之间的电子书文本。摘要生成模块330然后选择用于包括在摘要中的所标识的文本的子集。摘要生成模块330执行对所标识的文本的分析,以向各个文本片段(例如,语句、段落)分配描述由各个文本片段贡献到实体的描述并且贡献到实体与电子书中的其他实体的关系的信息量的权重或分数。例如,高度描述的、描述与其他实体的交互、等等的文本片段可以比缺乏这些特征的文本片段被加权得更重。摘要生成模块330选择针对实体的最高加权的文本片段以用于包括在实体的摘要中。呈现模块340响应于从客户端设备170接收到的请求而呈现电子书的基于实体的摘要。在一个实施例中,用户请求包括特定电子书的标识以及所标识的电子书的开始点和断点。呈现模块340将该信息提供到摘要生成模块330,并且响应于此而接收所请求的摘要。呈现模块340然后将摘要呈现给请求客户端设备170。摘要的特定呈现在不同的实施例中可以是不同的。在一个实施例中,呈现模块340将该摘要呈现为在电子书中的在开始点和断点之间引用的实体的列表。用户可以浏览通过实体的列表并选择它们中的一个或多个。呈现模块340基于电子书中在开始点和断点之间找到的信息来呈现所选择的实体的摘要。所选择的实体的摘要可以包括例如实体的描述以及实体如何与电子书中的其他实体交互、电子书中引用实体的位置、实体的类型的指示(例如人或位置)、在开始点和断点之间的文本内的对与所选择的实体相关联的其他实体的交叉引用以及文本的位置。呈现模块340可以基于实体对电子书和/或对在开始点和断点之间的页面的范围的重要性来对列表中的实体进行排序。该排序可以基于例如在电子书的开始点和断点之间的部分中提到各个实体的频率、关于根据外部数据源160得到的实体的重要性信息和/或相对重要性的其他信号。图4是图示了根据一个实施例的用于向用户呈现电子书和电子书的基于实体的摘要的客户端设备170的高级框图。所示出的客户端设备170包括客户端交互模块410、显示模块420和本地数据存储430。客户端设备170的其他实施例包括不同的和/或附加的模块。另外,这些功能可以以与本文描述的不同的方式被分布在各模块之中。客户端交互模块410处理经由用户输入做出的到客户端设备170中的用户请求。一种类型的用户请求是针对特定电子书的请求。在接收到针对特定电子书的用户请求时,客户端交互模块410在本地数据存储430处搜索所请求的电子书。如果在本地数据存储430中存在电子书的副本(例如,从GOOGLEPLAYSTORETM购买的),则客户端交互模块410指示显示模块420检索所请求的电子书的至少一部分并将其呈现给用户。响应于在本地数据存储430中没有存储所请求的电子书的副本,客户端交互模块410可以指示显示模块420经由网络150访问存储在文献语料库130中的电子书的远程副本。客户端交互模块410还接收针对被显示在用户的客户端设备170上的电子书的基于实体的摘要的用户请求。例如,客户端交互模块410可以检测用户何时与用户界面交互以请求电子书的摘要。客户端交互模块410将具有指定开始点和断点的用户请求发送到存储服务器110。客户端交互模块410可以从用户与该书的先前交互中推测开始点和断点。例如,模块410可以推测开始点是电子书的开始并且断点是由用户在电子书中阅读的最远位置。断点可以是在电子书的结束之前的位置,并且由开始点和断点限定的书的范围因此是电子书的文本的子集。另外,开始点和断点可以显式地由用户指定。显示模块420从存储服务器110接收基于实体的电子书摘要并将电子书摘要显示或以呈现给客户端设备170的用户。显示模块420还可以呈现电子书的文本和/或与电子书相关联的其他信息。例如,显示模块420可以显示在电子书的所标识的部分中引用的实体的摘要,同时显示在其上引用实体的电子书文本的页面。示例性方法图5是图示了根据一个实施例的用于提供电子书的基于实体的摘要的过程的流程图。图5将过程的步骤归属于摘要子系统120。然而,步骤中的一些或全部可以由其他实体执行。另外,一些实施例可以并行地执行步骤、以不同顺序执行步骤、或者执行不同的步骤。首先,摘要子系统120标识510要被概括的电子书。如先前参考图3所描述的,摘要子系统120可以在接收到针对摘要的用户请求时标识要被概括的电子书。摘要子系统120还可以在另一事件的发生(例如电子书被添加到文献语料库130或者摘要过程在语料库中的多个电子书时被启动)时标识要被概括的电子书。摘要子系统120确定520要被概括的电子书的类型。基于与电子书相关联的元数据,摘要子系统120将电子书分类成一个或多个一般类型类别,例如小说或非小说。摘要子系统120还可以利用一般类别内的特定类别(例如,推理小说、历史小说)来对电子书进行分类。备选地,摘要子系统120通过分析电子书的文本来确定电子书的类型。摘要子系统120还基于电子书的类型来标识530一个或多个外部数据源。所标识的外部数据源是可能具有帮助摘要子系统120标识在电子书中引用的实体的信息的外部数据源。摘要子系统120标识540在电子书的文本中引用的实体并提取关于这些实体的信息。摘要子系统120可以使用各种技术中的一种或多种技术来标识电子书文本中的实体,包括使用来自与电子书相关联的所标识的外部数据源160的信息。在步骤550处,摘要子系统120接收针对电子书的一部分的摘要的用户请求。用户请求标识电子书的针对其请求摘要的范围。该范围由开始点和断点限定,开始点和断点例如电子书的开始和用户已经阅读到的最远点。在一个实施例中,摘要子系统120动态地生成560电子书的针对在用户请求中指定的范围的基于实体的摘要。该摘要描述在电子书的指定范围中引用的所标识的实体。摘要子系统120将基于实体的摘要呈现570给请求用户。用户可以使用基于实体的摘要来恢复他或她对电子书的内容的回忆,而没有发现他或她尚未阅读的部分的信息的风险。包含以上描述以说明优选实施例的操作并且不旨在限制本发明的范围。本发明的范围应仅受所附的权利要求书限制。从以上讨论,将由本发明的精神和范围涵盖的许多变型对于相关领域技术人员而言将是显而易见的。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1