数字图形小说的计算机辅助导航的制作方法

文档序号：13342629阅读：139来源：国知局

这里所述的主题通常涉及数字图形小说，并且尤其是涉及提供对数字图形小说内容的自动或半自动导航。

背景技术：

电子书(“ebooks”)开始以诸如国际数字出版论坛的电子出版物(epub)标准和便携式文件格式(pdf)这样的各种格式出现。可利用诸如专用阅读设备、通用移动设备、平板计算机、笔记本计算机、以及台式计算机这样的各种设备来阅读电子书。每个设备包括用于向用户显示电子书的阅读软件(“电子阅读器(ereader)”)。

图形小说是传统上通过印刷媒体所传递的一种视觉叙述形式。然而，发布者越来越多地使用电子阅读器来提供这种内容，特别是在手机和平板电脑上。典型的电子阅读器提供的导航工具主要是考虑利用基于文本的电子书而开发的。因此，这些电子阅读器在用于阅读数字图形小说时可能无法提供令人满意的用户体验。

技术实现要素：

上述和其它问题由一种方法、电子设备、以及非暂时性计算机可读存储介质来解决。在一个实施例中，该方法包括接收数字图形小说内容并且通过应用机器学习模型来预测数字图形小说内容的特征。所预测的特征包括多个版面的位置以及多个版面的阅读顺序。该方法还包括创建包括数字图形小说内容和呈现元数据的封装数字图形小说。呈现元数据指示出基于多个版面的位置和阅读顺序应呈现数字图形小说内容的方式。该方法进一步包括向阅读设备提供封装的数字图形小说以根据在呈现元数据中所指示出的方式来呈现数字图形小说内容。

在一个实施例中，电子设备包括用于存储可执行计算机程序代码的非暂时性计算机可读存储介质以及用于执行该代码的一个或多个处理器。可执行计算机程序代码包括用于接收数字图形小说内容并通过应用机器学习模型来预测数字图形小说内容的特征的指令。所预测的特征包括多个版面的位置以及多个版面的阅读顺序。该代码还包括用于创建包括数字图形小说内容和呈现元数据的封装数字图形小说的指令。呈现元数据指示出基于多个版面的位置和阅读顺序应呈现数字图形小说内容的方式。该代码进一步包括用于向阅读设备提供封装的数字图形小说以根据在呈现元数据中所指示出的方式来呈现数字图形小说内容的指令。

在一个实施例中，非暂时性计算机可读存储介质存储下述可执行计算机程序代码，该可执行计算机程序代码包括用于接收数字图形小说内容并通过应用机器学习模型来预测数字图形小说内容的特征的指令。所预测的特征包括多个版面的位置以及多个版面的阅读顺序。该代码还包括用于创建包括数字图形小说内容和呈现元数据的封装数字图形小说的指令。呈现元数据指示出基于多个版面的位置和阅读顺序应呈现数字图形小说内容的方式。该代码进一步包括用于向所述阅读设备提供封装的数字图形小说以根据在呈现元数据中所指示出的方式来呈现数字图形小说内容的指令。

附图说明

图1是用于对根据一个实施例的适于向图形小说提供计算机辅助导航的联网计算环境进行说明的高级方框图。

图2是用于对根据一个实施例的在图1的联网计算环境中使用的计算机的示例进行说明的高级方框图。

图3是用于对图1所示的图形小说语料库的一个实施例进行说明的高级方框图。

图4是用于对图1所示的图形小说分析系统的一个实施例进行说明的高级方框图。

图5是用于对图1所示的图形小说分发系统的一个实施例进行说明的高级方框图。

图6是用于对图1所示的阅读器设备的一个实施例进行说明的高级方框图。

图7是用于对根据一个实施例的用于在数字图形小说内提供计算机辅助导航的方法进行说明的流程图。

图8是用于对根据一个实施例的用于构建在图7的方法中使用的预测模型的方法进行说明的流程图。

图9是用于对根据一个实施例的用于基于反馈来确认预测的方法进行说明的流程图。

具体实施方式

发布者正在增加以数字形式可得到的图形小说内容的数量。还存在可追溯到十九世纪的图形小说、漫画、以及连环画的大量印刷语料库。有些历史学家甚至争论诸如罗马图拉真圆柱和贝叶挂毯这样的古代文明所产生的艺术作品本质上是相同的艺术形式。为方便起见，术语“图形小说”在这里用于指包括具有叙述流的一系列有序图像的任何这样的内容。

阅读图形小说不同于阅读基于文本的书籍。并非主要通过以区域特定阅读顺序所阅读的文本(例如在讲英语的国家从左到右和从上到下)来讲故事，图形小说的叙述是通过有序图像(也称为版面(panel))和讲话气泡的组合来传达的。在一些情况下，讲话气泡与多个版面相重叠。此外，在一些情况下(例如许多日语图形小说)，从右到左阅读文本。因此，在电子设备上有效地显示图形小说提出了具体挑战：屏幕尺寸变化；为基于文本的书籍所开发的导航技术不能反映出用户如何阅读图形小说；阅读版面和讲话气泡的顺序可能不是从左到右或从上到下；相对于其它图像而言给定图像的场境可能很重要等等。

系统概述

附图(图)和以下描述仅通过说明的方式来描述某些实施例。本领域普通技术人员将容易地从以下描述认识到在不脱离这里所述的原理的情况下可以采用这里所说明的结构和方法的替代实施例。现在将参考若干实施例，其示例则是在附图中说明的。应当注意的是只要可行则可以在附图中使用相似或相同的参考数字，并且这些参考数字可以指示相似或相同的功能。

图1说明了适于向数字图形小说提供计算机辅助导航的联网计算环境100的一个实施例。如所示的，环境100包括全部经由网络170相连的图形小说语料库110、图形小说分析系统120、图形小说分发系统130、以及阅读器设备180。联网计算环境100的其它实施例包括不同的或附加的组件。另外，功能可以以与这里所述不同的方式分布在这些组件当中。

图形小说语料库110存储图形小说的数字表示。该数字表示可使用诸如epub或pdf这样的任何适当的格式。在各种实施例中，数字表示是由发布者和作者预先制作提供的、通过扫描现有印刷的图形小说而创建的、或者利用这些技术的组合而编译的。下面参考图3对图形小说语料库110进行详细描述。

图形小说分析系统120应用机器学习技术以构建和应用用于识别数字图形小说内的特征的模型。在一个实施例中，该特征包括版面和讲话气泡的位置以及预期的阅读顺序。在其它实施例中，特征附加地或替代地包括：描绘的角色、描绘的对象(例如门、武器等)、事件(例如情节、角色间关系等)、情绪、一个版面与下一版面之间的期望的视觉转换(例如平移、缩小、以及放大等等)、描绘的天气、流派、从右到左(rtl)阅读、广告等等。在一些情况中，对数字图形小说的某些特征的识别用于协助识别其它特征。例如，在一个实施例中，如果图形小说分析系统120确定出特定数字图形小说具有rtl阅读，则这是用来改善对版面顺序(其还可能从右到左)的识别。这些特征中的许多与图形小说不同。例如，基于文本的书籍具有作者，但没有艺术家，并且识别在图形小说内容的图像中所描绘的角色或对象与识别文本中的相同东西是非常不同的。类似地，基于文本的书籍的页面是从左到右并且从上到下阅读，而图形小说典型地每页包含按顺序阅读的若干版面，并且每个版面包含若干讲话气泡，其中预期的阅读顺序需要读者注意在页面跳来跳去。下面参考图4对图形小说分析系统120进行详细地描述。

图形小说分发系统130创建下述封装的数字图形小说，该封装的数字图形小说包括来自语料库110的图形小说内容以及用于指示出应如何呈现图形小说内容的呈现元数据。在一个实施例中，呈现元数据包括所识别的特征、所识别的特征位置、以及由图形小说分析系统120所输出的版面/讲话气泡的预期阅读顺序。因为呈现元数据识别特征，因此可将不同阅读器设备180配置成以不同的方式呈现数字图形小说。例如，一个阅读器设备180可以按顺序整体呈现每个版面并且在预定时间(例如10秒)之后转换，而另一个可以响应于用户输入(例如敲击屏幕)而从一个讲话气泡平移到下一个。在另一实施例中，图形小说分发系统130对图形小说分析系统120的输出进行处理以确定推荐的呈现方式。在该实施例中，呈现元数据包括呈现指令的有序列表(例如全屏显示版面1，此后平移至版面2并对讲话气泡1进行放大，此后缩小以全屏显示版面2，此后对讲话气泡2进行放大等等)。在其它实施例中，呈现元数据指示出呈现的附加或不同方式，诸如版面之间的转换、包括的声音效果、作为弹出窗口而不是内嵌呈现的广告等等。下面参考图5对图形小说分发系统130进行详细地描述。

阅读器设备180可是诸如台式pc、笔记本电脑、智能电话、平板电脑、专用阅读设备等这样的能够向用户呈现数字图形小说的任何计算设备。虽然仅示出了三个阅读器设备180，但是在实施中存在可利用网络170与环境100的其它组件进行通信的许多(例如数百万)阅读器设备180。在一个实施例中，客户端设备180接收来自图形小说分发系统130的封装的数字图形小说并且根据所包含的呈现元数据将其呈现给用户。下面参考图6对示例性阅读器设备180进行详细地描述。

网络170使得联网计算环境100的组件能够彼此进行通信。在一个实施例中，网络170使用标准通信技术和/或协议并且可包括因特网。因而，网络170可包括利用诸如以太网、802.11、全球互联互通微波接入(wimax)、2g/3g/4g移动通信协议、数字订户线路(dsl)、异步传输模式(atm)、infiniband、pciexpress高级交换等这样的技术的链路。类似地，在网络170上所使用的联网协议可包括多协议标签交换(mpls)、传输控制协议/因特网协议(tcp/ip)、用户数据报协议(udp)、超文本传输协议(http)、简单邮件传输协议(smtp)、文件传输协议(ftp)等。可利用包括二进制形式的图像数据的技术和/或格式(例如便携式网络图形(png))、超文本标记语言(html)、可扩展标记语言(xml)等)来表示在网络110上交换的数据。另外，可利用诸如安全套接字层(ssl)、传输层安全(tls)、虚拟专用网络(vpn)、互联网协议安全(ipsec)等这样的传统加密技术来对所有或一些链路进行加密。在另一实施例中，代替或者除了如上所述的那些，网络170上的实体还可使用定制的和/或专用的数据通信技术。

图2是用于对适于在联网计算环境100中使用的计算机200的一个实施例进行说明的高级方框图。说明了至少一个处理器202与芯片集204相耦合。芯片集204包括存储器控制器集线器250以及输入/输出(i/o)控制器集线器255。存储器206和图形适配器213与存储器控制器集线器250相耦合，并且显示设备218与图形适配器213相耦合。存储设备208、键盘210、指向设备214、以及网络适配器216与i/o控制器集线器255相耦合。计算机200的其它实施例具有不同架构。例如，在一些实施例中，存储器206与处理器202直接耦合。

存储设备208包括诸如硬盘驱动、高密度磁盘只读存储器(cd-rom)、dvd、或固态存储器设备这样的一个或多个非暂时性计算机可读存储介质。存储器206保持由处理器202所使用的指令和数据。指向设备214与键盘210相组合地使用以将数据输入到计算机系统200之中。图形适配器213在显示设备218上显示图像和其它信息。在一些实施例中，显示设备218包括能够用于接收用户输入和选择的触摸屏。网络适配器216使计算机系统200与网络110相耦合。计算机200的一些实施例具有与图2中所示不同的组件或额外的组件。例如，图形小说分析系统120可是由一起操作的多个计算机200形成的以提供这里所述的功能。作为另一示例，客户端设备180可是智能电话并且包括用于提供屏幕上键盘210和指向设备214的功能的触摸屏。

计算机200适于执行用于提供这里所述的功能的计算机程序模块。如这里所使用的，术语“模块”是指用于提供指定功能的计算机程序指令或其它逻辑。因而，模块可以以硬件、固件、或软件、或其组合来实现。在一个实施例中，由可执行计算机程序指令形成的程序模块存储在存储设备208上，加载到存储器506中，并由处理器502执行。

示例性系统

图3说明了图形小说语料库110的一个实施例。如图所示，图形小说语料库110包括图形小说内容310和发布者元数据320。图形小说语料库110的其它实施例包括不同的或附加的组件。例如，虽然图形小说内容310和发布者元数据320被示为不同的实体，但是单个数据存储可以用于内容和元数据这两者。

图形小说内容310包括语料库110中的图形小说的页面的图像，并被存储在一个或多个非暂时性计算机可读存储介质上。如前所述，图形小说内容310可由发布者和作者直接提供或者通过扫描现有印刷图形小说而获得。在一个实施例中，图形小说内容310包括完整图形小说的pdf文档，其中pdf的每页包括图形小说的页面的图像。或者，pdf的每页可以包括比图形小说中的页面更多或更少，诸如单版面或两页扩展。在另一实施例中，将图形小说内容310存储为固定布局epub文件。本领域技术人员将清楚可存储图形小说内容310的其它格式。

发布者元数据320是图形小说发布者或作者所提供的元数据，该元数据包括诸如标题、出版日期、作者、发布者、系列、主要角色等这样的与图形小说有关的信息。在图形小说内容320是通过扫描现有的印刷图形小说而生成的实施例中，可能不存在发布者元数据。或者，扫描印刷图形小说的个体或实体可提供发布者元数据320(例如作为扫描过程的一部分通过将它键入到电子表格之中)。

图4说明了图形小说分析系统120的一个实施例。如图所示，图形小说分析系统120包括训练模块410、预测模块420、确认模块430、以及预测模型存储440。图形小说分析系统120的其它实施例包括不同的或附加的组件。此外，功能可以以与这里所述的不同方式而分布在组件当中。例如，图形小说分析系统120可能不包括预测模型存储440，而是将预测模型存储在图形小说语料库110中。作为另一示例，在使用源自群体的(crowd-sourced)反馈的实施例中，归于确认模块430的功能中的一些或全部可以由用户设备180的反馈模块620提供。

训练模块410从图形小说的训练集合构建机器学习模型。当应用于数字图形小说内容时，该模型预测包含在其中的特征。在一个实施例中，训练模块410随机地从语料库110中选择数字图形小说的子集以用作训练集合。在其它实施例中，子集基于发布者元数据320。例如，训练模块410可以选择该子集以包括一个或多个特征(例如艺术家、发布者、角色等)的值的范围以提高初始模型将准确识别未知图形小说中的那些特征的概率。在一个这样的实施例中，发布者元数据用于识别即就是图形小说的数字出版物，识别出受欢迎的那些图形小说集合(例如基于下载次数)，并且基于它们是否包括从右到左的阅读而将该集合分成两个群组(例如基于发布者元数据)，并且通过从每个群组中随机选择一些图形小说来填充该子集。在进一步的实施例中，手动选择训练集合并将其提供给训练模块410。在又一实施例，训练数据源自参与用户的群体，并且因而训练集合是来自参与用户选择阅读的语料库110的那些数字图形小说。

训练模块410准备在监督训练阶段中使用的训练集合。在一个实施例中，训练模块410从训练集中的数字图形小说提取原始图像(例如与各个页面相对应)。在其它实施例中，训练模块410执行图像处理。在一个这样的实施例中，训练模块410确定每个原始图像的尺寸并且应用调整大小操作以使得训练集合中的每个图像具有均匀大小。训练模块410还确定图像是否倾斜(例如由于在扫描期间的错误)并且根据需要应用倾斜校正。在其它实施例中，将诸如应用自动对比功能、归一化为均匀的平均亮度、执行自动色彩平衡等这样的附加的或不同的图像处理应用于原始图像。

然而准备训练集合，训练模块410使用它来构建初始特征识别模型。在一个实施例集合中，训练模块410在监督训练阶段中构建初始模型。在一个这样的实施例中，向人工操作者示出图形小说页面的图像并提示人工操作者以指示出版面和讲话气泡的位置和顺序。例如，操作者可以按顺序利用指向设备来跟踪每个版面的周边，选择按钮以移动到讲话气泡上，并依次跟踪每个讲话气泡的周边。在另一实施例中，还要求操作者从封闭集合中选择包含在图像中的其它特征(例如可能被描绘的角色列表)。在进一步的实施例中，操作者可利用自由形式的文本来提供标签。在又一实施例中(例如在使用群体源的情况下)，操作者仅阅读数字图形小说，就像他们使用传统阅读器一样。操作者利用诸如滚动、缩放、以及翻页等这样的导航命令来阅读图形小说，并且训练模块410记录由操作者所发出的导航命令。通过汇总多个操作者在阅读相同图形小说的同时所做出的导航选择，训练模块410可构建用于未来读者将更喜欢如何呈现内容的预测模型。与所使用的精确方法无关，结果是与用于指示出所识别的特征的元数据配对的一系列图像。

在一个实施例中，模型所识别的特征包括图形小说内容的显示如何在版面之间或版面之内转换。根据数字图形小说内容的性质，诸如立即从一个版面切换到下一版面、从一个版面交叉渐变到另一个版面、从一个版面平移到另一个版面、在版面内的讲话气泡之间平移、对感兴趣的特征(例如讲话气泡)放大或缩小等等这样的各种转换可能是适当的。例如，如果版面仅包括用于设置场景的全景图而不包括对话，则对其全屏显示可能是适当的。相比之下，可以通过初始显示整个版面并且此后对第一讲话气泡进行放大、平移到第二讲话气泡、并且此后第三个等等来呈现包括对话的版面。作为另一示例，如果在画格中描绘的情绪是充满紧张的动作，则转换可能涉及到使所显示的视图“摇动”或使阅读器设备180振动。

在另一实施例集合中，初始模型的一些或全部是由发布者元数据构建的。在一个这样的实施例中，训练集合包括下述数字图形小说，该数字图形小说已包括诸如描绘的角色、作者、艺术家等这样的用于识别某些特征的发布者元数据。因而，训练模块410可由发布者元数据构建模型，该模型可应用于不包括诸如通过扫描印刷图形小说所产生的那些这样的用于识别感兴趣的特征的发布者元数据的数字图形小说。

训练模块410从一系列图像和成对元数据构建初始模型。在一些实施例中，该模型是由一层或多层中的节点集合所构成的人工神经网络。每个节点被配置为预测给定特征是否存在于输入图像中，其中每层中的节点与比先前层中的节点更低级别的抽象相对应。例如，第一层中的节点可以确定输入图像是对应于一页还是两页，第二层中的节点可能会识别每个页面中的版面，并且第三层中的节点可能会识别每个版面中的讲话气泡。类似地，第一层节点可以确定角色的存在，第二层节点可以确定角色的身份，并且第三层节点可以确定该角色的特定时代(例如在角色弧线中特别重要的事件之前或之后)。在一个实施例中，发布者元数据还可用在构建模型过程中。例如，特定英雄的存在使得这个英雄的复仇者更有可能出现，而不是通常在不同发布者的图形小说中所看到的不同坏人。在其它实施例中，使用诸如图形模型这样的其它类型的模型。本领域技术人员可以认识到可以从一系列图像和配对元数据构建其它类型的模型来预测其它图像的特征。

在一个实施例中，训练模块410利用两个阶段过程来构建初始模型。在第一阶段中，输入图像通过下述神经网络，所述神经网络用于识别图像中作为包括感兴趣特征的候选的固定数量(例如100个)的区域。在第二阶段中，所识别的区域通过第二神经网络，该第二神经网络用于生成对感兴趣特征的身份的预测以及该预测是正确的对应概率。训练模块410此后计算将预测特征集合变换成输入图像的人类识别特征集合的成本。

为了更新模型，训练模块410基于所计算的变换成本来应用反向传播算法。该算法通过神经网络来传播成本信息并对节点加权进行调整以降低与将来试图识别输入图像的特征相关联的成本。例如，如果人类提供的特征包括特定角色存在于图像中并且神经网络预测到该角色以百分之八十的确定性存在，则差异(或误差)为百分之二十。在一个实施例中，训练模块410应用梯度下降方法来迭代地调整应用于每个节点的加权以使得成本最小化。对节点的加权进行少量地调整，并且变换成本的最终降低(或增加)用于计算成本函数的梯度(即成本相对于节点加权变化的速率)。此后训练模块410在梯度所指示的方向上进一步调整节点的加权，直到找到局部最小值(由成本函数中的梯度改变方向的拐点指示)。换句话说，对节点加权进行调整以使得神经网络学习随着时间的推移生成更准确的预测。

预测模块420将机器学习模型应用于来自图形小说语料库110的不是训练集合的一部分的未经训练的图像。机器学习模型生成对包含在未经训练的图像中的特征的预测。在一个实施例中，将未经训练的图像转换成数值映射。该数值映射包括其每一个表示图像的属性的一系列整数值。例如，映射中的整数可能代表各种颜色的优势、颜色在垂直或水平方向上变化的平均频率、平均亮度等等。在另一实施例中，该映射包括诸如图像中的对象的坐标、概率等等这样的用于表示连续量的实际值。本领域普通技术人员将会认识到可将图像转换成数值映射的各种方式。

在一个实施例中，预测模块420将该数值映射作为输入提供给神经网络。从第一层开始，节点基于输入图像(例如数值映射或其一部分)接收输入数据。每个节点对其接收到的输入数据进行分析并确定其检测到的特征是否可能存在于输入图像中。一旦确定出该特征存在时，节点激活。激活的节点基于激活的节点加权来修改输入数据并将已修改的输入数据发送到神经网络的下一层中的一个或多个节点。如果神经网络中的端节点被激活，则神经网络输出与端节点相对应的特征存在于输入图像中的预测。在一个实施例中，基于分配给沿着通过神经网络的路径的每个节点的加权，向预测分配其是正确的百分比似然。

确认模型430将预测模块420所生成的图像的预测特征呈现给下述用户，该用户提供用于指示出预测特征的准确性的确认信息。在一个实施例中，确认模块430将特别感兴趣的特征呈现给用户，诸如具有相对较低的正确性概率的那些或者被认为特别重要的那些(例如主角的身份)。此后确认模块430提示用户以证实所呈现的预测特征的准确性。例如，确认模块430可以在屏幕上显示具有围绕预测特征(例如角色、版面、或讲话气泡)的轮廓的输入图像并提供两个控件，一个用于确认预测是正确的并且一个用于指示出预测是不正确的。因而，确认信息是预测是正确还是不正确的二进制指示。在其它实施例中，确认模块430提供进一步的控件以使得用户能够提供用于指示出预测如何或为何不正确的附加确认信息，或者提供已校正的特征信息。例如，在预测版面的位置的情况下，确认模块430可以使得用户能够“拖放”预测版面轮廓的段以更准确地反映版面在图像中的位置。

确认模块430基于用户所提供的确认信息来更新用于生成预测的模型。在一个实施例中，确认模块430使用与上面参考训练模块410所述相似的反向传播算法和梯度下降方法来更新模型。在另一个实施例中，确认模块430向训练模块410提供反例(即证实为不包括先前预测的特征的图像)，该训练模块410使用这些反例以进一步训练。换句话说，训练模块410还可基于已知不包含某些特征的图像来构建模型。

预测模型存储440包括用于存储由训练模块所生成的且由确认模块430所更新的预测模型的一个或多个计算机可读存储介质。在一个实施例中，预测模型存储440是图形小说分析系统120内的硬盘驱动器。在其它实施例中，预测模型存储440位于其他地方，诸如在云存储设施处或者作为图形小说语料库110的一部分。

图5说明了图形小说分发系统130的一个实施例。如图所示，图形小说分发系统130包括封装模块510、编辑模块520、以及分发数据存储530。图形小说分发系统130的其它实施例包括不同的或附加的组件。另外，这些功能可以以与这里所述的不同方式而分布在组件当中。例如，可以省略编辑模块520。

封装模块510基于分析系统120所执行的分析来创建包括图形小说内容和呈现元数据的封装数字图形小说。呈现元数据是从机器学习模型所输出的特征预测生成的。如前所述，在各种实施例中，呈现元数据包括特征列表以及相应位置和阅读顺序(如适用)、与现在应呈现图形小说内容有关的特定指令(诸如平移和缩放指令)、或者这两者的组合。

在一个实施例中，封装模块510创建包括一系列有序图像(例如图形小说的每页一个图像)以及与每个图像相对应的呈现元数据的封装数字图形小说(例如pdf或固定布局epub文件，诸如符合基于epub区域的导航1.0标准的文件)。给定图像的元数据识别数字图形模型分析系统120所识别出的图像的特征并且包括版面和讲话气泡的位置和阅读顺序。在其它实施例中，特征替代地或附加地包括角色、情绪、天气、对象、艺术家、作者、出版的年份或时代等等。

在进一步的实施例中，不是明确地识别一些或所有特征，而是呈现元数据描述阅读器设备180应如何呈现图像。例如，代替识别讲话气泡的位置和顺序，呈现元数据可描述观看窗口的缩放级别和中心的一组变化以便按期望顺序将用户的注意引到讲话气泡。下面参考图6对各种呈现方法进行详细地描述。

在包括编辑模块520的实施例中，它为用户(例如作者或发布者)提供用于审查和修改包含在封装数字图形小说中的呈现元数据的工具。在一个这样的实施例中，编辑模块520提供了用于使得用户能够选择并查看数字图形小说中的图像的浏览器。一旦用户选择了图像，浏览器显示呈现元数据指示的存在于图像中的特征，并且在适当情况下，显示那些特征在图像内的位置。例如，编辑模块520可以显示以不同颜色勾画出的每个版面并且提供用于指示出版面的顺序的键。类似地，可以勾画出所识别的角色以及用于指示出角色名称的键。或者，编辑模块520可以提供图像内的已识别角色的列表而无需识别特定位置。与特定呈现方法无关，编辑模块520提供一个或多个工具，用户可利用所述一个或多个工具来添加附加特征(例如通过利用鼠标来在图像的区域周围追踪并从可能特征的下拉列表中选择在该区域中所描绘的特征)或者自动编辑所识别的特征(例如通过点击列表中的所识别角色名称并提供替代名称)。在一些实施例中，将由用户进行的对呈现元数据的编辑提供给图形小说分析系统120，图形小说分析系统120使用它们作为反馈来更新用于生成已编辑的反馈的预测模型。因而，在这样的实施例中，编辑模块520用作次级确认模块430或者完全替代确认模块。

分发数据存储530是用于存储封装的数字图形小说的一个或多个计算机可读介质。在一些实施例中，分发数据存储530位于为数字图形小说分发系统提供功能的服务器场处。在一个这样的实施例中，分发系统基于用户的兴趣(例如作为用户简档的一部分提供)与通过呈现元数据所识别出的图形小说的特征之间的相关性来向用户推荐数字图形小说。例如，如果用户对数字图形小说的一行特别感兴趣，则分发系统530可以从包括一些相同角色的不同行推荐数字图形小说。

除了上面的描述之外，可以向用户提供下述控件，该控件允许用户做出与这里所述的系统、程序、或特征是否并且何时可以能够收集用户信息(例如与用户的兴趣、社交网络、社会行为或活动、专业、偏好、当前位置等等有关的信息)有关的选择。还可以向用户提供用于允许用户控制是否从服务器(例如图形小说分发系统130)向用户的阅读设备180发送内容或通信的控件。另外，某些数据可以在被存储或使用之前以一种或多种方式进行处理，以便除去个人可识别信息。例如，可以对用户身份进行处理以便不可对用户确定个人可识别信息，或者可以使获得位置信息的用户地理位置笼统化(诸如到城市、邮政编码、或者州级)，以便无法确定用户的特定位置。因而，用户可以控制收集与用户有关的哪些信息、如何使用该信息、以及向用户提供哪些信息。

在一个实施例中，图形小说分发系统130还提供用于识别侵犯版权的数字图形小说的工具。如果机器学习模型不正确地预测数字图形小说包含特定角色，则这可能指示出实际描绘的角色侵犯了特定角色的版权。例如，如果竞争对手发布者故意创建与特定角色几乎相同的角色，则机器学习模型可能会初始预测它是特定角色(直到经由反馈更新该模型，并且甚至是如果复制特别公然这两者可能难以区分)。在一个实施例中，中等范围的确定性内的预测(例如50％至70％)被标记为潜在的侵权，因为这个范围指示出对于识别有足够的相似性，但足够的区别在于预测中存在显著程度的不确定性。此后将标记的角色发送给人(例如可能被侵犯的版权所有者的雇员)以供审查。

图6说明了阅读器设备180的一个实施例。如图所示，阅读器设备180包括图形小说显示模块610、反馈模块620、以及本地数据存储630。阅读器设备180的其它实施例包括不同的或附加的组件。另外，功能可以以与这里所述的不同方式而分布在组件中。例如，在一些实施例中，省略了反馈模块620。

显示模块610基于封装模块510将数字图形小说内容与其封装在一起的呈现元数据来向用户呈现数字图形小说内容。在各种实施例中，呈现元数据指示出数字图形小说的页面上的版面的位置和顺序，并且显示模块610按指示的顺序呈现版面。在一个这样的实施例中，显示模块610初始在阅读器设备180的屏幕上显示第一版面(如在呈现元数据中所指示的)。响应于用户输入(例如敲击屏幕或选择“下一版面”图标)，显示模块610从呈现元数据确定接下来应显示哪个版面并且将屏幕上的显示转换到第二版面。每当用户请求向前移动(例如通过敲击屏幕或选择“下一版面”图标)时，显示模块610检查呈现元数据以确定接下来应显示哪个版面，并且因此更新屏幕上的显示。这种顺序呈现版面的方法允许对每个版面进行全屏显示，这对于具有小屏幕的阅读器设备180是特别有用的。

在其它实施例中，使用版面之间的不同转换，诸如在页面上从一个版面平移到下一版面或者缩小以简要地显示整个页面并且此后放大下一版面。这种转换为读者提供了与下一版面如何作为整体融入叙述有关的场境信息。在一个实施例中，选择一个版面与下一版面之间的期望转换是机器学习模型所预测的特征并且呈现元数据识别将在每对版面之间所使用的转换。如前所述，版面内的转换还可以在呈现元数据中定义，诸如在对感兴趣的特征放大并且在对话的选择中在讲话气泡之间平移。在另一实施例中，所使用的转换是用户可选择的(例如经由偏好菜单)。

在一个实施例中，显示模块610包括默认显示模式，该默认显示模式是当呈现元数据未指示出版面的位置和顺序或者仅指示出对应于小于总页面面积的阈值部分(例如百分之七十五)的版面的位置和顺序时使用。例如，如果小于总页面面积的阈值量(如在呈现元数据中所指示出的)对应于版面，则显示模块610首先显示整个页面并且此后对每个版面进行放大。作为另一示例，如果小于总页面面积的阈值量对应于版面，则显示模块610初始地显示整个页面并提供用于缩放和滚动的用户控件，该用户控件使得用户能够选择如何导航页面。

在一些实施例中，显示模块610根据呈现元数据所指示的讲话气泡的位置和顺序来呈现数字图形小说。在一个这样的实施例中，显示模块610按照在呈现元数据中所指示出的顺序来显示每个讲话气泡并且选择下述缩放级别，该缩放级别用于平衡文字的可读性与提供足够量的周围图像来提供场境。显示模块610可选择所使用的缩放级别，或者缩放级别可包含在呈现元数据中。显示模块610响应于用户输入(例如敲击屏幕或选择“下一讲话气泡”控件)而从一个讲话气泡进行到下一个(如呈现元数据所指示的)。在另一实施例中，呈现元数据指示显示模块610以初始在屏幕上呈现整个版面(或页面)，并且此后依次对每个讲话气泡进行放大。

在又一实施例中，在屏幕上显示完整版面或页面，并且仅放大与所选讲话气泡相对应的图像的区域(基于次序顺序或用户选择)。初始显示模块610显示对屏幕没有缩放的整个版面。当读者选择了“下一讲话气泡”控件时，包括第一讲话气泡(如呈现元数据所指示)的图像的区域被放大，并且读者可浏览该气泡中的文本(例如利用滚动条)。然而，不包括讲话气泡的图像的其余部分保持未被放大。因而，读者可读取文本并获得由版面中图像的剩余部分所提供的场境信息，而无需在一个视图与另一个之间进行切换。

包含用于识别数字图形小说的特征的呈现元数据还能够以高程度的精度自动进行索引。例如，在一个实施例中，显示模块610提供了索引版面，该索引版面用于指示出数字图形小说中的给定角色的每个外观并使得能够快速导航(例如通过点击特定索引条目)到每个实例。在另一实施例中，显示模块610提供用户可基于一个或多个字段来搜索的自动索引。例如，如果读者想要找到还包括棒球棍的雨中的两个特定角色的图像，则读者可键入每个项以作为搜索项并且显示模块610将立即显示图像(假定存在)或者提供可能图像的列表(例如如果存在不止一个)。

另外，显示模块610的各个实施例提供了附加功能以提高数字图形小说的读者体验。在一个实施例中，呈现元数据指示出作为广告的版面或页面。并非依次随着剩余内容显示广告，而是显示模块610分开广告并以另一方式呈现它，诸如在图形小说的开头或结尾、在初始出现在数字图形小说后面的弹出窗口中但当它被关闭时仍存在于发送给读者的电子邮件中等等。显示广告的方式可在呈现元数据中指示出或者由显示模块610确定(例如基于用户设置)。显示模块610还可以向用户提供对与广告产品有关的进一步信息的访问，诸如指向可购买它的产品网站或在线商店的链接。

在一些实施例中，显示模块610结合所显示的版面提供声音效果或气氛音乐。在一个这样的实施例中，呈现元数据指示出要播放的特定声音效果和音乐片段。在另一个这样的实施例中，呈现元数据指示出版面的气氛并且显示模块610选择适当音乐(例如基于用户偏好)。在又一个这样的实施例中，呈现元数据指示出在版面中所描绘的对象(例如机枪)并且显示模块610选择适当的声音效果(例如射击的机枪的声音)。本领域普通技术人员可以认识到可基于机器学习模型所识别的特征来定制显示数字图形小说的其它方式。

反馈模块620提供了用户利用其可提供与数字图形小说的呈现有关的反馈的界面。在各种实施例中，反馈模块620在显示设备的屏幕上提供用户可选择以报告该呈现存在的问题的虚拟按钮。例如，如果显示模块610以不正确的顺序呈现版面或讲话气泡，则用户可按下该按钮并填写简短的反馈表单来描述正确的顺序。在一个这样的实施例中，本地更新呈现元数据，以便如果用户再次阅读数字图形小说，则以用户所识别的正确顺序来呈现版面和讲话气泡。在另一个这样的实施例中，反馈模块620将反馈发送给图形小说分发系统130的管理员进行审查以确定呈现元数据是否应该全系统地更新。在又一实施例中，将该反馈提供给图形小说分析系统120，该图形小说分析系统120使用它来更新初始识别特征的预测模型。

本地数据存储630是存储用于显示数字图形小说、数字图形小说内容、以及呈现元数据的软件的一个或多个计算机可读介质。在一个实施例中，用户将包括呈现元数据的封装数字图形小说从在线市场下载到本地数据存储630。此后呈现模块610从本地数据存储630访问封装的数字图形小说。在另一实施例中，远程地存储封装的数字图形小说(例如在云服务器)，并且显示模块610经由网络170访问它。

示例性方法

图7说明了用于在数字图形小说内提供计算机辅助导航的方法700的一个实施例。图7把方法700的步骤归于联网计算环境100的各个组件。然而，这些步骤中的一些或全部可以由其它实体来执行。另外，一些实施例可以并行地执行这些步骤、以不同顺序执行这些步骤、或者执行不同的步骤。

在图7所示的实施例中，方法700开始于训练模块410构建(710)用于预测性地识别数字图形小说的特征的模型。如前所述，模型初始是在监督学习阶段构建的(710)，在所述监督学习阶段期间人工操作者识别从语料库110所选择的数字图形小说的子集中的特征。下面参考图8对用于构建(710)模型的方法800的一个实施例进行详细地描述。

预测模块420将该模型应用于(720)数字图形小说内容以预测其中包含的特征。在一个实施例中，特征包括数字图形小说内的版面和讲话气泡的位置和顺序。在其它实施例中，预测模块420识别诸如优选转换、描绘的对象、艺术家、作者、描绘的角色、天气、情绪、情节线、主题、广告等这样的不同的或附加的特征。

确认模块430基于人的审查确认(730)模型所做出的预测。在一个实施例中，执行作为模型的初始训练的一部分的确认(730)。在另一实施例中，确认反馈是源自读者的群体并且基于所接收到的反馈不断地或周期地更新该模型。例如，确认模块430可以在一个月的时间段内汇总源自群体的反馈，并且此后在该时段结束时产生更新的模型。下面参考图9对用于确认(730)并更新模型的方法900的一个实施例进行详细地说明。

封装模块510创建(740)包括图形小说内容和呈现元数据的封装数字图形小说。封装模块510基于从确认模块430所接收到的经确认的预测(或直接从预测模块420所接收到的预测)来生成呈现元数据。如前所述，呈现元数据可基于预测来识别特征或提供特定呈现指令，或者使用这两种方法的组合。在一个实施例中，呈现元数据指示出该模型所预测的特征的位置和(在适当情况下)顺序。在另一实施例中，呈现元数据基于模型所生成的预测特征指示出对数字图形小说的推荐的呈现方式。例如，推荐的呈现方式可以是用于改变显示窗口中心相对于图形小说内容的位置、改变缩放级别、以及使用诸如声音效果和气氛音乐这样的其它呈现元素的方向列表。

将封装的数字图形小说提供给(750)阅读器设备180以用于根据呈现元数据所指示出的方式来呈现。在一个实施示例中，呈现元数据指示出特征的位置和顺序，并且呈现数据图形小说的精确方式是由阅读器设备180(例如基于用户观看偏好)本地确定的。因而，不同阅读器设备180可以不同方式呈现(750)相同的数字图形小说。在另一实施例中，呈现元数据包括用于描述数字图形小说应呈现的方式的指令。因此，阅读器设备180按呈现元数据的指示呈现数字图形小说。

图8说明了用于构建预测模型的方法800的一个实施例。图8将方法800的步骤归于训练模块410。然而，这些步骤中的一些或全部可以由其它实体来执行。另外，一些实施例可以并行地执行这些步骤、以不同的顺序执行这些步骤、或者执行不同的步骤。

在图8所示的实施例中，方法800开始于训练模块410从语料库110识别出数字图形小说的子集以用作训练集合。如上所述，参考图4，子集可以被随机地选择或者被选定以具有期望的特性混合(例如各种不同发布者和作者、各种角色等等)。

返回参考图8，训练模块410从训练集合中的数字图形小说提取(820)原始图像(例如与各个页面相对应)。在一个实施例中，原始图像被处理以准备训练。例如，可调整原始图像的大小以具有均匀的尺寸，并且改变亮度和对比度设置以提供整个训练集合的均匀性。

不管执行任何预处理，训练模块410启动(830)监督训练阶段以识别原始图像的特征。如上所述，参考图4，在监督训练阶段，人工操作者识别所处理的图像(或者如果没有执行处理的情况下则原始图像)的特征。因而，在监督训练阶段结束时，训练模块410具有图像集合，每个图像与用于指示出图像所包括的特征的相应元数据配对。

基于在监督训练阶段期间所生成的训练集合和相应元数据，训练模块410创建(840)用于预测性地识别数字图形小说特征的模型。在一个实施例中，该模型是用于预测性地识别版面的位置和顺序以及所描绘的角色的身份的神经网络。因为该模型是从训练集合构建的，因此当提供在训练集合中的任何(或至少大多数)数字图形小说时，它准确地识别出版面位置、版面顺序、以及所描绘的角色。因此，当将相同神经网络应用于以前未被应用的数字图形小说时，成功地识别出版面和所描绘的角色的概率相当高。一旦成功创建了(840)模型，训练模块410将它存储(850)在预测模型存储440中。

图9说明了基于反馈来确认预测的方法900的一个实施例。图9将方法900的步骤归于预测模块420和确认模块430。然而，这些步骤中的一些或全部可以由其它实体来执行。另外，一些实施例可以并行地执行这些步骤、以不同顺序执行这些步骤、或者执行不同的步骤。

在图9所示的实施例中，方法900开始于预测模块420接收(910)要分析的图像。预测模块420将预测模型应用于(920)图像(例如利用图8的方法所生成的一个图像)以产生对图像特征的一个或多个预测。为了清楚起见，将参考下述实施例对图9的剩余部分进行描述，在所述实施例中模型生成对图像中的版面的位置、版面的顺序、以及在每个版面中所描绘的角色的预测。鉴于本说明书的其余部分，本领域普通技术人员将认识到该模型可以生成与许多其它特征及特征的组合有关的预测。

确认模块430获得(930)用于指示出预测模块所做出的预测是否正确的反馈。如前所述，反馈可来自于在开发期间承担着训练模型这一任务的操作者或者在投入使用之后源自用户的群体。在一个实施例中，反馈是二进制的，其用于指示出预测是正确的或不正确的。在其它实施例中，反馈还包括预测是不正确的校正。例如，如果画格的预测位置是不正确的，则反馈可指示出画格的正确位置。类似地，反馈可为画格提供正确的顺序。此外，如果模型错误地识别角色，则反馈可提供正确的角色识别。

不管所获得的(930)的反馈的具体性质，确认模块430使用它来对模型进行更新(940)。如上参考图4所描述的，在一个实施例中，采用梯度下降方法的反向传播算法用于更新该模型。因而，随着更多量的反馈被考虑，模型所生成的预测的准确性随时间而提高。

额外考虑

上文描述的一些部分就算法过程或者操作对实施例进行了描述。这些算法描述和表示被数据处理领域技术人员常用来向本领域其他技术人员有效地传达他们的工作的实质。这些操作尽管在功能、计算、或者逻辑上加以描述，但是应理解这些操作是由如下计算机程序、微代码等等实现的，所述计算机程序包括用于由处理器或者等效电路执行的指令。此外，也已证实有时将功能操作的这些布置称为模块是便利而不失一般性的。可以用软件、固件、硬件、或者其任何组合来具体体现所描述的操作及其相关联的模块。

如在这里所使用，对“一个实施例”或者“实施例”的任何引用意味着在至少一个实施例中包括结合实施例所描述的特定元素、特征、结构、或者特性。短语“在一个实施例中”在说明书中各处的出现未必都指代相同实施例。

可以使用表达“耦合”和“连接”及其派生词来描述一些实施例。应当理解这些术语并非旨在作为彼此的同义词。例如，可以使用术语“连接”指示两个或更多元素相互直接物理或电接触来描述一些实施例。在另一示例中，可以使用术语“耦合”指示两个或更多元素直接物理或电接触来描述一些实施例。然而，术语“耦合”还可以意味着两个或更多元素未相互直接接触、但是仍相互配合或者交互。实施例在该情境中不受限制。

如在这里所使用的，术语“包括(comprises)”、“包括(comprising)”、“包括(includes)”、“包括(including)”“具有(has)”、“具有(having)”、或者其任何其它变型旨在覆盖非排他含义的包括。例如，包括元素列表的过程、方法、产品、或者装置未必仅限于那些元素而是可以包括未明确列举的或者这样的过程、方法、产品、或者装置所固有的其它元素。此外，除非特别说明与此相反，“或者(or)”指代“包括含义的或者”而“非排他含义的或者”。例如，以下各项中的任一项满足条件a或者b：a为真(或者存在)并且b为假(或者不存在)、a为假(或者不存在)并且b为真(或者存在)、以及a和b均为真(或者存在)。

另外，“一个(a)/一个(an)”的使用用来描述这里的实施例的元素或者组件。这样做仅为求方便并且给出该公开内容的一般意义。该描述应被理解为包括一个或至少一个并且单数还包括复数，除非明显它另有含义。

在阅读本公开时，本领域普通技术人员将理解用于提供索引电子书注释的系统和过程的附加替代结构和功能设计。因而，尽管已经说明并描述了具体实施例和应用，但是将理解的是所述主题并不局限于这里所公开的精确构造和组件并且可以在这里所公开的方法和装置的布置、操作、以及细节上做出本领域技术人员将清楚的各种修改、改变、以及变化。本发明的范围仅由所附权利要求来限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：格雷格·唐·哈特雷尔;德巴基特·高什;马修·沃恩-韦尔;约翰·迈克尔·里夫林;加思·康博伊;辜新星;亚历山大·托舍夫
技术所有人：谷歌有限责任公司
我是此专利的发明人

上一篇：存储器内容的基于密码的初始化的制作方法
上一篇：用于计算机辅助地开发由子系统组成的总系统的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。