书籍电子化方法及书籍电子化装置与流程

文档序号:15362211发布日期:2018-09-05 00:57阅读:567来源:国知局

本发明涉及生成书籍的页面数据的技术。



背景技术:

由于为了阅读而翻开书籍,有可能弄坏书籍。特别是古书籍,一旦翻开有弄坏或损坏的可能性。例如,在意大利发现的、在古代罗马时代由于火山爆发而烧毁的卷轴状的古文献。该古文献由于全体发黑用肉眼难以辨认,而且,因为脆弱不能翻开。

在非专利文献1中记载有,从由于火山爆发而烧毁的卷轴状的该古文献中,提取写在古文献中的希腊文字的方法。在非特许文献1中已公开了通过x射线相位对比断层摄影生成古文献的三维数据,在三维数据中发现了被视为单个的希腊字母的像素的图案。

在非专利文献2里,已记载了三维数据的可视化技术。在非专利文献2的技术中,从具有连续的数据值的分布的三维数据中,自动地确定具有特定的数据值的等值面(isosurface)。

现有技术文献

非专利文献

非专利文献1:vitomocellaet.al.,“revealinglettersinrolledherculaneumpapyribyx-rayphase-contrastimaging”,naturecommunications,6:5895doi:10.1038/ncomms6895(2015)

非专利文献2:takayukiitohet.al.,“automaticisosurfacepropagationusinganextremagraphandsortedboundarycelllists”,ieeetransactionsonvisualizationandcomputergraphics,vol.1,no.4,december1995



技术实现要素:

本发明要解决的课题

然而,在非专利文件1中,虽然记载了提取单个的文字的方法,但是没有记载提取单词或文章的方法。不能提取文本行的原因被认为是不能正确的进行确定在卷轴状的古文献的三维数据中的页面区域。

本发明的目的在于从书籍的三维数据中得到书籍的页面中记载的文本行等的信息。

解决课题的方法

根据本发明的一种实施方式的书籍电子化方法为包含使用具有与书籍的片材以及上述片材的间隙相对应的数据值的上述书籍的三维数据,确定在上述三维数据中的,与上述书籍的页面相对应的页面区域的步骤,和通过将上述页面区域中的文本行或是图案映射于二维平面中,生成包含上述书籍中编写的文本行或是图案的二维页面数据的步骤的方法。

根据本发明的一种实施方式的书籍电子化装置为具备:区域确定部,其使用有与书籍的片材以及上述片材的间隙相对应的数据值的上述书籍的三维数据,确定在上述三维数据中的,与上述书籍的页面相对应的页面区域;和数据生成部,其通过将上述页面区域中的文本行或是图案映射于二维平面中,生成包含上述书籍中编写的文本行或是图案的二维平面数据。

发明效果

根据本发明的一个实施方式,从书籍的三维数据中,能够得到在书籍的页面中被记载的文本行等的信息。

附图说明

图1为表示本发明一个实施方式所涉及的书籍电子化装置的结构的框图。

图2为表示在所述书籍电子化装置中的处理流程图。

图3为表示成为对象的书籍的三维数据的立体图。

图4为扩大表示三维数据的一部分的图。

图5为表示本发明的其他的实施方式所涉及的书籍电子化装置的构成的框图。

图6为表示在上述书籍电子化装置的处理流程图。

具体实施方式

[第一实施方式]

(书籍的三维数据)

成为对象的书籍也可以为1张片材卷起的卷轴,也可以为多张片材装订的书,也可以为没有装订的多张片材进行重叠的物品。书籍的片材虽然一般情况下为纸,但不限于此,也可以为塑料等。

首先,准备书籍的三维数据。使用x射线相位对比断层摄影装置拍摄合上状态的书籍,由此,能够得到书籍的三维数据(体数据)。该三维数据是在三维空间中的各个点拥有数据值,且表示书籍的3维图像。数据值为与该位置的物质相对应的标量值。此外,三维数据的各个坐标可以有2个以上的值(例如,通过第一波长的像素值和通过第二波长的像素值)。三维数据包含重叠的多张片材、片材与片材之间的间隙(空气)、以及片材上的墨水(文字)的信息。三维数据的清晰度(分辨率)小于片材的厚度以及间隙的宽度。即,坐标的间距小于片材的厚度以及间隙的宽度。此外,三维数据的清晰度优选地为足够小以在一定程度上能辨别书籍中编写的文字。此处为了简便起见,三维数据的各个点取为有0以上10以下的范围的数据值。说明中假定为6以上且小于9的数据值相当于墨水,3以上且小于6的数据值相当于片材,0以上且小于3的数据值相当于片材的间隙(空气)。此外,9以上的数据值与其他的部分相对应。数据值和物质的对应关系能够由拍摄样品的书籍决定。此外,通过x射线相位对比断层摄影以外的x射线断层摄影,也能够得到这样的三维数据。

(书籍电子化装置的构成)

图1为表示本实施方式的书籍电子化装置1的结构的框图。书籍电子化装置1具备位置指定部11,面确定部12(区域确定部),以及数据生成部13。三维数据预先输入到书籍电子化装置1。稍后描述书籍电子化装置1的详细的操作。

位置指定部11基于三维数据的数据值,指定用于确定页面区域的起始点。位置指定部11将起始点的信息输出到面确定部12。

面确定部12确定与被指定的起始点相连接的页面区域。面确定部12将与页面区域相对应点的集合,以及各个点的数据值输出到数据生成部13。

数据生成部13将确定的页面区域的数据转换为二维的(平面的)页面数据。页面数据具有在书籍的页面内的多个文字或是图案的位置关系(文字等的配置)的信息。

(页面数据生成处理流程)

图2为表示在书籍电子化装置1中的处理流程图。

(起始点的指定)

图3为表示成为对象的书籍的三维数据的立体图。书籍的三维数据包含多张的片材的区域和片材的间隙的区域。因此,扫描三维数据的所有的数据以找到1个的片材的区域是没有效率的。

位置指定部11以在三维数据中至少与1个页面相交的方式,指定线性的路径l(s1)。路径l简单地可以为直线,但也可以为曲线。路径l也可以预先决定,也可以用户从规定的多个路径中选择。例如如果指定贯穿封面和封底的路径l,路径l认为是与书籍的所有的页面交叉。因此,与扫描三维数据的所有的数据相比,位置指定部11能够有效的确定各个页面的1个点。

在位置指定部11中,设定区分片材的数据值和间隙的数据值的阈值(这里为3)。因为页面为片材的一面,与页面相对应的区域(页面区域)存在于与片材与间隙之间的边界相对应的位置。若沿路径l查看数据值,则在路径和页面交叉的位置,数据值超过阈值进行变化。位置指定部11参照沿路径l的数据值,并将数据值对应于阈值的点指定为页面区域的起始点(s2)。在路径l与多个页面交叉的情况下,位置指定部11也可以指定与多个页面区域相对应的多个起始点。

(页面区域的确定)

图4为扩大表示三维数据的一部分的图。通过位置指定部11指定点p2和点p4之间的点i1以作为起始点。关注包含起始点i1的直角坐标系的单位单元c1。单位单元c1为将8个点p1~p8作为各个顶点的矩形(立方体)。例如,在点p2的数据值比阈值大,且点p4的数据值比阈值小的情况下,认为在点p2和点p4之间存在数据值与阈值相对应的起始点i1(即与页面区域相对应的点)。页面区域pg包含起始点i1且从起始点i1以面状(平面状或是曲面状)延伸。因此,认为页面区域pg通过包含起始点i1的单位单元c1的内部。

面确定部12关注包含起始点i1的单位单元c1,且在单位单元c1中确定页面区域pg通过的多个边。例如,在沿坐标轴相邻的2个顶点(p3和p4)中,一个数据值为阈值以上且另一个数据值为小于阈值的情况,面确定部12判定页面区域pg通过该2个顶点间(边p3-p4)。在单位单元c1中,页面区域pg通过边p2-p4,边p3-p4,边p6-p8,以及边p7-p8。

因为页面区域pg通过边p3-p4,所以页面区域pg通过包含该边p3-p4的其他的单位单元c2(与c1相邻的单位单元)。此外,页面区域pg通过包含边p2-p4的其他的单位单元c3。与单位单元c1相同,面确定部12为关于单位单元c2、c3,确定页面区域pg通过的边。这样,面特定部12对包括判定页面区域pg通过的各个边的其他的单位单元,执行同样的判定。由此,面确定部12能够确定页面区域pg通过的单位单元。在这里,面确定部12能够省略对被认为页面区域pg没有通过的单位单元c4等的判定,而无需对与关注的单位单元c1相邻所有的单元执行判定。

面确定部12确定页面区域pg的位置(s3)。例如,面确定部12在页面区域pg通过的边中,也可以将数据值为阈值以上(相当于片材或是墨水)的一个顶点确定为与页面区域pg相对应的点。

此外,面确定部12在该边中,也可以将数据值为接近阈值的任意的顶点确定为与页面区域pg相对应的点。

此外,面确定部12也可以将该边内分为[阈值和一个点的数据值之间的差]:[阈值和其他的点的数据值之间的差]的比率的点,确定为与页面区域pg相对应的点。面确定部12也可以通过从周围的点的数据值进行插值来决定这样的中间点的数据值。

面确定部12通过从被指定的起始点i1,自动检索与起始点i1相连接的等值面,能够正确的确定与起始点i1相对应的页面区域pg。所谓等值面是指,在用三维空间定义的标量场中数据值相同的点的集合。面确定部12也可以确定数据值在规定范围内的等值面(等值体积:isovolume)。在三维数据中的数据点的数有n的3次方的情况下,面确定部12通过检查n的2次方的量级的数据点,能够确定1个页面区域pg。

此外,在三维空间中的页面区域pg可以是包含细微的凹凸的面。面确定部12在将确定的页面区域pg传递给数据生成部13之前,也可以通过平滑化包含凹凸的该页面区域pg,转换为平滑的曲面的页面区域。此外,面确定部12也可以将页面区域pg平行移动到片材的内侧或是片材的外侧。例如,在墨水已浸入到片材的内侧的情况下,通过使表示片材的表面的页面区域的pg平行移动到片材的内侧,能够更可靠地将用墨水表示的文字等的信息包含于页面区域的pg中。此外,当墨水形成为在片材的表面上突出的情况下,通过将页面区域pg平行移动到片材的外侧,能够更可靠的将用墨水表示的文字等的信息包含于页面区域pg。

(页面数据生成)

被拍摄的书籍的片材(特别是古书籍的片材)能够弯曲。因此,被确定的页面区域pg可以为三维空间中的曲面。数据生成部13是将页面区域pg的数据转换成二维的(平面的)页面数据。具体的,数据生成部13通过将页面区域pg的各个点的数据值映射于二维平面上,生成页面数据(s4)。二维的页面数据的各个点的数据值大致与片材以及墨水的任意一个相对应。页面区域pg为开孔的面的情况下,在二维的页面数据中与孔相对应的地方的数据值也可以是其他的值(与间隙相对应的值等)。当然,二维的页面数据也可以包含其他的数据值的点。此外,作为映射的方法,能够利用公知的方法(例如,利用鞍点特征的三维网格展开等)。

通过数据生成部13生成的二维的页面数据具有在书籍的页面中多个文字或是图案的位置关系的信息。可以认为二维的页面数据是表示书籍的1个页面的图像。该页面中包含的文本行或是图案由与墨水相对应的数据值的配置来表示。即,页面数据包含书籍的页面中编写的文本行(被排列的多个文字)或是图案。例如,显示装置将与片材相对应的数据值和与墨水相对应的数据值用不同的层次或是不同的颜色显示,由此能够将书籍的1个页面的图像显示为用户可见。数据生成部13也可以为了页面数据的可见度,将各个数据值转换为相对应的层次或是颜色的数据。

此外,数据生成部13通过图案映射等从二维页面数据中提取文字,也可以将被提取的文字转换成文本数据(字符代码)。由此,数据生成部13能够得到用文本数据表示书籍的页面中编写的文本行的页面数据。

以上,说明了获得书籍的1个页面的页面数据的流程。位置指定部11能够指定与多个页面区域相对应的多个起始点。而且,关于其他的起始点,面确定部12以及数据生成部13通过执行相同的处理,数据生成部13能够生成其他的页面的页面数据。面确定部12能够将有厚度的某个片材的表面(一面)确定为页面区域pg。因此,面确定部12根据与表里相对应的2个起始点来确定2个页面区域pg,由此,能够单独确定片材的两面的页面区域。数据生成部13也可以根据路径l上的多个起始点的配置或是被确定的多个页面区域pg的配置,将所得到的多个页面数据与页面编号相关联。这样,书籍电子化装置1从书籍的三维数据中能够生成与书籍的多个页面相对应的多个页面数据。

本实施方式的书籍电子化装置1在三维数据中确定与1个页面相对应的连续的页面区域。书籍电子化装置1根据所确定的页面区域的数据值生成二维的页面数据。该页面数据具有在书籍的页面中编写的多个文字(文本行)的配置或是图案的信息。页面数据因为是基于正确确定的页面区域而生成,因此,即便存在噪音,也能够正确的识别页面数据上的文本行等。因此,书籍电子化装置1能够从页面数据中简单地得到原书籍中编写的文本行或是图案的信息。因此,书籍电子化装置1不仅仅读取单独的文字,能够读取在书籍中编写的由多个文字组成的词语或文章。此外,在显示装置等中显示的页面数据中,用户能够容易的识别文本行等。

根据本实施方式的书籍电子化装置1能够根据书籍的三维数据,生成包含在书籍的页面中编写(描述)的文字或是图案等的信息的页面数据。创建三维数据时,没有必要打开书籍,也可以为书籍的片材弯曲的状态。因此,能够将如果打开可能会损坏的某古文献中编写的信息进行电子化,而不伤害古文献。此外,根据书籍电子化装置1,因为没有必要用扫描等方式一个页面一个页面的扫描书籍,不限于古文献,能够容易地将书籍电子化。通过有效地电子化以前出版的没有电子数据的文献,即便万一由于灾害等失去了文化财产(文献),也能够再现该内容。此外,通过将书籍电子化装置1适用于相册,也能够将相册电子化。

(变形例)

此外,根据片材或是描写文字的墨水的种类,对应于通过x射线相位对比断层摄影得到的三维数据中的片材或是墨水的数据值可以不同。根据片材以及墨水的种类适当地设定区分片材、墨水以及间隙(空气)的多个阈值。

此外,位置指定部11也可以受理根据用户的起始点的指定。位置指定部11在显示装置中显示书籍的三维数据,且用户可以将被视为片材的表面(页面区域pg)的点指定为起始点。

此外,书籍电子化装置不指定起始点,例如,面确定部可以将具有接近阈值的数据值的点的集合确定为页面区域。

[实施方式2]

说明关于本发明的其他的实施方式。此外,为了便于说明,关于上述实施方式中说明的材料和具有相同功能的材料,附于相同的附图标记且省略其说明。本实施方式中,书籍电子化装置对三维数据进行预处理后,执行页面区域的确定。

图5为表示本实施方式的书籍电子化装置2的构成的框图。书籍电子化装置2具备预处理部14,位置指定部11,面确定部12以及数据生成部13。

图6表示在书籍电子化装置2中的处理流程图。在位置指定部11指定路径的处理(s1)之前,追加了通过预处理部14的微分计算的处理(s5)。

预处理部14作为预处理通过执行对书籍的三维数据的微分计算,生成被微分的三维数据。数据值的变化(梯度)越大的位置,微分计算转换为越大的值。通常,在片材等的边界,被认为数据值进行急速变化。被微分的三维数据在与该边界相对应的区域中具有大的值,且在其他的区域中具有比较小的值。由此,书籍电子化装置2能够正确地确定与片材的表面相对应的页面区域。预处理部14向位置指定部11输入被微分的三维数据。

例如,如上述实施方式中所述,位置指定部11以至少与一个页面交叉的方式,指定线状的路径。位置指定部11参照沿路径被微分的三维数据值,将值为超过规定阈值的点,或值为极大值的点指定为页面区域的起始点。起始点与作为片材的表面的页面相对应。

面确定部12确定与起始点相对应的页面区域。例如,面确定部12在与起始点相邻的点之中,将被微分的三维数据中的值超过规定的阈值的点确定为构成页面区域的点。面确定部12关于与构成页面区域的点相邻的点,执行同样的判定。

或者,面确定部12基于被指定的起始点和微分前的三维数据的数据值,可以用和实施方式1同样的方法,确定页面区域。

与实施方式1相同,数据生成部13将与所确定的页面区域相对应的数据值(微分前)映射于二维的页面数据上。

根据本实施方式的书籍电子化装置2,能够将片材的表面正确的确定为页面区域。因此,能够正确的获得书籍中编写的单词以及文章的信息。

[实施方式3]

书籍的电子化装置1、2的控制模块(特别是位置指定部11、面确定部12、数据生成部13以及预处理部14)可以通过集成电路(ic芯片)等形成的逻辑电路(硬件)实现,也可以用cpu(centralprocessingunit)通过软件实现。

后者的情况下,书籍电子化装置1、2具备:cpu、用于执行某程序的命令,所述程序是用于实现各个功能的软件;rom(readonlymemory)或是存储装置(这些称为存储介质),其为计算机(或是cpu)可读取,且,储存有上述程序以及各种数据、ram(randomaccessmemory),用于加载上述程序等。而且,通过计算机(或是cpu)从上述存储介质中读取并执行上述程序来达成本发明的目的。作为上述存储介质,[非易失的有形的介质],例如,能够使用磁带,磁盘,磁卡,半导体存储器,可编程的逻辑电路等。此外,也可以经由可传输上述程序的任意的传输介质(通信网络和放送波等)向上述计算机提供上述程序。此外,本发明中,上述程序通过电子的传输实现,也可以以嵌入载波中的数据信号的形式实现。

[总结]

与本发明的实施方式1相关的书籍电子化方法,其特征在于,包含确定页面区域的步骤,其使用具有与书籍的片材以及所述片材的间隙相对应的数据值的所述书籍的三维数据,在所述三维数据中,确定与所述书籍的页面相对应的页面区域,和生成二维页面数据的步骤,其通过将所述页面区域中的文本行或是图案映射于二维平面,生成包含所述书籍中编写的文本行或是图案的二维页面数据。

根据上述的构成,在确定了在书籍的三维数据中的页面区域之后,在书籍的三维数据中位于该页面区域中的文本行或是图案映射于二维平面。根据这个,能够得到包含书籍中编写的文本行或是图形的二维页面数据。因此,书籍的该页面中编写的内容(文章等)能够转换成正确的高可读性的二维页面数据。因此,从书籍的三维数据中,能够得到书籍的页面中记载的文本行等的信息。

与本发明的实施方式2相关的书籍电子化方法,在上述的实施方式1中,包括指定初始点的步骤,所述初始点与所述三维数据的所述页面的一点相对应,在所述确定页面区域的步骤中,从所述三维数据中,确定与所述起始点相关连的上述页面区域。

根据上述构成,能够有效的确定与被指定的起始点相对应的1个页面区域。

与本发明的实施方式3相关的书籍电子化方法为,在上述实施方式2中,包括在所述三维数据中指定线状的路径的步骤,在所述指定起始点的步骤中,基于在所述路径中的数据值,将所述路径和所述页面区域交叉的点指定为所述起始点。

根据上述构成,能够有效的指定页面区域的一点。因此,能够缩短处理时间,有效的执行书籍的电子化。

与本发明的实施方式4相关的书籍电子化方法在从上述状态1到3中的任意一项中,在所述确定页面区域的步骤中,确定对应于阈值的等值面,所述阈值区分所述片材的数据值和所述片材的间隙的数据值。

与区分片材的数据值和片材的间隙的数据值的阈值相对应的等值面被认为与片材的表面相对应。因此,能够确定存在文字等的片材的表面。

与本发明的实施方式5相关的书籍电子化方法在上述实施方式2或是3中,包括生成三维数据的步骤,其通过对所述三维数据进行微分计算,生成被微分的三维数据,在所述指定起始点的步骤中,基于在所述被微分的三维数据中的值,指定所述起始点。

在片材与间隙之间的边界处,数据值被认为进行急速变化。通过进行微分计算,与页面区域相对应,能够提取页面与间隙之间的边界。

与本发明的实施方式6相关的书籍电子化装置包括:区域确定部,其使用具有与书籍的片材以及所述片材的间隙相对应的数据值的所述书籍的三维数据,在所述三维数据中,确定与所述书籍的页面相对应的页面区域,数据生成部,其通过将所述页面区域中的文本行或是图案映射于二维平面,生成包含所述书籍中编写的文本行或是图案的二维页面数据。

与本发明的各实施方式相关的书籍的电子化装置,也可以通过计算机实现,在这种情况下,书籍电子化装置的控制程序、以及存储该程序的计算机可读取的存储介质也包括在本发明的范畴中,其中所述控制程序通过使计算机作为上述书籍电子化装置所具备的各个部分(软件要素)运作,在计算机中实现上述书籍电子化装置。

本发明不是限于上述各个实施方式,在权利要求中表示的范围中各种变更都是可能的,通过在不同实施方式中适当地组合每个公开的技术方法可以获得的实施方式也包括在本发明的技术的范围内,进一步的说,通过组合各个实施方式中每个公开的技术方法,能够形成新的技术特征。

附图标记说明

1、2书籍电子化装置

11位置指定部

12面确定部(区域确定部)

13数据生成部

14预处理部

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1