一种建立数字文档目录与正文之间链接的方法及装置的制作方法

文档序号:6470787阅读:155来源:国知局
专利名称:一种建立数字文档目录与正文之间链接的方法及装置的制作方法
技术领域
本发明涉及文档处理技术领域,尤其涉及一种建立数字文档目录与正文之 间链接的方法及装置。
背景技术
文档的目录可以用来索引文档,便于读者的检索和阅读。对于数字文档中, 一般读者希望能够通过点击某个目录项,就可以跳转到对应该目录项的正文部 分,从而可以提高读者查找内容的速度以及阅读的速度。
纸质文档中在文档的前面或者章节的中间部分会有版4又页、目录页、前言、 序、跋、附录和参考文档等非正文部分的内容,在具体的页码标记的过程中,
一般都是每个内容都有各自的页码排序,例如对于目录页共有5页,按照其自 身的页码排序方法分别为第一页到第五页,正文部分从第六页开始,但是按照 其正文部分的排序该页为正文部分的第一页,并且 目录中记录的该正文部分对 应的页码也是第一页,但是该页码并不代表其真正的逻辑页码。
在纸质文档经过光学特征识别(Optical Character Recognition, OCR)转化 为数字文档,或者通过文档处理软件,例如Adobe Acrobat或方正飞腾排版软 件等,直接生成数字文档后,数字文档记录的都是每一页的逻辑页,即以数字 文档为一个整体,每页在这个整体的位置。因此,数字文档的目录中记录的每 个目录条目标记的该内容的自然页,与数字文档的逻辑页之间不存在对应关 系。现有技术中建立数字文档的目录页与正文之间的链接, 一般都是通过人工 手动完成,效率低、链接建立的速度慢,并且准确率也不高。

发明内容
有鉴于此,本发明实施例提供一种建立数字文档目录与正文之间链接的方 法及装置,用以自动建立数字文档目录与正文之间链接,提高数字文档目录与 正文之间链接建立的效率。
本发明实施例提供的一种建立数字文档目录与正文之间链接的方法,其中 所述数字文档目录包含多个目录条目,每个目录条目包含至少一个目录项信
息,包括
从保存的每个目录条目中获取至少一个目录项信息,根据所述至少一个目 录项信息,在数字文档中确定每个目录条目对应的每个逻辑页;
建立每个目录条目与对应的每个逻辑页之间的链接。
本发明实施例提供的一种建立数字文档目录与正文之间链接的装置,其中 所述数字文档目录包含多个目录条目,每个目录条目包含至少一个目录项信 息,包括
逻辑页识别模块,用于从保存的每个目录条目中获取至少一个目录项信 息,根据所述至少一个目录项信息,在数字文档中确定每个目录条目对应的每 个逻辑页;
链接建立模块,用于建立每个目录条目与对应的每个逻辑页之间的链接。 本发明实施例提供的一种建立数字文档目录与正文之间链接的方法,可以 通过根据保存的目录条目信息获取至少一个目录项信息,将该至少一个目录项 信息在数字文档的页面进行匹配,根据匹配的结果确定每个目录条目对应的每 个逻辑页,从而建立每个目录条目与该逻辑页间的链接。采用此自动建立数字 文档目录与正文之间链接的方法,可以有效地提高数字文档的目录与正文之间 链接的建立效率,进而提高数字文档的制作效率。


图1为本发明实施例提供的一种自动建立数字文档目录与正文之间链接的 方法流程图2为本发明实施例提供的一种建立数字文档目录与正文之间链接的方法 具体实施流程图; .日J
目对应的每个逻辑页的方法流程图4为本发明实施例提供的确定字符坐标示意日A :^mwi肝4^的;^攝曰豕常曰卞的杯题日豕,'
目对应的每个逻辑页的方法流程图6A为本发明实施例提供的具体的建立数字文档目录与正文之间链接的 方法具体实施流程图6B为本发明实施例提供的根据页码目录项信息和标题目录项信息确定 逻辑页的方法流程图7为本发明实施例提供的数字文档的目录页; 图8为本发明实施例提供的数字文档的正文页;
图9为本发明实施例提供的一种建立数字文档目录与正文之间链接的装置 结构图。
具体实施例方式
在本发明实施例中为了实现数字文档目录与正文之间链接的自动建立,提 高数字文档目录与正文之间链接建立的效率,如图l所示,提供了一种建立数 字文档目录与正文之间链接的方法,其中所述数字文档目录包含多个目录条 目,每个目录条目包含至少一个目录项信息,具体包括以下步骤
S101:从保存的每个目录条目中获取至少一个目录项信息,根据所述至少 一个目录项信息,在数字文档中确定每个目录条目对应的每个逻辑页。
其中,该获取的至少一个目录项信息包括页码目录项信息和/或标题目录 项信息。
S102:建立每个目录条目与对应的每个逻辑页之间的链接。 下面结合附图对本发明实施例进行详细的说明。
在本发明实施例中所采用的数据文档,能够按页读取该数字文档,并且能 够获取数字文档每页的字符,并可以获得每个字符在每页的坐标信息,同时能 够识别出文字的字体信息,即文字的字体类型,字号等信息。
如图2所示,为本发明实施例中建立数字文档目录与正文之间链接的方法, 具体包括以下步骤
S201:读入数字文档,获取保存的每个目录条目信息。 保存的目录条目为,根据识别的数字文档的目录的信息,将目录中的每一 行作为一个目录条目,该目录条目中包括章节序号目录项,为该目录行代表 的章节序号信息,例如,第二章、第十节等;或标题目录项,为该目录行代表 的标题信息,即章节序号后、页码信息前的文字信息;或页码目录项,为该目 录行中该章节所在的自然页。
S202:根据每个目录条目中的至少一个目录项信息,确定每个目录条目对 应的每个逻辑页。
其中每个目录条目中的至少一个目录项信息包括目录条目中的页码目录 项信息或根据目录条目中的标题目录项信息,或者两者的结合。
S203:建立每个目录条目与对应的每个逻辑页之间的链接。
如图3所示,为本发明实施例提供的根据目录条目中的页码目录项信息, 确定每个目录条目对应的每个逻辑页的方法,具体包括以下步骤
S301:根据每个目录条目中的页码目录项中的页码信息,确定对应该页码 的逻辑页所在的候选页。
根据预置的逻辑页所在的候选页与页码的关系,确定该页码的逻辑页所在 的候选页,其中该预置的规格根据每个目录条目的页码信息,确定每个目录条 目的页码对应的逻辑页所在的候选页包括根据页码目录项中的页码、数字文 档目录页的总页数及设定的范围阈值参数,确定该目录条目的页码对应的逻辑 页所在的候选页,即确定该目录条目对应的逻辑页所在的候选页。
具体为当页码目录项中页码为n时,数字文档目录页的总页数为K,同时 设定的范围阈值参数为D,则可知该页码n对应的逻辑页所在的候选页N为
Z^iVS" +《+ ^。在实际的计算过程中可以根据需要灵活设置范围阈值参 数D的大小,采用合适的范围阈值参数可以达到提高链接建立的效率,同时也 可以满足准确度的要求。
S302:在每个候选页中提取有效信息。
具体包括根据保存的版心范围的信息,及每个候选页中每个字符的坐标, 确定位于该版心范围外的字符,从该版心范围外的字符中提取数字字符。即确 定版心范围外的页眉页脚中的字符,从该字符中提取出数字字符。其中,保存 的版心范围的信息包括版心范围的上边界线、下边界线、左边界限和右边界 线信息,
其中每个字符的坐标包括根据该字符的最小外接矩形框确定的该字符的 坐标,字符的坐标用其最小外接矩形框的两个对角的顶点的坐标表示,如图4, 字符"目"的坐标可以采用顶点1和3的坐标表示,或者采用顶点2和4的坐 标表示,例如采用顶点1和3的坐标表示字符的坐标,该字符的坐标表示为(xj, yi, x2, y2), x!为顶点l的4黄坐标,即顶点1距离坐标轴y的距离,》为顶点 1的纵坐标,即顶点l距离坐标轴x的距离,X2为顶点3的横坐标,即顶点3 距离坐标轴y的距离,y2为顶点3的纵坐标,即顶点3距离坐标轴x的距离。
S303:合并提取的有效信息。
根据提取的数字字符信息,判断每两个数字字符间的距离是否超过设定的 间距阈值,当两个数字字符的间距没有超过设定的间距阈值时,将该两个数字 字符合并为一个数字字符串;否则认为该两个数字字符为两个独立的数字字符 串。
其中,判断每两个数字字符的间距是否超过设定的间距阈值时,可以根据 每两个数字字符的坐标判断,如图4所示的确定每个字符坐标的方法,首先判 断两个字符是否可以认为在同一行,其中具体的判断过程可以比较两个字符的
纵坐标,当了两个数字字符对应的纵坐标的差值的绝对值小于设定的第一条件 值时,判定该两个数字字符在同一行,否则不同行,其中对应的纵坐标,即当
采用一个数字字符的顶点3的纵坐标时,也应该采用第二个数字字符顶点3的 纵坐标;然后判断同行中的两个数字字符的水平间距是否满足设定的第二条件 值,例如比较两个数字字符的横坐标值,当两个横坐标对应的横坐标的差值的 绝对值小于设定的第二条件值时,则判定该两个字符可以合并为一个数字字符 串。当然在具体的计算过程中还可以根据其他采用坐标确定两个数字字符是否 合并为一个数字字符串的方法,这里就不一一赘述。
S304:将目录条目中页码目录项的页码信息与合并的有效信息匹配,根据 匹配的结果确定该目录条目中对应的逻辑页。
具体包括将目录条目中页码目录项的页码与合并后的每个字符串进行大 小的比较,根据合并后的每个字符串是否与页码相同,确定每个候选页对应该 目录条目的第 一 目录条目置信度。可以选取第一 目录条目置信度最高的候选 页,作为该目录条目中对应的逻辑页。
其中具体实施过程中可以包括首先对于目录条目页码目录项中的页码对 应的逻辑页所在候选页中的每个候选页设定一个相同的初始置信度X,将目录 条目页码目录项中的页码与每个候选页中的合并后的每个数字字符串匹配,每 找到一个与该目录条目中的页码匹配的数字字符串时,将该候选页对应的置信 度加Y,当每找到一个与该目录条目冲的页码不匹配的数字字符串时,将该候 选页对应的置信度减E,从而确定该候选页对应该目录条目的第一置信度。例 如该候选页一共合并得到了 5个数字字符串,该候选页的初始执行度为X,有 一个数字字符串与目录条目中的页码匹配,4个数字字符串与目录条目中的页 码不匹配,则可知该候选页对应的置信度为X+Y-4E。其中,X、 Y和E都为 大于零的正实数。
目录条目对应的逻辑页,如图5所示,为本发明实施例提供的根据目录条目中
的标题目录项,确定每个目录条目对应的每个逻辑页的方法,具体包括以下步

S501:根据每页中的所有字符的坐标,在每页中将所有的字符排列为若干行。
具体包括每个候选页的页面中,将所有字符排序,首先判断每两个字符 是否为同一行,以数字文档目录项的排版方向为横排为例,可以按照判断两个 字符的垂直方向的间距是否不超过预置的间距参数h,其中h为正实数,当两 个字符在垂直方向的间距间距不大于间距参数h时,则将两个字符排列在一行, 否则,不将两个字符排列在一行;然后在每一行中,按照横坐标依次递增的原 则将每行的字符排序。如图4所示,则排序后得到此行的最小外接矩形框为(Xm, ym, xn, yn),该行中所有字符的最小外接矩形框包括在该行的最小外接矩形框 内,其中Xm为此行中最左端字符1的横坐标值,该横坐标可以为该字符的左 上顶点的横坐标或左下顶点的横坐标,ym为此行中最上端字符3的纵坐标值,
该纵坐标可以为该字符的左上顶点的纵坐标或右上顶点的纵坐标,Xn为此行中
最右端字符4的横坐标值,该横坐标可以为该字符的右上顶点的横坐标或右下 顶点的横坐标,y。为此行中最下端字符2的纵坐标值,该纵坐标可以为该字符 的左下顶点的纵坐标或右下顶点的纵坐标。
S502:在每行中将该行的字符,与保存的目录条目中的标题目录项中的标 题信息匹配。
具体的匹配过程包括根据最长公共子串(Longest Common Subsequence, LCS)算法,进行字符串间相似度的匹配,该字符串包括目录条目中的标题 及每行的字符;同时再根据设置的至少一个特征信息,确定该行对应标题目录 项信息的总置信度。
其中,该设置的至少一个特征信息包括该行字符在其所在的数字文档页 面中的位置,或该行字符的平均文字宽度与正文部分的平均文字宽度的大小, 或根据LCS算法匹配的字符串是否与其他的文字字符同行。根据上迷至少一 个特征信息与LCS算法可以确定每行字符对应标题目录项信息的总置信度。
S503:根据每页中每行与标题信息的匹配结果,确定该目录条目中对应的 逻辑页。
根据每行字符与标题信息的匹配程度得到总置信度,将每页中每行对应的 最高总置信度作为该页对应该目录条目的第二目录条目置信度,根据每页对应 该目录条目的第二目录条目置信度,确定每个目录条目对应的逻辑页。
当然通过目录条目中的标题信息,确定每个目录条目对应的逻辑页,其具 体的实现过程可靠性高,但是同时也会影响目录与正文之间链接建立的效率, 因此可以采用页码信息和标题信息结合确定每个目录条目对应的逻辑页,具体 包括根据页码信息确定该页码对应的逻辑页所在的候选页,在每个候选页内 进行页码信息的匹配,确定每个候选页对应该目录条目的第 一 目录条目置信 度,同时在每个候选页中根据标题信息进行匹配,确定每个候选页对应该目录 条目的第二目录条目置信度,根据每个候选页对应该目录条目的第一目录条目 置信度,及每个候选页对应该目录条目的第二目录条目置信度,并设定页码信 息匹配和标题信息匹配对应的权重系数,确定每个候选页对应目录条目的总置 信度,从而确定每个目录条目对应的逻辑页。
如图6A所示,为本发明实施例中以内蒙古大学出版社2006年出版的《心 理健康教育》为例,具体说明建立数字文档目录和正文之间链接的方法,具体 包括以下步骤
步骤601:读入数字文档,获取保存的目录条目信息。
该数字文档共有236页,目录条目59条。其中以图7所示第二章第一节 对应的目录条目为例详细描述建立该目录条目与正文之间的链接的过程。该目 录条目中章节目录项为"第一节",标题目录项为"自我意识概述",页码目录 项为"20"。
步骤602:根据保存的目录条目的信息设置的至少一个目录项信息,确定 每个目录条目对应的逻辑页。
步骤603:根据确定的每个目录条目对应的逻辑页,建立每个目录条目和 对应的每个逻辑页的链接。
如图6B所示为在本发明实施例中按照目录条目中的页码目录项的页码信 息和标题目录项中的标题信息,确定每个目录条目对应的逻辑页的方法,具体 确定每个目录条目对应的逻辑页的过程包括
步骤602a:根据目录条目中的页码目录项中的页码信息,确定每个目录条 目对应的逻辑页所在的候选页。
其中该目录条目的页码目录项中页码为20,根据设置的逻辑页所在的候选 页与页码的关系"+ K-D^A^" + K + D,其中该数字文档的总页数K为5,范围 阈值参数D为3,则确定该目录条目对应的逻辑页所在的候选页为第22页到 第28页。
步骤602b:在每个候选页内提取有效信息。
在本发明实施例中保存的该数字文档的版心范围信息为,上边界线纵坐标 为80.73,左边界线的横坐标为O,右边界线的横坐标为485,下边界线的纵坐 标为697.10。在每个候选页内,根据每个字符的坐标,确定版心范围外的字符, 并从版心范围外的字符中提取数字字符。在具体的计算过程中,如图4所示, 每个字符的坐标根据该字符的最小外接矩形框的顶点1和顶点3的坐标确定, 当字符的顶点1的纵坐标比80.73小,或顶点3的纵坐标比697.10大,或顶点 l的横坐标比O小,或顶点3的横坐标比485大时,都认为该字符的位于版心 范围外。
在位于版心范围外的字符中提取出数字字符。将提出的数字字符进行合 并。例如提取出数字字符为"7"和"1",其中数字字符"7"的坐标为(421.05,699.83: 425.76,706.94),数字字符T的坐标为(416.74, 699.83, 419.47, 706.94)。 将提取出的数字字符按照其坐标排序。例如数字字符"1"顶点1的横坐标大 于数字字符"7"顶点l的横坐标,数字字符"1"顶点3的横坐标小于数字字 符"7"顶点3的纟黄坐标,并且数字字符"1"和"7"对应的纵坐标相同,则
可知两个数字字符在同一行,且数字字符"r在数字字符"7"的左边。 同时数字字符"7"顶点i的横坐标与数字字符"r顶点3的横坐标的差
为1.58,设定的间距阈值为2.37到4.71间的一个凄t值,则可知两个数字字符 可以合并为一个数字字符串,合并后该数字字符串为"17",且该数字字符串 的坐标为(416.74, 699.83, 425.76, 706.94)。
步骤602c:将提取的有效信息和保存的目录条目中的页码信息进行匹酉己, 确定每个候选页对应该目录条目的第一目录条目置信度。
将合并后的数字字符串与目录条目中的页码信息进行比较。该目录条目中 的页码信息为20,并后的数字字符串为17,此两个数字字符不符。因此将候 选页的置信度减E,本实施例初始置信度X为50, E为6,则可知本候选页的 置信度为44。
采用上述方法可以得到,对于自然页数为第22页到第28页中的每个候选 页进行页码匹配后得到的第一目录条目置信度分别为44, 44, 44, 80, 44, 44, 44。
步骤602d:根据每页中的所有的字符的坐标,在每页中将所有的字符排列 为若干行。
为了保证每一页中所有字符按照行排列,在排列的过程中字符间的水平中 轴线间的垂直距离需要满足一定的条件,此字符间的水平中轴线的垂直距离可 以根据计算字符的上端和下端的两个顶点的纵坐标的平均值,再计算两个字符 的对应的纵坐标的平均值的差值确定。在本发明实施例中判断两个字符A和B 是否能够排在一行的方法为计算字符A的两个纵坐标的平均值,并计算字符 A的较大的纵坐标与较小的纵坐标的差值,同时计算字符B的两个纵坐标的平 均值,并计算字符B的较大的纵坐标与较小的纵坐标的差值,判断字符A、 B 对应的纵坐标的平均值的差值,是否小于两个字符A、 B中较小的较大的纵坐 标与较小的纵坐标的差值与参数的乘积,即判断
<formula>formula see original document page 17</formula>
其中,MIN表示取两者中较小值,j是小于1的正实数,Y《A)为字符A的较 小的纵坐标值,Y2(A)为字符A的较大的纵坐标值,Yi(B)为字符B的较小的纵 坐标值,Y2(B)为字符B的较大的纵坐标值。当判断结果为是时,将A和B排 列到一行,否则将A和B排列到不同行,然后依次判断B和C两个字符的纵 坐标是否满足上述条件,判断B和C是否排列到一行。采用此方法将每一页 中所有字符进行排列。采用此方法排列后,每一行对应一个最小外接矩形框, 如图4所示。
步骤602e:将每个候选页的每行与目录条目中的标题信息匹配,确定每个 候选页对应目录条目的第二目录条目置信度。
步骤602f:根据每个候选页对应每个目录条目的第一目录条目置信度以及 对应每个目录条目的第二置信度,确定每个候选页对应每个目录条目的总置信 度,根据该总置信度确定每个目录条目对应的逻辑页。
根据每个候选页对应目录条目的第一目录条目置信度dPageVeri以及对应 目录条目的第二目录条目置信度+dTitleVeri,以及第 一 目录条目置信度对应的 权重系数dPageWeight以及第二目录条目置信度对应的权重系数dTitleWeight, 确定每个候选页对应每个目录条目的总置信度,其中第一目录条目置信度对应 的权重系数dPageWeight与第二目录条目置信度对应的权重系数dTitleWeight 的和为1,并且都为大于零的正实数,例如dPage Weight为0.4, dPage Weight 为0.6。采用上述确定总置信度的方法得到如图8所示的自然页为第25页的候 选页的总置信度为94。选^f总置信度最高的候选页为该目录条目对应的逻辑 页。同时也可以设定总置信度阈值,将总置信度超过总置信度阈值的候选页, 作为该目录条目对应的逻辑页。
其中,确定每个候选页对应目录条目的第二目录条目置信度的过程包括
如图8所示为本发明实施例提供的排列后的自然页为第25页的内容,采
用LCS算法将候选页中每行的字符与目录条目中的标题字符进行匹配,根据 匹配的结果确定候选页中每行对应该标题目录项信息的第一目录项信息置信 度,确定第二目录项信息置信度的过程包括确定候选页中每行的字符在每行 中的位置,根据该位置确定每行的第二置信度,并比较每行字符的平均文字宽 度与正文部分的平均文字宽度大小,确定每行的第三置信度,同时根据LCS 算法匹配成功的字符串,确定该字符串是否与其他文字字符同行,确定每行对 应的第四置信度,根据上述条件对应的第二置信度、第三置信度和第四置信度, 及每个条件对应的权重系数,确定每行对应该标题目录项信息的第二目录项信 息置信度,根据该第一目录项信息置信度和第二目录项信息置信度,确定每行 的总目录项信息置信度。根据每个页面中每行的总目录项信息置信度,取其中 总置信度最大的值作为该候选页对应该目录条目的第二目录条目置信度。
其中采用LCS算法将候选页中每行的字符与目录条目中的标题进行匹配, 该算法输入的参数是两个字符串,该两个字符串为目录条目的标题以及待匹配 行的字符串,经计算后返回这两个字符串最长的公共子串部分,根据返回的最 长的公共字符串部分,可以确定两个字符串的相似度从而确定该行的第一目录 项信息置信度。例如将第25页第二行的字符"第一节自我意识概述"与目 录条目的标题"自我意识概述"根据LCS算法进行匹配,经匹配后输出的结 果为"自我意识概述",匹配后的结果与目录条目的标题相同,则可以确定该 行的第一目录项信息置信度为100。第一目录项信息置信度越高的行,则该行 的字符与目录条目的标题的相似度越高。
并且进行每行字符位置的判断。每行字符位置的判断过程具体包括比较 根据每行的字符所在行的坐标确定的第一中轴线,与根据版心范围的左、右边 界线确定的第二中轴线的水平距离差的绝对值,根据该水平距离差的绝对值确 定每行的第二置信度。其中第二置信度越高的行,则该水平距离差的绝对值越 小。
并且在确定每行的字符的位置时,也可以根据每行的坐标确定每行的字符
的大概位置是否位于根据版心范围的左、右边界线确定的中间位置,当该行的 字符位于该中间位置时,根据该行的坐标确定该行的长度是否满足设定的长度 条件,例如该设定的长度条件为小于整个版心范围右边界线和左边界线差值的
80%,根据该行的长度是否满足设定的长度条件,确定该行的第二置信度;或 者也可以当该行的字符位于版心的左边时,根据该行的坐标确定该行的长度是 否满足设定的长度条件,例如该设定的长度条件为小于整个版心范围右边界线 和左边界线差值的70%,确定该行的第二置信度。
其中,在根据每行的坐标确定每行的字符的大概位置时,例如图4所示的 行坐标,可以比较每行的坐标中Xm与版心范围的左边界线的第一差值,以及 版心范围的右边界线与Xn的第二差值的大小,当第一差值与第二差值的差大 于设定的差值阈值时,则判断该行的字符位于整个版心的两边,并且当第一差 值较第二差值大时,判断该行的字符位于整个版心的右端,当第一差值较第二 差值小时,判断该行的字符位于整个版心的左端。当然在实际的位置判断过程 中可能还有很多的方法,但是基于本发明实施例思想根据坐标差判断每行字符 位置的方法都应该在本发明的保护范围内。
同时判断每行字符的平均文字宽度与数字文档正文的平均文字宽度的大 小,例如图8中第二行的平均文字宽度为13.77,该数字文档中正文的平均文 字宽度为10.29,该第二行的平均文字宽度大于数字文档中正文的平均文字宽 度,确定该行对应的第三置信度。其中第三置信度越高的行,该行字符的平均 文字宽度越大。
并且根据LCS算法匹配成功的字符串,判断该行中是否还存在其他的文 字字符。具体判断该行中是否还存在其他的字符的过程中,将与该匹配成功的 字符串的坐标直接相邻的文字字符,确定为该行中存在其他的文字字符,当有 文字字符与该匹配成功的字符存在间接连接关系时,例如"第二节自我意识 概述",匹配成功的字符为"自我意识概述",与该字符串在坐标上相连的为空 格,"第二节"与该字符串存在间接连接关系,可以认为该匹配成功的字符串
所在的行中不存在其他的文字字符,根据该匹配成功的字符串所在的行中是否 存在其他的文字字符,确定该行的第四置信度。
根据每行的第一目录项信息置信度、以及由第二置信度、第三置信度和第 四置信度确定的第二目录项信息置信度,及每个置信度对应的权重系数,确定 每行的总目录项信息置信度,取总目录项信息置信度最高的值作为每个候选页 对应该目录条目的第二目录条目置信度,其中,每个置信度对应的权重系数为 正实数。
本发明实施例提供的一种建立数字文档目录与正文之间链接的方法,可以 通过根据保存的目录条目信息获取至少一个目录项信息,将该至少一个目录项 信息在数字文档的页面进行匹配,根据匹配的结果确定每个目录条目对应的每 个逻辑页,从而建立每个目录条目与该逻辑页间的链接。采用此自动建立数字 文档目录与正文之间链接的方法,可以有效地提高数字文档的目录与正文之间 链接的建立效率,进而提高数字文档的制作效率。
同时由于在数字文档中,影响目录条目中的自然页和实际的逻辑页不对应 的主要因素为正文之前的版权页、目录页、前言、序附录等内容,因此只要在 建立数字文档的目录与正文之间的链接的过程中,识别出该正文前版权页、目 录页、前言、序附录等内容的页数,根据该页数及保存的数字文档目录条目中 的页码信息,也可以确定每个目录条目对应的逻辑页,从而建立每个目录条目 和每个逻辑页之间的链接。具体的实现过程中相信本领域的技术人员可以根据 本发明实施例提供的方法进行具体的实施,这里就不——赘述。
如图9所示,为本发明实施例提供了 一种建立数字文档目录与正文之间链 接的装置,其中所述数字文档目录包含多个目录条目,每个目录条目包含至少 一个目录项信息,包括
逻辑页识别模块90,用于从保存的每个目录条目中获取至少一个目录项信 息,根据所述至少一个目录项信息,在数字文档中确定每个目录条目对应的每 个逻辑页;
链接建立模块91,用于建立每个目录条目与对应的每个逻辑页之间的链接。
所述逻辑页识别模块90包括
第一识别单元901,用于当获得的至少一个目录项信息为页码目录项信息 时,在数字文档中确定每个目录条目对应的每个逻辑页。 所述第一识别单元901包括
第一候选页确定子单元9010,用于按照预置的规则才艮据每个目录条目的页 码目录项信息,确定所述每个目录条目对应的逻辑页所在的候选页;
第一匹配子单元9011,用于在每个候选页中提取有效信息,比较每个有效 信息与该目录条目中的页码目录项信息是否相同;
第一计算子单元9012,用于根据每个有效信息与所述页码目录项信息是否 相同,确定每个候选页对应该目录条目的第一置信度;
逻辑页第一确定子单元9013,用于根据所述第一置信度确定每个目录条目 对应的每个逻辑页。
所述逻辑页识别模块卯包括
第二识别单元902,用于当获取的至少一个目录项信息为标题目录项信息 时,在数字文档中确定每个目录条目对应的每个逻辑页。 所述第二识别单元902包括
行置信度第一确定子单元9020,用于根据每个目录条目中的标题目录项信 息与每页数字文档中每行字符的相似度,确定该页数字文档中每行字符对应该 标题目录项信息的第一置信度;
行置信度第二确定子单元9021 ,用于根据该页数字文档中每行字符的至少 一个特征信息,确定该页数字文档中每行字符对应该标题目录项信息的第二置 信度;
第二计算子单元9022,用于根据该页数字文档中每行字符对应该标题目录 项信息的总置信度,确定该页数字文档对应该目录条目的第二置信度;
逻辑页第二确定子单元9023,用于根据所述第二置信度确定每个目录项信 息对应的每个逻辑页。
其中行置信度第二确定子单元卯21中的至少一个特征信息包括数字文 档中每行字符的位置信息、或数字文档中每行字符的平均文字宽度信息,或数 字文档与所述标题目录项目信息完全相似的字符是否与其他文字字符同行。
所述逻辑页识别模块90包括
第三识别单元903,用于当所述至少一个目录项信息为页码目录项信息和 标题目录项信息时,在数字文档中确定每个目录条目对应的每个逻辑页。 所述第三识别单元903包括
第二候选页确定子单元9030,用于根据每个目录条目中的页码目录项信 息,确定每个目录条目对应的逻辑页所在的候选页;
第一置信度确定子单元9031,用于确定每个候选页对应每个目录条目中的 第一置信度;
第二置信度确定子单元卯32,用于确定每个候选页对应每个目录条目中的 第二置信度;
总置信度确定子单元9033,用于根据所述第一置信度和所述第二置信度确 定每个候选页对应每个目录条目的总置信度;
逻辑页第三确定子单元9034,用于根据所述总置信度确定每个目录条目对 应的逻4辱页。
所述第一置信度确定子单元9031包括
第一匹配子模块,用于在每个候选页中提取有效信息,比较每个有效信息 与该目录条目中的页码目录项信息是否相同;
第一计算子模块,用于根据每个有效信息与所述页码目录项信息是否相 同,确定每个候选页对应该目录条目的第一目录条目置信度。
所述第二置信度确定子单元9032包括
行置信度第一确定子模块,用于根据每个目录条目中的标题目录项信息与
每个候选页中每行字符的相似度,确定该候选页中每行字符对应该标题目录项
信息的第 一录项信息置信度;
行置信度第二确定子模块,用于根据该候选页中每行字符的至少一个特征 信息,确定该候选页中每行字符对应该标题目录项信息的第二目录项信息置信
度;
第二计算子模块,用于根据该候选页中每行字符对应该标题目录项信息的 总置信度,确定该候选页对应该目录条目的第二目录条目置信度。
本发明实施例提供的一种建立数字文档目录与正文之间链接的方法,可以 通过根据保存的目录条目信息获取至少一个目录项信息,将该至少一个目录项 信息在数字文档的页面进行匹配,根据匹配的结果确定每个目录条目对应的每 个逻辑页,从而建立每个目录条目与该逻辑页间的链接。采用此自动建立数字 文档目录与正文之间链接的方法,可以有效地提高数字文档的目录与正文之间 链接的建立效率,进而提高数字文档的制作效率。
明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及 其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
权利要求
1、一种建立数字文档目录与正文之间链接的方法,其中所述数字文档目录包含多个目录条目,每个目录条目包含至少一个目录项信息,其特征在于,包括从保存的每个目录条目中获取至少一个目录项信息,根据所述至少一个目录项信息,在数字文档中确定每个目录条目对应的每个逻辑页;建立每个目录条目与对应的每个逻辑页之间的链接。
2、 如权利要求1所述的方法,其特征在于,所述获取至少一个目录项信 息包括获取页码目录项信息和/或标题目录项信息。
3、 如权利要求2所述的方法,其特征在于,当获得的至少一个目录项信 息为页码目录项信息时,在数字文档中确定每个目录条目对应的每个逻辑页包 括按照预置的规贝'J根据每个目录条目的页码目录项信息,确定所述每个目录 条目对应的逻辑页所在的候选页;在每个候选页中提取有效信息,比较每个有效信息与该目录条目中的页码 目录项信息是否相同;根据每个有效信息与所述页码目录项信息比较结果,确定每个候选页对应 该目录条目的第一 目录条目置信度;根据所述第一目录条目置信度确定每个目录条目对应的每个逻辑页。
4、 如权利要求2所述的方法,其特征在于,当获取的至少一个目录项信 息为标题目录项信息时,在数字文档中确定每个目录条目对应的每个逻辑页包 括根据每个目录条目中的标题目录项信息与每页数字文档中每行字符的相 似度,确定该页数字文档中每行字符对应该标题目录项信息的第一目录项信息 置信度; 根据该页数字文档中每行字符的至少 一个特征信息,确定该页数字文档中每行字符对应该标题目录项信息的第二目录项信息置信度;根据该页数字文档中每行字符对应该标题目录项信息的第一目录项信息 置信度和第二目录项信息置信度,确定该页数字文档中每行字符对应该标题目 录项信息的总目录项信息置信度;根据该页数字文档中每行字符对应该标题目录项信息的总目录项信息置 信度,确定该页数字文档对应该目录条目的第二目录条目置信度;根据所述第二目录条目置信度确定每个目录项信息对应的每个逻辑页。
5、 如权利要求4所述的方法,其特征在于,所述至少一个特征信息包括 数字文档中每行字符的位置信息、或数字文档中每行字符的平均文字宽度信息,或数字文档与所述标题目录项目信息完全相似的字符是否与其他文字字 符同行信息。
6、 如权利要求2所述的方法,其特征在于,当所述至少一个目录项信息 为页码目录项信息和标题目录项信息时,在数字文档中确定每个目录条目对应 的每个逻辑页包括根据每个目录条目中的页码目录项信息,确定每个目录条目对应的逻辑页 所在的候选页;在每个候选页中提取有效信息,比较每个有效信息与该目录条目中的页码 目录项信息是否相同,根据每个有效信息与所述页码目录项信息比较结果,确 定每个候选页对应该目录条目的第一目录条目置信度;并根据每个目录条目中的标题目录项信息与每个候选页中每行字符的相似 度,确定该候选页中每行字符对应该标题目录项信息的第一目录项信息置信 度;根据该候选页中每行字符的至少一个特征信息,确定该候选页中每行字符 对应该标题目录项信息的第二目录项信息置信度;根据该候选页中每行字符对 应的所述第一目录项信息置信度和第二目录项信息置信度,确定该候选页中每 行字符对应该标题目录项信息的总目录项信息置信度;根据该页数字文档中每 行字符对应该标题目录项信息的总目录项信息置信度,确定该页数字文档对应该目录条目的第二目录条目置信度;根据所述第一目录条目置信度和第二目录条目置信度确定每个候选页对 应每个目录条目的总置信度;根据所述总置信度确定每个目录条目对应的逻辑页。
7、一种建立数字文档目录与正文之间链接的装置,其中所述数字文档目 录包含多个目录条目,每个目录条目包含至少一个目录项信息,其特征在于, 所述装置包括逻辑页识别模块,用于从保存的每个目录条目中获取至少一个目录项信 息,根据所述至少一个目录项信息,在数字文档中确定每个目录条目对应的每 个逻辑页;链接建立模块,用于建立每个目录条目与对应的每个逻辑页之间的链接。
8、 如权利要求7所述的装置,其特征在于,所述逻辑页识别模块包括 第一识别单元,用于当获得的至少一个目录项信息为页码目录项信息时,在数字文档中确定每个目录条目对应的每个逻辑页。
9、 如权利要求8所述的装置,其特征在于,所述第一识别单元包括 第一候选页确定子单元,用于按照预置的规则根据每个目录条目的页码目录项信息,确定所述每个目录条目对应的逻辑页所在的候选页;第一匹配子单元,用于在每个候选页中提取有效信息,比较每个有效信息与该目录条目中的页码目录项信息是否相同;第一计算子单元,用于根据每个有效信息与所述页码目录项信息是否相同,确定每个候选页对应该目录条目的第一目录条目置信度;逻辑页第一确定子单元,用于根据所述第一目录条目置信度确定每个目录条目对应的每个逻辑页。
10、 如权利要求7所述的装置,其特征在于,所述逻辑页识别模块包括 第二识别单元,用于当获取的至少一个目录项信息为标题目录项信息时, 在数字文档中确定每个目录条目对应的每个逻辑页。
11、 如权利要求IO所述的装置,其特征在于,所述第二识别单元包括 行置信度第一确定子单元,用于根据每个目录条目中的标题目录项信息与每页数字文档中每行字符的相似度,确定该页数字文档中每行字符对应该标题 目录项信息的第一录项信息置信度;行置信度第二确定子单元,用于根据该页数字文档中每行字符的至少一个 特征信息,确定该页数字文档中每行字符对应该标题目录项信息的第二目录项 信息置信度;第二计算子单元,用于根据该页数字文档中每行字符对应该标题目录项信 息的总置信度,确定该页数字文档对应该目录条目的第二目录条目置信度;逻辑页第二确定子单元,用于根据所述第二置信度确定每个目录项信息对 应的每个逻辑页。
12、 如权利要求7所述的装置,其特征在于,所述逻辑页识别模块包括 第三识别单元,用于当所述至少一个目录项信息为页码目录项信息和标题目录项信息时,在数字文档中确定每个目录条目对应的每个逻辑页。
13、 如权利要求12所述的装置,其特征在于,所述第三识别单元包括 第二候选页确定单元,用于根据每个目录条目中的页码目录项信息,确定每个目录条目对应的逻辑页所在的候选页;第一置信度确定子单元,用于确定每个候选页对应每个目录条目中的第一 目录条目置信度;第二置信度确定子单元,用于确定每个候选页对应每个目录条目中的第二 目录条目置信度;总置信度确定子单元,用于根据所述第一目录条目置信度和所述第二目录 条目置信度确定每个候选页对应每个目录条目的总置信度;逻辑页第三确定子单元,用于根据所述总置信度确定每个目录条目对应的逻辑页。
14、 如权利要求13所述的装置,其特征在于,所述第一置信度确定子单 元包括第一匹配子模块,用于在每个候选页中提取有效信息,比较每个有效信息 与该目录条目中的页码目录项信息是否相同;第一计算子模块,用于根据每个有效信息与所述页码目录项信息是否相 同,确定每个候选页对应该目录条目的第一目录条目置信度。
15、 如权利要求13所述的装置,其特征在于,所述第二置信度确定子单 元包括行置信度第一确定子模块,用于根据每个目录条目中的标题目录项信息与 每个候选页中每行字符的相似度,确定该候选页中每行字符对应该标题目录项 信息的第一录项信息置信度;行置信度第二确定子模块,用于根据该候选页中每行字符的至少一个特征 信息,确定该候选页中每行字符对应该标题目录项信息的第二目录项信息置信 度;第二计算子模块,用于根据该候选页中每行字符对应该标题目录项信息的 总置信度,确定该候选页对应该目录条目的第二目录条目置信度。
全文摘要
本发明公开了一种建立数字文档目录与正文之间链接的方法及装置,用以提供一种自动建立数字文档目录与正文之间链接的方法,提高数字文档与正文之间链接建立的效率。该方法包括,从保存每个目录条目信息获取至少一个目录项信息,根据所述至少一个目录项信息,在数字文档中确定每个目录条目对应的每个逻辑页;建立每个目录条目与对应的每个逻辑页之间的链接。如本发明提出的方案,通过自动建立数字文档目录与正文之间链接,可以有效地提高数字文档的目录与正文之间链接的建立效率,进而提高数字文档的制作速度。
文档编号G06F17/30GK101354727SQ20081022278
公开日2009年1月28日 申请日期2008年9月24日 优先权日2008年9月24日
发明者帜 汤, 褚一民, 欣 陶, 高良才 申请人:北京大学;北大方正集团有限公司;北京方正阿帕比技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1