一种提取文档信息的方法及装置的制造方法

文档序号：9887650阅读：180来源：国知局

一种提取文档信息的方法及装置的制造方法
【技术领域】
[0001]本发明涉及一种电数字数据处理领域，具体地说是一种提取文档信息的方法。
【背景技术】
[0002]版式文档格式是版面呈现效果固定的电子文档格式，版式文档的呈现与设备无关，在各种设备上阅读、打印或印刷时，其版面的呈现结果都是一致的。版式文档主要应用于成文后文件的发布、传播和存档。版式文档的特点是版面固定、不跑版，即所见即所得(What you see is what you get,简称WYSIWYG),使电子文档在使用过程中，呈现效果不因软硬件环境、操作者的变化而变化，在版式、版面、字体、字号等方面与纸质文件保持完全一致。版式文档格式的特点使它成为电子文档发布、数字化信息传播和存档的理想文档格式。越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用版式文档，在国外，Adobe公司的PDF版式文档格式目前已成为数字化信息事实上的一个工业标准。
[0003]随着越来越多的书本实现了数字化，这些数字化书本多以版式电子文档的形式储存，有些还以多重分栏来显示，如何在各种分栏情况下让计算机来理解版式电子文档中目录与正文的关系则成为一个极具重要的问题。目前，对于目录与正文的关系，几乎所有都是只考虑单栏，完全不考虑分栏情况。对于单栏的版式文档，文本块是根据横坐标来提取。但是，由于在多栏的情况下，同一横坐标对应着不同的文本块，在分栏模式下，将有极大可能会丢失掉部分分栏的文档信息，因此无法实现多栏下文本块的提取，无法在多栏状况下提取目录对应的文本信息，从而导致了后续工作无法正确、顺利的实施。因此，如何解决分栏情况下目录与对应正文文档信息的提取成为了重中之重。

【发明内容】

[0004]为此，本发明所要解决的技术问题在于版式文档在分栏情况下无法准确提取目录与正文的连接关系，从而提出一种无论是在单栏或者分栏情况下，仍能够准确且便捷的提取文档信息的方法。
[0005]为解决上述技术问题，本发明的提供一种提取文档信息的方法和装置。
[0006]本发明中的提取文档信息的方法，包括:
[0007]提取文本数据块；
[0008]获取文本数据块的开始位置和结束位置的横纵坐标；
[0009]按照所述文本数据块的开始位置和结束位置的横纵坐标对所有数据块进行排序;
[0010]获取文本数据块中的目录文本数据块；
[0011]根据目录文本数据块获取目录对应的文档文本数据块。
[0012]优选地，按照所述文本数据块的开始位置和结束位置的横纵坐标对所有数据块进行排序的处理，包括:
[0013]将开始位置和结束位置横坐标相同的文本数据块分为一栏；
[0014]根据每栏中文本数据块的开始位置或结束位置的横坐标将每一栏进行排序；
[0015]将属于同一栏中的文本数据块根据开始位置或结束位置的纵坐标进行排序。
[0016]优选地，所述根据目录文本数据块获取目录对应的文档文本数据块的过程，包括:
[0017]获取相邻两个目录之间对应的文本数据块；
[0018]根据所述文本数据块的位置提取目录对应的文档文本数据块。
[0019]优选地，根据所述文本数据块的位置提取目录对应的文档文本数据块的处理，包括:
[0020]将待提取信息的目录作为目标目录，提取目标目录对应的内容过程为:
[0021 ]目标目录不存在时，提取目标目录的下一目录文本块之前的所有文本数据块作为目标目录的文档文本数据块；
[0022]目标目录存在下一目录时，提取位于目标目录和下一目录之间的所有文本数据块作为目标目录的文档文本数据块；
[0023]目标目录不存在下一目录时，提取目标目录下所有文本数据块作为目标目录的文档文本数据块。
[0024]优选地，所述获取文本数据块中的目录文本数据块的处理，包括:
[0025]将文本数据块中的文字与目录中的文字进行匹配；
[0026]根据匹配结果确定文本数据块中的目录文本数据块。
[0027]本发明还提供一种提取文档信息的装置，包括:
[0028]文本数据块提取单元:提取文本数据块；
[0029]坐标提取单元:获取文本数据块的开始位置和结束位置的横纵坐标；
[0030]排序单元:按照所述文本数据块的开始位置和结束位置的横纵坐标对所有数据块进打排序；
[0031]目录文本数据块获取单元:获取文本数据块中的目录文本数据块；
[0032]目录文档获取单元:根据目录文本数据块获取目录对应的文档文本数据块。
[0033]优选地，排序单元包括:
[0034]分栏子单元:将开始位置和结束位置横坐标相同的文本数据块分为一栏；
[0035]分栏排序子单元:根据每栏中文本数据块的开始位置或结束位置的横坐标将每一栏进彳T排序；
[0036]栏内排序子单元:将属于同一栏中的文本数据块根据开始位置或结束位置的纵坐标进行排序。
[0037]优选地，目录文档获取单元包括:
[0038]获取子单元:获取相邻两个目录之间对应的文本数据块；
[0039]提取子单元:根据所述文本数据块的位置提取目录对应的文档文本数据块。
[0040]
[0041]优选地，提取子单元包括:
[0042]第一提取子单元:目标目录不存在时，提取目标目录的下一目录文本块之前的所有文本数据块作为目标目录的文档文本数据块；
[0043]第二提取子单元:目标目录存在下一目录时，提取位于目标目录和下一目录之间的所有文本数据块作为目标目录的文档文本数据块；
[0044]第三提取子单元:目标目录不存在下一目录时，提取目标目录下所有文本数据块作为目标目录的文档文本数据块。
[0045]优选地，目录文本数据块获取单元包括:
[0046]匹配子单元:将文本数据块中的文字与目录中的文字进行匹配；
[0047]目录文本数据块确定单元:根据匹配结果确定文本数据块中的目录文本数据块。
[0048]本发明的上述技术方案相比现有技术具有以下优点，
[0049](I)本发明提供一种提取文档信息的方法，提取文本数据块，并获取文本数据块的开始位置和结束位置的横纵坐标，然后按照所述文本数据块的开始位置和结束位置的横纵坐标对所有数据块进行排序，在排序后的数据块流中获取文本数据块中的目录文本数据块，最后根据目录文本数据块获取目录对应的文档文本数据块，这样，就实现了准确便捷的获取与目录对应的文档信息，由于该方案中使用了数据块中起始位置的横纵坐标，充分考虑了分栏情况，该方案对于具有多栏分栏的情况，可以准确进行文本块的识别，因此获得准确的与目录对应的文档信息。该方案实现了无论是在单栏或者分栏情况下，仍能够准确且便捷的获取需要的文档信息，达到提升用户体验，丰富应用场景的目的。
[0050]

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：林欣欣;易珏玲;
技术所有人：北大方正集团有限公司;北京方正阿帕比技术有限公司;
我是此专利的发明人

上一篇：网页过滤方法和装置的制造方法
上一篇：一种电子文档页面类型识别方法和系统的制作方法