终端、版式文档内容描述优化装置和方法

文档序号:6503092阅读:135来源:国知局
终端、版式文档内容描述优化装置和方法
【专利摘要】本发明提供了一种版式文档内容描述优化装置、一种终端和一种版式文档内容描述优化方法,其中版式文档内容描述优化装置包括:解析单元,解析原始版式文档内容,得到文本图元数据;识别单元,识别出文本图元数据中每一字符的文本属性;文字节点归类单元,按照文本属性对文本图元数据中的字符进行归类,将具有相同文本属性的字符与相同文本属性保存至同一个文字节点;文字内容节点归类单元,针对每一文字节点中保存的字符,将属于同一行或同一列的字符、同一行或同一列的起始字符的坐标、同一行或同一列的平均字间距保存至文字内容节点,以得到优化后的版式文档内容。可实现使用尽可能少的数据来描述尽可能多的文本内容,以减小版式文档的体积。
【专利说明】终端、版式文档内容描述优化装置和方法

【技术领域】
[0001]本发明涉及计算机【技术领域】,具体而言,涉及一种版式文档内容描述优化装置、具有该版式文档内容描述优化装置的终端和一种版式文档内容描述优化方法。

【背景技术】
[0002]在版式文档的内容中,文本是十分重要的一部分。版式文档中对文本内容的描述方式不同,其解析效率、显示效果以及文件体积也会不同。版式文档中对于文本内容的保存方式,最简单一种就是直接保存每一个字符的坐标和文字信息。这种方式实现简单,保存方便;但是,版式文档中的文本数据数量巨大,使用这种方式保存文本内容,需要保存的坐标和文字信息也相应的会占用很大的数据量,从而使得文本内容的描述存在大量的冗余信息,文档体积增大。
[0003]因此,需要一种简单可行的且可减小文档体积的版式文档内容描述技术。


【发明内容】

[0004]考虑到相关技术中出现的技术问题,本发明所要解决的技术问题在于,提供一种版式文档内容描述优化技术,可实现使用尽可能少的数据来描述尽可能多的文本内容,从而减小版式文档的体积。
[0005]根据本发明的一个方面,提供了一种版式文档内容描述优化装置,包括:解析单元,用于解析原始版式文档内容,得到文本图元数据;识别单元,用于识别出所述文本图元数据中每一字符的文本属性;文字节点归类单元,用于按照所述文本属性对所述文本图元数据中的字符进行归类,将具有相同文本属性的字符与所述相同文本属性保存至同一个文字节点;文字内容节点归类单元,用于针对每一所述文字节点中保存的字符,将属于同一行或同一列的字符、所述同一行或所述同一列的起始字符的坐标、所述同一行或所述同一列的平均字间距保存至文字内容节点,以得到优化后的版式文档内容,其中,所述文字内容节点是位于所述文字节点下的且与所述同一行或所述同一列对应的文字内容节点。
[0006]将具有相同文本属性的字符保存在同一个文字节点中,同时在该文字节点中保存相应的文本属性;将文本属性相同,并且处于同一行(列)的字符保存在同一个文字内容节点中,使用起始字符坐标和字间距结合的方式来表示多个文字的版式位置信息,从而使得版式文档对于文本内容的描述方式进行简化,减少文本描述数据的冗余,减小版式文档的体积。
[0007]在上述技术方案中,优选的,所述文字节点归类单元包括:第一判断子单元,用于针对所述文本图元数据中每一行或每一列的字符,判断当前字符的文本属性与相邻字符的文本属性是否相同,所述文字节点归类单元在所述第一判断子单元的判断结果为相同时,将所述当前字符保存至与所述相邻字符相对应的文字节点中。
[0008]在建立文字节点时,逐一判定文本图元数据中的字符属于哪种文本属性,将具有相同文本属性的字符归类放在一个文字节点中,如果文本属性有8种,则相对于该文本图元数据的文字节点为8个。
[0009]在上述技术方案中,优选的,所述文字节点归类单元还可以包括:第一创建子单元,在所述判断结果为不相同时,新建文字节点,将所述当前字符保存至新建的文字节点。
[0010]在上述技术方案中,优选的,所述文字内容节点归类单元包括:计算子单元,用于针对每一所述文字节点中的字符,缓存属于同一行或同一列的字符,计算所述同一行或同一列的字符之间的所述平均字间距和实际字间距;第二判断子单元,用于将连续确定的实际字间距与所述平均字间距之间的差值连续小于等于预设值的字符加入至所述文字内容节点,并将所述平均字间距和第一个加入所述文字内容节点中的字符的坐标保存至所述文字内容节点;第二创建子单元,用于将实际字间距与所述平均字间距之间的差值大于预设值的字符加入至新建的且与所述同一行或同一列对应的文字内容节点。
[0011]在建立好文字节点后,针对每一文字节点,进行文字内容节点归类。在进行文字内容节点归类时,首先分析该文字节点中属于同一行或同一列的字符,计算出该行或该列的平均字间距,将该行或该列中的实际字间距接近或等于平均字间距的字符加入至与该行或该列对应的文字内容节点中,并将该行或该列中的其余字符加入至新建的文字内容节点中。这样,针对每个文字节点,根据字符间距情况将该文字节点中的字符归纳至一个或多个文字内容节点中,并且每个文字内容节点中需保存第一个字符的坐标和字间距。这样就可以确定每一个文字内容节点中每一个字符的坐标位置,而无需保存每一个字符的文本属性和坐标位置,大大减少了冗余信息,从而减小了文本体积。
[0012]在上述任一技术方案中,优选的,所述文本属性包括字体名称、字符大小和/或字符颜色。
[0013]根据本发明的另一方面,还提供了一种终端,包括如上述任一技术方案中所述的版式文档内容描述优化装置,还可以包括:显示单元,在显示经过所述版式文档内容描述优化装置优化后的版式文档内容时,基于文字节点的文本属性、以及所述文字节点下的文字内容节点中包含的行或列的平均字间距和首字符坐标,确定所述版式文档内容中每一字符的显示位置和所需显示的文本属性。
[0014]在显示文档内容时,将属于同一文字节点下的文字内容节点中的字符按照该文字节点的文本属性进行显示,并且基于文字内容节点中保存的第一个字符的坐标和字间距可推算出其余字符的位置,从而可正确显示文档内容。
[0015]根据本发明的又一方面,还提供了一种版式文档内容描述优化方法,包括:解析原始版式文档内容,得到文本图元数据;识别出所述文本图元数据中每一字符的文本属性,并按照所述文本属性对所述文本图元数据中的字符进行归类,将具有相同文本属性的字符与所述相同文本属性保存至同一个文字节点;针对每一所述文字节点中保存的字符,将属于同一行或同一列的字符、所述同一行或所述同一列的起始字符的坐标、所述同一行或所述同一列的平均字间距保存至文字内容节点,以得到优化后的版式文档内容,其中,所述文字内容节点是位于所述文字节点下的且与所述同一行或所述同一列对应的文字内容节点。
[0016]将具有相同文本属性的字符保存在同一个文字节点中,同时在该文字节点中保存相应的文本属性;将文本属性相同,并且处于同一行(列)的字符保存在同一个文字内容节点中,使用起始字符坐标和字间距结合的方式来表示多个文字的版式位置信息,从而使得版式文档对于文本内容的描述方式进行简化,减少文本描述数据的冗余,减小版式文档的体积。
[0017]在上述技术方案中,优选的,所述字符的归类方法可以包括:针对所述文本图元数据中每一行或每一列的字符,判断当前字符的文本属性与相邻字符的文本属性是否相同;在判断结果为相同时,将所述当前字符保存至与所述相邻字符相对应的文字节点中。
[0018]在建立文字节点时,逐一判定文本图元数据中的字符属于哪种文本属性,将具有相同文本属性的字符归类放在一个文字节点中,如果文本属性有8种,则相对于该文本图元数据的文字节点为8个。
[0019]在上述技术方案中,优选的,在所述判断结果为不相同时,新建文字节点,将所述当前字符保存至新建的文字节点。
[0020]在上述技术方案中,优选的,所述文字内容节点的生成方法包括:针对每一所述文字节点中的字符,缓存属于同一行或同一列的字符;计算所述同一行或同一列的字符之间的所述平均字间距和实际字间距;将连续确定的实际字间距与所述平均字间距之间的差值连续小于等于预设值的字符加入至所述文字内容节点,并将平均字间距和第一个加入所述文字内容节点中的字符的坐标保存至所述文字内容节点;将实际字间距与所述平均字间距之间的差值大于预设值的字符加入至新建的且与所述同一行或同一列对应的文字内容节点。
[0021]在建立好文字节点后,针对每一文字节点,进行文字内容节点归类。在进行文字内容节点归类时,首先分析该文字节点中属于同一行或同一列的字符,计算出该行或该列的平均字间距,将该行或该列中的实际字间距接近或等于平均字间距的字符加入至与该行或该列对应的文字内容节点中,并将该行或该列中的其余字符加入至新建的文字内容节点中。这样,针对每个文字节点,根据字符间距情况将该文字节点中的字符归纳至一个或多个文字内容节点中,并且每个文字内容节点中需保存第一个字符的坐标和字间距。这样就可以确定每一个文字内容节点中每一个字符的坐标位置,而无需保存每一个字符的文本属性和坐标位置,大大减少了冗余信息,从而减小了文本体积。
[0022]在上述任一技术方案中,优选的,所述文本属性包括字体名称、字符大小和/或字符颜色。
[0023]在上述任一技术方案中,优选的,在显示进行优化后的版式文档内容时,基于所述文字节点的文本属性、以及所述文字节点下的文字内容节点中包含的行或列的平均字间距和首字符坐标,确定所述版式文档内容中每一字符的显示位置和所需显示的文本属性。
[0024]在显示文档内容时,将属于同一文字节点下的文字内容节点中的字符按照该文字节点的文本属性进行显示,并且基于文字内容节点中保存的第一个字符的坐标和字间距可推算出其余字符的位置,从而可正确显示文档内容。

【专利附图】

【附图说明】
[0025]图1示出了根据本发明的实施例的版式文档内容描述优化装置的框图;
[0026]图2示出了根据本发明的实施例的终端的示意图;
[0027]图3示出了根据本发明的一个实施例的版式文档内容描述优化方法的流程图;
[0028]图4示出了根据本发明的另一实施例的版式文档内容描述优化方法的流程图;
[0029]图5示出了根据本发明的实施例的根据文本属性进行字符归类的流程图;
[0030]图6示出了根据本发明的实施例的进行文字内容节点归类的流程图;
[0031]图7示出了根据本发明的实施例的版式文档内容的保存方法流程图。

【具体实施方式】
[0032]为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和【具体实施方式】对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
[0033]在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
[0034]图1示出了根据本发明的实施例的版式文档内容描述优化装置的框图。
[0035]如图1所示,根据本发明的实施例的版式文档内容描述优化装置100,包括:解析单元102,用于解析原始版式文档内容,得到文本图元数据;识别单元104,用于识别出文本图元数据中每一字符的文本属性;文字节点归类单元106,用于按照文本属性对文本图元数据中的字符进行归类,将具有相同文本属性的字符与相同文本属性保存至同一个文字节点;文字内容节点归类单元108,用于针对每一文字节点中保存的字符,将属于同一行或同一列的字符、同一行或同一列的起始字符的坐标、同一行或同一列的平均字间距保存至文字内容节点,以得到优化后的版式文档内容,其中,文字内容节点是位于文字节点下的且与同一行或同一列对应的文字内容节点。
[0036]将具有相同文本属性的字符保存在同一个文字节点中,同时在该文字节点中保存相应的文本属性;将文本属性相同,并且处于同一行(列)的字符保存在同一个文字内容节点中,使用起始字符坐标和字间距结合的方式来表示多个文字的版式位置信息,从而使得版式文档对于文本内容的描述方式进行简化,减少文本描述数据的冗余,减小版式文档的体积。
[0037]在上述技术方案中,优选的,文字节点归类单元106包括:第一判断子单元1062,用于针对文本图元数据中每一行或每一列的字符,判断当前字符的文本属性与相邻字符的文本属性是否相同,文字节点归类单元在第一判断子单元1062的判断结果为相同时,将当前字符保存至与相邻字符相对应的文字节点中。
[0038]在建立文字节点时,逐一判定文本图元数据中的字符属于哪种文本属性,将具有相同文本属性的字符归类放在一个文字节点中,如果文本属性有8种,则相对于该文本图元数据的文字节点为8个。
[0039]优选的,文字节点归类单元106还可以包括:第一创建子单元1064,在判断结果为不相同时,新建文字节点,将当前字符保存至新建的文字节点。
[0040]在上述技术方案中,优选的,文字内容节点归类单元108包括:计算子单元1082,用于针对每一文字节点中的字符,缓存属于同一行或同一列的字符,计算同一行或同一列的字符之间的平均字间距和实际字间距;第二判断子单元1084,用于将连续确定的实际字间距与平均字间距之间的差值连续小于等于预设值的字符加入至文字内容节点,并将平均字间距和第一个加入文字内容节点中的字符的坐标保存至文字内容节点;第二创建子单元1086,用于将实际字间距与平均字间距之间的差值大于预设值的字符加入至新建的且与同一行或同一列对应的文字内容节点。
[0041]在建立好文字节点后,针对每一文字节点,进行文字内容节点归类。在进行文字内容节点归类时,首先分析该文字节点中属于同一行或同一列的字符,计算出该行或该列的平均字间距,将该行或该列中的实际字间距接近或等于平均字间距的字符加入至与该行或该列对应的文字内容节点中,并将该行或该列中的其余字符加入至新建的文字内容节点中。这样,针对每个文字节点,根据字符间距情况将该文字节点中的字符归纳至一个或多个文字内容节点中,并且每个文字内容节点中需保存第一个字符的坐标和字间距。这样就可以确定每一个文字内容节点中每一个字符的坐标位置,而无需保存每一个字符的文本属性和坐标位置,大大减少了冗余信息,从而减小了文本体积。
[0042]在上述任一技术方案中,优选的,文本属性包括字体名称、字符大小和/或字符颜色。
[0043]图2示出了根据本发明的实施例的终端的示意图。
[0044]如图2所示,根据本发明的实施例的终端200,包括如上述任一技术方案中的版式文档内容描述优化装置100,还可以包括:显示单元202,在显示经过版式文档内容描述优化装置优化后的版式文档内容时,基于文字节点的文本属性、以及文字节点下的文字内容节点中包含的行或列的平均字间距和首字符坐标,确定版式文档内容中每一字符的显示位置和所需显示的文本属性。
[0045]在显示文档内容时,将属于同一文字节点下的文字内容节点中的字符按照该文字节点的文本属性进行显示,并且基于文字内容节点中保存的第一个字符的坐标和字间距可推算出其余字符的位置,从而可正确显示文档内容。
[0046]图3示出了根据本发明的一个实施例的版式文档内容描述优化方法的流程图。
[0047]如图3所示,根据本发明的实施例的版式文档内容描述优化方法,可以包括以下步骤:
[0048]步骤302,解析原始版式文档内容,得到文本图元数据;步骤304,识别出文本图元数据中每一字符的文本属性,并按照文本属性对文本图元数据中的字符进行归类,将具有相同文本属性的字符与相同文本属性保存至同一个文字节点;步骤306,针对每一文字节点中保存的字符,将属于同一行或同一列的字符、同一行或同一列的起始字符的坐标、同一行或同一列的平均字间距保存至文字内容节点,以得到优化后的版式文档内容,其中,文字内容节点是位于文字节点下的且与同一行或同一列对应的文字内容节点。
[0049]将具有相同文本属性的字符保存在同一个文字节点中,同时在该文字节点中保存相应的文本属性;将文本属性相同,并且处于同一行(列)的字符保存在同一个文字内容节点中,使用起始字符坐标和字间距结合的方式来表示多个文字的版式位置信息,从而使得版式文档对于文本内容的描述方式进行简化,减少文本描述数据的冗余,减小版式文档的体积。
[0050]在所述步骤304中,字符的归类方法可以包括:针对文本图元数据中每一行或每一列的字符,判断当前字符的文本属性与相邻字符的文本属性是否相同;在判断结果为相同时,将当前字符保存至与相邻字符相对应的文字节点中。
[0051]在建立文字节点时,逐一判定文本图元数据中的字符属于哪种文本属性,将具有相同文本属性的字符归类放在一个文字节点中,如果文本属性有8种,则相对于该文本图元数据的文字节点为8个。
[0052]在上述技术方案中,优选的,在判断结果为不相同时,新建文字节点,将当前字符保存至新建的文字节点。
[0053]在所述步骤306中,文字内容节点的生成方法包括:针对每一文字节点中的字符,缓存属于同一行或同一列的字符;计算同一行或同一列的字符之间的平均字间距和实际字间距;将连续确定的实际字间距与平均字间距之间的差值连续小于等于预设值的字符加入至文字内容节点,并将第一个加入文字内容节点中的字符的坐标保存至文字内容节点;将实际字间距与平均字间距之间的差值大于预设值的字符加入至新建的且与同一行或同一列对应的文字内容节点。
[0054]在建立好文字节点后,针对每一文字节点,进行文字内容节点归类。在进行文字内容节点归类时,首先分析该文字节点中属于同一行或同一列的字符,计算出该行或该列的平均字间距,将该行或该列中的实际字间距接近或等于平均字间距的字符加入至与该行或该列对应的文字内容节点中,并将该行或该列中的其余字符加入至新建的文字内容节点中。这样,针对每个文字节点,根据字符间距情况将该文字节点中的字符归纳至一个或多个文字内容节点中,并且每个文字内容节点中需保存第一个字符的坐标和字间距。这样就可以确定每一个文字内容节点中每一个字符的坐标位置,而无需保存每一个字符的文本属性和坐标位置,大大减少了冗余信息,从而减小了文本体积。
[0055]在上述任一技术方案中,优选的,文本属性包括字体名称、字符大小和/或字符颜色。
[0056]在上述任一技术方案中,优选的,在显示进行优化后的版式文档内容时,基于文字节点的文本属性、以及文字节点下的文字内容节点中包含的行或列的平均字间距和首字符坐标,确定版式文档内容中每一字符的显示位置和所需显示的文本属性。
[0057]在显示文档内容时,将属于同一文字节点下的文字内容节点中的字符按照该文字节点的文本属性进行显示,并且基于文字内容节点中保存的第一个字符的坐标和字间距可推算出其余字符的位置,从而可正确显示文档内容。
[0058]下面结合图4至图7进一步说明根据本发明的版式文档内容描述优化方法。图4示出了根据本发明的另一实施例的版式文档内容描述优化方法的流程图。
[0059]如图4所示,步骤402,利用解析引擎对原始文档进行解析。步骤404,获取原始文档图元数据。
[0060]步骤406,判断该原始文档图元数据是否是文本,如果是,则进入步骤408,否则进入步骤414,依据图元类型进行相应处理。
[0061]步骤408,缓存文本属性相同的文字,文本属性包括:字体名称、字号大小、字体颜色等。具体方法是:比较文本图元的字体、字号、文字颜色等属性是否相同,如果相同,则这些文字保存在同一个文字节点中;如果不满足以上条件,则保存在不同的文字节点中,参考图5。
[0062]步骤410,缓存可以保存在同一个文字节点中的文字。具体方法是:从文本属性相同的文字中,缓存位于同一行(列)的文字,计算缓存文字的平均字间距和实际字间距,以平均字间距作为比较基准,将字符的实际字间距与平均字间距进行比较,如果误差在可接受范围内,则可将这些文字保存在同一个文字内容节点中;如果不满足以上条件,则保存在不同的文字内容节点中,参考图6。
[0063]步骤412,最后,在版式文档中,输出文字节点和文字内容节点。
[0064]图5示出了根据本发明的实施例的根据文本属性进行字符归类的流程图。
[0065]如图5所示,步骤502,获取一缓存行或一缓存列中的某个字符。步骤504,判断当前获取到的该字符与前一字符的字体是否相同,若相同,则进入步骤506,若不相同,则进入步骤512。步骤506,判断当前获取到的该字符与前一字符的字号是否相等,若相同,则进入步骤508,缓存该文本图元;若不相同,则进入所述步骤512,新建一个文字节点。
[0066]步骤510,判断当前获取到的该字符与前一字符的文字颜色是否相同,若相同,则进入步骤516,若不相同,则进入步骤514,开始新文字节点的数据的缓存。
[0067]步骤516,将当前字符加入到当前文字节点的缓存字符中。
[0068]在步骤518,判断是否是最后一个缓存行或缓存列,若是,则处理结束,若否,则回到步骤502。
[0069]图6示出了根据本发明的实施例的进行文字内容节点归类的流程图。
[0070]如图6所示,步骤602,获取文本属性相同的缓存数据。
[0071]步骤604,判断该缓存数据中的当前字符与前一字符是否在同一行或同一列,若是,则进入步骤606,若否,则进入步骤616,创建新的文字内容节点。
[0072]步骤606,缓存属于同一行或同一列的文本图元。
[0073]步骤608,计算同一行或同一列的缓存文本图元的平均字间距和实际字间距。
[0074]在步骤610,判断实际字间距与平均字间距是否近似。若判断结果为是,则进入步骤612,若判断结果为否,则进入步骤616,创建新的文字内容节点,将当前字符加入到新的文字内容节点的缓存字符中。
[0075]步骤612,将当前字符加入到当前文字内容节点的缓存字符中。
[0076]步骤614,判断当前字符是否是最后一个字符,若是,则处理结束,若否,则回到步骤 602。
[0077]图7示出了根据本发明的实施例的版式文档内容的保存方法流程图。
[0078]如图7所示,步骤702,首先获取经处理已缓存的文本图元数据。
[0079]步骤704,判断文本图元数据中的文本是否可以属于同一个文字节点,即判断文本图元数据中字符的文本属性是否相同。若相同,则进入步骤706 ;否则,进入步骤716,新建文字节点,然后进入步骤718,在该新建的文字节点中保存与该文字节点对应的文本属性,文本属性包括:字体名称、字号。
[0080]步骤706,判断文本是否属于同一个文字内容节点(以一缓存行或一缓存列的平均字间距为基准进行判断),即在文字节点中为属于同一个文字内容节点的文字创建文字内容节点,若是,则进入步骤708 ;若否,则进入步骤720,新建文字内容节点,然后进入步骤708,保存文字内容节点中第一个字符的坐标位置,以该字符的坐标作为该文字内容节点的起始坐标,并且保存字间距信息,以缓存的同一行/列字符的平均字间距为字间距,最后保存字符的编码。步骤712,将缓存数据写入文字内容节点中。
[0081]步骤714,判断缓存数据是否保存完毕,若是,则结束该处理过程,若否,则回到步骤 702。
[0082]以上结合附图详细说明了根据本发明的技术方案,在相关版式文档中,对于文本内容的描述存在大量的冗余信息,对于每个字符都要保存坐标以及众多的文字信息,从而使得版式文档中存在大量冗余数据,文档体积增大,为了解决该技术问题,本发明提出了一种版式文档内容描述优化方法。通过该方法,将具有相同文本属性的字符保存在同一个文字节点中,同时在文字节点中保存文本属性;将文本属性相同,并且处于同一行(或同一列)的字符保存在同一个文字内容节点中,使用起始字符坐标和字间距结合的方式来表示多个文字的版式位置信息,从而简化了版式文档对于文本内容的描述方式,减少文本描述数据的冗余,减小版式文档的体积。
[0083]以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【权利要求】
1.一种版式文档内容描述优化装置,其特征在于,包括: 解析单元,用于解析原始版式文档内容,得到文本图元数据; 识别单元,用于识别出所述文本图元数据中每一字符的文本属性; 文字节点归类单元,用于按照所述文本属性对所述文本图元数据中的字符进行归类,将具有相同文本属性的字符与所述相同文本属性保存至同一个文字节点; 文字内容节点归类单元,用于针对每一所述文字节点中保存的字符,将属于同一行或同一列的字符、所述同一行或所述同一列的起始字符的坐标、所述同一行或所述同一列的平均字间距保存至文字内容节点,以得到优化后的版式文档内容, 其中,所述文字内容节点是位于所述文字节点下的且与所述同一行或所述同一列对应的文字内容节点。
2.根据权利要求1所述的版式文档内容描述优化装置,其特征在于,所述文字节点归类单元包括: 第一判断子单元,用于针对所述文本图元数据中每一行或每一列的字符,判断当前字符的文本属性与相邻字符的文本属性是否相同,所述文字节点归类单元在所述第一判断子单元的判断结果为相同时,将所述当前字符保存至与所述相邻字符相对应的文字节点中。
3.根据权利要求2所述的版式文档内容描述优化装置,其特征在于,所述文字节点归类单元还包括: 第一创建子单元,在所述判断结果为不相同时,新建文字节点,将所述当前字符保存至新建的文字节点。
4.根据权利要求1所述的版式文档内容描述优化装置,其特征在于,所述文字内容节点归类单元包括: 计算子单元,用于针对每一所述文字节点中的字符,缓存属于同一行或同一列的字符,计算所述同一行或同一列的字符之间的所述平均字间距和实际字间距; 第二判断子单元,用于将连续确定的实际字间距与所述平均字间距之间的差值连续小于等于预设值的字符加入至所述文字内容节点,并将所述平均字间距和第一个加入所述文字内容节点中的字符的坐标保存至所述文字内容节点; 第二创建子单元,用于将实际字间距与所述平均字间距之间的差值大于预设值的字符加入至新建的且与所述同一行或同一列对应的文字内容节点。
5.根据权利要求1至4中任一项所述的版式文档内容描述优化装置,其特征在于,所述文本属性包括字体名称、字符大小和/或字符颜色。
6.一种终端,其特征在于,包括如权利要求1至5中任一项所述的版式文档内容描述优化装置,还包括: 显示单元,在显示经过所述版式文档内容描述优化装置优化后的版式文档内容时,基于文字节点的文本属性、以及所述文字节点下的文字内容节点中包含的行或列的平均字间距和首字符坐标,确定所述版式文档内容中每一字符的显示位置和所需显示的文本属性。
7.一种版式文档内容描述优化方法,其特征在于,包括: 解析原始版式文档内容,得到文本图元数据; 识别出所述文本图元数据中每一字符的文本属性,并按照所述文本属性对所述文本图元数据中的字符进行归类,将具有相同文本属性的字符与所述相同文本属性保存至同一个文字节点; 针对每一所述文字节点中保存的字符,将属于同一行或同一列的字符、所述同一行或所述同一列的起始字符的坐标、所述同一行或所述同一列的平均字间距保存至文字内容节点,以得到优化后的版式文档内容, 其中,所述文字内容节点是位于所述文字节点下的且与所述同一行或所述同一列对应的文字内容节点。
8.根据权利要求7所述的版式文档内容描述优化方法,其特征在于,所述字符的归类方法包括: 针对所述文本图元数据中每一行或每一列的字符,判断当前字符的文本属性与相邻字符的文本属性是否相同; 在判断结果为相同时,将所述当前字符保存至与所述相邻字符相对应的文字节点中。
9.根据权利要求8所述的版式文档内容描述优化方法,其特征在于,在所述判断结果为不相同时,新建文字节点,将所述当前字符保存至新建的文字节点。
10.根据权利要求7所述的版式文档内容描述优化方法,其特征在于,所述文字内容节点的生成方法包括: 针对每一所述文字节点中的字符,缓存属于同一行或同一列的字符; 计算所述同一行或同一列的字符之间的所述平均字间距和实际字间距; 将连续确定的实际字间距与所述平均字间距之间的差值连续小于等于预设值的字符加入至所述文字内容节点,并将所述平均字间距和第一个加入所述文字内容节点中的字符的坐标保存至所述文字内容节点; 将实际字间距与所述平均字间距之间的差值大于预设值的字符加入至新建的且与所述同一行或同一列对应的文字内容节点。
11.根据权利要求7至10中任一项所述的版式文档内容描述优化方法,其特征在于,所述文本属性包括字体名称、字符大小和/或字符颜色。
12.根据权利要求7至10中任一项所述的版式文档内容描述优化方法,其特征在于,在显示进行优化后的版式文档内容时,基于所述文字节点的文本属性、以及所述文字节点下的文字内容节点中包含的行或列的平均字间距和首字符坐标,确定所述版式文档内容中每一字符的显示位置和所需显示的文本属性。
【文档编号】G06F17/30GK104182396SQ201310190313
【公开日】2014年12月3日 申请日期:2013年5月21日 优先权日:2013年5月21日
【发明者】邢国峰, 王长胜 申请人:北大方正集团有限公司, 北京方正阿帕比技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1