用于对网页图片进行字符切分的方法及装置的制作方法

文档序号:6334523阅读:231来源:国知局
专利名称:用于对网页图片进行字符切分的方法及装置的制作方法
技术领域
本发明涉及网页浏览领域,并且更为具体地,涉及一种用于对网页图片进行字符 切分的方法及装置。
背景技术
随着通信技术的不断发展,利用移动终端登录小说网站来浏览小说内容逐渐成为 一种趋势。为了对小说网站上发表的小说进行版权保护,许多小说网站通常采用图片格式 显示小说内容,尤其是小说的一些VIP章节,从而防止这些内容被阅读者复制。由于小说网站的内容通常是在个人计算机(PC)上显示的,所以这些小说网站上 显示的图片格式基本上都是针对PC的显示屏幕来设计的。当利用移动终端登录小说网站 进行网页浏览时,由于这种图片格式通常都比较大,难以在移动终端的小屏幕上如PC —样 进行网页展示。在这种情况下,如果将小说图片缩小到移动终端的屏幕大小,则会导致文字 缩小到很小,从而导致无法阅读。如果按照原来的图片格式进行展示,则用户在阅读过程中 需要反复地左右移动窗口,从而造成阅读非常不方便。基于上述问题,在利用移动终端浏览小说网站上的小说内容时,需要针对移动终 端显示屏幕的尺寸,对网页图片内容进行适配处理,例如对网页图片内容进行重新排版。由于对小说内容进行排版处理是以字符为基本单位,所以在对网页图片内容进行 重新排版之前,需要对网页图片的字符进行切分。

发明内容
鉴于上述,本发明提供了一种用于对网页图片进行字符切分的方法和装置,利用 上述字符切分方法和装置,可以将网页图片切分为单个字符,然后利用所切分出的单个字 符,根据移动终端的屏幕尺寸对小说内容进行重新排版,以适合于在移动终端的屏幕上显
7J\ ο根据本发明的一个方面,提供了一种对网页图片进行字符切分的方法,包括对所 获取的网页图片的像素进行逐行扫描,以行为单位将该网页图片划分为由连续空白像素行 组成的第一空白区域和由连续内容像素行组成的第一内容区域;从所获取的网页图片中切 分出所划分出的第一内容区域;针对每个所切分出的第一内容区域的像素进行逐列扫描, 以列为单位将该第一内容区域划分为由连续空白像素列组成的第二空白区域和由连续内 容像素列组成的第二内容区域;以及根据各个第二空白区域的像素坐标,将第二内容区域 与第二空白区域切分开,以将切分出的各个第二内容区域作为各个第一内容区域中的各个 单个字符。此外,在一个或多个实施例中,从所获取的网页图片中切分出所划分的第一内容 区域的步骤还可以包括根据所划分出的各个第一内容区域的高度和和小说图片文字行的 高度特征,判断该第一内容区域是否是小说图片;以及在该第一内容区域是小说图片时,以 与该第一内容区域相邻的两个空白区域的中心为界,从所获取的网页图片中切分出所有被判断为是小说图片的第一内容区域。此外,在一个或多个实施例中,判断第一内容区域是否是小说图片的步骤还包括 计算该第一内容区域的高度平均值;以及在所计算出的第一内容区域的高度平均值落在第 一阈值范围时,判断该第一内容区域是小说图片。此外,在一个或多个实施例中,判断第一内容区域是否是小说图片的步骤还可以 包括计算该第一内容区域的高度标准差,只有在该第一内容区域的高度平均值落在第一 阈值范围内且该第一内容区域的高度标准差与高度平均值的比值不超过第二阈值时,才判 断该第一内容区域是小说图片。 此外,根据各个第二空白区域的像素坐标,将所述第二内容区域与所述第二空白 区域分割开的步骤还可以包括根据所划分出的各个第二空白区域的像素坐标,确定第二 内容区域的最大宽度;利用所确定出的第二内容区域的最大宽度和各个第二空白区域的端 坐标,确定第二内容区域的字符切分点;以及利用所确定出的第二内容区域的各个字符切 分点,将所述第二内容区域与所述第二空白区域分割开,以将切分出的各个第二内容区域 作为被判断为小说图片的各个第一内容区域中的各个单个字符。此外,在对所获取的网页图片中的像素进行逐行扫描或逐列扫描时,还可以根据 所扫描到的网页图片中的像素灰度值,对所述网页图片进行防水印处理。根据本发明的另一方面,提供了一种对网页图片进行字符切分的装置,包括第一 划分单元,用于对所获取的网页图片的像素进行逐行扫描,以行为单位将该网页图片划分 为由连续空白像素行组成的第一空白区域和多个由连续内容像素行组成的第一内容区域; 第一切分单元,用于从所获取的网页图片中切分出所划分出的第一内容区域;第二划分单 元,用于针对每个所切分出的第一内容区域的像素进行逐列扫描,以列为单位将该第一内 容区域划分为由连续空白像素列组成的第二空白区域和由连续内容像素列组成的第二内 容区域;以及第二切分单元,用于根据各个第二空白区域的像素坐标,将第二内容区域与第 二空白区域切分开,以将切分出的各个第二内容区域作为各个第一内容区域中的各个单个 字符。此外,在一个或多个实施例中,所述第一切分单元还可以包括第一判断单元,用 于根据所划分出的各个第一内容区域的高度和小说图片文字行的高度特征,判断该第一内 容区域是否是小说图片;以及第一分割单元,用于在该第一内容区域是小说图片时,以与该 第一内容区域相邻的两个空白区域的中心为界,从所获取的网页图片中切分出所有被判断 为是小说图片的第一内容区域。此外,在一个示例中,所述第一判断单元还可以包括计算单元,用于计算该第一内 容区域的高度平均值,在所计算出的第一内容区域的高度平均值落在第一阈值范围内时, 所述第一判断单元判断该第一内容区域是小说图片。此外,在另一示例中,所述计算单元还可以计算该第一内容区域的高度标准差,只 有在该第一内容区域的高度平均值落在第一阈值范围内且该第一内容区域的高度标准差 与高度平均值的比值不超过第二阈值时,所述第一判断单元才判断该第一内容区域是小说 图片。此外,在一个或多个实施例中,所述第二切分单元还可以包括第一确定单元,用 于根据所划分出的各个第二空白区域的像素坐标,确定第二内容区域的最大宽度;第二确定单元,用于利用所确定出的第二内容区域的最大宽度和各个第二空白区域的端坐标,确 定第二内容区域的字符切分点;及第二分割单元,用于利用所确定出的第二内容区域的各 个字符切分点,将所述第二内容区域与所述第二空白区域分割开,以将切分出的各个第二 内容区域作为被判断为小说图片的各个第一内容区域中的各个单个字符。此外,所述装置还可以包括防水印处理单元,用于在对网页图片的像素进行逐行 扫描或逐列扫描时,根据所扫描到的网页图片中的像素灰度值,对所述网页图片进行防水 印处理。根据本发明的另一方面,提供了一种包括如上所述的装置的移动终端。根据本发明的另一方面,提供了一种包括如上所述的装置的服务器。利用上述字符切分方法和装置,可以将网页图片切分为单个字符,然后利用所切 分出的单个字符,根据移动终端的屏幕尺寸对小说内容进行重新排版,以适合于在移动终 端的屏幕上显示。此外,通过对网页图片进行防水印处理,可以提高划分空白区域和内容区域的准 确性,从而提高字符切分的准确性。为了实现上述以及相关目的,本发明的一个或多个方面包括后面将详细说明并在 权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。 然而,这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外,本发明 旨在包括所有这些方面以及它们的等同物。


通过参考以下结合附图的说明及权利要求书的内容,并且随着对本发明的更全面 理解,本发明的其它目的及结果将更加明白及易于理解。在附图中图1示出了根据本发明实施例的对网页图片进行字符切分的方法的流程图;图2示出了图1中所示出的切分出第一内容区域的过程的一个示例的流程图;图3示出了图1中所示出的切分出第二内容区域的过程的一个示例的流程图;图4示出了根据本发明实施例的对网页图片进行字符切分的字符切分装置的方 框示意图;图5示出了图4中包括的第一切分单元的结构的一个示例的方框示意图;图6示出了图4中包括的第二切分单元的结构的一个示例的方框示意图;图7示出了包括根据本发明的字符切分装置的移动终端的方框示意图;和图8示出了包括根据本发明的字符切分装置的服务器的方框示意图。在所有附图中相同的标号指示相似或相应的特征或功能。
具体实施例在下面的描述中,出于说明的目的,为了提供对一个或多个实施例的全面理解,阐 述了许多具体细节。然而,很明显,也可以在没有这些具体细节的情况下实现这些实施例。 在其它例子中,为了便于描述一个或多个实施例,公知的结构和设备以方框图的形式示出。下面将参照附图来对根据本发明的各个实施例进行详细描述。图1示出了根据本发明实施例的对网页图片进行字符切分的方法的流程图。
如图1所示,首先,在步骤SllO中,对从目标网站(例如,小说网站)获取的网页 图片的像素进行逐行扫描,以行为单位将网页图片划分为相互间隔的多个由连续空白像素 行组成的第一空白区域和多个由连续内容像素行组成的第一内容区域,例如,所述第一空 白区域可以由一个或多个连续空白像素行组成,所述第一内容区域可以由一个或多个连续 内容像素行组成。然后,在步骤S120中,从所获取的网页图片中切分出所划分出的第一内容区域。 具体地,小说图片是指由一行行文字组成的网页图片,行与行之间存在一定的空白。对于一 般小说图片而言,每行文字的高度通常会在10-30个像素之间(即,小说图片文字行的高度 特征),其平均值也应该落在这个范围内。此外,小说图片的每行文字的高度大致相同,其标 准差和平均值的比值很小(通常小于1)。因此,优选地,可以根据所划分出的各个第一内容 区域的高度,计算第一内容区域的高度平均值(更进一步,可以计算高度标准差和平均值 的比值),并根据所计算出的高度平均值(或高度标准差和平均值的比值)和小说图片文字 行的高度特征,判断和切分出所有被判断为是小说图片的第一内容区域。关于判断和切分 出所有被判断为是小说图片的第一内容区域的具体过程将在下面参照图2进行描述。图2示出了根据图1中所示出的切分出第一内容区域的过程的一个示例的流程 图。如图2所示,首先,在步骤S121中,计算所划分出的各个第一内容区域的高度平均 值。然后,在步骤S123中,判断所计算出的各个第一内容区域的高度平均值是否落在第一 阈值范围内,所述第一阈值范围例如可以是10到30个像素的范围,该第一阈值范围也称为 小说图片文字行的高度特征。当所计算出的第一内容区域的高度平均值没有落在该第一阈值范围内时,判断该 第一内容区域不是小说图片,从而不对该第一内容区域进行处理。当所计算出的第一内容 区域的高度平均值落在该第一阈值范围内时,进行到步骤S125。在步骤S125中,进一步计 算该第一内容区域的高度标准差,然后在步骤S127中,判断该高度标准差与高度平均值的 比值是否不超过第二阈值,该第二阈值通常例如是1。当该比值超过第二阈值时,判断该第一内容区域不是小说图片,从而不对该第一 内容区域进行处理。当该比值不超过第二阈值时,即判断该第一内容区域是小说图片时,在 步骤S129中,以与该第一内容区域相邻的两个空白区域的中心为界切分出该第一内容区 域。在从所划分的第一内容区域中切分出所有被判断为是小说图片的第一内容区域 后,在步骤S130中,针对每个切分出的第一内容区域进行逐列扫描,以列为单位将该第一 内容区域划分为多个相互间隔的第二空白区域和第二内容区域,例如,将第一内容区域划 分为k个第二内容区域和k+Ι个第二空白区域,其中所述第二空白区域由一个或多个连续 空白像素列组成,所述第二内容区域由一个或多个连续内容像素列组成。然后,在步骤S140中,根据各个第二空白区域的像素坐标,将各个第二内容区域 与各个第二空白区域切分开,以将切分出的各个第二内容区域作为被判断为是小说图片的 各个第一内容区域中的各个单个字符。图3示出了图1中所示出的切分出第二内容区域的 过程的一个示例的流程图。如图3所示,首先,在步骤S141中,根据所划分出的各个第二空白区域的像素坐标,例如,各个第二空白区域的端坐标或中点坐标,在本例中采用中点坐标Si,确定第二内 容区域的最大宽度W = MAX(Si-Sp1),其中,i是自然数,且3彡i彡k。然后,利用所确定出的第二内容区域的最大宽度W和各个第二空白区域的端坐 标,在本例中为右端坐标,确定各个第二内容区域的字符切分点。具体过程如步骤S142到 S 147所示。在步骤S142中,将i设置为i = 0,并且以第一个空白区域的中点XO作为第 一个字符切分点。在步骤S143中,将变量d的初始值设置为d = 0。在步骤S145中,计算 作为当前切分点的空白区域的右端坐标Righti和最大宽度W之和,确定Righti+W-d是否落 在第j个空白区域内,其中第j个空白区域的左右坐标可以通过手机终端系统获知。如果 没有,则在步骤S144中将变量d加1,并返回到步骤S145进行循环判断。如果落在第j个 空白区域内,则转到步骤S146,取该空白区域的中点作为第i+Ι个字符的右边切分点,即Xi =Sj,并作为当前字符切分点,并将变量i加1。然后,在步骤S147中,判断是否满足j = =k+1。如果满足,则进行到步骤S148,在步骤S148中,利用所确定出的各个字符切分点来 将第二内容区域和第二空白区域切分开,并将切分开的各个第二内容区域作为被判断为小 说图片的各个第一内容区域中的各个字符。否则,返回到步骤S143。此外,由于一些网站在图片上通常使用水印,从而导致空白部分不是完全空白,由 此在将网页图片划分为空白区域和内容区域时,会将一些含有水印的空白区域确定为是内 容区域,从而导致不能准确地区分内容区域和空白区域。因此,优选地,在对从目标网站获 取的网页图片的像素进行逐行扫描或逐列扫描时,还可以根据所扫描出的网页图片像素的 灰度值,对该网页图片进行防水印处理。具体地,对于包含有水印的小说图片而言,由于水印的灰度通常比较低,而文字 部分的灰度比较高,因此可以通过设定一个阈值(例如,50%的灰度)来进行防水印处 理。在这种情况下,如果所扫描到的网页图片的像素的灰度大于该阈值,则认为该像素 是内容像素。如果所扫描到的网页图片的像素的灰度不大于该阈值,则认为是空白像 素。这里所说的灰度Gray是亮度I的补数,即Gray =1-1。亮度的常用计算公式为I = 0. 299*R+0. 587*G+0. 114*B。此外,在网站上使用彩色水印的情况下,为了更有效地去除彩色水印,可以将亮度 的计算公式变为 I = MAX(R, G,B),则灰度 Gray = I-MAX (R, G,B)。通过对网页图片进行防水印处理,可以防止包含有水印的空白区域被确定为是内 容区域,从而提高划分空白区域和内容区域的准确性,由此提高字符切分的准确性。这里要说明的是,上述方法可以利用移动终端的浏览器来实现,也可以在服务器 端实现。在利用移动终端的浏览器实现时,需要该浏览器具有强大的性能。在利用服务器 实现时,移动终端中的浏览器客户端将需要浏览的网址URL发送给服务器,然后由服务器 从该网址获取网页数据并进行字符切分。在完成字符切分后,服务器将切分后的字符发送 给浏览器客户端。如上参照图1-图3描述了根据本发明的对网页图片进行字符切分的方法。本发 明的上述对网页图片进行字符切分的方法,可以采用软件实现,也可以采用硬件实现,或采 用软件和硬件组合的方式实现。图4示出了根据本发明实施例的对网页图片进行字符切分的字符切分装置400的方框示意图。如图4所示,所述字符切分装置400包括第一划分单元410、第一切分单元 420、第二划分单元430和第二切分单元440。在从目标网站(例如小说网站)获取网页图片后,所述第一划分单元410对所获 取的网页图片的像素进行逐行扫描,以行为单位将该网页图片划分为多个相互间隔的由连 续空白像素行组成的第一空白区域和由连续内容像素行组成的第一内容区域,例如,所述 第一空白区域可以由一个或多个连续空白像素行组成,所述第一内容区域可以由一个或多 个连续内容像素行组成。然后,第一切分单元420从所获取的网页图片中切分出所划分出的第一内容区 域。优选地,第一切分单元420可以根据所划分出的第一内容区域的高度和小说图片文字 行的高度特征,从所获取的网页图片中切分出所有被判断为是小说图片的第一内容区域。 关于第一切分单元420的细节将在下面参照图5进行描述。在切分出所有被判断为是小说图片的第一内容区域后,第二划分单元430针对每 个切分出的第一内容区域的像素进行逐列扫描,以列为单位将该第一内容区域划分为相互 间隔的多个由连续空白像素列组成的第二空白区域和多个由连续内容像素列组成的第二 内容区域,例如,所述第二空白区域可以由一个或多个连续空白像素列组成,所述第二内容 区域可以由一个或多个连续内容像素列组成。在划分出多个第二内容区域和第二空白区域后,第二切分单元440根据各个第二 空白区域的像素坐标,将第二内容区域与第二空白区域切分开,以将切分出的各个第二内 容区域作为被判断为小说图片的各个第一内容区域中的各个单个字符。关于第二切分单元 420的细节将在下面参照图6进行描述。此外,优选地,在对目标网站上的网页图片进行水印处理时,所述字符切分装置 400还可以包括防水印处理单元(未示出),用于在对网页图片的像素进行逐行扫描或逐列 扫描时,根据所扫描到的网页图片中的像素灰度值,对所述网页图片进行防水印处理。图5示出了图4中包括的第一切分单元420的结构的一个示例的方框示意图。如 图5所示,第一切分单元420包括计算单元421、第一判断单元423和第一分割单元425。计算单元421计算各个所切分出的第一内容区域的高度平均值。在所计算出的第 一内容区域的高度平均值落在第一阈值范围内时,所述第一判断单元423判断该第一内容 区域是小说图片。在该第一内容区域是小说图片时,第一分割单元425以与该第一内容区 域相邻的两个空白区域的中心为界切分出该第一内容区域。此外,可选地,计算单元421还可以进一步计算各个所切分出的第一内容区域的 高度标准差。并且,只有在所计算出的第一内容区域的高度平均值落在第一阈值范围内且 该高度标准差与高度平均值的比值不超过第二阈值时,第一判断单元423才判断该第一内 容区域是小说图片。这里要说明的是,所述计算单元421可以在第一判断单元423之外,也可以包含在 第一判断单元423中。图6示出了图4中包括的第二切分单元440的结构的一个示例的方框示意图。如 图6所示,第二切分单元440包括第一确定单元441、第二确定单元442和第二分割单元 443。第一确定单元441根据所划分出的各个第二空白区域的像素坐标,确定第二内容区域的最大宽度。第二确定单元利用所确定出的第二内容区域的最大宽度和各个第二空白 区域的端坐标(在本示例中为右端坐标),确定第二内容区域的字符切分点。在确定出所有 字符切分点后,第二分割单元443利用所确定出的各个字符切分点,将所述第二内容区域 与所述第二空白区域分割开,以将切分出的各个第二内容区域作为被判断为小说图片的第 一内容区域的各个单个字符。图7示出了包括根据本发明的字符切分装置400的移动终端10的方框示意图。 图7中的移动终端所包括的字符切分装置400可以包含根据本发明的实施例进行的各种变型。图8示出了包括根据本发明的字符切分装置400的服务器20的方框示意图。图 8中的服务器所包括的字符切分装置400可以包含根据本发明的实施例进行的各种变型。本发明所述的移动终端典型地可为各种可能进行网页浏览的终端设备,例如手 机、个人数字助理等,因此本发明的保护范围不应限定为某种特定类型的移动终端。尽管前面公开的内容示出了本发明的示例性实施例,但是应当注意,在不背离权 利要求限定的本发明的范围的前提下,可以进行多种改变和修改。根据这里描述的发明实 施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明 的元素可以以个体形式描述或要求,但是也可以设想多个,除非明确限制为单数。尽管已经结合详细示出并描述的优选实施例公开了本发明,但是本领域技术人员 应当理解,对于上述本发明所提出的对网页图片进行字符切分的方法和装置,还可以在不 脱离本发明内容的基础上做出各种改进。因此,本发明的保护范围应当由所附的权利要求 书的内容确定。
权利要求
一种对网页图片进行字符切分的方法,包括对所获取的网页图片中的像素进行逐行扫描,以行为单位将该网页图片划分为由连续空白像素行组成的第一空白区域和由连续内容像素行组成的第一内容区域;从所获取的网页图片中切分出所划分出的第一内容区域;针对每个所切分出的第一内容区域的像素进行逐列扫描,以列为单位将该第一内容区域划分为由连续空白像素列组成的第二空白区域和由连续内容像素列组成的第二内容区域;以及根据各个第二空白区域的像素坐标,将第二内容区域与第二空白区域切分开,以将切分出的各个第二内容区域作为各个第一内容区域中的各个单个字符。
2.如权利要求1所述的方法,其中,从所获取的网页图片中切分出所划分出的第一内 容区域的步骤还包括根据所划分出的各个第一内容区域的高度和小说图片文字行的高度特征,判断该第一 内容区域是否是小说图片;以及在该第一内容区域是小说图片时,以与该第一内容区域相邻的两个空白区域的中心为 界,从所获取的网页图片中切分出所有被判断为是小说图片的第一内容区域。
3.如权利要求2所述的方法,其中,判断第一内容区域是否是小说图片的步骤还包括计算该第一内容区域的高度平均值;以及在所计算出的第一内容区域的高度平均值落在第一阈值范围时,判断该第一内容区域 是小说图片。
4.如权利要求3所述的方法,其中,判断第一内容区域是否是小说图片的步骤还包括计算该第一内容区域的高度标准差,只有在该第一内容区域的高度平均值落在第一阈值范围内且该第一内容区域的高度 标准差与高度平均值的比值不超过第二阈值时,才判断该第一内容区域是小说图片。
5.如权利要求1所述的方法,其中,根据各个第二空白区域的像素坐标,将所述第二内 容区域与所述第二空白区域分割开的步骤还包括根据所划分出的各个第二空白区域的像素坐标,确定第二内容区域的最大宽度;利用所确定出的第二内容区域的最大宽度和各个第二空白区域的端坐标,确定第二内 容区域的字符切分点;以及利用所确定出的第二内容区域的各个字符切分点,将所述第二内容区域与所述第二空 白区域分割开,以将切分出的各个第二内容区域作为被判断为小说图片的各个第一内容区 域中的各个单个字符。
6.如权利要求1所述的方法,其中,在对所获取的网页图片中的像素进行逐行扫描或 逐列扫描时,所述方法还包括根据所扫描到的网页图片中的像素灰度值,对所述网页图片进行防水印处理。
7.如权利要求1-6中任何一个所述的方法,其中,所述方法是利用移动终端的浏览器 来实现的。
8. —种对网页图片进行字符切分的装置,包括第一划分单元,用于对所获取的网页图片的像素进行逐行扫描,以行为单位将该网页 图片划分为由连续空白像素行组成的第一空白区域和由连续内容像素行组成的第一内容区域;第一切分单元,用于从所获取的网页图片中切分出所划分出的第一内容区域;第二划分单元,用于针对每个所切分出的第一内容区域的像素进行逐列扫描,以列为 单位将该第一内容区域划分为由连续空白像素列组成的第二空白区域和由连续内容像素 列组成的第二内容区域;以及第二切分单元,用于根据各个第二空白区域的像素坐标,将第二内容区域与第二空白 区域切分开,以将切分出的各个第二内容区域作为各个第一内容区域中的各个单个字符。
9.如权利要求8所述的装置,其中,所述第一切分单元还包括第一判断单元,用于根据所划分出的各个第一内容区域的高度和小说图片文字行的高 度特征,判断该第一内容区域是否是小说图片;以及第一分割单元,用于在该第一内容区域是小说图片时,以与该第一内容区域相邻的两 个空白区域的中心为界,从所获取的网页图片中切分出所有被判断为是小说图片的第一内 容区域。
10.如权利要求9所述的装置,其中,所述第一切分单元还包括计算单元,用于计算该第一内容区域的高度平均值,在所计算出的第一内容区域的高度平均值落在第一阈值范围内时,所述第一判断单元 判断该第一内容区域是小说图片。
11.如权利要求10所述的装置,其中,所述计算单元还计算该第一内容区域的高度标准差,只有在该第一内容区域的高度平均值落在第一阈值范围内且该第一内容区域的高度 标准差与高度平均值的比值不超过第二阈值时,所述第一判断单元才判断该第一内容区域 是小说图片。
12.如权利要求8所述的装置,其中,所述第二切分单元还包括第一确定单元,用于根据所划分出的各个第二空白区域的像素坐标,确定第二内容区 域的最大宽度;第二确定单元,用于利用所确定出的第二内容区域的最大宽度和各个第二空白区域的 端坐标,确定第二内容区域的字符切分点;以及第二分割单元,用于利用所确定出的第二内容区域的各个字符切分点,将所述第二内 容区域与所述第二空白区域分割开,以将切分出的各个第二内容区域作为被判断为小说图 片的各个第一内容区域中的各个单个字符。
13.如权利要求8所述的装置,还包括防水印处理单元,用于在对网页图片中的像素进行逐行扫描或逐列扫描时,根据所扫 描到的网页图片中的像素灰度值,对所述网页图片进行防水印处理。
14.一种移动终端,包括如权利要求8-13中任何一个所述的装置。
15.一种服务器,包括如权利要求8-13中任何一个所述的装置。
全文摘要
本发明提供一种对网页图片进行字符切分的方法,包括对网页图片进行逐行扫描,以行为单位划分为多个相互间隔的第一空白区域和第一内容区域;从所获取的网页图片中切分出所划分出的第一内容区域;针对每个所切分出的第一内容区域进行逐列扫描,以列为单位将该第一内容区域划分为多个相互间隔的第二空白区域和第二内容区域;以及根据各个第二空白区域的像素坐标,将各个第二内容区域与各个第二空白区域切分开,作为被判断为是小说图片的各个第一内容区域中的各个单个字符。利用上述方法,可以将网页图片切分为单个字符,然后根据移动终端的屏幕尺寸对切分出的单个字符进行重新排版,以适于在移动终端上显示。
文档编号G06F17/30GK101984426SQ20101052169
公开日2011年3月9日 申请日期2010年10月21日 优先权日2010年10月21日
发明者周志明, 梁捷 申请人:优视科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1