电子文件上撷图的方法及系统与流程

文档序号:12748427阅读:316来源:国知局
电子文件上撷图的方法及系统与流程

本发明是关于一种撷图方法及系统,特别是有关于一种在电子文件上撷图的方法及系统。



背景技术:

知识产权是企业内无形的资产,随着企业对知识产权的日渐重视,越来越多的企业或个人都将其研发出来的技术成果予以申请为专利,借此获得专利权的保障。这样的趋势下便造成各国的专利申请逐渐增多,形成专利文件的数据库容量越趋扩大。

目前的专利检索平台在列出检索结果时大多包含了代表图的简图,以利使用者通过查看简图而快速阅览检索结果。然而,目前的专利检索平台在列出简图时往往直接载入整张首页,使得传输效率不佳。此外,载入整张首页也造成代表图太小,如此一来,使用者仍需点阅整份专利文件才能阅览其代表图,使得简图的效果不彰。



技术实现要素:

因此,本发明的一方面是在提供一种在电子文件上撷图的方法,包含:沿第一扫描方向对电子文件进行扫描,并基于电子文件于第一扫描方向上的颜色分布变化,界定相对的第一边界与第二边界,借以在第一扫描方向上做出图文隔离;沿第二扫描方向对电子文件进行扫描,并基于电子文件于第二扫描方向上的颜色分布变化,界定相对的第三边界与第四边界,借以在第二扫描方向上做出图文隔离,其中第二扫描方向不同于第一扫描方向;以及依据所述第一边界、所述第二边界、所述第三边界及所述第四边界所围成的区域,自电子文件撷取一图片。

本发明的另一方面是在提供一种在电子文件上撷图的系统,包含数据库、处理器、记忆体。数据库用以储存上述电子文件,处理器用以执行一或多个计 算机可执行指令,记忆体包含可由处理器执行的计算机程序。其中上述计算机程序在由处理器执行时使处理器进行以下动作:沿一第一扫描方向对电子文件进行扫描,并基于电子文件于第一扫描方向上的颜色分布变化,界定相对的第一边界与第二边界,借以在第一扫描方向上做出图文隔离;沿一第二扫描方向对电子文件进行扫描,并基于电子文件于第二扫描方向上的颜色分布变化,界定相对的第三边界与第四边界,借以在第二扫描方向上做出图文隔离,其中第二扫描方向不同于第一扫描方向;以及依据所述第一边界、所述第二边界、所述第三边界及所述第四边界所围成的区域,自电子文件撷取一图片。

通过本发明所揭露的技术,电子文件中的图片可以自动化地被撷取。如此一来,不仅可增加传送代表图的传输效率,亦可有效增加使用者于利用专利检索平台查阅专利文件简图时的便利性。

以下将以实施方式对上述的说明作详细的描述,并对本发明的技术方案提供更进一步的解释。

附图说明

图1为根据本发明一实施例绘示的一在电子文件上撷图的系统示意图;

图2A为根据本发明一实施例绘示的一电子文件示意图;

图2B为根据本发明一实施例绘示的一电子文件示意图;

图3为根据本发明一实施例绘示的一电子文件示意图;

图4为根据本发明一实施例绘示的一电子文件示意图;

图5为根据本发明一实施例所绘示的一种在电子文件上撷图的方法的流程图;

图6为根据本发明一实施例所绘示的一种在电子文件上撷图的方法的流程图;

图7为根据本发明一实施例所绘示的一种在电子文件上撷图的方法的流程图;

图8为根据本发明一实施例所绘示的一种在电子文件上撷图的方法的流程图;以及

图9为根据本发明一实施例所绘示的一种在电子文件上撷图的方法的流程图。

具体实施方式

下文是举实施例配合所附附图作详细说明,但所提供的实施例并非用以限制本发明所涵盖的范围,而结构运作的描述非用以限制其执行的顺序,任何由元件重新组合的结构,所产生具有均等功效的装置,皆为本发明所涵盖的范围。此外,附图仅以说明为目的,并未依照原尺寸作图。为使便于理解,下述说明中相同元件将以相同的符号标示来说明。

在全篇说明书与申请专利范围所使用的用词(terms),除有特别注明外,通常具有每个用词使用在此领域中、在此揭露的内容中与特殊内容中的平常意义。某些用以描述本揭露的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本揭露的描述上额外的引导。

于本文中,除非内文中对于冠词有所特别限定,否则“一”与“该”可泛指单一个或多个。将进一步理解的是,本文中所使用的“包含”、“包括”、“具有”及相似词汇,指明其所记载的特征、区域、整数、步骤、操作、元件与/或组件,但不排除其所述或额外的其一个或多个其它特征、区域、整数、步骤、操作、元件、组件,与/或其中的群组。

请参照图1,图1为根据本发明一实施例绘示的一在电子文件上撷图的系统示意图。在电子文件上撷图的系统100包含处理器120、记忆体140以及数据库160。数据库160用以储存电子文件,记忆体160包含由处理器120执行的计算机程序,处理器120用以读取数据库160储存的电子文件以及执行一或多个计算机可执行指令。

为了方便说明起见,请同时参照图1及图2A。图2A为根据本发明一实施例绘示的一电子文件200示意图。电子文件200可为一专利文件,但不以此为限。电子文件200包含文字区220以及代表图240。

于一实施例中,处理器120可以在执行时沿第一扫描方向262对电子文件200进行扫描,若从一空白区域进入一非空白区域,则设定第一边界242。若再从上述非空白区域进入另一空白区域,设定该第二边界244,且上述些空白区域中任一者是毗连电子文件200的一边缘或文字区220。

为了方便说明起见,处理器120于此实施例中首先由电子文件200的页面下缘沿着第一扫描方向262扫描,由于电子文件200在X轴的下缘部分皆为 空白区域,因此一旦处理器120扫描到黑色部分(例如代表图240中元件符号XXX的下边界)时,即设定为代表图240的第一边界242。此时处理器120继续沿着第一扫描方向262扫描,并当X轴上出现全白色区域(例如代表图240中元件符号YYY的上边界)时,即设定为代表图240的第二边界244。

接着,处理器120可以在执行时沿第二扫描方向264对电子文件200进行扫描,若从一空白区域进入一非空白区域,则设定第三边界246。若再从上述非空白区域进入另一空白区域,则设定第四边界248,且上述些空白区域中任一者是毗连电子文件200的一边缘或文字区220。

为了方便说明起见,于此实施例中处理器120在确认第一边界242与第二边界244后,接着于代表图240的第一边界242与第二边界244间从电子文件200的右缘沿着第二扫描方向264扫描。由于电子文件200在Y轴的右缘起始部分皆为空白区域,因此一旦处理器120扫描到黑色部分(例如元件符号YYY的右边界)时,即为代表图240的第三边界246。此时处理器120继续沿着第二扫描方向264扫描,并当Y轴上出现全白色区域(例如元件符号XXX的左边界)时,即为代表图240的第四边界248。

在此实施例中,沿着第一扫描方向262扫描可为向上扫描,沿着第二扫描方向264扫描可为向左扫描。然而,前述的第一扫描方向262、第二扫描方向264以及扫描器140扫描的起始文件边缘(例如先沿着电子文件的下边缘往上扫描,再沿着电子文件的右边缘往左扫描)仅为例式,本领域已知技艺人士可视实际需求调整扫描的方向以及起始文件边缘。

此外,计算机程序(未绘示)亦可加入特定预设条件以辅助处理器120判断是否扫描到文字区220,并预先滤除文字区220,借此增加处理器120判别代表图240边界的准确度。以下将对系统100判断文字区220的操作作进一步说明。

于一实施例中,上述判断是否扫描到文字区220的辅助条件可包括沿着第一扫描方向262或第二扫描方向264扫描,并依据扫描区域中黑白相间的疏密度是否落入一预设疏密度范围,以判断是否扫描到文字区220。由于文字区220中黑白相间的疏密度较代表图240中黑白相间的疏密度高,因此使用者可预先将电子文件200中文字区220黑白相间的疏密度设定于一预设疏密度范围,若处理器120扫描到电子文件200上的一区域中黑白相间的疏密度落入上述预设 疏密度范围,则判定上述区域位于文字区220内。如此一来,处理器120便能通过预先滤除电子文件200的文字区220以进一步增加处理器120判断代表图240边界的准确度。

于一实施例中,上述判断是否扫描到文字区220的辅助条件可包括沿着第一扫描方向262或第二扫描方向264扫描,并依据扫描区域中黑白之间的比例是否落入一预设比例范围,以判断是否扫描到文字区220。由于文字区220中黑白之间的比例较代表图240中黑白之间的比例高,因此使用者可预先将电子文件200中文字区220黑白之间的比例设定于一预设比例范围,若处理器120扫描到电子文件200上的一区域中黑白之间的比例落入上述预设比例范围,则判定上述区域位于文字区220内。如此一来,处理器120便能通过预先滤除电子文件200的文字区220以进一步增加处理器120判断代表图240边界的准确度。

于一实施例中,上述判断是否扫描到文字区220的辅助条件可包括沿着第一扫描方向262或第二扫描方向264扫描以判断是否扫描到文字区220的版面位置。于此实施例中,处理器120可预先利用光学文字辨识(Optical Character Recognition)的技术辨识电子文件200上的文字,据以判断文字区220的版面位置。如此一来,处理器120便能通过预先滤除电子文件200的文字区220以进一步增加处理器120判断代表图240边界的准确度。光学文字辨识为相关领域中熟知该项技艺者所知晓且广泛地被使用,所以在此不多加赘述。

于一实施例中,上述判断是否扫描到文字区220的辅助条件可包括沿着第一扫描方向262或第二扫描方向264扫描以判断是否扫描到文字区220的版面位置。于此实施例中,处理器120可预先降低电子文件200的解析度,借以使文字区220中的文字成为多个马赛克化的区块。如此一来,处理器120若扫描到电子文件200上的一区域中含有任一马赛克化的区块,则判定上述区域位于文字区220内,借此进一步增加处理器120判断代表图240边界的准确度。

上述辅助处理器120判断是否扫描到文字区220的条件仅为例式,熟悉此项技术者可择一或混合使用,或进行各种改变及修改。

请进一步参阅图2B。图2B为根据本发明一实施例绘示的一电子文件200示意图。为了避免处理器120在扫描时因为代表图240出现X轴上全白色区域或Y轴上全白色区域而造成代表图240边界的误判(例如代表图240中间所 示符号YY和符号ZZ间的全白色区域),于一实施例中,处理器120可于扫描至X轴上一全白色区域(代表图240中符号YY上端)后继续往第一扫描方向262扫描一预设空白区段280a,亦可于扫描至Y轴上全白色区域后继续往第二扫描方向264扫描一预设空白区段280b以进一步确认代表图240的第一边界244以及第四边界248。

举例来说,处理器120扫描到代表图240中间符号YY上方所示X轴上全白色区域后仍会继续往第一扫描方向262扫描一预设空白区段280a,由于代表图240中间符号YY上方往第一扫描方向262扫描时出现了黑色部分(例如符号ZZ)于预设空白区段280a内,因此处理器120并不会记录代表图240中间符号YY上方X轴上全白色的位置为第二边界244。另一方面,由于处理器120扫描至代表图240上方符号OO上方X轴上全白色的位置后继续往第一扫描方向262扫描预设空白区段280a内仍未扫描到黑色部分,因此处理器120便会记录虚线代表图240上方符号OO上方X轴上全白色的位置为第二边界244。

类似地,判断第四边界248的操作类似于上述判断第二边界244所对应的操作,故于此不再赘述。

于一实施例中,由于电子文件200可以是一专利文件,因此处理器120可以根据该专利文件的案号得知其发布单位。如此一来,上述在电子文件上撷图的系统100可进一步分析电子文件200的发布单位,并在扫描电子文件200之前根据上述发布单位套用预设版面设定以滤除电子文件200中至少一预定区域,或调整系统100的扫描规则以降低撷取代表图时的复杂度。举例来说,请参照图2A,电子文件200可以是一美国专利商标局(United States Patent and Trademark Office,USPTO)所发布的专利文件。由于USPTO所发布的专利文件代表图均置于其首页的中下方(如240所示),因此可以在扫描时预先设定由电子文件200的页面下缘向上扫描以依序得到第一边界242及第二边界244,接着于第一边界242与第二边界244间从电子文件200的右缘沿向左扫描以依序得到第三边界246及第四边界248。

请参照图3,图3为根据本发明一实施例绘示的一电子文件300示意图。电子文件300可以是一世界知识产权组织(World Intellectual Property Organization,WIPO)所发布的专利文件。由于WIPO所发布的专利文件首页左 方包含专利文件的条码及流水号360,因此可以在扫描前自动滤除上述条码及流水号360以降低撷取代表图时的复杂度。此外,由于WIPO所发布的专利文件代表图均置于其首页的左下方(如340所示),因此可以在扫描前预先设定由电子文件300的页面下缘沿着第一扫描方向362扫描以依序得到第一边界342及第二边界344,接着于第一边界342及第二边界344间从电子文件300的左缘沿着第二扫描方向364扫描以依序得到第三边界346及第四边界348。

请参照图4,图4为根据本发明一实施例绘示的一电子文件400示意图。电子文件400可以是一欧洲专利局(European Patent Office,EPO)所发布的专利文件。由于EPO所发布的专利文件首页左方包含专利文件的流水号460,因此可以在扫描前自动滤除上述流水号460以降低撷取代表图时的复杂度。此外,由于EPO所发布的专利文件代表图均置于其首页的右下方(如440所示),因此可以在扫描时预先设定由电子文件400的页面下缘沿着第一扫描方向462扫描以依序得到第一边界442及第二边界444,接着于第一边界442及第二边界444间从电子文件400的右缘沿着第二扫描方向464扫描以依序得到第三边界446及第四边界448。

需说明的是,根据专利文件发布单位套用预设版面设定以滤除电子文件200~400中至少一预定区域,或调整系统100的扫描规则的操作不以上述为限,熟悉此项技术者可择一或混合使用,或进行各种改变及修改,并依据实际需求作不同设计。

于本发明另一实施例中揭示了一种电子文件上撷图的方法。请参照图5,图5为根据本发明一实施例所绘示的一种在电子文件上撷图的方法500的流程图。在电子文件上撷图的方法500包括多个步骤S501~S505,然熟悉本发明的技艺者应了解到,在本实施例中所提及的步骤,除特别叙明其顺序者外,均可依实际需要调整其前后顺序,甚至可同时或部分同时执行。为了方便及清楚说明起见,在此假设在电子文件上撷图的方法500是由图1的在电子文件上撷图的系统100实现,并应用如图2A所示的电子文件200。电子文件200可为一专利文件,但不以此为限。电子文件200包含文字区220以及代表图240。

首先在步骤S501中,处理器沿着第一扫描262方向对电子文件200进行扫描。为了方便说明起见,处理器120可以例如是由图2A的电子文件200的页面下缘向上扫描。

在步骤S502中,处理器120基于电子文件200在第一扫描方向262上颜色的分布变化界定第一边界242与第二边界244。举例来说,由于图2A的电子文件在X轴的下缘部分皆为空白区域,因此一旦处理器120扫描到黑色部分(例如代表图240中元件XXX的下边界)时,即为代表图240的第一边界242。此时处理器120继续沿着第一扫描方向262扫描,并当X轴上出现全白色区域(例如代表图240中元件符号YYY的上边界)时,即为代表图的第二边界244

在步骤S503中,处理器120沿着第二扫描方向264对电子文件200进行扫描。为了方便说明起见,于此实施例中处理器120可以例如是由电子文件200的页面右缘向左扫描。

在步骤S504中,处理器120基于电子文件200在第二扫描方向264上颜色的分布变化界定第三边界246与第四边界248。举例来说,由于图2A的电子文件200在Y轴的右缘起始部分皆为空白区域,因此一旦处理器120扫描到黑色部分(例如元件符号YYY的右边界)时,即为代表图的第三边界246。此时处理器120继续第二扫描方向264扫描,并当Y轴上出现全白色区域(例如元件符号XXX的左边界)时,即为代表图的第四边界248。值得注意的是,上述空白区域中任一者是毗连电子文件200的一边缘或文字区220。

在步骤S505中,处理器120依据边界242~248所围成的区域自电子文件200撷取一图片。由于在步骤S501~S504中确定了代表图的四个边界242~248,因此处理器120便能依据边界242~248自电子文件120撷取出上述代表图。

请参照图6,图6为根据本发明一实施例所绘示的一种在电子文件上撷图的方法600的流程图。在电子文件上撷图的方法600包括多个步骤S601~S609,然熟悉本发明的技艺者应了解到,在本实施例中所提及的步骤,除特别叙明其顺序者外,均可依实际需要调整其前后顺序,甚至可同时或部分同时执行。为了方便及清楚说明起见,在此假设在电子文件上撷图的方法600是由图1的在电子文件上撷图的系统100实现,并应用如图2A所示的电子文件200。

处理器120首先在步骤S601中沿着第一扫描262方向对电子文件200进行扫描,在步骤S602中,处理器120依据一特定条件判断电子文件200的文字区220。在步骤S603中,处理器120滤除文字区220的范围,再进一步于步骤S604中基于第一扫描方向262上颜色的分布变化界定第一边界242与第二边界244。在步骤S605中,处理器120沿着第二扫描方向264对电子文件 200进行扫描。在步骤S606中,处理器120依据一特定条件判断文字区220,并于步骤S607中滤除文字区220的范围。在步骤S608中,处理器120基于第二扫描方向264上颜色的分布变化界定第三边界246与第四边界248。最后在步骤S609中,处理器120依据边界242~248所围成的区域自电子文件200撷取一图片。步骤S601、S604~S605、S608~S609的操作与S501~S505的操作相应,因此在此不多加赘述。

值得注意的是,和方法500相比,方法600中处理器120可透过步骤S602~S603(或S606~S607)以特定预设条件判断电子文件200上文字区220的分布并滤除文字区220的范围,借此增加处理器120判别代表图240边界的准确度。

以特定预设条件判断电子文件200上文字区220的条件可包括:由于文字区220的黑色部分比例较图片240高,因此上述判断电子文件200上文字区220分布的特定条件包括预先设定一文字区220的黑白相间的疏密度范围或黑白之间的比例范围,并依据一区域中黑白相间的疏密度或黑白之间的比例是否落入上述范围以判断上述区域是否属于文字区220。

请参照图7,图7为根据本发明一实施例所绘示的一种在电子文件上撷图的方法700的流程图。在电子文件上撷图的方法700包括多个步骤S701~S707。为了方便及清楚说明起见,在此假设在电子文件上撷图的方法700是由图1的在电子文件上撷图的系统100实现,并应用如图2A所示的电子文件200。

相较于方法500,在方法700中,处理器120转化电子文件200中文字区220的文字为多个马赛克化的区块(未绘示),并于步骤S702中滤除电子文件200中马赛克化区块的范围。由于在步骤S701~S702中,处理器120先降低电子文件200的解析度以将文字区220的文字转化为多个马赛克化的区块。因此,一旦处理器120扫描到电子文件200上的一区域中含有任一马赛克化的区块,则判定上述区域位于文字区220内并加以滤除,借此增加处理器120判断代表图240边界的准确度。

在步骤S703中,处理器120沿着第一扫描方向262对电子文件200进行扫描。在步骤S704中,处理器120基于第一扫描方向262上颜色的分布变化界定第一边界242与第二边界244。在步骤S705中,处理器120沿着第二扫描方向264对电子文件200进行扫描。在步骤S706中,处理器120基于第二 扫描方向264上颜色的分布变化界定第三边界246与第四边界248。在步骤S707中,处理器120依据边界242~248所围成的区域自电子文件200撷取一图片。步骤S703~S707的操作与S501~S505的操作相应,因此在此不多加赘述。

请参照图8,图8为根据本发明一实施例所绘示的一种在电子文件上撷图的方法800的流程图。在电子文件上撷图的方法800包括多个步骤S801~S811。为了方便及清楚说明起见,在此假设在电子文件上撷图的方法800是由图1的在电子文件上撷图的系统100实现,并应用如图2B所示的电子文件200。

处理器120首先在步骤S801中沿着第一扫描方向262对电子文件200进行扫描。在步骤S802中,处理器120基于第一扫描方向262上电子文件200颜色的分布变化界定第一边界242。在步骤S803中,处理器120基于第一扫描方向262上颜色的分布变化界定第二边界244。

相较于方法500,于此实施例中,为了避免处理器120在扫描时因为代表图240出现X轴上全白色区域或Y轴上全白色区域而造成代表图240边界的误判(例如代表图240中间所示符号YY和符号ZZ间的全白色区域)。在步骤S804中,处理器120更沿着第一扫描方向262扫描是否持续预设空白区域,若是持续扫描出现的空白区域未超过上述预设空白区域,则继续往第二扫描方向264扫描,若是持续扫描出现的空白区域超过上述预设空白区域,则于步骤S805中确认第二边界244。

在步骤S806中,处理器120沿着第二扫描方向264对电子文件200进行扫描。在步骤S807中,处理器120基于第二扫描264方向上颜色的分布变化界定第三边界246。在步骤S808中,处理器120基于第二扫描方向264上颜色的分布变化界定第四边界248。在步骤S809中,处理器120沿着第二扫描方向264扫描是否持续预设空白区域,若是持续扫描出现的空白区域未超过上述预设空白区域,则继续往第二扫描方向264扫描,若是持续扫描出现的空白区域超过上述预设空白区域,则于步骤S810中确认第四边界248。在步骤S811中,处理器120依据边界242~248所围成的区域自电子文件200撷取图片。

举例来说,处理器120扫描到代表图240中间符号YY上方所示X轴上全白色区域后仍会继续往第一扫描方向262扫描一预设空白区段280a,由于代表图240中间符号YY上方往第一扫描方向262扫描时出现了黑色部分(例 如符号ZZ)于预设空白区段280a内,因此处理器120并不会记录代表图240中间符号R21上方X轴上全白色的位置为第二边界244。另一方面,由于处理器120扫描至代表图240上方符号OO上方X轴上全白色的位置后继续往第一扫描方向262扫描预设空白区段280a内仍未扫描到黑色部分,因此处理器120便会记录虚线代表图240上方符号OO上方X轴上全白色的位置为第二边界244。

请参照图9,图9为根据本发明一实施例所绘示的一种在电子文件上撷图的方法900的流程图。在电子文件上撷图的方法900包括多个步骤S901~S907。为了方便及清楚说明起见,在此假设在电子文件上撷图的方法900是由图1的在电子文件上撷图的系统100实现,并应用如图3所示的电子文件300。

在步骤S901中,处理器102首先分析电子文件300的发布单位。由于电子文件300可以是一专利文件,因此处理器120可以根据该专利文件的案号得知其发布单位。在步骤S902中,处理器102根据发布单位的版面配置,从电子文件300中滤除至少一预定区域。举例来说,若是该专利文件是如图3所示的世界知识产权组织(World Intellectual Property Organization,WIPO)所发布的电子文件300。由于WIPO所发布的专利文件首页左方包含专利文件的条码及流水号360,因此在步骤S902中处理器120可以在扫描电子文件300前自动滤除条码及流水号360以降低撷取代表图时的复杂度。在步骤S903中,处理器120沿着第一扫描方向362对电子文件300进行扫描。在步骤S904中,处理器120基于第一扫描方向362上颜色的分布变化界定第一边界342与第二边界344。在步骤S905中,处理器120沿着第二扫描方向364对电子文件300进行扫描。在步骤S906中,处理器120基于第二扫描方向364上颜色的分布变化界定第三边界346与第四边界348。在步骤S907中,处理器120依据边界342~348所围成的区域自电子文件300撷取一图片。

通过本发明所揭露的技术,电子文件中的图片可以自动化地被撷取。如此一来,不仅可增加传送代表图的传输效率,亦可有效增加使用者于利用专利检索平台查阅专利文件简图时的便利性。

尽管本文已参阅附图详细描述了本发明的说明性实施例,但应了解,本发明并不限于彼等相同的实施例。在不脱离由所附权利要求书定义的本发明的范畴及精神的情况下,熟悉此项技术者可对本发明进行各种改变及修改。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1