专利文档的数据输出方法、终端及系统的制作方法

文档序号:6357571阅读:134来源:国知局
专利名称:专利文档的数据输出方法、终端及系统的制作方法
技术领域
本发明属于计算机、软件技术领域。
背景技术
专利文档是非常重要的技术文献。根据有关统计,全世界每年约90% -95%的发
明创造成果可以在专利文献中查到,其中约有70%的发明成果从未在其它非专利文献上发表过。专利资料在企业的研发中,如果能够有效发挥作用的话,能够大幅度节约研发时间和研发成本,同时提高研发品质,减少重复劳动。很显然,并不是所有的专利资料都得到了有效应用。如何对数量庞大的专利资料进行便利、有效地阅读,是目前需要解决的重要课题。当前的专利阅读方式,主要是这样的用户通过网络直接阅览,或下载到电脑中离线浏览,或打印成印刷品浏览。其中,通过电子文档的形式进行阅读最为常见。而目前专利的文档类型,又以PDF格式的数字文档最为常见。当前发生的全世界范围内的绝大多数专利数据,都可以获得PDF格式的数据,t匕如,中国专利局的专利文档、欧洲专利局的专利文档、美国专利局的专利文档,等等,都可以获得PDF格式的数据。专利文档有着自己的专有格式。比如,发明专利文档,通常会包括有《说明书摘要》、《摘要附图》、《权利要求书》、《说明书》、《说明书附图》。当然,也有少部分的发明专利没有附图。本发明需要应用于有附图且有附图标号的专利文档。当前的技术中,在附图中包含附图标号的情况下,如何获得这些标号所对应的标号i全释内容?目前的技术,需要用户对照着《说明书附图》和《说明书》中的具体实施方式
部分,反复地查阅,很麻烦。另一方面,在《说明书》的具体实施方式
部分中,还会对应设置有或多或少的文档标号。这些文档标号所对应的附图信息,如果需要查看的话,同样要反复地对照着《说明书附图》去搜寻,很麻烦。这些不利因素,严重影响了专利文档的顺利阅读。

发明内容
本发明的目的,是提供一种专利文档的数据输出方法以及配套的终端、系统,利用本发明,能够更加便利地获得专利文档内容的关联信息。一种专利文档的数据输出方法,该方法包括有如下步骤步骤1,在标号诠释内容、文档标号,以及附图中包括有附图标号的附图标号附属区域三者之间,建立起对应关系;步骤2,当触发文档标号、标号诠释内容,以及附图标号附属区域三者其一时,关联的另外两种信息内容中至少其一,根据输出条件选择性输出。
所述的方法,还包括有如下技术特征进一步,所述的步骤1,其对应关系的建立过程是,利用标号诠释 内容和文档标号相邻近的位置关系,建立起标号诠释内容和文档标号之间的对应关系,以及通过附图标号和文档标号描述同一对象的关系,建立起附图标号和文档标号之间的对应关系;根据文档标号和附图标号之间的相似性关系,建立起标号诠释内容和附图标号之间的对应关系。进一步,文档标号的获得途径是,预设文档标号的规则;对专利文档的《说明书》中的具体实施方式
部分进行数据分析;根据文档标号的规则进行筛选,获得文档标号。进一步,所述的文档标号还可以通过如下步骤进行验证采集经判断获得的文档标号;按照文档标号与标号诠释内容邻近设置的位置关系,判定文档标号的真实性;若判断通过,则是真实的文档标号,否则不是真实的文档标号。进一步,附图标号的获得途径是,预设附图标号的规则;对《说明书附图》进行数据扫描;根据附图标号的规则,判断并采集附图标号的信息内容。进一步,所述的附图规则,包括有附图引线与附图标号之间位置上的对应关系,在该对应关系中,附图标号通过附图引线从附图中引出。进一步,所述的文档标号的获得途径是,预设附图标号的规则;对《说明书附图》进行数据扫描;根据附图标号的规则,判断并采集附图标号的信息内容;根据附图标号和文档标号描述内容一致的规则,获得文档标号。进一步,判定文档标号真实性的方式,包括有如下步骤,采集经判定所获得的文档标号和附图标号信息;在字符识别后利用字符信息进行比对,或者直接利用图形进行比对,依据两者之间所表述对象的一一对应关系,来判断特定的文档标号和特定的附图标号之间是否存在
对应关系;没有一一对应关系的文档标号或附图标号,不是判断通过的文档标号或附图标号;具有一一对应关系的文档标号或附图标号,是判断通过的文档标号或附图标号。进一步,所述的标号诠释内容的获得途径是,采集文档标号的位置信息;从文档标号前面的位置,提取获得标号诠释内容。进一步,所述的标号诠释内容的获得途径是,采集文档标号的位置信息;
判定标号i全释内容设置在文档标号之后;从文档标号的后面位置,提取获得标号诠释内容。进一步,所述的标号诠释内容的获得途径是,预设附图标号的规则;对《说明书附图》进行数据扫描;根据附图标号的规则,判断并采集附图标号的信息内容;
根据附图标号和文档标号描述内容一致的规则,获得文档标号;根据文档标号与标号诠释内容相邻的位置关系,判断获得标号诠释内容。进一步,采集经判断获得的标号诠释内容;将采集到的标号诠释内容与其它位置所采集到的标号诠释内容进行比对;采集其重复频率高的内容部分,作为优先输出的标号诠释内容。进一步,对于专利文档中,将前面对应文档标号出现的标号诠释内容详细描述,而将后面对应着文档标号出现的标号诠释内容做部分省略的情况,处理过程是,比对同一专利文档中针对于同一文档标号所获得的标号诠释内容;判断是否针对于同一文档标号存在着完整描述与省略描述;当判断出存在着省略描述的情况,将位于前面位置的完整描述,作为完整的标号诠释内容。进一步,当标号诠释内容的完整描述与省略描述同时存在的情况下,在触发附图标号输出标号i全释内容时,将标号i全释内容的完整描述与省略描述同时输出。进一步,对于非文本形式的专利文档来说,进行数据处理的方式为如下两种方式至少其一,(I)对文档中的数据进行识别,将能够转变成字符形式的信息部分,转变成字符形式后再进行分析处理;(2)对文档中的图像数据进行采集,依据文档标号、附图标号,以及标号诠释内容之间的图像关联性,对其进行分析与比对,识别出其中的文档标号、附图标号,以及标号诠释内容。进一步,所述的附图标号附属区域,除了包括附图标号外,还包括与附图标号相对应的附图区域。进一步,与附图标号相对应的附图区域,其数据呈现的方式包括有如下两种至少
其一,a整幅附图呈现出来;b对附图进行剪切,剪切图中至少包括附图标号,以及与附图标号相对应着的附图引线,以及与附图引线相对应的图形区域。进一步,对于所述的b情况来说,当采集到用户触发附图标号或剪切图两者至少其一的信息时,输出与其相对应的整幅附图。进一步,在采集到用户触发一幅整幅附图时,输出与该整幅附图并列存在于同一专利文档下的其它附图。进一步,当标号诠释内容单独存在时,触发标注诠释内容,输出与其相对应的文档标号与附图标号附属区域两者至少其一。
进一步,当标号诠释内容和文档标号共同存在时,触发两者至少其一时,输出与其相对应包括有附图标号以及对应附图信息的附图标号附属区域。进一步,当触发标号诠释内容或文档标号时,同一活动窗口所呈现出的附图标号附属区域包括有两个或两个以上的附图标号时,将与其相应的附图标号进行差异性标识。进一步,所述的差异性标识,是将附图标号所在的区域做高亮显示,或渲染上具有差异性的色彩,或设置差异性的标识图形。进一步,当针对于同一标号诠释内容或文档标号出现有对应附图标号的独立附图有两个或两个以上时,进行如下方式其一的输出,A,采集标号诠释内容所在的段落,或者位于前部或后部的邻近段落所进行的


,、根据采集获得的

,来对提供的两个及两个以上的附图进行筛选,选择与其关联度最高的附图输出;B,采集与其对应的两个及两个以上的附图,将附图数据建立列表,通过列表的规则输出附图;C,输出一个附图;判断是否采集到用户针对于该附图的触发信息;若采集到的话,根据采集获得的触发信息来输出其它附图。进一步,针对于文档标号或标号诠释内容所插入的对应有附图标号的附图,该附图所在的窗口,设置在段落上部或下部的位置中,不设置在前述文档标号或标号诠释内容所在段落中。进一步,针对于文档标号或标号诠释内容所插入的对应有附图标号的附图,当呈现有一份或多幅附图的情况下,采集鼠标的滚轮信息,来触发前部附图或后部附图的输出操作。进一步,对一个独立页面或者一个可视窗口中所存在的各个文档标号或标号诠释内容,同步输出各个附图标号附图区域,它包括有如下步骤,采集文档标号或标号诠释内容的触发信息;调取与其对应的附图标号附属区域;在一个或多个独立的页面中或一个可视的视窗部分所对应的界面中,凡存在着文档标号或标号诠释内容的位置,输出与其对应的各附图标号附属区域。进一步,可视的视窗部分所对应的专利文档的页面,通过如下步骤来获取,利用操作系统相关的API函数,来获得屏幕的整体截图;利用OCR技术对截图中的文本内容进行识别;与专利文档的内容进行比对,来获得相应的位于可视视窗中的文档部分。进一步,在所述的独立页面中或一个可视的视窗部分所对应的界面中,凡文档标号或标号诠释内容存在重复的,附图标号附属区域只出现一次。进一步,所述的附图标号附属区域,设置在专利文档的边侧位置。进一步,同步对两处或两处以上的文档标号或标号诠释内容输出附图标号附属区域,通过如下步骤来实现,
采集位于一个或多个独立页面中或可视的视窗部分所对应的文档中的各附图标号的触发信息;根据触发信息调取与其对应的标号诠释内容;针对于各附图标号设置相应的标号i全释内容。进一步,当触发附图标号附属区域中的附图标号部分时,所输出的信息内容包括如下两种至少其一,A,输出的是和该附图标号相对应的标号i全释内容;B,输出标号i全释内容的同时,还包括与附图标号相对应的标号i全释内容的所在句 子或所在段落。进一步,如果需要输出的标号诠释内容包括2处或2处以上的话,则输出标号诠释内容的出现频率的统计。进一步,如果需要输出的标号诠释内容包括2处或2处以上的话,输出包括有标号诠释内容所在句子或段落内容的统计列表。进一步,在附图中,针对于附图标号加入说明信息时,设置着选择控件,在该控件中包括如下选项中至少其一,A,对应的标号诠释内容;B,与标号诠释内容相关联的一句或几句内容;C,与标号诠释内容相对应的段落;D,对应的文档标号出现的频率信息;E,对应的标号诠释内容出现的频率信息。进一步,利用对应的标号诠释内容替换原附图标号,它包括有如下步骤采集附图中的附图标号信息;判断与附图标号相对应的标号i全释内容;将标号诠释内容设置于原附图标号位置处,替换原附图标号。进一步,在附图标号旁边安排标号诠释内容的步骤为,在靠近附图标号的位置寻找空白的空间区域;在空白区域安排标号诠释内容的设置位置。进一步,当附图标号的密度达到无法以预设尺寸置放标号诠释内容的情况下,只有在触发附图标号的条件下才能够呈现出标号诠释内容。进一步,在附图中,对应着附图标号已经包括有标号诠释内容的情况,将标号诠释内容出现的段落,作为诠释信息输出。进一步,采集用户阅读专利文档时的设置信息进行数据存储的方式,包括有如下两者至少其一,将用户阅读专利文档时的设置信息,存储到用户所使用的终端中;或者,在跨终端使用的情况下,将该设置信息发送到配套的系统服务器中,采集用户下次的登陆信息,将相应的选择数据推送到用户后面所登陆的终端中输出。进一步,与附图标号相对应的标号诠释内容或相关联的信息内容,可进行语音输出,它包括有如下的实现步骤,采集触发附图标号附属区域中的附图标号的信息;
调出与该附图标号相对应的标号诠释内容,或包括标号诠释内容所关联的句子或段落在内的关联信息;利用语音输出模块,将标号i全释内容或对应的关联信息以语音方式输出。进一步,将对应着附图标号的标号诠释内容,进行信息采集后作网络数据搜索,它包括有如下步骤,采集触发附图标号附属区域中的附图标号的信息;调出与该附图标号相对应的标号i全释内容;利用配套设置的网络搜索模块,登陆网络服务器进行信息搜索,将搜索结果输出。进一步,通过附图标号调出标号诠释内容,然后在指定的文档中进行数据搜索,获 得搜索信息,它包括有如下步骤,采集触发附图标号附属区域中的附图标号的信息;调出与附图标号相对应的标号i全释内容;在指定文档中搜索关联数据后输出。进一步,采集用户所选择的搜索关联数据,生成针对于附图标号附属区域的注释信息栏。进一步,通过浏览窗口的方式建立注释信息栏,其步骤包括,采集附图标号附属区域中附图标号的触发信息;基于前述的触发信息,输出对应着非图片文档的浏览窗口 ;采集用户在该窗口中针对于非图片文档的选择信息,生成针对于附图标号附属区域的注释信息栏。进一步,在具有关联性的标号诠释内容或文档标号,和附图标号附属区域中的附图标号之间,建立有链接关系,在触发两类数据之一时,活动窗口转入到链接关系所对应的页面。本发明还提供一种用以实现专利文档数据输出的终端,该终端具体包括对应关系建立模块,用以在标号诠释内容、文档标号,以及附图中包括有附图标号的附图标号附属区域三者之间,建立起对应关系;关联输出模块,当触发文档标号、标号诠释内容,以及附图标号附属区域三者其一时,关联的另外两种信息内容中至少其一,根据输出条件选择性输出。本发明还提供一种用以实现专利文档数据输出的系统,该系统包括服务器,包括有对应关系建立模块,用以在标号诠释内容、文档标号,以及附图中包括有附图标号的附图标号附属区域三者之间,建立起对应关系,以及关联输出模块,当触发文档标号、标号诠释内容,以及附图标号附属区域三者其一时,关联的另外两种信息内容中至少其一,根据输出条件选择性输出,以及服务器数据接口,用以接收下述的客户端所发送的与标号诠释内容、文档标号,以及附图标号附属区域相关的用户输入信息,以及向下述的客户端发送经关联数据数据模块处理后的数据;客户端,通过网络与上述的服务器相连通,包括有用以输出来自于上述服务器中处理数据的输出结构,以及客户端采集模块,用以采集与标号诠释内容、文档标号,以及附图标号附属区域相关的用户输入信息,以及客户端数据接口,用以将客户端采集模块采集获得的数据发送到前述的服务器中,以及接收前述的服务器所推送的数据。

图I是本发明所描述的已有的专利文档的数据组成部分的示意图,该类型的专利文档适用于本发明。图2是本发明所述方法的流程图,为一种实施例。
具体实施方式

为了更好地说明本发明的知识背景,参照着图I对本发明知识背景做进一步的描述。参图I所示,这儿展示了专利文档100,它是一篇发明专利文档,或实用新型专利文档,具有附图,且有附图标号。具体说来,它包括五个主要部分,分别是《说明书摘要》200,其中包括有摘要内容210 ;《摘要附图》300,其中包括有摘要附图内容310 ;《权利要求书》400,其中包括有权项410 ;《说明书》500,其中包括有“发明名称”510,“技术领域”520,“技术背景”530,“发明内容” 540,“

” 550,“具体实施方式
” 560,在其中的“具体实施方式
” 560中,还包括有“标号诠释内容”570,和“文档标号”571 ;以及《说明书附图》600,其中包括有“附图”610,从“附图”610上引出的“附图引线”620,以及设置在“附图引线”620之上或尽头处的“附图标号” 630。其中,前述的“标号诠释内容”570和“文档标号”571之间,不设置除了空格之外的其它字符。其中,对应的“文档标号”571和“附图标号”630之间,描述的是同一对象,米用含义一致的字符来表达。这些都是已有的知识背景,各国的专利文档,大致相仿。如前所述,本发明适用于包括有说明书附图、附图标号、以及文档标号以及标号诠释内容的专利类型。并不适用于外观设计专利。对于中国的专利文档来说,符合前述条件的发明专利文档和实用新型专利文档(包括已授权及未授权的专利文档,下同),都是适用的。有一些国家没有实用新型专利这一专利类型,于是,符合前述条件的发明专利文档适用于本发明。为了有效地实现专利文档阅读中的关联信息调取功能,以及数据的统计分析功能,适合对专利文档的相应数据作处理。在本发明中,为了说明上的方便,统一将标号内容出现在非附图的文档位置处,其标号称为文档标号;出现在附图中,无论是《说明书附图》还是《摘要附图》,均称为附图标号。而标号诠释内容,在本发明中,指的是与文档标号相对应,用以诠释文档标号或附图标号的信息内容。主要形式有两种,分别是短语与句子。所述的短语,主要包括词或词组。对于描述结构关系的附图来说,短语形式的标号诠释内容是主要形式。比如,“机身100”,其中的“机身”就是短语形式的标号诠释内容,其中的“100”为与其对应的文档标号。而在方法、流程的一类的说明内容中,会常常使用句子作为标号诠释内容。比如,文档标号“S001”假定为特定流程中一个标号,那么它可能会对应着一个或多个长长的句子,来作为标号i全释内容。在前述专利文档的已有知识背景的基础上,下面对本发明的技术特征做详细说明。参图2所示,本发明在具体实施时,主要包括有如下步骤步骤1,在标号诠释内容、文档标号,以及附图中包括有附图标号的附图标号附属区域三者之间,建立起对应关系;步骤2,当触发文档标号、标号诠释内容,以及附图标号附属区域三者其一时,关联、的另外两种信息内容中至少其一,根据输出条件选择性输出。在所述的步骤I中,主要进行标号诠释内容、文档标号、附图标号附属区域等方面的数据采集及数据分析操作,并根据它们之间的对应关系,来建立起关联关系。在本发明中,附图标号附属区域中,可以仅仅只包括有附图标号;也可以同时包括附图标号所在图像的其它部分。首先,我们描述一下三者之间对应关系的建立过程。在本发明所描述的步骤I中,作为举例而非限定,其对应关系的建立过程是利用标号诠释内容和文档标号相邻近的位置关系,建立起标号诠释内容和文档标号之间的对应关系,以及通过附图标号和文档标号描述同一对象的关系,建立起附图标号和文档标号之间的对应关系;根据文档标号和附图标号之间的相似性关系,建立起标号诠释内容和附图标号之间的对应关系。在建立起对应关系的过程中,需要对文档标号、标号诠释内容和附图标号附属区域进行信息采集;以及进行相应的信息识别。其中,对于文档标号来说,作为一种实施例而非限定,文档标号的获得途径是预设文档标号的规则;对专利文档的《说明书》中的具体实施方式
部分进行数据分析;根据文档标号的规则进行筛选,获得文档标号。所述的预设文档标号的规则,有两种实现类型,一种是利用文档标号的内容来进行判定,另一种是通过文档标号所对应的图形来进行判定。其中,对于第一种方案来说,需要预先建立与文档标号内容相关的数据库,根据该数据库中的信息类型,来进行识别。作为举例,在文档标号中常见的类型有如下种类(I)数字类型的标号。这是文档标号中最常见的形式,比如“机身100”中的“100”就是数字类型的文档标号。数字类型的标号既可以是三位数,也可以是一位数、两位数或四位数,具体不作限定。(2)数字和字母两者相结合的标号。这也是较为常见的文档标号形式,比如“壳体100a”中的“ 100a”就是数字和字母相结合的文档标号。(3)字母形式的标号。这种形式的文档标号较为少见,也会有,比如,可能会出现在一些结构简单的文档标号中。(4)其它由用户设定的标号形式。除了前面所说明的文档标号的类型之外,还包括其它的文档标号类型。文档标号也没有特定的限制,既有约定俗成的形式,也有用户根据实际的需求灵活设定的形式。基于文档标号的常见类型就可以直接对专利文档进行分析,来获得相应的文档标号数据。推荐的实施例,是将专利文档的信息利用OCR (Optical Character Recognition光学字符识别)技术,将图像信息转变为字符信息,然后,从中挑选符合条件的文档标号内容。另外,如果直接利用附图标号的图像特征,对其图形进行识别的话,也同样是可以
的。通过文档标号数据库中文本信息所对应的图形数据,就可以提供图形数据分析时的参照标准了。还可以对直接内容识别获得的文档标号的真实性进行验证。比如说,可以采用如下的步骤进行文档标号的验证操作采集经判断获得的文档标号;按照文档标号与标号诠释内容邻近设置的位置关系,判定文档标号的真实性;若判断通过,则是真实的文档标号,否则不是真实的文档标号。下面描述附图标号获得的方式。作为举例而非限定,所述的附图标号的获得途径是预设附图标号的规则;对《说明书附图》进行数据扫描;根据附图标号的规则,判断并采集附图标号的信息内容。附图标号的规则,是多种多样的。首先,附图标号和文档标号是一一对应的,因此,前述的文档标号的类型也同样适用于附图标号。另一方面,附图标号还有自身的其它特点。典型的情况是,附图引线与附图标号之间的位置上的对应关系,其中的附图标号通过附图引线从附图中引出。于是,利用附图引线与附图标号之间的对应关系,就可以便利地进行附图标号的判定操作了。而附图引线则较为容易判定,它的图形特征是是从附图区域所引出的曲线或直线形式的线条,在该线条上,有的设置有方向箭头,有的没有。相应地,文档标号也可以通过附图标号来获得,其获得途径是,预设附图标号的规则;对《说明书附图》进行数据扫描;根据附图标号的规则,判断并采集附图标号的信息内容;根据附图标号和文档标号描述内容一致的规则,获得文档标号。当然,也可以通过文档标号的规则,来采集《说明书》中的具体实施方式
部分的数据,同样可以有效判定。针对于所获得的文档标号或附图标号,可以利用两者之间的关联性来验证获得信息的真伪。作为举例而非限定,它包括有如下步骤采集经判定所获得的文档标号和附图标号信息;
在字符识别后利用字符信息进行比对,或者直接利用图形进行比对,依据两者之间所表述对象的一一对应关系,来判断特定的文档标号和特定的附图标号之间是否存在
对应关系;没有一一对应关系的文档标号或附图标号,不是判断通过的文档标号或附图标号;具有一一对应关系的文档标号或附图标号,是判断通过的文档标号或附图标号。其中,字符的识别方式,作为举例而非限定,利用OCR技术就可以完成图像向字符之间的转换操作,转换之后进行比对。在具体操作时,每个文档标号一定会对应有附图标号;而每个附图标号也同样必须对应有文档标号。也许存在着违背了该原则的专利文档,违背该原则的专利文件通常是不规范的专利文档。这种情况下,只需要向用户做出提示即可。在对应的文档标号和附图标号之间,其描述的目标内容是相同的。如果以字 符形式进行比对的话,那么,它们之间的数据内容就完全一样。如果利用图形进行识别的话,它们之间的图像形式是一样或相似的。根据前述的相同或相似关系,就可以在文档标号和附图标号之间建立关联了。需要指出的是,《摘要附图》只是从《说明书附图》选择出的一个代表性的附图,在进行附图标号检索时,可以不对《摘要附图》进行检索。需要指出的是,少量的专利文档中,在《权利要求书》中也会有文档标号。但凡是在《权利要求书》中出现的文档标号,同样也会在《说明书》的具体实施方式
中出现。因此,通过检索《说明书》的具体实施方式
部分,就可以获得全部的附图标号信息。在前述文档标号的基础上,利用专利文档的技术特点,还可以方便地获得标号诠释内容。作为举例而非限定,标号诠释内容的获得途径包括有如下步骤采集文档标号的位置信息;从文档标号前面的位置,提取获得标号诠释内容。这种方案实施起来是便利的,主要因为,按照专利文档撰写的常规方式,在《说明书》的具体实施方式
中,当写入文档标号时,标号诠释内容和文档标号两者应同时出现。而且,标号诠释内容通常在文档标号前面,两者之间不允许出现除了空格之外的其它标点符号或字符。当然,对于一些特殊的情况,也有可能将标号诠释内容写在文档标号之后,两者之间不出现除了空格之外的其它标点符号或字符。这种情况下,所述的标号诠释内容的获得途径是采集文档标号的位置信息;判定标号i全释内各设直在文档标号之后;从文档标号的后面位置,提取获得标号诠释内容。进一步,还可以结合着前述的文档标号的获得途径,来获得标号诠释内容,步骤包括预设附图标号的规则;对《说明书附图》进行数据扫描;根据附图标号的规则,判断并采集附图标号的信息内容;
根据附图标号和文档标号描述内容一致的规则,获得文档标号;根据文档标号与标号诠释内容相邻的位置关系,判断获得标号诠释内容。在进行标号诠释内容判定的时候,为了增加标号诠释内容判定的准确度,对于采集到的标号诠释内容,可以与其它位置采集到的标号诠释内容进行比对。采集其重复频率高的内容部分,作为优先输出的标号i全释内容。具体说来,作为举例而非限定,该方式包括有如下步骤采集经判断获得的标号诠释内容;将采集到的标号诠释内容与其它位置所采集到的标号诠释内容进行比对;采集其重复频率高的内容部分,来作为优先输出的标号诠释内容。 当然,也经常会有标号诠释内容只出现一次的情况。这种情况下,就无须通过多处标号诠释内容进行比对了。另外,有些专利撰写人所撰写的专利文档,会将前部位置对应着文档标号出现的标号诠释内容进行详细描述,而将后面的标号诠释内容做部分省略。对于这种情况,作为举例,可以处理如下比对同一专利文档中针对于同一文档标号所获得的标号诠释内容;判断是否针对于同一文档标号存在着完整描述与省略描述;当判断出存在着省略描述的情况,将位于前面位置的完整描述,作为完整的标号诠释内容。举例来说,一份专利文档中,“机身壳体200”和“壳体200”两者均有出现,这种情况下,根据“机身”和“壳体”之间的关联性,可判断“机身壳体”同样也是具有关联性的词汇。这种情况下,可通过前述的方法,判定“机身壳体200”为完整描述,“壳体200”为省略描述。当用户触发附图标号而输出标号诠释内容时,可输出两者信息中至少其一,或优先输出完整描述形式。比如说,当遇到前面所述的标号诠释内容部分不一致的情况下,具体是标号诠释内容的完整描述与省略描述同时存在时,这种情况下,当触发附图标号输出标号诠释内容时,还可以将标号诠释内容的完整描述与省略描述同时输出,由用户自己做判定。下面对数据采集的过程,做相应描述。目前的专利文档,最广泛的形式是PDF格式。其中的内容,几乎全部都是非文本形式。对于这类信息内容,在进行数据处理时,有两种实现路径(I)对PDF文档,或者其它的非文本文档,利用OCR技术,或者其它类型的图像和字符之间的转换工具,对于能够转变成字符形式的信息部分,转变成字符形式后再进行处理。这种方式是推荐的方式。利用该方式,能够更好地对文档标号、标号诠释内容和附图标号,以及其它相关的内容进行识别与分析。当然,对于已经为文本信息的专利文档来说,直接采集就可以了。(2)对PDF文档或其它包括有图像信息的专利数据,直接进行图像采集,依据文档标号、附图标号,以及标号诠释内容之间的图像关联性,进行图像数据的比对与分析,不需要将其转变成文本形式。其中,对应文档标号与附图标号的描述对象一致性,以及标号诠释内容和文档标号之间的存在着邻近的位置对应关系。直接利用图像分析的方式,同样可以建立起文档标号、标号诠释内容以及附图标号附属区域之间的对应关系。在本发明中,所述的附图标号附属区域中,至少包括有附图标号。除了附图标号之外,还适合包括有与附图标号相对应的附图区域。正是这种与附图标号相对应的附图区域,可以让用户在阅读《说明书》或《权利要求书》或《说明书摘要》等专利文档的过程中,通过对标号诠释内容或文档标号的触发,来实现对附图区域的查看目的。在具体应用中,与附图标号相对应的附图区域,其数据呈现的方式包括有如下两种至少其一,a整幅附图呈现出来。也就是说,将一份或多份完整的附图,提供给用户。提供给用户的方式,作为举例而非限定,可以通过WINDOWS系统中的窗口相关的API函数,对应着活动窗口所在的《说明书》或《权利要求书》或《说明书摘要》,生成插入窗口,并将所对应的附图区域的信息,写入到该窗口中,供用户查看。 b对附图进行剪切,剪切图中至少包括附图标号,以及与附图标号相对应着的附图引线,以及与附图引线相对应的图形区域。也就是说,除了可以将整幅的附图提供给用户之夕卜,还可以将附图进行剪切,将剪切后的附图区域提供给用户。在进行附图剪切的时候,最好尽量多地包含附图信息。对于上述的b情况下来说,当采集到用户触发附图标号或剪切图两者至少其一的信息时,输出与其相对应的整幅附图。用户的触发方式,最有可能的是,采集到用户利用鼠标对附图标号或剪切图的点击操作信息,作为举例,该鼠标的点击信息,可以通过钩子函数进行采集。通过输出整幅附图,可以让用户查看到更多的技术细节。另外,所述的触发操作,也可以是用户利用按键所进行的触发操作,或者是利用其它预设方式所进行的触发操作。进一步,在采集到用户触发一幅整体的附图时,则输出与该整幅附图并列存在于同一专利文档下的其它附图。也就是说,所输出的一幅整体附图满足不了用户需求的话,则用户可以利用鼠标或者其它的方式,对已输出的附图进行触发操作。然后,利用该触发信息调取本专利文档中的其它附图,输出给用户。当用户利用本发明阅读文档时,可以提供如下的功能当标号诠释内容单独存在时,这种情况在《权利要求书》、《说明书摘要》,以及《说明书》的“发明内容”部分,尤其常见。触发标注诠释内容时,可输出与其相对应的文档标号与附图标号附属区域两者至少其一,其中优选输出带有附图部分的附图标号附属区域。这样,就很方便于用户理解专利内容了。而当标号诠释内容和文档标号共同存在时,这种情况在《说明书》中的“具体实施方式
”部分,最为常见。触发两者至少其一时,输出与其相对应包括有附图标号以及对应附图信息的附图标号附属区域,方便于用户理解专利文档的内容。当触发标号诠释内容或文档标号时,同一活动窗口所呈现出的附图标号附属区域包括有两个或两个以上的附图标号时,将与其相应的附图标号进行差异性标识。其中,作为举例,利用Windows中窗口相关的API函数,即可采集活动窗口的信息。所述的差异性标识,实施方案有多种,具体是不限定。比如,可以将附图标号所在的区域做高亮显示,或渲染上具有差异性的色彩,或设置差异性的标识图形。其中,设置差异性的色彩是容易实现的方案,比如说,可以选用红色来标识其中之一的文档标号,对应地将附图标号附属区域中的附图标号也标识为相应的红色;而将另外一个文档标号以及所对应的附图标号,都标识为蓝色;而对于其它的文档标号和对应的附图标号,则标识其它的色彩。所述的标识图形,比如,可以通过画一个线条、方框,或者其它任意的区分性的图形来实现。所设置的标识图形,适合在一一对应的文档标号和附图标号之间设置完全相同的标识图形;另一方面,而对于其它的文档标号,采用具有差异性的图形来实现。进一步,常常还存在有这样的情况,就是同一个标号诠释内容或文档标号,所对应的包括有附图标号的独立附图有两个或两个以上时,进行如下方式其一的输出,A,采集标号诠释内容所在的段落,或者位于前部或后部的邻近段落所进行的

,根据采集获得的

,来对提供的两个及两个以上的附图进行筛选,、选择出与其关联度最高的附图输出。比如,在相邻的段落中,筛选出了

信息“图3”,于是,就可以将包括有相应附图标号的图3优先输出给用户。B,采集与其对应的两个及两个以上的附图,将附图数据建立列表,通过列表规则输出附图。这种方案,是将各附图进行汇总,比如说,形成一个纵向的或横向的列表,在该列表中,插入各个对应着设置有相应附图标号的独立附图,来提供给用户。所提供的附图适合为小图,当用户需要清晰了解图中细节的时候,利用鼠标点击小图的方式,可经过触发使得小图变成大图。C,输出一个附图;判断是否采集到用户针对于该附图的触发信息;若采集到的话,根据采集获得的触发信息来输出其它附图。这种方案,是先将一幅包括有相应附图标号的独立附图提供给用户,如果用户觉得该附图不够的话,就可以利用鼠标点击一类的方式来触发该附图所在的位置。经触发之后,其它包括有该附图标号的附图,就会依次输出给用户供用户查阅。在进行附图输出的时候,为了让输出的附图不会影响用户正在看的段落,当附图的篇幅较大,不适合在文档的侧边插入附图窗口时,可以针对于文档标号或标号诠释内容,插入对应有附图标号的附图,并将该附图所在的窗口设置在段落的上部或下部位置,但不设置在前述文档标号或标号诠释内容所在段落中。进一步,针对于文档标号或标号诠释内容所插入的对应有附图标号的附图,当呈现有一份或多幅附图的情况下,可以采集鼠标的滚轮信息,来触发前部附图或后部附图的输出操作。采集鼠标的滚轮信息,作为举例,可以通过钩子函数,或者所在系统的API (Application Programming Interface)函数来实现。并且,可以将全部数量的说明书附图建立起相应的附图汇总列表,将采集到的鼠标滚轮信息作为调取更多附图的触发因素。于是,就可以向上滚动鼠标滚轮来调取前面的附图;向下滚动鼠标滚轮来调取后面的附图。在阅读专利文档的过程中,比如,阅读《说明书》或《权利要求书》或《摘要附图》时,为了提高阅读效率,还可以对一个独立页面或者一个可视窗口中所存在的各个文档标号或标号诠释内容,同步输出各个附图标号附图区域。具体来说,可以通过如下步骤来实现采集文档标号或标号诠释内容的触发信息;调取与其对应的附图标号附属区域;在一个独立的页面中或一个可视的视窗部分所对应的界面中,凡存在着文档标号或标号诠释内容的位置,输出与其对应的各附图标号附属区域。所述的一个独立页面,指的是一份独立页码所对应的页面。比如页码“3”所对应的第三页页面,就是一个独立页面。所述的一个可视的视窗部分,指的是利用整体的屏幕截图,能够包括到的已打开 专利文档的页面部分。可视的视窗部分所对应的专利页面,可以通过如下途径来获取利用操作系统,比如Windows相关的API函数,来获得屏幕的整体截图,然后,利用OCR技术对截图中的内容进行识别,转变成文本数据之后,与专利文档的识别后的文本内容进行比对,就可以获得相应的位于可视视窗中的文档部分了。数据输出的时候,在所述的独立页面中或一个可视的视窗部分所对应的界面中,凡文档标号或标号诠释内容存在重复的,附图标号附属区域只出现一次。其中的附图标号附属区域,是以插入窗口的形式,在具有文档标号的页面中输出的,输出位置并不限定。但如果附图标号附属区域输出的数量过多的话,所对应窗口占用的篇幅就会过大,从而会影响用户的正常阅读。利用前面所描述的方式,可以有效地减少附图标号附属区域的出现频率。所述的附图标号附属区域,适合以插入窗口的形式,设置在专利文档的边侧位置。进一步,还可以将插入的附图标号附属区域作为控件窗口的形式,能够进行位置浮动,让用户根据需要来移动附图标号附属区域的位置。相应地,针对于附图标号附属区域中的各个附图标号,同样可以一次性地加入各个与附图标号相对应的标号诠释内容,以此来提高查阅效率。具体来说,该方式包括有如下步骤采集位于一个或多个独立页面中或可视的视窗部分所对应的文档中的各附图标号的触发信息;根据触发信息调取与其对应的标号诠释内容;针对于各附图标号设置相应的标号i全释内容。其中,对于可视的视窗部分的获得方式,与前面所述的方案类似;当然也不限定。当触发附图标号附属区域中的附图标号部分时,所输出的信息内容包括如下两种至少其一,A,输出的是和该附图标号相对应的标号i全释内容;B,输出标号i全释内容的同时,还包括与附图标号相对应的标号i全释内容的所在句子或所在段落。与附图标号相对应的标号诠释内容的所在句子或所在段落的具体输出类型,可以由用户根据需要进行选择。比如说,可以提供相应的控件列表,来由用户点选。具体可选择仅仅输出标号i全释内容,或选择输出标号i全释内容及所在句子,或选择输出标号i全释内容及所在的段落。进一步,还可以记录用户的选择,在下次输出的时候,按照用户曾经设定的选择进行输出。如果需要输出的标号诠释内容包括2处或2处以上的话,则输出标号诠释内容的出现频率的统计。该频率的统计,作为举例而非限定,可以这样实现将专利文档转换成文本文档,或者已经是文本文档的话,直接进行文本数据采集;利用所输出的标号诠释内容,在专利文档中进行比对,来统计相同标号诠释内容出现的次数。
进一步,还可以统计特定的文档类型,或者特定文档类型特定部分的统计信息。比如说,所述的特定的文档类型,指的是《权利要求书》;所述的特定文档类型特定部分,指的是《说明书》中的“具体实施方式
”部分。进一步,如果需要输出的标号诠释内容包括2处或2处以上的话,还输出包括有标号诠释内容所在句子或段落内容的统计列表。所述的句子或段落内容都可以在该统计列表中列出,供用户参阅。进一步,在附图中,针对于附图标号加入说明信息时,设置着选择控件,在该控件中包括如下选项中至少其一,A,对应的标号诠释内容;B,与标号诠释内容相关联的一句或几句内容;C,与标号i全释内容相对应的段落;D,对应的文档标号出现的频率信息;E,对应的标号诠释内容出现的频率信息。进一步,还可以利用具有对应关系的标号诠释内容替换原附图标号,并将原附图标号删掉,这种方式能够让用户快速地了解附图标号的含义,它具体包括有如下步骤采集附图中的附图标号信息;判断与附图标号相对应的标号i全释内容;将标号诠释内容设置于原附图标号位置处,替换原附图标号。这种功能下,既可以将替换后的原附图标号删除掉,也可以在标号诠释内容和原来的附图标号之间建立起链接关系,当点击附图标号时,根据链接关系呈现出标号诠释内容;当点击标号诠释内容时,根据链接关系呈现出对应的附图标号。进一步,针对于附图页面,在附图标号旁边安排标号诠释内容的步骤为在靠近附图标号的位置寻找空白的空间区域;在空白区域安排标号诠释内容的设置位置。通常情况下,标号诠释内容适合安排在附图页面的空白区域。判断是否为空白区域,只需要判断所在的位置是否包括像素成分就可以。该像素成分,色彩通常为黑色,便于判断。当附图标号的密度达到无法以预设尺寸置放标号诠释内容的情况下,也就是说,靠近附图标号的位置,无法找到足够容放标号诠释内容的空间时,于是,可以设定,只有在触发附图标号的条件下才能够呈现出标号诠释内容。将该规则写入到附图标号与标号诠释内容的触发条件中,就可以实现本功能了。另外,还会有这样的情况对应着附图标号已经包括有标号诠释内容了。这种情况在软件类专利中较为常见。该情况下,适合采集标号诠释内容出现的段落,作为输出的包括有标号诠释内容的诠释信息。进一步,当对应出现有多段内容的情况下,还可以建立起列表,一次或多次输出前述的段落;还可以根据用户的选择输出。利用该选择控件,就可以让用户个性化地设置附图标号的说明信息。进一步,在本发明中,还可以对用户阅读专利文档时的设置信息进行采集及数据
存储,具体方式包括如下两者至少其一,(I)将设置信息存储到用户所使用的终端中;(2)如果用户跨终端使用本发明的话,将用户的设置信息发送到配套的系统服务器中,采集用户下次的登陆信息,将相应的选择数据推送到用户后面所登陆的终端中输出。进一步,利用本发明,还可以对与该附图标号相对应的标号诠释内容或相关联的信息内容进行语音输出。具体说来,它包括有如下的实现过程采集触发附图标号附属区域中的附图标号的信息;调出与该附图标号相对应的标号诠释内容,或包括标号诠释内容所关联的句子或段落在内的关联信息;利用语音输出模块,将标号i全释内容或对应的关联信息以语音方式输出。所述的语音输出模块,其中封装有和语音相对应的语料库,以及封装有用以采集语料内容并输出相应语音信息的控制结构。利用该配套设置的语音输出模块,将基于附图标号所调出的信息内容以语音形式输出。进一步,还可以将对应着附图标号的标号诠释内容,进行信息采集后作网络数据搜索,具体来说,可包括有如下步骤采集触发附图标号附属区域中的附图标号的信息;调出与该附图标号相对应的标号i全释内容;利用配套设置的网络搜索模块,登陆网络服务器进行信息搜索,将搜索结果输出。所述的网络搜索模块,包括有数据接入组件,用以接收采集到的标号诠释内容的数据;还包括有搜索执行组件,通过该组件调出网络浏览器,以及对应的搜索工具,比如baidu. com,进行数据搜索;以及包括搜索结果输出组件,用以输出搜索获得的结果。搜索结果可以通过插入窗口的方式在专利文档中呈现出来。通过该方式,就可以便利地将附图标号所对应的标号诠释内容进行搜索并输出了。同样地,还可以通过附图标号调出标号诠释内容,然后在指定的文档中进行数据搜索,获得搜索信息。具体说来,可以通过如下步骤来实现采集触发附图标号附属区域中的附图标号的信息;调出与附图标号相对应的标号i全释内容;在指定文档中搜索关联数据后输出。其中,所述的指定文档,首先可以以所在的专利资料作为指定文档。其次,还可以建立索引,该索引可以是链接,比如,网络链接,以链接的内容作为指定文档;或者,指定的其它特定的一篇或多篇文档,来作为指定文档。然后将搜索结果以插入窗口的形式输出即可。进一步,还可以由用户选择搜索关联数据,生成针对于附图标号附属区域的注释信息栏。该注释信息栏,可以作为插入到附图标号附属区域所在页面的窗口。举例来说,首先采集所搜索到的数据,然后,利用操作系统,比如Windows系统的窗口相关的API函数,建立作为注释信息栏的窗口,再将采集到的搜索数据写入到该窗口中,形成注释信息栏。进一步,前述的注释信息栏,还可以通过用户的浏览选择的方式来实现。实现步骤包括采集附图标号附属区域中附图标号的触发信息;
基于前述的触发信息,输出对应着非图片文档的浏览窗口 ;采集用户在该窗口中针对于非图片文档的选择信息,生成针对于附图标号附属区域的注释信息栏。如,当用户触发附图标号附属区域中的附图标号时,即可利用窗口的生成函数,来生成用以输出对应非图片文档的浏览窗口。所述的非图片文档,指的是专利文档中,除了《说明书附图》和《摘要附图》之外的其它文档部分,这些文档部分以文本内容为主。可以利用对各类文档的标记来协助该类数据的调取操作。将调取的非图片文档数据写入到前述的浏览窗口中输出。当用户查看非图片文档时,遇到适合摘录的内容,利用与该浏览窗口配套设置的工具,比如,图形区域选择工具,可以通过圈选矩形范围的方式,来选择需要的文档内容。如果输出的内容为文本文档的话,还可以利用字符的选择工具,来进行选择。选择之后内容,直接写入到注释信息栏中,即可生成由用户自己选择的注释信息栏。进一步,在具有关联性的标号诠释内容或文档标号,和附图标号附属区域中的附图标号之间,还可以建立有链接关系。在触发两类数据之一时,活动窗口转入到链接关系所对应的页面。举例来说,如果一篇专利文档的各部分均在一个独立文档中,那么,该链接就是文档内链接;否则,涉及文档之间的链接。在使用中,作为一个优选的实施例而非限定,适合在触发标号诠释内容或文档标号的情况下,活动窗口转入到附图标号附属区域所在的页面。作为另一个优选的实施例,在具有关联性的标号诠释内容或文档标号,和附图标号附属区域中的附图标号之间,建立有链接关系,在触发附图标号附属区域中的附图标号的情况下,活动窗口转入到对应的标号诠释内容或文档标号所在的页面。本发明还提供一种用以实现专利文档数据输出的终端,该终端具体包括对应关系建立模块,用以在标号诠释内容、文档标号,以及附图中包括有附图标号的附图标号附属区域三者之间,建立起对应关系;关联输出模块,当触发文档标号、标号诠释内容,以及附图标号附属区域三者其一时,关联的另外两种信息内容中至少其一,根据输出条件选择性输出。该终端具体的实现形式是不限定,举例来说,载体形式可以是个人电脑,也可以包括电子书、智能手机、PDA等等在内终端。该终端中具有存储结构,用以存储本发明所对应的程序数据;以及输出用的显示屏幕,以显示本发明所对应的信息;以及运算处理结构,以进行本发明实现的数据处理操作。并可以根据需要设置相应的音频部件。另一方面,本发明还提供一种用以实现专利文档数据输出的系统,该系统以网络中的客户端为输出结构,以网络中的服务器为数据存储及处理的功能结构,该系统包括服务器,包括有对应关系建立模块,用以在标号诠释内容、文档标号,以及附图中包括有附图标号的附图标号附属区域三者之间,建立起对应关系,以及关联输出模块,当触发文档标号、标号诠释内容,以及附图标号附属区域三者其一时,关联的另外两种信息内容中至少其一,根据输出条件选择性输出,以及服务器数据接口,用以接收下述的客户端所发送的与标号诠释内容、文档标 号,以及附图标号附属区域相关的用户输入信息,以及向下述的客户端发送经关联数据数据模块处理后的数据;客户端,通过网络与上述的服务器相连通,包括有用以输出来自于上述服务器中处理数据的输出结构,以及客户端采集模块,用以采集与标号诠释内容、文档标号,以及附图标号附属区域相关的用户输入信息,以及客户端数据接口,用以将客户端采集模块采集获得的数据发送到前述的服务器中,以及接收前述的服务器所推送的数据。作为举例,该服务器采用具有数据存储与处理功能的网络服务器,就可以实现。所述的网络,可以是互联网,也可以是局域网。具体是不限定的。所述的客户端,包括显示屏,以及数据存储结构与数据处理结构。进一步,根据需要设置包括扬声器在内的音频部件。该终端具体的实现形式是不限定,可以是个人电脑,也可以包括电子书、智能手机、PDA等等在内终端,具体并不限定。需要指出的是,本发明除了阅读专利文档之外,还可以阅读具有前述适用专利文档特征的其它数据形式。以上是对本发明的描述而非限定,基于本发明思想的其它实施例,亦均在本发明的保护范围之中。
权利要求
1.一种专利文档的数据输出方法,其特征在于该方法包括有如下步骤 步骤1,在标号诠释内容、文档标号,以及附图中包括有附图标号的附图标号附属区域三者之间,建立起对应关系; 步骤2,当触发文档标号、标号诠释内容,以及附图标号附属区域三者其一时,关联的另外两种信息内容中至少其一,根据输出条件选择性输出。
2.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于所述的步骤1,其对应关系的建立过程是, 利用标号诠释内容和文档标号相邻近的位置关系,建立起标号诠释内容和文档标号之间的对应关系, 以及通过附图标号和文档标号描述同一对象的关系,建立起附图标号和文档标号之间的对应关系; 根据文档标号和附图标号之间的相似性关系,建立起标号诠释内容和附图标号之间的对应关系。
3.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于文档标号的获得途径是, 预设文档标号的规则; 对专利文档的《说明书》中的具体实施方式
部分进行数据分析; 根据文档标号的规则进行筛选,获得文档标号。
4.根据权利要求I或3所述的一种专利文档的数据输出方法,其特征在于所述的文档标号能够通过如下步骤进行验证, 采集经判断获得的文档标号; 按照文档标号与标号诠释内容邻近设置的位置关系,判定文档标号的真实性; 若判断通过,则是真实的文档标号,否则不是真实的文档标号。
5.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于附图标号的获得途径是, 预设附图标号的规则; 对《说明书附图》进行数据扫描; 根据附图标号的规则,判断并采集附图标号的信息内容。
6.根据权利要求5所述的一种专利文档的数据输出方法,其特征在于所述的附图规贝U,包括有附图引线与附图标号之间位置上的对应关系,在该对应关系中,附图标号通过附图引线从附图中引出。
7.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于所述的文档标号的获得途径是, 预设附图标号的规则; 对《说明书附图》进行数据扫描; 根据附图标号的规则,判断并采集附图标号的信息内容; 根据附图标号和文档标号描述内容一致的规则,获得文档标号。
8.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于判定文档标号真实性的方式,包括有如下步骤,采集经判定所获得的文档标号和附图标号信息; 在字符识别后利用字符信息进行比对,或者直接利用图形进行比对,依据两者之间所表述对象的一一对应关系,来判断特定的文档标号和特定的附图标号之间是否存在一一对应关系; 没有一一对应关系的文档标号或附图标号,不是判断通过的文档标号或附图标号;具有一一对应关系的文档标号或附图标号,是判断通过的文档标号或附图标号。
9.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于所述的标号诠释内容的获得途径是, 采集文档标号的位置信息; 从文档标号前面的位置,提取获得标号诠释内容。
10.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于所述的标号诠释内容的获得途径是, 采集文档标号的位置信息; 判定标号诠释内容设置在文档标号之后; 从文档标号的后面位置,提取获得标号诠释内容。
11.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于所述的标号诠释内容的获得途径是, 预设附图标号的规则; 对《说明书附图》进行数据扫描; 根据附图标号的规则,判断并采集附图标号的信息内容; 根据附图标号和文档标号描述内容一致的规则,获得文档标号; 根据文档标号与标号诠释内容相邻的位置关系,判断获得标号诠释内容。
12.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于 采集经判断获得的标号诠释内容; 将采集到的标号诠释内容与其它位置所采集到的标号诠释内容进行比对; 采集其重复频率高的内容部分,作为优先输出的标号诠释内容。
13.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于对于专利文档中,将前面对应文档标号出现的标号诠释内容详细描述,而将后面对应着文档标号出现的标号诠释内容做部分省略的情况,处理过程是, 比对同一专利文档中针对于同一文档标号所获得的标号诠释内容; 判断是否针对于同一文档标号存在着完整描述与省略描述; 当判断出存在着省略描述的情况,将位于前面位置的完整描述,作为完整的标号诠释内容。
14.根据权利要求13所述的一种专利文档的数据输出方法,其特征在于当标号诠释内容的完整描述与省略描述同时存在的情况下,在触发附图标号输出标号i全释内容时,将标号i全释内容的完整描述与省略描述同时输出。
15.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于对于非文本形式的专利文档来说,进行数据处理的方式为如下两种方式至少其一, (I)对文档中的数据进行识别,将能够转变成字符形式的信息部分,转变成字符形式后再进行分析处理; (2)对文档中的图像数据进行采集,依据文档标号、附图标号,以及标号诠释内容之间的图像关联性,对其进行分析与比对,识别出其中的文档标号、附图标号,以及标号诠释内容。
16.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于所述的附图标号附属区域,除了包括附图标号外,还包括与附图标号相对应的附图区域。
17.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于与附图标号相对应的附图区域,其数据呈现的方式包括有如下两种至少其一, a整幅附图呈现出来; b对附图进行剪切,剪切图中至少包括附图标号,以及与附图标号相对应着的附图引线,以及与附图引线相对应的图形区域。
18.根据权利要求17所述的一种专利文档的数据输出方法,其特征在于对于所述的b情况来说,当采集到用户触发附图标号或剪切图两者至少其一的信息时,输出与其相对应的整幅附图。
19.根据权利要求18所述的一种专利文档的数据输出方法,其特征在于在采集到用户触发一幅整幅附图时,输出与该整幅附图并列存在于同一专利文档下的其它附图。
20.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于当标号诠释内容单独存在时,触发标注诠释内容,输出与其相对应的文档标号与附图标号附属区域两者至少其一。
21.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于当标号诠释内容和文档标号共同存在时,触发两者至少其一时,输出与其相对应包括有附图标号以及对应附图信息的附图标号附属区域。
22.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于当触发标号诠释内容或文档标号时,同一活动窗口所呈现出的附图标号附属区域包括有两个或两个以上的附图标号时,将与其相应的附图标号进行差异性标识。
23.根据权利要求22所述的一种专利文档的数据输出方法,其特征在于所述的差异性标识,是将附图标号所在的区域做高亮显示,或渲染上具有差异性的色彩,或设置差异性的标识图形。
24.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于当针对于同一标号诠释内容或文档标号出现有对应附图标号的独立附图有两个或两个以上时,进行如下方式其一的输出, A,采集标号诠释内容所在的段落,或者位于前部或后部的邻近段落所进行的

, 根据采集获得的

,来对提供的两个及两个以上的附图进行筛选, 选择与其关联度最高的附图输出; B,采集与其对应的两个及两个以上的附图, 将附图数据建立列表, 通过列表的规则输出附图; C,输出一个附图;判断是否采集到用户针对于该附图的触发信息; 若采集到的话,根据采集获得的触发信息来输出其它附图。
25.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于针对于文档标号或标号诠释内容所插入的对应有附图标号的附图,该附图所在的窗口,设置在段落上部或下部的位置中,不设置在前述文档标号或标号诠释内容所在段落中。
26.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于针对于文档标号或标号诠释内容所插入的对应有附图标号的附图,当呈现有一份或多幅附图的情况下,采集鼠标的滚轮信息,来触发前部附图或后部附图的输出操作。
27.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于对一个独立页面或者一个可视窗口中所存在的各个文档标号或标号诠释内容,同步输出各个附图标号附 图区域,它包括有如下步骤, 采集文档标号或标号诠释内容的触发信息; 调取与其对应的附图标号附属区域; 在一个或多个独立的页面中或一个可视的视窗部分所对应的界面中,凡存在着文档标号或标号诠释内容的位置,输出与其对应的各附图标号附属区域。
28.根据权利要求27所述的一种专利文档的数据输出方法,其特征在于可视的视窗部分所对应的专利文档的页面,通过如下步骤来获取, 利用操作系统相关的API函数,来获得屏幕的整体截图; 利用OCR技术对截图中的文本内容进行识别; 与专利文档的内容进行比对,来获得相应的位于可视视窗中的文档部分。
29.根据权利要求27所述的一种专利文档的数据输出方法,其特征在于在所述的独立页面中或一个可视的视窗部分所对应的界面中,凡文档标号或标号诠释内容存在重复的,附图标号附属区域只出现一次。
30.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于所述的附图标号附属区域,设置在专利文档的边侧位置。
31.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于同步对两处或两处以上的文档标号或标号诠释内容输出附图标号附属区域,通过如下步骤来实现, 采集位于一个或多个独立页面中或可视的视窗部分所对应的文档中的各附图标号的触发信息; 根据触发信息调取与其对应的标号诠释内容; 针对于各附图标号设置相应的标号诠释内容。
32.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于当触发附图标号附属区域中的附图标号部分时,所输出的信息内容包括如下两种至少其一, A,输出的是和该附图标号相对应的标号诠释内容; B,输出标号诠释内容的同时,还包括与附图标号相对应的标号诠释内容的所在句子或所在段落。
33.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于如果需要输出的标号诠释内容包括2处或2处以上的话,则输出标号诠释内容的出现频率的统计。
34.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于如果需要输出的标号诠释内容包括2处或2处以上的话,输出包括有标号诠释内容所在句子或段落内容的统计列表。
35.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于在附图中,针对于附图标号加入说明信息时,设置着选择控件,在该控件中包括如下选项中至少其一, A,对应的标号诠释内容; B,与标号诠释内容相关联的一句或几句内容; C,与标号诠释内容相对应的段落; D,对应的文档标号出现的频率信息; E,对应的标号诠释内容出现的频率信息。
36.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于利用对应的标号诠释内容替换原附图标号,它包括有如下步骤 采集附图中的附图标号信息; 判断与附图标号相对应的标号诠释内容; 将标号诠释内容设置于原附图标号位置处,替换原附图标号。
37.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于在附图标号旁边安排标号诠释内容的步骤为, 在靠近附图标号的位置寻找空白的空间区域; 在空白区域安排标号诠释内容的设置位置。
38.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于当附图标号的密度达到无法以预设尺寸置放标号诠释内容的情况下,只有在触发附图标号的条件下才能够呈现出标号诠释内容。
39.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于在附图中,对应着附图标号已经包括有标号诠释内容的情况,将标号诠释内容出现的段落,作为诠释信息输出。
40.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于采集用户阅读专利文档时的设置信息进行数据存储的方式,包括有如下两者至少其一, 将用户阅读专利文档时的设置信息,存储到用户所使用的终端中; 在跨终端使用的情况下,将该设置信息发送到配套的服务器中,采集用户下次的登陆信息,将相应的选择数据推送到用户后面所登陆的终端中输出。
41.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于与附图标号相对应的标号诠释内容或相关联的信息内容,可进行语音输出,它包括有如下步骤, 采集触发附图标号附属区域中的附图标号的信息; 调出与该附图标号相对应的标号诠释内容,或包括标号诠释内容所关联的句子或段落在内的关联彳目息; 利用语音输出模块,将标号i全释内容或对应的关联信息以语音方式输出。
42.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于将对应着附图标号的标号诠释内容,进行信息采集后作网络数据搜索,它包括有如下步骤, 采集触发附图标号附属区域中的附图标号的信息; 调出与该附图标号相对应的标号i全释内容;利用配套设置的网络搜索模块,登陆网络服务器进行信息搜索,将搜索结果输出。
43.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于通过附图标号调出标号诠释内容,然后在指定的文档中进行数据搜索,获得搜索信息,它包括有如下步骤, 采集触发附图标号附属区域中的附图标号的信息; 调出与附图标号相对应的标号i全释内容; 在指定文档中搜索关联数据后输出。
44.根据权利要求42或43所述的一种专利文档的数据输出方法,其特征在于采集用户所选择的搜索关联数据,生成针对于附图标号附属区域的注释信息栏。
45.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于通过浏览窗口 的方式建立注释信息栏,其步骤包括, 采集附图标号附属区域中附图标号的触发信息; 基于前述的触发信息,输出对应着非图片文档的浏览窗口 ; 采集用户在该窗口中针对于非图片文档的选择信息,生成针对于附图标号附属区域的注释信息栏。
46.根据权利要求I所述的一种专利文档的数据输出方法,其特征在于在具有关联性的标号诠释内容或文档标号,和附图标号附属区域中的附图标号之间,建立有链接关系,在触发两类数据之一时,活动窗口转入到链接关系所对应的页面。
47.一种用以实现专利文档数据输出的终端,该终端包括 对应关系建立模块,用以在标号诠释内容、文档标号,以及附图中包括有附图标号的附图标号附属区域三者之间,建立起对应关系; 关联输出模块,当触发文档标号、标号诠释内容,以及附图标号附属区域三者其一时,关联的另外两种信息内容中至少其一,根据输出条件选择性输出。
48.一种用以实现专利文档数据输出的系统,该系统包括 服务器,包括有对应关系建立模块,用以在标号诠释内容、文档标号,以及附图中包括有附图标号的附图标号附属区域三者之间,建立起对应关系, 以及关联输出模块,当触发文档标号、标号诠释内容,以及附图标号附属区域三者其一时,关联的另外两种信息内容中至少其一,根据输出条件选择性输出, 以及服务器数据接口,用以接收下述的客户端所发送的与标号诠释内容、文档标号,以及附图标号附属区域相关的用户输入信息,以及向下述的客户端发送经关联数据数据模块处理后的数据; 客户端,通过网络与上述的服务器相连通,包括有用以输出来自于上述服务器中处理数据的输出结构, 以及客户端采集模块,用以采集与标号诠释内容、文档标号,以及附图标号附属区域相关的用户输入信息, 以及客户端数据接口,用以将客户端采集模块采集获得的数据发送到前述的服务器中,以及接收前述的服务器所推送的数据。
全文摘要
本发明提供一种专利文档的数据输出方法、终端及系统,计算机、软件技术领域。其中,所述的方法包括步骤1,在标号诠释内容、文档标号,以及附图中包括有附图标号的附图标号附属区域三者之间,建立起对应关系;步骤2,当触发文档标号、标号诠释内容,以及附图标号附属区域三者其一时,关联的另外两种信息内容中至少其一,根据输出条件选择性输出。通过本发明,能够利用专利文档中内部数据之间的关联性,来让用户更加便利地获得专利文档内容的关联信息。
文档编号G06K9/20GK102737030SQ201110084239
公开日2012年10月17日 申请日期2011年4月6日 优先权日2011年4月6日
发明者马宇尘 申请人:上海量明科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1