文档的采集、标识及关联的系统的制作方法

文档序号:6498885阅读:183来源:国知局
文档的采集、标识及关联的系统的制作方法
【专利摘要】本发明公开了文档的采集、标识及关联的系统,搭建了某一专业领域的基于计算机系统的知识管理系统,提高了对专业领域知识的学习效率和利用效率。其技术方案为:在不特定文档中以关键词搜索方式标识和关联与一组关键词有文档间逻辑关系的一系列文档,并对该系列文档组成的关系图以该组关键词按一定的逻辑组合进行命名。
【专利说明】文档的米集、标识及关联的系统
【技术领域】
[0001]本发明涉及文档系统,尤其涉及在某一特定专业领域中对在线或单机文档(含手持设备)的采集、标识和关联的高效的处理系统。
【背景技术】
[0002]通过世界上现有的许多文档的搜索及展示的系统,专业技术人员获取、学习并研究文档,并需要从多份生成日期不同、作者不同(独立作者或联合作者)的文档中获取有效的信息作为相关行事准则的参考依据。可能最终需要的某一知识内容仅占其所查询的文档内容5%以下,而且这些知识内容可能分散在若干个不明显相关的文档之中。
[0003]本 申请人:认识到,需要为这些专业技术人员,从他们所关心的领域中寻找到符合他们要求的、准确的特定信息,即需要在海量文档提取出相应信息的解答是非常耗时的。而且能够为这些专业人员提供相关类似服务的人员非常稀少。
[0004]因此,本 申请人:认识到需要建立一种更好的针对文档进行采集、标识及关联的系统方法。

【发明内容】

[0005]本发明的目的在于解决上述问题,提供了一种文档的采集、标识及关联的系统,搭建了某一专业领域的基于计算机系统的知识管理系统,提高了对专业领域知识的学习效率和利用效率。
[0006]本发明的技术方案为:本发明揭示了一种文档的采集、标识及关联的系统,包括文档分类存储管理平台服务器和文档库平台服务器,其中文档分类存储管理平台服务器包括单一文档的采集装置、单一文档的标识和关联装置以及文档间关系图建立装置,文档存储装置的主节点部署在文档分类存储管理平台服务器上,文档存储装置的主节点的镜像版本部署在文档库平台服务器上,其中:
[0007]单一文档的采集装置,用于将所需管理类型的文档进行搜集、初步加工和系统导A ;
[0008]单一文档的标识和关联装置,按照不同的维度和层级对预设的专业术语进行分类和定义,建立和维护对应专业领域的关键词列表,对单一文档按照不同的属性和层级进行定义,在单一文档中设置若干个文档单元,对文档单元进行若干个关键词的系统标识,定义任意两个单一文档或文档单元之间可能产生的逻辑关系列表,并通过已设定的逻辑关系种类实现两个单一文档之间的逻辑关系的关联设置;
[0009]文档间关系图建立装置,对文档间关系图进行定义,对文档间关系图的各组成部分之间的关系进行定义;
[0010]文档存储装置,根据单一文档的采集装置、单一文档的标识和关联装置、文档间关系图建立装置的调用将相关信息存储到文档分类存储管理平台服务器的数据库中,将指定的格式文件归档到文档库平台服务器中,并通过数据交换引擎将相关数据信息在文档分类存储管理平台服务器和文档库平台服务器之间传输数据。
[0011]根据本发明的文档的采集、标识及关联的系统的一实施例,单一文档的采集装置进一步包括:
[0012]格式整理模块,将文档整理成指定的格式;
[0013]分类信息标识模块,连接格式整理模块,将格式文件按要求添加初步的分类信息标识;
[0014]文件导入模块,连接分类信息标识模块,将添加了分类信息标识的格式文件导入到系统中。
[0015]根据本发明的文档的采集、标识及关联的系统的一实施例,单一文档的标识和关联装置进一步包括:
[0016]关键词维度设定模块,对关键词的维度进行设定;
[0017]关键词定义模块,连接关键词维度设定模块,对关键词各维度所对应的关键词进行定义;
[0018]文档分类设定模块,按照关键词对单一文档进行分类设定;
[0019]文档片段设定模块,按照关键词对文档的各文档片段进行分类设定。
[0020]根据本发明的文档的采集、标识及关联的系统的一实施例,单一文档的标识和关联装置还包括:
[0021]文档单元设置模块,将单一文档的具有相同关键词标识的文档片段组合为若干个文档单元;
[0022]文档单元标识模块,对文档单元进行若干个关键词的系统标识;
[0023]逻辑关联模块,定义任意两个单一文档之间可能产生的逻辑关系列表,通过已设定的逻辑关系种类在系统内实现两个单一文档或者文档单元之间的逻辑关系的关联。
[0024]根据本发明的文档的采集、标识及关联的系统的一实施例,文档间关系图建立装置进一步包括:
[0025]关键词命名模块,对任一具体的文档间关系图通过特定的一组关键词进行命名;
[0026]文档间关系图生成模块,生成文档间关系图,包括文档间关系图中按文档单元间的特定逻辑关系排列的一系列文档单元的展现、文档单元之间的逻辑关系的图形标识、单一文档单元的展现。
[0027]根据本发明的文档的采集、标识及关联的系统的一实施例,文档存储装置进一步包括:
[0028]关系型数据库管理系统,用于建立文档分类存储管理平台;
[0029]文档库管理系统,用于建立文档库平台;
[0030]写入操作模块,对各装置的调用执行数据库的写入操作;
[0031]保存操作模块,对各装置的调用以归档功能保存相应的单一文档文件或文档间关系图文件;
[0032]平台数据传输模块,通过数据交换引擎将相关数据在文档分类存储管理平台服务器和文档库平台服务器之间传递。
[0033]根据本发明的文档的采集、标识及关联的系统的一实施例,系统还包括文档释读采集平台服务器,其中包括:[0034]文档释读采集装置,采集用户对文档的解释内容相关的输入数据;
[0035]数据采集审核装置,对采集到的输入数据进行审核;
[0036]文档释读存储装置,将通过审核的文档解释内容相关的输入数据链接到相应的文档或文档间关系图中进行存储。
[0037]根据本发明的文档的采集、标识及关联的系统的一实施例,文档间的逻辑关系包括但不限于派生关系、平行关系、或关系、与关系、包含关系、修订关系、覆盖关系、否定关系的逻辑关系,其中每一种文档间的逻辑关系对应系统中唯一的图标。
[0038]根据本发明的文档的采集、标识及关联的系统的一实施例,具体的实现方式还包括基于云技术构建的服务架构体系,实现诸如云端的数据查询、程序更新以及文件更新处理等服务。
[0039]根据本发明的文档的采集、标识及关联的系统的一实施例,文档包括但不限于论文、教材、历史文献、法律法规、培训课件、新闻和公告,包括但不限于文字、音频、视频、网页的多媒体介质。
[0040]本发明还揭示了一种文档的采集、标识及关联的系统,以单机版的方式在单台设备上运行,包括:
[0041]单一文档的采集装置,用于将所需管理类型的文档进行搜集、初步加工和系统导A ;
[0042]单一文档的标识和关联装置,按照不同的维度和层级对预设的专业术语进行分类和定义,建立和维护对应专业领域的关键词列表,对单一文档按照不同的属性和层级进行定义,在单一文档中设置若干个文档单元,对文档单元进行若干个关键词的系统标识,定义任意两个单一文档或文档单元之间可能产生的逻辑关系列表,并通过已设定的逻辑关系种类实现两个单一文档之间的逻辑关系的关联设置;
[0043]文档间关系图建立装置,对文档间关系图进行定义,对文档间关系图的各组成部分之间的关系进行定义;
[0044]文档存储装置,根据单一文档的采集装置、单一文档的标识和关联装置、文档间关系图建立装置的调用将相关信息存储到单台设备的数据库中,将指定的格式文件归档到单台设备的数据库中;
[0045]单机版打包发布装置,将通过文档存储装置所最终保存的数据及归档后指定格式的文件打包成一个完整的发布包裹,并根据目标平台的不同有针对性的生成发布装置程序可执行文件及配套附属文件;
[0046]客户端安装装置,通过执行发布装置的程序可执行文件,将发布包裹完整的展开到单台设备上,包括:通过文档存储装置所最终保存的数据及归档后指定格式的文件。
[0047]根据本发明的文档的采集、标识及关联的系统的一实施例,单一文档的采集装置进一步包括:
[0048]格式整理模块,将文档整理成指定的格式;
[0049]分类信息标识模块,连接格式整理模块,将格式文件按要求添加初步的分类信息标识;
[0050]文件导入模块,连接分类信息标识模块,将添加了分类信息标识的格式文件导入到系统中。[0051]根据本发明的文档的采集、标识及关联的系统的一实施例,单一文档的标识和关联装置进一步包括:
[0052]关键词维度设定模块,对关键词的维度进行设定;
[0053]关键词定义模块,连接关键词维度设定模块,对关键词各维度所对应的关键词进行定义;
[0054]文档分类设定模块,按照关键词对单一文档进行分类设定;
[0055]文档片段设定模块,按照关键词对文档的各文档片段进行分类设定。
[0056]根据本发明的文档的采集、标识及关联的系统的一实施例,单一文档的标识和关联装置还包括:
[0057]文档单元设置模块,将单一文档的具有相同关键词标识的文档片段组合为若干个文档单元;
[0058]文档单元标识模块,对文档单元进行若干个关键词的系统标识;
[0059]逻辑关联模块,定义任意两个单一文档之间可能产生的逻辑关系列表,通过已设定的逻辑关系种类在系统内实现两个单一文档或者文档单元之间的逻辑关系的关联。
[0060]根据本发明的文档的采集、标识及关联的系统的一实施例,文档间关系图建立装置进一步包括:
[0061]关键词命名模块,对任一具体的文档间关系图通过特定的一组关键词进行命名;
[0062]文档间关系图生成模块,生成文档间关系图,包括文档间关系图中按文档单元间的特定逻辑关系排列的一系列文档单元的展现、文档单元之间的逻辑关系的图形标识、单一文档单元的展现。
[0063]根据本发明的文档的采集、标识及关联的系统的一实施例,系统还包括文档释读采集子系统,其中包括:
[0064]文档释读采集装置,采集用户对文档的解释内容相关的输入数据;
[0065]数据采集审核装置,对采集到的输入数据进行审核;
[0066]文档释读存储装置,将通过审核的文档解释内容相关的输入数据链接到相应的文档或文档间关系图中进行存储。
[0067]根据本发明的文档的采集、标识及关联的系统的一实施例,文档间的逻辑关系包括但不限于派生关系、平行关系、或关系、与关系、包含关系、修订关系、覆盖关系、否定关系的逻辑关系,其中每一种文档间的逻辑关系对应系统中唯一的图标。
[0068]根据本发明的文档的采集、标识及关联的系统的一实施例,文档包括但不限于论文、教材、历史文献、法律法规、培训课件、新闻和公告,包括但不限于文字、音频、视频、网页的多媒体介质。
[0069]本发明对比现有技术有如下的有益效果:本发明的方案是在海量文档中以关键词搜索方式寻找到与一组特定的关键词有文档逻辑关系的一系列文档,并对该特定的一系列文档间的关系图以一组与之强相关的关键词进行命名。具体而言,本发明的方案是由若干台服务器群以约定的排序方式收集保存某一专业领域的日益增多的文档,并将其放置于相应的数据库进行保存。由文档分类存储管理平台对最新文档进行采集后按多个维度的关键词对文档进行文档片段分类,根据指定的关键词抽取所有对应的文档片段组成文档单元,建立关键词索引,并通过文档单元同时产生符合人脑思维逻辑的关系图,并以多个维度的关键词组对该文档关系图进行命名。通过数据交换引擎将多个维度的关键词定义文档片段分类后的文档及其索引,以及符合人脑思维逻辑的文档关系图传送到文档库平台。
[0070]通过这一系统的搭建,可以帮助使用者以最快的速度从数据库的海量文档中搜索到某一具体文档间关系图完整内容和相关信息,提高对该专业领域知识的学习效率和利用效率。
【专利附图】

【附图说明】
[0071]图1是对应于本发明的文档的采集、标识及关联的系统的一实施例的框图。
[0072]图2A-2D分别示出了系统中各个装置的细化结构。
[0073]图3是对应于本发明的一个操作图1系统的框图。
[0074]图4是对应于本发明的单一文档的采集装置的数据库层面实现原理图。
[0075]图5是对应于本发明中的文档采集加工及文档间关系图定义的框图。
[0076]图6是对应于本发明的单一文档标识关联装置及文档间关系图建立装置数据库层面实现原理图。
[0077]图7是对应于本发明中的文档分类存储管理平台、文档库平台之间数据流通部分实现框图。
[0078]图8是本发明的文档的采集、标识及关联的系统的另一实施例的框图。
[0079]图9是图8所示的实施例的系统运行流程图。
[0080]图10是文档释读采集平台服务器的细化结构图。
【具体实施方式】
[0081]下面结合附图和实施例对本发明作进一步的描述。
[0082]图1示出了本发明的文档的采集、标识及关联的系统的一实施例的结构。本发明的系统既适用于在线文档,也适用于单机文档(包含手持设备)。本发明的实施例是以在线文档为例来说明的,单机文档的应用类似,区别仅在于改成单机版,这是本领域技术人员熟知的。请参见图1,本实施例的系统包括文档分类存储管理平台服务器10、文档库平台服务器12。
[0083]文档分类存储管理平台服务器10除了常见的中央处理器、操作系统以及数据交换引擎之外,还包括控制应用部分:单一文档的采集装置100、单一文档的标识和关联装置102、文档间关系图建立装置104、以及部署在文档分类存储管理平台服务器上的文档存储装置的主节点106。
[0084]文档库平台服务器12除了常见的中央处理器、操作系统以及数据交换引擎之外,还包括控制应用部分:部署在文档库平台服务器上的文档存储装置的主节点的镜像版本124。
[0085]单一文档的采集装置100总体实现了所需管理类型文档的搜集、初步加工以及导入系统的功能。图2A示出了单一文档的采集装置100的内部结构,结合图2A,单一文档的采集装置100部署在文档分类存储管理平台服务器10上,装置100包括:格式整理模块1000、分类信息标识模块1002、文件导入模块1004。
[0086]格式整理模块1000在系统外将文档整理成指定的格式文件。[0087]分类信息标识模块1002在系统外将格式文件按照要求添加初步分类信息,包括但不限于:标题息、标识号信息、文档头信息、文档正文息、附件息、多语目版本息
坐寸ο
[0088]文件导入模块1004将格式文件通过系统导入到文档分类存储管理平台服务器10上。
[0089]图3示出了本发明系统的运行流程,结合图3说明单一文档的采集装置100的运行流程如下。
[0090]首先,提供包含至少一个将指定格式的文档文件与文档数据关联起来的数据结构(文档信息基础表、作者表、文档全文内容表、文档全文关键词表)的知识库。图4示出了单一文档的采集装置100的数据库层面的表间关系。
[0091]本发明的系统提供给用户一套完整的采集指定文档的系统工具及其实现方法,用户可以发起一个文档采集的流程。流程请参见图5所示的第I列部分。
[0092]用户可以对由上一步搜集的文档进行判断,判断其是否具有收录的价值,如果没有则本流程终止,反之则继续进行后续处理。
[0093]然后,将文档整理成系统能够识别的指定文件格式后上传到系统临时库中。响应于接收到来自请求者的上传请求,将所使用的上传文件通过文件流的方式传送到服务器端,将指定的符合格式要求的文件分行读取并解析。
[0094]对提交的文档进行审核,判断其格式及内容是否符合要求,如果不符合要求则退回文件上传临时库这一步骤要求重新处理。如果审核通过后,则将指定格式文件中的信息分字段并经过转换后存入到文档信息基础表中,将该文档的作者存入到作者表中(一个文档可以有多个作者,因此允许有多条记录),其中基础表ID字段是文档信息基础表的外键,并将文档正文对应的关键词存入文档全文关键词表中(文档正文可以有多个关键词,因此允许有多条记录),其中全文内容表ID是全文内容表的外健。
[0095]在上述操作全部成功之后,将指定格式文件存入到文档库中,并将执行结果反馈给请求者。上述写入数据库以及文档库的操作都是调用文档存储装置106来实现的。
[0096]单一文档的标识和关联装置102是本发明的重要组成部分之一,部署于文档分类存储管理平台服务器10上,其主要实现以下功能:1、按照不同的维度对预设的专业术语进行分类和定义,建立和维护对应专业领域的关键词列表;2、对单一文档按照不同的属性进行定义,这些相关属性成为系统的查询条件;3、在单一文档中设置若干个文档单元;4、定义任意两个单一文档或文档单元之间可能产生的逻辑关系列表;5、通过已设定的逻辑关系种类实现两个单一文档之间的逻辑关系的关联设置。
[0097]图2B示出了单一文档的标识和关联装置102的内部结构。结合图2B,单一文档的标识和关联装置102包括:关键词维度设定模块1020、关键词定义模块1022、文档单元标识模块1023、文档分类设定模块1024、文档片段设定模块1026。
[0098]除此之外,单一文档的标识和关联装置102还包括:文档单元设置模块1021、逻辑关联模块1025。文档单元设置模块1021将单一文档的具有相同关键词标识的文档片段组合为若干个文档单元。逻辑关联模块1025定义任意两个单一文档之间可能产生的逻辑关系列表,通过已设定的逻辑关系种类在系统内实现两个单一文档或者文档单元之间的逻辑关系的关联。[0099]关键词维度设定模块1020对关键词的维度进行设定。关键词定义模块1022连接关键词维度设定模块1022,对关键词各维度所对应的关键词进行定义。文档单元标识模块1023对文档单元进行若干个关键词的系统标识。文档分类设定模块1024按照关键词对单一文档进行分类设定。文档片段设定模块1026按照关键词对文档的各文档片段进行分类设定。
[0100]在单一文档进行属性标识的同时,建立起多个维度的关键词分类体系,使用关键词对文档进行多角度全方位的划分。具体方法包括:针对文档的每一个文档片段分别标识一组关键词;在同一个文档中将拥有含义相似、概念相近关键词的文档片段从不同维度定义为若干个文档单元;依据分门别类、解构建构的思路设定这些文档单元之间的逻辑关系,并对每一种逻辑关系设定一个专属的图标进行标识,组成的最基本展现画面称之为文档间关系图展现。例如,派生关系表示:文档B是依据文档A的某一的文档片段撰写的。平行关系表示:对于共同基于文档A的某一的文档片段撰写的两个或多个文档间的关系,为平行文档。设定平行文档时,发布时间早的居左,发布时间晚的居右。
[0101]文档间关系图一般会根据不同的专业领域分别定义若干个不同维度的关键词中至少选择不少于2个的关键词组成。
[0102]单一文档的标识和关联装置102在收到操作者的对单一文档进行标识和关联的命令后执行相关操作并与用户进行交互,内部数据库表间的关系请参见图6。
[0103]单一文档的标识和关联装置102的内部运行流程参见图5第2列所示。提供包含至少一个将关键词数据与文档数据、文档片段数据关联起来的数据结构(关键词表、文档信息基础表、文档全文内容表、文档全文关键词表、文档段落内容表、文档段落关键词表)的知识库。
[0104]系统提供对关键词维度进行定义的功能,对应数据库关键词表中的关键词种类字段。系统提供对已确认的关键词维度进行编辑具体的关键词的功能,包括但不限于:关键词名称、关键词维度(种类)等属性进行编辑,并发起一个关键词定义的流程。
[0105]系统提供对提交的关键词必要性及其各属性设置情况进行审核的功能,如果审核不通过则退回具体关键词编辑的步骤,如果审核通过则将数据保存入数据库的关键词表中。
[0106]系统提供将文档按文档片段分别定义对应的关键词的功能。该功能将数据存入文档段落内容表、文档段落关键词表。文档片段其中文档段落内容表的基础表ID字段是文档信息基础表的自增长ID字段的外键文档段落关键词表的段落表ID是文档段落内容表的自增长ID字段的外键,关键词ID字段是关键词表的自增长ID字段的外键。
[0107]系统提供将文档正式存入文档分类存储管理平台数据库及文档库,并执行发布操作的功能。
[0108]上述写入数据库、文档库的操作最终都是调用文档存储装置106来实现。
[0109]文档间关系图建立装置104部署于文档分类存储管理平台服务器10之上,其对文档间关系图进行定义,对文档间关系图的各组成部分之间的关系进行定义。
[0110]如图2C所不,文档间关系图建立装置104包括关键词命名|旲块1040和文档间关系图生成模块1042。关键词命名模块1040对任一具体的文档间关系图通过特定的一组关键词进行命名。文档间关系图生成模块1042用于生成文档间关系图,包括文档间关系图中相关文档单元群的展现、文档单元之间的逻辑关系的图形标识、单一文档单元的展现。
[0111]文档间关系图建立装置104在接收到操作者的文档间关系图建立命名后执行相关操作,并与用户进行交互,流程请参见图5第3列所示,而数据库表间关系请参见图6。
[0112]提供包含至少一个将关键词数据与文档数据、文档间关系图数据关联起来的数据结构(关键词表、文档信息基础表、文档全文内容表、文档全文关键词表、文档段落内容表、文档段落关键词表、文档间关系图头表、文档间关系图基本表、文档间关系图对应段落表)的知识库。
[0113]系统中提供一套完整的对文档间关系图进行创建及维护流程的功能。系统提供一种定义本文档间关系图所涉及到的关键词维度的功能。并定义所设计关键词维度中需要对应的具体关键词。将数据存入文档知识点头表,其中关键词维度IID~关键词维度[N]ID分别是关键词表自增长ID字段的外键。[0114]系统将会根据所设定的关键词列出所有符合条件的文档,并且按同时符合数的数量降序排序。
[0115]系统提供一种列出在所有符合条件的文档中筛选出最符合本文档间关系图概念的文档单元的功能。就某一特定专业领域的文档间的逻辑关系而言,可分为N类(N为自然数)逻辑关系,比如:派生关系(即A派生B)、平行关系/与关系(即A与B平行)、或关系(即A或B皆成立)、包含关系(即A包含B)、修订关系(即B对A的部分表述、内容进行修订)、覆盖关系(B的内容完全包含A,但又明显比A完整,业内广泛认同B而不是A,则A被B覆盖)、否定关系(A与B相反)。
[0116]举例来说,A教材中分为10章,每章分10节。第4章和第5章分别讲解同一事物的两个不同的属性,属于平行关系。第I章与第I章第2节属于包含关系,即第I章包含第I章第2节。第8章第3节和第8章第4节阐述了同一事物的两个相反的但都未被证实的理论假设,前者成立则后者不能成立,反之亦如是,即两者是否定关系。第9章第7节和第9章第8节阐述了同一事物的两个平行的但都未被证实的理论假设,前者成立与后者成立没有必然关系,即两者是或关系。B教材中的第X章是对A教材第5章的释读,则前者与后者是派生关系。
[0117]在此,系统将会为每一种文档间的逻辑关系赋与唯一的图形标识,在展示时以该特定标识作为两个文档单元之间的逻辑关系的标识,以便系统使用者直接理解和辨识。
[0118]每一个单一文档都可以被分解成若干个文档片段,每个文档片段可以被定义为一个文档单元。对于某一专业领域的任何文档,必然拥有该领域的一个以上专业术语的属性,这个专业术语可以通过计算机系统赋值的形式定义为与该文档单元文档片段对应的关键
ο
[0119]举例来说,文档片段X和Y是平行关系,文档片段X对应的关键词为A、B、C、D,文档片段Y对应的关键词为B、C、D、E,则当以B-C-D关键词进行搜索,则系统显示结果为B-C-D。
[0120]每一个选中的文档单元都会在文档间关系图基本表中以记录的形式体现,其中知识点头表1D字段是文档间关系图头表的自增长ID字段的外键,文档基础表1D是文档信息基础表的自增长ID字段的外键,元素ID字段是根据规则自动产生的。具体规则为:
[0121]文档单元:“PF” +选择元素时时间戳所转换的数字;
[0122]派生关系:“PL” +选择元素时时间戳所转换的数字;[0123]平行关系:“PE” +选择元素时时间戳所转换的数字;
[0124]修订关系:“PM” +选择元素时时间戳所转换的数字;
[0125]覆盖关系:“PN” +选择元素时时间戳所转换的数字;
[0126]包含关系:“PQ” +选择元素时时间戳所转换的数字;
[0127]否定关系:“PT” +选择元素时时间戳所转换的数字。
[0128]同时在子表文档间关系图对应段落表中需要填入所选择文档单元具体所对应的段落号,其中文档间关系图基本表ID字段是文档间关系图基本表自增长ID字段的外键,段落序号字段是文档段落内容表的段落排序号字段的外键。
[0129]系统提供对所筛选出的文档单元进行布局,同时设置这些文档单元之间的逻辑关系的功能,这种逻辑关系包括但不仅限于:派生关系、平行关系、修订关系、覆盖关系、包含关系、否定关系等。
[0130]实现的方法为:先添加所要连接关系的文档单元到设计区上,调整坐标位置;再添加所需要设计的关系到设计区上,系统将实时画出关系图形效果,并可以根据用户的拖拽移动调整关系元素的位置、大小、粗细等细节;分别设定关系元素的连接两端的文档单元元素,关系元素的两端只能选择文档单元元素,文档单元元素也只能由关系元素连接起来。
[0131]以派生关系为例,在文档间关系图基本表中,派生关系元素需要分别设置它的上元素ID、下元素ID。同时被上元素ID、下元素ID选中的两个文档单元,在该表中同样要更新下元素ID及相应的上元素ID,以及对被上元素ID所对应的文档单元需要设置它跳过关系元素直接连接到的下元素实体ID,对被下元素ID所对应的文档单元需要设置它跳过关系元素直接连接到的上元素实体ID。这里的上元素ID、下元素ID、上元素实体ID、下元素实体ID都是文档间关系图基本表中的元素ID字段的外键。
[0132]其他如平行关系、修订关系、覆盖关系、包含关系、否定关系都是按与派生关系相同的处理方法进行处理;
[0133]同时对于文档单元在文档间关系图基本表中需要记录它在设计区上的元素开始X坐标、元素开始Y坐标,以设计区左上角为(0,0)点。
[0134]同时对于各关系元素在文档间关系图基本表中需要记录它在设计区上的元素开始X坐标、元素开始Y坐标、元素结束X坐标、元素结束Y坐标,以设计区左上角为(0,0)点,以及线条图片流数据。
[0135]其中线条图片流数据,是将在设计区上所最终确定下来关系元素的大小、粗细等细节转换成非常通用的矢量图Png图片格式并再次转换成二进制的图片流数据存储到数据库。
[0136]系统提供对所提交的文档间关系图进行审核的功能,判断该文档间关系图的定义以及文档单元间的逻辑关系设置等是否正确,如果不正确则将退回文档间关系图的创建的这一步重新执行,反之审核通过则继续进行后续处理。
[0137]系统提供将文档间关系图正式存入文档分类存储管理平台数据库及文档库,并执行发布操作的功能。
[0138]上述写入数据库、文档库的操作最终都是调用文档存储装置106来实现。
[0139]文档存储装置的主节点106部署在文档分类存储管理平台服务器10之上,而在文档库平台上部署主节点的镜像版本124。文档存储装置106根据单一文档的采集装置、单一文档的标识和关联装置、文档间关系图建立装置的调用将相关信息存储到文档分类存储管理平台服务器的数据库中,将指定的格式文件归档到文档库平台服务器中,并通过数据交换引擎将相关数据信息在文档分类存储管理平台服务器和文档库平台服务器之间传输数据。
[0140]如图2D所示,文档存储装置106包括关系型数据库管理系统1060、文档库管理系统1061、写入操作模块1062、保存操作模块1063和平台数据传输模块1064。关系型数据库管理系统1060用于建立文档分类存储管理平台。文档库管理系统1061用于建立文档库平台。写入操作模块1062对各装置的调用执行数据库的写入操作。保存操作模块1063对各装置的调用以归档功能保存相应的单一文档文件或文档间关系图文件。平台数据传输模块1064通过数据交换引擎将相关数据在文档分类存储管理平台服务器10和文档库平台服务器12之间传递。
[0141]文档存储装置106在接收到来自其他装置的请求后执行数据库存储和文档库归档的交互式方法。
[0142]请参见图7,文档存储装置106提供包含至少一个将本系统所有平台所有数据全部关联起来的数据结构的知识库。提供包含至少一个经过配置可以按版本归档指定格式文件的文档库。提供包含至少一套完整的数据库调用接口,供单一文档的采集装置100、单一文档的标识和关联装置102、文档间关系图建立装置104、按需使用。提供包含至少一套完整的文档库调用接口,供单一文档的采集装置100、单一文档的标识和关联装置102用来归档及更新指定格式文件。
[0143]提供包含至少一套完整的数据同步机制,并调用数据交换引擎来使恰当的数据能够及时在文档分类存储管理平台、文档库平台两者之间流通。
[0144]文档分类存储管理平台服务器10通过接口程序与文档库平台服务器12进行数据的交互传递,部分实现请参见图7。它将需要发送的数据通过远端写入的方式写入到文档库平台待同步信号表及相关临时表,再由文档库平台的接口程序进行相关后续处理。同时它也将根据并主动抓取文档库平台中的待回传信号表及同步临时表中的数据。
[0145]当在文档分类存储管理平台服务器10上执行各种发布操作,包括但不仅限于:关键词发布、单一文档发布、文档间关系图发布等时,首先将待同步信号写入到临时表,以便接口程序循环执行周期开始时进行后续相关处理。
[0146]文档分类存储管理平台服务器10上的调度定时器,根据所设定的时间步长向量,定时循环执行接口程序,一旦因为接口程序未在一个时间步长向量内完成数据传递工作,或者因为接口程序出现异常等情况,具备智能恢复的功能。
[0147]文档库平台服务器12通过接口程序来获取文档分类存储管理库平台服务器10传递过来的数据,部分实现请参见图6。根据文档分类存储管理平台服务器10的接口程序主动推送到本平台的待同步信号表及同步临时表的相关数据对目标数据库的数据进行更新处理。同时对于由本平台的包括但不仅限于:用户行为信息等操作所产生的数据进行抓取后并写入待回传信号表及同步临时表,以便文档分类存储管理平台的接口程序进行后续处理。
[0148]当文档库平台服务器12通过接口程序接收到文档间关系图等数据时,会触发全文搜索引擎重建索引的功能。[0149]图8示出了本发明的系统的另一实施例的结构。本实施例的系统除了图1所示的实施例的文档分类存储管理平台服务器和文档库平台服务器之外,还包括了文档释读采集平台服务器,该服务器和文档分类存储管理平台服务器、客户端访问装置均有交互。图10示出了文档释读采集平台服务器的细化结构,文档释读采集平台服务器包括文档释读采集装置160、数据采集审核装置162、文档释读存储装置164。而与图1实施例相同的模块在此不再赘述。
[0150]文档释读采集装置160采集用户对文档的解释内容相关的输入数据。数据采集审核装置162对采集到的输入数据进行审核。文档释读存储装置164将通过审核的文档解释内容相关的输入数据加入到相应的原文中进行存储。
[0151]图9示出了系统的运行流程。文档库平台展示来源于两方面,一方面是和图1实施例相同的多维度关键词定义和维护、最新文档采集、文档整理及多维度定义建立索引、关系图建立和维护;另一方面是文档释读采集、文档释读审核以及对应关系的设置。
[0152]需要注意的是,在本发明中,可以被采集、定义、关联、搜索和展现的文档包括但不限于论文、教材、历史文献、法律法规、培训课件、新闻和公告等,包括但不限于文字、音频、视频、网页等多媒体介质,包括但不限于某一特定专业领域的知识(可以是自然科学知识,也可以是社会科学知识),也不限于中文或其它文字。
[0153]此外,上述方案具体的实现方式还包括基于云技术构建的服务架构体系,例如部署于云端的数据查询、程序更新以及文件更新处理等服务。
[0154]以上的实施例均是基于在线文档来描述的,本发明的上述方案还可稍作修改之后应用于单机文档。系统是以单机版的方式在单台设备(例如单机方式运行的计算机、手持设备等)上运行。单机版系统包括:单一文档的采集装置、单一文档的标识和关联装置、文档间关系图建立装置、文档存储装置、单机版打包发布装置和客户端安装装置。
[0155]单一文档的采集装置用于将所需管理类型的文档进行搜集、初步加工和系统导入。单一文档的采集装置进一步包括:格式整理模块、分类信息标识模块、文件导入模块。格式整理模块将文档整理成指定的格式。分类信息标识模块连接格式整理模块,将格式文件按要求添加初步的分类信息标识。文件导入模块连接分类信息标识模块,将添加了分类信息标识的格式文件导入到系统中。
[0156]单一文档的标识和关联装置按照不同的维度和层级对预设的专业术语进行分类和定义,建立和维护对应专业领域的关键词列表,对单一文档按照不同的属性和层级进行定义,在单一文档中设置若干个文档单元,对文档单元进行若干个关键词的系统标识,定义任意两个单一文档或文档单元之间可能产生的逻辑关系列表,并通过已设定的逻辑关系种类实现两个单一文档之间的逻辑关系的关联设置。单一文档的标识和关联装置进一步包括:关键词维度设定模块、关键词定义模块、文档分类设定模块、文档片段设定模块。关键词维度设定模块对关键词的维度进行设定。关键词定义模块连接关键词维度设定模块,对关键词各维度所对应的关键词进行定义。文档分类设定模块按照关键词对单一文档进行分类设定。文档片段设定模块按照关键词对文档的各文档片段进行分类设定。此外,单一文档的标识和关联装置还包括:文档单元设置模块、文档单元标识模块、逻辑关联模块。文档单元设置模块将单一文档的具有相同关键词标识的文档片段组合为若干个文档单元。文档单元标识模块对文档单元进行若干个关键词的系统标识。逻辑关联模块定义任意两个单一文档之间可能产生的逻辑关系列表,通过已设定的逻辑关系种类在系统内实现两个单一文档或者文档单元之间的逻辑关系的关联。
[0157]文档间关系图建立装置对文档间关系图进行定义,对文档间关系图的各组成部分之间的关系进行定义。文档间关系图建立装置进一步包括:关键词命名模块、文档间关系图生成模块。关键词命名模块对任一具体的文档间关系图通过特定的一组关键词进行命名。文档间关系图生成模块生成文档间关系图,包括文档间关系图中按文档单元间的特定逻辑关系排列的一系列文档单元的展现、文档单元之间的逻辑关系的图形标识、单一文档单元的展现。
[0158]文档存储装置根据单一文档的采集装置、单一文档的标识和关联装置、文档间关系图建立装置的调用将相关信息存储到单台设备的数据库中,将指定的格式文件归档到单台设备的数据库中。
[0159]单机版打包发布装置将通过文档存储装置所最终保存的数据及归档后指定格式的文件打包成一个完整的发布包裹,并根据目标平台的不同有针对性的生成发布装置程序可执行文件及配套附属文件。
[0160]客户端安装装置通过执行发布装置的程序可执行文件,将发布包裹完整的展开到单台设备上,包括:通过文档存储装置所最终保存的数据及归档后指定格式的文件。
[0161]系统还包括文档释读采集子系统,文档释读采集子系统包括:文档释读采集装置、数据采集审核装置、文档释读存储装置。文档释读采集装置采集用户对文档的解释内容相关的输入数据。数据采集审核装置对采集到的输入数据进行审核。文档释读存储装置将通过审核的文档解释内容相关的输入数据链接到相应的文档或文档间关系图中进行存储。
[0162]在单机版的实施例中,文档间的逻辑关系包括但不限于派生关系、平行关系、或关系、与关系、包含关系、修订关系、覆盖关系、否定关系的逻辑关系,其中每一种文档间的逻辑关系对应系统中唯一的图标。文档包括但不限于论文、教材、历史文献、法律法规、培训课件、新闻和公告,包括但不限于文字、音频、视频、网页的多媒体介质。
[0163]上述实施例是提供给本领域普通技术人员来实现和使用本发明的,本领域普通技术人员可在不脱离本发明的发明思想的情况下,对上述实施例做出种种修改或变化,因而本发明的保护范围并不被上述实施例所限,而应该是符合权利要求书所提到的创新性特征的最大范围。
【权利要求】
1.一种文档的采集、标识及关联的系统,包括文档分类存储管理平台服务器和文档库平台服务器,其中文档分类存储管理平台服务器包括单一文档的采集装置、单一文档的标识和关联装置以及文档间关系图建立装置,文档存储装置的主节点部署在文档分类存储管理平台服务器上,文档存储装置的主节点的镜像版本部署在文档库平台服务器上,其中: 单一文档的采集装置,用于将所需管理类型的文档进行搜集、初步加工和系统导入;单一文档的标识和关联装置,按照不同的维度和层级对预设的专业术语进行分类和定义,建立和维护对应专业领域的关键词列表,对单一文档按照不同的属性和层级进行定义,在单一文档中设置若干个文档单元,对文档单元进行若干个关键词的系统标识,定义任意两个单一文档或文档单元之间可能产生的逻辑关系列表,并通过已设定的逻辑关系种类实现两个单一文档之间的逻辑关系的关联设置; 文档间关系图建立装置,对文档间关系图进行定义,对文档间关系图的各组成部分之间的关系进行定义; 文档存储装置,根据单一文档的采集装置、单一文档的标识和关联装置、文档间关系图建立装置的调用将相关信息存储到文档分类存储管理平台服务器的数据库中,将指定的格式文件归档到文档库平台服务器中,并通过数据交换引擎将相关数据信息在文档分类存储管理平台服务器和文档库平台服务器之间传输数据。
2.根据权利要求1所述的文档的采集、标识及关联的系统,其特征在于,单一文档的采集装置进一步包括: 格式整理模块,将文档整理成指定的格式; 分类信息标识模块,连接格式整理模块,将格式文件按要求添加初步的分类信息标识; 文件导入模块,连接分类信息标识模块,将添加了分类信息标识的格式文件导入到系统中。
3.根据权利要求2所述的文档的采集、标识及关联的系统,其特征在于,单一文档的标识和关联装置进一步包括: 关键词维度设定模块,对关键词的维度进行设定; 关键词定义模块,连接关键词维度设定模块,对关键词各维度所对应的关键词进行定义; 文档分类设定模块,按照关键词对单一文档进行分类设定; 文档片段设定模块,按照关键词对文档的各文档片段进行分类设定。
4.根据权利要求3所述的文档的采集、标识及关联的系统,其特征在于,单一文档的标识和关联装置还包括: 文档单元设置模块,将单一文档的具有相同关键词标识的文档片段组合为若干个文档单元; 文档单元标识模块,对文档单元进行若干个关键词的系统标识; 逻辑关联模块,定义任意两个单一文档之间可能产生的逻辑关系列表,通过已设定的逻辑关系种类在系统内实现两个单一文档或者文档单元之间的逻辑关系的关联。
5.根据权利要求4所述的文档的采集、标识及关联的系统,其特征在于,文档间关系图建立装置进一步包括:关键词命名模块,对任一具体的文档间关系图通过特定的一组关键词进行命名; 文档间关系图生成模块,生成文档间关系图,包括文档间关系图中按文档单元间的特定逻辑关系排列的一系列文档单元的展现、文档单元之间的逻辑关系的图形标识、单一文档单元的展现。
6.根据权利要求5所述的文档的采集、标识及关联的系统,其特征在于,文档存储装置进一步包括: 关系型数据库管理系统,用于建立文档分类存储管理平台; 文档库管理系统,用于建立文档库平台; 写入操作模块,对各装置的调用执行数据库的写入操作; 保存操作模块,对各装置的调用以归档功能保存相应的单一文档文件或文档间关系图文件; 平台数据传输模块,通过数据交换引擎将相关数据在文档分类存储管理平台服务器和文档库平台服务器之间传递。
7.根据权利要求1所述的文档的采集、标识及关联的系统,其特征在于,系统还包括文档释读采集平台服务器,其中包括: 文档释读采集装置,采集用户对文档的解释内容相关的输入数据; 数据采集审核装置,对采集到的输入数据进行审核; 文档释读存储装置,将通过审核的文档解释内容相关的输入数据链接到相应的文档或文档间关系图中进行存储。
8.根据权利要求1所述的文档的采集、标识及关联的系统,其特征在于,文档间的逻辑关系包括但不限于派生关系、平行关系、或关系、与关系、包含关系、修订关系、覆盖关系、否定关系的逻辑关系,其中每一种文档间的逻辑关系对应系统中唯一的图标。
9.根据权利要求1所述的文档的采集、标识及关联的系统,其特征在于,具体的实现方式还包括基于云技术构建的服务架构体系,实现诸如云端的数据查询、程序更新以及文件更新处理等服务。
10.根据权利要求1所述的文档的采集、标识及关联的系统,其特征在于,文档包括但不限于论文、教材、历史文献、法律法规、培训课件、新闻和公告,包括但不限于文字、音频、视频、网页的多媒体介质。
11.一种文档的采集、标识及关联的系统,以单机版的方式在单台设备上运行,包括: 单一文档的采集装置,用于将所需管理类型的文档进行搜集、初步加工和系统导入; 单一文档的标识和关联装置,按照不同的维度和层级对预设的专业术语进行分类和定义,建立和维护对应专业领域的关键词列表,对单一文档按照不同的属性和层级进行定义,在单一文档中设置若干个文档单元,对文档单元进行若干个关键词的系统标识,定义任意两个单一文档或文档单元之间可能产生的逻辑关系列表,并通过已设定的逻辑关系种类实现两个单一文档之间的逻辑关系的关联设置; 文档间关系图建立装置,对文档间关系图进行定义,对文档间关系图的各组成部分之间的关系进行定义; 文档存储装置,根据单一文档的采集装置、单一文档的标识和关联装置、文档间关系图建立装置的调用将相关信息存储到单台设备的数据库中,将指定的格式文件归档到单台设备的数据库中; 单机版打包发布装置,将通过文档存储装置所最终保存的数据及归档后指定格式的文件打包成一个完整的发布包裹,并根据目标平台的不同有针对性的生成发布装置程序可执行文件及配套附属文件; 客户端安装装置,通过执行发布装置的程序可执行文件,将发布包裹完整的展开到单台设备上,包括:通过文档存储装置所最终保存的数据及归档后指定格式的文件。
12.根据权利要求11所述的文档的采集、标识及关联的系统,其特征在于,单一文档的采集装置进一步包括: 格式整理模块,将文档整理成指定的格式; 分类信息标 识模块,连接格式整理模块,将格式文件按要求添加初步的分类信息标识; 文件导入模块,连接分类信息标识模块,将添加了分类信息标识的格式文件导入到系统中。
13.根据权利要求12所述的文档的采集、标识及关联的系统,其特征在于,单一文档的标识和关联装置进一步包括: 关键词维度设定模块,对关键词的维度进行设定; 关键词定义模块,连接关键词维度设定模块,对关键词各维度所对应的关键词进行定义; 文档分类设定模块,按照关键词对单一文档进行分类设定; 文档片段设定模块,按照关键词对文档的各文档片段进行分类设定。
14.根据权利要求13所述的文档的采集、标识及关联的系统,其特征在于,单一文档的标识和关联装置还包括: 文档单元设置模块,将单一文档的具有相同关键词标识的文档片段组合为若干个文档单元; 文档单元标识模块,对文档单元进行若干个关键词的系统标识; 逻辑关联模块,定义任意两个单一文档之间可能产生的逻辑关系列表,通过已设定的逻辑关系种类在系统内实现两个单一文档或者文档单元之间的逻辑关系的关联。
15.根据权利要求14所述的文档的采集、标识及关联的系统,其特征在于,文档间关系图建立装置进一步包括: 关键词命名模块,对任一具体的文档间关系图通过特定的一组关键词进行命名; 文档间关系图生成模块,生成文档间关系图,包括文档间关系图中按文档单元间的特定逻辑关系排列的一系列文档单元的展现、文档单元之间的逻辑关系的图形标识、单一文档单元的展现。
16.根据权利要求11所述的文档的采集、标识及关联的系统,其特征在于,系统还包括文档释读采集子系统,其中包括: 文档释读采集装置,采集用户对文档的解释内容相关的输入数据; 数据采集审核装置,对采集到的输入数据进行审核; 文档释读存储装置,将通过审核的文档解释内容相关的输入数据链接到相应的文档或文档间关系图中进行存储。
17.根据权利要求11所述的文档的采集、标识及关联的系统,其特征在于,文档间的逻辑关系包括但不限于派生关系、平行关系、或关系、与关系、包含关系、修订关系、覆盖关系、否定关系的逻辑关系,其中每一种文档间的逻辑关系对应系统中唯一的图标。
18.根据权利要求11所述的文档的采集、标识及关联的系统,其特征在于,文档包括但不限于论文、教材、历史文献、法律 法规、培训课件、新闻和公告,包括但不限于文字、音频、视频、网页的多媒体介质。
【文档编号】G06F17/30GK103914487SQ201310006234
【公开日】2014年7月9日 申请日期:2013年1月8日 优先权日:2013年1月8日
【发明者】邓寅生 申请人:邓寅生
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1