出版物处理方法和装置与流程

文档序号:12123920阅读:322来源:国知局
出版物处理方法和装置与流程

本发明涉及出版物加工领域,具体而言,涉及一种出版物处理方法和装置。



背景技术:

目前,随着IT技术的发展,图书期刊数字化加工是传统出版向数字出版转型的基础工作,现有技术的图书期刊数字化加工都是将图书扫描或者用排版文件生成PDF等格式的文件,但是直接将图书扫描或者用排版文件生成PDF等格式的文件类型不能满足数字化传播和阅读的需要,例如,用户想要查看某本图书期刊的主要内容,无法快捷查找到章节内容设置情况,只能一页一页查看,或者,用户想要从多本图书里找到与某一学科方向的某方面内容相关的内容,在现有技术中无法实现,由于现有技术无论从内容深度挖掘还是阅读体验上都无法促进信息时代对知识内容的传播,而出版社对数字出版尤其是图书期刊数字化的加工没有成熟经验可循,因此,局限性很高。

针对相关技术中出版物数字化加工方法局限性高的问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明的主要目的在于提供一种出版物处理方法和装置,以解决相关技术中出版物数字化加工方法局限性高的问题。

为了实现上述目的,根据本发明的一个方面,提供了一种出版物处理方法,该方法包括:获取数字化的出版物;根据所述出版物的版面信息从所述出版物中提取出信息,其中,所述信息分为多个类别,不同的类别用于表示所述出版物的内容结构;根据所述信息对所述出版物进行加工。

进一步地,所述信息的类别至少包括:标题,根据所述出版物的版面信息从所述出版物中提取出所述信息包括:根据所述出版物的版面样式从所述出版物中提取出所有的标题;根据所述信息对所述出版物进行加工包括:将所述出版物的所有标题进行加工,形成层级化目录。

进一步地,所述信息的类别还包括:正文,根据所述出版物的版面信息从所述出版物中提取出所述信息包括:根据所述出版物的版面样式从所述出版物中提取出正文;根据所述信息对所述出版物进行加工包括:建立所述出版物的标题与所述正文的对应关系,或者建立所述层级化目录与所述正文的对应关系。

进一步地,所述对应关系保存在XML文件中,或者,保存在数据库中。

进一步地,所述出版物的版面样式包括以下至少之一:特殊符号分割的版面样式、字体样式分割的版面样式。

进一步地,所述信息的类别至少包括:关键词,根据所述出版物的版面信息从所述出版物中提取出所述信息包括:从所述出版物中提取出至少一个所述关键词;根据所述信息对所述出版物进行加工包括:根据至少一个所述关键词确定所述出版物所属的类别,并保存该类别。

进一步地,从所述出版物中提取出至少一个所述关键词包括:根据出现在所述出版物中的词语的词频和/或词语出现在所述出版物中的位置信息确定属于关键词的词语。

进一步地,根据至少一个所述关键词确定所述出版物所属的类别包括:在所述关键词为多个的情况下,根据各个所述关键词对应的权重确定所述关键词对应的部分所属的类型。

为了实现上述目的,根据本发明的另一方面,还提供了一种出版物处理装置,该装置包括:获取单元,用于获取数字化的出版物;提取单元,用于根据所述出版物的版面信息从所述出版物中提取出信息,其中,所述信息分为多个类别,不同的类别用于表示所述出版物的内容结构;加工单元,用于根据所述信息对所述出版物进行加工。

进一步地,所述信息的类别至少包括:标题,所述提取单元用于根据所述出版物的版面样式从所述出版物中提取出所有的标题;所述加工单元用于将所述出版物的所有标题进行加工,形成层级化目录。

本发明通过获取数字化的出版物,根据出版物的版面信息从出版物中提取出信息,其中,信息分为多个类别,不同的类别用于表示出版物的内容结构,根据信息对出版物进行加工,解决了相关技术中出版物数字化加工方法局限性高的问题,进而达到了提高出版物数字化加工方法的灵活性的效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的出版物处理方法的流程图;

图2是根据本发明实施例的出版物处理过程的示意图;以及

图3是根据本发明实施例的出版物处理装置的示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了一种出版物处理方法。

图1是根据本发明实施例的出版物处理方法的流程图,如图1所示,该方法包括以下步骤:

步骤S102:获取数字化的出版物。

步骤S104:根据出版物的版面信息从出版物中提取出信息,其中,信息分为多个类别,不同的类别用于表示出版物的内容结构。

步骤S106:根据信息对出版物进行加工。

该实施例采用获取数字化的出版物之后,根据获取到的数字化的出版物的版面信息从出版物中提取出多个类别的信息,以获得出版物的内容结构信息,然后根据多个类别的信息对出版物进行加工,由于本发明实施例的技术方案将纸质图书数字化,从数字化的出版物的版面信息中提取出表示出版物内容的多个类别的信息,然后对出版物进行加工,能够实现根据类别将纸质出版物加工,以方便后续对出版物的检索或者分类,解决了相关技术中出版物数字化加工方法局限性高的问题,进而达到了提高出版物数字化加工方法的灵活性的效果。

在本发明实施例中,出版物可以是图书、期刊等多种类型的出版物,这些出版物可以是纸质的出版物,也可以是电子化的出版物,如果是纸质的出版物,则对这些纸质的出版物进行数字化处理,可以通过光学字符识别(Optical Character Recognition,简称为OCR)方法,例如,通过将纸质出版物进行扫描等方法,得到数字化的出版物。获取数字化的出版物可以通过多种方法获取,在获取数字化的出版物之后,根据出版物的版面信息从出版物中提取出信息,出版物的版面信息可以是出版物版面上的文字,图标,图片等多种类型的信息,这些信息分为多个类别,多个类别用于表示出版物的内容结构,出版物的内容结构包括标题、正文、图片、表格、图题/图注、表题/表注,以及页面内容的特殊格式,如上下标、粗体、斜体、补字等,从出版物中提取出这些信息之后,根据提取出的信息对出版物进行加工,其中,对出版物进行加工可以是将出版物中提取出的信息构建出版资源数据库,也可以对加工后的内容进行知识数据库的构建及内容重组,以实现更多功能。可选地,对出版物进行加工可以是将出版物内容进行拆分,提交至标引系统,根据医学分类——关键词对应表进行自动分类;最后将版面信息、分类信息、标引信息整合输出为XML文档或存储数据库中。在一个可选的应用场景中,纸质出版物不方便携带和阅读,将纸质出版物进行数字化可以方便更多用户分享该出版物,如果只是将该纸质出版物扫描成PDF格式的图书,用户在阅读时无法选择章节进行阅读,而且将纸质出版物扫描成PDF格式的图书,受到扫描分辨率的影响,图书阅读质量不佳,放大后可能不清楚,而且不容易分辨不同的内容结构,无法提取出标题、章节信息等内容,因此出版物数字化加工方法局限性高,而本发明实施例的技术方案通过获取数字化的出版物,然后根据版面信息从出版物中提取出信息,根据提取出的信息对出版物进行加工,可以获得内容更精确的出版物,提高了出版物数字化加工方法的灵活性。

在一种可选的实施方式中,信息的类别至少包括:标题,根据出版物的版面信息从出版物中提取出信息包括:根据出版物的版面样式从出版物中提取出所有的标题;根据信息对出版物进行加工包括:将出版物的所有标题进行加工,形成层级化目录。

出版物的信息类别至少包含出版物的标题,标题可以是各个章节的标题,根据出版物的版面信息从出版物中提取出所有的标题之后,可以将提取出的标题进行加工,形成层级化的目录,方便用户阅读或者查找。

在一种可选的实施方式中,信息的类别还包括:正文,根据出版物的版面信息从出版物中提取出信息包括:根据出版物的版面样式从出版物中提取出正文;根据信息对出版物进行加工包括:建立出版物的标题与正文的对应关系,或者建立层级化目录与正文的对应关系。信息类别除了标题,还包括正文,建立正文与标题的对应关系,以实现根据标题查找正文的目的,方便用户阅读或查找。

在一种可选的实施方式中,对应关系保存在XML文件中,或者,保存在数据库中。在建立标题和正文的对应关系之后,可以将标题和正文的对应关系保存在XML文件中,还可以将标题和正文的对应关系保存在数据库中。

在一种可选的实施方式中,出版物的版面样式包括以下至少之一:特殊符号分割的版面样式、字体样式分割的版面样式。可以根据特殊符号或者字体样式对出版物的版面样式进行分割,例如,可以对应标题对出版物的正文内容进行分割,也可以对应不同字体对出版物的版面样式进行分割。

在一种可选的实施方式中,信息的类别至少包括:关键词,根据出版物的版面信息从出版物中提取出信息包括:从出版物中提取出至少一个关键词;根据信息对出版物进行加工包括:根据至少一个关键词确定出版物所属的类别,并保存该类别。

信息的类别还可以包括关键词,从出版物中提取出信息可以是从出版物中提取出关键词,提取出的关键词可以是多个,根据提取出的一个或多个关键词可以确认出版物所述的类别,例如,医学类出版物,历史类出版物等。例如,可以根据关键词对应分类条目的分类编码对出版物进行分类,并且可以根据关键词权重的差异,得到主分类编码和参考分类编码,以实现更精确的分类。可选地,可以根据词频、位置、语义内容等对关键词进行排序。

在一种可选的实施方式中,从出版物中提取出至少一个关键词包括:根据出现在出版物中的词语的词频和/或词语出现在出版物中的位置信息确定属于关键词的词语。

从出版物中提取关键词可以是从出版物中的词语的词频确定属于关键词的词语,例如,将出现频率较高的关键词确定为出版物的关键词,也可以是根据出现在出版物中的位置信息确定出版物的关键词,例如,可以将出现在出版物标题中的词语确定为出版物的关键词。

在一种可选的实施方式中,根据至少一个关键词确定出版物所属的类别包括:在关键词为多个的情况下,根据各个关键词对应的权重确定出版物所属的类型。

如果出版物的关键词为多个,则可以根据各个关键词对应的权重确定关键词对应的部分所属的类型,例如,根据多个关键词出现的次数或者根据多个关键词出现的位置确定出每个关键词的权重,然后根据各个关键词对应的权重确定出版物所属的类型,例如,可以将权重最大的关键词作为出版物的关键词。出版物所属的相应分类可以是:疾病、药物、手术操作等医学类型。根据关键词对应的权重确定关键词对应的部分所属的类型可以确定关键词所在的出版物的正文片段或者章节所对应的类型,例如,某一章节属于疾病、药物、手术操作等医学类型中的一种或多种,除了医学类型,也可以是其他类型,例如,历史学、音乐学等类型。通过关键词对关键词所在的片段或者章节分类能够更加准确地确定出版物正文片段所属的类型,提高分类的准确性。

出版物可以是一个,也可以是多个,如果出版物是多个,在从多个出版物中提取出信息之后,对多个出版物的信息进行加工,可以得到多个出版物信息的数据库,例如,对多本医学类出版物进行信息提取之后,对提取出的信息进行加工并保存在数据库中,用户可以通过关键词查询检索到数据库中与该关键词相关的所有内容,能够方便用户从多个出版物中快速查找需要的内容,节约时间。

可选地,出版物可以是医学健康类图书文献,该实施例可以将纸质图书出版时排版文件或者纸质图书扫描后OCR识别并转换为数字化内容,能够解决图书数字化深度加工过程中需要解决的问题,通过建立一套成熟的加工体系,不仅仅可以完成纸质图书数字化、构建出版资源数据库,并且可以对加工后内容进行知识数据库的构建及内容重组。

该实施例的出版物处理方法能够实现对医学类出版物的加工,在一个可选的应用场景中,该方法可以构建医学分类体系,包括疾病分类、症状体征分类、实验室检查分类、药物分类、手术与操作分类以及内容归类。创建医学专业词库,整合中英文医学专业术语,合并同义词词条,将分类与词库建立关联,形成医学专业的“分类——关键词表”。采用版面分析工具对图书的版面内容进行结构化标注,包括标题、正文、图片、表格、图题/图注、表题/表注,以及页面内容的特殊格式,如上下标、粗体、斜体、补字等。结构标注后将图书的全部标题提取出来,形成结构化的层级目录,根据内容和标题结构,将图书拆分成知识单元,拆分后每一部分的内容包含的正文和标题部分分别提交标引系统,标引系统提取关键词和摘要,提取的关键词应用装载的“分类——关键词表”对应系统,根据拆分内容的主题对关键词进行权重排序,涉及的因素包括图书书名、图书各级章节标题内容以及位置和词频信息等,通过关键词识别获得关键词对应分类条目的分类编码,自动进行文献的分类,并且可以根据关键词权重的差异,提供主分类编码和参考分类编码;根据提交的标题特征,自动进行内容归类的分类,实现了知识分类的自动化。

通过这种图书数字化转换、知识单元内容拆分,拆分后的标引分类,实现图书文献向知识转换的过程,该实施例可以实现大部分过程的自动化完成,可以节省人力成本提高效率和加工质量。

图2是根据本发明实施例的出版物处理过程的示意图,如图2所示,该出版物处理过程包括以下步骤:

步骤S201:通过获取接口获取信息,获取数字化的出版物,可以将纸质图书进行扫描OCR识别,转换为标准双层PDF文件,或者将图书排版的电子文件转换为标准双层PS/PDF格式文件。

步骤S202:通过图书转换加工平台对信息进行加工,利用图书加工工具解析PDF文件,将图书中的文字与图片等部件结构标注识别,并将图书按照知识单元内容进行拆分。

步骤S203:将图书拆分后的知识单元内容的文本内容提交给内容标引服务器。

步骤S204:标引服务器对内容进行关键词标引和分类,标引是根据专业词库进行赋词标引,提交到内容标引服务器的正文信息由内容标引服务器标引出关键词,标引的关键词在分类——关键词表中进行关键词——分类编码的转换,将关键词信息转换为分类的编码信息,从而实现自动分类。另一种标引功能是根据提交的标题信息特征,进行内容归类的分类标引。

步骤S205:将标引的关键词利用医学专业词库及分类——关键词表进行关键词向编码转换。

步骤S206:建立基础数据的数据库。可以建立医学类基础数据的数据库,对医学内容的自动化加工具有重要的意义,通过实验证明该体系具有较高的准确性,工作效率较高。医学类基础数据库可以包括医学专业词库,医学专业分类,医学专业的分类——关键词表等数据。

步骤S207:将关键词转换后得到的分类编码信息发送到内容标引服务器。

步骤S208:将标引后的文本信息传递给图书加工工具,其中,文本信息包括关键词、分类、自动摘要信息等。

步骤S209:将拆分的知识单元内容、内容标引服务器返回的标引信息进行整合。可以通过一个人机结合的交互界面进行对话,完成拆分、标引、分类的人工审核过程,通过人工审核可以提高拆分、标引、分类的准确度,审核通过后,输出为格式化的XML文件。

本发明实施例的出版物处理方法可以作为一种图书文献数字化加工方法,能够实现内容自动化分类,可以通过图书转换,获取外部内容数据,然后图书加工,通过排版信息进行图书结构化处理,进一步通过人机结合分类标引,信息流经过标引、转换,实现文本内容的主题提取和自动分类过程,将图书按照知识主题进行拆分标引后,形成具有相对独立、含有丰富描述信息的知识内容,输出结构化的XML文件,不仅表示图书结构信息,也包含了图书文献拆分后的单元内容的分类信息。进一步地,知识单元内容根据医学专业词库标引的关键词代表该部分内容的主题,而关键词与分类具有严格的对应关系,关键词对应的分类也能够反应内容的主题,进而实现对医学类图书的自动分类。进一步地,专业的医学词库与分类系统是揭示内容主题的最好描述。

该实施例通过将图书加工过程中的各个环节组合起来,应用专业的医学词库及分类——关键词表,实现对图书的数字化加工,将图书形成知识单元内容,通过关键词自动标引和医学专业分类的标引,并对其主题进行规范性描述,可以实现出版社向数字出版转型过程中的基础数据的处理,为数字化应用提供内容的基础元数据,实现知识分类自动化。

需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例提供了一种出版物处理装置,该出版物处理装置可以用于执行本发明实施例的出版物处理方法。

图3是根据本发明实施例的出版物处理装置的示意图,如图3所示,该装置包括:

获取单元10,用于获取数字化的出版物。

提取单元20,用于根据出版物的版面信息从出版物中提取出信息,其中,信息分为多个类别,不同的类别用于表示出版物的内容结构。

加工单元30,用于根据信息对出版物进行加工。

可选地,信息的类别至少包括:标题,提取单元用于根据出版物的版面样式从出版物中提取出所有的标题;加工单元用于将出版物的所有标题进行加工,形成层级化目录。可选地,加工单元可以包括标引单元,标引单元根据出版物拆分的片段,进行知识属性分类标引。

该实施例采用获取单元10获取数字化的出版物;提取单元20根据出版物的版面信息从出版物中提取出信息,其中,信息分为多个类别,不同的类别用于表示出版物的内容结构;加工单元30根据信息对出版物进行加工,解决了相关技术中出版物数字化加工方法局限性高的问题,进而达到了提高出版物数字化加工方法的灵活性的效果。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1