文档格式转换方法、装置、存储介质、设备及程序产品与流程

文档序号：31668980发布日期：2022-09-28 00:32阅读：62来源：国知局

1.本技术涉及计算机技术领域，具体涉及一种文档格式转换方法、装置、存储介质、设备及程序产品。

背景技术：

2.在日常生活或者工作中，ppt文档应用较为广泛。在对ppt文档的编辑和制作过程中，经常需要借鉴相关ppt样式的图片素材内容进行修改。用户可能需要进行格式转换操作，比如将ppt文档版面的图片转换为ppt文档。
3.目前的转换方式中，无法提取ppt文档版面图片内的图片情况，且针对ppt文档版面图片的内容还原得到的ppt文件的还原效果较差。

技术实现要素：

4.本技术实施例提供一种文档格式转换方法、装置、存储介质、设备及程序产品，可以有效将含有ppt文档版面的待识别图片中的内容转换成具有可编辑属性的目标ppt文档，提高ppt信息还原度，提升ppt信息获取的便利性。
5.一方面，提供一种文档格式转换方法，所述方法包括：获取含有ppt文档版面的待识别图片；对所述待识别图片进行字符识别处理，以获取所述待识别图片中的文本信息以及所述文本信息对应的文本位置；对所述待识别图片进行区域分割处理，以获取所述待识别图片中的目标区域；根据所述文本信息、所述文本位置以及所述目标区域，生成与所述待识别图片中的ppt文档版面相匹配的目标ppt文档，其中，所述目标ppt文档中所述文本信息和所述目标区域对应的内容具有可编辑属性。
6.另一方面，提供一种文档格式转换装置，所述装置包括：
7.获取单元，用于获取含有ppt文档版面的待识别图片；
8.识别单元，用于对所述待识别图片进行字符识别处理，以获取所述待识别图片中的文本信息以及所述文本信息对应的文本位置；
9.分割单元，用于对所述待识别图片进行区域分割处理，以获取所述待识别图片中的目标区域，其中，所述目标区域至少包括文本框区域和图像区域；
10.生成单元，用于根据所述文本信息、所述文本位置以及所述目标区域，生成与所述待识别图片中的ppt文档版面相匹配的目标ppt文档，其中，所述目标ppt文档中所述文本信息和所述目标区域对应的内容具有可编辑属性。
11.另一方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如上任一实施例所述的文档格式转换方法中的步骤。
12.另一方面，提供一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行如上任一实施例所述的文档格式转换方法中的步骤。
13.另一方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时实现如上任一实施例所述的文档格式转换方法中的步骤。
14.本技术实施例通过获取含有ppt文档版面的待识别图片，并对待识别图片进行字符识别处理，以获取待识别图片中的文本信息以及文本信息对应的文本位置，然后对待识别图片进行区域分割处理，以获取待识别图片中的目标区域，其中，目标区域至少包括文本框区域和图像区域，并根据文本信息、文本位置以及目标区域，生成与待识别图片中的ppt文档版面相匹配的目标ppt文档，其中，目标ppt文档中文本信息和目标区域对应的内容具有可编辑属性。本技术实施例基于光学字符识别ocr技术识别待识别图片的文本信息以及文本信息对应的文本位置，并基于实例分割模型获取待识别图片中的目标区域，然后根据文本信息、文本位置以及目标区域，生成与待识别图片中的ppt文档版面相匹配的具有可编辑属性的目标ppt文档，可以有效将含有ppt文档版面的待识别图片中的内容转换成具有可编辑属性的目标ppt文档，提高ppt信息还原度，提升ppt信息获取的便利性。
附图说明
15.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
16.图1为本技术实施例提供的文档格式转换方法的流程示意图。
17.图2为本技术实施例提供的待识别图片示意图。
18.图3为本技术实施例提供的相关技术的第一应用场景示意图。
19.图4为本技术实施例提供的相关技术的第二流程示意图。
20.图5为本技术实施例提供的相关技术的第三流程示意图。
21.图6为本技术实施例提供的图形器使用场景图。
22.图7为本技术实施例提供的文档格式转换方法的第一应用场景示意图。
23.图8为本技术实施例提供的文档格式转换方法的第二应用场景示意图。
24.图9为本技术实施例提供的文档格式转换方法的第三应用场景示意图。
25.图10为本技术实施例提供的文档格式转换方法的第四应用场景示意图。
26.图11为本技术实施例提供的文档格式转换方法的第五应用场景示意图。
27.图12为本技术实施例提供的文档格式转换装置的结构示意图。
28.图13为本技术实施例提供的计算机设备的结构示意图。
具体实施方式
29.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
30.本技术实施例提供一种文档格式转换方法、装置、计算机设备和存储介质。具体地，本技术实施例的文档格式转换方法可以由计算机设备执行，其中，该计算机设备可以为
终端或者服务器等设备。该终端可以为智能手机、平板电脑、笔记本电脑、台式计算机、智能电视、智能音箱、穿戴式智能设备、智能车载终端等设备，终端还可以包括客户端，该客户端可以是视频客户端、浏览器客户端或即时通信客户端等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
31.本技术实施例可应用于人工智能、计算机视觉、图像识别等各种场景。
32.首先，在对本技术实施例进行描述的过程中出现的部分名词或者术语作如下解释：
33.人工智能(artificial intelligence，ai)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
34.计算机视觉技术(computer vision,cv)：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、ocr、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
35.机器学习(machine learning,ml)：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
36.图像识别：是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对象的技术，是应用深度学习算法的一种实践应用。
37.ppt：为演示文稿程序，是microsoft office系统中的其中一个组件。一套完整的ppt文件一般包含：片头、动画、ppt封面、前言、目录、过渡页、图表页、图片页、文字页、封底、片尾动画等；所采用的素材有：文字、图片、图表、动画、声音、影片等。
38.图像分割：将数字图像细分为多个图像子区域(像素的集合)的过程。图像分割的目的是简化或改变图像的表示形式，使得图像更容易理解和分析。图像分割又分为语义分割、实例分割等。
39.语义分割：深度学习领域的一个名词，通过对图像中的每个像素点进行分类,将图像分割成若干个具有特定语义类别的区域。
40.实例分割：深度学习领域的名词，跟语义分割不同的是，不会将图片中所有的像素进行分类，仅对感兴趣的目标进行分割，同时还需要找出目标的边框，也就是确定目标区域的最小外接矩形。
41.光学字符识别(optical character recognition，ocr)：是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。
42.图形器：ppt文件中的一类基本结构，如图6所示的图形器使用场景图，给出了ppt中怎么插入图形器，也就是图6的“形状”按钮中的所有元素，包括矩形、圆角矩形、三角形、菱形、平行四边形、正六边形、正多边形、椭圆形、星形、旗帜形等。
43.最小外接矩形：指以二维坐标表示的若干二维形状(例如点、直线、多边形)的最大范围，即以给定的二维形状各顶点中的最大横坐标、最小横坐标、最大纵坐标、最小纵坐标定下边界的矩形。这样的一个矩形包含给定的二维形状，且边与坐标轴平行。
44.backbone：一个深度学习领域的名词，主要用于算法网络结构的定义中，是用来提取数据特征的网络。backbone可以称为主干网络，用来做特征提取的网络，代表网络的一部分，一般是用于前端提取图片信息，生成特征图feature map,供后面的网络使用。
45.本技术实施例提出了一种基于实例分割的方法，可以用于提取含有ppt文档版面的待识别图片中的内容，具体可以提取出待识别图片的文本、文本框、图像、表格、图形器、数学公式、图表、流程图等内容，然后将识别出的内容写入目标ppt文档中，实现可编辑属性。以达到含有ppt文档版面的待识别图片转换成目标ppt文档的目的。
46.在本技术实施例中，可以基于ocr技术识别待识别图片的文本信息以及文本信息对应的文本位置，并基于实例分割模型获取待识别图片中的目标区域，然后根据文本信息、文本位置以及目标区域，生成与待识别图片中的ppt文档版面相匹配的具有可编辑属性的目标ppt文档，可以有效将含有ppt文档版面的待识别图片中的内容转换成具有可编辑属性的目标ppt文档，提高ppt信息还原度，提升ppt信息获取的便利性。本技术实施例中基于实例分割模型，能够一次性提取出含有ppt文档版面的待识别图片内的各个目标区域，并且针对不同轮廓和形状的图形器区域可以有效获取图形器的边缘信息，为生成具有可编辑属性的目标ppt文档提供了有利的条件。
47.以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。
48.本技术各实施例提供了一种文档格式转换方法，该方法可以由终端或服务器执行，也可以由终端和服务器共同执行；本技术实施例以文档格式转换方法由终端执行为例来进行说明。
49.请参阅图1至图11，图1为本技术实施例提供的文档格式转换方法的流程示意图，图2至11均为本技术实施例提供的相关应用场景示意图。该方法包括：
50.步骤110，获取含有ppt文档版面的待识别图片。
51.例如，该待识别图片具体可以理解为具有识别需求的含有ppt文档版面的图片。该待识别图片可以是用户通过用户端上传的图片，也可以是从待识别视频文件中获取的含有
ppt文档版面的图片。
52.例如，图2给出了一张待识别图片200，后续可以使用该待识别图片200作为输入，最终得到该待识别图片200对应的目标ppt文档。例如，待识别图片200上含有三个文本段落(文本段落211、文本段落212、文本段落213)、三张矩形图片(图像221、图像222、图像223)和一个圆角矩形区域231，其中一个文本段落213位于圆角矩形区域231中。
53.例如，在相关技术中，可以基于光学字符识别ocr技术提取文本，该方案主要侧重于图片中的文本提取，采用ocr技术对用户输入的图片中的文本信息进行提取后，然后将提取的文本信息写入ppt(或者pptx)文档中得到ppt文件。如图3所示的相关技术中的第一应用场景示意图，采用ocr技术对待识别图片输入中的文本信息进行提取后，得到的ppt文件中仅显示待识别图片中的三个文字信息：“合作探究”、“通过下面图片分析、我们来分组讨论以下问题：”、“探究问题：哪些责任是独自承担的？哪些责任本应你承担，确由其他人承担了”。该基于ocr技术的文本提取方案侧重于提取图片中的文本信息，对于图片中的图像区域和图形器没有做任何的还原，且没有ppt背景，还原效果与待识别图片的差距较大。
54.例如，在另一相关技术中，可以将待识别图片直接插入ppt文档中，如图4所示的相关技术中的第二应用场景示意图，该方案仅简单地将用户输入的图片200直接插入ppt(或者pptx)文件中，而对于图片400里面的元素无法做到可编辑，且该方案无法识别图片400中的文本信息，用户使用成本较高。
55.例如，在另一相关技术中，可以基于ocr方法提取文本框，并保留图片当做背景，该方案主要借助ocr方法提取图片中的文本框，然后将文本框以外的区域当做ppt文件的背景处理。如图5所示的相关技术中的第三应用场景示意图，从图中可以看到，该方案提取出了多个文本框(文本框511、文本框512、文本框513)，同时将待识别图片中其他的内容当做了ppt背景。该方案虽然对待识别图片中的文本框进行了检测，并实现最终还原的文本信息可编辑，但是对ppt文件中的图片和基本图形器还是没法做到可编辑。
56.因此，本技术实施例提出了一种基于实例分割的文档格式转换方法，可以在后续的步骤中提取含有ppt文档版面的待识别图片中的内容，具体可以提取出待识别图片的文本、文本框、图像、表格、图形器、数学公式、图表、流程图等内容，然后将识别出的内容写入目标ppt文档中，实现可编辑属性。以达到含有ppt文档版面的待识别图片转换成目标ppt文档的目的。
57.可选的，所述获取待识别图片，包括：从待识别视频文件中识别出含有ppt文档版面的图像帧，将获取的多个图像帧按照对应的时间戳对所述多个图像帧进行排序，形成待识别图片集。
58.例如，若需要获取待识别视频文件中的ppt文档信息，则可以对待识别视频文件进行分帧处理，获取到含有ppt文档版面的一系列的多个图像帧，每一个图像帧可以作为一个待识别图片。具体的，可以将待识别视频文件分割成处于同一时间轴序列的一系列图像帧，该一系列图像帧形成序列图库。例如，对待识别视频文件进行分帧处理，具体可以包括：获取该待识别视频文件的总时长，然后以预设时间为间隔将待识别视频文件分割成独立的原始图像帧。其中，预设时间越小，则待识别视频文件中分割出原始图像帧越多；预设时间越大，视频文件中分割出的原始图像帧就越少。其中，原始图像帧分割出的越多，则相似度高的图像帧就会越多，相邻图像帧之间的相似度就会越大，因此本步骤中待识别视频文件的
总时长，以及用于作为分割条件的预设时间的设置均对分割出的图像帧个数及相邻图像帧之间的相似度有影响。在得到原始图像帧之后，对原始图像帧进行识别，得出含有ppt文档版面的图像帧，并将获取的含有ppt文档版面的多个图像帧按照对应的时间戳对所述多个图像帧进行排序，形成待识别图片集。
59.例如，该图像帧也可以是对待识别视频文件进行拍摄得到的含有ppt文档格式画面的一系列图像，将拍摄出的一系列图像按照时间戳的顺序进行排列，得到一系列的多个图像帧。
60.步骤120，对所述待识别图片进行字符识别处理，以获取所述待识别图片中的文本信息以及所述文本信息对应的文本位置。
61.可选的，所述对所述待识别图片进行字符识别处理，以获取所述待识别图片中的文本信息以及所述文本信息对应的文本位置，包括：
62.基于光学字符识别ocr技术对所述待识别图片进行字符识别处理，以对所述待识别图片中的文本信息进行定位及识别，确定出所述待识别图片中的文本信息以及所述文本信息对应的文本位置。
63.例如，在基于光学字符识别ocr技术对待识别图片进行字符识别处理时，可以包括以下处理流程：
64.2.1)对包含文本信息的待识别图片进行预处理，以减少待识别图片中的无用信息或干扰信息，通过对包含文本信息的待识别图片进行预处理以便后续进行特征提取。
65.例如，可以对待识别图片进行二值化、去噪、倾斜矫正、消除线等处理。
66.例如，二值化处理为将待识别图片上像素的灰度值设置为0或255，以将待识别图片转换为黑白视觉效果的二值图像，以从背景中区分文本。
67.例如，去噪处理可以为去除待识别图片中的杂点，或者可以对待识别图片进行边缘平滑处理，或者可以对待识别图片进行裁剪以将不含有文本信息的区域裁剪掉等。
68.例如，倾斜矫正处理为若待识别图片中的ppt文档版面存在倾斜的情况，可能需要顺时针或逆时针倾斜几度，以创建完全水平或垂直的文本行。例如，消除线处理为清理待识别图片找那个的非符号框和线条。
69.2.2)对预处理后的待识别图片中的文本信息进行检测，可以采用常见的图像检测算法对待识别图片中的文本区域进行框选，以确定文本框区域，即确定文本信息对应的文本位置。
70.2.3)通过文本识别算法对检测出的文本框区域中的文本信息进行识别，以识别出文本信息的具体内容，具体为：
71.2.31)对预处理后的待识别图片进行布局分析，以将待识别的文件进行拆分和存储，例如将列、段落、标题等标识为块，在多栏布局和表格中布局分析特别有用。
72.2.32)对布局分析后的待识别图片进行字符切割处理，此时需要定位切割字符，定位字符串的边界，然后单独切割字符串，单段分割后再做识别；在进行字符切换处理时，可以进行行字检测，以建立单词和字符的形状基线，根据需要划分单词；还可以进行脚本识别，在多语言文档中，脚本可能在单词级别进行转换，因此在利用相关ocr来管理特定脚本之前，脚本标识是至关重要的；然后可以进行字符隔离或“分段”处理，对于ocr字符，应将待识别图片链接的各种字符进行分割，将单个字符分割为若干基于伪影的片段进行链接；然
后还可以进行规格化处理，以规格化纵横比和比例尺。
73.3.33)对字符切割处理后的待识别图片进行特征提取，以提取出待识别图片的字符特征，为后续字符识别提供依据。例如，可以通过特征检测算法评估字符的线条和笔画来定义字符特征，也可以通过模式识别来识别整个字符特征。例如，可以将字符的图像转换为一个二进制矩阵，其中白色像素为0，黑色像素为1，然后，利用距离公式找到从矩阵的中心到最远的距离1。然后创建一个圆形的半径，并将其分割成更细颗粒的部分，在这个阶段，通过算法将每个分段与表示不同字体字符的矩阵数据库进行比较，以确定统计上最常见的字符特征。
74.2.34)根据字符特征进行字符识别，得到字符识别结果。例如，可以使用模板粗分类和模板精匹配，从当前字符中提取的特征向量用于识别特征模板库中的字符。
75.2.35)对字符识别结果进行排版。根据原版对识别结果进行排版，输出待识别图片的文本信息。
76.2.36)对排版后的识别结果进行后处理修正。例如，可以通过特定语言上下文的关系来修正排版后的识别结果。
77.步骤130，对所述待识别图片进行区域分割处理，以获取所述待识别图片中的目标区域，其中，所述目标区域至少包括文本框区域和图像区域。
78.可选的，所述目标区域可以包括文本框区域、图像区域、图形器区域、表格区域、数学公式区域、图表区域、流程图区域中的至少一种。
79.可选的，所述对所述待识别图片进行区域分割处理，以获取所述待识别图片中的目标区域，包括：
80.基于实例分割模型对所述对所述待识别图片进行区域分割处理，以获取所述待识别图片中的目标区域。
81.其中，实例分割模型主要用于获取待识别图片中的所有的目标区域，主要包括文本框区域，图像区域、图形器区域和表格区域，还可以包括数学公式区域、图表区域、流程图区域等。其中，如图6所示的图形器使用场景图，图形器610包含多种类别，例如矩形、圆角矩形、三角形、菱形、平行四边形、正六边形、正多边形、椭圆形、星形、旗帜形等。另外，图像区域又可能包含矩形图像、圆角矩形图像、椭圆图像等。
82.实例分割技术是相对图像分类、目标检测和语义分割而衍生出来的一种技术方案，从图7给出了四种技术方案的简单对比，其中图7(a)表示的是图像分类，通过该图像分类技术方案只能得到图片中包含bottle、cup和cube的三个类别物品；图7(b)表示的是目标检测，该目标检测技术方案不仅可以得到图7(a)中的包含bottle、cup和cube的三个类别物品，而且还可以得到物品具体的位置；图7(c)表示的是语义分割，该语义分割技术方案可以得到不同语义信息的区域信息，除了可以得到7(a)中三个类别物品外，可以得到每种类别物品分布的区域，并且每种类别的区域可以用同一种颜色给出，也就是直接对图片的像素进行了分类；图7(d)表示的是实例分割，相比于图7(c)方案，首先可以去掉了一些不关注的区域，例如背景区域，另外针对不同类别的物品可以具备明显区域分割边界，就算是两个相同类别的cube，如果存在重叠，也会对两个不同的目标进行分割，可知该实例分割技术方案可以更方便的获取每个目标实例的范围以及位置。
83.其中，根据前面介绍的实例分割技术可以得出，该实例分割技术方案在ppt区域分
割场景中非常适用，因为含有ppt文档版面的待识别图片中经常会出现图形器重叠、或者图像重叠的情况，若仅基于语义分割技术方案，则不能有效区分每个目标区域；另外，若采用目标检测技术方案，因为对于类似三角形、圆角矩形的区域图片，通过目标检测只能获取其最小外接矩形区域，无法实现对目标轮廓的提取，导致无法还原得到准确的三角形区域图片。因此，相比于语义分割技术方案和目标检测技术方案，实例分割技术方案对目标区域的分割效果更好。
84.例如，该实例分割模型可以是基于cbnetv2的实例分割算法，该算法主要是用于构建更加高效的主干(backbone)网络，本技术实施例在该算法的基础上，可以使用一种改进的htc算法(表示为htc++)框架用于对含有ppt文档版面的待识别图片进行区域分割。
85.图8示出了实例分割模型的结构示意图。其中，实例分割模型800可以包括特征提取模块801、特征融合模块802、目标分类模块803、目标定位模块804、目标轮廓提取模块805和语义分割模块806。例如，特征提取模块801可以采用cbnetv2的方案，而后面的特征融合模块802以及其后的目标分类模块803、目标定位模块804、目标轮廓提取模块805和语义分割模块806可以基于htc++算法框架来实现。将待识别图片输入实例分割模型800中，通过特征提取模块801提取待识别图片的特征向量，并通过特征融合模块802进行特征融合处理得到待识别图片的融合特征，以整合特征提取模块中多个主干网络输出的待识别图片的高层级特征向量和低层级特征向量，然后基于实例分割模型800中的目标分类模块803、目标定位模块804、目标轮廓提取模块805和语义分割模块806对待识别图片的融合特征进行处理，得到实例分割结果，并根据实例分割结果和实例分割结果中每个候选区域的置信度来确定最终的区域分割结果，该区域分割结果包含所有的目标区域。
86.例如，cbnetv2融合了现有的pre-trained权重作为一个检测器的backbone，cbnetv2通过一种新的融合方法直接提升现有的pre-trained模型表达能力，不需要预训练，只需要使用现有开源pretrained单个backbone的权重来初始化cbnetv2的每个组装backbone。cbnetv2的主干网络分为两个部分：辅助主干(assisting backbones)和主导主干(lead backbone)。主导主干仅包含一个主干网络，辅助主干由多个主干网络组成。辅助主干的每一个stage的输出流入到其继承主干(即连接在其后的下一个主干网络)的低层级作为输入。最后主导主干的特征将被输入neck和detection head用于回归和分类预测。与简单的更深或者更宽的网络相比，cbnetv2整合了多个主干网络的高层级特征和低层级特征，并逐渐扩展接收域，并且将感受野扩展到更高效的目标检测。
87.htc(hybrid task cascade)算法是基于多任务多阶段的混合级联结构模型，其核心思想为在每个阶段整合级联cascade和多任务multi-tasking来处理来改善信息流，并利用空间上下文saptial context进一步提高准确性。htc在每个阶段，以多任务方式将bbox回归和mask预测组合在一起，此外，为不同阶段的mask分支间构建直接联系：编码每个阶段的mask特征，并送到下一个阶段。对于目标检测而言，上下文信息对于物体的定位和分类提供了非常重要的线索，因此htc还额外采用了一个全卷积分支执行分割，此分支不仅对来自前景实例的上下文信息进行编码，还对来自背景区域的信息进行编码，进一步提升边界框和实例掩码的预测精度。
88.例如，每一层都与其随后的所有层相连来构建庞大的特征。例如，本技术实施例可以采用两个backbone，将前一个主干的所有高层级特征组合在一起接到后面主干的低层级
特征中。
89.例如，4个模块(目标分类模块803、目标定位模块804、目标轮廓提取模块805、语义分割模块806)可以对应htc网络中的4个头(head)，是一个统一网络的4个分支。其中，目标分类模块803可以用于区分被检测目标是否属于目标区域；目标定位模块804可以用于确定目标区域的具体位置；目标轮廓提取模块805又称为mask提取模块，可以用于确定目标区域的轮廓；语义分割模块806可以用于对待识别图片中的每个像素点进行分类，以将待识别图片分割成若干个具有特定语义类别的区域。这4个模块都需要有监督信息，共同监督实例分割模型800的训练。在训练数据中，首先需要定义好一批带有表格区域、文本框区域、图像区域、图形器区域、数学公式区域、图表区域、流程图区域等区域类别标签的样本图片。然后基于收集的样本图片来训练整个实例分割模型800，上述4个模块，分别对应有4个loss损失函数，通过网络训练来优化loss损失函数。
90.在实例分割模型800训练好之后，采用训练好的实例分割模型800对待识别图片进行区域分割处理，得到实例分割结果。
91.其中，可以将得到的实例分割结果依照置信度进行排序，以过滤掉置信度小于置信度阈值的候选区域，得到区域分割结果，该区域分割结果包括待识别图片中的所有目标区域。其中，实例分割模型800针对输出的所有候选区域都会相应输出每个候选区域的置信度，置信度的取值范围为0-1，一般会过滤掉置信度小于置信度阈值的候选区域，保留置信度大于(或等于)预设阈值的候选区域，将置信度大于(或等于)置信度阈值的候选区域确定为目标区域。例如，置信度阈值的取值范围可以为0.5-0.85，可以基于不同数据集测试得出具体的置信度阈值。
92.例如，如图9所示，给出了图2作为输入情况下本技术实施例得到区域分割结果，该区域分割结果包括文本框区域(文本框区域911、文本框区域912、文本框区域913)、图像区域(图像区域921、图像区域922、图像区域923)和图形器区域931。
93.例如，实例分割模型还可以采用其他的实例分割算法，比如采用不同的backbone和不同的检测分割头，例如遥感影像实例分割(cascade mask rcnn)网络，cascade mask rcnn网络是在cascade faster rcnn网络中加入mask分支得到的改进网络，可以用于实现实例分割任务。
94.例如，还可以根据实际需要设计更多不同的目标区域的类别，本技术实施例例举的目标区域的具体类别不作为对本技术实施例的限定。
95.步骤140，根据所述文本信息、所述文本位置以及所述目标区域，生成与所述待识别图片中的ppt文档版面相匹配的目标ppt文档，其中，所述目标ppt文档中所述文本信息和所述目标区域对应的内容具有可编辑属性。
96.其中，该目标区域对应的内容可以包括目标区域的区域边框，目标区域的自身内容，目标ppt文档中被调用的与目标区域相匹配的相关插件，以及写入相匹配的相关插件内并显示的内容等。
97.例如，若该目标区域为文本区域，则目标区域对应的内容可以包括文本框区域的区域边框与文本框区域内显示的文本信息。
98.例如，若该目标区域为图像区域，则目标区域对应的内容可以包括图像区域的区域边框与图像区域内显示的图像。
99.例如，若该目标区域为图形器区域，则目标区域对应的内容可以包括被调用的目标图形器插件在目标ppt文档中显示的区域边框与目标图形器插件内显示的内容。
100.例如，若该目标区域为表格区域，则目标区域对应的内容可以包括被调用的表格插件在目标ppt文档中显示的区域边框与表格插件内显示的表格内容。
101.例如，若该目标区域为数学公式区域，则目标区域对应的内容可以包括被调用的数学公式插件在目标ppt文档中显示的区域边框与数学公式插件内显示的公式内容。
102.例如，若该目标区域为图表区域，则目标区域对应的内容可以包括被调用的图表插件在目标ppt文档中显示的区域边框与图表内显示的图表内容。
103.例如，若该目标区域为流程图区域，则目标区域对应的内容可以包括被调用的图表流程图插件在目标ppt文档中显示的区域边框与流程图内显示的流程图内容。
104.例如，在获取orc识别结果(文本信息和文本位置)以及区域分割结果(待识别图片中的所有目标区域)后，生成与待识别图片中的ppt文档版面相匹配的目标ppt文档，比如得到图10所示的还原的目标ppt文档1000，该目标ppt文档1000包括具有可编辑属性的文本框区域(文本框区域1011、文本框区域1012、文本框区域1013)、图像区域(图像区域1021、图像区域1022、图像区域1023)和图形器区域1031。其中，每个文本框区域内还包含有对应的文本信息，文本框区域1011对应还原了待识别图片中的文本段落211，文本框区域1012对应还原了待识别图片中的文本段落212，文本框区域1013对应还原了待识别图片中的文本段落213。其中，每个图像区域内含有对应的图像，图像区域1021对应还原了待识别图片中的图像221，图像区域1022对应还原了待识别图片中的图像222，图像区域1023对应还原了待识别图片中的图像223。其中，图形器区域1031还原了待识别图片中的圆角矩形区域231，且文本框区域1013位于图形器区域1031内。从还原的结果可以看到，基于本技术实施例还原得到的目标ppt文档1000不仅可以对文本框进行还原，而且可以对立面的图像进行还原，同时对图形器还原，并均可做到可编辑。
105.可选的，所述根据所述文本信息、所述文本位置以及所述目标区域，生成与所述待识别图片中的初始ppt文档版面相匹配的目标ppt文档，包括：
106.将所述目标区域中的所述文本框区域与所述文本信息对应的文本位置进行位置匹配，以将所述文本框区域定位到所述目标ppt文档中与所述文本位置对应的第一目标位置，并将所述文本信息写入位于所述目标ppt文档的第一目标位置处显示的文本框区域中；
107.将所述目标区域中的所述图像区域进行裁剪，并将裁剪后的图像区域按照预设比例缩放后插入所述目标ppt文档中。
108.例如，将区域分割结果中的文本框区域和ocr识别结果中识别出的文本位置进行位置匹配，以将文本框区域定位到目标ppt文档中与文本位置对应的第一目标位置，然后将ocr识别结果中识别出的文本信息写入在目标ppt文档的第一目标位置显处示的文本框区域中，以在目标ppt文档中生成可编辑的文本信息。其中，可以根据文本框区域在待识别图片的像素位置，以及待识别图片与目标ppt文档的大小比例，确定第一目标位置。相比于图3对应的仅采用ocr技术识别文本信息的方案，本技术实施例通过结合ocr识别结果和区域分割结果中的文本框区域生成目标ppt文档中的文本信息，对文本框区域的还原度更高，不仅能还原出可编辑的文本信息，还能在待识别图片中的文本位置对应还原至目标ppt文档中。
109.例如，还可以将图像区域沿着图像区域的轮廓进行裁剪，然后按照预设比例缩放
后在在目标ppt文档中与图像区域的位置对应的第二目标位置，将裁剪后的图像区域插入目标ppt文档中，以在目标ppt文档中生成可编辑的图像。其中，可以根据图像区域在待识别图片的像素位置，以及待识别图片与目标ppt文档的大小比例，确定第二目标位置。相比于图4对应的将待识别图片直接插入ppt文档中的方案，或者相比于图5对应的将待识别图片文本框之外的其他内容作为ppt背景，本技术实施例将裁剪后的图像区域按照预设比例缩放后插入所述目标ppt文档中，对待识别图片中的图像区域的还原度更高，且目标ppt文档中对应图像区域生成的图像，该图像具有可编辑属性。
110.可选的，若所述目标区域还包括图形器区域，则从所述目标ppt文档中调用与所述图形器区域匹配的目标图形器插件，并将所述目标图形器插件写入所述目标ppt文档中。
111.例如，根据图形器区域的类别确定待调用的目标图形器插件，然后直接调用目标ppt文档中的目标图形器插件，以将所有图形器区域对应的目标图形器插件写入目标ppt文档中与图形器区域的位置对应的第三目标位置，以在目标ppt文档中生成可编辑的图形器。其中，可以根据图形器区域在待识别图片的像素位置，以及待识别图片与目标ppt文档的大小比例，确定第三目标位置。相比于图4对应的将待识别图片直接插入ppt文档中的方案，或者相比于图5对应的将待识别图片文本框之外的其他内容作为ppt背景，本技术实施例调用所有图形器区域对应的目标图形器插件并写入目标ppt文档中，对待识别图片中的图形器区域的还原度更高，且目标ppt文档中生成的图形器具有可编辑属性。
112.可选的，若所述目标区域还包括表格区域，则将所述表格区域进行裁剪，并识别裁剪后的表格区域中的表格内容，从所述目标ppt文档中调用与所述表格区域匹配的表格插件，以及根据所述表格区域的位置与所述表格插件，将所述表格内容写入所述目标ppt文档中。
113.例如，根据表格区域的位置沿着表格区域的轮廓进行裁剪，并将裁剪后的表格区域送入表格识别模块，以识别出裁剪后的表格区域中的表格内容，然后调用目标ppt文档中与表格区域匹配的的表格插件，在目标ppt文档中与表格区域的位置对应的第四目标位置插入表格，并调用写入模块以使用python代码中的pptx库将表格内容直接写入表格，以在目标ppt文档中生成可编辑的表格内容。其中，可以根据表格区域在待识别图片的像素位置，以及待识别图片与目标ppt文档的大小比例，确定第四目标位置。本技术实施例通过识别表格区域的表格内容，调用表格区域对应的表格插件并将表格内容写入目标ppt文档中，对待识别图片中的表格区域的还原度更高，且目标ppt文档中生成的表格内容具有可编辑属性。
114.可选的，若所述目标区域还包括数学公式区域，则识别所述数学公式区域中的公式内容，从所述目标ppt文档中调用与所述数学公式区域匹配的公式编辑器，以及根据所述数学公式区域的位置与所述公式编辑器，将所述公式内容写入所述目标ppt文档中。
115.例如，识别数学公式区域中的公式内容，公式内容包括公式符号和数学数值，可以根据公式内容调用目标ppt文档中与数学公式区域匹配的公式编辑器，并将公式内容中的公式符号和数学数值写入位于目标ppt文档中数学公式区域的位置对应的第五目标位置的公式编辑器中，以在目标ppt文档中生成可编辑的数学公式。其中，可以根据数学公式区域在待识别图片的像素位置，以及待识别图片与目标ppt文档的大小比例，确定第五目标位置。本技术实施例通过识别数学公式区域的数学内容，调用数学公式区域对应的公式编辑
器并将公式内容写入目标ppt文档中，对待识别图片中的数学公式区域的还原度更高，且目标ppt文档中生成的公式内容具有可编辑属性。
116.可选的，若所述目标区域还包括图表区域，则识别所述图表式区域中的图表内容，从所述目标ppt文档中调用与所述图表区域匹配的图表插件，并根据所述图表区域的位置与所述图表插件，将所述图表内容写入所述目标ppt文档中。
117.例如，该图表内容为统计图内容，可以调用目标ppt文档中与图表区域匹配的图表插件，并将图表内容写入位于目标ppt文档中图表区域的位置对应的第六目标位置的图表插件中，以在目标ppt文档中生成可编辑的图表内容。其中，可以根据图表区域在待识别图片的像素位置，以及待识别图片与目标ppt文档的大小比例，确定第六目标位置。本技术实施例通过识别图表区域的图表内容，调用图表区域对应的图表插件并将图表内容写入目标ppt文档中，对待识别图片中的图表区域的还原度更高，且目标ppt文档中生成的图表内容具有可编辑属性。
118.可选的，若所述目标区域还包括流程图区域，则识别所述流程图区域中的流程图内容，从所述目标ppt文档中调用与所述流程图区域匹配的流程图插件，并根据所述流程图区域的位置与所述流程图插件，将所述流程图内容写入所述目标ppt文档中。
119.例如，若目标区域还包括流程图区域，则先识别流程图区域中的流程图内容，该流程图内容可以包括流程框图以及流程框图内的流程文本，然后根据流程框图从目标ppt文档中调用与流程图区域匹配的流程图插件，并将流程文本写入流程图插件中以得到对应的目标流程图，然后将可编辑的目标流程图插入位于目标ppt文档中流程图区域的位置对应的第七目标位置处。其中，可以根据流程图区域在待识别图片的像素位置，以及待识别图片与目标ppt文档的大小比例，确定第七目标位置。本技术实施例通过识别流程图区域的图表内容，调用流程图区域对应的流程图插件并将流程图内容写入目标ppt文档中，对待识别图片中的流程图区域的还原度更高，且目标ppt文档中生成的流程图内容具有可编辑属性。
120.可选的，所述方法还包括：根据所述目标区域，提取所述待识别图片的背景图像；将所述背景图像插入所述目标ppt文档中。
121.例如，由于需要获取目标ppt文档的背景，需要将区域分割得到的所有的目标区域待识别图片输入背景提取模块中进行待识别图片的背景图像的提取，在提取出背景图像之后，将该背景图像插入目标ppt文档中。其中，输入背景提取模块中的所有的目标区域可以作为待识别图片的前景信息，根据前景信息来确定待识别图片中的背景图像。本技术实施例通过对目标区域来识别出的背景图像，与待识别图片中的背景最接近，可以过高度还原待识别图片中的背景，且目标ppt文档中生成的背景图像具有可编辑属性。
122.可选的，所述根据所述文本信息、所述文本位置以及所述目标区域，生成与所述待识别图片中的ppt文档版面相匹配的目标ppt文档，还包括：
123.根据所述待识别图片集中每一待识别图片对应的所述文本信息、所述文本位置以及所述目标区域，生成所述待识别图片集中每一待识别图片对应的目标ppt文档；
124.将所述待识别图片集中每一待识别图片对应的目标ppt文档进行文档合并，得到与所述待识别视频文件对应的目标ppt文件。
125.例如，将获取的多个图像帧按照对应的时间戳对所述多个图像帧进行排序，形成待识别图片集。该待识别图片集可以用于逐个识别出每一待识别图片对应的目标ppt文档，
遍历处理待识别图片集中的每个待识别图片，基于ocr技术识别待识别图片集中每一待识别图片的文本信息以及文本信息对应的文本位置，并基于实例分割模型获取待识别图片集中每一待识别图片中的目标区域，然后根据文本信息、文本位置以及目标区域，生成与待识别图片中的ppt文档版面相匹配的具有可编辑属性的目标ppt文档，得到多个目标ppt文档，并按照待识别图片集中的先后顺序排列多个目标ppt文档，得到与待识别视频文件对应的目标ppt文件。这样可以得到待视频文件对应的具有可编辑属性的目标ppt文件，以便用户及时收集相关ppt文件信息，提升信息获取的效率，对待识别视频文件中的ppt文件进行了高度还原，且使得收集的目标ppt文件信息具有可编辑属性，以方便用户使用。
126.例如，为便于更好的理解本技术实施例的文档格式转换方法，可以参阅图11所示的流程示意图，输入含有ppt文档版面的待识别图片，通过orc模型对待识别图片进行字符识别处理，以获取待识别图片中所有的文本信息以及文本信息对应的文本位置；并通过实例分割模型对待识别图片进行区域分割处理，以获取区域分割结果，该区域分割结果包含待识别图片中所有的目标区域，并根据文本信息、文本位置以及目标区域，生成与待识别图片中的ppt文档版面相匹配的目标ppt文档，其中，目标ppt文档中文本信息和目标区域对应的内容具有可编辑属性。例如，目标区域包括文本框区域、图像区域、图形器区域、表格区域、数学公式区域、图表区域、流程图区域中的至少一种；若目标区域包括文本区域，则将目标区域中的文本框区域与文本信息对应的文本位置进行位置匹配，以将文本框区域定位到目标ppt文档中与文本位置对应的第一目标位置，并将文本信息写入位于目标ppt文档的第一目标位置处显示的文本框区域中；若目标区域还包括图像区域，则将图像区域进行裁剪，并将裁剪后的图像区域按照预设比例缩放后插入目标ppt文档中；若目标区域还包括图形器区域，则从目标ppt文档中调用与图形器区域匹配的目标图形器插件，并将目标图形器插件写入目标ppt文档中；若目标区域还包括表格区域，则将表格区域进行裁剪，并调用表格识别模块识别裁剪后的表格区域中的表格内容，从目标ppt文档中调用与表格区域匹配的表格插件，以及根据表格区域的位置与目标ppt文档中被调用的的表格插件，调用写入模块将表格内容写入目标ppt文档中；若目标区域还包括数学公式区域，则识别数学公式区域中的公式内容，从目标ppt文档中调用与数学公式区域匹配的公式编辑器，以及根据数学公式区域的位置与目标ppt文档中被调用的公式编辑器，将公式内容写入目标ppt文档中；若目标区域还包括图表区域，则识别图表式区域中的图表内容，从目标ppt文档中调用与图表区域匹配的图表插件，并根据图表区域的位置与目标ppt文档中被调用的图表插件，将图表内容写入目标ppt文档中；若目标区域还包括流程图区域，则识别流程图区域中的流程图内容，从目标ppt文档中调用与流程图区域匹配的流程图插件，并根据流程图区域的位置与目标ppt文档中被调用的流程图插件，将流程图内容写入目标ppt文档中；还可以根据区域分割结果中的所有目标区域提取待识别图片的背景图像，并将背景图像插入目标ppt文档中。
127.上述所有的技术方案，可以采用任意结合形成本技术的可选实施例，在此不再一一赘述。
128.本技术实施例通过获取含有ppt文档版面的待识别图片，并对待识别图片进行字符识别处理，以获取待识别图片中的文本信息以及文本信息对应的文本位置，然后对待识别图片进行区域分割处理，以获取待识别图片中的目标区域，其中，目标区域至少包括文本框区域和图像区域，并根据文本信息、文本位置以及目标区域，生成与待识别图片中的ppt
文档版面相匹配的目标ppt文档，其中，目标ppt文档中文本信息和目标区域对应的内容具有可编辑属性。本技术实施例基于光学字符识别ocr技术识别待识别图片的文本信息以及文本信息对应的文本位置，并基于实例分割模型获取待识别图片中的目标区域，然后根据文本信息、文本位置以及目标区域，生成与待识别图片中的ppt文档版面相匹配的具有可编辑属性的目标ppt文档，可以有效将含有ppt文档版面的待识别图片中的内容转换成具有可编辑属性的目标ppt文档，提高ppt信息还原度，提升ppt信息获取的便利性。
129.为便于更好的实施本技术实施例的文档格式转换方法，本技术实施例还提供一种文档格式转换装置。请参阅图12，图12为本技术实施例提供的文档格式转换装置的结构示意图。其中，该文档格式转换装置1200可以包括：
130.获取单元1210，用于获取含有ppt文档版面的待识别图片；
131.识别单元1220，用于对所述待识别图片进行字符识别处理，以获取所述待识别图片中的文本信息以及所述文本信息对应的文本位置；
132.分割单元1230，用于对所述待识别图片进行区域分割处理，以获取所述待识别图片中的目标区域，其中，所述目标区域至少包括文本框区域和图像区域；
133.生成单元1240，用于根据所述文本信息、所述文本位置以及所述目标区域，生成与所述待识别图片中的ppt文档版面相匹配的目标ppt文档，其中，所述目标ppt文档中所述文本信息和所述目标区域对应的内容具有可编辑属性。
134.可选的，所述分割单元1230，可以用于：基于实例分割模型对所述对所述待识别图片进行区域分割处理，以获取所述待识别图片中的目标区域，其中，所述目标区域至少包括文本框区域和图像区域。
135.可选的，所述生成单元1240，可以用于：将所述目标区域中的所述文本框区域与所述文本信息对应的文本位置进行位置匹配，以将所述文本框区域定位到所述目标ppt文档中与所述文本位置对应的第一目标位置，并将所述文本信息写入位于所述目标ppt文档的第一目标位置处显示的文本框区域中；
136.将所述目标区域中的所述图像区域进行裁剪，并将裁剪后的图像区域按照预设比例缩放后插入所述目标ppt文档中。
137.可选的，所述生成单元1240，还可以用于：若所述目标区域还包括图形器区域，则从所述目标ppt文档中调用与所述图形器区域匹配的目标图形器插件，并将所述目标图形器插件写入所述目标ppt文档中。
138.可选的，所述生成单元1240，还可以用于：若所述目标区域还包括表格区域，则将所述表格区域进行裁剪，并识别裁剪后的表格区域中的表格内容，从所述目标ppt文档中调用与所述表格区域匹配的表格插件，以及根据所述表格区域的位置与所述表格插件，将所述表格内容写入所述目标ppt文档中。
139.可选的，所述生成单元1240，还可以用于：若所述目标区域还包括数学公式区域，则识别所述数学公式区域中的公式内容，从所述目标ppt文档中调用与所述数学公式区域匹配的公式编辑器，以及根据所述数学公式区域的位置与所述公式编辑器，将所述公式内容写入所述目标ppt文档中。
140.可选的，所述生成单元1240，还可以用于：若所述目标区域还包括图表区域，则识别所述图表式区域中的图表内容，从所述目标ppt文档中调用与所述图表区域匹配的图表
插件，并根据所述图表区域的位置与所述图表插件，将所述图表内容写入所述目标ppt文档中。
141.可选的，所述生成单元1240，还可以用于：若所述目标区域还包括流程图区域，则识别所述流程图区域中的流程图内容，从所述目标ppt文档中调用与所述流程图区域匹配的流程图插件，并根据所述流程图区域的位置与所述流程图插件，将所述流程图内容写入所述目标ppt文档中。
142.可选的，所述生成单元1240，还可以用于：根据所述目标区域，提取所述待识别图片的背景图像；将所述背景图像插入所述目标ppt文档中。
143.可选的，所述获取单元1210，可以用于：从待识别视频文件中识别出含有ppt文档版面的图像帧，将获取的多个图像帧按照对应的时间戳对所述多个图像帧进行排序，形成待识别图片集。
144.可选的，所述生成单元1240，还可以用于：根据所述待识别图片集中每一待识别图片对应的所述文本信息、所述文本位置以及所述目标区域，生成所述待识别图片集中每一待识别图片对应的目标ppt文档；
145.将所述待识别图片集中每一待识别图片对应的目标ppt文档进行文档合并，得到与所述待识别视频文件对应的目标ppt文件。
146.可选的，所述识别单元1220，用于：基于光学字符识别ocr技术对所述待识别图片进行字符识别处理，以对所述待识别图片中的文本信息进行定位及识别，确定出所述待识别图片中的文本信息以及所述文本信息对应的文本位置。
147.上述文档格式转换装置中的各个单元可全部或部分通过软件、硬件及其组合来实现。上述各个单元可以以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行上述各个单元对应的操作。
148.文档格式转换装置1200，可以集成在具备储存器并安装有处理器而具有运算能力的终端或服务器中，或者该文档格式转换装置1200为该终端或服务器。
149.可选的，本技术还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。
150.如图13所示，图13为本技术实施例提供的计算机设备的结构示意图，该计算机设备可以是终端。该计算机设备1300包括有一个或者一个以上处理核心的处理器1301、有一个或一个以上计算机可读存储介质的存储器1302及存储在存储器1302上并可在处理器上运行的计算机程序。其中，处理器1301与存储器1302电性连接。本领域技术人员可以理解，图中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
151.处理器1301是计算机设备1300的控制中心，利用各种接口和线路连接整个计算机设备1300的各个部分，通过运行或加载存储在存储器1302内的软件程序和/或模块，以及调用存储在存储器1302内的数据，执行计算机设备1300的各种功能和处理数据，从而对计算机设备1300进行整体处理。
152.在本技术实施例中，计算机设备1300中的处理器1301会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器1302中，并由处理器1301来运行存
储在存储器1302中的应用程序，从而实现各种功能：
153.获取含有ppt文档版面的待识别图片；对所述待识别图片进行字符识别处理，以获取所述待识别图片中的文本信息以及所述文本信息对应的文本位置；对所述待识别图片进行区域分割处理，以获取所述待识别图片中的目标区域，其中，所述目标区域至少包括文本框区域和图像区域；根据所述文本信息、所述文本位置以及所述目标区域，生成与所述待识别图片中的ppt文档版面相匹配的目标ppt文档，其中，所述目标ppt文档中所述文本信息和所述目标区域对应的内容具有可编辑属性。
154.以上各个操作的具体实施可参见前面的实施例，在此不再赘述。
155.可选的，如图13所示，计算机设备1300还包括：触控显示屏1303、射频电路1304、音频电路1305、输入单元1306以及电源1307。其中，处理器1301分别与触控显示屏1303、射频电路1304、音频电路1305、输入单元1306以及电源1307电性连接。本领域技术人员可以理解，图13中示出的计算机设备结构并不构成对计算机设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
156.触控显示屏1303可用于显示图形用户界面以及接收用户作用于图形用户界面产生的操作指令。触控显示屏1303可以包括显示面板和触控面板。其中，显示面板可用于显示由用户输入的信息或提供给用户的信息以及计算机设备的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。可选的，可以采用液晶显示器(lcd，liquid crystal display)、有机发光二极管(oled，organic light-emitting diode)等形式来配置显示面板。触控面板可用于收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作)，并生成相应的操作指令，且操作指令执行对应程序。可选的，触控面板可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1301，并能接收处理器1301发来的命令并加以执行。触控面板可覆盖显示面板，当触控面板检测到在其上或附近的触摸操作后，传送给处理器1301以确定触摸事件的类型，随后处理器1301根据触摸事件的类型在显示面板上提供相应的视觉输出。在本技术实施例中，可以将触控面板与显示面板集成到触控显示屏1303而实现输入和输出功能。但是在某些实施例中，触控面板与触控面板可以作为两个独立的部件来实现输入和输出功能。即触控显示屏1303也可以作为输入单元1306的一部分实现输入功能。
157.射频电路1304可用于收发射频信号，以通过无线通信与网络设备或其他计算机设备建立无线通讯，与网络设备或其他计算机设备之间收发信号。
158.音频电路1305可以用于通过扬声器、传声器提供用户与计算机设备之间的音频接口。音频电路1305可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路1305接收后转换为音频数据，再将音频数据输出处理器1301处理后，经射频电路1304以发送给比如另一计算机设备，或者将音频数据输出至存储器1302以便进一步处理。音频电路1305还可能包括耳塞插孔，以提供外设耳机与计算机设备的通信。
159.输入单元1306可用于接收输入的数字、字符信息或对象特征信息(例如指纹、虹膜、面部信息等)，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者
轨迹球信号输入。
160.电源1307用于给计算机设备1300的各个部件供电。可选的，电源1307可以通过电源管理系统与处理器1301逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1307还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
161.尽管图13中未示出，计算机设备1300还可以包括摄像头、传感器、无线保真模块、蓝牙模块等，在此不再赘述。
162.本技术还提供了一种计算机可读存储介质，用于存储计算机程序。该计算机可读存储介质可应用于计算机设备，并且该计算机程序使得计算机设备执行本技术实施例中的文档格式转换方法中的相应流程，为了简洁，在此不再赘述。
163.本技术还提供了一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得计算机设备执行本技术实施例中的文档格式转换方法中的相应流程，为了简洁，在此不再赘述。
164.本技术还提供了一种计算机程序，该计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得计算机设备执行本技术实施例中的文档格式转换方法中的相应流程，为了简洁，在此不再赘述。
165.应理解，本技术实施例的处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现成可编程门阵列(field programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本技术实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本技术实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。
166.可以理解，本技术实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，rom)、可编程只读存储器(programmable rom，prom)、可擦除可编程只读存储器(erasable prom，eprom)、电可擦除可编程只读存储器(electrically eprom，eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory，ram)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的ram可用，例如静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddr sdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接
动态随机存取存储器(synchlink dram，sldram)和直接内存总线随机存取存储器(direct rambus ram，dr ram)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
167.应理解，上述存储器为示例性但不是限制性说明，例如，本技术实施例中的存储器还可以是静态随机存取存储器(static ram，sram)、动态随机存取存储器(dynamic ram，dram)、同步动态随机存取存储器(synchronous dram，sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram，ddr sdram)、增强型同步动态随机存取存储器(enhanced sdram，esdram)、同步连接动态随机存取存储器(synch link dram，sldram)以及直接内存总线随机存取存储器(direct rambus ram，dr ram)等等。也就是说，本技术实施例中的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
168.本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本技术的范围。
169.所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
170.在本技术所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
171.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
172.另外，在本技术实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
173.所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
174.以上所述，仅为本技术的具体实施方式，但本技术的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本技术揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本技术的保护范围之内。因此，本技术的保护范围应所述以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵志勇
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：一种窄带分拣机的制作方法
上一篇：一种用柠檬酸体系处理过渡金属氧化矿的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。