一种基于互联网的讲义压缩传输与还原方法与流程

文档序号：14835933发布日期：2018-06-30 12:24阅读：255来源：国知局

本发明涉及教育信息化
技术领域：
，具体涉及一种基于互联网的讲义压缩传输与还原方法。本方法可广泛应用于教育信息化、网络会议等。
背景技术：
：随着互联网技术的发展，人们通讯的方式也在发生着变化。从最早的书信传递、电报、到电话、短信、电子邮件、微信、QQ等即时通信工具，科学技术的进步让人们享受着越来越便捷的沟通和通讯方式。在今天，我们足不出户就可以和远在千里之外的同事进行视频会议，和国外的老师共同上课。互联网技术已经为我们的工作和生活提供了快速便捷的信息通道。当我们更多地接触到远程会议、远程教学等互联网技术后，我们发现，这些技术都离不开对讲义的传输。目前，我们使用的讲义格式类型多样，包括PPT文件、Word文件等。在传统的远程会议和远程教学系统中，一般采用视频作为传输载体，或直接将讲义文件进行传输。如果采用视频作为传输载体，可通过摄像机、屏幕画面传输等方式，将PPT的内容录制为视频信号进行传输，在新一代的远程会议和远程教学系统中，由于大数据、讲师行为分析等新需求的出现，封装的视频文件根本无法满足要求。与此同时，对于一些偏远山区和教育基础设施建设相对较为薄弱的地区，互联网建设很不完善，特别是在偏远山区，甚至连手机信号都没有，仅能通过卫星通讯和外界进行联系。在这种情况下，对带宽要求较高的视频传输技术显然无法满足上述要求，需要体积更小的文件来满足传输要求。如果将PPT、Word文件直接进行传输，虽然解决了文件体积的问题，但是由于讲义格式类型多样，给开发带来了很大的兼容性问题。于是，如何把讲义文件本身的体积变小，而又具备统一格式就成了摆在技术人员面前亟需解决的难题。技术实现要素：为了解决上述现有技术中出现的问题，本发明提供一种基于互联网的讲义压缩传输与还原方法。所述方法包括以下步骤：本发明采用的技术方案如下，所述方法包括以下步骤：(1)利用转换程序按页扫描原始讲义文档；(2)根据原始讲义文档的内容，把每页的扫描内容分为文本、图片、图形和多媒体四种类型；(3)根据文本、图片、图形和多媒体的描述规则对原始讲义文档的内容进行统一标准的描述；(4)将步骤(3)中统一描述后的内容重新生成一个二进制格式的描述文件并进行传输；(5)通过渲染程序解析该描述文件，并根据描述文件的内容进行还原渲染。进一步地，文本的描述规则包括：转换程序记录文字内容、文字坐标以及文字样式。进一步地，图片的描述规则包括：将图片进行分离存储，记录图片的存储路径、大小、缩放和旋转参数，并进行描述记录。进一步地，图片的描述规则还包括：在将图片进行分离存储前，识别原始讲义文档中的所有图片素材，确认重复素材并做查重处理。进一步地，图片的描述规则还包括：将原始讲义中的图片素材通过图片压缩算法进行压缩以便降低文件体积。进一步地，如果原始文件中记录有图片的原始来源，则原始来源相同的图片，只会保留一份：对于来源不同的图片，采用图形查重算法进行查重，剔除相同或近似的图片，自动使用同一图片路径。进一步地，图形的描述规则包括：描述记录图形类型、图形坐标、图形的绘制数据和图形的变形参数，其中图形的绘制数据包含图形绘制所需要的全部参数，供渲染程序还原时使用，图形的变形参数包括缩放和旋转等参数。进一步地，多媒体的描述规则包括：描述记录多媒体文件的路径，并复制多媒体文件到导出目录备用。进一步地，对于不可识别的图形，系统将其自动转换为图片，将图片进行分离存储，记录图形的大小和位置参数，并进行描述记录。具体地，各步骤中“扫描”的含义就是利用程序进行分析识别。步骤(2)、(3)中，由于讲义文件可能是多种格式，如PPT文档、WORD文档等，如果不进行统一描述，在进行重现时，就需要考虑多种格式，而一些算法可能在不同的设备上无法得到支持。因此，为了达到跨平台、统一标准的目的，必须对现有讲义文件进行统一标准的描述，形成描述文件。在具体描述时，转换程序根据原始讲义文档中的内容分为四种类型进行描述，第一种是文本格式，转换程序记录文字内容、文字坐标和文字样式。第二种是图片格式，将图片、或渲染程序目前暂时无法支持还原渲染的图形进行图片化并分离存储，转换程序记录图片的路径、大小、缩放以及旋转等参数。在对图片进行识别处理时，如果原始文件中记录有图片的原始来源，则原始来源相同的图片，只会保留一份，其余的做删除处理；对于原始来源不同的图片，采用图形查重算法进行查重，剔除相同或近似的图片(“近似的图片”一般为同一图片放大或缩小后的图片)，自动使用同一图片路径。可以根据D-Hash算法对图片进行查重处理，查重后的图片做压缩处理。原始讲义中有时会存在包含透明通道的图片，特别是包含半透明像素颜色的图片。为了保证半透明像素的效果，一般会使用PNG格式的图片，而PNG格式的图片体积太大，不利于网络传输，系统程序还提供了图片压缩算法，可以将PNG格式的图片进行大幅压缩，从而降低文件体积。第三种是图形格式，即在讲义内部，通过各种绘图工具绘制的图形，描述时，记录图形类型、图形坐标、图形的绘制数据和图形的变形参数，其中图形的绘制数据包含图形绘制所需要的全部参数，供渲染程序还原时使用。其中，图形类型比如为圆形、矩形等；图形坐标为图形在页面中的坐标；图形的绘制数据是表征图形的参数，比如圆的圆心坐标和半径、椭圆的焦点、焦距、长轴和短轴参数；图形的变形参数包括缩放和旋转参数。第四种是多媒体格式，描述记录多媒体文件的路径，并复制文件到导出目录备用。对于原始讲义中包含的不可识别的内容，扫描程序会将这些内容统一转换为图片格式，从而实现最大兼容。同时，通过图片识别算法对相同图片进行识别，从而减少重复图片数量，降低文件体积。步骤(4)中，具体地，转换程序将压缩处理后的图片(和/或多媒体文件)以及统一格式的描述文件，一起形成一个整体的二进制文件，即ippt文件，进行传输。避免了加载大量素材而进行多次的网络请求，所有的文件均在一个文件内一次性返回，只需使用一次网络请求即可，大大提高了网络传输的可靠性。步骤(5)，具体地，还原程序或渲染程序在得到由步骤(4)生成的二进制文件后，按照约定的格式，对二进制流进行拆分，还原出二进制流中包含的图片(和/或多媒体文件)以及描述文件，并根据描述文件中对原始讲义的描述进行还原渲染，呈现在用户的终端设备上。在本发明中，涉及到以下技术术语：(1)原始讲义。原始讲义是指老师所使用的讲义文件，包含但不限于PPT、Word或PDF文档等常见文档格式。(2)转换程序。转换程序负责对原始讲义进行转换处理。扫描整个原始讲义的内容，并以页为单位，将文档中的内容进行转换，输出符合还原程序(或渲染程序)要求的描述文件。从而实现原始讲义跨平台、跨文件格式形成统一标准的描述文件。(3)描述文件。由转换程序扫描和识别原始讲义后，生成对原始讲义文件内容的详细描述文件，描述文件包含了原始讲义的全部内容，以及每页的具体内容布局描述，包括格式、互动形式等参数。(4)ippt文件。为了降低网络传输中数据传输的次数，转换程序将描述文档以及全部经过压缩处理后的图片素材或多媒体文件，进行二进制处理，形成一个整体文件，以供还原程序进行还原渲染。(5)还原程序或渲染程序。根据描述文件中的描述和说明，重新渲染显示原始讲义的内容，显示结果和原始讲义标准文档保持一致。本发明的有益的技术效果：1、图片进行查重处理，删除同一来源的图片，从而减少重复图片数量，降低文件体积。2、图片压缩。在原始讲义中，图片往往都以原始尺寸和大小存储，并未进行任何压缩。在文件制作过程中，大多数制作人不会通过photoshop等图形处理工具，对图片的大小进行优化处理，在保证品质的前提下，尽可能压缩文件的大小。因此，在制作完讲义文件后，文件还有一定的压缩空间。本转换方法中，会对全部图片进行依次优化处理，降低文件体积。3、半透明图片优化。包含半透明颜色(alpha度在100-0之间)的图片，一般会使用png进行存储。而这种格式的图片体积非常大，一般会比不包含透明度的jpg，或者包含纯透明通道的gif大3倍左右。而原始讲义不会对这些文件进行优化。在本转换方法中，所有包含半透明颜色的图片都将统一进行存储优化，通过特定图形算法，对半透明颜色进行处理。从而保证图片在维持半透明特性的前提下，体积趋近于不包含透明通道的jpg格式图片，从而降低文件的体积。4、查重、压缩处理后的图片和多媒体文件以及统一格式的描述文件，一起形成一个整体的二进制文件进行传输，避免了加载大量素材而进行多次的网络请求，所有的文件均在一个文件内一次性返回，只需使用一次网络请求即可，大大提高了网络传输的可靠性。本发明应用在远程教学和远程会议中，将大幅降低数据传输体积，对网络带宽及硬件设备的要求大大降低，描述文件的数据结构为教育大数据的采集提供了技术支持，对教育信息化的推广普及具有十分重要的意义。附图说明附图1为本发明基于互联网的讲义压缩传输与还原方法的流程图具体实施方式下面以word文档为例，详细说明本发明的具体实施方式。转换与还原工作流程如下：1、老师准备好word文本的原始讲义，并上传至服务器；2、为了实现最好、最大兼容性，系统采用cs架构，由服务器端提供统一的转换功能(当然，转换也可以在客户端进行)，从而保证在字体、转换环境等方面保持一致。另外，也减少的对客户端软件的依赖。即便老师的电脑没有安装打开文件所必备的软件，一样可以进行转换；3、服务器接收到老师上传的原始讲义后，根据上传的先后顺序进行排序，并依次进行转换；4、转换程序识别原始讲义的总页数，并逐页进行分析识别；4.1分析背景。转换程序分析当前讲义的背景图片。4.2分析内容。4.2.1对讲义内容的识别。把讲义内容分为四种类型进行识别：A、文字，转换程序记录文字内容、文字坐标、文字样式等，用统一标准进行描述记录。转换完成后，为了保证对文字样式的描述准确。以HTML格式对文字的样式进行描述，从而保证完整记录整段文字的文字样式设置。文字转换结果如下：字段含义BoundWidth文字宽度BoundHight文字高度ElementId文字idElementXX坐标ElementYY坐标ElementIndex层级Type类型Drag是否可拖拽Interact交互信息AnimationSet动画信息HtmlText文字内容的HTML描述B、图片，将图片进行分离存储，记录图片存储路径、大小、缩放、旋转等参数，用统一标准进行描述记录。如果在原始文件中，记录有图片的原始来源，则原始来源相同的图片，只会保留一份，其他相同引用的图片，自动使用同一图片路径(即使用同一张图片)，从而降低图片体积。同时，对于原始来源不同的图片，根据D-Hash算法对图片进行查重处理，剔除相似的图片(相似的图片指同一图片放大或缩小后的图片)。在图片素材的保存过程中，会对图片进行压缩处理。特别是包含半透明颜色的png图片，将通过nQuant算法进行压缩。从而大大降低图片所占用的空间。图片转换结果如下：字段含义ElementW图片宽度ElementH图片高度Path图片路径ElementId图片idElementXX坐标ElementYY坐标ElementIndex层级Type类型Drag是否可拖拽Interact交互信息AnimationSet动画信息C、原始讲义文档内使用绘图工具绘制的图形，系统如果目前可以识别并还原，将以描述文件的形式进行描述，描述内容包括图形类型、图形坐标、图形的绘制数据、图形的变形参数等。其中图形的绘制数据，包含了各种图形的绘制过程(即绘制图形所需要的全部参数)，供渲染程序还原时使用。图形的变形参数包括缩放、旋转等参数。而对于转换程序目前没有支持，暂时不可识别的图形，将其自动转换为图片格式，并将图片进行分离存储，记录图片的大小、位置等参数，用统一标准进行描述记录。D、多媒体素材，识别记录多媒体文件的路径，并复制文件到导出目录备用。若为无法识别的可视素材，则统一按照图片的处理方式进行处理。4.2.2对4.2.1中，讲义文件各组成元素的动作分析在分析内容的同时，对原始讲义内部的动作进行分析，由于动作一般都是针对某个特定的内容对象的，如针对文字、图片等。在转换程序中，本发明保持了这种做法。在每一个对象的标准描述中，会增加一个动作队列数组，用来保存这个对象所要实现的全部动作，包括动作类型和动作参数。比如PPT文件中的百叶窗、飞入、飞出、弹跳等动画效果。其中动作类型用来区分动画效果的种类，而动作参数则记录这些效果的实现方法和相关的参数数据。动作分析结果如下：字段含义AnimationName动画名Index序号Duration持续时间TriggerDelayTime延时触发时间OffsetXX坐标OffsetYY坐标Visible是否显示5、全部分析完成后，通过转换程序，将描述文件以及所有图片素材(或多媒体文件)转换为二进制数据，并进行首尾链接，形成一个整体二进制文件，返回给客户端或在服务器中进行储存以便下载使用。所述二进制文件的结构为：文件头16字节素材内容N字节描述文件N字节其中，文件头的结构为：4字节版本号4字节分辨率宽4字节分辨率高4字节素材数素材内容部分由N个区块组成，每个区块的结构如下4字节素材路径长度aa字节路径4字节素材内容长度bb字节内容描述文件部分的结构如下：4字节描述文件长度cc字节描述文件内容6、对于流媒体的支持。为了减少用户的加载时间，描述文件可以进行分段编码。在头文件部分，声明原始将讲义的页数，然后根据页数进行内容排列，第一页的描述文件+第一页的引用素材+第二页的描述文件+第二页的引用素材+……+第n页的描述文件+第n页的引用素材。在加载时，只要加载完一页完整的数据，就可以进行渲染还原并进行呈现。例如，一份讲义一共有50页，用户完全不需要等待50页全部加载完，才能看见讲义内容。而是在加载完第一页的内容后，马上就可以看到第一页的内容，而后面2-50页的内容继续加载。优化结构如下：16字节文件头N字节逐页内容其中，文件头的结构如下：4字节版本号4字节分辨率宽4字节分辨率高4字节总页数各页的数据结构如下：4字节素材数N字节素材内容N字节当页描述文件其中，素材内容的结构如下：4字节素材路径长度aa字节路径4字节素材内容长度bb字节内容页描述文件的结构如下：4字节描述文件长度cc字节描述文件内容7、客户端在获得服务器转换完成的文件后，再根据约定的数据结构，解析出描述文件和图片或多媒体素材，并根据描述文件的记录，利用各对应的图片或多媒体素材，还原显示原始讲义的内容。当前第1页1 2 3

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：闫健;任浩
技术所有人：闫健
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。