一种文档共享平台及文档处理方法

文档序号:6336530阅读:299来源:国知局
专利名称:一种文档共享平台及文档处理方法
技术领域
本发明涉及网络技术,特别涉及一种文档共享平台及文档处理方法。
背景技术
随着互联网技术的发展,在线文档阅读服务于互联网络中业已广泛提供,而传统 的在线文档阅读服务不会区分文档格式,只是统一将文档转档成HTML或Flash格式页面, 并在线播放该HTML或Flash页面。另外,在播放文件格式较小的纯文本格式文档时,传统 的在线文档播放技术皆将文件格式较小的纯文本格式文档转换为文件格式较大的图像,并 以播放图像形式播放文档。因此,若原始文档为纯文本格式文档,由于传统在线文档阅读技术将需要播放的 文档转档成Flash页面,则原本纯文本格式文档相较Flash页面所具有传输量小、字体清晰 等优点无法发挥。并且,由于传统在线文档阅读统一将需要播放的文档转档成Flash页面,因此,会 将纯文本格式文档中的文字转成图像,有可能造成文字不清晰,使得用户的阅读体验不佳。

发明内容
本发明提供了一种文档共享平台及文档处理方法,以提升用户阅读体验。具体技术方案如下提供一种文档共享平台的文档处理方法,包括a.接收用户 上传文档;b.对用户上传文档进行格式判断;C.在判断到用户上传文档为纯文本格式文档 时,存储纯文本格式文档,在判断到用户上传文档为非纯文本格式文档时,将非纯文本格式 文档转换预定格式文档,并存储预定格式文档。根据本发明之一优选实施例,文档处理方法进一步包括步骤d 将纯文本格式文 档作为播放文件发送至浏览器,并由纯文本播放器进行在线播放。根据本发明之一优选实施例,步骤d进一步包括从纯文本格式文档抽取纯文本 信息,在纯文本信息与纯文本格式文档之间建立索引关系。根据本发明之一优选实施例,将纯文本信息发送至浏览器作为检索索引以供用户 浏览点击。根据本发明之一优选实施例,步骤C进一步包括对纯文本格式文档进行文字编 码格式转换,并存储转换后的纯文本格式文档。根据本发明之一优选实施例,步骤b进一步包括对用户上传文档进行加密判断, 在判断到用户上传文档为加密文档时,对用户上传文档进行解密处理。根据本发明之一优选实施例,步骤b进一步包括判断用户上传文档是否为已存 储文档,若为已存储文档,则退出。根据本发明之一优选实施例,预定格式文档为swf或html格式文档,文档处理方 法进一步包括步骤d 将swf或html格式文档作为播放文件发送至浏览器,并由flash播 放器进行在线播放。
根据本发明之一优选实施例,步骤c进一步包括在判断到用户上传文档为非纯 文本格式文档时,先将非纯文本格式文档转换为中间格式文档,再将中间格式文档转换为 swf或html格式文档。根据本发明之一优选实施例,中间格式文档为pdf文档。根据本发明之一优选实施例,步骤c进一步包括对pdf格式文档进行截图处理以 获取截图,在截图与SWf或html格式文档之间建立索引关系。根据本发明之一优选实施例,步骤d进一步包括将截图发送至浏览器作为检索 索引以供用户浏览点击。根据本发明之一优选实施例,步骤c进一步包括从pdf格式文档抽取纯文本信息 以获取纯文本信息,在纯文本信息与SWf或html格式文档之间建立索引关系。根据本发明之一优选实施例,步骤d进一步包括将纯文本信息发送至浏览器作 为检索索引以供用户浏览点击。根据本发明之一优选实施例,非纯文本格式文档包括doc文档、docx文档、ppt文 档、PPtX文档、XSl文档、xslx文档、pdf文档、VSd文档、rtf文档、pps文档、wps文档、et 文档、dps文档或pot文档。根据本发明之一优选实施例,纯文本格式文档包括txt文档。本发明进一步提供一种文档共享平台,包括文档接收模块,用于接收用户上传文 档;文档处理模块,包括格式判断模块、格式转换模块以及数据库,格式判断模块用于对用 户上传文档进行格式判断,在判断到用户上传文档为纯文本格式文档时,存储纯文本格式 文档至数据库,在判断到用户上传文档为非纯文本格式文档时,格式转换模块将非纯文本 格式文档转换为预定格式文档,并存储预定格式文档至数据库。根据本发明之一优选实施例,文档处理模块进一步包括收发模块,收发模块用于 将纯文本格式文档作为播放文件发送至浏览器,并由纯文本播放器进行在线播放。根据本发明之一优选实施例,文档处理模块进一步包括纯文本信息抽取模块,纯 文本信息抽取模块用于从纯文本格式文档抽取纯文本信息,在纯文本信息与纯文本格式文 档之间建立索引关系。根据本发明之一优选实施例,收发模块进一步用于将纯文本信息发送至浏览器作 为检索索引以供用户浏览点击。根据本发明之一优选实施例,格式转换模块进一步用于对纯文本格式文档进行文 字编码格式转换,并存储转换后的纯文本格式文档。根据本发明之一优选实施例,文档处理模块进一步包括解密模块,解密模块用于 对用户上传文档进行加密判断,在判断到用户上传文档为加密文档时,对用户上传文档进 行解密处理。根据本发明之一优选实施例,文档处理模块进一步包括存储判断模块,存储判断 模块用于判断用户上传文档是否为已存储文档,若为已存储文档,则不处理用户上传文档。根据本发明之一优选实施例,预定格式文档为swf或html格式文档,收发模块进 一步将swf或html格式文档作为播放文件发送至浏览器,并由flash播放器进行在线播 放。根据本发明之一优选实施例,在格式判断模块判断到用户上传文档为非纯文本格式文档时,格式转换模块先将非纯文本格式文档转换为中间格式文档,再将中间格式文档 转换为swf或html格式文档。根据本发明之一优选实施例,中间格式文档为pdf文档。根据本发明之一优选实施例,文档处理模块进一步包括截图模块,截图模块对pdf 格式文档进行截图处理以获取截图,在截图与SWf或html格式文档之间建立索引关系。根据本发明之一优选实施例,收发模块进一步用于将截图发送至浏览器作为检索 索引以供用户浏览点击。根据本发明之一优选实施例,文档处理模块进一步包括纯文本信息抽取模块,纯 文本信息抽取模块用于从Pdf格式文档抽取纯文本信息以获取纯文本信息,在纯文本信息 与swf或html格式文档之间建立索引关系。根据本发明之一优选实施例,文收发模块进一步用于将纯文本信息发送至浏览器 作为检索索引以供用户浏览点击。根据本发明之一优选实施例,非纯文本格式文档包括doc文档、docx文档、ppt文 档、PPtX文档、XSl文档、xslx文档、pdf文档、VSd文档、rtf文档、pps文档、wps文档、et 文档、dps文档或pot文档。根据本发明之一优选实施例,纯文本格式文档包括txt文档。由以上技术方案可以看出,通过上述方式,可以充分利用纯文本格式文档相传输 量小、字体清晰等优点,并且可提升用户的阅读体验。


图1是本发明的文档共享平台的示意框图;图2是根据本发明第一实施例的文档共享平台的示意框图;图3是本发明的文档共享平台的文档处理方法的流程图;图4是根据本发明第二实施例的文档共享平台的文档处理方法的流程图;图5是根据本发明第三实施例的文档共享平台的文档处理方法的流程图;图6是根据本发明第四实施例的文档共享平台的文档处理方法的流程图;图7是根据本发明第五实施例的文档共享平台的文档处理方法的流程图;图8是根据本发明第六实施例的文档共享平台的文档处理方法的流程图;图9是根据本发明第七实施例的文档共享平台的示意框图;图10是本发明的文档共享平台的在线文档阅读装置的示意框图;图11是本发明的文档共享平台的在线文档阅读方法的流程图;图12是根据本发明第八实施例的在线文档阅读装置的示意框图;图13是根据本发明第九实施例的在线文档阅读装置的示意框图;图14是根据本发明第九实施例的在线文档阅读方法的流程图;图15是根据本发明第十实施例的在线文档阅读装置中的播放器设置模块的示意 框图;图16是根据本发明第十实施例的在线文档阅读装置的播放器设置模块8031的文 档加载模块的加载流程图;图17是根据本发明第十一实施例的文档共享平台与在线文档阅读装置组合使用的示意框图;图18是根据本发明第十二实施例的文档共享平台与在线文档阅读装置组合使用 的示意框图;图19是根据本发明第十三实施例的文档共享平台与在线文档阅读装置组合使用 的示意框图;以及图20为根据本发明第十四实施例的在线文档阅读装置结合在线应用系统向用户 提供在线电子书搜索服务的示意框图。
具体实施例方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对 本发明进行详细描述。首先请参见图1,图1是本发明的文档共享平台的示意框图。如图1所示,本发明所揭示的文档共享平台120包括文档接收模块121和文档处 理模块100。其中,文档接收模块121用于接收用户上传文档(于下文将会详细描述);文 档处理模块100用于对用户上传文档进行格式判断,在判断到用户上传文档为纯文本格式 文档时,存储纯文本格式文档,在判断到用户上传文档为非纯文本格式文档时,将非纯文本 格式文档转换预定格式文档,并存储预定格式文档。值得注意的是本发明的文档共享平台120及所包括的文档接收模块121和文档处 理模块100可利用软件或硬件(或二者之结合来实现),当采用软件实现时,可采用各种通 用的网络开发语言,如c#、PHP、JAVA、RUBY、以及PYTHON等。请参见图2,图2是根据本发明第一实施例的文档共享平台的示意框图。如图2所示,在本发明的第一实施例中,用户上传用户上传文档110到文档共享平 台120,文档共享平台120的文档接收模块121接收用户上传文档110,文档处理模块100 对用户上传文档110进行格式判断,在判断到用户上传文档110为纯文本格式文档时,存储 纯文本格式文档,在判断到用户上传文档110为非纯文本格式文档时,将非纯文本格式文 档转换预定格式文档,并存储预定格式文档。其中,在本发明的优选实施例中,用户可利用ftp协议上传用户上传文档110。并 且,文档处理模块100可利用linux、unix或windows命令对用户上传文档110进行格式 判断(如可利用Iinux系统自带的file命令或trid命令对用户上传文档110进行格式判 断)。在本发明的第一实施例中,在判断到用户上传文档110为纯文本格式文档时,文 档处理模块100将纯文本格式文档作为播放文件发送至浏览器130,并由嵌入到浏览器130 的纯文本播放器131进行在线播放。并且,在判断到用户上传文档110为非纯文本格式文 档时,文档处理模块100将非纯文本格式文档作为播放文件发送至浏览器130,并由嵌入到 浏览器130的非纯文本播放器132进行在线播放。其中,浏览器130可以插件方式安装纯文本播放器131或非纯文本播放器132。请参见图3,图3是本发明的文档共享平台的文档处理方法的流程图。如图3所示,本发明的文档共享平台的文档处理方法包括以下步骤在步骤201,接收用户上传文档。
8
在步骤202,判断用户上传文档是否为纯文本格式文档,在判断到用户上传文档为 纯文本格式文档时,执行步骤203,否则,执行步骤204。在步骤203,存储纯文本格式文档。在步骤204,将非纯文本格式文档转换为预定格式文档。其中,步骤201由文档接收模块121完成,步骤202-204由文档处理模块100完成。请参见图4,图4是根据本发明第二实施例的文档共享平台的文档处理方法的流 程图。如图4所示,相较于上述的本发明的第一实施例而言,本发明的第二实施例中进 一步对非纯文本格式文档进行中间格式转换处理,具体步骤如下步骤301,接收用户上传文档。步骤302,判断用户上传文档是否为纯文本格式文档,在判断到用户上传文档为纯 文本格式文档时,执行步骤303。在步骤303,存储纯文本格式文档。并且,在完成步骤303后,执行步骤305。在步骤305,将纯文本格式文档作为播放文件发送至浏览器,并由纯文本播放器进 行在线播放。当在步骤302判断到用户上传文档为非纯文本格式文档时,执行步骤304。在步骤304,将非纯文本格式文档转换为中间格式文档,并存储中间格式文档。并 且,在完成步骤304后,执行步骤306和步骤307。在步骤306,将中间格式文档转换为预定格式文档,并存储预定格式文档。在步骤307,将预定格式文档作为播放文件发送至浏览器,并由非纯文本播放器进 行在线播放。其中,步骤301由文档接收模块121完成,步骤302-207由文档处理模块100完成。 以上步骤中,由于对非纯文本格式文档进行了中间格式转换处理,因此,可进一步利用所获 取的中间格式文档进行相关操作(于下文将会详细描述)。请进一步参见图5,图5是根据本发明第三实施例的文档共享平台的文档处理方 法的流程图。如图5所示,本发明的第三实施例对上述第一及第二实施例作进一步改良,进一 步提供了加密判断、已存储判断、纯文本格式文档文字编码转换等文档处理步骤,并且将中 间格式文档具体指定为Pdf格式文档。其具体流程如下在步骤401,接收用户上传文档。在步骤402,判断用户上传文档是否为加密文档。当判断到用户上传文档为加密文 档时,执行步骤403,反之,直接执行步骤404。在步骤403,对用户上传文档进行解密处理,相关的解密处理可采用各种现有的解 密处理算法,对此不作多余描述。在步骤404,判断用户上传文档是否为已存储文档。当判断到用户上传文档为已存 储文档时,执行步骤405,退出本流程。当判断到用户上传文档为未存储文档时,执行步骤 406。其中,可通过计算MD5、标题大小、内容相似度在数据库中查找重复文档。在步骤406,判断用户上传文档是否为纯文本格式文档。当判断到用户上传文档为 纯文本格式文档时,执行步骤407、408、409。
在步骤407,存储纯文本格式文档。在步骤408,对纯文本格式文档进行文字编码格式转换,并存储转换后的纯文本格 式文档。具体而言,纯文本格式文档包括gbk、utf-8、utf-16编码格式,可指定其中一种作 为转换后的统一格式,如在本发明的优选实施方式中,优选将所有的纯文本格式统一转换 为utf-8编码格式。在步骤409,将转换后的纯文本格式文档作为播放文件发送至浏览器,并由浏览器 可利用纯文本播放器进行在线播放。当在步骤406中判断到用户上传文档为非纯文本格式文档时,执行步骤410、411、 412。在步骤410,将非纯文本格式文档转换为pdf格式文档,并存储该pdf格式文档。在步骤411,将pdf格式文档转换为swf或html格式文档,并存储swf或html格 式文档。在步骤412,将swf或html格式文档作为播放文件发送至浏览器,并由flash播放 器进行在线播放。其中,步骤401由文档接收模块121完成,步骤402-412由文档处理模块100完成。请进一步参见图6,图6是根据本发明第四实施例的文档共享平台的文档处理方 法的流程图。值得注意的是,中间格式文档除为pdf格式文档外,还可以是其他格式文档,如图 片格式文档等,具体可根据实际需要选采。如图6所示,在本发明的第四实施例中,对上述第三实施例进行改良,进一步提供 截图处理步骤。具体如下,当在本发明的第三实施例中执行到步骤410时,可在完成步骤 410后执行步骤501,对pdf格式文档进行截图处理以获取截图,在截图与swf或html格式 文档之间建立索引关系。并且,在完成步骤501后继续执行步骤502,将截图发送至浏览器 作为检索索引以供用户浏览点击。具体而言,当用户在浏览器中观看到截图时(其在浏览器上呈现于用户的是一页 页的缩略图),用户可点击某一特定截图,此时浏览器可发送带有该截图信息的http请求 至文档处理模块100,文档处理模块100可根据存储的索引关系调用该截图信息所对应的 swf或html格式文档,并将所对应的swf或html格式文档发送至浏览器,浏览器在获取所 对应的swf或html格式文档后,可将其设置为当前页面,使得用户可看到截图所对应的swf 或html格式文档。请进一步参见图7,图7是根据本发明第五实施例的文档共享平台的文档处理方 法的流程图。如图7所示,在本发明的第五实施例中,在第三及第四实施例的基础上进一步提 供纯文本信息抽取步骤。具体如下,当在本发明的第三实施例中执行到步骤410,可在完成 步骤410后执行步骤601,从pdf格式文档抽取纯文本信息,并在纯文本信息与swf或html 格式文档之间建立索引关系。并且,在完成步骤601后执行步骤602,将纯文本信息发送至 浏览器作为检索索引以供用户浏览点击。同样地,与上一实施例所采取的机制相类似,当用户在浏览器中观看到文档目录 时(其在浏览器上呈现于用户的是纯文本格式文档的文档目录),用户可点击某一特定目录,此时浏览器可发送带有该目录信息的http请求至文档处理模块100,文档处理模块100 可根据存储的索引关系调用该目录信息所对应的swf或html格式文档,并将所对应的swf 或html格式文档发送至浏览器,浏览器在获取所对应的swf或html格式文档后,可将其设 置为当前页面,使得用户可看到所点击目录所对应的swf或html格式文档。请进一步参见图8,图8是根据本发明第六实施例的文档共享平台的文档处理方 法的流程图。如图8所示,在本实施例中,可以对纯文本格式文档进行纯文本信息抽取处理,具 体如下,当在本发明的第三实施例中执行到步骤407,可在完成步骤407后执行步骤701,从 纯文本格式文档抽取纯文本信息,并在纯文本信息与纯文本格式文档之间建立索引关系, 并且,在完成步骤701后执行步骤702,将纯文本信息发送至浏览器作为检索索引以供用户 浏览点击。同样地,与上两个实施例所采取的机制相类似,当用户在浏览器中观看到文档目 录时(其在浏览器上呈现于用户的是纯文本格式文档的文档目录),用户可点击某一特定 目录,此时浏览器可发送带有该目录信息的http请求至文档处理模块100,文档处理模块 100可根据存储的索引关系调用该目录信息所对应的纯文本格式文档,并将所对应的纯文 本格式文档发送至浏览器,浏览器在获取所对应的纯文本格式文档后,可将其设置为当前 页面,使得用户可看到所点击目录所对应的纯文本格式文档。请参见图9,图9是根据本发明第七实施例的文档共享平台的示意框图。如图9所示,在本发明的第七实施例中,图1所示的文档处理模块100可进一步包 括解密模块101、存储判断模块102、格式判断模块103、格式转换模块104、数据库105、截 图模块106、纯文本信息抽取模块107以及收发模块108。其中,解密模块101用于判断文档接收模块121所接收的用户上传文档110是否 加密,若判断为加密文档,则对其进行解密处理,并将解密处理后的用户上传文档发送至存 储判断模块102,若判断为非加密文档,则直接将用户上传文档110发送至存储判断模块 102。存储判断模块102用于判断用户上传文档是否已经在数据库105中存储,当判断 到在数据库105中已经存储时,可停止对用户上传文档进行处理。当判断到在数据库105 中没有存储时,可将用户上传文档110发送至格式判断模块103。其中,可通过计算MD5、标 题大小、内容相似度在数据库105中查找重复文档。格式判断模块103用于判断用户上传文档110是否为纯文本格式文档并发送判断 结果及用户上传文档110至格式转换模块104。其中,格式判断模块103可利用liniDuimix 或windows命令对用户上传文档110进行格式判断(如可利用Iinux系统自带的file命 令或trid命令对用户上传文档110进行格式判断)。在格式判断模块103判断到用户上传文档110为纯文本格式文档时,格式转换模 块104可对纯文本格式文档进行文字编码格式转换,并存储转换后的纯文本格式文档至数 据库105中,而在本发明的优选实施方式中,可将gbk、utf-16等纯文本格式文档统一转换 为utf-8编码格式。当在判断到用户上传文档110为非纯文档格式文档时,格式转换模块104可将用 户上传文档110转换为中间格式文档,将中间格式文档存储到数据库105中,并且可进一步
11将中间格式文档转换为预定格式文档,并将预定格式文档存储到数据库105中。在本发明 的优选实施例中,中间格式文档优选为Pdf格式文档,预定格式文档优选为swf或html格 式文档。截图模块106可对数据库105中所存储的pdf格式文档进行截图处理以获取截 图,并在截图与swf或html格式文档之间建立索引关系,并且可将将截图发送至浏览器130 作为检索索引以供用户浏览点击,此时,呈现在用户的浏览器130上的截图可为缩略图,当 用户点击该缩略图的某一页时,浏览器130会发送请求至文档共享平台120,文档共享平台 120的文档处理模块100可根据索引关系找到对应swf或html格式文档,并将其发送至浏 览器130以供用户浏览点击。纯文本信息抽取模块107可从pdf格式文档抽取纯文本信息以获取纯文本信息, 在纯文本信息与swf或html格式文档之间建立索引关系,并且可将纯文本信息发送至浏览 器130作为检索索引以供用户浏览点击,此时,呈现在用户的浏览器130上的纯文本信息可 为目录信息,当用户点击该目录信息的某一条时,浏览器130会发送请求至文档共享平台 120,文档共享平台120的文档处理模块100可根据索引关系找到对应swf或html格式文 档,并将其发送至浏览器130以供用户浏览。同样地,纯文本信息抽取模块107可从纯文本格式文档抽取纯文本信息,在纯文 本信息与纯文本格式文档之间建立索引关系,并将纯文本信息发送至浏览器130作为检索 索引以供用户浏览点击,此时,呈现在用户的浏览器130上的纯文本信息可为目录信息,当 用户点击该目录信息的某一条时,浏览器130会发送请求至文档共享平台120,文档共享平 台120的文档处理模块100可根据索引关系找到对应纯文本格式文档,并将其发送至浏览 器130以供用户浏览。其中,以上所述的索引关系可保存于数据库105中,当用户浏览器上的点击目录 或截图时,浏览器发送带有标示目录或截图信息的http请求至收发模块108,收发模块108 获取请求后,可在数据库105中查找索引关系,并根据索引关系获取对应格式文档,并将对 应格式文档发送至浏览器进行显示。值得注意的是,在本发明的优选实施方式中,数据库105优选为mola(Model Transformation Language,模式转换语言)数据库,并且其数量取决于实际应用可为一个 或多个。在以上所揭示的揭示方案中,提供了一种文档共享平台,其可接收用户所提供的 各种格式文档,并且通过判断各种格式文档为非纯文本格式或纯文本格式,进而作出相应 处理,从而因应文档格式的不同而作出不同处理,极大地提高了系统效能,并降低了文档共 享平台的负载。对应于上述的文档共享平台,本发明更提供一种在线文档阅读装置及在线文档阅 读方法,其中该在线文档阅读装置可与本发明所揭示的文档共享平台配合使用,以进一步 降低用户端负载。以下将参见图10-20对本发明的在线文档阅读装置及在线文档阅读方法作详细 介绍。首先请参见图10,图10是本发明的文档共享平台的在线文档阅读装置的示意框 图。如图10所示,本发明的文档共享平台的在线文档阅读装置包括播放文件获取模块801、播放文件判断模块802以及播放器设置模块803,其中,播放文件获取模块801用于获 取播放文件,播放文件判断模块802用于对播放文件进行格式判断,播放器设置模块803用 于在判断到播放文件为纯文本格式文档时,在浏览器上设置纯文本播放器,以由纯文本播 放器播放纯文本格式文档。其中,播放文件获取模块801可响应于用户请求从图9所述的文档共享平台120 的数据库105中获取对应的播放文件。同样地,播放文件获取模块801、播放文件判断模块802以及播放器设置模块803 可采用通用的开发语言来实现,如c#、C++、VB、PHP、JAVA、RUBY、以及PYTHON等。并请参见图11,图11是本发明的文档共享平台的在线文档阅读方法的流程图。如 图11所示,本发明所揭示的在线文档阅读方法包括步骤901,获取播放文件。步骤902,对播放文件进行格式判断。步骤903,在判断到播放文件为纯文本格式文档时,在浏览器上设置纯文本播放 器,以由纯文本播放器播放纯文本格式文档。其中,步骤901由播放文件获取模块801执行,步骤902由播放文件判断模块802 执行,步骤903由播放器设置模块803执行。请参见图12,图12是根据本发明第八实施例的在线文档阅读装置的示意框图。如 图12所示,在本发明的第八实施例中,包括播放文件获取模块801、播放文件判断模块802 以及播放器设置模块803的在线文档阅读装置嵌入于浏览器130,并且在播放文件判断模 块802判断到播放文件为纯文本格式文档时,播放器设置模块在浏览器130上设置纯文本 播放器131,以由纯文本播放器131播放纯文本格式文档。其中,包括播放文件获取模块801、播放文件判断模块802以及播放器设置模块 803的在线文档阅读装置可以插件安装方式嵌入安装于浏览器130。请参见图13,图13是根据本发明第九实施例的在线文档阅读装置的示意框图。如 图13所示,在本发明的第九实施例中,包括播放文件获取模块801、播放文件判断模块802 以及播放器设置模块803的在线文档阅读装置嵌入于浏览器130,并且,在播放文件判断模 块802判断到播放文件为纯文本格式文档时,播放器设置模块803在浏览器130上设置纯 文本播放器131,以由纯文本播放器131播放纯文本格式文档。另外,在播放文件判断模块 802判断到播放文件为非纯文本格式文档时,播放器设置模块803在浏览器130上设置非纯 文本播放器132,以由非纯文本播放器132播放非纯文本格式文档。值得注意的是,在本发明的优选实施例中,非纯文本播放器优选为flash播放器。请参见图14,图14是根据本发明第九实施例的在线文档阅读方法的流程图。如图 14所示,根据本发明第八实施例的文档共享平台的在线文档阅读方法可包括以下步骤步骤1001,获取播放文件。步骤1002,对播放文件进行格式判断,当判断到播放文件为纯文本格式文档,可执 行步骤1003,当判断到播放文件为非纯文本格式文档,可执行步骤1004。步骤1003,在浏览器上设置纯文本播放器,以由纯文本播放器播放纯文本格式文 件。步骤1004,在浏览器上设置非纯文本播放器,以由非纯文本播放器播放非纯文本格式文档。其中,步骤1001由播放文件获取模块801执行,步骤1002由播放文件判断模块 802执行,步骤1003-1004由播放器设置模块803执行。请参见图15,图15是根据本发明第十实施例的在线文档阅读装置中的播放器设 置模块的示意框图。如图15所示,在本发明的第十实施例中,播放器设置模块803可包括文档加载模 块8031、尺寸调整模块8033、编辑模块8032、符号过滤模块8034、目录显示模块8035以及 无限下拉模块8036。其中,文档加载模块8031用于加载包含当前页面的多个预加载页面(其具体实现 方式将会于下文结合图16详细介绍),其可判断所述当前页面在预加载页面中的位置,并 在当前页面处于预定位置时控制纯文本播放器预加载后续页面。而在本发明的优选实施例 中,可以3000个字节为一页面,并一次预加载50页。尺寸调整模块8033用于在页面展现时侦测浏览器130的可视空间尺寸,根据浏览 器130的可视空间尺寸调整纯文本播放器131的尺寸,在本发明的优选实施例中,可按预定 比例调整纯文本播放器131的尺寸,并且使得纯文本播放器131的最大化尺寸不超过浏览 器130可视空间。编辑模块8032用于根据用户操作信息调整所述纯文本播放器的播放页面内的字 体大小、字节数量或页面背景。并且,编辑模块8032可接收输入信息,根据所述输入信息对 纯文本格式文档进行全文搜索,以在纯文本格式文档中获取与所述输入信息匹配的符合字 串,并突出显示符合字串。另外编辑模块8032更可接收目标页面位置,将目标页面位置对 应的页面作为当前页面显示。符号过滤模块8034用于在页面展现时对纯文本格式文档进行空行及符号过滤处 理。具体而言可对纯文本格式文档中除换行符外编码为Oxlf以内的符号进行过滤,并对纯 文本格式文档中连续的空行进行过滤。目录显示模块8035用于在浏览器130上显示与纯文本格式文档相关的纯文本信 息,以作为检索索引供用户浏览点击。其中与纯文本格式文档相关的纯文本信息在上文中 已经介绍,其由文档共享平台100中的纯文本信息抽取模块107对纯文本格式文档进行信 息抽取所获取。无限下拉模块8036用于根据已经加载的文档页面和未加载页面计算整体文档高 度,根据整体文档高度计算滚动条长度,并根据当前页面在整体文档高度中的位置,计算当 前滚动条位置,并控制所纯文本播放器显示滚动条。并且无限下拉模块8036可获取滚动条 的当前位置,将滚动条的当前位置对应的页面作为当前页面进行显示。请参见图16,图16是根据本发明第十实施例的在线文档阅读装置的播放器设置 模块8031的文档加载模块的加载流程图。如图16所示,文档加载模块的加载流程如下步骤1101,以多个连续页面作为一个加载集合,并将加载集合切分出前单元、后单 元以及中单元。步骤1102,判断当前页面在加载集合中的位置,当判断到在当前页面在前单元时, 执行步骤1103,当判断到当前页面在后单元时,执行步骤1104,当判断到当前页面在后单元时,执行步骤1105。步骤1103,控制纯文本播放器预加载当前加载集合以及当前加载集合之前的加载步骤1104,控制纯文本播放器预加载当前加载集合以及当前加载集合之后的加载步骤1105,控制纯文本播放器仅预加载当前加载集合。以上所采用的加载流程能够充分利用纯文本格式文档传输量较小的特点,能够实 现快速加载的效果。在本实施例中,播放器设置模块803中的文档加载模块8031、尺寸调整模块8033、 编辑模块8032、符号过滤模块8034、目录显示模块8035以及无限下拉模块8036使得纯文 本格式文档可在浏览器130上进行快速加载,可以在浏览器130进行页面的初次展现时进 行尺寸调整,用户更可在浏览器130上编辑纯文本格式文档,并且,由于可滤了多余的符号 (如空格、空行等),更为用户提升了阅读体验。请参见图17,图17是根据本发明第十一实施例的文档共享平台与在线文档阅读 装置组合使用的示意框图。如图17所示,本发明所揭示的文档共享平台可与在线文档阅读装置组合使用,其 中,在本实施例中,在包括播放文件获取模块801、播放文件判断模块802以及播放器设置 模块803的在线文档阅读装置嵌入到浏览器130中,用户在阅读在线文档时,可点击浏览器 130上所提供的相关按钮(或点击框),向文档共享平台120发送http请求,文档共享平 台120的文档处理模块100在接收到http请求后,可调用数据库(如图8中所述的数据库 105)中所存储的对应文档(包括纯文本格式文档和非纯文本格式文档),将其发送至在线 文档阅读装置,在线文档阅读装置的播放文件获取模块801可获取到播放文件(即前述之 对应文档),并利用播放文件判断模块802判断该播放文件的格式,在判断到该播放文件格 式为纯文本格式文档格式时,可将播放文件发送至纯文本播放器131进行在线播放,而在 判断到该播放文件格式为非纯文本格式文档格式时,可将播放文件发送至非纯文本播放器 132进行在线播放。在本发明的优选实施例中,非纯文本播放器132优选为flash播放器。当在将为纯文本格式文档的播放文件发送至纯文本播放器131进行在线播放时, 在线文档阅读装置可利用播放器设置模块803对纯文本格式文档进行预加载、尺寸调整、 编辑设置、符号过滤、目录显示以及无限下拉设置等一系列设置,以充分利用纯文本格式文 档格式小、占用空间不大、便于传输以及显示清晰等优点,并且用户可对文档进行编辑,进 一步提升用户体验。另外,在对非纯文本格式文档进行在线播放时,浏览器130可为用户呈现出缩略 图或目录,用户可在浏览器130点击缩略图或目录,缩略图或目录所对应的非纯文本格式 文档即可成为当前页面呈现于浏览器。而当在对纯文本格式文档进行在线播放时,浏览器130可为用户呈现出目录,用 户可在浏览器130点击目录,目录所对应的非纯文本格式文档即可成为当前页面呈现于浏 览器130ο请参见图18,图18是根据本发明第十二实施例的文档共享平台与在线文档阅读装置组合使用的示意框图。如图18所示,本发明的第十二实施例与前述的第十一实施例的区别在于,在本实 施例中,进一步可将播放文件获取模块801和播放文件判断模块802整合到文档共享平台 中,而在浏览器130只嵌入安装有播放器设置模块803,使得播放文件获取以及播放文件判 断等步骤可直接在文档共享平台中执行,从而降低浏览器130的负载。并请进一步参见图19,图19是根据本发明第十三实施例的文档共享平台与在线 文档阅读装置组合使用的示意框图。如图19所示,本发明的第十三实施例进一步对前述第十二实施例进行具体化设 置,在本实施例中,播放文件获取模块801和播放文件判断模块802整合设置于文档共享平 台120,具体而言,播放文件获取模块801可相应于用户请求从数据库105中获取用户所需 的纯文本格式或非纯文本格式文档作为播放文件,利用播放文件判断模块802对播放文件 进行格式判断,并且将判断结果及播放文件通过收发模块108发送至播放器设置模块803。
值得注意的是,在本实施例中,播放文件获取模块801和播放文件判断模块802与 播放器设置模块803之间设置有收发模块108,通过收发模块108来实现播放文件获取模块 801和播放文件判断模块802与播放器设置模块803之间的文件传输。最后请参见图20,其中,图20为根据本发明第十四实施例的在线文档阅读装置结 合在线应用系统向用户提供在线电子书搜索服务的示意框图。用户可通过在线应用系统在 搜索引擎上搜索需要的在线应用,在线应用可包括在线游戏、在线杀毒、在线即时通信以 及在线电子书等,其中,本实施例将在线电子书搜索服务与本发明的在线文档阅读装置相 结合使用。如图20所示,在线应用系统包括搜索引擎模块1402、应用运行环境模块1407、应 用个性化定制服务模块1403以及数据存储服务模块1408。另外,浏览器中可嵌入安装有本发明所揭示的包括播放文件获取模块801、播放文 件判断模块802以及播放器设置模块803的在线文档阅读装置。当用户希望通过在线应用系统获得在线电子书时,用户可通过浏览器在搜索引擎 的搜索框内输入书名或其他信息,并点击搜索按钮。浏览器会发送该查询请求1420到在线 应用系统的搜索引擎模块1402。搜索引擎模块1402根据查询请求1420在索引库内进行 匹配搜索,获取与查询请求1420相匹配的多个在线电子书,以形成搜索结果,并将搜索结 果页面的代码发送给浏览器,由浏览器运行形成搜索结果页面1421。用户在搜索结果页面 1421上点击所需要的在线电子书,浏览器发送相应的用户请求到应用运行环境模块1407。 应用运行环境模块1407则发送在线电子书对应的画布页面代码至用户浏览器,形成画布 页面1410。画布页面1410发送应用请求到应用运行环境模块1407,由应用运行环境模块 1407直接发送在线文档阅读器的界面代码及阅读器代码至用户浏览器,形成嵌入于画布页 面1410的嵌入页面1406。随后,画布页面1410或嵌入页面1406向第三方应用服务器1409 发送数据请求,获得相应的在线电子书内容,并在线文档阅读器进行解析后呈现给用户。其中,在画布页面1410或嵌入页面1406向第三方应用服务器发送数据请求以获 得相应的在线电子书内容的步骤中,由于包括播放文件获取模块801、播放文件判断模块 802以及播放器设置模块803的在线文档阅读装置嵌入到浏览器中,因此,相应的在线电子 书可被发送至嵌入到浏览器中的在线文档阅读装置,在线文档阅读装置的播放文件获取模块801可获取到播放文件(即前述的相应的在线电子书内容),并利用播放文件判断模块 802判断该播放文件的格式,在判断到该播放文件格式为纯文本格式文档格式时,可将播放 文件发送至纯文本播放器131进行在线播放,而在判断到该播放文件格式为非纯文本格式 文档格式时,可将播放文件发送至非纯文本播放器132进行在线播放。并且,如上所述,在将为纯文本格式文档的播放文件发送至纯文本播放器131进 行在线播放时及在当播放文件判断模块802在判断到电子书格式为纯文本格式文档格式 时,在线文档阅读装置可利用播放器设置模块803对纯文本格式文档进行预加载、尺寸调 整、编辑设置、符号过滤、目录显示以及无限下拉设置等一系列设置,以充分利用纯文本格 式文档格式小、占用空间不大、便于传输以及显示清晰等优点,同时用户可对显示文档进行 编辑,进而提升了用户体验。值得注意的是,本发明所提及的非纯文本格式文档包括doc文档、docx文档、ppt 文档、PPtx文档、XSl文档、xslx文档、Pdf文档、VSd文档、rtf文档、pps文档、wps文档、 et文档、dps文档或pot文档。另外,纯文本格式文档包括txt文档。另外,本发明所采用的文件传输方式可采用各种现有的传输协议进行文件传输, 本发明对此并不作限制。通过上述所提供的技术方案,本发明提供了一种文档共享平台及文档共享方法, 其可以充分利用纯文本格式文档相传输量小、字体清晰等优点,并进一步提升了用户的阅 读体验。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
权利要求
1.一种文档共享平台的文档处理方法,其特征在于,包括a.接收用户上传文档;b.对所述用户上传文档进行格式判断;c.在判断到所述用户上传文档为纯文本格式文档时,存储所述纯文本格式文档,在判 断到所述用户上传文档为非纯文本格式文档时,将所述非纯文本格式文档转换为预定格式 文档,并存储所述预定格式文档。
2.根据权利要求1所述的文档处理方法,其特征在于,所述文档处理方法进一步包括 步骤d 将所述纯文本格式文档作为播放文件发送至浏览器,并由纯文本播放器进行在线 播放。
3.根据权利要求2所述的文档处理方法,其特征在于,所述步骤d进一步包括从所述 纯文本格式文档抽取纯文本信息,在所述纯文本信息与所述纯文本格式文档之间建立索引 关系。
4.根据权利要求3所述的文档处理方法,其特征在于,所述步骤d进一步包括将所述 纯文本信息发送至浏览器作为检索索引以供用户浏览点击。
5.根据权利要求1所述的文档处理方法,其特征在于,所述步骤c进一步包括对所述 纯文本格式文档进行文字编码格式转换,并存储转换后的纯文本格式文档。
6.根据权利要求1所述的文档处理方法,其特征在于,所述步骤b进一步包括对所述 用户上传文档进行加密判断,在判断到所述用户上传文档为加密文档时,对所述用户上传 文档进行解密处理。
7.根据权利要求1所述的文档处理方法,其特征在于,所述步骤b进一步包括判断所 述用户上传文档是否为已存储文档,若为已存储文档,则退出。
8.根据权利要求1所述的文档处理方法,其特征在于,所述预定格式文档为swf或 html格式文档,所述文档处理方法进一步包括步骤d 将所述swf或html格式文档作为播 放文件发送至浏览器,并由flash播放器进行在线播放。
9.根据权利要求8所述的文档处理方法,其特征在于,所述步骤c进一步包括在判断 到所述用户上传文档为非纯文本格式文档时,先将所述非纯文本格式文档转换为中间格式 文档,再将所述中间格式文档转换为所述SWf或html格式文档。
10.根据权利要求9所述的文档处理方法,其特征在于,所述中间格式文档为pdf文档。
11.根据权利要求10所述的文档处理方法,其特征在于,所述步骤c进一步包括对所 述Pdf格式文档进行截图处理以获取截图,在所述截图与所述swf或html格式文档之间建 立索引关系。
12.根据权利要求11所述的文档处理方法,其特征在于,所述步骤d进一步包括将所 述截图发送至所述浏览器作为检索索引以供用户浏览点击。
13.根据权利要求10所述的文档处理方法,其特征在于,所述步骤c进一步包括从所 述Pdf格式文档抽取纯文本信息,在所述纯文本信息与所述swf或html格式文档之间建立 索引关系。
14.根据权利要求13所述的文档处理方法,其特征在于,所述步骤d进一步包括将所 述纯文本信息发送至浏览器作为检索索引以供用户浏览点击。
15.根据权利要求1所述的文档处理方法,其特征在于,所述非纯文本格式文档包括doc文档、docx文档、ppt文档、pptx文档、xsl文档、xslx文档、pdf文档、vsd文档、rtf文 档、pps文档、wps文档、et文档、dps文档或pot文档。
16.根据权利要求1所述的文档处理方法,其特征在于,所述纯文本格式文档包括txt 文档。
17. 一种文档共享平台,其特征在于,包括文档接收模块,用于接收用户上传文档;文档处理模块,包括格式判断模块、格式转换模块以及数据库,所述格式判断模块用 于对所述用户上传文档进行格式判断,在判断到所述用户上传文档为纯文本格式文档时, 存储所述纯文本格式文档至所述数据库,在判断到所述用户上传文档为非纯文本格式文档 时,所述格式转换模块将所述非纯文本格式文档转换为预定格式文档,并存储所述预定格 式文档至所述数据库。
18.根据权利要求17所述的文档处理平台,其特征在于,所述文档处理模块进一步包 括收发模块,所述收发模块用于将所述纯文本格式文档作为播放文件发送至浏览器,并由 纯文本播放器进行在线播放。
19.根据权利要求18所述的文档处理平台,其特征在于,所述文档处理模块进一步包 括纯文本信息抽取模块,所述纯文本信息抽取模块用于从所述纯文本格式文档抽取纯文本 信息,在所述纯文本信息与所述纯文本格式文档之间建立索引关系。
20.根据权利要求19所述的文档处理平台,其特征在于,所述收发模块进一步用于将 所述纯文本信息发送至浏览器作为检索索引以供用户浏览点击。
21.根据权利要求17所述的文档处理平台,其特征在于,所述格式转换模块进一步用 于对所述纯文本格式文档进行文字编码格式转换,并存储转换后的纯文本格式文档。
22.根据权利要求17所述的文档处理平台,其特征在于,所述文档处理模块进一步包 括解密模块,所述解密模块用于对所述用户上传文档进行加密判断,在判断到所述用户上 传文档为加密文档时,对所述用户上传文档进行解密处理。
23.根据权利要求17所述的文档处理平台,其特征在于,所述文档处理模块进一步包 括存储判断模块,所述存储判断模块用于判断所述用户上传文档是否为已存储文档,若为 已存储文档,则不处理所述用户上传文档。
24.根据权利要求17所述的文档处理平台,其特征在于,所述预定格式文档为swf或 html格式文档,所述收发模块进一步将所述swf或html格式文档作为播放文件发送至浏览 器,并由flash播放器进行在线播放。
25.根据权利要求24所述的文档处理平台,其特征在于,在所述格式判断模块判断到 所述用户上传文档为非纯文本格式文档时,所述格式转换模块先将所述非纯文本格式文档 转换为中间格式文档,再将所述中间格式文档转换为所述swf或html格式文档。
26.根据权利要求25所述的文档处理平台,其特征在于,所述中间格式文档为pdf文档。
27.根据权利要求26所述的文档处理平台,其特征在于,所述文档处理模块进一步包 括截图模块,所述截图模块对所述Pdf格式文档进行截图处理以获取截图,在所述截图与 所述SWf或html格式文档之间建立索引关系。
28.根据权利要求27所述的文档处理平台,其特征在于,所述收发模块进一步用于将所述截图发送至所述浏览器作为检索索引以供用户浏览点击。
29.根据权利要求26所述的文档处理平台,其特征在于,所述文档处理模块进一步包 括纯文本信息抽取模块,所述纯文本信息抽取模块用于从所述Pdf格式文档抽取纯文本信 息以获取纯文本信息,在所述纯文本信息与所述swf或html格式文档之间建立索引关系。
30.根据权利要求29所述的文档处理平台,其特征在于,所述收发模块进一步用于将 所述纯文本信息发送至浏览器作为检索索引以供用户浏览点击。
31.根据权利要求17所述的文档处理平台,其特征在于,所述非纯文本格式文档包括 doc文档、docx文档、ppt文档、pptx文档、xsl文档、xslx文档、pdf文档、vsd文档、rtf文 档、pps文档、wps文档、et文档、dps文档或pot文档。
32.根据权利要求17所述的文档处理平台,其特征在于,所述纯文本格式文档包括txt 文档。
全文摘要
本发明提供了一种文档共享平台及文档处理方法,该方法包括接收用户上传文档;对用户上传文档进行格式判断;在判断到用户上传文档为纯文本格式文档时,存储纯文本格式文档,在判断到用户上传文档为非纯文本格式文档时,将非纯文本格式文档转换预定格式文档,并存储预定格式文档。通过上述方式,可以充分利用纯文本格式文档相传输量小、字体清晰等优点,并且可提升用户的阅读体验。
文档编号G06F17/30GK102004779SQ20101055510
公开日2011年4月6日 申请日期2010年11月19日 优先权日2010年11月19日
发明者孙鹤飞, 陈昌兵 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1