一种智能分析文档的方法及系统与流程

文档序号:12863988阅读:1007来源:国知局
一种智能分析文档的方法及系统与流程

本发明涉及计算机应用技术,尤其涉及一种智能分析文档的方法。



背景技术:

随着科学技术的不断发展,人们从以前的纸质书籍已经慢慢的演变为电子书,随着各种资料、书籍、文档的增加,人们在寻找适合自己需要的文件时,往往会需要花费大量的时间来整理和翻阅,费时费力,效果不佳,这样人们的实际价值将得不到具体的体现。所以,急需要一种方法,来帮助人们提高效率,把整理资料和检索有用信息的事情交给它去做。



技术实现要素:

为解决现有技术中的问题,本发明提供一种智能分析文档的方法,还提供了一种实现所述方法的系统。

本发明方法包括如下步骤:

s1:用户通过客户端上传需要分析的文档及分析条件;

s2:客户端通过四层模型将文档信息封装成比特流的形式,然后通过路由器上传至服务器;

s3:服务器解封装,得到原始文档信息;

s4:服务器通过算法进行数据分析,和大数据分析统计,获取文档的相关信息,并将分析结果存储至数据库;

s5:服务器将获取的分析结果返回给用户。

本发明作进一步改进,步骤s1中,如果为电子文档,所述客户端包括pc电脑、平板、手机,如果为纸质文档,所述客户端还包括扫描仪,所述扫描仪将纸质文档转换为电子文档上传至服务器。

本发明作进一步改进,在步骤s2中,所述四层模型包括应用层、传输层、网络互联层和物理层,所述文档处理方法包括:

s21:在应用层,所述文档信息将文档信息封装为数据段;

s22:在传输层,将所述数据段封装为数据包;

s23:在网络互联层,将数据包封装为数据帧;

s24:在物理层,将数据帧封装为比特流的形式。

本发明作进一步改进,在步骤s4中,所述服务器选用centos操作系统。

本发明作进一步改进,所述服务器采用hadoop作为服务器的的大数据分析平台,用python作为数据分析算法。

本发明作进一步改进,步骤s5中,所述服务器通过短息、邮箱或网页的方式将结果发送给用户,所述分析结果包括该篇文档的情感倾向、主要内容、是否存在敏感内容、该文档的字数、段数、与其他类似文档的相似度、文档的出处。

本发明还提供了一种实现所述方法的系统,包括用户、客户端和服务器,所述用户用于通过客户端上传需要分析的文档及分析条件,并获取服务器返回的分析结果;所述客户端用于通过四层模型将文档信息封装成比特流的形式,然后通过路由器上传至服务器;所述服务器用于对数据解封装,得到原始文档信息,然后通过算法进行数据分析,和大数据分析统计,获取文档的相关信息,并将分析结果存储至数据库,并将获取的分析结果返回给用户。

本发明作进一步改进,所述服务器包括蓝牙模块和wifi模块,用于无线接收用户的文档信息。

本发明作进一步改进,所述服务器与客户端之间的通信协议包括网络通信协议、用户数据报协议和有线等效协议。

与现有技术相比,本发明的有益效果是:数据传输更安全,提高人们工作效率;通过对文档的内容进行分析,根据文档里面出现的关键字、关键语句,来进行内容的分析,从而可以分析出该篇文档的许多信息,用户可以根据自己的需要,来设定自己想要看到的内容,从而进行检索,避免时间浪费在翻阅和整理上。

附图说明

图1为本发明方法流程图;

图2为文档处理流程图;

图3为一实施例方法流程图;

图4为用户收到的分析结果。

具体实施方式

下面结合附图和实施例对本发明做进一步详细说明。

如图1所示,本发明方法包括如下步骤:

s1:用户通过客户端上传需要分析的文档及分析条件;

s2:客户端通过四层模型将文档信息封装成比特流的形式,然后通过路由器上传至服务器;

s3:服务器解封装,得到原始文档信息;

s4:服务器通过算法进行数据分析,和大数据分析统计,获取文档的相关信息,并将分析结果存储至数据库;

s5:服务器将获取的分析结果返回给用户。

其中,步骤s1中,如果为电子文档,所述客户端包括pc电脑、平板、手机,如果为纸质文档,所述客户端还包括扫描仪,所述扫描仪将纸质文档转换为电子文档上传至服务器。用户在客户端上面需要用户填写相关的信息,比如需要勾选检索哪些内容,上传所需要检索的文档,填写用户自己的邮箱地址或者手机号等信息用于获取服务器返回的分析结果。填写完以后,客户端可以向服务器端发送请求,将文档和检索条件发送给服务器。

如图2所示,在步骤s2中,客户端通过将需要进行分析的文档以tcp/ip协议通过层层的封装,以文件流的形式在数据链路层上将数据发送给线上部署的服务器,然后服务器会根据tcp/ip协议将用户发送的流以特定的方式进行解封装。

具体地,本例的四层模型包括应用层、传输层、网络互联层和物理层,所述文档处理方法包括:

s21:在应用层,所述文档信息将文档信息封装为数据段;

s22:在传输层,将所述数据段封装为数据包;

s23:在网络互联层,将数据包封装为数据帧;

s24:在物理层,将数据帧封装为比特流的形式。

在步骤s4中,所述服务器选用centos操作系统。对接收的文档进行分析,服务器会将该文档进行分析处理,处理时间因用户所需要知道的内容而定,然后输出结果文档,结果文档会标明用户所需要的结果和这些结果是根据哪些条件来进行得到的,服务器会根据用户留下的邮箱地址或者手机号,将反馈结果发送给用户,用户等待片刻,就拿到需要的结果,可以大大的提高客户的效率,避免做不必要的事情。

本例服务器采用hadoop作为服务器的的大数据分析平台。使用python的扩展模块做为数据分析的算法。python,是一种面向对象、解释型计算机程序设计语言,python在作为大数据分析领域,有几个重要的扩展模块:numpy、pandas、scipy、matplotlib、ipython等开源的库作为数据分析的算法。其中numpy是python科学计算的基础包,pandas提供了快速便捷地处理结构化数据的大量数据结果和函数,matplotlib提供了用于绘制数据图表的python库,scipy是一组专门解决科学计算中各种标准问题域的包的集合。

在步骤s5中,所述服务器通过短息、邮箱或网页的方式将结果发送给用户,所述分析结果包括该篇文档的情感倾向、主要内容、是否存在敏感内容、该文档的字数、段数、与其他类似文档的相似度、文档的出处。

如图3所示,作为本发明的一个实施例,本例的处理过程为:

用户端:当用户有文档需要分析时,如果没有扫描仪,通过客户端的网络上传至服务器,判断是否成功,如果上传失败,提示用户失败信息,判断是否重新上传,如果是,通过客户端的网络上传至服务器,等待服务器返回分析结果。如果否,不会上传至服务器,结束。

服务器端:如果上传成功,服务器端通过算法对文档进行分析,进行大数据统计,从而得出该文档的情绪色彩等信息,同时将结果存储至数据库,然后将分析结果返回给用户。

用户如果是纸质文档,可以选择另外一种方式进行上传文档,也就是本例的扫描仪,处理方法为:如果有纸质的信息需要进行分析,通过扫描仪将我们的纸质信息进行扫描,扫描成功后,生成电子文档,然后上传,如果上传失败,会提示用户重新上传,直至上传成功。然后服务器端开始进行分析操作。

扫描仪可以扫描纸质文档,本例扫描仪是可以对纸质的书籍或者装订的文档进行翻页扫描,可以对扫描的文件作出设置,设置扫描的页数,同时还能设置自动检索,对于内容较少且需要查看的信息较少的文档,扫描仪会将扫描的结果进行分析,然后将结果同步至个人电脑。同时,个人电脑可以将扫描的文档以tcp/ip(传输控制协议和网际协议)或者udp协议(userdatagramprotocol的简称,中文名是用户数据报协议)的方式发送至服务器,经过服务器的分析和统计,从而得到结果。

如图4所示,为一种返回给用户的结果,比如用户想要分析文档的情感色彩,服务器会统计出情感圆饼图,并将悲伤、愤怒、高兴、失望按照所占的比例分割,然后发送给用户终端,如果用户选择的是短信,则将其转换为文字,发送给用户手机。如果用户选择的是邮箱,则直接将分析结果发送到用户邮箱。

本发明还提供了一种实现所述方法的系统,包括用户、客户端和服务器,所述用户用于通过客户端上传需要分析的文档及分析条件,并获取服务器返回的分析结果;所述客户端用于通过四层模型将文档信息封装成比特流的形式,然后通过路由器上传至服务器;所述服务器用于对数据解封装,得到原始文档信息,然后通过算法进行数据分析,和大数据分析统计,获取文档的相关信息,并将分析结果存储至数据库,并将获取的分析结果返回给用户。

本例服务器包括蓝牙模块和wifi模块,用于无线接收用户的文档信息。所述服务器与客户端之间的通信协议包括网络通信协议、用户数据报协议和有线等效协议。让用户上传的数据能正常的进行传输,同时也能保障数据的安全性。

本发明能够大大提高人们工作效率;通过对文档的内容进行分析,根据文档里面出现的关键字、关键语句,来进行内容的分析,从而可以分析出该篇文档的许多信息,用户可以根据自己的需要,来设定自己想要看到的内容,从而进行检索,避免时间浪费在翻阅和整理上。

以上所述之具体实施方式为本发明的较佳实施方式,并非以此限定本发明的具体实施范围,本发明的范围包括并不限于本具体实施方式,凡依照本发明所作的等效变化均在本发明的保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1