一种基于PC机的支持文本检索的阅报平台的实现方法与流程

文档序号:34672391发布日期:2023-07-05 17:09阅读:18来源:国知局
一种基于PC机的支持文本检索的阅报平台的实现方法与流程

本发明涉及数据处理领域,特别涉及一种基于pc机的支持文本检索的阅报平台的实现方法。


背景技术:

1、随着当前信息技术的发展,互联网中的文本内容数据量快速增长。与此同时,对数据进行快速地检索、分类和信息提取的需求也在不断增加。然而因为计算机发展史和不同技术之间差异等原因,在互联网中传输的文本数据的不同格式之间差异很大,比如html、json、普通文本(txt)、邮件(rfc-5322)和脚本语言等文件都有各自的格式定义,不同的文本格式增加了数据快速检索、分类、信息提取和展示的难度。

2、现有的数据流处理平台,通常仅对某一种数据格式的数据进行处理,或者只支持索引和查询功能,不支持数据解析或展示的功能。比如数据流处理平台flume,支持从数据源获取数据后,通过自定义规则处理数据,将数据写入数据库或其他位置。本身只提供对数据处理的功能,不支持数据查询或展示的功能。或者全文索引平台elasticsearch,支持对不同文本格式文件的索引和查询,本身不支持数据处理和展示功能。

3、在目前的多种数据格式的数据源环境下,需要提供一个统一的平台框架对不同文本格式数据进行检索、分类和展示。


技术实现思路

1、针对目前多种数据格式的数据源环境下,不同的文本格式的数据在同一平台无法检索、分类和信息提取的问题,本发明通过使用数据源平台、数据库、主模块、数据预处理模块、全文索引模块、数据分类模块、数据解析模块、数据查询模块和数据展示模块,实现了一种针对不同文本格式文件的信息检索和分类功能的阅报平台。

2、本发明采取的技术方案是:一种基于pc机的支持文本检索的阅报平台的实现方法,在windows、linux或mac系统下运行,所述阅报平台包括数据源平台、数据库、主模块、预处理模块、数据解析模块、数据分类模块、全文索引模块、数据查询模块和数据展示模块;

3、步骤1,安装数据源平台和数据库,数据源平台为阅报平台提供重复获取源数据、素材、报文的接口,数据库为阅报平台保存源数据的基本信息和处理数据后获取的信息,阅报平台从数据源平台获取数据,数据信息首先经过预处理模块,对源数据的基本信息进行值映射和类型转换,将预处理后的结果保存到数据库;

4、步骤2,预处理后的数据进入数据解析模块,数据解析模块为阅报平台提供解析数据文本的功能接口,根据不同文本格式的类型进行对应的解析,并且将解析后的结果保存到数据库,提供给索引、分类、查询和展示模块处理;

5、步骤3,数据解析后的数据进入数据分类模块,数据分类模块为阅报平台提供将数据文本根据自定义规则进行分类的功能接口,通过调用数据解析模块,对解析结果根据自定义规则进行分类,并且将分类后的结果保存到数据库;

6、步骤4,分类后的数据进入全文索引模块,全文索引模块为阅报平台提供对数据文本生成全文索引和查询索引的功能接口,索引过程中通过调用数据解析模块,对解析结果进行生成索引;

7、步骤5,用户通过主模块调用数据查询模块对信息进行查询,主模块是阅报平台主体程序,为阅报平台提供与用户交互的主窗口,数据查询模块为阅报平台提供通过索引、分类和解析结果进行查询的接口,数据查询模块通过调用数据解析模块、数据分类模块和全文索引模块的接口,或查询数据库中的处理结果,返回符合查询条件的数据信息;

8、步骤6,主模块调用数据展示模块,数据展示模块为阅报平台提供通过索引、分类和解析结果进行信息展示的功能;数据展示模块再调用数据解析模块的接口,或获取数据库中的处理结果,将处理后的数据信息展示到界面;

9、通过以上步骤,不同文本格式的信息经过阅报平台的预处理模块、数据解析模块、数据分类模块、全文索引模块、数据查询模块和数据展示模块的处理,实现了的信息检索、分类和展示的功能。

10、本发明的有益效果是:本发明提供了一种基于pc机的支持文本检索的阅报平台的实现方法,可以对互联网中常见的html、json、普通文本(txt)、邮件(rfc-5322)和脚本语言等文本数据格式数据,进行检索、分类、数据提取、查询和展示,同时也可以展示其他的多媒体格式文件。与现有的技术方案相比,集成了多种数据处理模块和数据展示功能,具备处理多种文本格式文件和可扩展性的优点。

11、阅报平台也支持从数据源获取和展示非文本类型的数据,如图片、视频等。这些数据仅支持基本信息的查询,不支持解析、分类和生成索引等操作。

12、本发明在ubuntu系统下,使用qt框架进行开发,c++作为开发语言,主要是考虑了qt跨平台开发和c++拥有较高性能的特性,可以较轻松地移植到windows/linux/mac等系统。本发明涉及的功能已考虑到可移植性、数据的处理性能、数据格式的可扩展性等。



技术特征:

1.一种基于pc机的支持文本检索的阅报平台的实现方法,在windows、linux或mac系统下运行,其特征在于,所述阅报平台包括数据源平台、数据库、主模块、预处理模块、数据解析模块、数据分类模块、全文索引模块、数据查询模块和数据展示模块;

2.根据权利要求1所述的一种基于pc机的支持文本检索的阅报平台的实现方法,其特征在于:所述的主模块包含配置、查询、分类功能的对话框,负责与用户以及其他处理模块之间进行交互。

3.据权利要求1所述的一种基于pc机的支持文本检索的阅报平台的实现方法,其特征在于:所述的数据查询模块包括基本信息查询、预处理信息查询、解析结果查询、分类结果查询和索引信息查询,实现了一种或者多种条件查询。


技术总结
本发明描述一种基于PC机的支持文本检索的阅报平台的实现方法,属于数据通信的信息处理领域。信息数据分别经过本发明的预处理、解析、分类、索引、查询和展示等多模块的流程处理,提供支持不同文本格式信息检索和分类功能的阅报平台,解决了由于不同文本格式之间差异,造成的难以信息检索的问题,以及缺少一个平台同时支持数据处理、检索和展示的问题。

技术研发人员:孙恺,贾朋朋,贾伟涛,幸娟
受保护的技术使用者:天津光电通信技术有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1