一种基于面向对象语言处理的档案管理方法与流程

文档序号:26991181发布日期:2021-10-19 21:02阅读:102来源:国知局
一种基于面向对象语言处理的档案管理方法与流程

1.本发明涉及数据处理技术领域,尤其涉及一种基于面向对象语言处理的档案管理方法。


背景技术:

2.目前,数据已经渗透到每一个行业和业务领域,庞大的数据资源使得各个领域开始了量化进程。为了在合理的时间内获取、管理、处理、并整理为帮助公司、企业经营和决策的资讯信息,对于描述各种业务场景及其分析思路的数据相关的模型和相关报表的需求层出不穷。
3.当查询需求发生变更时,则需要对相关数据进行重新调整、组包和部署,以便产生一个新的程序代码适用于改变的查询需求。当涉及较大改造并重新生成代码时,会浪费大量的人力成本,并且由于人工修改还可能提高功能隐患出现的风险,可见现有的数据查询处理无法满足不同业务查询请求的快速处理的要求。
4.同时,对于档案的查询,由于档案类型以及档案在用户之间交互的复杂性,导致相关档案的查询存在优先级的先后顺序,但目前存在的多种查询语言的查询性能参差不齐,如果均使用其中的一种查询语言,显然不符合个性化的需求,因此,如何基于用户交互数据和档案属性数据完成档案的查询,是当前数据查询上亟待需要解决的问题。


技术实现要素:

5.针对于上述问题,本发明提供一种基于面向对象语言处理的档案管理方法,其特征在于,包括:
6.获取待处理档案,对待处理档案进行预处理;
7.对预处理后的所述待处理档案进行元数据提取,获取所述待处理档案的用户交互数据;
8.基于所述用户交互数据和所述元数据,选择合适的语言查询平台,将所述待处理档案发送至所述合适的语言查询平台。
9.进一步地,所述获取待处理档案,对待处理档案进行预处理,包括:
10.获取不同档案类型对应的待处理档案;分别对所述待处理档案进行逐条解析,获取预先选择的档案类型对应的待处理档案;
11.对所述预先选择的档案类型对应的待分析档案进行分析,根据预先配置的指标参数获取分析后的档案中的属性指标;
12.对所述属性指标进行统计,并输出统计结果;
13.所述指标参数包括档案管理人员通常关心的指标,根据系统默认的指标参数获取待处理档案中的档案基本指标和交互属性基本指标;
14.其中,档案基本指标包括档案媒体类型、档案数据体量、档案分布式需求;交互属性基本指标包括档案生成时延、http档案下载速率、ftp档案下载速率、下载时长和丢包率。
15.进一步地,所述对预处理后的所述待处理档案进行元数据提取,获取所述待处理档案的用户交互数据,还包括:
16.获取用户的阅读档案和档案修改数据,根据所述阅读档案和所述档案修改数据,生成用户的浏览及修改明细信息,根据所述浏览及修改明细信息,生成所述用户行为的样本数据;
17.对所述用户行为的样本数据进行分类聚合,以得到所述样本数据的特征集;
18.从所述特征集包含的特征字段中选取第一预定数量个特征字段,根据选取出的预定数量个特征字段,从所述特征集中获取第二预定数量的特征数据,基于获取到的所述特征数据,通过逻辑回归算法进行模型训练;
19.从所述用户行为的样本数据中获取在预定时间内进行了浏览但并未修改的样本数据,根据获取到的在所述预定时间内进行了浏览但并未修改的样本数据,获得特征字段的值,根据获得的特征字段的值,调用所述逻辑回归模型进行计算,得到分类后待处理样本。
20.进一步地,所述基于所述用户交互数据和所述元数据,选择合适的语言查询平台,将所述待处理档案发送至所述合适的语言查询平台,还包括:
21.基于所述用户交互数据和所述元数据,确定所述待处理档案的处理优先级;
22.基于所述待处理档案的处理优先级,确定合适的语言查询平台;
23.所述语言查询平台包括sql语言查询平台、hql语言查询平台、mongodb语言查询平台;
24.所述sql语言查询平台采用结构化查询语言,以二维表形式存储和查询数据;
25.所述hql语言查询平台采用分布式结构,hive构建分布式查询语言;
26.所述mongodb采用spring data框架中的pagingandsortingrepository接口实现在分页查询。
27.本发明请求保护的一种基于面向对象语言处理的档案管理方法,面向多查询语言平台,通过获取待处理档案,对待处理档案进行预处理,对预处理后的所述待处理档案进行元数据提取,获取所述待处理档案的用户交互数据,基于所述用户交互数据和所述元数据,选择合适的语言查询平台,将所述待处理档案发送至所述合适的语言查询平台。通过确定所述待处理档案的处理优先级,对档案的查询处理进行个性化需求匹配,以及基于客观条件,即当前资源调度情况结合进行数据查询平台的选取和优先级排序,真正做到满足多查询语言平台的用户需求的查询条件以及符合客观资源情况的查询操作。
附图说明
28.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
29.图1为本发明所涉及的一种基于面向对象语言处理的档案管理方法的工作流程图;
30.图2为本发明所涉及的一种基于面向对象语言处理的档案管理方法的实施例一;
31.图3为本发明所涉及的一种基于面向对象语言处理的档案管理方法的实施例二;
32.图4为本发明所涉及的一种基于面向对象语言处理的档案管理方法的实施例三。
具体实施方式
33.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
34.本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
35.参照附图1,本发明提供一种基于面向对象语言处理的档案管理方法,其特征在于,包括:
36.获取待处理档案,对待处理档案进行预处理;
37.对预处理后的所述待处理档案进行元数据提取,获取所述待处理档案的用户交互数据;
38.基于所述用户交互数据和所述元数据,选择合适的语言查询平台,将所述待处理档案发送至所述合适的语言查询平台。
39.进一步地,参照附图2,本发明所涉及的一种基于面向对象语言处理的档案管理方法的实施例一,所述获取待处理档案,对待处理档案进行预处理,包括:
40.获取不同档案类型对应的待处理档案;分别对所述待处理档案进行逐条解析,获取预先选择的档案类型对应的待处理档案;
41.对所述预先选择的档案类型对应的待分析档案进行分析,根据预先配置的指标参数获取分析后的档案中的属性指标;
42.对所述属性指标进行统计,并输出统计结果;
43.所述指标参数包括档案管理人员通常关心的指标,根据系统默认的指标参数获取待处理档案中的档案基本指标和交互属性基本指标;
44.其中,档案基本指标包括档案媒体类型、档案数据体量、档案分布式需求;交互属性基本指标包括档案生成时延、http档案下载速率、ftp档案下载速率、下载时长和丢包率。
45.具体的所述媒体类型包括图像档案、视频档案、音频档案、文本档案;
46.所述档案数据体量包括小文件少数量、小文件多数量、大文件少数量、大文件多数量;所述小文件和大文件以10mb为准,少数量和多数量以100个为准,并可根据实际需要调节小文件和大文件、少数量和多数量的边界值。
47.所述档案分布式需求包括需要分布式访问不需要分布式存储、需要分布式访问需要分布式存储、不需要分布式访问需要分布式存储、不需要分布式访问不需要分布式存储。
48.本方案中对所述档案基本指标和交互属性基本指标设置权重值,其中对所述档案基本指标的各项均设置一权重值,对交互属性基本指标设置一综合权重值,具体的数值大小可根据实际需要设置,整体需求遵守如下规则:
49.所述文本档案、图像档案、音频档案、视频档案的权重值从左到右依次降低;
50.所述小文件少数量、小文件多数量、大文件少数量、大文件多数量的权重值从左到右依次降低;
51.所述不需要分布式访问不需要分布式存储、需要分布式访问不需要分布式存储、不需要分布式访问需要分布式存储、需要分布式访问需要分布式存储的权重值从左到右依次降低;
52.所述档案生成时延、http档案下载速率、ftp档案下载速率、下载时长和丢包率的数值越长或越大则,权重值越低;
53.整体的,基于所述档案基本指标和交互属性基本指标的权重值和的从高到低,获取所述待处理档案的初步优先级,所述初步优先级为初步优先级1,初步优先级2,初步优先级3。
54.进一步地,参照附图3,本发明所涉及的一种基于面向对象语言处理的档案管理方法的实施例二,所述对预处理后的所述待处理档案进行元数据提取,获取所述待处理档案的用户交互数据,还包括:
55.获取用户的阅读档案和档案修改数据,根据所述阅读档案和所述档案修改数据,生成用户的浏览及修改明细信息,根据所述浏览及修改明细信息,生成所述用户行为的样本数据;
56.对所述用户行为的样本数据进行分类聚合,以得到所述样本数据的特征集;
57.从所述特征集包含的特征字段中选取第一预定数量个特征字段,根据选取出的预定数量个特征字段,从所述特征集中获取第二预定数量的特征数据,基于获取到的所述特征数据,通过逻辑回归算法进行模型训练;
58.从所述用户行为的样本数据中获取在预定时间内进行了浏览但并未修改的样本数据,根据获取到的在所述预定时间内进行了浏览但并未修改的样本数据,获得特征字段的值,根据获得的特征字段的值,调用所述逻辑回归模型进行计算,得到分类后待处理样本。
59.所述分类后待处理样本基于用户行为的样本数据获得,并为其赋予预设权重值,获取次级优先级,所述次级优先级按权重值从高到低分为次级优先级1,次级优先级2,次级优先级3;
60.进一步地,参照附图4,本发明所涉及的一种基于面向对象语言处理的档案管理方法的实施例三,所述基于所述用户交互数据和所述元数据,选择合适的语言查询平台,将所述待处理档案发送至所述合适的语言查询平台,还包括:
61.基于所述用户交互数据和所述元数据,确定所述待处理档案的处理优先级;
62.基于所述待处理档案的处理优先级,确定合适的语言查询平台;
63.所述语言查询平台包括sql语言查询平台、hql语言查询平台、mongodb语言查询平台;
64.所述sql语言查询平台采用结构化查询语言,以二维表形式存储和查询数据;
65.所述hql语言查询平台采用分布式结构,hive构建分布式查询语言;
66.所述mongodb采用spring data框架中的pagingandsortingrepository接口实现在分页查询。
67.具体的,所述sql查询语言面向关系型数据库,采用二维表的形式对数据进行存储,并进行相关数据的查询。
68.所述hql由hive定义了类似sql查询语言的语法,将hql语句转换为mapreduce任务进行运行。同时,hive也支持用户插入他们自己编写的mapreduce程序来实现hql不支持的复杂操作;编译器将hql转换成一组操作符,操作符是hive的最小处理单元,每个操作符处理代表一道hdfs操作或mapreduce作业。hive通过运行hql语句,最终转化为mapreduce任务来分析处理数据。
69.所述mongodb是一个基于分布式文件存储的数据库。由c++语言编写。旨在为web应用提供可扩展的高性能数据存储解决方案。mongodb是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。mongo最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。使用mongodb作为归档的数据库之一,同时保留数据在mysql中的存储。如此,一方面可以利用mongodb作为一种扩展的存储方案,以便于在归档过程建立索引,方便对已归档数据的查询,并且有利于已归档数据字段的自主扩展。
70.进一步地,基于获取的所述初步优先级和次级优先级,获取所述待处理档案的综合处理优先级,当所述初步优先级为初步优先级1且次级优先级为1时,所述综合优先级为1;当所述初步优先级为初步优先级1且次级优先级为2或3时,所述综合优先级为2;当所述初步优先级为初步优先级2,且次级优先级为1时,所述综合优先级为3;当所述初步优先级为初步优先级2且次级优先级为2或3时,所述综合优先级为4;当所述初步优先级为初步优先级3,且次级优先级为1时,所述综合优先级为5;当所述初步优先级为初步优先级3,且次级优先级为2或3时,所述综合优先级为6。
71.当所述综合优先级为1时,所述确定合适的语言查询平台顺序为
72.sql语言查询平台、hql语言查询平台、mongodb语言查询平台;
73.当所述综合优先级为2时,所述确定合适的语言查询平台顺序为
74.sql语言查询平台、mongodb语言查询平台、hql语言查询平台、;
75.当所述综合优先级为3时,所述确定合适的语言查询平台顺序为
76.hql语言查询平台、sql语言查询平台、mongodb语言查询平台;
77.当所述综合优先级为4时,所述确定合适的语言查询平台顺序为
78.hql语言查询平台、mongodb语言查询平台、sql语言查询平台;
79.当所述综合优先级为5时,所述确定合适的语言查询平台顺序为
80.mongodb语言查询平台、sql语言查询平台、hql语言查询平台;
81.当所述综合优先级为6时,所述确定合适的语言查询平台顺序为
82.mongodb语言查询平台、hql语言查询平台、sql语言查询平台;
83.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
84.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1