用于企业的私有化部署数据处理方法与流程

文档序号:20013195发布日期:2020-02-22 12:00阅读:1172来源:国知局
用于企业的私有化部署数据处理方法与流程

本发明涉及数据标注处理技术领域,尤其涉及用于企业的私有化部署数据处理方法。



背景技术:

现有的标注平台,可以快速地对客户的数据进行定制化的清洗和处理,为人工智能应用快速提供所需的训练数据,但部分企业数据涉及国家机密或客户隐私,不能放入云端进行数据处理,企业内部的人工智能应用使用的数据,可能是具有敏感性的含有企业机密或者个人隐私的非公开数据,为了安全性考虑,这些数据不能流转到互联网上进行处理;客户自建标注平台不仅费时费力。

为适应企业定制化ai数据处理需求,提供用于企业的私有化部署数据处理方法。传统的人工智能数据生产过程,是人工标注然后再训练;缺乏人工智慧的再次反馈和纠错。



技术实现要素:

本发明的目的在于提供用于企业的私有化部署数据处理方法;本发明企业内部人员通过内网发送企业的私有数据至企业私有云,提高对企业数据的私密保护,通过智能工具模块基于人在回路的增量式数据辅助标注技术对待标注任务进行标注,智能工具模块将无法标注的待标注任务发送至标注分配模块;采用人工标注与智能工具标注的迭代交互式的生产过程,来提高效率;通过对待标注任务的排序,根据标注员的标注权限值合理的分配到对应的标注员,从而进行更好的标注。

本发明所要解决的技术问题为:

(1)如何通过对私有数据利用内网进行传输处理,通过智能工具进行智能标注,并将无法标注的私有数据进行排序计算,合理的分配到对应的标注员进行标注;解决了现有技术不能对企业私有数据进行私密性保护以及全部采用人工标注效率低和不能对数据合理分配的问题;

本发明的目的可以通过以下技术方案实现:用于企业的私有化部署数据处理方法,包括以下步骤:

s1:通过用户登录模块对用户和用户角色进行身份校验并将身份校验通过的用户与服务器建立通信连接;

s2:企业内部人员通过内网发送企业的私有数据以及私有数据对应的等级在企业私有云内进行存储;

s3:通过标注任务模块对私有数据进行任务创建,将创建的待标注任务绑定数据发送至智能工具模块进行处理,智能工具模块基于人在回路的增量式数据辅助标注技术对待标注任务进行标注,智能工具模块将无法标注的待标注任务发送至标注分配模块;

s4:标注分配模块将私有数据分配至对应的标注员电脑终端上,通过模板配置模块对不同的待标注任务进行区分配置,标注员在电脑终端上通过标注工具对待标注任务进行标注;

s5:标注员将标注好的待标注任务发送至智能工具模块,通过结果导出模块将标注结果导出到本地。

优选的,s1中所述的用户角色包括企业内部人员、管理员和普通人员;其中,管理员包括授权管理员和机构管理员,授权管理员用于对系统进行管理,管理包含用户角色的授权、数据管理、用户管理、项目管理和任务管理;机构管理员对机构的人员、项目、任务、数据进行统筹管理;普通人员包括标注员、质检员和验收员;标注员用于对标注数据进行加工标注;质检员用于对标注的数据进行质量检查;验收员对标注的数据进行验收。

优选的,s3中所述的标注任务模块用于通过服务器获取企业私有云内私有数据以及私有数据对应的等级进行任务创建,将需要标注的私有数据标记为待标注任务;创建好任务后,需要给该待标注任务绑定数据,任务绑定数据支持按照数据集下的批次绑定和索引绑定,绑定数据后,标注任务模块将待标注任务发送至标注分配模块;所述标注分配模块用于将私有数据分配至对应的标注员电脑终端上,具体分配步骤如下:

步骤一:设定待标注任务记为dji,j=1、2、3、4;i=1……n;d1i、d2i、d3i、d4i依次表示为语音、图片、视频和文本;设定待标注任务等级记为gdji;待标注任务对应的文件大小为kdji;

步骤二:设定待标注任务对应的积分值标记为cj,j=1、2、3、4;且c4>c2>c3>c1;

步骤三:利用公式获取得到待标注任务的排序值pdji;其中λ为修正因子,取值为1.2;v1、v2和v3均为预设比例系数固定值;

步骤四:待标注任务进行依照排序值进行分类,设定分类区间记为a1、a2、a3和a4,且a1、a2、a3和a4的取值区间依次减小;当待标注任务排序值在分类区间a1内,则将该待标注任务标记为第一私有数据;当待标注任务排序值在分类区间a2内,则将该待标注任务标记为第二私有数据;当待标注任务排序值在分类区间a3内,则将该待标注任务标记为第三私有数据;当待标注任务排序值在分类区间a4内,则将该待标注任务标记为第四私有数据;

步骤五:统计所有第一私有数据、第二私有数据、第三私有数据和第四私有数据;分别构成第一私有数据集合、第二私有数据集合、第三私有数据集合和第四私有数据集合;

步骤六:根据标注员的标注权限值将标注员划分为第一标注员、第二标注员、第三标注员和第四标注员;第一标注员用于对第一私有数据进行标注,第二标注员用于对第二私有数据进行标注;第三标注员用于对第三私有数据进行标注,第四标注员用于对第四私有数据进行标注;

步骤七:统计第一标注员的所有人数记为r1,同时将第一标注员依照标注权限值由大到小进行排序;统计第一私有数据集合中第一私有数据的数量记为r2;利用公式r3=r2/r1获取得到第一标注员的标注数量r3,当不能整除时,r3的取值为商直接加上数值一;

步骤八:将第一私有数据集合中的第一私有数据依照排序值由大到小进行排序,将排序值靠前的r3个第一私有数据分配至标注权限值最大的第一标注员的电脑终端上,依次类推;同理,第二私有数据集合、第三私有数据集合和第四私有数据集合依照上述进行分配到对应标注员的电脑终端上;第一标注员、第二标注员、第三标注员和第四标注员通过标注工具对对应的第一私有数据、第二私有数据、第三私有数据和第四私有数据进行标注。

优选的,s4中所述的标注工具包括图像类标注工具、语音类标注工具、文本类标注工具和视频类标注工具;其中,图像类标注工具包括目标检测、图片分类、实例分割、语义分割和人脸分割;语音类标注工具包括单段落、多段落、调节语音播放速度、语音波形缩放和语谱图切换;文本类标注工具包括实体标注、意图标注和分词标注;视频类标注工具包括抽帧后的图片标注、主体属性的标记和行踪轨迹追踪;第一标注员、第二标注员、第三标注员和第四标注员将标注好的私有数据发送至质检员的电脑终端上进行质量检查,当质检员对标注好的私有数据进行抽查,当抽查的私有数据标注合格,则质检员将私有标注好的私有数据发送至验收员的电脑终端上;当抽查的私有数据标注不合格,则发送至对应的标注员电脑终端上进行再次标注,同时该标注员的标注错误总次数增加一次;验收员将验收的私有数据发送至服务器内进行存储。

优选的,s4中所述的模板配置模块用于对不同的待标注任务进行区分配置,通过框标注模板对不同的待标注任务进行分配属性配置来配置出不同的标注工具;框标注模板包括人脸框标注工具、汽车框标注工具。

优选的,步骤六中所述的标注权限值通过权限计算模块进行计算,具体计算步骤如下:

ss1:设定标注员记为wi,i=1、……、n;标注员为机构内部标注工程师或企业内部人员;设定标注员的标注私有数据的数量记为mwi;标注员的标注错误总次数标记为cwi;

ss2:利用公式qwi=mwi*zk1-cwi*zk2获取得到标注员的标注权限值qwi;其中zk1和zk2为预设比例系数;k=1、2;z11、z12表示为机构内部标注工程师标注私有数据的数量的预设比例系数和标注错误总次数的系数;z21、z22表示为企业内部人员标注私有数据的数量的预设比例系数和标注错误总次数的系数;

ss3:依次由大到小设置第一阈值、第二阈值、第三阈值;当标注员的标注权限值大于或等于第一阈值,则将该标注员标记为第一标注员;当标注员的标注权限值小于第一阈值且大于或等于第二阈值,则将该标注员标记为第二标注员;当标注员的标注权限值小于第二阈值且大于或等于第三阈值,则将该标注员标记为第三标注员;当标注员的标注权限值小于第四阈值,则将该标注员标记为第四标注员。

优选的,所述结果导出模块用于用户在线将该待标注任务的标注结果导出到本地,导出包括手工导出或通过openapi导出。

本发明的有益效果:

(1)企业内部人员通过内网发送企业的私有数据至企业私有云,提高对企业数据的私密保护,通过智能工具模块基于人在回路的增量式数据辅助标注技术对待标注任务进行标注,智能工具模块将无法标注的待标注任务发送至标注分配模块;采用人工标注与智能工具标注的迭代交互式的生产过程,来提高效率;通过标注任务模块用于通过服务器获取企业私有云内私有数据以及私有数据对应的等级进行任务创建,标注任务模块将待标注任务发送至标注分配模块;标注分配模块用于将私有数据分配至对应的标注员电脑终端上;利用公式获取得到待标注任务的排序值;待标注任务进行依照排序值进行分类,统计所有第一私有数据、第二私有数据、第三私有数据和第四私有数据;分别构成第一私有数据集合、第二私有数据集合、第三私有数据集合和第四私有数据集合;将第一私有数据集合中的第一私有数据依照排序值由大到小进行排序,将排序值靠前的r3个第一私有数据分配至标注权限值最大的第一标注员的电脑终端上,依次类推;通过对待标注任务的排序,根据标注员的标注权限值合理的分配到对应的标注员,从而进行更好的标注。

附图说明

下面结合附图对本发明作进一步的说明。

图1是本发明用于企业的私有化部署数据处理方法的原理框图;

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

请参阅图1所示,本发明为用于企业的私有化部署数据处理方法,该处理方法包括以下步骤:

s1:通过用户登录模块对用户和用户角色进行身份校验并将身份校验通过的用户与服务器建立通信连接;用户角色包括企业内部人员、管理员和普通人员;其中,管理员包括授权管理员和机构管理员,授权管理员用于对系统进行管理,管理包含用户角色的授权、数据管理、用户管理、项目管理和任务管理;机构管理员对机构的人员、项目、任务、数据进行统筹管理;普通人员包括标注员、质检员和验收员;标注员用于对标注数据进行加工标注;质检员用于对标注的数据进行质量检查;验收员对标注的数据进行验收;

s2:企业内部人员通过内网发送企业的私有数据以及私有数据对应的等级在企业私有云内进行存储;

s3:通过标注任务模块对私有数据进行任务创建,将创建的待标注任务绑定数据发送至智能工具模块进行处理,智能工具模块基于人在回路的增量式数据辅助标注技术对待标注任务进行标注,智能工具模块处理包括数据采集、数据处理和标注;数据采集包括网络爬虫、摄像头采集、麦克风阵列采集、相机/手机采集等;数据处理包括转码、分割、抽帧、脱敏、格式标准化、数据合并、格式转换;标注包括语音、图像、视频、文本和3d点云;智能工具模块将无法标注的待标注任务发送至标注分配模块;标注任务模块用于通过服务器获取企业私有云内私有数据以及私有数据对应的等级进行任务创建,将需要标注的私有数据标记为待标注任务;创建好任务后,需要给该待标注任务绑定数据,任务绑定数据支持按照数据集下的批次绑定和索引绑定,绑定数据后,标注任务模块将待标注任务发送至标注分配模块;标注分配模块用于将私有数据分配至对应的标注员电脑终端上,具体分配步骤如下:

步骤一:设定待标注任务记为dji,j=1、2、3、4;i=1……n;d1i、d2i、d3i、d4i依次表示为语音、图片、视频和文本;设定待标注任务等级记为gdji;待标注任务对应的文件大小为kdji;

步骤二:设定待标注任务对应的积分值标记为cj,j=1、2、3、4;且c4>c2>c3>c1;

步骤三:利用公式获取得到待标注任务的排序值pdji;其中λ为修正因子,取值为1.2;v1、v2和v3均为预设比例系数固定值;

步骤四:待标注任务进行依照排序值进行分类,设定分类区间记为a1、a2、a3和a4,且a1、a2、a3和a4的取值区间依次减小;当待标注任务排序值在分类区间a1内,则将该待标注任务标记为第一私有数据;当待标注任务排序值在分类区间a2内,则将该待标注任务标记为第二私有数据;当待标注任务排序值在分类区间a3内,则将该待标注任务标记为第三私有数据;当待标注任务排序值在分类区间a4内,则将该待标注任务标记为第四私有数据;

步骤五:统计所有第一私有数据、第二私有数据、第三私有数据和第四私有数据;分别构成第一私有数据集合、第二私有数据集合、第三私有数据集合和第四私有数据集合;

步骤六:根据标注员的标注权限值将标注员划分为第一标注员、第二标注员、第三标注员和第四标注员;第一标注员用于对第一私有数据进行标注,第二标注员用于对第二私有数据进行标注;第三标注员用于对第三私有数据进行标注,第四标注员用于对第四私有数据进行标注;标注权限值通过权限计算模块进行计算,具体计算步骤如下:

ss1:设定标注员记为wi,i=1、……、n;标注员为机构内部标注工程师或企业内部人员;设定标注员的标注私有数据的数量记为mwi;标注员的标注错误总次数标记为cwi;

ss2:利用公式qwi=mwi*zk1-cwi*zk2获取得到标注员的标注权限值qwi;其中zk1和zk2为预设比例系数;k=1、2;z11、z12表示为机构内部标注工程师标注私有数据的数量的预设比例系数和标注错误总次数的系数;z21、z22表示为企业内部人员标注私有数据的数量的预设比例系数和标注错误总次数的系数;

ss3:依次由大到小设置第一阈值、第二阈值、第三阈值;当标注员的标注权限值大于或等于第一阈值,则将该标注员标记为第一标注员;当标注员的标注权限值小于第一阈值且大于或等于第二阈值,则将该标注员标记为第二标注员;当标注员的标注权限值小于第二阈值且大于或等于第三阈值,则将该标注员标记为第三标注员;当标注员的标注权限值小于第四阈值,则将该标注员标记为第四标注员;

步骤七:统计第一标注员的所有人数记为r1,同时将第一标注员依照标注权限值由大到小进行排序;统计第一私有数据集合中第一私有数据的数量记为r2;利用公式r3=r2/r1获取得到第一标注员的标注数量r3,当不能整除时,r3的取值为商直接加上数值一;

步骤八:将第一私有数据集合中的第一私有数据依照排序值由大到小进行排序,将排序值靠前的r3个第一私有数据分配至标注权限值最大的第一标注员的电脑终端上,依次类推;同理,第二私有数据集合、第三私有数据集合和第四私有数据集合依照上述进行分配到对应标注员的电脑终端上;第一标注员、第二标注员、第三标注员和第四标注员通过标注工具对对应的第一私有数据、第二私有数据、第三私有数据和第四私有数据进行标注;模板配置模块用于对不同的待标注任务进行区分配置,通过框标注模板对不同的待标注任务进行分配属性配置来配置出不同的标注工具;框标注模板包括人脸框标注工具、汽车框标注工具;通过框标注模板,对不同的标注物进行分别属性配置来配置出不同的工具;例如:人脸框标注工具:设置性别(男、女)、类别(婴幼儿、成人、老人)、肤色(黄种人、白种人、黑种人)等属性;汽车框标注工具:可以设置颜色(蓝、红、白)、种类(卡车、公交车、越野车、轿车)等属性;标注工具按照是否支持自定义标签配置,可以划分为可配置模板和定制模板;可配置模板包括语音标注模板和图片标注模板,主要包括:单段落语音模板、多段落语音模板、点标注模板、矩形框标注模板和多边形标注模板;在可配置模板无法满足标注需求的情况下,提供的一种为企业特定标注领域特定需求的定制化模板;提供的定制化模板包括:多段落语音标注模板、语义理解文本标注模板;支持语音、文本、图像、视频的模板定制工作;

s4:标注分配模块将私有数据分配至对应的标注员电脑终端上,通过模板配置模块对不同的待标注任务进行区分配置,标注员在电脑终端上通过标注工具对待标注任务进行标注;标注工具包括图像类标注工具、语音类标注工具、文本类标注工具和视频类标注工具;其中,图像类标注工具包括目标检测、图片分类、实例分割、语义分割和人脸分割;语音类标注工具包括单段落、多段落、调节语音播放速度、语音波形缩放和语谱图切换;文本类标注工具包括实体标注、意图标注和分词标注;视频类标注工具包括抽帧后的图片标注、主体属性的标记和行踪轨迹追踪;第一标注员、第二标注员、第三标注员和第四标注员将标注好的私有数据发送至质检员的电脑终端上进行质量检查,当质检员对标注好的私有数据进行抽查,当抽查的私有数据标注合格,则质检员将私有标注好的私有数据发送至验收员的电脑终端上;当抽查的私有数据标注不合格,则发送至对应的标注员电脑终端上进行再次标注,同时该标注员的标注错误总次数增加一次;验收员将验收的私有数据发送至服务器内进行存储;

s5:标注员将标注好的待标注任务发送至智能工具模块,通过结果导出模块将标注结果导出到本地;结果导出模块用于用户在线将该待标注任务的标注结果导出到本地,导出包括手工导出或通过openapi导出。

本发明的工作原理:企业内部人员通过内网发送企业的私有数据至企业私有云,提高对企业数据的私密保护,通过智能工具模块基于人在回路的增量式数据辅助标注技术对待标注任务进行标注,智能工具模块将无法标注的待标注任务发送至标注分配模块;采用人工标注与智能工具标注的迭代交互式的生产过程,来提高效率;通过标注任务模块用于通过服务器获取企业私有云内私有数据以及私有数据对应的等级进行任务创建,标注任务模块将待标注任务发送至标注分配模块;标注分配模块用于将私有数据分配至对应的标注员电脑终端上;利用公式获取得到待标注任务的排序值pdji;待标注任务进行依照排序值进行分类,统计所有第一私有数据、第二私有数据、第三私有数据和第四私有数据;分别构成第一私有数据集合、第二私有数据集合、第三私有数据集合和第四私有数据集合;将第一私有数据集合中的第一私有数据依照排序值由大到小进行排序,将排序值靠前的r3个第一私有数据分配至标注权限值最大的第一标注员的电脑终端上,依次类推;通过对待标注任务的排序,根据标注员的标注权限值合理的分配到对应的标注员,从而进行更好的标注。

以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1