一种稿件数据分类的方法

文档序号:9489480阅读:794来源:国知局
一种稿件数据分类的方法
【技术领域】
[0001] 本发明涉及计算机翻译领域,特别是指一种稿件数据分类的方法。
【背景技术】
[0002] 随着全球联系越来越紧密,各语种信息之间的转换需求也越来越大,面对海量的 多语信息转换和翻译任务,通常采用任务平均分配和流水作业方法的小规模翻译模式,效 率低无法利用信息化平台进行自动化的高效处理,无法满足即时、海量的翻译需求。随着信 息技术的发展,基于云计算和互联网技术的的多任务分布式的云翻译平台,成为翻译行业 走向信息化、标准化、产业化的重要工作平台。
[0003] 待处理稿件进入云翻译平台后,首先会对其进行初步的预分类,即将其中一些时 间紧急、翻译难度大或翻译流程复杂的待处理稿件标记为可能需人工干预的风险稿件,以 便人工监控,并在适当时间将此类稿件转入人工辅助处理流程。以往为了区分出此类稿件, 一般是通过人工对稿件进行预览,判断稿件难度、预估翻译时间和确定翻译流程。这种方法 虽然分类准确度较高,但对于速度要求高于准确度要求的稿件预分类而言,该方法不能满 足平台快速处理的稿件需求,无法实现平台的高吞吐率,同时所需的人力耗费非常巨大。

【发明内容】

[0004] 有鉴于此,本发明在于提供一种稿件数据分类的方法,以解决上述人工区分稿件 的类型,效率低下的问题。
[0005] 为解决上述问题,本发明提供一种稿件数据分类的方法,包括:
[0006] 根据手动分类后的历史稿件数据,确定感知机分类模型中的系数;
[0007] 提取待分类的稿件数据的输入空间的信息,代入所述分类模型中,并根据所述模 型和系数得到对应分类的值;
[0008] 根据所述分类的值判别所述待分类的稿件数据的类别。
[0009] 优选地,根据所述历史稿件数据中的以下输入空间、输出空间的各维度信息确定 所述系数;
[0010] y:该稿件是否为人工干预过的稿件,是:y= 1,否:y= -1 ;
[0011] X维度的至少包括以下之一:
[0012] X1:稿件被浏览次数;
[0013]X2:稿件领取后被放弃次数;
[0014]X3:稿件被标注次数;
[0015] \:稿件每百字术语个数;
[0016]X5:稿件紧急度。
[0017] 优选地,所述感知机模型包括:
[0018]f(x) =sign(WX+b)所述系数为:W,b。
[0019] 优选地,通过感知机模型确定所述系数之前,还包括:消除错误类别对应的数据。
[0020] 优选地,通过感知机模型确定所述系数的过程中,还包括:设定学习率系数α。
[0021] 优选地,确所述系数过程中,还包括:
[0022] 如果历史数据中存在(XyYJ,使得Yi(WXfb)彡0,
[0023] 贝lj:采用以下公式更新W、b;
[0024] ff^ff+αΥχΧχ
[0025] b-b+α丫丄
[0026] 直到历史数据中所有样本,对于更新后的(W,b)都有Yi(WXjb) > 0 ;
[0027] f(x) =sign(WX+b)所述系数为:W,b;其中i为输入空间、输出空间中的X、Y的序 号;sign为符号函数。
[0028] 本发明的方法,通过上述的流程,可有效将稿件数据区分为两类,提高了工作效 率。该方法能满足平台快速处理的稿件需求,实现平台的高吞吐率,同时提高了的稿件的分 类效率。
【附图说明】
[0029] 图1是实施例的流程图。
【具体实施方式】
[0030] 为清楚说明本发明中的方案,下面给出优选的实施例并结合附图详细说明。
[0031] 下面结合附图详细说明本发明的实施例,参加图1,具体包括:
[0032] S11根据手动分类后的历史稿件数据,确定感知机分类模型中的系数;
[0033] S12提取待分类的稿件数据的输入空间信息,代入所述分类模型中,并根据所述模 型和系数得到对应分类的值;
[0034] S13根据所述分类的值判别所述待分类的稿件数据的类别。
[0035] 本发明的方法,可实现数据的快速分类,且准确度高,减少人为的干扰,分类效率 极大的提尚。
[0036] 实施例中的感知机模型的系数包括输入空间、输出空间和分类超平面等,
[0037] 输入空间:X= {X!,X2,X3,X4,XJ;
[0038] 输出空间:Y= {1,-1};
[0039] 分类超平面:F(x) =sign(WX+b);即为确定W和b的值,其中sign(x)为符号函数 sign,当X彡 0,sign(X)= 1,否贝丨Jsign(x) = _1 ;
[0040] 输入:训练数据集输入:训练数据集T={(XpYJ,(X2,Y2),…,(Xn,Yn)},其中η 为训练集大小,即为清洗好的历史稿件数,X#X,YY(i= 1,2,…,η)。
[0041] 采用感知机模型f(χ) =sign(WX+b)输出:W,b。
[0042] w、b计算过程:
[0043] 1)为W、b选取初值W。,b。;
[0044] 2)确定学习率α(〇 <α彡1);
[0045] 3)若训练集Τ中存在(ΧρYJ,使得Yi(WXjb)彡0,则:
[0046] ff^ff+αΥχΧχ
[0047] b-b+α丫丄
[0048] 4)直到T中所有样本,对于新的(W,b)都有Yi(WXjb) > 0,否则转3)。
[0049] 例如,以实施例中的只有5个历史稿件数据的集合进行示例;
[0050]
[0051 ] 其中,输入空间X,输出空间Y的数据包括:
[0052] y:该稿件是否为人工干预过的稿件,是:y= 1,否:y= -1 ;
[0053] X维度的系数至少包括以下之一:
[0054] X1:稿件被浏览次数;
[0055] X2:稿件领取后被放弃次数;
[0056] X3:稿件被标注次数;
[0057] \:稿件每百字术语个数;
[0058] X5:稿件紧急度。
[0059] 首先,通过人工判断,消除错误数据,例如:历史稿件5其X类数据和Y值明显冲 突,明显不属于,予以剔除,得到如下训练集:
[0060]
[0061] 得到训练集T:
[0062] Χ1= (6,2,4,7,1),Υ!= 1
[0063] Χ2= (8,1,3,9,1· 5),Υ2= 1
[0064] Χ3= (1,0,1,2,3),Υ3=-1
[0065] Χ4= (2,0,3,1,3),Υ4=-1
[0066] 采用前述的感知机算法,确立一个对于上述训练集的分类平面:
[0067] 学习率α取值为1 ;确定学习率α(〇 <α彡1);
[0068] W,b的初值取为:W= (0,0,0,0,0),b= 0
[0069] 对于W= (0,0,0,0,0),b= 0,4个样本数据中,存在有历史稿件tlAjWXi+b)= 〇 < 〇,更新W和b如下:
[0070] W=(0,0,0,0,0)+¥&= (0,0,0,0,0) + (6,2,4,7,1) = (6,2,4,7,1)
[0071] b= 0+Yi= 1
[0072] 对于W= (6,2,4,7,1),b= 1,4个样本数据中,有历史稿件t3 :Y3(WX3+b) =-28 < 0,更新W和b如下:
[0073] W= (6,2,4,7,1)+Y3X3= (6,2,4,7,1) + (-1) (1,0,1,2,3) = (5,2,3,5,-2)
[0074] b= 1+Y3= 1+(-1) = 0
[0075] 对于W= (5,2,3,5, -2),b= 0,4个样本数据中,有历史稿件t3 :Y3(WX3+b) =-12 < 0,更新W和b如下:
[0076] W= (5,2,3,5,-2)+Y3X3= (5,2,3,5,-2) + (-1) (1,0,1,2,3) = (4,2,2,3,-5)
[0077] b= 1+Y3= 0+(-1) = -1
[0078] 对于W= (4,2,2,3, -5),b= -1,4 个样本数据中,有历史稿件t4 :Y4(WX4+b) =-1 < 0,更新W和b如下:
[0079] W= (4,2,2,3,-5)+Y4X4= (4,2,2,3,-5) + (-1) (2,0,3,1,3)
[0080] =(2,2, _1,2,-8)
[0081]b= -1+Y4= -1+(-1) = -2
[0082] 对于W= (2, 2, -1,2, -8),b= -2,历史稿件tl~t4 都满足Yi(WXjb) > 0
[0083] 得到的一个对于该训练集的分类平面为:
[0084] f(x) =sign(2X1+2X2-X3+2X4-8X5-2)
[0085] 采用上述得到的分类平面,对于平台上的新稿件,提取输入空间的系数,代入模 型,得到分类结果。确定出稿件的类型。
[0086] 例如:
[0087] 若某稿件数据如下:
[0088] 稿件被浏览次数:4
[0089] 稿件领取后被放弃次数:0
[0090] 稿件被标注次数:4
[0091] 稿件每百字术语个数:2
[0092] 稿件紧急度:3
[0093] f(x) =sign(2X1+2X2-X3+2X4-8X5-2)
[0094] =sign(8+0-3+4-16-2) =sign(-9) = -1
[0095] 将该稿件归类为自动处理类稿件。
[0096] 如果为1,则归类为需要人工干预的稿件。
[0097] 上述的稿件的类型可以用多种数值建立对应关系,并不限于上述方案中所提到的 两种类型的稿件。该方法能满足平台快速处理的稿件需求,实现平台的高吞吐率,同时提高 了的稿件的分类效率。
[0098] 对于本发明各个实施例中所阐述的方案,凡在本发明的精神和原则之内,所作的 任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种稿件数据分类的方法,其特征在于,包括: 根据手动分类后的历史稿件数据,确定感知机分类模型中的系数; 提取待分类的稿件数据的输入空间的维度信息,代入所述分类模型中,并根据所述模 型和系数得到对应分类的值; 根据所述分类的值判别所述待分类的稿件数据的类别。2. 根据权利要求1所述的方法,其特征在于,根据所述历史稿件数据中的以下输入空 间、输出空间的各维度信息确定所述系数; y :该稿件是否为人工干预过的稿件,是:y = 1,否:y = -1 ; X维度的至少包括以下之一: X1:稿件被浏览次数; X2:稿件领取后被放弃次数; X3:稿件被标注次数; \:稿件每百字术语个数; X5:稿件紧急度。3. 根据权利要求2所述的方法,其特征在于,所述感知机模型包括: f (X)= sign (WX+b)所述系数为:W,b。4. 根据权利要求2所述的方法,其特征在于,通过感知机模型确定所述系数之前,还包 括:消除错误类别对应的数据。5. 根据权利要求4所述的方法,其特征在于,通过感知机模型确定所述系数的过程中, 还包括:设定学习率系数a。6. 根据权利要求5所述的方法,其特征在于,确所述系数过程中,还包括: 如果历史数据中存在(X1, Y1),使得Y1 (WXJb) < 0, 贝1J:采用以下公式更新W、b; W一W+ a Y1X1 b一b+ a Yi 直到历史数据中所有样本,对于更新后的(W,b)都有Y1(WXdb) > 0 ; f(x) = sign(WX+b)所述系数为:W,b ;其中i为输入空间、输出空间中的X、Y的序号; sign为符号函数。
【专利摘要】本发明公开了本发明在于提供一种稿件数据分类的方法,以解决人工区分稿件的类型,效率低下的问题。包括:根据手动分类后的历史稿件数据,确定感知机分类模型中的系数;提取待分类的稿件数据的输入空间的信息,代入所述分类模型中,并根据所述模型和系数得到对应分类的值;根据所述分类的值判别所述待分类的稿件数据的类别。该方法能满足平台快速处理的稿件需求,实现平台的高吞吐率,同时提高了的稿件的分类效率。
【IPC分类】G06F17/30, G06K9/62, G06F17/28
【公开号】CN105243118
【申请号】CN201510631410
【发明人】江潮, 张芃
【申请人】武汉传神信息技术有限公司
【公开日】2016年1月13日
【申请日】2015年9月29日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1