一种基于决策树的译员分类方法

文档序号：8258726阅读：210来源：国知局

一种基于决策树的译员分类方法
【技术领域】
[0001] 本发明属于数据分类技术领域，尤其是一种基于决策树的译员分类方法。
【背景技术】
[0002] 目前，翻译服务业正向着大规模产业化的方向发展。翻译服务业实现产业化的一个重要前提是实现翻译服务信息化，即利用计算机、辅助翻译软件、互联网、数字技术等信息时代的高科技手段实现翻译工作的信息化。在云翻译平台上，确定译员的专业类别属性，可以将稿件和译员进行更好的匹配。
[0003] 以往对于译员的专业类别属性的确定，只是分析译员所翻译的过往文档的类别属性，得到分类结果粗糙不准确，而通过人工测试的方法来确定，则需要花费大量的人力物力成本，从而导致翻译效率低的问题。

【发明内容】

[0004] 本发明的目的之一是提供一种基于决策树的译员分类方法，以解决现有技术中对于翻译平台上的分类的翻译效率低的问题。
[0005] 在一些说明性实施例中，所述基于决策树的译员分类方法，包括：获取待分类对象的基本信息和/或历史信息，提取所述基本信息和/或历史信息中的至少一个特征，并将每个所述特征分别作为一个决策影响因素；以所述决策影响因素在不同类别的决策树中，按照相应的所述决策树的生成顺序进行判定；根据判定结果，确定所述待分类对象归属的类别。
[0006] 与现有技术相比，本发明的说明性实施例包括以下优点：
[0007] 通过从基本信息和历史信息中提取客观的数据及信息，，利用决策树的对上述数据及信息进行判定，可靠性得到了大大的提升，并且避免了对译员进行人工测试，节省了人力物力成本，使翻译效率可以得到显著的提升。
【附图说明】
[0008] 此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：
[0009] 图1是按照本发明的说明性实施例的流程图；
[0010] 图2是按照本发明的说明性实施例的流程图；
[0011] 图3是按照本发明的正态分布的曲线示意图。
【具体实施方式】
[0012] 在以下详细描述中，提出大量特定细节，以便于提供对本发明的透彻理解。但是，本领域的技术人员会理解，即使没有这些特定细节也可实施本发明。在其它情况下，没有详细描述众所周知的方法、过程、组件和电路，以免影响对本发明的理解。
[0013] 为了便于更快的理解本方案，对本下述采用的术语进行简单说明：
[0014] 信息熵，设X是一个取有限个值的离散随机变量，其概率分布为P (X = Xi) = Pi，i =1，2,. . .，n，则随机变量X的信息熵定义为：
[0015]
【主权项】
1. 一种基于决策树的译员分类方法，其特征在于，包括：获取待分类对象的基本信息和/或历史信息，提取所述基本信息和/或历史信息中的至少一个特征，并将每个所述特征分别作为一个决策影响因素； W所述决策影响因素在不同类别的决策树中，按照相应的所述决策树的生成顺序进行判定；根据判定结果，确定所述待分类对象归属的类别。
2. 根据权利要求1所述的分类方法，其特征在于，在所述获取待分类对象的基本信息和/或历史信息之前，还包括：从记录有若干对象属性的数据库中确定具有影响分类类别的所述至少一个特征。
3. 根据权利要求2所述的分类方法，其特征在于，所述至少一个特征包括；译员的专业和目标行业是否相关的判定、译员的工作经历和目标行业是否相关的判定、译员是否翻译过目标行业文章的判定、译员翻译目标行业文章的数量级、译员翻译目标行业文章的优良率、翻译目标行业术语数量、术语翻译准确率、译员存储的术语与目标行业术语库的符合程度、译员存储的语料与目标行业语料库的符合程度中的一个或任意组合。
4. 根据权利要求2所述的分类方法，其特征在于，在所述获取待分类对象的基本信息和/或历史信息之前，还包括：从数据库中随机抽取一定数量的对象，构建训练数据集；其中，所述训练数据集中的每个对象具有确定的所述至少一个特征；根据所述训练数据集中的每个对象的各个特征的信息增益或信息增益比，确定每个类别对应的决策树的生成顺序，并根据该顺序构建该类别对应的决策树。
5. 根据权利要求4所述的分类方法，其特征在于，根据每个分类决策树的特征的信息增益或信息增益比，利用ID3算法或C4. 5算法构建所述决策树。
6. 根据权利要求4所述的分类方法，其特征在于，每个所述特征分别对应有至少两个取值范围/两种判定结果；每个对象的每个所述特征对应有一个实际值或实际结果；所述确定每个类别对应的决策树的生成顺序，具体包括：确定所述训练数据集中的对象的数量，W及划分的类别的数量；按照每个所述特征的选取范围的个数n，构建对应该特征的n个子集，并根据每个所述训练数据集中的对象对应该特征的实际值或实际结果，将所述对象划分到相应的所述子集中；计算出不同类别下的训练数据集的信息滴，W及该类别下的每个特征的条件滴，并根据所述信息滴和条件滴确定在该类别该特征的信息增益和信息增益比；根据不同类别下的每个特征的信息增益和信息增益比的大小关系，确定该类别对应的决策树的从根节点到叶子节点的所述生成顺序。
7. 根据权利要求4所述的分类方法，其特征在于，通过正态分布曲线确定每个所述特征的至少两个取值范围。
8. 根据权利要求4所述的分类方法，其特征在于，所述根据判定结果，确定所述待分类对象归属的类别，具体包括：根据待分类对象的每个特征的实际值或实际结果，在不同类别的决策树上进行判定；根据决策树的生成顺序逐层判定，直到所述待分类对象的满足该决策树的叶子结点，即得到该待分类对象的一个分类属性。
【专利摘要】一种基于决策树的译员分类方法，包括：获取待分类对象的基本信息和/或历史信息，提取所述基本信息和/或历史信息中的至少一个特征，并将每个所述特征分别作为一个决策影响因素；以所述决策影响因素在不同类别的决策树中，按照相应的所述决策树的生成顺序进行判定；根据判定结果，确定所述待分类对象归属的类别。通过从基本信息和历史信息中提取客观的数据及信息，利用决策树的对上述数据及信息进行判定，可靠性得到了大大的提升，并且避免了对译员进行人工测试，节省了人力物力成本，使翻译效率可以得到显著的提升。
【IPC分类】G06F17-30, G06F17-28
【公开号】CN104572854
【申请号】CN201410784892
【发明人】江潮, 张芃
【申请人】语联网（武汉）信息技术有限公司
【公开日】2015年4月29日
【申请日】2014年12月17日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：江潮;张芃;
技术所有人：语联网（武汉）信息技术有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。