一种文档稿件中语句标注的方法

文档序号：6526711阅读：424来源：国知局

一种文档稿件中语句标注的方法
【专利摘要】本发明公开了一种文档稿件中语句标注的方法，包括：确定源文档及与所述源文档具有映射关系的译稿，扫描出所述源文档中出现的所有语句；根据分析到的每个语句中的词汇参数和语句参数计算出每个语句的属性参数；将所述属性参数值大于预定阈值的语句在所述源文档及其译稿中均进行标注。本发明解决了无法对文档中的翻译难点进行统一标注的问题，并且提高了对语句标注的准确性，同时节省了所需要的大量人力资源。
【专利说明】一种文档稿件中语句标注的方法
【技术领域】
[0001]本发明涉及翻译【技术领域】，具体而言，涉及一种文档稿件中语句标注的方法。
【背景技术】 [0002]对译稿进行审校是翻译流程中非常重要的环节，为保证翻译质量，一个完整的翻译流程对翻译稿件一般会有1-2次的审校过程。一般情况下，通过校对人员找到并标注翻译过程中出现的问题，然后由审校人员进行审阅并解决，这些翻译过程中出现的问题主要包括:翻译难点、专业术语的一致性、源语言句子错误、源语言上下文不一致等。对翻译难点的判定和标注是其中最常见也是最重要的问题，普通对于翻译难点判断和标注是通过校正人员人工发现并标注的方法来实现，这种方法由于不同校对人员对于翻译难度的理解不一致，相对比较主观，无法做到准确、一致，同时这个过程也需要耗费大量的人力。

【发明内容】

[0003]本发明旨在提供一种文档稿件中语句标注的方法，解决了无法对翻译难点进行准确、一致的标记的问题。
[0004]本发明公开了一种文档稿件中语句标注的方法，包括:
[0005]确定源文档及与所述源文档具有映射关系的译稿，扫描出所述源文档中出现的所有语句；
[0006]根据分析到的每个语句中的词汇参数和语句参数计算出每个语句的属性参数；
[0007]将所述属性参数值大于预定阈值的语句在所述源文档及其译稿中均进行标注。
[0008]优选地，所述词汇参数至少包括:
[0009]词汇等级、习语数和实义词密度。
[0010]优选地，分析所述词汇等级的过程包括:
[0011]扫描出所述语句中的所有词汇；
[0012]将得到的每个所述词汇在词汇分级表中进行匹配，得到每个所述词汇的词汇级别；所述词汇级别为一级、二级、三级或四级；
[0013]分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量；
[0014]按照词汇等级计算公式计算出所述语句的词汇等级，所述词汇等级计算公式如下:
[0015]
【权利要求】
1.一种文档稿件中语句标注的方法，其特征在于，包括: 确定源文档及与所述源文档具有映射关系的译稿，扫描出所述源文档中出现的所有语句；根据分析到的每个语句中的词汇参数和语句参数计算出每个语句的属性参数；将所述属性参数值大于预定阈值的语句在所述源文档及其译稿中均进行标注。
2.根据权利要求1所述的方法，其特征在于，所述词汇参数至少包括: 词汇等级、习语数和实义词密度。
3.根据权利要求2所述的方法，其特征在于，分析所述词汇等级的过程包括: 扫描出所述语句中的所有词汇；将得到的每个所述词汇在词汇分级表中进行匹配，得到每个所述词汇的词汇级别；所述词汇级别为一级、二级、三级或四级；分别统计所述词汇级别为二级或二级以上的级别的所述词汇的数量；按照词汇等级计算公式计算出所述语句的词汇等级，所述词汇等级计算公式如下:
4.根据权利要求2所述的方法，其特征在于，分析语句中的实义词密度的过程包括: 确定所述语句中的所有词汇，并对每个词汇进行词性标注，筛选出所述词汇中的所有实义词；将得到的所有所述实义词按照一定顺序进行排列；根据同义词本体工具得到每个所述实义词的义项数meaningSi，并统计所述实义词的义项总数；其中i为所述实义词的序号；按照实义词词义密度计算公式计算，得到所述语句的实义词词义密度；所述实义词词义密度计算公式如下:
5.根据权利要求2的方法，其特征在于，分析所述语句中的习语数的过程包括: 通过习语本体工具找到所述语句中的所有习语，并统计所述习语的数量。
6.根据权利要求2所述的方法，其特征在于，所述语句参数至少包括: 语句长度、语句中的子句数和所述子句的平均长度。
7.根据权利要求6所述的方法，其特征在于，所述语句中的词汇数量作为所述语句长度。
8.根据权利要求6所述的方法，其特征在于，分析所述语句的子句平均长度的过程包括: 统计所述语句中的子句数量；将所述语句中的词汇总数除以所述子句数量，结果作为所述子句的平均长度。
9.根据权利要求6所述的方法，其特征在于，所述语句的属性参数为翻译难度值；计算所述翻译难度值的过程包括: 根据翻译难度计算公式计算，得到语句的翻译难度值；所述翻译难度计算公式如下:Ciiffsentence = K1 *word+K2 *gradeword+K3 *densitynotional+K4 eCount-Clause+^ *MLC+K6 *countidiom ；其中，diff—sentence为所述语句的翻译难度值，word为所述语句的句长，grade—word为所述语句的词汇等级，density—notional为所述语句的实义词密度，count—clause为所述语句的子句数，MLC为语句中的子句的平均长度，count—idiom为所述语句的习语数，K1ΛK2、K3、K4、K5和K6为语句翻译难`度调节系数。
【文档编号】G06F17/27GK103729344SQ201310746427
【公开日】2014年4月16日申请日期:2013年12月30日优先权日:2013年12月30日
【发明者】江潮申请人:传神联合（北京）信息技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：江潮;
技术所有人：传神联合（北京）信息技术有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。