本技术涉及公文改写,尤其涉及一种公文内容自动改写的方法以及公文内容自动改写的装置。
背景技术:
1、虽然我国公文为摆脱历史存在的粘弊病,设法通过创新使其生动、有活力,实现公文写作规范化。令公文精炼、易懂、实用,避免公文写作的言僚主义和形式主义,从根本上提高了我国当代的公文质量。但是,我们也注意到目前公文写作的创新发展还存在着很多不足。比如,(1)思维模式固化,有的公文夸大其词,过于夸大事实的真相,虚张声势,让人感到故弄么虚、不真实;有的整个篇幅运用过多套话,词不达意,不能表达其真实的想法。(2)内容质量较低,有的文章为了赶时间,构思不够具体;有的稿子直接是信息的堆叠,毫无逻辑和文采;有的公文写作人员对公文的写作过程十分敷衍,不舍得在文章构思和写作中花费过多的时间和精力,因此也就不能够写出精确,实用、易懂、生动的公文。(3)公文口语化严重,撰写公文的工作人员对口语词在行文中运用的不准确,不能掌挺好口语词的尺度。还有撰写公文的工作人员盲目的创新,滥用网络上的流行用语文最终导致文章口语化严重,不伦不类。
2、随着社会的发展,人们对公文写作的要求也逐渐提高,在鼓励公文撰写者要设法开拓思维,勇于追求创新,大胆尝试创新的同时,也要利用一些先进的人工智能技术手段来辅助我们完成高质量的公文。目前我们研发的公文自动改写系统,能够帮助公文撰写者节省大量时间,对其撰写的公文进行润色,在保证语义一致性的前提下,生成流畅的,更多样性的表达,为文字撰写工作者提供多种表达方式,帮助其发散思维,更高效的完成工作。
3、文本自动改写技术是在保证语义一致性的前提下,生成流畅的,更多样性的表达,为文字撰写者提供多种表达方式,帮助其发散思维,更加高效的完成工作。这种技术目前有很多应用场景,比如,新闻媒体场景,为新闻工作者提供更多文章表达方式,帮助其发散思维,更快速的完成工作;司法文件场景,针对司法类的文件内容,在合法合规的情况下,优化其表达方式;在文学创作场景,为文字撰写工作者提供多种表达方式,帮助其扩散思维,更有效的完成工作内容;在人工智能技术应用场景,可以增加一些数据的表达方式,缓解深度学习中数据不足的问题。
4、在现有的技术中,解决公文自动改写的主流方法主要有三大类型:(1)基于释义的公文自动改写方法,生成原始数据的释义作为改写数据。(2)基于噪声的公文自动改写方法,在保证结果有效的前提下对原始数据增加噪声。(3)基于采样的公文自动改写方法,根据原始数据的分布,采样新数据作为改写数据,主要基于人工启发和训练模型输出更多样性的数据。具体实现方法分别介绍如下。
5、基于释义的公文自动改写方法中释义的重点是让改写的语义尽可能与原始数据相似,包含多个层次的改写,词汇、短语和句子。对于这种释义的方法可以通过以下几种方法进行实现:(1)同义词方法,对每个句子获取所有可替换的词,并随机选择r个进行替换,与原始词越像越有可能被选择;(2)语义嵌入的方法,使用预训练的词向量glove、word2vec、fasttext等找对应的近义词;(3)利用语法规则方法,使用现有的词典和固定的启发式方法来生成词级别和短语级别的释义,用一些规则为原始句子生成句子级的释义,如依存关系树,类似把字句改成被子句,句子结构变了但语义不变。
6、基于噪声的公文自动改写方法是通过添加了不严重影响语义的微弱噪声,使其适当偏离原始数据。人类可以通过对语言现象和先验知识的掌握,大大降低弱噪声对语义理解的影响。这种方法在人工智能应用场景,利用深度学习进行建模的时候非常有用,虽然这种噪声可能会给模型带来挑战,但是该方法不仅扩大了训练数据量,而且提高了模型的鲁棒性。这种文本改写功能的实现策略有以下几种方法:(1)交换,随机选择两个词交换位置,重复n次,n与句子长度成比例;(2)删除,根据概率p随机删除句子中的词;(3)插入,选择一个句子中非停用词的随机词的一个随机近义词,插入句子的随机位置,重复n次;(4)替换,使用语义上与原始数据相似的字符串或用词表中的其他词替换原始词。
7、基于采样的公文自动改写方法也涉及规则和已训练的模型来生成增强数据。不过这种方法是基于特定任务的,需要一些任务信息,比如标签和数据格式等。实现这种类型的文本改写功能常用的方法有:(1)使用规则的方法,让主宾交换位置,将谓语动词转为被动形式,新样本的标签取决于规则。这种方法与释义的方法不同,不保证结果与原始数据相似。(2)使用seq2seq模型,先训练一个翻译模型,然后用该模型翻译目标语料生成对应的译文。(3)利用一些开源的语言模型,比如使用在训练集上预先进行微调的gpt生成标注的增强句子,然后通过分类器过滤增强的句子以确保数据质量。
8、现有的技术方案存在在优缺点分别介绍如下。
9、基于释义的公文自动改写实现方法中(1)同义词方法具有易于使用的优点,但是替换词的范围和词性是有限的,替换过多可能会影响句子的语义。(2)语义嵌入的方法具有易于使用,更换命中率高,更换范围广的优点,但是不能解决二义性的问题,替换过多也会影响句子的语义。(3)语法规则的方法具有使用方便,保留原始句子语义的优点,存在的不足是需要人工启发,覆盖率低,变化有限。
10、基于噪声的公文自动改写实现方法,具有易于使用,能提高模型的鲁棒性的优点,存在的不足之处是可能会扭曲句子的语法和语义,且每种方法改写的多样性有限。
11、基于采样的公文自动改写实现方法中(1)规则方法具有易于使用的优点,但是这种方法需要人工启发,效率低下,且覆盖率低,改写有限。(2)seq2seq这种方法优点是改写的文本多样性强,应用性强,存在的不足之处是需要大量的标注数据,训练难度比较大。(3)语言模型这种方法具有应用性强的特点,不过需要大量的领域训练数据才可以获得比较好的改写文本。
12、因此,希望有一种技术方案来解决或至少减轻现有技术的上述不足。
技术实现思路
1、本发明的目的在于提供一种公文内容自动改写的方法来至少解决上述的一个技术问题。
2、本发明提供了下述方案:
3、根据本发明的一个方面,提供一种公文内容自动改写的方法,所述公文内容自动改写的方法包括:
4、获取待改写公文信息;
5、获取待改写等级;
6、根据待改写等级对待改写公文信息进行改写,从而形成改写后公文信息。
7、可选地,所述待改写等级包括保守改写、普通改写以及强力改写。
8、可选地,当所述改写等级为保守改写时,所述根据待改写等级对待改写公文信息进行改写,从而形成改写后公文信息包括:
9、对获取的待改写公文信息中的各个句子进行分词以及词性标注;
10、获取分词后的句子中的词性为连词的词语作为待改写词语以及待改写公文信息中的各个句子中属于段中句的句子,其中,具有待改写词语的句子以及属于段中句的句子作为待改写句子;
11、为每个待改写句子进行至少两次的改写;
12、选取每个改写后的句子中的一个改写的句子作为该句子的最终改写句子,其中,各个最终改写句子以及待改写公文信息中的其他未改写的句子组成改写后公文信息。
13、可选地,当所述待改写句子中具有待改写词语时,所述为每个待改写句子进行至少两次的改写包括:
14、获取预设同义词典,所述预设同义词典包括至少一个预设连词;
15、判断待改写词语是否与一个预设连词为同义词,若是,则获取与待改写词语为同义词的预设连词替换所述待改写词语;
16、判断待改写词语是否与一个预设连词为同义词,若否,则通过语义嵌入模型获取待改写词语的同义词进行改写。
17、可选地,当所述待改写句子属于段中句的句子时,所述为每个待改写句子进行至少两次的改写包括:
18、把段中句的句子中的标点符号进行至少两次的随机改写。
19、可选地,当所述改写等级为普通改写时,所述根据待改写等级对待改写公文信息进行改写,从而形成改写后公文信息包括:
20、对获取的待改写公文信息中的各个句子进行分词以及词性标注;
21、获取分词后的句子中的词性为连词、名词、方位名词、处所名词、动副词的词语作为待改写词语以及待改写公文信息中的各个句子中属于段中句或段尾句的句子,其中,具有待改写词语的句子、属于段中句的句子以及属于段尾句的句子作为待改写句子;
22、为每个待改写句子进行至少两次的改写;
23、选取每个改写后的句子中的一个改写的句子作为该句子的最终改写句子,其中,各个最终改写句子以及待改写公文信息中的其他未改写的句子组成改写后公文信息。
24、可选地,当所述改写等级为强力改写时,所述根据待改写等级对待改写公文信息进行改写,从而形成改写后公文信息包括:
25、对获取的待改写公文信息中的各个句子进行分词以及词性标注;
26、获取分词后的句子中的词性为名词、方位名词、处所名词、普通动词、动副词的词语作为待改写词语;
27、对每个具有待改写词语的句子进行至少两次的改写;
28、选取每个改写后的句子中的一个改写的句子作为该句子的最终改写句子,各个所述最终改写句子以及待改写公文信息中的其他未改写句子组成第一公文信息;
29、对第一公文信息中的各个句子进行语句顺序调整,从而获取第二公文信息;
30、获取第二公文信息中的各个句子中属于段中句或段尾句的句子;
31、为每个属于段中句或段尾句的句子进行至少两次的标点符号改写;
32、选取每个至少两次的标点符号改写后的句子中的一个改写的句子作为该句子的最终改写句子,其中,各个最终改写句子以及待改写公文信息中的其他未改写的句子组成改写后公文信息。
33、可选地,所述语义嵌入模型为word2vec,所述语义嵌入模型采用skip-gram算法进行训练,且使用如下数据进行训练:
34、同义词典数据、公文的固有表述数据以及公文文章数据。
35、可选地,所述选取每个改写后的句子中的一个改写的句子作为该句子的最终改写句子包括:
36、计算每个改写后的句子的困惑度;
37、获取困惑度值最小的句子作为该句子的最终改写句子;其中,
38、所述困惑度值使用bert掩码语言模型进行计算。
39、本技术还提供了一种公文内容自动改写的装置,所述公文内容自动改写的装置包括:
40、待改写公文信息获取模块,所述待改写公文信息获取模块用于获取待改写公文信息;
41、待改写等级获取模块,所述待改写等级获取模块用于获取待改写等级;
42、改写模块,所述改写模块用于根据待改写等级对待改写公文信息进行改写,从而形成改写后公文信息。
43、本技术所提供的公文内容自动改写的方法根据使用者所选择的改写等级对待改写公文信息进行改写,从而能够帮助公文撰写者节省大量时间,对其撰写的公文进行润色,在保证语义一致性的前提下,生成流畅的,更多样性的表达,帮助公文撰写者发散思维,更高效的完成工作。