基于知识图谱的政务领域多阶段融合的文本纠错方法与流程

文档序号:34974385发布日期:2023-08-01 20:36阅读:59来源:国知局
基于知识图谱的政务领域多阶段融合的文本纠错方法与流程

本发明涉及文本纠错,具体为基于知识图谱的政务领域多阶段融合的文本纠错方法。


背景技术:

1、智能审核可对公文进行一键校对。根据实际情况,从文种选用、格式书写、行文规则、内容逻辑、语言文字、标点符号等角度对多种公文进行审核,确保公文行文的规范、准确。智能审核还具备政治审核能力,能够对部门名称、政治固有表述、姓名/职位以及搭配、重要讲话等信息进行自动纠错。智能审核有效帮助办公人员消减知识盲区,降低内容及格式的错误概率,从而提升公文文本质量,提高工作效率。

2、公文审核是一个非常细致的工作,很耗费相关人员的大量时间和精力。为了建立起公文编校工作规范化、智能化的体系,避免出现公文出错,智能审核运用人工智能能力,带来高质量的公文处理能力,有利于提升整体公文质量,避免公文出错,确保公信度。

3、现有公文审核的文本纠错方法,有基于传统n-gram语言模型的方法,有基于深度模型端到端的方法,有基于字典的纠错方法,也有基于规则的方法,现有的文本纠错算法未能充分利用政务领域文本的特征和政务领域知识来构建模型,每种方法应用场景泛化能力有限,体系性不好,不能很好的满足政务审核需求。

4、目前文本纠错有很多方案,ai模型有基于传统语言模型的,缺少长距离依赖,纠错能力有限。也有基于端到端的预训练模型,很难具有可解释性和可控性。现在开放域深度学习纠错模型没有结合政务领域数据特点来构建模型网络,同时不能在构建数据特征的时候加入政务图谱知识,误报率高。有的纠错方法基于错误字典纠错,需要人工维护大量词库,场景泛化能力也有限。有的纠错方法是基于领域字典纠错,缺少实体和实体之间通过关系或属性进行推理,很难满足用户的意图。有的纠错方法,缺少必要的专家规则和条件过滤。目前政务领域纠错方法单一,体系性不好,缺少必要的政务知识融合和知识推理能力,应用场景泛化能力有限,技术很难达到令人满意的文本纠错解决方案。

5、本发明提出基于知识图谱的政务领域多阶段融合的文本纠错方法。


技术实现思路

1、本发明的目的在于提供基于知识图谱的政务领域多阶段融合的文本纠错方法,本发明提供基于知识图谱的政务领域多阶段融合的文本纠错方法,更符合政务领域行业特征,更体系化的解决纠错问题,更精准地识别输入的文本错误,从而极大地提高了用户的使用体验。

2、本发明是这样实现的:本发明提供基于知识图谱的政务领域多阶段融合的文本纠错方法;

3、s1:包括对政务文本进行纠错的ai模型,具体包括对政务文本进行拼写纠错模型和语法纠错模型;拼写纠错模型和语法纠错模型,分别基于csc模型和gec模型对噪音数据进行标注,利用bert的变种模型做序列标注任务进行定位文本中出错的位置,进行查错;

4、将每一个出错位置的文本,根据标记的类型,利用混淆集矩阵,构建相对应的候选集,采用句子困惑度评价模型对修改后的文本进行排序,选择修改后最佳的选项作为最终的输出。

5、s2:针对政务领域下的专属名词及其三元组关系,利用领域字典和政务知识图谱进行二阶段文本纠错;政务文本中存在大量并列结构,针对政务领域数据特点进行实体抽取和关系抽取,具体通过bert预训练模型特征提取;

6、s3:针对步骤s2纠错好的三元组数据,基于现有的政务图谱进行二阶段推理纠错,支持政务图谱单跳和多跳纠错,实体链接通过匹配模型进行向量检索,解决实体链接过程同一个实体有不同的提及的问题;

7、s4:基于专家规则、过滤规则和冲突解决规则过滤处理进行校正,生成错误报告。过滤规则具体通过设置正词字典规则,进行过滤;

8、政务专家规则,利用专家知识建设,构建错词词典,包括抽取姓名与职务进行校对、重要讲话内容文本匹配;利用动态规则的算法对法律规则进行匹配输出;通过音形和字形替换生成错词字典,进行错词字典的建设。

9、错词字典的建设,首先通过新词发现模型发现政务领域新词,在通过音形和字形替换生成错词字典。传统机器学习特征只在样本内部进行抽取,新词发现的特殊点用到了统计特征,这个特征是全局的,不仅看样本本身。二字新词发现模型,构建模型需要的数据,首先把最新的语料都遍历一遍,计算任意二个字的4维特征,a字和b字的内聚是一个特征,b字和a字的内聚是第二个特征,ab整个词的左信息熵是第三个特征,ab整个词的右信息熵第四个特征,字本身信息作为第五个特征。

10、冲突解决规则,首先通过模型处理,通过拼写和语法纠错模型和基于图谱的纠错,再通过专家规则纠错,基于过滤规则进行纠错,冲突位置的句子困惑度再次计算后进行比较,对于不同的错误类型,采用不同的阈值,最终将校验结果进行输出;

11、针对错误类型,分为abcd四种大类错误等级,在此基础上再细分二级类别,判断图谱、专家规则、过滤规则是否有冲突,有则返回图谱、专家规则、过滤规则定义的政务领域错误类型,最后针对不同的错误类型,给出修改方案,生成纠错报告。

12、进一步,其中政务文本的错误包括拼写错误、语法错误和语义错误,具体使用三段式流水线的纠错方法;具体流程如下:

13、s3.1:将bert与textcnn融合,基于bert预训练模型捕获语义信息,在配合政务语料进行下游任务适配,textcnn捕捉n-gram排列组合特征,捕捉关键词;

14、s3.2:通过二分类,输出0表示位置为异常点,输出1表示该位置为正确词,得到输入语句的异常点和下标位置。

15、具体按以下步骤执行:

16、s4.1:针对句子中的错误的字符进行mask掩码操作,并且把正确字符作为标签;

17、s4.2:对句子中正确的字符也进行部分mask操作,对没有错误的语句,采用原始bert预训练模型相同的训练方法;

18、s4.3:假设句子中每个字符有k(k>1)个候选字符,根据bert模型结合原始语句上下文对于每个候选字符进行置信度打分,排序得到前k个适合当前语境的候选字符,然后分别计算这些候选字符和原始字符的中文字符相似性采用最小编辑距离和最长公共子串计算两个拼字字符串之间的相似性;

19、s4.4:对于形近字的中文文本纠错,通过相关的数据集得到字符的笔画序列,然后计算相应的相似度分数代入。

20、其中gec中文语法错误检测任务,语法检测,基于macbert+crf的序列标注模型,检测出中文文本中每一处语法错误的位置和类型,语法错误的类型分为冗余(r)、漏词(m)、误用(s)、乱序(w)四类。序列标注标签为bieos方案,一共17个类别:把一些不可能出现的标签去掉(m类型只有single,w类型没有single)一共13个类别:'o','s-b','w-b','r-b','s-i','w-i','r-i','s-e','w-e','r-e','s-s','m-s','r-s'。

21、语法纠错,使用序列到编辑和序列到序列两类模型,并且采用编辑级别投票的方式对二者进行集成。

22、进一步,其中语法错误,使用序列到编辑和序列到序列两类模型,并且采用编辑级别投票的方式对二者进行集成,针对生成模型在生成纠正结果时改动过大的问题应用指针生成网络pgn,从输入序列中选择token放到输出序列中,针对pgn网络做修改,把编码和解码器换成了bart模型。为提高语法错误纠正正确率,具体按以下步骤执行:

23、s5.1:针对非结构化数据联合抽取,分为实体抽取和关系抽取;其中实体抽取包括以下步骤;

24、s5.1.1:实体抽取,对非结构化数据联合抽取,针对实体识别子任务bert-crf在政务领域实体边界错误、识别实体不全和没用到政务知识库信息的问题,提出基于知识库描述文本的信息来增强实体识别的准确性的解决方案,首先利用知识库的实体名称和实体的别名信息构建实体名称字典,在通过挖掘知识库中实体的描述文本得到实体名字的向量嵌入,然后通过名称字典匹配技术,得到文本中的候选实体,最后利用实体识别模型对结果进行筛选,完成实体识别的任务;

25、进一步,数据准备流程,利用知识库的实体名称和实体的别名信息构建别名字典,构建实体描述文本和构建映射字典,具体流程如下:

26、构建实体别名字典。利用政务知识库的实体名称和实体的别名信息构建别名字典。政务数据实体名在实体库中无法匹配的错误具体包括:错误一文本中间有特殊字符错误,错误二输入文本中实体名错误,错误三别名不在知识库中。对于错误一,对特殊符号进行归一化处理,并将处理后的名字,加入到对应实体的别名中。如所有中文标点符号全部准换成英文标点符号。对于错误三,通过实体识别模型进行解决。针对错误二和错误三,统计知识库中实体无法匹配总次数,训练集中实体无法匹配的所有字符串以及该字符串对应的出现次数,设定无法匹配总次数大于4,并且该字符串对应的出现次数大于3,则将字符串加入到实体的别名中。

27、进一步,构建实体描述文本和映射字典。利用构建好的政务图谱里面的实体属性实体,实体关系实体,三元组数据进行拼接,得到实体描述文本。构建映射字典。常见字典包括,实体名字和实体id列表,实体id和实体名字,实体id和实体描述文本,实体id和实体类型,实体类型和实体id。

28、实体识别数据集构建流程,利用知识库的实体名称和实体的别名信息构建实体名称字典。通过知识库的实体描述文本,利用bert预训练模型,选取模型cls位置的向量输出作为实体名称的向量嵌入。通过字典匹配方式,得到短文本中候选实体,最后通过构建的命名实体识别模型对匹配的结果进行筛选。构建流程如下:

29、字典树加实体正向最大匹配。加快速度采用字典树这一结构,同时采用正向最大匹配实体去匹配文本中实体。根据匹配,把实体名字插入到字典树中;

30、实体名字嵌入和训练数据构建。为了能够对匹配到的实体进行二分类,将实体名字用一个向量表示,通过后续模型中的bert来得到实体名字的嵌入。通过知识库的实体描述文本,利用bert预训练模型,选取模型cls位置的向量输出作为实体名称的向量嵌入。训练数据构建,通过字典匹配方式,通过最大匹配算法得到文本中候选实体,并打上相应的标签。

31、最后,通过构建实体识别模型对匹配的结果进行筛选。政务文本首先过bert层,在通过双向lstm,拼接实体名称对应的嵌入,经过卷积和全连接预测。因为模型是通过词典匹配方式实现,所以结果都能够在知识库找到候选实体,不会出现边界错误。模型在词典匹配时,去掉了单字实体,而bert-crf模型预测单字实体。所以将两种方案融合,能够取得最好的效果。

32、s5.1.2:关系抽取,基于实体抽取模型,得到句子中包含的实体和实体类型,针对政务文本,利用头实体和尾实体长度不同,采用动态池化策略,设置一个阈值,大于这个阈值,采用最大池化,小于这个阈值用平均池化处理,利用动态池化策略从而改善不同长度实体的特征提取效果。

33、与现有技术相比,本发明的有益效果是:

34、1、本发明提出的技术方案“ai模型+政务知识图谱+政务专家规则+规则过滤+冲突解决规则过滤”的政务领域多阶段融合的文本纠错方法。针对政务领域数据的特点来构建ai模型结构,在训练模型的时候,融入政务图谱的知识数据,进一步提高在政务领域下模型的准确率。利用政务领域字典进行纠错,在配合政务知识图谱推理纠错,支持政务图谱单跳和多跳纠错,让纠错更符合用户的意图。用专家规则和规则过滤来弥补模型的泛化能力。

35、2、本发明更符合政务领域行业特征,更系统的解决文本纠错问题,从而极大地提高了用户的使用体验,给公文审核相关人员节约了大量时间,智能审核运用人工智能能力,带来高质量的公文处理能力,有利于提升整体公文质量,确保公信度。

36、3、提供基于知识图谱的政务领域多阶段融合的文本纠错方法,更符合政务领域行业特征,更体系化的解决纠错问题,更精准地识别输入的文本错误,从而极大地提高了用户的使用体验。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1