基于预训练智能标签模型的热点信息标记方法及系统与流程

文档序号:37557094发布日期:2024-04-09 17:48阅读:12来源:国知局
基于预训练智能标签模型的热点信息标记方法及系统与流程

本技术涉及自然语言处理,尤其涉及一种基于预训练智能标签模型的热点信息标记方法及系统。


背景技术:

1、随着信息时代的到来,在项目管理中产生的文本数据呈指数级增长。与项目相关的数据包括项目报告、会议记录、邮件通讯和社交媒体内容等。处理和分析这些大规模文本数据需要耗费大量时间和资源,因此需要从项目的数据中标记出热点信息。

2、相关技术中,通常是采用由相关工作人员进行人工标记的方法。然而,在实际应用中人工进行热点信息标记,由于数据量较大需要投入大量的人力和时间,而且标记过程容易受主观因素影响,标记结果中可能存在偏差。


技术实现思路

1、本技术旨在至少在一定程度上解决相关技术中的技术问题之一。

2、为此,本技术的第一个目的在于提出一种基于预训练智能标签模型的热点信息标记方法,该方法通过预训练模型和深度学习技术,使得训练后的智能模型能够学习并理解文本中的语义和上下文信息,快速捕捉项目文本中的热点信息,从而可以更准确地生成与热点相关的标签,提供快速而准确的标记结果。

3、本技术的第二个目的在于提出一种基于预训练智能标签模型的热点信息标记系统;

4、本技术的第三个目的在于提出一种计算机可读存储介质。

5、为达上述目的,本技术的第一方面在于提出一种基于预训练智能标签模型的热点信息标记方法,该方法包括以下步骤:

6、获取目标项目的待标记文本数据,并对所述待标记文本数据进行预处理,获得输入数据;

7、将所述输入数据输入预训练完成的智能标签模型,基于所述目标项目的特性信息对所述智能标签模型进行微调;

8、通过微调后的智能标签模型对所述输入数据进行特征提取,获取特征表示数据;

9、基于多头注意力机制,通过所述微调后的智能标签模型对所述特征表示数据进行标记和分类,以在所述输入数据中标记出热点信息,其中,所述热点信息包括与所述目标项目相关的热点话题、关键问题和重要事件。

10、可选地,在本技术的一个实施例中,所述智能标签模型,包括:目标特征提取层、多头注意力网络、前馈网络和归一化模块,其中,所述目标特征提取层,用于将所述输入数据转换为多维度的目标特征向量;所述多头注意力网络,用于为所述目标特征向量分配权重,生成多头注意力权重;所述前馈网络,用于根据所述多头注意力权重输出标题预测概率;所述归一化模块,用于通过归一化指数函数softmax对所述标题预测概率进行归一化处理。

11、可选地,在本技术的一个实施例中,对所述智能标签模型进行预训练,包括:获取预训练数据,并对所述预训练数据进行分词处理,获得分词后的文本序列;基于预设的实体标签对所述分词后的文本序列添加标记,以构建输入序列;对所述输入序列进行掩码处理,生成预测被掩码的单词的掩码预测任务;在所述智能标签模型中,对所述输入序列执行所述掩码预测任务和下游任务,以进行模型预训练。

12、可选地,在本技术的一个实施例中,对所述智能标签模型进行预训练,还包括:将中文问句输入至所述智能标签模型,获得模型输出的中文问句分类结果标签;基于所述中文问句分类结果标签对所述中文问句进行实体识别;对识别出的每个实体信息进行特征划分,并根据划分的特征分别计算对应的实体信息的得分;将各个实体信息对应的候选关系集合构建成语句形式。

13、可选地,在本技术的一个实施例中,所述通过微调后的智能标签模型对所述输入数据进行特征提取,包括:对所述输入数据进行分词处理,将分词后的每个词汇转换为向量表示;基于上下文信息,将同一语句中的各个词汇的所述向量表示组合成序列编码;对所述微调后的智能标签模型进行多种方式的优化处理,并通过优化处理后的智能标签模型从所述序列编码中提取所述特征表示数据。

14、可选地,在本技术的一个实施例中,所述对所述微调后的智能标签模型进行多种方式的优化处理,包括:构建多源信息抽取模型获取多源信息,并训练所述微调后的智能标签模型从所述多源信息中提取特征表示数据;向所述微调后的智能标签模型输入多模态数据,进行多任务学习;结合迁移学习技术、自适应信息提取方法和对抗训练技术对所述微调后的智能标签模型进行训练。

15、可选地,在本技术的一个实施例中,在所述输入数据中标记出热点信息之后,还包括:实时获取所述目标项目中新产生的文本数据,以对所述待标记文本数据进行更新,并对实时更新的待标记文本数据进行热点信息标记;根据实际的反馈信息与模型标记的热点信息之间的差异,对智能标签模型进行调优。

16、可选地,在本技术的一个实施例中,在所述获取目标项目的待标记文本数据之前,还包括:将所述预训练完成的智能标签模型集成至项目管理应用;在所述输入数据中标记出热点信息之后,还包括:在所述项目管理应用中显示标记出的热点信息;将所述热点信息与所述目标项目的其他相关数据进行关联分析。

17、为达上述目的,本技术的第二方面还提出了一种基于预训练智能标签模型的热点信息标记系统,包括以下模块:

18、获取模块,用于获取目标项目的待标记文本数据,并对所述待标记文本数据进行预处理,获得输入数据;

19、微调模块,用于将所述输入数据输入预训练完成的智能标签模型,基于所述目标项目的特性信息对所述智能标签模型进行微调;

20、提取模块,用于通过微调后的智能标签模型对所述输入数据进行特征提取,获取特征表示数据;

21、标记模块,用于基于多头注意力机制,通过所述微调后的智能标签模型对所述特征表示数据进行标记和分类,以在所述输入数据中标记出热点信息,其中,所述热点信息包括与所述目标项目相关的热点话题、关键问题和重要事件。

22、为了实现上述实施例,本技术第三方面实施例还提出了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面中的基于预训练智能标签模型的热点信息标记方法。

23、本技术的实施例提供的技术方案至少带来以下有益效果:本技术综合应用预训练模型和深度学习技术,将预训练智能标签模型应用于项目热点标记,通过训练和调优模型,使其能够准确理解和快速标记与项目相关的热点话题和关键问题等热点信息。从而可以自动地对大量的项目文本数据进行标记和分类,避免了手动标记的繁琐过程,大大提高了处理效率,节省时间和人力资源。并且通过智能标签模型的处理,可以准确识别和标记出项目中的热点信息,提供更全面的洞察力,提高标记结果的准确性和全面性。并且预训练智能标签模型可以提供一致的标记结果,减少人为主观因素对标记的影响,在整个项目团队中得到一致的热点标记,提高合作效率。本技术还可以进行热点信息的实时监测和预警,能够实时监测项目文本数据,及时识别新出现的热点问题和关键事件,有利于及时采取相关处理措施,解决潜在的风险问题。并且本技术还可以广泛适用于各种领域中热点信息识别,并针对具体的项目需要进行灵活的模型调整,提高了标记结果的针对性,满足个性化需求。

24、本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1