一种智能日志文本模板挖掘方法、装置、设备及存储介质与流程

文档序号:36457310发布日期:2023-12-21 17:30阅读:28来源:国知局
一种智能日志文本模板挖掘方法与流程

本发明涉及人工智能,尤其涉及一种智能日志文本模板挖掘方法、装置、设备及存储介质。


背景技术:

1、随着信息时代的飞速发展,以深度学习为核心的人工智能技术日益成为新一轮产业革命的重要引擎。其中,自然语言处理(natural language processing,nlp)则是人工智能技术的一代表性领域,目的是使计算机正确处理人类语言,并与人类进行交互。

2、在实际生活当中,ai生成的文字有不可控的因素,在对文字有一定谨慎要求与审核的情况下,模板仍是我们非常重要的输出工具。模板的优点是可控、性能好、速度快、便于编辑、没有技术壁垒,但缺点也很明显:多样性差、泛化性差、需要人力手工编辑。目前在日常生活中经常需要写出各种文书材料和证明材料,而对于不常用的文书材料和证明材料同样具有通行的模版。如果用户对模版不熟悉,则需要从网络上搜索文模版再进行填写。但是,用户主动在网络中搜索模版,会存在多种问题。首先,用户直接在搜索引擎中搜索,搜索范围过于广泛,得到的结果质量参差不齐,用户需要耗费大量时间在搜索结果中再次查找出最适合的文本模版。如果没有找到合适的文本模版,则需要用户对查找到的文本模版或者文本内容进行手动修改,才可以得到合适的文本模版进行使用。并且目前现有的文本挖掘是将大量的训练文本基于机器学习,经学习后可得到通用的解析模型,从而挖掘对应的模板,虽然可以从文本中挖掘对应的模板,但是,其模板挖掘方法的效率都较低,且提供给用户的准确度也不高,不具有可解释性。可见,目前获取到文本模版的过程极为繁琐,挖掘效率和准确率不高。在查找过程中不仅花费精力,还容易造成不必要的麻烦。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种智能日志文本模板挖掘方法、装置、设备及存储介质,以解决现有获取到日志文本模版的过程极为繁琐,挖掘效率和准确率不高,且不能实时更新日志文本模板的问题。

2、本申请实施例的第一方面提供了一种智能日志文本模板挖掘方法,所述智能日志文本模板挖掘方法包括:

3、获取待挖掘日志的实时目标文本,利用预训练语言模型对所述实时目标文本进行处理,得到所述实时目标文本对应的语义信息特征;

4、根据所述实时目标文本对应的语义信息特征,确定每两个语义信息的相似度;

5、基于所述语义信息的相似度,将所述实时目标文本对应的语义信息特征再加入对比学习模型进行增强处理,得到所述实时目标文本对应的语义向量;

6、对所述实时目标文本对应的语义向量进行聚类计算,获取多个语义相近的句子簇;

7、对所述多个语义相近的句子簇利用最长公共子串进行挖掘,将所挖掘的语义句子信息作为文本模板解码器的输入,利用所述文本模板解码器输出所述实时目标文本对应的文本模板。

8、本申请实施例的第二方面提供了一种智能日志文本模板挖掘装置,所述智能日志文本模板挖掘方法包括:

9、获取模块,用于获取待挖掘日志的实时目标文本,利用预训练语言模型对所述实时目标文本进行处理,得到所述实时目标文本对应的语义信息特征;

10、确定模块,用于根据所述实时目标文本对应的语义信息特征,确定每两个语义信息的相似度;

11、增强模块,用于基于所述语义信息的相似度,将所述实时目标文本对应的语义信息特征再加入对比学习模型进行增强处理,得到所述实时目标文本对应的语义向量;

12、计算模块,用于对所述实时目标文本对应的语义向量进行聚类计算,获取多个语义相近的句子簇;

13、生成模块,用于对所述多个语义相近的句子簇利用最长公共子串进行挖掘,将所挖掘的语义句子信息作为文本模板解码器的输入,利用所述文本模板解码器输出所述实时目标文本对应的文本模板。

14、第三方面,本发明实施例提供一种计算机设备,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的智能日志文本模板挖掘方法。

15、第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的智能日志文本模板挖掘方法。

16、本发明与现有技术相比存在的有益效果是:

17、本发明提供了一种智能日志文本模板挖掘方法、装置、设备及存储介质,通过获取待挖掘日志的实时目标文本,利用预训练语言模型对实时目标文本进行处理,得到实时目标文本对应的语义信息特征,根据实时目标文本对应的语义信息特征,确定每两个语义信息的相似度,基于语义信息的相似度,将实时目标文本对应的语义信息特征再加入对比学习模型进行增强处理,得到实时目标文本对应的语义向量,对实时目标文本对应的语义向量进行聚类计算,获取多个语义相近的句子簇,然后对所述多个语义相近的句子簇利用最长公共子串进行挖掘,将所挖掘的语义句子信息作为文本模板解码器的输入,利用所述文本模板解码器输出所述实时目标文本对应的文本模板。本发明中,利用深度学习神经网络模型学到语义信息,采用对比学习增强模型的学习能力,并利用聚类得到相近句子簇,以最长公共子串的方法选择相近的语义句子信息再进行解码得到日志文本模板。以此应用在多个领域,如文书生成、外呼剧本生成等多个需要文本准确且相对垂直的领域,并且可以定期根据待挖掘日志的实时目标文本进行文本模板更新,大大减少每次更新模板所需的时间和人工精力。本申请不仅使得获取到日志文本模版的过程简单,还提高了挖掘效率和准确率,且在得到模板后,还能通过不同手段拓展槽位,减少领域专家人工编写所花费的时间和精力。



技术特征:

1.一种智能日志文本模板挖掘方法,其特征在于,包括:

2.如权利要求1所述的智能日志文本模板挖掘方法,其特征在于,所述利用预训练语言模型对所述实时目标文本进行处理,得到所述实时目标文本对应的语义信息特征,包括:

3.如权利要求1所述的智能日志文本模板挖掘方法,其特征在于,所述基于所述语义信息的相似度,将所述实时目标文本对应的语义信息特征再加入对比学习模型进行增强处理,得到所述实时目标文本对应的语义向量,包括:

4.如权利要求3所述的智能日志文本模板挖掘方法,其特征在于,根据所述语义信息的相似度和所述实时目标文本对应的多个携带词序的语义单元,构建所述实时目标文本对应的正例语义句子表达式,包括:

5.如权利要求1所述的智能日志文本模板挖掘方法,其特征在于,所述对所述实时目标文本对应的语义向量进行聚类计算,获取多个语义相近的句子簇,包括:

6.如权利要求1所述的智能日志文本模板挖掘方法,其特征在于,所述对所述多个语义相近的句子簇利用最长公共子串进行挖掘,将所挖掘的语义句子信息作为文本模板解码器的输入,利用所述文本模板解码器输出所述实时目标文本对应的文本模板,还包括:

7.如权利要求6所述的智能日志文本模板挖掘方法,其特征在于,所述通过利用文本模板解码器进行处理,得到所述实时目标文本对应的文本模板之后,还包括:

8.一种智能日志文本模板挖掘装置,其特征在于,包括:

9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的智能日志文本模板挖掘方法。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的智能日志文本模板挖掘方法。


技术总结
本发明涉及人工智能技术领域,尤其涉及一种智能日志文本模板挖掘方法、装置、设备及存储介质。通过获取待挖掘日志的实时目标文本,利用预训练语言模型对实时目标文本进行处理,得到实时目标文本对应的语义信息特征,以此确定每两个语义信息的相似度,然后将实时目标文本对应的语义信息特征再加入对比学习模型进行增强处理,得到实时目标文本对应的语义向量,再进行聚类计算,获取多个语义相近的句子簇,利用最长公共子串进行挖掘,将所挖掘的语义句子信息作为文本模板解码器的输入,利用文本模板解码器输出实时目标文本对应的文本模板,并且可以定期根据待挖掘日志的实时目标文本进行文本模板更新,大大提高了文本模板挖掘效率和准确率。

技术研发人员:孙梓淇
受保护的技术使用者:中国平安人寿保险股份有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1