一种会话意图智能识别模型的构建方法、装置及设备与流程

文档序号:23419862发布日期:2020-12-25 11:42阅读:171来源:国知局
一种会话意图智能识别模型的构建方法、装置及设备与流程

本发明属于大数据人工智能技术领域,尤其涉及一种会话意图智能识别模型的构建方法、装置及设备。



背景技术:

随着社会信息化、智能化不断发展,基于自然语言理解的智能客服、智能助手、聊天机器人等智能会话应用开始广泛使用。意图识别模型在人机交互会话中,分析用户输入信息、确认用户交互意图,是此类应用的核心组件,意图识别模型的优劣对应用智能化程度和用户体验水平具有决定性影响。

目前意图识别模型,主要为有监督方式训练,需要标注大量语料,而此类应用一般面向海量互联网用户,用户意图复杂繁多且容易随着时间而变化。现有意图识别模型构建过程主要包括语料标注和模型训练两个过程,其中,语料标注、意图修改需要花费大量人力和时间,如何快速、高效、低成本地构建意图识别模型一直是此类应用建设中的关键点。现有意图识别模型构建方法主要有:采用人工标注方式对领域文本数据集进行标注,之后进行模型训练;或者通过聚类方法进行意图发现及意图语料收集,但大规模的业务数据从不同角度理解能够得到不同的主题类别,聚类发现的主题往往并非业务所需要的,该方法远远无法满足实际业务需求;或者通过模型预测结果作为指导,利用大量用户选择数据生成训练样本,但该方法使用标准样本训练初始预测模型,而标准样本依赖人工标注获取,该方法没有解决标准样本的标注问题,在无法获取用户反馈时无法利用。

由此可见,现有的意图识别模型构建方法存在需要大量人工干预、数据标注耗时多以及模型训练困难的问题。



技术实现要素:

本发明实施例的目的在于提供一种会话意图智能识别模型的构建方法,旨在解决现有的意图识别模型构建方法存在需要人工大量干预、数据标注耗时多以及模型训练困难的问题。

本发明实施例是这样实现的,一种会话意图智能识别模型的构建方法,包括:

获取语料数据,所述语料数据包括已标注语料数据以及未标注语料数据;

根据所述已标注语料数据以及预设的语义分析算法,对所述未标注语料数据进行处理,生成有标签信息的意图语料数据;

根据所述意图语料数据,对预设的初始意图识别模型进行迭代训练,构建目标意图识别模型;所述初始意图识别模型是通过所述已标注语料数据经神经网络训练生成;

判断所述迭代训练是否满足预设的迭代结束条件;若否,则返回所述获取语料数据的步骤;若是,则迭代训练结束。

本发明实施例的另一目的在于一种会话意图智能识别模型的构建装置,包括:

语料数据获取单元,用于获取语料数据,所述语料数据包括已标注语料数据以及未标注语料数据;

意图语料数据生成单元,用于根据所述已标注语料数据以及预设的语义分析算法,对所述未标注语料数据进行处理,生成有标签信息的意图语料数据;

迭代训练单元,用于根据所述意图语料数据,对预设的初始意图识别模型进行迭代训练,构建目标意图识别模型;所述初始意图识别模型是通过所述已标注语料数据经神经网络训练生成;以及

判断单元,用于判断所述迭代训练是否满足预设的迭代结束条件;若否,则返回所述获取语料数据的步骤;若是,则迭代训练结束。

本发明实施例的另一目的在于一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述会话意图智能识别模型的构建方法的步骤。

本发明实施例的另一目的在于一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述会话意图智能识别模型的构建方法的步骤。

本发明实施例提供的会话意图智能识别模型的构建方法,利用大量无标注语料数据,基于预设的语义分析算法,实现训练语料半自动标注,仅需少量纠正即可完成大规模语料标注过程,降低语料标注成本;另外,将语料标注、模型优化问题作为一个统一任务进行迭代,实现意图识别模型生成过程中人工干预最小化、解决数据标注耗时、模型训练困难的问题。

附图说明

图1为本发明实施例提供的一种会话意图智能识别模型的构建方法的实现流程图;

图2为本发明实施例提供的另一种会话意图智能识别模型的构建方法的实现流程图;

图3为本发明实施例提供的又一种会话意图智能识别模型的构建方法的实现流程图;

图4为本发明实施例提供的再一种会话意图智能识别模型的构建方法的实现流程图;

图5为本发明实施例提供的还一种会话意图智能识别模型的构建方法的实现流程图;

图6为本发明实施例提供的一种优化的会话意图智能识别模型的构建方法的实现流程图;

图7为本发明实施例提供的另一种优化的会话意图智能识别模型的构建方法的实现流程图;

图8为本发明实施例提供的一种会话意图智能识别模型的构建装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本发明实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。

如图1所示,在一个实施例中,提出了一种会话意图智能识别模型的构建方法,具体可以包括以下步骤:

步骤s101,获取语料数据,所述语料数据包括已标注语料数据以及未标注语料数据。

在本发明实施例中,语料数据为基于现有大数据分析获得,包括对应业务领域的语料数据以及其他领域或通用领域文本语料数据,其中,已标注语料数据可以是现有技术中存在的经人为标注过的语料数据或者为机器学习标注的标准语料数据;未标注语料数据包括现有业务系统积累的无标注文本语料数据、大量无标注其他领域或通用领域文本语料数据。

步骤s102,根据所述已标注语料数据以及预设的语义分析算法,对所述未标注语料数据进行处理,生成有标签信息的意图语料数据。

在本发明实施例中,已标注语料数据均为携带有对应标签信息,所述标签信息包括意图类别以及语料核心词;意图类别根据具体业务确定,语料核心词是指能够表征语料样本关键主题信息的词汇等;所述预设的语义分析算法可以是一种或多种文本分析算法的组合,能够自动分析大规模语料数据,为自动标注以及推荐语料数据提供支撑,包括但不限于关键词完全匹配、文档词汇权重向量相似度计算、文档语义模型向量相似度计算等,具体地,包括语料核心词提取算法、语义压缩算法、语义匹配算法以及主题自动分析算法。其中,所述语料核心词提取算法包括tf-idf算法、textrank算法、lda算法、基于机器学习分类模型等。所述语义压缩算法是指输入词汇或短语,输出语义向量的语义模型;语义模型的构建可以基于无标注语料训练得到,也可以通过有监督模型训练得到;采用无监督模型训练时,可以采用bert模型等;采用有监督模型训练时,可以采用分类模型的输出前瓶颈向量等。所述语义匹配算法是指输入两个文本样例,输出其语义相似度的模型,可以通过使用语义模型获取文本的稠密向量表示,之后通过欧几里得距离、余弦相似度等方法计算得到;语义相似度是指两个文本在语义上的相近关系,语义相似度越大表示文本语义越接近。所述主题自动分析算法是指通过kmeans等聚类算法,或lda、plsa等主题分析模型等自动对语料数据进行主题分析,获取候选主题类别。其中,使用kmeans等距离算法进行聚类时,语料距离计算通过语义匹配模型进行计算。

在本发明实施例中,基于预设的语义分析算法,先对已标注语料数据进行语义提取、分析,在多种场景下结合已标注语料数据的语义信息自动进行未标注语料数据的标注或推荐标注,包括,推荐关键语料进行标注、自动对部分未标注语料进行标注或标注操作推荐、自动对部分语料进行取消标注或标注意图取消推荐、自动推荐可能的意图类别、推荐意图核心词、推荐意图核心语料等。其中,推荐关键语料进行标注是指结合语料现有标注结果,将与现有已标注语料最不相关的核心语料数据、未标注语料中意图模糊语料数据等综合推荐进行标注;结合意图核心词修改,自动将与意图核心词相关的未标注语料数据进行自动标注或推荐标注。语料相关性判断是基于语义匹配算法进行计算。核心语料是指多篇未标注语料数据中最具代表性的语料。其中,多篇未标注语料数据中最具代表性语料数据可以是所有语料聚类后的中心语料,与聚类中心点距离最小的语料。其中,未标注语料中意图模糊语料是指,基于语义匹配算法计算语料意图相关度,由所有模型相关度综合计算得到。另外,自动对部分语料进行标注或推荐是指将未标注语料数据中与本次标注语料数据相关的语料数据进行自动标注为对应类别或推荐为对应类别来等待确认。其中未标注语料数据中与本次标注语料相关语料通过语义匹配算法计算每篇未标注语料与与本次标注语料数据相关度计算得到。其中,自动推荐可能的意图类别是指,意图管理中,基于当前标注结果,对未标注语料进行聚类,将与现有已标注语料距离最远的核心类别作为候选意图进行推荐。其中,推荐意图相关核心词是指,意图核心词管理中,基于当前意图类别与相关标注语料,通过语料核心词提取算法进行提取,将提取结果作为语料候选核心词进行推荐。其中,推荐意图核心语料是指基于语义匹配模型,对意图核心词和大量未标注语料进行语义计算、排序,将语义相似度最高的样例作为候选意图核心数据自动进行标注或标注推荐。

在本发明一个优选实施例中,语义压缩算法是能够输入词汇、短语、句子,通过神经网络转换,输出为200维浮点型向量的模型。例如,输入文字“北京”,语义压缩模型输出结果为[0.1,0.2,0.3…0.8],向量维度为200维。神经网络采用rnn网络+两层全连接网络进行构建;第一层全连接网络输出为200维向量,使用该向量作为语义压缩模型输出向量;第二层全连接网络输出为分类结果。

在本发明一个优选实施例中,语义压缩模型基于bert模型使用领域语料再次训练实现。其中,使用领域语料再次训练得到是指,以通用模型为基础,使用领域语料微调后得到的模型。其中,使用领域语料微调是指,将语料中相邻句子作为训练语料,如“今天下雨了,气温有点低。”和“一会出门要多穿点衣服”两个句子,出现在语料中,且是相邻的上下句关系,将句子“今天下雨了,气温有点低。”作为模型输入,将句子“一会出门要多穿点衣服”作为模型输出进行训练。

在本发明一个优选实施例中,语义压缩模型基于word2vec模型实现,采用cbow模式训练神经网络获得。cbow网络为浅层网络,输入为t个词汇的压缩表示,输出为1个词汇的压缩表示,通过求和、平均输出压缩表示期望值,通过当前词汇压缩表示与输出压缩期望值差值损失来训练网络。通过差值损失训练网络时采用反向传播算法进行。

在本发明一个优选的实施例中,所述预设的语义分析算法包括核心词提取算法以及语义匹配算法;如图2所示,所述步骤102,包括:

步骤201,根据所述语料数据以及预设的核心词提取算法,分别提取所述已标注语料数据以及未标注语料数据的语料核心词。

步骤202,根据所述预设的语义匹配算法,计算所述已标注语料数据以及未标注语料数据的语料核心词的相似度。

步骤203,根据相似度小于预设距离阈值的已标注语料数据以及未标注语料数据,生成有标签信息的意图语料数据。

在本发明实施例中,语料核心词自动提取可以通过使用tf-idf算法实现,首先对语料所有文档全部词汇计算tf-idf值;随后对每篇语料内词汇按照tf-idf值进行排序,取前10个词汇作为文档核心词汇;最后对所有文档核心词汇进行统计,取前n个作为语料核心词汇。具体地,语料核心词自动提取通过以下算法实现,词汇权重其中wc为使用海量通用语料计算得到词汇通用权重,wd为使用业务语料计算得到词汇业务权重。其中,wc与wd为其中,wi为词汇在第i篇语料计算得到的tf-idf值。选择词汇权重w最大的词汇作为语料核心词。

在本发明实施例中,语料核心词的相似度可通过余弦相似度计算得到。设给定两个词汇x、y,计算其语义相似度时,首先使用语义压缩算法将其转换为向量表示vx=[vx,1...vx,100]与vy=[vy,1...vy,100];然后通过余弦相似度计算向量相似度,公式为余弦相似度越接近1表示语义关系越接近,当用作距离表示时,可以转换为dx,y=1-sx,y,此时两者语义关系越接近,其距离越小。

在本发明一个优选的实施例中,所述预设的语义分析算法还包括语义压缩算法;如图3所示,所述步骤102,还包括:

步骤301,响应于第一已标注语料数据和/或第一意图语料数据的标签信息的删除操作,根据所述语义压缩算法,计算所述第一已标注语料数据和/或第一意图语料数据的向量表示。

步骤302,获取与所述第一已标注语料数据和/或第一意图语料数据的向量表示的相似度符合预设相似阈值的第二已标注语料数据和/或第二意图语料数据,并对所述第二已标注语料数据和/或第二意图语料数据的标签信息进行删除。

在本发明实施例中,对部分语料数据的标签信息进行删除即为对部分语料数据的标签信息进行取消标注或者取消推荐;具体地,在对任意语料文档已标注意图进行删除后,首先通过语义压缩算法计算该语料的向量表示d;然后使用语义压缩算法对该文档原意图内所有文档计算向量表示,然后使用语义匹配算法计算其相似度,最后将语义距离最近的100篇文档推荐进行自动取消标注或标注意图取消推荐。

在本发明一个优选的实施例中,如图4所示,所述步骤102,包括:

步骤401,获取所述已标注语料数据的意图中心表示。

步骤402,获取所述未标注语料数据的矩阵表示。

步骤403,根据所述预设的语义分析算法,计算所述未标注语料数据的矩阵表示与所述意图中心表示的距离值,并将符合预设距离阈值的未标注语料数据按照所述意图中心表示进行处理,生成有标签信息的意图语料数据。

在本发明实施例中,结合当前已标注语料数据,将最相关语料自动进行标注或标注推荐方法为:首先获取已标注语料数据的意图中心表示t;然后获取所有未标注语料数据的矩阵表示;然后通过语义分析算法计算所有未标注语料与各意图中心表示的距离d,最后将与各意图距离最近的100个语料作为自动标注结果进行标注或推荐标注。其中,意图中心表示t是由该意图所有意图核心词表示计算得到。意图核心词均通过语义分析算法转换为200维矢量矩阵。例如,意图第i个核心词表示为twi={twi,1...twi,200}。则意图tj的的中心表示为tj={tj,1...tj,200}。其中,各个维度由所有意图核心词对应维度计算得到,计算公式为其中n为意图核心词个数。

在本发明一个优选的实施例中,根据未标注语料数据的意图模糊度进行语料标注推荐,设意图集合为t={t1...tn},第i个意图内已标注语料集合为di={d1...dm},未标注语料集合为du={d1...du}。任意未标注语料di与任意已标注语料dj距离为li,j,则语料di与任意意图tj的距离为则语料di的意图模糊度为其中max(ldt)为语料di与所有意图距离的最大值。

在本发明一个优选的实施例中,如图5所示,所述步骤102,包括:

步骤501,根据所述语义分析算法,计算所述未标注语料数据的向量表示以及所述已标注语料数据的意图中心表示。

步骤502,计算所述未标注语料数据的向量表示以及所述已标注语料数据的意图中心表示的距离,并将距离大于预设距离阈值的未标注语料数据作为候选语料数据集合。

步骤503,对所述候选语料数据集合进行聚类,获得所述未标注语料数据在预设中心范围内的多个候选意图,并将所述多个候选意图以及对应的未标注语料数据作为意图语料数据进行推荐。

在本发明实施例中,意图获取可通过kmeans算法聚类得到。首先随机初始化k个聚类核心;然后使用所有语料的压缩表示计算到所有聚类核心的距离,将语料划分到距离最小的核心类别;然后使用每个聚类核心类别的语料,求均值作为类别核心;重复计算距离与更新核心步骤n次,直到聚类核心不再变化。意图语料数据推荐方式可以为,计算所有意图的意图中心表示t,对未标注语料采用kmeans算法进行聚类,得到k个候选中心;计算所有未标注语料与k个候选中心的距离,每个候选中心取一个距离最小的语料作为核心语料,得到k个核心语料;每个核心语料与t个意图中心表示计算距离,取最小距离作为核心语料距离,得到k个核心语料距离;取核心语料距离最大的m个语料作为推荐标注语料;或者可以为:使用语义压缩算法对所有未标注文档进行处理,得到向量表示ds后,计算现有意图的意图中心表示t,进一步计算ds内所有文档与所有意图中心表示t的距离,取距离大于0.7的文档为候选文档集合;然后基于kmeans算法对候选文档集合进行聚类得到k个中心;最后将k个中心作为候选意图进行推荐。

在本发明一个优选的实施例中,如图6所示,所述步骤102之后,还包括:

步骤601,接收用户对所述标签信息的调整操作,获得意图核心词。

步骤602,根据所述意图核心词,生成意图核心语料,并将所述意图核心语料作为意图语料数据进行推荐。

在本发明实施例中,当接收到用户对某一语料进行标签信息删除、或者修改、或者添加信息时,基于语义分析算法,结合调整结果,自动对其他近似语料进行标注或推荐标注、删除或取消标注等处理。用户对标签信息的调整操作可以是基于输入及反馈干预插件进行,如基于b\s架构的软件系统,用户可以通过浏览器交互方式干预全过程,其server端在用户触发动作后,自动进行推荐反馈、自动标注;或者基于c\s架构的软件系统,用户可以通过客户端与服务器交互实时干预,其中,客户端软件可以是可视化界面软件,也可以是命令行式指令界面。

在本发明实施例中,用户指令、反馈信息实现的功能包括:意图类别管理、语料管理、模型管理等。其中,意图类别管理包括,新建意图、删除意图、意图核心词汇添加、意图核心词汇删除功能。其中,语料管理包括,未标注语料上传、标注语料上传、标注结果确认。其中,模型管理包括,启动模型训练、查看模型评估结果、设置模型训练参数。

本发明实施例提供的会话意图智能识别模型的构建方法,综合利用机器学习、自然语言理解技术,通过引入交互式反馈干预手段为后续迭代式模型生成过程奠定基础,可支持业务专家参与意图识别模型构建全过程,将语料标注、模型训练问题一体化解决。另外,结合利用大量无标注语料数据,基于预设的语义分析算法,实现训练语料半自动标注或推荐标注,提高交互效率、实现干预操作最小化。

步骤s103,根据所述意图语料数据,对预设的初始意图识别模型进行迭代训练,构建目标意图识别模型。

在本发明实施例中,初始意图识别模型是通过所述已标注语料数据经神经网络训练生成,具体地,基于机器学习模型以及给定意图类别、语料核心词的有标签的语料数据进行训练生成意图识别模型,其中,机器学习模型为有监督学习方法,包括但不限于svm、lstm网络、transformer等;其中,采用lstm或transformer等神经网络模型进行意图识别模型构建时,使用损失函数计算模型预测意图与实际标注意图差值,通过adam等反向传播算法调整模型参数,使损失最小化完成训练过程;其中,损失函数可以采用mse、交叉熵损失等;另外,也可以为现有模型。具体地,意图识别模型由使用bert模型、lstm模型、全连接网络相结合得到,使用bert模型输出的向量作为lstm模型输入向量,使用lstm模型输出向量作为全连接网络输入,全连接网络输出为意图类别;其中,损失函数使用交叉熵损失函数;梯度更新策略采用adam算法进行;全连接网络最终输出的意图类别为0-1的概率值,越接近1表示置信度越高。

在本发明实施例中,迭代训练能够针对特定场景优化意图识别模型训练过程;其中,特定场景是指训练意图识别模型时存在较大规模无标注业务语料数据和少量有标注业务语料数据;其中,迭代训练是指将模型构建、语料扩充作为一个整体进行多次迭代,直到满足终止条件。

在本发明实施例中,利用现有模型对大量未标注数据进行自动标注,并通过特定方法将自动标注结果中高置信度语料数据加入训练语料进行重复训练,持续多次迭代后能够增强模型鲁棒性并提高模型识别精度;其中,现有模型是指上次迭代训练完成后得到的模型;语料扩充是指使用现有模型对未标注语料数据进行预测,将符合扩充规则的识别结果加入到训练语料中;扩充规则包括但不限于采取基于置信度阈值选取、基于排序结果选择等;终止条件包括但不限于最大迭代次数、最小模型调整幅度等;最大迭代次数是指迭代式训练方法最多不能超过的次数;通过特定方法将自动标注结果中高置信度语料数据加入训练语料进行重复训练中,特定方法为通过置信度进行筛选,筛选方法可以为将所有置信度大于0.95的数据加入训练数据,置信度值可以由专家调整进行设置;还可以为将所有置信度大于0.95的数据中前n条加入训练数据,n可以为100、1000等数值,可以由专家指定具体数值。

步骤s104,判断所述迭代训练是否满足预设的迭代结束条件;若否,则返回至所述步骤s101;若是,则进入步骤s105。

在本发明实施例中,迭代结束条件即迭代训练终止条件包括但不限于最大迭代次数、最小模型调整幅度等;最大迭代次数是指迭代式训练方法最多不能超过的次数。

步骤s105,迭代训练结束。

本发明实施例提供的会话意图智能识别模型的构建方法,利用大量无标注语料数据,基于预设的语义分析算法,实现训练语料半自动标注,仅需少量纠正即可完成大规模语料标注过程,降低语料标注成本;另外,将语料标注、模型优化问题作为一个统一任务进行迭代,实现意图识别模型生成过程中人工干预最小化、解决数据标注耗时、模型训练困难的问题。

在一个实施例中,如图7所示,步骤s104具体可以包括以下步骤:

步骤s701,获取携带有语料测试标签信息的评估语料数据。

在本发明实施例中,评估语料数据是用于对目标意图识别模型的意图识别效果进行评估。

步骤s701,根据所述评估语料数据以及目标意图识别模型,确定模型意图标注结果信息。

步骤s702,计算所述语料测试标签信息以及模型意图标准结果的损失差异。

步骤s703,判断所述语料测试标签信息以及模型意图标准结果的损失差异是否满足预设条件。

步骤s704,当所述语料测试标签信息以及模型意图标准结果的损失差异满足预设条件时,则迭代训练结束;

步骤s705,当所述语料测试标签信息以及模型意图标准结果的损失差异不满足预设条件时,则对所述意图语料数据的标签信息进行修改,并返回至所述步骤s103。

在本发明实施例中,对迭代训练得到的目标意图识别模型可以通过多种方法评价其效果,包括但不限于从无标注语料随机抽取n篇语料、由模型进行识别后评估准确率、构建测试语料,经模型进行识别后对结果进行比对等。模型效果评估后,对模型进行有针对性地调整,对所述意图语料数据的标签信息进行修改,如依次对意图类别、意图核心词、意图语料进行适应性调整,形成新的意图语料数据,并返回至所述根据所述意图语料数据,对预设的初始意图识别模型进行迭代训练,构建目标意图识别模型的步骤。

如图8所示,在一个实施例中,提供了一种会话意图智能识别模型的构建装置,具体包括:

语料数据获取单元810,用于获取语料数据,所述语料数据包括已标注语料数据以及未标注语料数据。

在本发明实施例中,语料数据为基于现有大数据分析获得,包括对应业务领域的语料数据以及其他领域或通用领域文本语料数据,其中,已标注语料数据可以是现有技术中存在的经人为标注过的语料数据或者为机器学习标注的标准语料数据;未标注语料数据包括现有业务系统积累的无标注文本语料数据、大量无标注其他领域或通用领域文本语料数据。

意图语料数据生成单元820,用于根据所述已标注语料数据以及预设的语义分析算法,对所述未标注语料数据进行处理,生成有标签信息的意图语料数据。

在本发明实施例中,已标注语料数据均为携带有对应标签信息,所述标签信息包括意图类别以及语料核心词;意图类别根据具体业务确定,语料核心词是指能够表征语料样本关键主题信息的词汇等;所述预设的语义分析算法可以是一种或多种文本分析算法的组合,能够自动分析大规模语料数据,为自动标注以及推荐语料数据提供支撑,包括但不限于关键词完全匹配、文档词汇权重向量相似度计算、文档语义模型向量相似度计算等,具体地,包括语料核心词提取算法、语义压缩算法、语义匹配算法以及主题自动分析算法。其中,所述语料核心词提取算法包括tf-idf算法、textrank算法、lda算法、基于机器学习分类模型等。所述语义压缩算法是指输入词汇或短语,输出语义向量的语义模型;语义模型的构建可以基于无标注语料训练得到,也可以通过有监督模型训练得到;采用无监督模型训练时,可以采用bert模型等;采用有监督模型训练时,可以采用分类模型的输出前瓶颈向量等。所述语义匹配算法是指输入两个文本样例,输出其语义相似度的模型,可以通过使用语义模型获取文本的稠密向量表示,之后通过欧几里得距离、余弦相似度等方法计算得到;语义相似度是指两个文本在语义上的相近关系,语义相似度越大表示文本语义越接近。所述主题自动分析算法是指通过kmeans等聚类算法,或lda、plsa等主题分析模型等自动对语料数据进行主题分析,获取候选主题类别。其中,使用kmeans等距离算法进行聚类时,语料距离计算通过语义匹配模型进行计算。

在本发明实施例中,基于预设的语义分析算法,先对已标注语料数据进行语义提取、分析,在多种场景下结合已标注语料数据的语义信息自动进行未标注语料数据的标注或推荐标注,包括,推荐关键语料进行标注、自动对部分未标注语料进行标注或标注操作推荐、自动对部分语料进行取消标注或标注意图取消推荐、自动推荐可能的意图类别、推荐意图核心词、推荐意图核心语料等。其中,推荐关键语料进行标注是指结合语料现有标注结果,将与现有已标注语料最不相关的核心语料数据、未标注语料中意图模糊语料数据等综合推荐进行标注;结合意图核心词修改,自动将与意图核心词相关的未标注语料数据进行自动标注或推荐标注。语料相关性判断是基于语义匹配算法进行计算。核心语料是指多篇未标注语料数据中最具代表性的语料。其中,多篇未标注语料数据中最具代表性语料数据可以是所有语料聚类后的中心语料,与聚类中心点距离最小的语料。其中,未标注语料中意图模糊语料是指,基于语义匹配算法计算语料意图相关度,由所有模型相关度综合计算得到。另外,自动对部分语料进行标注或推荐是指将未标注语料数据中与本次标注语料数据相关的语料数据进行自动标注为对应类别或推荐为对应类别来等待确认。其中未标注语料数据中与本次标注语料相关语料通过语义匹配算法计算每篇未标注语料与与本次标注语料数据相关度计算得到。其中,自动推荐可能的意图类别是指,意图管理中,基于当前标注结果,对未标注语料进行聚类,将与现有已标注语料距离最远的核心类别作为候选意图进行推荐。其中,推荐意图相关核心词是指,意图核心词管理中,基于当前意图类别与相关标注语料,通过语料核心词提取算法进行提取,将提取结果作为语料候选核心词进行推荐。其中,推荐意图核心语料是指基于语义匹配模型,对意图核心词和大量未标注语料进行语义计算、排序,将语义相似度最高的样例作为候选意图核心数据自动进行标注或标注推荐。

迭代训练单元830,用于根据所述意图语料数据,对预设的初始意图识别模型进行迭代训练,构建目标意图识别模型;所述初始意图识别模型是通过所述已标注语料数据经神经网络训练生成。

在本发明实施例中,初始意图识别模型是通过所述已标注语料数据经神经网络训练生成,具体地,基于机器学习模型以及给定意图类别、语料核心词的有标签的语料数据进行训练生成意图识别模型,其中,机器学习模型为有监督学习方法,包括但不限于svm、lstm网络、transformer等;其中,采用lstm或transformer等神经网络模型进行意图识别模型构建时,使用损失函数计算模型预测意图与实际标注意图差值,通过adam等反向传播算法调整模型参数,使损失最小化完成训练过程;其中,损失函数可以采用mse、交叉熵损失等;另外,也可以为现有模型。具体地,意图识别模型由使用bert模型、lstm模型、全连接网络相结合得到,使用bert模型输出的向量作为lstm模型输入向量,使用lstm模型输出向量作为全连接网络输入,全连接网络输出为意图类别;其中,损失函数使用交叉熵损失函数;梯度更新策略采用adam算法进行;全连接网络最终输出的意图类别为0-1的概率值,越接近1表示置信度越高。

在本发明实施例中,迭代训练能够针对特定场景优化意图识别模型训练过程;其中,特定场景是指训练意图识别模型时存在较大规模无标注业务语料数据和少量有标注业务语料数据;其中,迭代训练是指将模型构建、语料扩充作为一个整体进行多次迭代,直到满足终止条件。

在本发明实施例中,利用现有模型对大量未标注数据进行自动标注,并通过特定方法将自动标注结果中高置信度语料数据加入训练语料进行重复训练,持续多次迭代后能够增强模型鲁棒性并提高模型识别精度;其中,现有模型是指上次迭代训练完成后得到的模型;语料扩充是指使用现有模型对未标注语料数据进行预测,将符合扩充规则的识别结果加入到训练语料中;扩充规则包括但不限于采取基于置信度阈值选取、基于排序结果选择等;终止条件包括但不限于最大迭代次数、最小模型调整幅度等;最大迭代次数是指迭代式训练方法最多不能超过的次数;通过特定方法将自动标注结果中高置信度语料数据加入训练语料进行重复训练中,特定方法为通过置信度进行筛选,筛选方法可以为将所有置信度大于0.95的数据加入训练数据,置信度值可以由专家调整进行设置;还可以为将所有置信度大于0.95的数据中前n条加入训练数据,n可以为100、1000等数值,可以由专家指定具体数值。

判断单元840,用于判断所述迭代训练是否满足预设的迭代结束条件;若否,则返回至所述获取语料数据的步骤;若是,则迭代训练结束。

在本发明实施例中,迭代结束条件即迭代训练终止条件包括但不限于最大迭代次数、最小模型调整幅度等;最大迭代次数是指迭代式训练方法最多不能超过的次数。

本发明实施例提供的会话意图智能识别模型的构建装置,利用大量无标注语料数据,基于预设的语义分析算法,实现训练语料半自动标注,仅需少量纠正即可完成大规模语料标注过程,降低语料标注成本;另外,将语料标注、模型优化问题作为一个统一任务进行迭代,实现意图识别模型生成过程中人工干预最小化、解决数据标注耗时、模型训练困难的问题。

在一个实施例中,提出了一种计算机设备,所述计算机设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取语料数据,所述语料数据包括已标注语料数据以及未标注语料数据;

根据所述已标注语料数据以及预设的语义分析算法,对所述未标注语料数据进行处理,生成有标签信息的意图语料数据;

根据所述意图语料数据,对预设的初始意图识别模型进行迭代训练,构建目标意图识别模型;所述初始意图识别模型是通过所述已标注语料数据经神经网络训练生成;

判断所述迭代训练是否满足预设的迭代结束条件;若否,则返回至所述获取语料数据的步骤;若是,则迭代训练结束。

在一个实施例中,提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:

获取语料数据,所述语料数据包括已标注语料数据以及未标注语料数据;

根据所述已标注语料数据以及预设的语义分析算法,对所述未标注语料数据进行处理,生成有标签信息的意图语料数据;

根据所述意图语料数据,对预设的初始意图识别模型进行迭代训练,构建目标意图识别模型;所述初始意图识别模型是通过所述已标注语料数据经神经网络训练生成;

判断所述迭代训练是否满足预设的迭代结束条件;若否,则返回至所述获取语料数据的步骤;若是,则迭代训练结束。

应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1