基于阅读理解的营销线索提取方法、装置及计算机可读存储介质与流程

文档序号:18796919发布日期:2019-09-29 19:49阅读:173来源:国知局
基于阅读理解的营销线索提取方法、装置及计算机可读存储介质与流程

本发明涉及计算机技术领域,尤其涉及一种基于阅读理解的营销线索提取方法、装置及计算机可读存储介质。



背景技术:

机器阅读理解(machinereadingcomprehension,mrc)是自然语言处理领域的一个重要课题,其目的在于让计算机在海量文本中找到精确的答案,从而减轻人类获得信息的成本。机器阅读理解作为自然语言处理的一个子领域,在近年来受到了极高的关注的同时也取得了长足的发展。更丰富的数据以及更加多样、先进的模型的出现,使得机器能更好地处理自然语言文本输入,并在一定程度上能够就针对输入文本提出的相关问题作出回答。这对于构建更加高级的自然语言处理应用,如自动问答(qa)、对话系统(dialoguesystem),提供更加智能、高效、个性化的搜索引擎服务,乃至于构建真正的强人工智能,都具有重要的基础意义。

目前市场上的常见的保险销售接触渠道主要是保险代理人通过线下接触和坐席电话销售,其中坐席电话销售以其便捷性、低成本、高覆盖的特点,是目前比较主流的保险推销渠道。但是考虑到通过坐席电话销售,每天需要拨通上百通电话,高强度的工作量和情绪的波动往往会让保险代理人忽略一些来自客户的重要销售线索,从而错失潜在的销售机会。



技术实现要素:

本发明的主要目的在于提供一种可以实现自动提取营销线索的基于阅读理解的营销线索提取方法、装置及计算机可读存储介质。

为实现上述目的,本发明提供一种基于阅读理解的营销线索提取方法,该方法包括:

步骤a:获取与客户对话的文本信息;

步骤b:将所述文本信息中的有效对话内容归纳问答对;

步骤c:根据所述归纳的问答对构成标注数据集;

步骤d:根据所述数据集构建阅读理解系统;

步骤e:从所述阅读理解系统中提取营销线索。

进一步地,所述步骤a包括:

获取与客户对话的语音信息;及

将所述语音信息转换为文本信息。

进一步地,所述步骤b包括:

提取所述文本信息中的有效对话内容;

将所提取的文本信息中的有效对话内容整理成段落篇章;及

从所述段落篇章归纳篇章中归纳问答对。

进一步地,通过过滤所述文本信息中的无效对话内容,以所述文本信息中的有效对话内容;其中,所述无效对话内容包括无效语气词、象声词及礼貌用语。

进一步地,在所述步骤c中,将对话段落标注为d,将问题标注为q,将答案标注为a,以构成包括对话段落、问题及答案的数据集<d,q,a>;所述步骤d包括:

步骤d1:将所述数据集进行向量化特征表示;

步骤d3:利用注意力机制(attentionmechanism,am)对所述数据集的对话段落d和问题q进行融合;及

步骤d4:基于数据集的训练样本<d,q,a>,训练指针网络(pointernetwork)。

进一步地,所述步骤d还包括:

步骤d2:通过编码器对所述对话段落和所述问题进行编码。

进一步地,所述步骤d还包括:

步骤d5:通过所述指针网络实现答案a在对话段落d中片段的提取。

进一步地,在所述步骤d1中,通过分词和向量化模型将所述数据集向量化,以将所述数据集进行向量化特征表示。

为实现上述目的,本发明还提供一种基于阅读理解的营销线索提取方装置,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的基于阅读理解的营销线索提取程序,所述基于阅读理解的营销线索提取程序被所述处理器执行时实现如上所述的基于阅读理解的营销线索提取方法。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于阅读理解的营销线索提取程序,所述基于阅读理解的营销线索提取程序可被一个或者多个处理器执行,以实现如上所述的基于阅读理解的营销线索提取方法的步骤。

本发明提出的基于阅读理解的营销线索提取方法是基于自然语言处理及基于深度学习、并应用在电话坐席推销场景中;其中深度学习模型主要可以采用循环神经网络(recurrentneuralnetwork,rnn),而神经元采用了lstm(longshort-termmemory,长短期记忆)网络,通过将坐席与客户对话进行录音,然后将已录音的语音信息转换为文本信息,再提取文本信息中的有效对话内容,然后将所提取的文本信息中的有效对话内容整理成段落篇章、再从段落篇章归纳篇章中归纳问答对,然后根据归纳的问答对自动提取重要销售线索,从而完善陌生客户画像,挖掘潜在客户,节约人力成本,并实现推动销售的业绩转化。

附图说明

图1为本发明一实施例提供的基于阅读理解的营销线索提取方法的流程示意图;

图2为图1中的步骤d的流程示意图;

图3为本发明一实施例提供的基于阅读理解的营销线索提取装置的内部结构示意图。

图4为本发明一实施例提供的基于阅读理解的营销线索提取装置中的基于阅读理解的营销线索提程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供一种基于阅读理解的营销线索提取方法。参照图1所示,为本发明一实施例提供的基于阅读理解的营销线索提取方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。

在本实施例中,所述基于阅读理解的营销线索提取方法包括:

步骤a:获取与客户对话的文本信息;

步骤b:将所述文本信息中的有效对话内容归纳问答对;

步骤c:根据所述归纳的问答对构成标注数据集;

步骤d:根据所述数据集构建阅读理解系统;

步骤e:从所述阅读理解系统中提取营销线索。

进一步地,所述步骤a包括:

获取与客户对话的语音信息;及

将所述语音信息转换为文本信息。具体地,在一实施例中,通过语音识别(automaticspeechrecognition,asr)技术将坐席与客户对话进行录音,以便获取与客户对话的语音信息,然后获取到的与客户对话的语音信息转换为文本信息。

可选地,所述语音信息包括至少一问答对,其中,每一问答对包括至少一个问题、和与所述至少一个问题对应的答案。

同样地,所述文本信息包括至少一问答对,其中,每一问答对包括至少一个问题、和与所述至少一个问题对应的答案。

更进一步地,所述步骤b包括:

提取所述文本信息中的有效对话内容;

将所提取的文本信息中的有效对话内容整理成段落篇章;及

从所述段落篇章归纳篇章中归纳问答对。

具体地,在一实施例中,通过过滤所述文本信息中的无效对话内容,以提取所述文本信息中的有效对话内容;其中,所述文本信息中的无效对话内容包括:无效语气词(例如:啊、啦、唉、呢、吧、了、哇、呀、吗、哦、噢、喔、呵、嘿)、象声词(例如:哈哈、嘿嘿、呵呵)及礼貌用语(例如:您好、谢谢、对不起、明白了)。

更进一步地,所述“从所述段落篇章归纳篇章中归纳问答对”步骤包括:归纳出最想了解的几种问题q1,q2,q3...qn,具体地,包括客户年龄,性别,孩子几个,孩子几岁,买过什么保险,对保险有什么看法等等。

进一步地,在所述步骤c中,将对话段落标注为d,将问题标注为q,将答案标注为a,以构成包括对话段落、问题及答案的数据集<d,q,a>。

进一步地,参照图2所示,所述步骤d包括:

步骤d1:将所述数据集进行向量化特征表示。具体地,在一实施例中,通过分词和向量化模型将所述数据集向量化,以将所述数据集进行向量化特征表示。例如,在一实施例中,将每个分词进行100维表示。其中,所述向量化模型可选用word2vec、glove等。

更详细地,在一实施例中,根据答案a:“我已经买了一年期的健康险”,执行分词步骤:“我”、“已经”、“买”“一年期”“健康险”,从而得到分词的结果:“我”、“已经”、“买”“一年期”“健康险”,其中答案a中“了”和“的”作为无效词被删掉了;执行向量化模型步骤:利用word2vec(或者glove)等开源的词向量工具,将“我”“已经”“买”“一年期”“健康险”转化成100维的向量,例如:其中的“我”转化成100维的向量为:[0000000010000000...],其中的“健康险”转化成100维的向量为:[0001000001001000...]。

步骤d2:通过编码器对所述对话段落和所述问题进行编码。在一实施例中,所述编码器可以是基于序列到序列的神经网络,例如可以是采用循环神经网络(recurrentneuralnetwork,rnn)、卷积神经网络(convolutionneutralnetwork,cnn)等神经网络模型构建。其中,所述编码器可以是单向的神经网络模型,也可以是双向的神经网络模型。在本实施例中,所述编码器可以是rnn。

步骤d3:利用注意力机制(attentionmechanism,am)对所述数据集的对话段落d和问题q进行融合。

具体地,通过注意力机制对所述对话段落d和问题q进行融合,以融合成统一的向量序列<d,q>,从而能有效避免因为内容过长导致模型性能变差。

通过保留lstm(longshort-termmemory,长短期记忆)编码器对输入序列的中间输出结果,然后训练一个模型来对这些输入进行选择性的学习并且在模型输出时将输出序列与之进行关联。

步骤d4:基于数据集的训练样本<d,q,a>,训练指针网络(pointernetwork)。

步骤d5:通过所述指针网络实现答案a在对话段落d中片段的提取。具体地,通过所述指针网络获取与答案a关系最大的对话段落d中的开始位置与结束位置,从而获取与答案a关系最大的对话段落d中的位置。

其中,训练时的目标函数包括:

1.最大似然估计的计算公式:

2.最小风险训练的计算公式:

进一步地,所述基于阅读理解的营销线索提取方法还包括:

根据业务词典,从所归纳的问题对中提取核心语句;及

所述业务词典为通过机器学习得到的名词库。

其中,所述业务词典是由一些名词组成的名词库,在不同的业务领域,对应不同的业务词典。例如,在保险行业的业务词典为:意外伤害保险、保证保险、信用保险、健康保险、财产保险、团体保险、养老保险等。在手机通信行业的业务词典为:本地通话、漫游通话、增值业务、来电显示、信息点播等。在金融行业的业务词典为:个人业务、中小企业业务、公司业务、账户预开立、存款业务、融资业务、供应链金融业务、国际业务、资金业务、托管业务、政府与公共项目业务、现金管理、便利服务、支付结算、投资理财、转账汇款等。

本发明在在实际业务中进行展开应用时,通过语音识别技术将坐席与客户对话进行录音、将已录音的语音信息转换为文本信息、提取文本信息中的有效对话内容,然后将所提取的文本信息中的有效对话内容整理成段落篇章、再从段落篇章归纳篇章中归纳问答对,然后根据归纳的问答对构成标注数据集<d,q,a>,接着将数据集<d,q,a>进行向量化特征表示、通过编码器对所述对话段落和所述问题进行编码、利用注意力机制对所述数据集的对话段落d和问题q进行融合、通过保留lstm编码器对输入序列的中间输出结果,然后训练一个模型来对这些输入进行选择性的学习并且在模型输出时将输出序列与之进行关联,基于数据集的训练样本<d,q,a>,训练指针网络、通过所述指针网络获取与答案a关系最大的对话段落d中的开始位置与结束位置,从而获取与答案a关系最大的对话段落d中的位置。

本发明提出的基于阅读理解的营销线索提取方法,是基于自然语言处理及基于深度学习、并应用在电话坐席推销场景中;其中深度学习模型主要可以采用循环神经网络(recurrentneuralnetwork,rnn),而神经元采用了lstm(longshort-termmemory,长短期记忆)网络,通过将坐席与客户对话进行录音,然后将已录音的语音信息转换为文本信息,再提取文本信息中的有效对话内容,然后将所提取的文本信息中的有效对话内容整理成段落篇章、再从段落篇章归纳篇章中归纳问答对,然后根据归纳的问答对自动提取重要销售线索,从而完善陌生客户画像,挖掘潜在客户,节约人力成本,并实现推动销售的业绩转化。

本发明还提供一种基于阅读理解的营销线索提取装置。参照图3所示,为本发明一实施例提供的基于阅读理解的营销线索提取装置的内部结构示意图。

在本实施例中,所述基于阅读理解的营销线索提取装置可以是pc(personalcomputer,个人电脑),也可以是智能手机、平板电脑、便携计算机等终端设备。该代码库管理装置至少包括存储器11、处理器12、网络接口13以及通信总线14。

其中,所述存储器11至少包括一种类型的计算机可读存储介质,所述计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是所述基于阅读理解的营销线索提取装置的内部存储单元,例如该基于阅读理解的营销线索提取装置的硬盘。所述存储器11在另一些实施例中也可以是所述基于阅读理解的营销线索提取装置的外部存储设备,例如所述基于阅读理解的营销线索提取装置上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,所述存储器11还可以既包括所述基于阅读理解的营销线索提取装置的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于所述基于阅读理解的营销线索提取装置的应用软件及各类数据,例如基于阅读理解的营销线索提取程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器12在一些实施例中可以是一中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行所述存储器11中存储的程序代码或处理数据,例如执行基于阅读理解的营销线索提取程序等。

所述网络接口13可选的可以包括标准的有线接口、无线接口(如wi-fi接口),通常用于在该基于阅读理解的营销线索提取装置与其他电子设备之间建立通信连接。

所述通信总线14用于实现这些组件之间的连接通信。

图3仅示出了具有组件11至14以及基于阅读理解的营销线索提取程序的基于阅读理解的营销线索提取装置,本领域技术人员可以理解的是,图3示出的结构并不构成对基于阅读理解的营销线索提取装置的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。

在图3所示的基于阅读理解的营销线索提取装置实施例中,所述存储器11中存储有基于阅读理解的营销线索提取程序;所述处理器12执行所述存储器11中存储的基于阅读理解的营销线索提取程序时实现如下步骤:

步骤a:获取与客户对话的文本信息;

步骤b:将所述文本信息中的有效对话内容归纳问答对;

步骤c:根据所述归纳的问答对构成标注数据集;

步骤d:根据所述数据集构建阅读理解系统;

步骤e:从所述阅读理解系统中提取营销线索。

进一步地,在本发明基于阅读理解的营销线索提取装置的另一实施例中,所述基于阅读理解的营销线索提取程序还可被处理器12调用,以实现如前文所述的基于阅读理解的营销线索提取方法的所有步骤。

可选地,在其他实施例中,所述基于阅读理解的营销线索提取程序根据其不同的功能,可以划分为一个或多个功能模块。一个或者多个模块被存储于所述存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述基于阅读理解的营销线索提取程序在基于阅读理解的营销线索提取装置中的执行过程。

例如,参照图4所示,为本发明基于阅读理解的营销线索提取装置一实施例中的基于阅读理解的营销线索提取程序的程序模块示意图,该实施例中,基于阅读理解的营销线索提取程序可以被分割为获取模块31、处理模块32、标注模块33、构建模块34、及提取模块35,示例性地:

所述获取模块31用于获取与客户对话的文本信息。

所述处理模块32用于将所述文本信息中的有效对话内容归纳问答对。

所述标注模块33用于根据所述归纳的问答对构成标注数据集。

所述构建模块34用于根据所述数据集构建阅读理解系统。

所述提取模块35用于从所述阅读理解系统中提取营销线索。

进一步地,所述获取模块中包括语音识别单元,所述语音识别单元用于:

获取与客户对话的语音信息;及

将所述语音信息转换为文本信息。

具体地,在一实施例中,通过语音识别(automaticspeechrecognition,asr)技术将坐席与客户对话进行录音,以便获取与客户对话的语音信息,然后获取到的与客户对话的语音信息转换为文本信息。

更进一步地,所述处理模块32用于执行“从所述段落篇章归纳篇章中归纳问答对”的步骤包括:归纳出最想了解的几种问题q1,q2,q3...qn;具体地,所述问题包括客户年龄,性别,孩子几个,孩子几岁,买过什么保险,对保险有什么看法等等。

进一步地,所述标注模块33用于执行“根据所述归纳的问答对构成标注数据集”的步骤包括:将对话段落标注为d,将问题标注为q,将答案标注为a,以构成包括对话段落、问题及答案的数据集<d,q,a>。

进一步地,所述构建模块用于执行“根据所述数据集构建阅读理解系统”的步骤包括:

步骤d1:将所述数据集进行向量化特征表示。具体地,在一实施例中,通过分词和向量化模型将所述数据集向量化,以将所述数据集进行向量化特征表示。例如,在一实施例中,将每个分词进行100维表示。其中,所述向量化模型可选用word2vec、glove等。

更详细地,在一实施例中,根据答案a:“我已经买了一年期的健康险”,执行分词步骤:“我”、“已经”、“买”“一年期”“健康险”,从而得到分词的结果:“我”、“已经”、“买”“一年期”“健康险”,其中答案a中“了”和“的”作为无效词被删掉了;执行向量化模型步骤:利用word2vec(或者glove)等开源的词向量工具,将“我”“已经”“买”“一年期”“健康险”转化成100维的向量,例如:其中的“我”转化成100维的向量为:[0000000010000000...],其中的“健康险”转化成100维的向量为:[0001000001001000...]。

步骤d2:通过编码器对所述对话段落和所述问题进行编码。在一实施例中,所述编码器可以是基于序列到序列的神经网络,例如可以是采用循环神经网络(recurrentneuralnetwork,rnn)、卷积神经网络(convolutionneutralnetwork,cnn)等神经网络模型构建。其中,所述编码器可以是单向的神经网络模型,也可以是双向的神经网络模型。在本实施例中,所述编码器可以是rnn。

步骤d3:利用注意力机制(attentionmechanism,am)对所述数据集的对话段落d和问题q进行融合。

具体地,通过注意力机制对所述对话段落d和问题q进行融合,以融合成统一的向量序列<d,q>,从而能有效避免因为内容过长导致模型性能变差。

通过保留lstm(longshort-termmemory,长短期记忆)编码器对输入序列的中间输出结果,然后训练一个模型来对这些输入进行选择性的学习并且在模型输出时将输出序列与之进行关联。

步骤d4:基于数据集的训练样本<d,q,a>,训练指针网络(pointernetwork)。

步骤d5:通过所述指针网络实现答案a在对话段落d中片段的提取。具体地,通过所述指针网络获取与答案a关系最大的对话段落d中的开始位置与结束位置,从而获取与答案a关系最大的对话段落d中的位置。

其中,训练时的目标函数包括:

1.最大似然估计的计算公式:

2.最小风险训练的计算公式:

进一步地,所述提取模块35还用于根据业务词典,从所归纳的问题对中提取核心语句;所述业务词典为通过机器学习得到的名词库。

上述获取模块31、处理模块32、标注模块33、构建模块34、及提取模块35等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。

图4仅示出了具有模块31-35以及基于阅读理解的营销线索提取程序的基于阅读理解的营销线索提取装置,本领域技术人员可以理解的是,图4示出的结构并不构成对所述基于阅读理解的营销线索提取装置的限定,可以包括比图示更少或者更多的模块,或者组合某些模块,或者不同的模块布置。

另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。

此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有基于阅读理解的营销线索提取程序,所述基于阅读理解的营销线索提取程序可被一个或多个处理器执行,以实现如下操作:

步骤a:获取与客户对话的文本信息;

步骤b:将所述文本信息中的有效对话内容归纳问答对;

步骤c:根据所述归纳的问答对构成标注数据集;

步骤d:根据所述数据集构建阅读理解系统;

步骤e:从所述阅读理解系统中提取营销线索。

本发明计算机可读存储介质具体实施方式与上述基于阅读理解的营销线索提取装置和方法各实施例基本相同,在此不作累述。

需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1