短文本模板挖掘方法、装置、电子设备和可读存储介质与流程

文档序号:15615596发布日期:2018-10-09 21:17阅读:105来源:国知局
本发明涉及计算机
技术领域
,特别涉及一种短文本模板挖掘方法、装置、电子设备和可读存储介质。
背景技术
:在自然语言处理领域中,不管是聚类模型、分类模型、搜索rank算法等,都普遍存在特征表达能力不强,包含信息量不够。这里的特征往往指的是文本中的词特征;由于大数据的普及,导致不是所有的词都能对应足够的样本。现有技术中,解决上述问题最常用的方式就是进行特征挖掘,对已有特征进行扩充;主流思路是通过对频繁组合词,进行挖掘,得到组合特征,来提升特征对文本的表达能力。例如,将文本转化为有序词集合,使用fp-growth算法,通过构造一个树结构(fp-tree)来压缩数据记录,挖掘频繁项集,频繁项即是共现次数高的词组合,也就是模板;再如,将文本转化为有序词集合后,建立语言模型n-gram,通过概率统计的方法,生成词与词共现的概率模型,通过概率模型来判断模板的生成条件。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:一方面,现有技术的方案没有考虑同义词情况,导致模板的覆盖能力十分局限,同时在语料少时,由于统计次数不够,会导致无法生成模板;另一方面,语法结构具有多样性,不同词序的模板可能表示相同意义,而现有技术的方案无法准确识别这类情况。技术实现要素:有鉴于此,本发明实施例提供一种短文本模板挖掘方法、装置、电子设备和可读存储介质,能够有效地处理模板中的同义词和语序问题,生成准确易用的短文本模板。为实现上述目的,根据本发明实施例的一个方面,提供了一种短文本模板挖掘方法。本发明实施例的一种短文本模板挖掘方法,包括:从问题文本中抽取关键词,以组成分词序列;将所述关键词根据词义进行聚类,以得到关键词簇;将所述分词序列中的所述关键词替换为包含该关键词的关键词簇,以得到词簇序列;选取最优排列方式的词簇序列作为短文本模板。可选的,从问题文本中抽取关键词,还包括:对所述问题文本进行预处理,以得到原始词;从所述原始词中抽取关键词。可选的,从所述原始词中抽取关键词,还包括:根据所述原始词在预设语料中的词频-逆文档频率、信息熵和/或词性出现频次占比,计算各所述原始词的权重;根据所述权重从所述原始词中抽取关键词;删除除所述关键词外的其他原始词。可选的,将所述关键词根据词义进行聚类,以得到关键词簇,还包括:使用预设语料训练所述关键词,以得到所述关键词的词向量;根据所述词向量计算所述关键词之间的相似度,将相似度满足预设条件的关键词聚类,从而生成所述关键词簇。可选的,选取最优排列方式的词簇序列作为短文本模板,包括:计算所述词簇序列在各所述关键词簇的不同排列方式下的连接紧密度:其中n表示所述词簇序列中包含的关键词簇数量;wi表示所述词簇序列中的第i个关键词簇,pmax(wi|wi+1)表示在预设语料中,第i+1个关键词簇内的关键词出现的条件下,第i个关键词簇内的关键词出现的概率的最大值;wi表示所述词簇序列中的第i个关键词簇的词簇向量,其值为所述第i个关键词簇中各所述关键词的词向量的和;选择连接紧密度最大的所述排列方式作为所述短文本模板。为实现上述目的,根据本发明实施例的另一个方面,提供了一种短文本模板挖掘装置。本发明实施例的一种短文本模板挖掘装置,包括:问题文本处理模块,用于从问题文本中抽取关键词,以组成分词序列;关键词处理模块,用于将所述关键词根据词义进行聚类,以得到关键词簇;模板挖掘模块,用于将所述分词序列中的所述关键词替换为包含该关键词的关键词簇,以得到词簇序列;模板确定模块,用于选取最优排列方式的词簇序列作为短文本模板。可选的,所述问题文本处理模块包括:预处理模块,用于对所述问题文本进行预处理,以得到原始词;关键词抽取模块,用于从所述原始词中抽取关键词。可选的,所述关键词抽取模块还用于:根据所述原始词在预设语料中的词频-逆文档频率、信息熵和/或词性出现频次占比,计算各所述原始词的权重;根据所述权重从所述原始词中抽取关键词;删除除所述关键词外的其他原始词,以被抽取的所述关键词组成所述分词序列。可选的,所述关键词处理模块包括:词向量训练模块,用于使用预设语料训练所述关键词,以得到所述关键词的词向量;词聚类模块,用于根据所述词向量计算所述关键词之间的相似度,将相似度满足预设条件的关键词聚类,从而生成所述关键词簇。可选的,所述模板确定模块还用于:计算所述词簇序列在各所述关键词簇的不同排列方式下的连接紧密度:其中n表示所述词簇序列中包含的关键词簇数量;wi表示所述词簇序列中的第i个关键词簇,pmax(wi|wi+1)表示在预设语料中,第i+1个关键词簇内的关键词出现的条件下,第i个关键词簇内的关键词出现的概率的最大值;wi表示所述词簇序列中的第i个关键词簇的词簇向量,wi的值为所述第i个关键词簇中各所述关键词的词向量的和;选择连接紧密度最大的所述排列方式作为所述短文本模板。为实现上述目的,根据本发明实施例的再一个方面,提供了一种实现短文本模板挖掘的电子设备。本发明实施例的一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明实施例的短文本模板挖掘方法。为实现上述目的,根据本发明实施例的又一个方面,提供了一种非暂态计算机可读存储介质。本发明实施例的一种非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行本发明实施例的短文本模板挖掘方法。上述发明中的一个实施例具有如下优点或有益效果:因为采用将抽取得到的关键词按照词义进行聚类,进一步得到词簇序列,然后选择最优排列方式下的词簇序列作为短文本模板的技术手段,解决了现有技术无有效处理同义词的技术问题,达到了提高模板的准确度的技术效果。此外,由于采用将词义相近的关键词进行聚类,丰富了备选的关键词种类,解决了现有技术在语料较少的情况下无法生成模板的技术问题,将原本需要客服工作人员人工写出的模板利用机器挖掘自动匹配,达到了大幅降低了人力成本的技术效果。再者,由于采用“连接紧密度”对关键词簇的排列方式进行运算,通过分别计算相邻关键词簇之间的相互关系,并将其累加,以这一结果作为判断该词簇序列常用程度的标准,从而进行判断,将连接紧密度最大的词簇序列的排列方式作为短文本模板,解决了现有技术无法对不同排列顺序的模板进行比较的技术问题,达到了提高模板准确度和易用性的技术效果。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本发明,不构成对本发明的不当限定。其中:图1是根据本发明实施例的短文本模板挖掘方法的主要步骤的示意图;图2是根据本发明实施例的短文本模板挖掘装置的主要模块的示意图;图3是用来实现本发明实施例的短文本模板挖掘方法的电子设备的硬件结构示意图。具体实施方式以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。本发明实施例的技术方案通过词义聚类,将词义相近的关键词聚类形成关键词簇,再选择关键词簇的最优排列方式作为短文本模板,从而解决了现有技术无法覆盖同义词判断的问题。此外,本发明实施例的技术方案还通过计算关键词簇的不同排列方式下使用的频率,即“连接紧密度”,从而选择关键词簇的最优排列方式,提高了生成的短文本模板的准确度,能够更好地匹配用户的提问,提高自动回复系统的用户满意度。图1是根据本发明实施例的短文本模板挖掘方法的主要步骤的示意图。如图1所示,本发明实施例的一种短文本模板挖掘方法主要包括以下步骤:s10,从问题文本中抽取关键词,以组成分词序列。所述问题文本是由聊天系统的记录单元(例如聊天系统服务器等)记录的,用户提问问题的文本。通过对问题文本进行分词并去除问题文本中的非必要部分(例如问候语、语气词、预设的停用词、标点符号等),再对保留下的词语按照一定标准进行筛选,从而完成关键词的抽取。关键词抽取完成后,原属同一问题文本的关键词即组成了分词序列。s11,将所述关键词根据词义进行聚类,以得到关键词簇。本步骤关键词的词义采用数学方式进行计算和定义;例如,可以通过预设语料对关键词进行训练,得到关键词的词向量,以向量代表关键词在预设语料中的词义。进行聚类的具体方式可以是层次聚类等,聚类产出例如表1所示:表1关键词聚类产出序号关键词簇…………21时间|时间段22多久|几天|多长时间23送|免费送|赠送|送么24安装时间|约定|单约25有没有|带不带|可有|有无26想|顺便27厂商|厂家28配件|零件29购买|订购|够买30价格|价钱|价|价位31配送|送达32收|收取|不收33问下|问问34有货|到货35时候|什么时候|啥时候…………s12,将所述分词序列中的所述关键词替换为包含该关键词的关键词簇,以得到词簇序列。在经过s11的聚类后,每个关键词都处于一个关键词簇中,将分词序列中的关键词分别替换为该关键词所在的关键词簇,即得到由关键词簇组成的词簇序列。s13,选取最优排列方式的词簇序列作为短文本模板。通过统计不同排列方式的词簇序列在预设语料中出现的情况,即可判断出哪种排列方式的词簇序列可以覆盖最多种类的用户提问,选择该词簇序列作为优选后的短文本模板。从上面所述可以看出,本实施例提供的一种短文本模板挖掘方法,通过将抽取得到的关键词按照词义进行聚类,进一步得到词簇序列,然后选择最优排列方式下的词簇序列作为短文本模板,解决了现有技术无有效处理同义词的问题,能够提高模板的准确度。另外,由于通过将词义相近的关键词进行聚类,丰富了备选的关键词种类,解决了现有技术在语料较少的情况下无法生成模板的问题,将原本需要客服工作人员人工写出的模板利用机器挖掘自动匹配,大幅降低了人力成本。在一些可选的实施例中,s10,从问题文本中抽取关键词,还包括:s20,对所述问题文本进行预处理,以得到原始词。对问题文本进行预处理,目的是取出问题文本中的无效内容并分词,例如在初步获取到问题文本后,可以采用黑名单的方式(将希望清除的字、词、短语、句子、符号等内容加入一个集合中,使用该集合对文本内容进行匹配,以从文本中清除这些内容)进行问候语清洗;在使用分词工具(例如开源的java软件ansj等)对问题文本进行分词后,再次利用黑名单的方式去掉停用词(stopwords,在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉的某些字或词)与标点符号,保留下来的词即原始词。例如,用户的原始问题文本为“您好!请问什么时候才有货啊?”,在经过黑名单匹配并分词后,转化为分词序列{什么时候,有货}。s21,从所述原始词中抽取关键词。可选的,s21,从所述原始词中抽取关键词,还包括:s22,根据所述原始词在预设语料中的词频-逆文档频率、信息熵和/或词性出现频次占比,计算各所述原始词的权重。例如,可以表示为权重=词频-逆文档频率*系数1+信息熵*系数2+词性出现频次占比*系数3,通过根据使用场景设置适当的系数1、系数2和系数3的值,可以获取最合适的权重。在一些可选的方式中,可以设置系数1>系数2>系数3,表示词频-逆文档频率、信息熵、词性出现频次在权重的重要程度依次降低(需要说明的是,由于词频-逆文档频率、信息熵、词性出现频次占比计算得到的数值并不存在直接的可比性,因此所述系数也需要进行适应性调整,以使这三个变量处于可比较的水平,所以此处系数1>系数2>系数3只是表示变量重要性的关系,而非严格的数值大小关系)。s23,根据所述权重从所述原始词中抽取关键词。例如,可以对一条问题文本中的原始词按照权重由高到低的顺序进行排序,并取出前几个作为关键词;再如,可以预设一个关键词阈值,将权重高于此阈值的原始词抽取出来以得到关键词。s24,删除除所述关键词外的其他原始词。在一些可选的实施例中,s11,将所述关键词根据词义进行聚类,以得到关键词簇,还包括:s30,使用预设语料训练所述关键词,以得到所述关键词的词向量。词向量表示了关键词在预设语料中的特征,可以使用word2vec等工具使用预设语料对关键词进行训练,以得到关键词在该预设语料中的词向量。s31,根据所述词向量计算所述关键词之间的相似度,将相似度满足预设条件的关键词聚类,从而生成所述关键词簇。通过词向量的方式计算两个词之间的相似度时,通常以余弦相似度作为判断标准,即通过计算两个词对应的词向量的余弦乘积,得到的结果越接近1,则表示两个词在预设语料中的词义越接近。例如,在执行步骤s12,将所述分词序列中的所述关键词替换为包含该关键词的关键词簇,以得到词簇序列时,仍以“您好!请问什么时候才有货啊?”为例,在经过黑名单匹配并分词后,转化为分词序列“什么时候,有货”;在替换后,转化为词簇序列“什么时候{时候、啥时候},有货{到货}”。在一些可选的实施例中,s13,选取最优排列方式的词簇序列作为短文本模板,包括:s40,计算所述词簇序列在各所述关键词簇的不同排列方式下的连接紧密度。例如在一个词簇序列中有词簇1、词簇2、词簇3、词簇4,那么对应的排列组合有{词簇1、词簇2、词簇3、词簇4}、{词簇1、词簇2、词簇4、词簇3}、{词簇2、词簇1、词簇3、词簇4}……其中n表示所述词簇序列中包含的关键词簇数量;wi表示所述词簇序列中的第i个关键词簇,pmax(wi|wi+1)表示在预设语料中,第i+1个关键词簇内的关键词出现的条件下,第i个关键词簇内的关键词出现的概率的最大值;wi表示所述词簇序列中的第i个关键词簇的词簇向量,其值为所述第i个关键词簇中各所述关键词的词向量的和。关于pmax(wi|wi+1),可以表示为:pmax(wi|wi+1)=max{p[wi(1)|wi+1(1)],p[wi(1)|wi+1(2)],...,p[wi(x)|wi+1(y)]},其中wi(m)表示在关键词簇wi中的第m个关键词,pmax[wi(m)|wi+1(n)]表示在预设语料中,关键词簇wi+1中的第n个关键词出现的前提下,关键词簇wi中第m个关键词出现的概率,x和y分别表示关键词簇wi和关键词簇wi+1中关键词的总数。例如,关键词簇1有两个关键词a和b,关键词簇2有两个关键词c和d,则pmax(w1|w2)=max[p(a|c),p(b|c),p(a|d),p(b|d)]。s41,选择连接紧密度最大的所述排列方式作为所述短文本模板。本实施例通过“连接紧密度”对关键词簇的排列方式进行运算,通过分别计算相邻关键词簇之间的相互关系,并将其累加,以这一结果作为判断该词簇序列常用程度的标准,从而进行判断,将连接紧密度最大的词簇序列的排列方式作为短文本模板,解决了现有技术无法对不同排列顺序的模板进行比较的问题。根据本发明实施例的短文本模板挖掘方法可以看出,因为采用将抽取得到的关键词按照词义进行聚类,进一步得到词簇序列,然后选择最优排列方式下的词簇序列作为短文本模板的技术手段,解决了现有技术无有效处理同义词的技术问题,达到了提高模板的准确度的技术效果。此外,由于采用将词义相近的关键词进行聚类,丰富了备选的关键词种类,解决了现有技术在语料较少的情况下无法生成模板的技术问题,将原本需要客服工作人员人工写出的模板利用机器挖掘自动匹配,达到了大幅降低了人力成本的技术效果。再者,由于采用“连接紧密度”对关键词簇的排列方式进行运算,通过分别计算相邻关键词簇之间的相互关系,并将其累加,以这一结果作为判断该词簇序列常用程度的标准,从而进行判断,将连接紧密度最大的词簇序列的排列方式作为短文本模板,解决了现有技术无法对不同排列顺序的模板进行比较的技术问题,达到了提高模板准确度和易用性的技术效果。图2是根据本发明实施例的短文本模板挖掘装置的主要模块的示意图。如图2所示,本发明实施例的短文本模板挖掘装置210,包括:问题文本处理模块210,用于从问题文本中抽取关键词,以组成分词序列。关键词处理模块220,用于将所述关键词根据词义进行聚类,以得到关键词簇。模板挖掘模块230,用于将所述分词序列中的所述关键词替换为包含该关键词的关键词簇,以得到词簇序列。以及模板确定模块240,用于选取最优排列方式的词簇序列作为短文本模板。可选的,所述问题文本处理模块210包括:预处理模块,用于对所述问题文本进行预处理,以得到原始词。关键词抽取模块,用于从所述原始词中抽取关键词。可选的,所述关键词抽取模块还用于:根据所述原始词在预设语料中的词频-逆文档频率、信息熵和/或词性出现频次占比,计算各所述原始词的权重。根据所述权重从所述原始词中抽取关键词。删除除所述关键词外的其他原始词,以被抽取的所述关键词组成所述分词序列。可选的,所述关键词处理模块220包括:词向量训练模块,用于使用预设语料训练所述关键词,以得到所述关键词的词向量。词聚类模块,用于根据所述词向量计算所述关键词之间的相似度,将相似度满足预设条件的关键词聚类,从而生成所述关键词簇。可选的,所述模板确定模块240还用于:计算所述词簇序列在各所述关键词簇的不同排列方式下的连接紧密度,选择连接紧密度最大的所述排列方式作为所述短文本模板。其中:其中n表示所述词簇序列中包含的关键词簇数量;wi表示所述词簇序列中的第i个关键词簇,pmax(wi|wi+1)表示在预设语料中,第i+1个关键词簇内的关键词出现的条件下,第i个关键词簇内的关键词出现的概率的最大值;wi表示所述词簇序列中的第i个关键词簇的词簇向量,wi的值为所述第i个关键词簇中各所述关键词的词向量的和。选择连接紧密度最大的所述排列方式作为所述短文本模板。从上述描述可以看出,因为采用将抽取得到的关键词按照词义进行聚类,进一步得到词簇序列,然后选择最优排列方式下的词簇序列作为短文本模板的技术手段,解决了现有技术无有效处理同义词的技术问题,达到了提高模板的准确度的技术效果。此外,由于采用将词义相近的关键词进行聚类,丰富了备选的关键词种类,解决了现有技术在语料较少的情况下无法生成模板的技术问题,将原本需要客服工作人员人工写出的模板利用机器挖掘自动匹配,达到了大幅降低了人力成本的技术效果。再者,由于采用“连接紧密度”对关键词簇的排列方式进行运算,通过分别计算相邻关键词簇之间的相互关系,并将其累加,以这一结果作为判断该词簇序列常用程度的标准,从而进行判断,将连接紧密度最大的词簇序列的排列方式作为短文本模板,解决了现有技术无法对不同排列顺序的模板进行比较的技术问题,达到了提高模板准确度和易用性的技术效果。根据本发明的实施例,本发明还提供了一种电子设备和一种可读存储介质。本发明的电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明所提供的短文本模板挖掘方法。本发明的非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行本发明所提供的短文本模板挖掘方法。如图3所示,是实现本发明实施例的短文本模板挖掘方法的电子设备的硬件结构示意图。如图3,该电子设备包括:一个或多个处理器31以及存储器32,图3中以一个处理器31为例。其中,存储器32即为本发明所提供的非暂态计算机可读存储介质。短文本模板挖掘方法的电子设备还可以包括:输入装置33和输出装置34。处理器31、存储器32、输入装置33和输出装置34可以通过总线或者其他方式连接,图3中以通过总线连接为例。存储器32作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的短文本模板挖掘方法对应的程序指令/模块(例如,附图2所示的问题文本处理模块210、关键词处理模块220、模板挖掘模块230、模板确定模块240及其包含的功能模块)。处理器31通过运行存储在存储器32中的非暂态软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的短文本模板挖掘方法。存储器32可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据短文本模板挖掘装置的使用所创建的数据等。此外,存储器32可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器32可选包括相对于处理器31远程设置的存储器,这些远程存储器可以通过网络连接至短文本模板挖掘装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。输入装置33可接收输入的数字或字符信息,以及产生与短文本模板挖掘装置的用户设置以及功能控制有关的键信号输入。输出装置34可包括显示屏等显示设备。所述一个或者多个模块存储在所述存储器32中,当被所述一个或者多个处理器31执行时,执行上述任意方法实施例中的短文本模板挖掘装置方法。上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。根据本发明实施例的技术方案,因为采用将抽取得到的关键词按照词义进行聚类,进一步得到词簇序列,然后选择最优排列方式下的词簇序列作为短文本模板的技术手段,解决了现有技术无有效处理同义词的技术问题,达到了提高模板的准确度的技术效果。此外,由于采用将词义相近的关键词进行聚类,丰富了备选的关键词种类,解决了现有技术在语料较少的情况下无法生成模板的技术问题,将原本需要客服工作人员人工写出的模板利用机器挖掘自动匹配,达到了大幅降低了人力成本的技术效果。再者,由于采用“连接紧密度”对关键词簇的排列方式进行运算,通过分别计算相邻关键词簇之间的相互关系,并将其累加,以这一结果作为判断该词簇序列常用程度的标准,从而进行判断,将连接紧密度最大的词簇序列的排列方式作为短文本模板,解决了现有技术无法对不同排列顺序的模板进行比较的技术问题,达到了提高模板准确度和易用性的技术效果。上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1