1.一种相似文本生成方法,其特征在于,包括:
对输入语句进行分词处理,得到组成所述输入语句的至少一个词语;
生成各个词语的相似词的词向量;
基于已训练的相似文本生成模型及各个词向量,生成所述输入语句的相似语句。
2.如权利要求1所述的相似文本生成方法,其特征在于,所述生成各个词语的相似词的词向量,包括:
针对每个词语,查找出所述词语的m个近义词,其中,m为大于2的正整数;
从所述m个近义词中,筛选得到与所述词语最相似的n个近义词,其中,n为小于m的正整数;
计算得到所述n个近义词的平均词向量,将所述平均词向量作为所述词语的相似词的词向量。
3.如权利要求2所述的相似文本生成方法,其特征在于,所述查找出所述词语的m个近义词,包括:
在预设的第一查找方法下,查找出所述词语的第一数量个近义词,其中,所述第一查找方法基于回译实现;
在预设的第二查找方法下,查找出所述词语的第二数量个近义词,其中,所述第二查找方法基于同义词林实现;
在预设的第三查找方法下,查找出所述词语的第三数量个近义词,其中,所述第三查找方法基于词向量的相似度实现;
基于所述第一数量个近义词、所述第二数量个近义词及所述第三数量个近义词,获得m个近义词。
4.如权利要求3所述的相似文本生成方法,其特征在于,所述基于所述第一数量个近义词、所述第二数量个近义词及所述第三数量个近义词,获得m个近义词,包括:
对所述第一数量个近义词、所述第二数量个近义词及所述第三数量个近义词进行去重处理,获得m个近义词。
5.如权利要求2所述的相似文本生成方法,其特征在于,所述从所述m个近义词中,筛选得到与所述词语最相似的n个近义词,包括:
通过预训练的bert模型,生成所述m个近义词的词向量以及所述词语的词向量;
计算所述m个近义词的词向量与所述词语的词向量的余弦相似度;
基于所述余弦相似度,从所述m个近义词中确定与所述词语最相似的n个近义词。
6.如权利要求2所述的相似文本生成方法,其特征在于,所述计算得到所述n个近义词的平均词向量,包括:
获取所述n个近义词的词向量,其中,每个词向量的维度相同,且每个词向量包括多个维度;
计算所述n个近义词的词向量在每个维度下的均值,以得到平均词向量。
7.如权利要求1至6任一项所述的相似文本生成方法,其特征在于,在所述生成所述输入语句的相似语句之后,所述相似文本生成方法还包括:
将所述相似语句及所述输入语句共同输入至已训练的语义判别模型中;
若所述语义判别模型判定所述相似语句与所述输入语句的语义相同,则保留所述相似语句;
若所述语义判别模型判定所述相似语句与所述输入语句的语义不同,则舍弃所述相似语句。
8.一种相似文本生成装置,其特征在于,包括:
分词单元,用于对输入语句进行分词处理,得到组成所述输入语句的至少一个词语;
第一生成单元,用于生成各个词语的相似词的词向量;
第二生成单元,用于基于已训练的相似文本生成模型及各个词向量,生成所述输入语句的相似语句。
9.一种智能设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。