1.一种信息交互平台的交互数据分类方法,应用于电子装置,其特征在于,所述方法包括:
对从交互数据语料库中获取的交互数据做语句编号处理,得到编号语句;
根据预设的没有语义价值的词语集合,剔除所述编号语句中没有语义价值的词语,得到精选编号语句;
利用预设的权重算法,计算出组成所述精选编号语句中的词语在所述交互数据语料库中出现的词频;
根据所述词频,确定组成所述精选编号语句的词语在所述交互数据语料库中的权重;
将组成所述精选编号语句的词语在所述交互数据语料库中的权重整理为编号特征向量;
根据所述编号特征向量计算每两个编号语句的相似值;
根据所述相似值对所述编号语句进行归类。
2.根据权利要求1所述的信息交互平台的交互数据分类方法,其特征在于,所述对从交互数据语料库中获取的交互数据做语句编号处理的步骤包括:
将从所述交互数据语料库中获取的交互数据语句按时间顺序进行排序,得到时间排序语句;
确定出所述时间排序语句中的语料最小单元,其中,所述语料最小单元为用户每次所发送的对话语句;
对所述语料最小单元进行编号。
3.根据权利要求2所述的信息交互平台的交互数据分类方法,其特征在于,所述根据预设的没有语义价值的词语集合,剔除所述编号语句中没有语义价值的词语的步骤包括:
将所述编号语句的语料最小单元进行分词处理,得到分词集合;
将所述分词集合与预设的没有语义价值的词语集合做差集处理,除去没有语义价值的词语。
4.根据权利要求1所述的信息交互平台的交互数据分类方法,其特征在于,所述预设的权重算法为tf-idf算法,所述tf-idf算法的公式为:
tf-idf=tf*log(n/nw),
tf=tn/dn;
其中,tf表示词语在聊天记录语料库中出现的词频,tn表示词语在聊天记录语料库中出现的次数,dn表示聊天记录语料库中的总词数,n表示语料最小单元的总个数,nw表示出现该词语的语料最小单元的个数。
5.根据权利要求4所述的信息交互平台的交互数据分类方法,其特征在于,所述根据所述词频,确定组成所述精选编号语句的词语在所述聊天记录语料库中的权重的步骤包括:
将所述精选编号语句的词语通过所述tf-idf算法计算得到的参数值作为该词语在所述交互数据语料库中的权重。
6.根据权利要求1所述的信息交互平台的交互数据分类方法,其特征在于,将组成所述精选编号语句的词语在所述交互数据语料库中的权重整理为编号特征向量的步骤包括:
将所述编号语句做分词处理,得到编号语句词集;
将所述编号语句词集做并集处理,得到词全集;
将所述词全集中的词语按照汉语拼音的字母顺序进行排序,得到有序词集;
将所述精选编号语句的词语在所述交互数据语料库中的权重按照该词语在所述有序词集中的位置进行排序处理,得到所述精选编号语句的词语的权重序列集合;
将所述精选编号语句的词语的权重序列表集合作为所述精选编号语句的编号特征向量。
7.根据权利要求1所述的信息交互平台的交互数据分类方法,其特征在于,所述根据所述编号特征向量计算每两个编号语句的相似值的步骤包括:
利用余弦定理计算出每两个编号特征向量夹角的余弦值;
将每两个编号特征向量夹角的余弦值,作为与编号特征向量对应的两个编号语句的相似值。
8.根据权利要求7所述的信息交互平台的交互数据分类方法,其特征在于,所述根据所述相似值对所述编号语句进行归类的步骤包括:
将每两个编号特征向量夹角的余弦值与预设阈值进行比较,将大于或等于所述预设阈值的两个编号特征向量所对应的编号语句归为同类。
9.一种电子装置,其特征在于,该电子装置包括:存储器、处理器,所述存储器中存储有信息交互平台的交互数据分类程序,所述信息交互平台的交互数据分类程序被所述处理器执行时实现如下步骤:
对从交互数据语料库中获取的交互数据做语句编号处理,得到编号语句;
根据预设的没有语义价值的词语集合,剔除所述编号语句中没有语义价值的词语,得到精选编号语句;
利用预设的权重算法,计算出组成所述精选编号语句中的词语在所述交互数据语料库中出现的词频;
根据所述词频,确定组成所述精选编号语句的词语在所述交互数据语料库中的权重;
将组成所述精选编号语句的词语在所述交互数据语料库中的权重整理为编号特征向量;
根据所述编号特征向量计算每两个编号语句的相似值;
根据所述相似值对所述编号语句进行归类。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有信息交互平台的交互数据分类程序,所述信息交互平台的交互数据分类程序被处理器执行时,实现如权利要求1至8中任一项所述的信息交互平台的交互数据分类方法的步骤。