一种基于深度学习的非对称文本哈希方法与流程

文档序号：12464635阅读：来源：国知局

技术特征：

1.一种基于深度学习的非对称文本哈希方法，其特征在于，包括以下步骤：

S1：提取训练集文本语义标签，计算样本之间的语义相似度；

S2：根据训练集样本语义标签和语义相似度计算训练集文本的二进制哈希编码，该二进制哈希编码具有保持在训练集上有最佳的语义保持的性能，即期望哈希编码；

S3：将训练集文本输入到神经网络中，计算出文本对应的哈希编码；

S4：计算神经网络输出的哈希编码和S2中得到的期望哈希编码的偏差，并通过反向传播算法训练神经网络参数。

2.根据权利要求1所述的基于深度学习的非对称文本哈希方法，其特征在于，所述步骤S1中计算计算样本之间的语义相似度的过程如下：

根据训练文本中的文档分类类别，如果文档类别相同，那么语义相似度为1，如果文档类别不同，那么语义相似度为-1。

3.根据权利要求2所述的基于深度学习的非对称文本哈希方法，其特征在于，所述步骤S2的过程如下：

随机化初始化训练集文本中各个样本的哈希编码，计算哈希编码的相似度和语义相似度的差值，使用梯度下降的方法，优化哈希值各个比特位的取值，最终收敛到稳定的哈希编码值。

4.根据权利要求3所述的基于深度学习的非对称文本哈希方法，其特征在于，所述步骤S3的过程如下：

对于训练集文本，文本先经过分词和去停词转化为词语序列，通过查表的方法，查询各个词语的向量值，将检索文本和被检索文本输入到不同神经网络，分别得到对应的固定长度为L在[-1，1]区间的哈希值向量。

5.根据权利要求4所述的基于深度学习的非对称文本哈希方法，其特征在于，所述步骤S4的过程如下：

以S3中得到的哈希值和期望哈希值的差值来计算所产生的损失，利用反向传播算法更新对应神经网络的参数。

完整全部详细技术资料下载

当前第2页1 2 3