面向长文本的稠密信息检索方法与系统

文档序号：32350978发布日期：2022-11-26 13:05阅读：来源：国知局

技术特征：
1.一种面向长文本的稠密信息检索方法，其特征在于，s1：利用符合bert模型输入要求长度的文本，配合查询相关性训练样本，训练模型；s2：将被检索文本，通过训练好的模型，得到分段式上下文编码表示；s3：将查询文本，通过训练好的模型，得到查询的bert编码表示；s4：将查询的编码表示与长文档的编码表示进行交互，得到查询结果。2.根据权利要求1所述的一种面向长文本的稠密信息检索方法，其特征在于，s2中还包括s2.2：在进行向量压缩；将得到bert的最后一层的隐向量压缩后进行拼接后按文档编号依次存入每篇文档的表示；文档d的表示为e
d
的计算方式如下：其中，e
d
的第一维大小为k
×
l
d
，表示k个段落的总长度；e
d
的第二维为dim，表示每个词向量压缩后的维数(压缩之前为768)；p
i
代表切分后的第i个段落p
i
∈d，i∈{1，2，..，k}；tok
i，j
表示文档d的第i个段落的第j个词的向量表示；同样地，当一篇文档的长度len(d)未超过l
d
时，使用[mask]填充至长度为l
d
；文档表示的过程为：len(d)＜l
d
其中，tok
i
表示文档中的第i个词的向量表示；对应的，s3中还包括将查询语句通过线性层进行相同压缩的步骤，s3.1，将该查询语句向量通过一个线性层进行压缩，得到查询的编码表示：对于bert的输出，再通过一个线性层进行压缩；得到查询q的表示为e
q
，其计算方式为：其中，e
q
的大小为l
q
×
dim；其中dim为每个词向量压缩后的维数(压缩之前为768)。3.根据权利要求1所述的一种面向长文本的稠密信息检索方法，其特征在于，s2还包括，对该长文本编码表示进行离线存储；对应的，s4中，查询的编码表示与长文档的编码表示进行交互的过程，还包括从离线存储的数据中调出s2中离线存储的长文本编码表示。4.根据权利要求1所述的一种面向长文本的稠密信息检索方法，其特征在于，s2中，将这些长文本进行切割时，对于一个文档d，文档长度为len(d)；设切分的大小为l
d
，如果文档的长度超过l
d
，将对文档进行切分；对于长度未超过l
d
的文本，则使用特殊标记[mask]进行填充；假设一篇文档的长度len(d)超过了l
d
，则将文档以切分为一系列l
d
的长度的段落，记为d＝{p1，p2，...，p
k
}；其中p
i
代表切分后的第i个段落p
i
∈d，i∈{1，2，..，k}；tok
i，j
表示文档d的第i个段落的第j个词的向量表示；对于每个段落输入的开始使用[d]标记；长度为l
d
片段的文本的表示为：
长度小于l
d
片段的文本的表示为：[d]，tok1，tok2，...，tok
len(d)
，[sep]，[mask]，...，[mask]对该文本通过一个标准化过程，将长度不足的文本，通过填充特殊标记[mask]，使得到的所有切割后的长文本长度都相同；该方案可以很好的适应transformer网络，得到更准确的结果。5.根据权利要求2所述的一种面向长文本的稠密信息检索方法，其特征在于，s3.1中，得到查询语句的bert编码表示具体为：首先将查询中的查询词进行分解，并将这些查询词分别记为q1，q2，...，q
m
；其中输入的开始位置用[q]标记；由于查询的长度通常比文档的长度短的多，因此查询可能缺失某些信息，造成查询和文档之间的匹配困难；然而，查询扩展通过补充查询缺失信息从而更好地找到相关文档
[94]
；本文设计了一种查询扩展策略：设查询的最大长度为l
q
，对于不足l
q
的查询，使用一种查询扩展策略，重复1次输入查询的词项，并在结束位置用[sep]表示，剩下不足l
q
的位置用特殊标记[mask]填充，直至长度达到l
q
；对于长度超过l
q
的查询，本文将输入查询的前l
q
个词项；对于超过l
q
但是不足bert的输入长度的部分，将使用特殊标记[mask]进行填充。6.根据权利要求1所述的一种面向长文本的稠密信息检索方法，其特征在于，s4中，查询的编码表示与长文档的编码表示进行交互的过程，包括：s4.1：得到每个长文档编码表示片段中与每一个查询词向量余弦相似度最相近的词向量；该细粒度模型得到了片段中与查询值相似度最高的所有词；s4.2：计算片段的表示，并计算查询与单个片段表示的匹配值；s4.3：计算文档的总得分。7.根据权利要求6所述的一种面向长文本的稠密信息检索方法，其特征在于，s4.2中片段的表示的具体计算方式为：将s4.1种最相近的词向量的平均值作为片段的表示，取查询词项的平均词嵌入的表示作为查询的表示，查询与单个片段的语义匹配值的计算方式为：其中，是文档的词向量的子集，表示与每个查询的词向量最相近的词向量的集合；e
q
表示q中查询词q的向量表示，e
m
为文档d中与查询的词向量e
q
的余弦相似度最大的词项的向量表示。8.根据权利要求6所述的一种面向长文本的稠密信息检索方法，其特征在于，s4.3中文档总得分的具体计算方式为：计算文档d的最终得分，取查询与文档各个片段得分的最大值作为文档的语义相关性得分，计算方式如下：其中，d＝{p1，p2，...，p
k
}，d中的片段p
i
∈d，i∈{1，2，..，k}；
模型在短文本数据上训练时使用的损失函数如下：其中，y(q，p)是段落和查询的相关性标签；score(q，p)表示文档d的最终得分。9.一种面向长文本的稠密信息检索系统，包括交互端，服务器，存储介质，交互端与存储介质与服务器网络连接，其特征在于，该系统部署具体为：通过面向长文本的稠密信息检索方法中s1对bert语义模型进行训练，然后将被检索用的大量长文本，通过面向长文本的稠密信息检索方法中s1，转换后在存储介质中离线存储；该系统的检索过程具体为：通过交互端输入查询语句，并限定被检索的长文本的选取范围，服务器接收到查询后，将查询语句通过面向长文本的稠密信息检索方法中s3进行转换，然后服务器从存储介质中，有顺序的分批调取被选取范围的长文本的表示，通过面向长文本的稠密信息检索方法中s4得出查询结果。10.根据权利要求9所述的一种面向长文本的稠密信息检索系统，其特征在于，该存储介质使用云存储。

技术总结
为了克服现有技术检索耗时长、代价高，以及现有的检索方案语句分割后结果正确性不足的问题，提供了一种面向长文本的稠密信息检索方法与系统。通过将文本填充到相同字符量后通过BERT转换成向量表示，再进行压缩。在保持其语义关系不变的同时简化了单词的特征，使检索更注重语义关系，并同时降低了数据的大小。通过离线存储实现的检索系统，对检索请求的处理速度比现有技术更快，安全性也更高。安全性也更高。

技术研发人员：王俊美盛锦华杨泽辛雨
受保护的技术使用者：杭州电子科技大学
技术研发日：2022.07.27
技术公布日：2022/11/25

完整全部详细技术资料下载

当前第2页1 2