文本相似度检测方法和装置、电子设备及存储介质与流程

文档序号:35364776发布日期:2023-09-08 03:37阅读:47来源:国知局
文本相似度检测方法和装置、电子设备及存储介质与流程

本技术涉及数字医疗,尤其涉及一种文本相似度检测方法和装置、电子设备及存储介质。


背景技术:

1、随着人工智能技术的快速发展,在线问诊平台作为传统医疗的补充和优化,在近几年快速发展并广泛传播,在日常生活中发挥的作用也越来越显著。通过在线问诊平台,用户可以提出咨询问题,在线医生可以针对用户的问题提供专业的解答或者就医指导,从而实现远程诊疗。对于一些常见的普通疾病或症状,可能在问诊平台中已经出现多次,并且已经得到了在线医生的专业解答。

2、目前的在线问诊平台,针对当前时间内的用户问诊通常无法准确地匹配到历史时间内已有的解答内容,不利于提升在线问诊用户的用户体验。

3、相关技术中,常常是将当前时间内的用户问诊时的问题与历史时间内产生的问诊问题进行相似度检测,根据相似度来提取历史时间内的问诊问题对应的解答内容作为当前时间内的用户问诊时的问题的解答。对于问题文本的相似度检测常常需要依赖于神经网络模型来实现,而神经网络模型的训练往往需要较多的高质量样本数据,但大量的高质量样本数据的采集难度较大,会导致模型的训练效果不佳,影响利用模型进行文本相似度检测的准确性,因此,如何提高文本相似度检测的准确性,成为了亟待解决的技术问题。


技术实现思路

1、本技术实施例的主要目的在于提出一种文本相似度检测方法和装置、电子设备及存储介质,旨在提高文本相似度检测的准确性。

2、为实现上述目的,本技术实施例的第一方面提出了一种文本相似度检测方法,所述方法包括:

3、获取样本问题文本;

4、对每一所述样本问题文本进行编码处理,得到每一所述样本问题文本的样本嵌入特征,其中,所述样本嵌入特征包括字嵌入特征、词嵌入特征、二元嵌入特征以及三元嵌入特征中的至少两种;

5、基于所述样本嵌入特征构建问题正样本对和问题负样本对,其中,每个所述问题正样本对包括两个来源于同一所述样本问题文本的样本嵌入特征,每个所述问题负样本对包括两个来源于不同所述样本问题文本的样本嵌入特征;

6、基于所述问题正样本对和所述问题负样本对对预设的神经网络模型进行训练,得到文本相似度检测模型;

7、获取第一问题文本和第二问题文本;

8、对所述第一问题文本进行编码处理,得到第一文本嵌入数据,并对所述第二问题文本进行编码处理,得到第二文本嵌入数据;

9、基于所述文本相似度检测模型对所述第一文本嵌入数据和所述第二文本嵌入数据进行相似度评分,得到目标文本分值;

10、基于所述目标文本分值对所述第一问题文本和所述第二问题文本进行相似度检测,得到文本相似度数据,其中,所述文本相似度数据用于表示所述第一问题文本和所述第二问题文本之间的文本内容的相似度。

11、在一些实施例,所述对每一所述样本问题文本进行编码处理,得到每一所述样本问题文本的样本嵌入特征,包括:

12、对每一所述样本问题文本进行多粒度特征提取,得到所述样本问题文本的字特征、词特征、二元特征以及三元特征;

13、对所述字特征进行编码处理,得到字嵌入特征,对所述词特征进行编码处理,得到词嵌入特征,对所述二元特征进行编码处理,得到二元嵌入特征,并对所述三元特征进行编码处理,得到三元嵌入特征;

14、基于所述字嵌入特征、所述词嵌入特征、所述二元嵌入特征以及所述三元嵌入特征,得到所述样本嵌入特征。

15、在一些实施例,所述基于所述问题正样本对和所述问题负样本对对预设的神经网络模型进行训练,得到文本相似度检测模型,包括:

16、将所述问题正样本对和所述问题负样本对输入至所述神经网络模型,其中,所述神经网络模型包括第一网络和第二网络;

17、基于所述第一网络对所述问题正样本对和所述问题负样本对进行损失计算,得到第一损失值;

18、基于所述第二网络对所述问题正样本对和所述问题负样本对进行损失计算,得到第二损失值;

19、基于所述第一损失值和所述第二损失值对所述神经网络模型进行参数调整,得到所述文本相似度检测模型。

20、在一些实施例,所述第一文本嵌入数据包括多个第一文本嵌入特征,所述第二文本嵌入数据包括多个第二文本嵌入特征,所述基于所述文本相似度检测模型对所述第一文本嵌入数据和所述第二文本嵌入数据进行相似度评分,得到目标文本分值,包括:

21、对所述第一文本嵌入特征和所述第二文本嵌入特征进行特征组合,得到多个候选嵌入特征组;

22、基于所述文本相似度检测模型对所述候选嵌入特征组进行相似度评分,得到初步文本分值;

23、基于所述初步文本分值,得到所述目标文本分值。

24、在一些实施例,所述基于所述初步文本分值,得到所述目标文本分值,包括:

25、获取所述第一问题文本的文本长度;

26、基于所述文本长度对所述初步文本分值进行筛选,得到中间文本分值;

27、对所述中间文本分值进行均值计算,得到所述目标文本分值。

28、在一些实施例,所述基于所述目标文本分值对所述第一问题文本和所述第二问题文本进行相似度检测,得到文本相似度数据,包括:

29、比对所述目标文本分值和预设的文本分数阈值;

30、若所述目标文本分值大于所述文本分数阈值,则所述文本相似度数据表示所述第一问题文本和所述第二问题文本的文本内容相似;

31、若所述目标文本分值小于或者等于所述文本分数阈值,则所述文本相似度数据表示所述第一问题文本和所述第二问题文本的文本内容不相似。

32、在一些实施例,在若所述目标文本分值大于所述文本分数阈值,则所述文本相似度数据表示所述第一问题文本和所述第二问题文本的文本内容相似之后,所述方法包括:

33、若所述第一问题文本和所述第二问题文本的文本内容相似,则将所述第一问题文本和所述第二问题文本整合至同一问题文本集合;

34、对所述问题文本集合进行答案生成,得到所述问题文本集合的标准答案文本;

35、将所述问题文本集合和所述标准答案文本发送至问答服务端,以使所述问答服务端基于所述问题文本集合和所述标准答案文本对目标对象的目标问题进行答复。

36、为实现上述目的,本技术实施例的第二方面提出了一种文本相似度检测装置,所述装置包括:

37、样本数据获取模块,用于获取样本问题文本;

38、样本编码模块,用于对每一所述样本问题文本进行编码处理,得到每一所述样本问题文本的样本嵌入特征,其中,所述样本嵌入特征包括字嵌入特征、词嵌入特征、二元嵌入特征以及三元嵌入特征中的至少两种;

39、样本对构建模块,用于基于所述样本嵌入特征构建问题正样本对和问题负样本对,其中,每个所述问题正样本对包括两个来源于同一所述样本问题文本的样本嵌入特征,每个所述问题负样本对包括两个来源于不同所述样本问题文本的样本嵌入特征;

40、模型训练模块,用于基于所述问题正样本对和所述问题负样本对对预设的神经网络模型进行训练,得到文本相似度检测模型;

41、问题文本获取模块,用于获取第一问题文本和第二问题文本;

42、文本编码模块,用于对所述第一问题文本进行编码处理,得到第一文本嵌入数据,并对所述第二问题文本进行编码处理,得到第二文本嵌入数据;

43、文本评分模块,用于基于所述文本相似度检测模型对所述第一文本嵌入数据和所述第二文本嵌入数据进行相似度评分,得到目标文本分值;

44、相似度检测模块,用于基于所述目标文本分值对所述第一问题文本和所述第二问题文本进行相似度检测,得到文本相似度数据,其中,所述文本相似度数据用于表示所述第一问题文本和所述第二问题文本之间的文本内容的相似度。

45、为实现上述目的,本技术实施例的第三方面提出了一种电子设备,所述电子设备包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。

46、为实现上述目的,本技术实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。

47、本技术提出的文本相似度检测方法、文本相似度检测装置、电子设备及存储介质,其通过获取样本问题文本;对每一样本问题文本进行编码处理,得到每一样本问题文本的样本嵌入特征,其中,样本嵌入特征包括字嵌入特征、词嵌入特征、二元嵌入特征以及三元嵌入特征中的至少两种,能够提取到多个粒度的样本嵌入特征。进一步地,基于样本嵌入特征构建问题正样本对和问题负样本对,其中,每个问题正样本对包括两个来源于同一样本问题文本的样本嵌入特征,每个问题负样本对包括两个来源于不同样本问题文本的样本嵌入特征,能够有效地提高问题正样本对和问题负样本对的组合多样性,有助于丰富用于模型训练的训练数据的数量。进一步地,基于问题正样本对和问题负样本对对预设的神经网络模型进行训练,得到文本相似度检测模型,能够丰富训练数据,提高模型的训练效果,改善模型对文本相似度检测的能力。进一步地,获取第一问题文本和第二问题文本;对第一问题文本进行编码处理,得到第一文本嵌入数据,并对第二问题文本进行编码处理,得到第二文本嵌入数据;并基于文本相似度检测模型对第一文本嵌入数据和第二文本嵌入数据进行相似度评分,得到目标文本分值,能够较为方便地计算出第一问题文本和第二问题文本的目标文本分值,提高检测效率和检测精度。最后,基于目标文本分值对第一问题文本和第二问题文本进行相似度检测,得到文本相似度数据,其中,文本相似度数据用于表示第一问题文本和第二问题文本之间的文本内容的相似度,能够以量化的方式来确定第一问题文本和第二问题文本之间的文本内容的相似程度,能够有效地提高文本相似度检测的准确性,进而能根据文本相似度来提取历史时间内的问诊问题文本对应的解答内容作为当前时间内的用户问诊时的问题文本的解答,从而有效地提高智能问诊的效率。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1