负采样方法和装置与流程

文档序号:15273068发布日期:2018-08-28 22:40阅读:581来源:国知局

本发明涉及大数据分析技术领域,尤其涉及一种负采样方法和装置。



背景技术:

随着信息技术的不断发展,时下已经步入了大数据时代。为了有效的利用和管理这些信息,基于内容的信息检索和数据分析称为备受关注的领域。现实世界中有很多问题是同时包含多个主题的,即多标签问题,而多标签问题中,同一个样例根据不同的主题可以标定不同的分类,多标签分类应用于文本分类、图像识别等领域,而多标签文本分类是最主要的应用,例如,对一篇新闻报道,如果从不同的角度分析就可以将其划分到不同的类别中,也就是说一篇新闻报道即可以看做是政治类的,也可以划分到经济类或体育类。

多标签分类任务中,通过样本数据对模型训练,训练后的模型可以从海量数据中筛选出需要的信息。模型的训练以及最终能够达到的效果不仅仅依赖于模型本身,还依赖于提供给模型训练使用的数据,这些数据中,有正样本和负样本,在已知的许多机器学习任务中,负样本的重要程度甚至不低于正样本,比如词嵌入模型word2vec。

相关技术中,在多标签学习和文档相似性学习任务中,文档的负采样的质量会对模型的学习产生很大的影响。而负采样过程中,通常采用纯随机的方式组成负样本,导致文档负采样过程出现错采样问题,从而致使模型训练速度较慢,训练结果性能较差的问题。



技术实现要素:

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本发明提出一种负采样方法,以实现通过将获取的正样本与待选样本之间计算物理相似程度和内容相似程度,根据物理相似程度和内容相似程度确定用户模型训练的负样本,大大降低了负采样过程中错采样的比率,一定程度上提升了模型的训练速度,以及模型最终能达到的效果。

本发明提出一种负采样装置。

本发明提出一种计算机设备。

本发明提出一种计算机可读存储介质。

为达上述目的,本发明第一方面实施例提出了一种负采样方法,包括:

确定模型训练所采用的正样本;

获取所述正样本与待选样本之间的物理相似程度和内容相似程度;

根据所述物理相似程度和内容相似程度,从所述待选样本中选取用于所述模型训练的负样本。

可选地,作为第一方面的第一种可能的实现方式,获取所述正样本与待选样本之间的物理相似程度和内容相似程度,包括:

根据所述正样本,查询第一相似度矩阵,得到所述正样本与各个待选样本之间物理相似程度;其中,所述第一相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应的样本之间的物理相似程度;

根据所述正样本,查询第二相似度矩阵,得到所述正样本与各个待选样本之间内容相似程度;其中,所述第二相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应的样本之间的内容相似程度。

可选地,作为第一方面的第二种可能的实现方式,所述待选样本为多个,所述正样本是从所述待选样本中确定出的,所述获取所述正样本与待选样本之间的物理相似程度和内容相似程度之前,还包括:

生成多个样本对;其中,每个样本对包括所述多个待选样本中的两个,所述多个样本对中的待选样本不同;

计算每个样本对中的两个待选样本之间的物理相似程度和内容相似程度;

根据每个样本对中的两个待选样本之间的物理相似程度生成所述第一相似度矩阵;

根据每个样本对中的两个待选样本之间的内容相似程度生成所述第二相似度矩阵。

可选地,作为第一方面的第三种可能的实现方式,所述根据每个样本对中的两个待选样本之间的物理相似程度生成所述第一相似度矩阵,包括:

确定第一相似度矩阵中各行对应的待选样本,以及各列对应的待选样本;

针对每一个样本对,将所述样本对中两个待选样本之间的物理相似程度作为所述第一相似度矩阵中两个对称元素取值;所述对称元素所在行和列分别对应所述两个待选样本中的一个样本。

可选地,作为第一方面第四种可能的实现方式,根据每个样本对中的两个待选样本之间的内容相似程度生成所述第二相似度矩阵,包括:

确定第二相似度矩阵中各行对应的待选样本,以及各列对应的待选样本;

针对每一个样本对,将所述样本对中两个待选样本之间的内容相似程度作为所述第二相似度矩阵中两个对称元素取值;所述对称元素所在行和列分别对应所述两个待选样本中的一个样本。

可选地,作为第一方面的第五种可能的实现方式,根据所述物理相似程度和内容相似程度,从所述待选样本中选取用于所述模型训练的负样本,包括:

从所述待选样本中,选取所述物理相似程度低于物理阈值和内容相似程度低于内容阈值的待选样本作为所述负样本。

本实施例的负采样方法中,确定模型训练所采用的正样本,获取正样本与待选样本之间的物理相似程度和内容相似程度,根据物理相似程度和内容相似程度,从待选样本中选取用于模型训练的负样本。通过相似程度算法,获得符合要求的模型训练的负样本,解决了现有技术中采用纯随机的方式获取负样本,负样本选择的质量较差,使得负采样的错采样率比例较高,致使模型训练的速度较慢,训练效果较差的问题。

为达上述目的,本发明第二方面实施例提出了一种负采样装置,包括:

确定模块,用于确定模型训练所采用的正样本;

获取模块,用于获取所述正样本与待选样本之间的物理相似程度和内容相似程度;

选取模块,用于根据所述物理相似程度和内容相似程度,从所述待选样本中选取用于所述模型训练的负样本。

可选地,作为第二方面的第一种可能的实现方式,所述获取模块,还可以包括:

第一查询单元,用于根据所述正样本,查询第一相似度矩阵,得到所述正样本与各个待选样本之间物理相似程度;其中,所述第一相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应的样本之间的物理相似程度;

第二查询单元,用于根据所述正样本,查询第二相似度矩阵,得到所述正样本与各个待选样本之间内容相似程度;其中,所述第二相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应的样本之间的内容相似程度。

可选地,作为第二方面的第二种可能的实现方式,该装置中获取模块之前还包括:

第一生成模块,用于生成多个样本对;其中,每个样本对包括所述多个待选样本中的两个,所述多个样本对中的待选样本不同;

计算模块,用于计算每个样本对中的两个待选样本之间的物理相似程度和内容相似程度;

第二生成模块,用于根据每个样本对中的两个待选样本之间的物理相似程度生成所述第一相似度矩阵;

第三生成模块,用于根据每个样本对中的两个待选样本之间的内容相似程度生成所述第二相似度矩阵。

可选地,作为第二方面的第三种可能的实现方式,第二生成模块,具体用于:

确定第一相似度矩阵中各行对应的待选样本,以及各列对应的待选样本,针对每一个样本对,将所述样本对中两个待选样本之间的物理相似程度作为所述第一相似度矩阵中两个对称元素取值;所述对称元素所在行和列分别对应所述两个待选样本中的一个样本。

可选地,作为第二方面的第四种可能的实现方式,第三生成模块,具体用于:

确定第二相似度矩阵中各行对应的待选样本,以及各列对应的待选样本,针对每一个样本对,将所述样本对中两个待选样本之间的内容相似程度作为所述第二相似度矩阵中两个对称元素取值;所述对称元素所在行和列分别对应所述两个待选样本中的一个样本。

可选地,作为第二方面的第五种可能的实现方式,选取模块,具体用于:

从所述待选样本中,选取所述物理相似程度低于物理阈值和内容相似程度低于内容阈值的待选样本作为所述负样本。

本实施例的负采样装置中,确定模块用于确定模型训练所采用的正样本,获取模块用于获取正样本与待选样本之间的物理相似程度和内容相似程度,选取模块用于根据物理相似程度和内容相似程度,从待选样本中选取用于模型训练的负样本。通过相似程度算法,获得符合要求的模型训练的负样本,解决了现有技术中采用纯随机的方式获取负样本,负样本选择的质量较差,使得负采样的错采样率比例较高,致使模型训练的速度较慢,训练效果较差的问题。

为达上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现第一方面实施例所述的负采样方法。

为达上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时,实现第一方面实施例所述的负采样方法。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本发明实施例一所提供的一种负采样方法的流程示意图;

图2为本发明实施例二所提供的一种负采样方法的流程示意图

图3为本发明实施例三所提供的一种负采样方法的流程示意图;

图4为本发明实施例四所提供的一种负采样方法的流程示意图;

图5为本发明实施例五所提出的一种负采样方法的流程示意图;

图6为本发明实施例所提供的一种负采样装置的结构示意图;以及

图7为本发明实施例所提供的另一种负采样装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的负采样方法和装置。

多标签分类任务中,模型的训练是一个重要的环节,模型训练的结果不仅依赖于模型的本身,还依赖于提供给模型训练使用的数据,这些数据中包含符合人们要求的正样本,正样本用于告诉模型什么是满足需求的,例如,符合期望的文字,图片,文档或者音符等,也包含不符合人们要求的负样本,负样本用于告诉模型什么是不满足需求的,例如,不符合期望的文字,图片,文档或者音符等。在已知的机器学习任务中,负样本的重要程度不低于正样本,对模型的训练效果产生很大的影响,因而,通过负采样得到高质量的负样本,对模型的训练尤为重要。

相关技术中,负采样的实现方式为:

负采样过程主要是通过随机选取的方式从待选样本中选取负样本。

但是,这种选取方式会造成负样本选择不准确,负采样的错采样比率高的问题,例如,将文档作为负采样的对象时,一般会存在以下几个问题,1)文档不同于词,文档相似时,词可能完全不一样,而词基本一样时,文档描述的内容可能是完全不一样的;2)文档是词的集合,对样本集合的负采样的复杂度要远高于单个样本。

为解决上述问题,本发明实施例提出了一种负采样的方法,通过计算正样本和待选样本之间的物理相似度和内容相似度,基于该物理相似度和内容相似度确定负样本,改进了负采样的算法,降低了负采样的错采样比率,提升了模型的训练速度和最终的训练效果。

图1为本发明实施例一所提供的一种负采样方法的流程示意图。

如图1,所示,该方法包括如下步骤:

步骤s101,确定模型训练所采用的正样本。

其中,该模型为二分类模型或者多分类模型(即多标签模型)。

具体地,训练所用的正样本是指可指导模型筛选出满足用户需求的样本,作为一种可能的实现方式,在已知的样本训练集中,待选样本为多个,通过人为标定的方式,从多个待选样本中确定正样本,其中,正样本的数量可以为1个或者为多个,例如,当选取的正样本为句子时,正样本可以为:“请打开电视机”、“我想看电视”以及“有什么好看的么”。

作为一种可能的实现方式,该模型可用于智能音箱或其他智能家居上,智能音箱可接入智能家居的网络。该智能音箱可以获取用户输入的语句、图片和音视频,进而该智能音响基于该模型,根据输入的语句、图片和音视频实现对用户需求的识别,从而实现搜索、控制等多种场景。在模型对用户需求进行识别之前,需要采用正负样本对模型进行训练,以便模型能够学习得到输入信息与用户需求之间的对应关系。

步骤s102,获取正样本与待选样本之间的物理相似程度和内容相似程度。

具体地,根据正样本,查询第一相似度矩阵,得到正样本与各个待选样本之间物理相似程度,其中,第一相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应的样本之间的物理相似程度。根据正样本,查询第二相似度矩阵,得到正样本与各个待选样本之间内容相似程度,其中,第二相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应的样本之间的内容相似程度。

其中,物理相似程度即直观表达方式的相似程度,而内容相似程度用于表达内涵之间的相似程度,本实施例中,待选样本具体可以为文章、句子、图片和音视频,当待选样本类型不同时,待选样本之间的物理相似程度和内容相似程度代表的具体含义也不同。

具体地,针对物理相似程度,当待选样本为文章或者句子时,物理相似程度具体为词相似程度;当待选样本为图片时,物理相似程度具体为像素相似程度;当待选样本为音频或者视频时,物理相似程度具体为音符相似程度。

针对内容相似程度,当待选样本为文章或者句子时,内容相似程度具体为语义相似程度;当待选样本为图片时,内容相似程度具体为描绘对象相似程度;当待选样本为音频或者视频时,内容相似程度具体为旋律相似程度。

步骤s103,根据物理相似程度和内容相似程度,从待选样本中选取用于模型训练的负样本。

从待选样本中,选取物理相似程度低于物理阈值和内容相似程度低于内容阈值的待选样本作为负样本。具体地,针对每一个待选样本,判断正样本与待选样本之间物理的相似程度是否低于物理阈值相似度,若正样本与待选样本之间物理的相似程度低于物理阈值相似度,进而,判断正样本与待选样本之间内容的相似程度是否低于内容阈值相似度,若正样本与待选样本之间内容相似程度低于内容阈值相似度,选取待选样本作为负样本。

需要说明的是,本实施例中,选用相似度更低的待选样本作为负例,对于其他方法,如相似度在某个范围的,其实现原理类似,本实施例中不再赘述。

本实施例的负采样方法中,确定模型训练所采用的正样本,获取正样本与待选样本之间的物理相似程度和内容相似程度,根据物理相似程度和内容相似程度,从待选样本中选取用于模型训练的负样本。通过相似程度算法,获得符合要求的模型训练的负样本,解决了现有技术中采用纯随机的方式获取负样本,负样本选择的质量较差,使得负采样的错采样率比例较高,致使模型训练的速度较慢,训练效果较差的问题。

在上述实施例的基础上,本发明提出了另一种可能的负采样方法,更加清楚的解释了通过生成相似度矩阵之后,根据正样本,查询得到正样本和待选样本之间的物理相似度和内容相似度,从而确定模型训练的负样本的过程,图2为本发明实施例二所提供的一种负采样方法的流程示意图,如图2所示,该方法包括如下步骤:

步骤s201,生成多个样本对,计算每个样本对中的两个待选样本之间的物理相似程度和内容相似程度。

具体地,模型训练之前,会获取训练样本,训练样本中包含多个样本,根据训练样本生成多个样本对,每个样本对中包含多个待选样本中的两个,多个样本对中的待选样本不同。分别计算每个样本对中的两个待选样本之间的物理相似程度和内容相似程度。

为了便于区分,将2个待选样本之间的物理相似程度表示为m1(i,j),内容相似程度表示为m2(i,j),其中,i和j分别代表样本对中的样本i和样本j,本实施例中,以训练样本中包含3个样本为例进行举例说明,分别标记为1、2、3,任意2个样本生成样本对,可生成3个样本对,即样本对1和2,样本对1和3,以及样本对2和3,通过计算可得到物理相似程度分别为m1(1,2)、m1(1,3)、m1(2,3);通过计算可得到内容相似程度分别为:m2(1,2)、m2(1,3)、m2(2,3)。

步骤s202,根据每个样本对中的两个待选样本之间的物理相似程度生成第一相似度矩阵。

具体地,确定第一相似度矩阵中各行对应的待选样本,以及各列对应的待选样本,针对每一个样本对,将样本对中两个待选样本之间的物理相似程度作为第一相似度矩阵中两个对称元素取值,对称元素所在行和列分别对应两个待选样本中的一个样本。

以步骤s201中的3个待选样本为例,若构建一个物理相似程度的矩阵,即第一相似度矩阵可以表示为如下的矩阵a:

其中,相同样本之间的物理相似度为1,即m1(1,1)=1,m1(2,2)=1和m1(3,3)=1,另外,m1(1,2)和m1(2,1)相同,m1(3,1)和m1(1,3)相同,m1(3,2)和m1(2,3)相同。

作为一种可能的实现方式,即可将上述矩阵a表示为a1,其中,将物理相似度相同的项仅保留一个,另一个数值置为0,物理相似度为1的也置为0。第一相似度矩阵a1的矩阵表示方式,会减少查找时的运算量,提高运算速度。

步骤s203,根据每个样本对中的两个待选样本之间的内容相似程度生成第二相似度矩阵。

具体地,确定第二相似度矩阵中各行对应的待选样本,以及各列对应的待选样本,针对每一个样本对,将样本对中两个待选样本之间的内容相似程度作为第二相似度矩阵中两个对称元素取值,对称元素所在行和列分别对应两个待选样本中的一个样本。

同理,可得到内容的相似度矩阵,即第二相似度矩阵,作为一种可能的实现方式,可表示为a2:

步骤s204,确定模型训练所采用的正样本。

具体地,从待选样本中选择出模型训练所需要的正样本,以步骤s201中的3个待选样本为例,从中选择样本编号为1的样本为正样本。

步骤s205,根据正样本,查询第一相似度矩阵,得到正样本与各个待选样本之间物理相似程度。

具体地,正样本为编号为1的样本,查询第一相似度矩阵a1,可得到正样本1与待选样本2和3之间的物理相似程度,分别为m1(1,2)和m1(1,3)。

步骤s206,根据正样本,查询第二相似度矩阵,得到正样本与各个待选样本之间内容相似程度。

具体地,正样本为编号为1的样本,查询第二相似度矩阵a2,可得到正样本1与待选样本2和3之间的内容相似程度,分别为m2(1,2)和m2(1,3)。

步骤s207,根据物理相似程度和内容相似程度,从待选样本中选取用于模型训练的负样本。

具体地,首先将正样本1与待选样本之间的物理相似度和物理阈值相似度进行比较,若小于物理阈值相似度,则进一步,将正样本1与待选样本之间的内容相似度和内容阈值相似度进行比较,若内容相似度也小于内容阈值相似度,则该样本可以选取作为模型训练的负样本,否则,不能选取作为模型训练的负样本。

本实施例的负采样方法中,确定模型训练所采用的正样本,获取正样本与待选样本之间的物理相似程度和内容相似程度,根据物理相似程度和内容相似程度,从待选样本中选取用于模型训练的负样本。通过相似程度算法,获得符合要求的模型训练的负样本,解决了现有技术中采用纯随机的方式获取负样本,负样本选择的质量较差,使得负采样的错采样率比例较高,致使模型训练的速度较慢,训练效果较差的问题。

在多标签模型训练时,在对模型训练之前,先确定训练用的样本,从待选样本选取负样本之前,需要首先计算正样本与待选样本之间的相似程度,包括物理的相似程度和内容的相似程度,通过相似程度筛选用于模型训练的负样本。

因此,在上一实施例基础上,本实施例提供了另一种负采样的方法,进一步清楚的解释了,在进行负采样之前,如何计算得到正样本与待选样本之间的物理相似程度和内容相似程度,本实施例中,以待选样本为语句进行解释说明,当待选样本为文章、图片或者音视频时,原理一样,也同样适用。

图3为本发明实施例三所提供的一种负采样方法的流程示意图,如图3所示,该方法包括如下步骤:

步骤s301,确定模型训练所采用的正样本。

具体地,模型训练之前,先确定训练所需要的正样本数据,以及可能为负样本的待选样本数据。

步骤s302,计算正样本与待选样本之间物理相似程度和内容相似程度。

首先,样本之间物理相似程度可以在一定程度上表述2个样本之间的相似度。样本为句子时,句子之间的物理相似程度即为词相似程度。根据正样本,计算该正样本与待选样本之间词相似程度。

作为一种可能的实现方式,采用杰卡德相似度算法(jaccardsimilarity)计算正样本i和待选样本j之间的词相似程度。

为了便于说明,以文本为简单的句子为例进行说明,举例,正样本1:中国是大熊猫的故乡;待选样本1:大熊猫生活在中国,中国是它的故乡;待选样本2:小猫在墙上,墙上画着故乡的风景。作为一种可能的实现方式,将样本通过nlpir中文分词系统进行分词处理,转换成词语的集合,得到结果如下:

正样本1:中国/是/大熊猫/的/故乡

待选样本1:大熊猫/生活/在/中国,中国/是/它/的/故乡;

待选样本2:小猫/在/墙上/,墙上/画着/故乡/的/风景。

列出正样本1与待选样本1之间的所有的词:中国,大熊猫,故乡,生活,是,它,的,在。

具体地,可以采用公式(1),即jaccard相似度计算公式,计算样本之间的词相似程度,其中,公式(1)如下表示:

jaccard(a,b)=|a∩b|/|a∪b|(1)

其中,a,b代表2个文本的集合,将本实施例中的正样本1与待选样本1的集合代入公式1,可计算得到正样本1与待选样本1之间的词相似程度m1(正样本1,待选样本1)=0.625。

同理,可得到正样本1与待选样本2之间的词相似程度m1(正样本1,待选样本2)=0.2。

其中,nlpir中文分词系统采用层次隐马尔科夫模型,支持中英文分词和词性标注等操作,并能够利用信息熵计算每个候选词的上下文条件熵,实现文本中出现的人名、地名等关键词提取。nlpir中文分词系统包括有动态链接库以及多个api接口,每个api接口代表一种函数操作,动态链接库内包括有多个函数,通过调用api接口以及动态链接库内的函数即能够实现相应分词的操作。

作为另一种可能的实现方式,还可以采用余弦相似性,计算样本之间的词相似程度,余弦相似度算法是基于向量模型,利用向量空间中两个向量夹角的余弦值作为衡量两篇文章的相似程度,余弦值在0~1之间,余弦值越大说明两篇文档越相似,具体为:对待对比的句子进行分词处理,分词后统计所有的词,然后计算每个词出现的频率,得到词频向量,通过计算两个句子中词的词频向量的相似程度,得到两个句子的词相似程度。举例,两个句子a和b,将两个句子转化为两个n维向量的余弦相似度为:

其中,余弦值越大,说明夹角越小,两个向量越重合,即两个向量的相似度越高。

需要说明的是,计算两个样本之间的物理相似程度的方法还有很多种可能的实现方式,本实施例中不一一罗列,也不做具体限定。

作为另一种可能的实现方式,对比正样本和待选样本之间的相似程度,还可以对比正样本和待选样本之间内容相似程度,当待选样本为句子时,内容的相似程度具体为语义相似程度,因为当正样本和待选样本中相似词具有不同语义时,通过对比样本词相似程度很容易将待选样本误判为负例,则进一步对比样本之间的语义相似程度能更准确的判断样本之间的相似程度。

作为一种可能的实现方式,采用文档主题生成模型(latentdirectletallocation,ltd),其中,lda将正样本和待选样本转化为基于主题的向量,向量的维度即主题的数量,向量的维度值即该主题的权重,然后通过向量相似度算法,进行相似度计算,得到正样本和待选样本之间的语义相似度,具体为:将正样本和待选样本进行分词处理,得到一个个单独的词,并对分词结果进行过滤,去除停用词,停用词主要包括没有实际意思的词,如语气助词、介词等。由于lda模型是词袋模型,即分词后得到的次的顺序和语义无关,故分词时作为一种可能的实现方式,可以只保留名词。将正样本的词和待选样本的词,分别输入到lda主题模型中,得到正样本主题向量和待选样本主题向量,其中,向量中的每一个维度代表一个预设主题,每一个维度值代表预设主题的权重值。正样本主题向量中所有维度对应的向量值和为1,待选样本主题向量中所有维度对应的向量值和也为1。根据向量相似度算法,计算正样本主题向量和待选样本主题向量之间的相似程度,从而得到正样本和待选样本之间语义相似程度。

需要说明的是,lda主题模型,是通过大量训练样本生成的模型,通过lda主题模型将正样本和待选样本转换成能反应样本语义的用预设主题组成的向量,预设主题是提前设置好的,包括常用的几乎所有的主体类型,例如,预设主题可以为:体育,赛事,时间,数量,身体状态等等。

为了便于说明,以待选样本为简单的句子为例进行说明,举例,正样本2:昨天晚上看足球比赛,喝了很多酒,头疼。待选样本3:昨天晚上看球赛,喝了不少,有点拉肚子。对正样本2和待选样本3进行分词处理,转换成词语的集合,结果如下:

正样本2:昨天晚上,足球,比赛,喝了,很多,酒,头疼;

待选样本3:昨天晚上,球赛,喝了,不少,拉肚子。

进而,将正样本2和待选样本3对应的词语的集合输入lda模型中,得到在训练结果中,“球赛”和“足球”、“比赛”在同一个主题中,“很多”和“不少”在一个主题中,“拉肚子”和“头疼”在一个主题中,进而得到,正样本2基于主题的向量为[w1,w2,···w5],其中,w1至w5分别代表不同主题对应的权重值;待选样本3基于主题的向量为[w1’,w2’,···w5’],其中,w1’至w5’分别代表不同主题对应的权重值。利用余弦相似度算法,计算得到正样本2与待选样本3之间的语义相似程度为m2(正样本2,待选样本3)=0.8。

需要说明的,计算两个句子之间的语义相似程度的方法有很多种可能的实现方式,如,word2vec,lda或奇异值分解,槽位相似度,实体相似度等,都可以计算得到两个句子之间的语义相似程度,本实施例中不一一罗列,也不做具体限定。

本实施例中,列举了正样本和待选样本之间物理相似程度和内容相似程度的计算方法,而对于待选样本中任意2个样本之间的相似程度的计算方法实现原理一样,通过计算待选样本中任意2个样本中的相似程度,即可生成图2实施例中对应物理相似程度的第一相似度矩阵,和对应内容相似程度的第二相似度矩阵,此处不再赘述。

步骤s303,根据物理相似程度和内容相似程度,从待选样本中选取相似度低于阈值相似度的样本作为模型训练的负样本。

本实施例中,举例,物理阈值相似度设定为0.35,语义阈值相似度设定为0.3,通过计算得到的正样本和待选样本的词相似程度和语义相似程度,分别和物理阈值相似度和语义阈值相似度比对,从而确定模型训练的负样本。

举例1,以步骤s302中的正样本2和待选样本3为例,通过步骤s302中的物理相似程度可以计算得到m1(正样本2,待选样本3)=0.32,0.32小于物理的阈值相似度0.35,进一步,计算正样本2与待选样本3之间的语义相似程度,得到语义相似程度为m2(正样本2,待选样本3)=0.8,因0.8大于语义阈值相似度0.3,所以,待选样本3不能作为正样本2的负样本。

需要理解的是,上述步骤中,以待选样本为一个简单的句子为例进行相似度计算确定负样本,而当待选样本为文章、图片或者音视频时,实现原理一样,此处不再赘述。

需要说明的是,物理阈值相似度和语义阈值相似度,本领域技术人员可以根据需要设定,本实施例中不做限定。

本实施例的负采样方法中,确定模型训练所采用的正样本,获取正样本与待选样本之间的物理相似程度和内容相似程度,根据物理相似程度和内容相似程度,从待选样本中选取用于模型训练的负样本。通过将待选样本和正样本之间进行物理相似度和内容相似度比对,进一步排除了部分不符合需求的待选样本,筛选出更符合要求的模型训练的负样本,解决了现有技术中采用纯随机的方式获取负样本,负样本选择的质量较差,使得负采样的错采样率比例较高,致使模型要达到相同的精度时迭代轮次更多,训练的速度较慢,训练效果较差的问题。

以待选样本为句子为例,实际应用中,正样本和待选样本的物理相似度低,但是包含的词语义的相似度高,这样情况下,只对比正样本和待选样本之间的物理相似程度,则会将待选样本误判为负样本,需要进一步判断正样本与待选样本之间的语义相似度,进一步排除部分不符合要求的负样本,降低了错采样的比率。为此,本发明实施例还提出了一种负采样的方法,进一步清楚解释了通过对比正样本和待选样本之间词相似程度和语义相似程度来确定负样本的方法,图4为本发明实施例四所提供的一种负采样方法的流程示意图,如图4所示,该方法包括:

步骤s401,确定模型训练所采用的正样本和待选样本。

本实施例中,以待选样本为一个句子为例,进行举例说明。具体地,正样本和待选样本如下:

正样本2:昨天晚上看足球比赛,喝了很多酒,头疼;

待选样本3:昨天晚上看球赛,喝了不少,有点拉肚子;

待选样本4:昨天下午看电影,电影很精彩。

步骤s402,计算正样本与待选样本之间词相似程度。

当待选样本为句子时,物理相似程度具体为词相似程度。具体地,计算全部正样本与全部待选样本之间的词相似程度。作为一种可能的实现方式,jaccardsimilarity算法分别计算正样本2与待选样本3、待选样本4之间的词相似程度,得到m1(正样本2,待选样本3)=0.32,m1(正样本2,待选样本4)=0.15。

步骤s403,计算正样本与待选样本之间语义相似程度。

待选样本为句子时,内容相似程度具体为语义相似程度。作为一种可能的实现方式,采用lda模型,分别计算正样本2与待选样本3、待选样本4之间的语义相似程度分别为m2(正样本2,待选样本3)=0.8,m2(正样本2,待选样本4)=0.15。

步骤s404,针对每一个待选样本,逐个判断正样本与当前待选样本之间的词相似程度是否低于物理阈值相似度,若是,执行步骤s405,若否,则针对下一个待选样本重新执行步骤s404。

具体地,从全部正样本中,选取一个正样本,进而针对每一个待选样本,判断该待选样本与该正样本之间词相似程度是否低于物理阈值相似度,如果低于,则执行步骤s405,进一步判断该待选样本与正样本之间的语义相似程度是否低于语义阈值相似度;如果高于,则重新去选择一个待选样本,判断该待选样本与该正样本之间的词相似程度是否低于物理阈值相似度。

需要说明是的,当正样本数量多于一个时,循环执行步骤404至406,直至针对全部的正样本确定出对应的负样本。

本实施例中,将物理阈值相似度设定为0.35,针对待选样本3,正样本2与待选样本3之间的词相似程度m1(正样本2,待选样本3)=0.8=0.32,0.32小于0.35,即正样本2与待选样本3之间的词相似程度小于物理阈值相似度,进而判断待选样本3与正样本2的语义相似程度。

本实施例中针对待选样本4,获取得到正样本2与待选样本4之间的词相似程度m1(正样本2,待选样本4)=0.15,0.15小于0.3,即正样本2与待选样本4之间的词相似程度小于物理阈值相似度,进而执行步骤s405,判断待选样本4与正样本之间的语义相似程度。

步骤s405,判断该正样本与当前待选样本之间的语义相似程度是否低于语义阈值相似度,若是,则执行步骤s406,若否,则执行步骤s404。

具体地,判断正样本与待选样本之间语义相似程度是否小于语义阈值相似度,若是,该待选样本可以确定为该正样本的负样本,若否,则返回执行步骤s404,直到所有的待选样本都遍历完毕。

如,m2(正样本2,待选样本3)=0.8,0.8大于语义阈值相似度0.3,所以待选样本3不能作为正样本2的负样本,返回选择其他的待选样本,继续比对。

m2(正样本2,待选样本4)=0.15,0.15小于语义阈值相似度0.3,所以,该待选样本4可以作为正样本2的负样本。

步骤s406,选取该待选样本为负样本。

本实施例的负采样方法中,确定模型训练所采用的正样本,获取正样本与待选样本之间的物理相似程度和内容相似程度,根据物理相似程度和内容相似程度,从待选样本中选取用于模型训练的负样本。通过将待选样本和正样本之间进行物理相似度和内容相似度比对,进一步排除了部分不符合需求的待选样本,筛选出更符合要求的模型训练的负样本,解决了现有技术中采用纯随机的方式获取负样本,负样本选择的质量较差,使得负采样的错采样率比例较高,致使模型要达到相同的精度时迭代轮次更多,训练的速度较慢,训练效果较差的问题。

确定了正样本和对应的负样本后,即可利用该样本对模型进行训练,为此,在上述实施例基础上,本发明还提出了一种负采样方法的可能的实现方式,图5为本发明实施例五所提出的一种负采样方法的流程示意图,在上述实施例中确定模型训练的负样本后,还可以包括如下步骤:

步骤s501,将确定的正样本和负样本作为训练样本对。

具体地,通过确定的正样本,以及与该正样本匹配的负样本作为训练样本对。

步骤s502,利用多个训练样本对,对模型进行训练。

具体地,利用多个训练样本对对模型进行训练,其中,模型包括多分类模型和/或二分类模型。

本实施例的负采样方法中,确定模型训练所采用的正样本,获取正样本与待选样本之间的物理相似程度和内容相似程度,根据物理相似程度和内容相似程度,从待选样本中选取用于模型训练的负样本。通过将待选样本和正样本之间进行物理相似度和内容相似度比对,进一步排除了部分不符合需求的待选样本,筛选出更符合要求的模型训练的负样本,解决了现有技术中采用纯随机的方式获取负样本,负样本选择的质量较差,使得负采样的错采样率比例较高,致使模型要达到相同的精度时迭代轮次更多,训练的速度较慢,训练效果较差的问题。

为了实现上述实施例,本发明还提出一种负采样装置。

图6为本发明实施例所提供的一种负采样装置的结构示意图。

如图6所示,该装置包括:确定模块61、获取模块62和选取模块63。

确定模块61,用于确定模型训练所采用的正样本。

获取模块62,获取正样本与待选样本之间的物理相似程度和内容相似程度。

选取模块63,根据物理相似程度和内容相似程度,从待选样本中选取用于模型训练的负样本。

需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。

本实施例的负采样装置中,确定模块用于确定模型训练所采用的正样本,获取模块用于获取正样本与待选样本之间的物理相似程度和内容相似程度,选取模块用于根据物理相似程度和内容相似程度,从待选样本中选取用于模型训练的负样本。通过相似程度算法,获得符合要求的模型训练的负样本,解决了现有技术中采用纯随机的方式获取负样本,负样本选择的质量较差,使得负采样的错采样率比例较高,致使模型训练的速度较慢,训练效果较差的问题。

基于上述实施例,本发明实施例还提供了一种负采样装置的可能的实现方式,图7为本发明实施例所提供的另一种负采样装置的结构示意图,在上一实施例的基础上,该装置还包括:第一生成模块64、计算模块65、第二生成模块66和第三生成模块67。

第一生成模块64,用于生成多个样本对,其中,每个样本对包括多个待选样本中的两个,多个样本对中的待选样本不同。

计算模块65,用于计算每个样本对中的两个待选样本之间的物理相似程度和内容相似程度。

第二生成模块66,用于根据每个样本对中的两个待选样本之间的物理相似程度生成第一相似度矩阵。

第三生成模块67,用于根据每个样本对中的两个待选样本之间的内容相似程度生成第二相似度矩阵。

作为一种可能的实现方式,第二生成模块66,具体用于:

确定第一相似度矩阵中各行对应的待选样本,以及各列对应的待选样本,针对每一个样本对,将样本对中两个待选样本之间的物理相似程度作为第一相似度矩阵中两个对称元素取值,对称元素所在行和列分别对应两个待选样本中的一个样本。

作为一种可能的实现方式,第三生成模块67,具体用于:

确定第二相似度矩阵中各行对应的待选样本,以及各列对应的待选样本,针对每一个样本对,将样本对中两个待选样本之间的内容相似程度作为第二相似度矩阵中两个对称元素取值,对称元素所在行和列分别对应两个待选样本中的一个样本。

作为一种可能的实现方式,获取模块62,还可以包括:第一查询单元621、和第二查询单元622。

第一查询单元621,用于根据正样本,查询第一相似度矩阵,得到正样本与各个待选样本之间物理相似程度,其中,第一相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应的样本之间的物理相似程度。

第二查询单元622,用于根据正样本,查询第二相似度矩阵,得到正样本与各个待选样本之间内容相似程度,其中,第二相似度矩阵中的元素,用于指示所在行对应的样本与所在列对应的样本之间的内容相似程度。

作为一种可能的实现方式,选取模块63,具体用于:

从待选样本中,选取物理相似程度低于物理阈值和内容相似程度低于内容阈值的待选样本作为负样本。

需要说明的是,上述对方法实施例的解释说明也适用于本实施例的装置,实现原理一样,此处不再赘述。

本实施例的负采样装置中,确定模块用于确定模型训练所采用的正样本,获取模块用于获取正样本与待选样本之间的物理相似程度和内容相似程度,选取模块用于根据物理相似程度和内容相似程度,从待选样本中选取用于模型训练的负样本。通过相似程度算法,获得符合要求的模型训练的负样本,解决了现有技术中采用纯随机的方式获取负样本,负样本选择的质量较差,使得负采样的错采样率比例较高,致使模型训练的速度较慢,训练效果较差的问题。

为了实现上述实施例,本发明还提出一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行该计算机程序时,实现如前述方法实施例所述的负采样方法。

为了实现上述实施例,本发明还提出一种计算机可读存储介质,其上存储有计算机程序,当该程序被处理器被执行时,实现前述方法实施例所述的负采样方法。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(ram),只读存储器(rom),可擦除可编辑只读存储器(eprom或闪速存储器),光纤装置,以及便携式光盘只读存储器(cdrom)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1