基于贝叶斯分类的数据集获取方法及装置与流程

文档序号:13253244阅读:275来源:国知局
技术领域本发明实施例属于数据处理领域,尤其涉及一种基于贝叶斯分类的数据集获取方法及装置。

背景技术:
随着网络的发展,信息传播的数量越来越多,传播的周期也越来越短。为了尽快获取有用的信息,需要对数量众多的数据进行检索,而检索结果的准确率与预先确定的分类规则有关:分类规则越好,检索结果准确率越高,反之,则检索结果准确率越低。目前,常用贝叶斯分类方法对样本进行分类,该方法是统计学的分类方法,其分类方法的特点是使用概率来表示所有形式的不确定性,学习或推理都要用概率规则来实现。然而,由于直接采用贝叶斯分类方法对样本进行分类,没有对样本进行预处理,因此导致确定的分类规则精确度较低。

技术实现要素:
本发明实施例提供了一种基于贝叶斯分类的数据集获取方法及装置,旨在解决现有方法没有对样本进行预处理,因此导致确定的分类规则精确度较低的问题。本发明实施例是这样实现的,一种基于贝叶斯分类的数据集获取方法,所述方法包括:从样本数据库中随机选取样本;将随机选取的样本划分到训练集和测试集中;所述训练集中的样本个数大于所述测试集中的样本个数;确定测试集中的样本在训练集未优化前分类的正确率r1;确定所述测试集中属于第一类的样本和属于第二类的样本的比例k;根据所述r1和k对训练集进行优化处理;将训练集优化处理后的样本作为贝叶斯分类的数据集。本发明实施例的另一目的在于提供一种基于贝叶斯分类的数据集获取装置,所述装置包括:样本获取单元,用于从样本数据库中随机选取样本;样本分类单元,用于将随机选取的样本划分到训练集和测试集中;所述训练集中的样本个数大于所述测试集中的样本个数;初始分类正确率确定单元,用于确定测试集中的样本在训练集未优化前分类的正确率r1;测试集的样本比例确定单元,用于确定所述测试集中属于第一类的样本和属于第二类的样本的比例k;训练集优化处理单元,用于根据所述r1和k对训练集进行优化处理;贝叶斯分类的数据集确定单元,用于将训练集优化处理后的样本作为贝叶斯分类的数据集。在本发明实施例中,由于对训练集进行了优化处理,保持特征明显的样本,删除特征不明显的样本,且使训练集中各个分类的样本比例和总体分布基本相同,使训练集没有发生偏斜,因此,在采用优化后的训练集去训练生成分类器,然后用该分类器对海量数据进行分类时,分类更精确。附图说明图1是本发明第一实施例提供的一种基于贝叶斯分类的数据集获取方法的流程图;图2是本发明第二实施例提供的一种基于贝叶斯分类的数据集获取装置的结构图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本发明实施例中,将随机选取的样本划分到训练集和测试集中,并确定测试集中的样本在训练集未优化前分类的正确率r1,以及确定所述测试集中属于第一类的样本和属于第二类的样本的比例k,再根据所述r1和k对训练集进行优化处理,最后将训练集优化处理后的样本作为贝叶斯分类的数据集。为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。实施例一:图1示出了本发明第一实施例提供的一种基于贝叶斯分类的数据集获取方法的流程图,在本发明实施例中,在采用贝叶斯分类方法对数据进行分类之前,对数据进行优化处理,以提高贝叶斯分类方法确定的分类规则的精确率,详述如下:步骤S11,从样本数据库中随机选取样本。该步骤中,从样本数据库中随机选取样本。比如,假设样本数据库中存储N个样本,则随机选取数量为N/10的样本。具体随机选取的样本数量可以预先设置,当然,若样本数据库存储的样本数量较少,则随机选取数量大于N/10的样本,具体根据实际情况确定,此处不作限定。步骤S12,将随机选取的样本划分到训练集和测试集中;所述训练集中的样本个数大于所述测试集中的样本个数。在本发明实施例中,由于需要对训练集进行优化处理(如删除训练集中类别划分错误的样本),因此,需要保证训练集的样本个数大于测试集中的样本个数。例如,假设步骤S11选取的样本数为Sp,则将Sp的前2/3的样本作为训练集Sp_e,剩余的1/3的样本作为测试集Sp_t,其中训练集以及测试集样本的数量为预先设定好的。步骤S13,确定测试集中的样本在训练集未优化前分类的正确率r1。假设训练集划分的类别为两类:第一类和第二类。则采用测试集中的样本测试训练集划分的类的正确率。可选地,所述确定测试集中的样本在训练集未优化前分类的正确率r1,具体包括:A1、确定误差率P(e):P(e)=P(C0)∫x1p(X|C0)dX+P(C1)∫x0p(X|C1)dX=P(C0)Σxi∈X1p(xi|C0)+P(C1)Σxi∈X0p(xi|C1),]]>其中:C0为训练集划分的第一类,C1为训练集划分的第二类,X为预设的特征词空间,X被划分为属于C0的X0和属于C1的X1,P(C0)为样本属于C0的概率,P(C1)为样本属于C1的概率,p(xi|C0)为属于C0的样本为xi的概率,p(xi|C1)为属于C1的样本为xi的概率,∑为求和的符号。A2、确定(1-P(e))以得到r1,其中:r1=1-P(e)。步骤S14,确定所述测试集中属于第一类的样本和属于第二类的样本的比例k。该步骤中,k为测试集中属于第一类的样本的个数与属于第二类的样本的个数的比值。步骤S15,根据所述r1和k对训练集进行优化处理。具体地,对训练集进行优化处理包括:删除特征不明显的样本,保留特征明显的样本;调整训练集中属于C0的样本的个数和属于C1的样本的个数,以使训练集的样本特征和随机选取的样本的总体分布大致相同。其中,所述根据所述r1和k对训练集进行优化处理,具体包括:B1、对训练集的每一个样本yi,确定样本yi分别属于C0、C1的概率P(C0/yi)、P(C1/yi)。B2、将|P(C0/yi)-P(C1/yi)|与预设的第j个有效值e(j)比较,1≤j≤15,j=j+1。其中,|P(C0/yi)-P(C1/yi)|中的“||”表示绝对值,具体地,假设预设的有效值为e(j)=e/100,则e(j)=15/100,16/100,17/100,…,18/100,19/100,30/100。在另一实施例中,e的取值也可以为其它预设的值。B3、在|P(C0/yi)-P(C1/yi)|小于预设的第j个有效值e(j)时,删除样本yi。例如,假设步骤B2采用的有效值为15/100时,若|P(C0/yi)-P(C1/yi)|小于15/100,则删除样本yi。由于|P(C0/yi)-P(C1/yi)|小于预设的第j个有效值时,表明样本yi的特征不明显,淘汰该样本yi,可以降低该样本yi对采用贝叶斯方法分类的影响,从而提高分类规则的精确度。B4、采用删除样本后的训练集对测试集的样本进行第j次分类。在该步骤中,以删除样本后的训练集为依据,对测试集的样本进行分类。B5、确定对测试集的样本进行第j次分类后的正确率rj。B6、将对测试集的样本进行第j次分类后的正确率rj与对测试集的样本进行第(j-1)次分类后的正确率rj-1比较。B7、在rj≥rj-1时,将对测试集的样本进行第j次分类对应的训练集作为优化处理后的训练集。例如,假设以训练集Sp_e_j为依据,对测试集的样本进行第j次分类,且rj≥rj-1时,则保留训练集Sp_e_j,将该训练集Sp_e_j作为优化处理后的训练集,这样,在下一次循环时,直接确定训练集Sp_e_j中的每一个样本分别属于C0、C1的概率,并将确定的概率与预设的第(j+1)个有效值比较。其中,所述步骤B1,确定样本yi分别属于C0、C1的概率P(C0/yi)、P(C1/yi),具体包括:B1-1、将样本yi划分为可识别的词组。具体地,利用机械分词法、基于语义的分词法、基于理解的分词法等,对样本yi进行分词,以将该样本yi划分为可识别的词组。B1-2、从划分得到的词组中提取样本yi的特征词。具体地,将划分得到的词组与预设的特征词库的特征词比较,若相同,则判定该词组为特征词,进而提取该词组。其中,提取的特征词可为多个,例如,假设提取样本yi的特征词为t,t有多个,本实施例中具有h个,则t=(t1,t2,...,th)。B1-3、根据P(C0)、P(C1)、在C0中出现提取的样本yi的特征的概率、在C1中出现提取的样本yi的特征词的概率,以及出现提取的样本yi的特征词的概率,确定P(C0/yi)和P(C1/yi)。其中,在C0中出现提取的样本yi的特征词的概率可采用P(tj/C0)表示,在C1中出现提取的样本yi的特征词的概率可采用P(tj/C1)表示,出现提取的样本yi的特征词的概率可采用P(t)表示,则P(C0/yi)=P(C0/t)=P(C0)Πj=1hP(tj/C0)P(t),]]>P(C1/yi)=P(C1/t)=P(C1)Πj=1hP(tj/C1)P(t),]]>P(t)=P(C0)Πj=1hP(tj/C0)+P(C1)Πj=1hP(tj/C1),]]>其中,“∏”表示连乘。当P(C0/yi)>P(C1/yi)时,表示样本yi属于C0,否则,属于C1。可选地,对步骤B2,在|P(C0/yi)-P(C1/yi)|大于或等于预设的第j个有效值e(j)时,C1、确定训练集中属于C0的样本个数n1,以及确定训练集中属于C1的样本个数n2。C2、在n1与n2的比值大于k时,删除训练集中属于C0的|P(C0/yi)-P(C1/yi)|较小的样本,删除的样本个数为(n1-k*n2)。例如,假设n1为999与n2为1,k=99,则由于n1与n2的比值为999/1,而999/1大于99,因此,需要删除(999-99*1=900)个样本,具体删除900个|P(C0/yi)-P(C1/yi)|最小的样本。由于测试集里数据是随机抽取的,而且没有经过任何删除,因此可以良好的反应全局的分类比例情况。当计算测试集里属于各个分类的比例后,按照这个比例去调增训练集属于不同分类样本的个数就能够使训练集中属于各个分类的比例与全局的分类比例相同。例如,假设测试集中C0分类和C1分类的个数之比是3:1,则尽量保证每次删除训练集C0或C1分类里的样本也满足3:1。步骤S16,将训练集优化处理后的样本作为贝叶斯分类的数据集。在本发明第一实施例中,将随机选取的样本划分到训练集和测试集中,并确定测试集中的样本在训练集未优化前分类的正确率r1,以及确定所述测试集中属于第一类的样本和属于第二类的样本的比例k,再根据所述r1和k对训练集进行优化处理,最后将训练集优化处理后的样本作为贝叶斯分类的数据集。由于对训练集进行了优化处理,保持特征明显的样本,删除特征不明显的样本,且使训练集中各个分类的样本比例和总体分布的基本相同,使训练集没有发生偏斜,因此,在采用优化后的训练集去训练生成分类器,然后用该分类器对海量数据进行分类时,分类更精确。应理解,在本发明实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。实施例二:图2示出了本发明第二实施例提供的一种基于贝叶斯分类的数据集获取装置的结构图,该基于贝叶斯分类的数据集获取装置可以应用于智能终端,该智能终端可以包括经无线接入网RAN与一个或多个核心网进行通信的用户设备,该用户设备可以是移动电话(或称为“蜂窝”电话)、具有移动设备的计算机等,例如,用户设备还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语音和/或数据。又例如,该移动设备可以包括智能手机、平板电脑、个人数字助理PDA、销售终端POS或车载电脑等。为了便于说明,仅示出了与本发明实施例相关的部分。该基于贝叶斯分类的数据集获取装置包括:样本获取单元21、样本分类单元22、初始分类正确率确定单元23、测试集的样本比例确定单元24、训练集优化处理单元25、贝叶斯分类的数据集确定单元26。其中:样本获取单元21,用于从样本数据库中随机选取样本。具体地,根据实际情况,从样本数据库随机选取样本。样本分类单元22,用于将随机选取的样本划分到训练集和测试集中。所述训练集中的样本个数大于所述测试集中的样本个数。初始分类正确率确定单元23,用于确定测试集中的样本在训练集未优化前分类的正确率r1。假设训练集划分的类别为两类:第一类和第二类。则采用测试集中的样本测试训练集划分的类的正确率。可选地,所述初始分类正确率确定单元23包括:误差率确定模块,用于确定误差率P(e):P(e)=P(C0)∫x1p(X|C0)dX+P(C1)∫x0p(X|C1)dX=P(C0)Σxi∈X1p(xi|C0)+P(C1)Σxi∈X0p(xi|C1),]]>其中:C0为训练集划分的第一类,C1为训练集划分的第二类,X为预设的特征词空间,X被划分为属于C0的X0和属于C1的X1,P(C0)为样本属于C0的概率,P(C1)为样本属于C1的概率,p(xi|C0)为属于C0的样本为xi的概率,p(xi|C1)为属于C1的样本为xi的概率,∑为求和的符号。正确率计算模块,用于确定(1-P(e))以得到r1,其中:r1=1-P(e)。测试集的样本比例确定单元24,用于确定所述测试集中属于第一类的样本和属于第二类的样本的比例k。训练集优化处理单元25,用于根据所述r1和k对训练集进行优化处理。具体地,对训练集进行优化处理包括:删除特征不明显的样本,保留特征明显的样本;调整训练集中属于C0的样本的个数和属于C1的样本的个数,以使训练集的样本特征和随机选取的样本的总体分布大致相同。其中,在删除特征不明显的样本时,所述训练集优化处理单元25包括:条件概率确定模块,用于对训练集的每一个样本yi,确定样本yi分别属于C0、C1的概率P(C0/yi)、P(C1/yi)。条件概率比较模块,用于将|P(C0/yi)-P(C1/yi)|与预设的第j个有效值e(j)比较,1≤j≤15,j=j+1。其中,|P(C0/yi)-P(C1/yi)|中的“||”表示绝对值,具体地,假设预设的有效值为e(j)=e/100,则e(j)=15/100,16/100,17/100,…,18/100,19/100,30/100。在另一实施例中,e的取值也可以为其它预设的值。样本删除模块,用于在|P(C0/yi)-P(C1/yi)|小于预设的第j个有效值e(j)时,删除样本yi。由于|P(C0/yi)-P(C1/yi)|小于预设的第j个有效值时,表明样本yi的特征不明显,淘汰该样本yi,可以降低该样本yi对采用贝叶斯方法分类的影响,从而提高分类规则的精确度。样本重分类模块,用于采用删除样本后的训练集对测试集的样本进行第j次分类。分类正确率重确定模块,用于确定对测试集的样本进行第j次分类后的正确率rj。分类正确率比较模块,用于将对测试集的样本进行第j次分类后的正确率rj与对测试集的样本进行第(j-1)次分类后的正确率rj-1比较。样本保存模块,用于在rj≥rj-1时,将对测试集的样本进行第j次分类对应的训练集作为优化处理后的训练集。可选地,所述条件概率确定模块包括:分词模块,用于将样本yi划分为可识别的词组。具体地,利用机械分词法、基于语义的分词法、基于理解的分词法等,对样本yi进行分词,以将该样本yi划分为可识别的词组。特征提取模块,用于从划分得到的词组中提取样本yi的特征词。具体地,将划分得到的词组与预设的特征词库的特征词比较,若相同,则判定该词组为特征词,进而提取该词组。其中,提取的特征词可为多个,例如,假设提取样本yi的特征词为t,t有多个,则t=(t1,t2,...,th)。样本的条件概率计算模块,用于根据P(C0)、P(C1)、在C0中出现提取的样本yi的特征词的概率、在C1中出现提取的样本yi的特征词的概率,以及出现提取的样本yi的特征词的概率,确定P(C0/yi)和P(C1/yi)。其中,在C0中出现提取的样本yi的特征词的概率可采用P(tj/C0)表示,在C1中出现提取的样本yi的特征词的概率可采用P(tj/C1)表示,出现提取的样本yi的特征词的概率可采用P(t)表示,则P(C0/yi)=P(C0/t)=P(C0)Πj=1hP(tj/C0)P(t),]]>P(C1/yi)=P(C1/t)=P(C1)Πj=1hP(tj/C1)P(t),]]>P(t)=P(C0)Πj=1hP(tj/C0)+P(C1)Πj=1hP(tj/C1),]]>其中,“∏”表示连乘。当P(C0/yi)>P(C1/yi)时,表示样本yi属于C0,否则,属于C1。可选地,所述基于贝叶斯分类的数据集获取装置包括:样本个数确定单元,用于在|P(C0/yi)-P(C1/yi)|大于或等于预设的第j个有效值e(j)时,确定训练集中属于C0的样本个数n1,以及确定训练集中属于C1的样本个数n2。删除样本确定单元,用于在n1与n2的比值大于k时,删除训练集中属于C0的|P(C0/yi)-P(C1/yi)|较小的样本,删除的样本个数为(n1-k*n2)。由于测试集里数据是随机抽取的,而且没有经过任何删除,因此可以良好的反应全局的分类比例情况。当计算测试集里属于各个分类的比例后,按照这个比例去调增训练集属于不同分类样本的个数就能够使训练集中属于各个分类的比例与全局的分类比例相似。贝叶斯分类的数据集确定单元26,用于将训练集优化处理后的样本作为贝叶斯分类的数据集。在本发明第二实施例中,由于对训练集进行了优化处理,保持特征明显的样本,删除特征不明显的样本,且使训练集中各个分类的样本比例和总体分布的基本相同,使训练集没有发生偏斜,因此,在采用优化后的训练集去训练生成分类器,然后用该分类器对海量数据进行分类时,分类更精确。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1