本发明涉及数据处理技术领域,具体为一种资讯分类模型的训练方法及装置。
背景技术:
随着互联网技术的发展,当前网络上涌现出大量的资讯信息,网站和软件都利用机器学习分类技术将资讯进行有效分类,便于用户查找选择自己感兴趣的资讯内容。所以如何提升资讯分类的准确性,是当前互联网企业和科研机构研究的热点。
现有的资讯分类模型的训练方法首先需要标注确定类别的资讯文本作为训练集,然后再利用朴素贝叶斯、随机森林等分类方法进行资讯分类模型的训练,最终利用训练完成的资讯分类模型对新输入的资讯进行分类。由于有时一篇资讯会讨论多个类别的内容,例如:一篇体育报道中包含了体育明星的娱乐信息,那么该篇资讯很难简单的将其标定为体育类或者娱乐类,如果简单粗暴的将其标定为固定的类别,再采用现有的资讯分类方法进行分类模型训练,就会限制资讯分类模型的分类精度,影响资讯分类的准确性。
技术实现要素:
本发明提供了一种资讯分类模型的训练方法及装置,可以解决现有技术中由于简单粗暴的将资讯标定为固定的类别,进行资讯分类模型训练,导致资讯分类模型的分类精度受到限制,影响资讯分类的准确性的问题。
为达到上述目的,本发明提供了如下技术方案:
一种资讯分类模型的训练方法,包括:
采集训练资讯,得到训练资讯集;
对所述训练资讯集中的训练资讯进行多类别标注;
对多类别标注后的训练资讯集进行切词和过滤,得到训练词集;
将所述训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到资讯分类模型。
可选的,所述对所述训练资讯集中的训练资讯进行多类别标注,包括:
将所述训练资讯集中的训练资讯多类别标注为xi={<c1,p1>,<c2,p2>,…,<cm,pm>},其中,xi为所述训练资讯集中任一条训练资讯,c={c1,c2,…,cm}为不同的资讯类别,p={p1,p2,…,pm}为该条资讯属于每种资讯类别的概率pj=p(cj|xi)。
可选的,所述对多类别标注后的训练资讯集进行切词和过滤,得到训练词集,包括:
对所述对多类别标注后的训练资讯集进行切词,得到第一词集;
根据预先定义的领域词表,还原所述第一词集中错切的词,剔除所述第一词集中无意义的词,以及对所述第一词集中有意义的词进行去重,得到第二词集;
根据预先定义的停用词表,对所述第二词集中的词进行去停用词过滤,得到第三词集;
计算所述第三词集中每个词与不同资讯类别之间的信息增益,并从所述第三词集中剔除信息增益小于预设阈值的词,得到所述训练词集。
可选的,所述将所述训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到所述资讯分类模型,包括;
将所述训练词集作为输入,根据改进朴素贝叶斯模型中的先验概率公式
进行模型训练,得到所述资讯分类模型。
可选的,所述训练方法,还包括:
接收输入资讯;
将所述输入资讯输入所述资讯分类模型中,得到所述输入资讯属于不同资讯类别的概率;
根据所述输入资讯属于不同资讯类别的概率,得到所述输入资讯的资讯类别。
一种资讯分类模型的训练装置,包括:
采集单元,用于采集训练资讯,得到训练资讯集;
标注单元,用于对所述训练资讯集中的训练资讯进行多类别标注;
过滤单元,用于对多类别标注后的训练资讯集进行切词和过滤,得到训练词集;
训练单元,用于将所述训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到资讯分类模型。
可选的,所述标注单元,用于将所述训练资讯集中的训练资讯多类别标注为xi={<c1,p1>,<c2,p2>,…,<cm,pm>},其中,xi为所述训练资讯集中任一条训练资讯,c={c1,c2,…,cm}为不同的资讯类别,p={p1,p2,…,pm}为该条资讯属于每种资讯类别的概率pj=p(cj|xi)。
可选的,所述过滤单元,包括:
切词子单元,用于对所述对多类别标注后的训练资讯集进行切词,得到第一词集;
处理子单元,用于根据预先定义的领域词表,还原所述第一词集中错切的词,剔除所述第一词集中无意义的词,以及对所述第一词集中有意义的词进行去重,得到第二词集;
过滤子单元,用于根据预先定义的停用词表,对所述第二词集中的词进行去停用词过滤,得到第三词集;
计算子单元,用于计算所述第三词集中每个词与不同资讯类别之间的信息增益,并从所述第三词集中剔除信息增益小于预设阈值的词,得到所述训练词集。
可选的,所述训练单元,用于将所述训练词集作为输入,根据改进朴素贝叶斯模型中的先验概率公式
进行模型训练,得到所述资讯分类模型。
可选的,所述训练装置,还包括:
接收单元,用于接收输入资讯;
获取单元,用于将所述输入资讯输入所述资讯分类模型中,得到所述输入资讯属于不同资讯类别的概率;
选择单元,用于根据所述输入资讯属于不同资讯类别的概率,得到所述输入资讯的资讯类别。
经由上述技术方案可知,本发明公开了一种资讯分类模型的训练方法及装置,采集训练资讯,得到训练资讯集;对训练资讯集中的训练资讯进行多类别标注;对多类别标注后的训练资讯集进行切词和过滤,得到训练词集;将训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到资讯分类模型。可见,本发明的资讯分类模型通过多类别标注后的训练资讯集进行模型训练,最终资讯分类模型得到的输出结果是输入资讯属于不同资讯类别的概率,而不是像现有技术一样直接将资讯标定为某一资讯分类,不考虑资讯内容包含的其他分类内容,本发明的资讯分类更加清楚准确。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例公开的一种资讯分类模型的训练方法的流程图;
图2为本发明实施例公开的基于资讯分类模型的资讯分类方法的流程图;
图3为本发明另一实施例公开的资讯分类模型的训练方法的流程示意图;
图4为本发明实施例公开的一种资讯分类模型的训练装置的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由背景技术可知,现有的资讯分类模型的训练方法首先需要标注确定类别的资讯文本作为训练集,然后再利用朴素贝叶斯、随机森林等分类方法进行资讯分类模型的训练,最终利用训练完成的资讯分类模型对新输入的资讯进行分类。由于有时一篇资讯会讨论多个类别的内容,例如:一篇体育报道中包含了体育明星的娱乐信息,那么该篇资讯很难简单的将其标定为体育类或者娱乐类,如果简单粗暴的将其标定为固定的类别,再采用现有的资讯分类方法进行分类模型训练,就会限制资讯分类模型的分类精度,影响资讯分类的准确性。
有鉴于此,本发明提供了一种资讯分类模型的训练方法及装置,可以解决现有技术中由于简单粗暴的将资讯标定为固定的类别,进行资讯分类模型训练,导致资讯分类模型的分类精度受到限制,影响资讯分类的准确性的问题。
如图1所示,本发明实施例公开了一种资讯分类模型的训练方法,所述训练方法包括:
s101、采集训练资讯,得到训练资讯集。
需要说明的是,采集的训练资讯可以是从网络上采集得到的,也可以是在线下采集得到的,并且在线下采集资讯后,由工作人员整合成训练资讯集,为保证最终得到的资讯分类模型的分类准确性,要求采集的训练资讯数量满足一定的数量级别,如采集的训练资讯数量大于一万条。
s102、对所述训练资讯集中的训练资讯进行多类别标注。
需要说明的是,为了提高资讯分类模型的准确性,利用多类别标注的方法,根据每一条训练资讯中包含的内容进行人工类别标注,最终得到每一条训练资讯属于不同资讯类别的概率。
可选的,所述对所述训练资讯集中的训练资讯进行多类别标注,包括:
将所述训练资讯集中的训练资讯多类别标注为xi={<c1,p1>,<c2,p2>,…,<cm,pm>},其中,xi为所述训练资讯集中任一条训练资讯,c={c1,c2,…,cm}为不同的资讯类别,p={p1,p2,…,pm}为该条资讯属于每种资讯类别的概率pj=p(cj|xi),m和i均为大于或等于1的正整数。
需要说明的是,训练资讯集可以表示为x={x1,x2,…,xn},其中,n为大于或等于1的正整数。
s103、对多类别标注后的训练资讯集进行切词和过滤,得到训练词集。
可选的,所述对多类别标注后的训练资讯集进行切词和过滤,得到训练词集,包括:
对所述对多类别标注后的训练资讯集进行切词,得到第一词集;
根据预先定义的领域词表,还原所述第一词集中错切的词,剔除所述第一词集中无意义的词,以及对所述第一词集中有意义的词进行去重,得到第二词集;
根据预先定义的停用词表,对所述第二词集中的词进行去停用词过滤,得到第三词集;
计算所述第三词集中每个词与不同资讯类别之间的信息增益,并从所述第三词集中剔除信息增益小于预设阈值的词,得到所述训练词集。
需要说明的是,具体可以采用python中文分词组件,也就是结巴分词组件对多累别标注后的训练资讯集进行切词,得到第一词集,通过切词可以拆分训练资讯集中的语句,再通过领域词表过滤,得到能够用于确认资讯类别的有意义的词。
所述领域词表是指与各个资讯类别有关的词形成的词表。具体可以预先由工作人员根据不同的资讯类别人工定义词表中的词。
可以采用所述信息增益算法(informationgain,ig)计算所述第三词集中每个词与不同资讯类别之间的信息增益,信息增益算法是一种用于进行判断的参考量,代表了在一个条件下,信息复杂度减少的程度。
比如说,我们对一个事件的信息什么都不知道的话,我们做决定的时候不确定度大约是值a;而当我们在一定条件下或者知道某个特征的情况下,不确定度就减少了一个单位,即a-1,而这个值就是信息增益;在诸多特征中,某个特征的信息增益是最大的,那么根据这个特征所作出的决定不确定度减少的也是最多的,也就是增益越大,确定度就越高,因此,剔除信息增益小于预设阈值的词,进一步增加确定资讯类别的准确性和效率。
s104、将所述训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到所述资讯分类模型。
需要说明的是,朴素贝叶斯算法是基于贝叶斯定理和特征条件独立假设的分类方法,也是应用最为广泛的分类方法,现有技术中就是采用原始的朴素贝叶斯算法训练的资讯分类模型,但现有技术训练模型时,训练资讯是每条资讯与资讯类别有唯一的对应关系,而本发明实施例中,每条资讯对应的是与多种资讯类别的概率关系,因此原始的朴素贝叶斯算法并不适用于本发明。
具体的,根据朴素贝叶斯定理需要利用训练资讯集计算不同资讯类别的先验概率p(cj)和不同资讯类别标签下每个词出现的条件概率p(wi|cj),传统的p(cj)和p(wi|cj)的计算方法如下:
其中,
可见,由于本发明实施例中,每条资讯对应的是与多种资讯类别的概率关系,无法明确的得到属于某一类的资讯的个数,上述先验概率p(cj)和条件概率p(wi|cj)的公式已经不适用了。
因此,本发明实施例依据先验概率和条件概率的涵义,对原始的朴素贝叶斯模型中的先验概率公式和条件概率公式进行改进。
可选的,所述将所述训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到所述资讯分类模型,包括;
将所述训练词集作为输入,根据改进朴素贝叶斯模型中的先验概率公式
进行模型训练,得到所述资讯分类模型,其中,count为频率计算,j、i、n、k均为大于或等于1的正整数。
需要说明的是,由上述改进朴素贝叶斯模型中的先验概率公式和条件概率公式可知,先验概率p(cj)不再是简单的“属于cj类的资讯个数除以所有资讯个数”,而是“将所有资讯分别属于cj类的概率求和再除以所有资讯个数”;同理p(wi|cj)也不再是简单的“在cj类资讯中wi出现的次数除以cj类资讯中所有词出现的次数之和”,而是“首先计算每条资讯中wi出现的次数乘以该条资讯属于cj类的概率之后再求和;然后计算每条资讯中所有词出现的次数之和乘以该条资讯属于cj类的概率之后再求和,最后计算第一个和除以第二个和”。
进一步需要说明的是,为了防止有一个项p(wi|cj)为0,导致模型退化,无法得到输出结果,本发明实施例采用拉普拉斯平滑,对p(wi|cj)的计算公式进行修正,修正后的p(wi|cj)公式为:
其中,t为平滑算子,t的取值可以为1、0.1等。
可选的,所述资讯分类方法,还包括:
根据选择得到的输入资讯的资讯类别,以及前端显示要求,将所述输入资讯在前端显示界面显示。
需要说明的是,前端显示要求规定了显示界面中不同资讯类别的显示位置和显示方式,在得到输入资讯的资讯类别后,将输入资讯按照资讯类别加入到前端显示界面的相应位置进行显示。
本实施例公开的资讯分类模型的训练方法,采集训练资讯,得到训练资讯集;对训练资讯集中的训练资讯进行多类别标注;对多类别标注后的训练资讯集进行切词和过滤,得到训练词集;将训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到资讯分类模型。可见,本发明的资讯分类模型通过多类别标注后的训练资讯集进行模型训练,最终资讯分类模型得到的输出结果是输入资讯属于不同资讯类别的概率,而不是像现有技术一样直接将资讯标定为某一资讯分类,不考虑资讯内容包含的其他分类内容,本发明的资讯分类更加清楚准确。
如图2所示,基于上述本发明实施例公开了一种资讯分类模型的训练方法得到的资讯分类模型,本发明另一实施例公开了一种资讯分类方法,包括:
s201、接收输入资讯。
需要说明的是,所述输入资讯可以是从网络上采集到的资讯信息,也可以是工作人员输入的资讯信息。
s202、将所述输入资讯输入预先训练完成的资讯分类模型中,得到所述输入资讯属于不同资讯类别的概率。
需要说明的是,区别于现有技术的资讯分类模型,本发明实施例中的资讯分类模型得到的输出结果是输入资讯属于不同资讯类别的概率,而不是直接得到资讯分类模型确定的分类结果。
s203、根据所述输入资讯属于不同资讯类别的概率,选择所述输入资讯的资讯类别。
需要说明的是,在得到输入资讯属于不同资讯类别的概率后,可以选择简单的以概率最大的资讯类别作为输入资讯的资讯类别,也可以加入其它参考量,进一步的在不同概率的资讯类别中选择一个资讯类别作为输入资讯的资讯类别,具体方式可以根据需求自行配置。
如图3所示,为本发明另一实施例公开的资讯分类模型的训练方法的流程示意图,其中,通过训练资讯集在线下预先进行资讯分类模型的训练,然后在线上接收到新的输入资讯后,将其输入资讯分类模型,得到输入资讯属于不同资讯类别的概率,然后选择输入资讯的资讯类别,再根据选择得到的输入资讯的资讯类别,以及前端显示要求,将所述输入资讯在前端显示界面显示。
基于上述本发明实施例公开的资讯分类模型的训练方法,图4具体公开了应用该资讯分类模型的训练方法的资讯分类模型的训练装置。
如图4所示,本发明另一实施例公开了一种资讯分类模型的训练装置,该装置包括:
采集单元401,用于采集训练资讯,得到训练资讯集。
标注单元402,用于对所述训练资讯集中的训练资讯进行多类别标注。
过滤单元403,用于对多类别标注后的训练资讯集进行切词和过滤,得到训练词集。
训练单元404,用于将所述训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到资讯分类模型。
可选的,所述标注单元402,用于将所述训练资讯集中的训练资讯多类别标注为xi={<c1,p1>,<c2,p2>,…,<cm,pm>},其中,xi为所述训练资讯集中任一条训练资讯,c={c1,c2,…,cm}为不同的资讯类别,p={p1,p2,…,pm}为该条资讯属于每种资讯类别的概率pj=p(cj|xi)。
可选的,所述过滤单元403,包括:
切词子单元,用于对所述对多类别标注后的训练资讯集进行切词,得到第一词集;
处理子单元,用于根据预先定义的领域词表,还原所述第一词集中错切的词,剔除所述第一词集中无意义的词,以及对所述第一词集中有意义的词进行去重,得到第二词集;
过滤子单元,用于根据预先定义的停用词表,对所述第二词集中的词进行去停用词过滤,得到第三词集;
计算子单元,用于计算所述第三词集中每个词与不同资讯类别之间的信息增益,并从所述第三词集中剔除信息增益小于预设阈值的词,得到所述训练词集。
可选的,所述训练单元404,用于将所述训练词集作为输入,根据改进朴素贝叶斯模型中的先验概率公式
进行模型训练,得到所述资讯分类模型。
可选的,所述训练装置,还包括:
接收单元,用于接收输入资讯;
获取单元,用于将所述输入资讯输入所述资讯分类模型中,得到所述输入资讯属于不同资讯类别的概率;
选择单元,用于根据所述输入资讯属于不同资讯类别的概率,得到所述输入资讯的资讯类别。
以上本发明实施例公开的资讯分类装置中的采集单元401、标注单元402、过滤单元403和训练单元404的具体工作过程,可参见本发明上述实施例公开的资讯分类方法中的对应内容,这里不再进行赘述。
本实施例公开的资讯分类模型的训练装置,采集训练资讯,得到训练资讯集;对训练资讯集中的训练资讯进行多类别标注;对多类别标注后的训练资讯集进行切词和过滤,得到训练词集;将训练词集作为输入,根据改进朴素贝叶斯模型进行模型训练,得到资讯分类模型。可见,本发明的资讯分类模型通过多类别标注后的训练资讯集进行模型训练,最终资讯分类模型得到的输出结果是输入资讯属于不同资讯类别的概率,而不是像现有技术一样直接将资讯标定为某一资讯分类,不考虑资讯内容包含的其他分类内容,本发明的资讯分类更加清楚准确。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。