主题分类器的训练方法、装置及计算机可读存储介质与流程

文档序号:13704471阅读:120来源:国知局

本发明涉及信息处理领域,尤其涉及一种主题分类器的训练方法、装置及计算机可读存储介质。



背景技术:

近年来,随着互联网的飞速发展,信息资源正呈指数级增长。丰富的互联网信息资源给人们的生活带来了极大的便利,人们只需一台连接互联网的电脑,便可获得影音媒体、新闻报道、技术文献等各种类型的信息资源。

然而在这个大数据时代,现有分类技术的分类效率和准确率较低,导致用户面对海量的信息资源时,难以准确快捷地获取自身所需的相关主题信息,因此,如何提高主题分类效率和准确率,是本领域技术人员亟待解决的技术问题。



技术实现要素:

本发明的主要目的在于提供一种主题分类器的训练方法、装置及计算机可读存储介质,旨在提高主题分类效率和准确率,从而使用户有效地从海量信息中获取相关的主题信息。

为实现上述目的,本发明提供一种主题分类器的训练方法,所述主题分类器的训练方法包括以下步骤:

获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的;

利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;

根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征roc曲线,并根据roc曲线下面积auc对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器。

可选地,所述获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的,包括:

采集文本数据,并对所述文本数据进行预处理,获得对应的第一关键词集;

根据所述第一关键词集和预设数量的话题,利用预设主题模型计算得到所述文本数据在所述话题上的分布,并根据所述文本数据在所述话题上的分布情况进行聚类,训练出所述文本数据对应的话题模型;

根据所述话题模型对所述文本数据的人工标注结果,从所述文本数据中筛选出与目标主题分类器对应的训练样本,并将所述文本数据中除所述训练样本之外的文本数据作为测试样本。

可选地,所述利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型,包括:

利用预设算法分别提取训练样本和测试样本的特征,对应建立第一哈希散列表和第二哈希散列表;

将所述第一哈希散列表代入逻辑回归模型,并通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型。

可选地,所述根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征roc曲线,并根据roc曲线下面积auc对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器,包括:

将所述第二哈希散列表代入所述含最优模型参数的逻辑回归模型,得到真阳性tp,真阴性tn,伪阴性fn和伪阳性fp;

根据所述tp,tn,fn和fp绘制roc曲线;

计算roc曲线下面积auc,根据auc值对所述含最优模型参数的逻辑回归模型进行评价;

当所述auc值小于或等于预设auc阈值时,则判定所述含最优模型参数的逻辑回归模型不符合要求,并返回步骤:通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;

当所述auc值大于所述预设auc阈值时,则判定所述含最优模型参数的逻辑回归模型符合要求,训练出第一主题分类器。

可选地,所述根据所述tp,tn,fn和fp绘制roc曲线,包括:

根据所述tp,tn,fn和fp计算出伪阳性率fpr和真阳性率tpr,对应的计算公式分别为fpr=fp/(fp+tn),tpr=tp/(tp+fn);

以所述fpr为横坐标,所述tpr为纵坐标,绘制roc曲线。

可选地,所述主题分类器的训练方法还包括:

将所述第二哈希散列表代入所述第一主题分类器,得到所述测试样本属于对应话题的概率;

调整所述预设auc阈值,并根据所述tp,fp和fn计算准确率p和召回率r;

当所述p小于或等于预设p阈值,或所述r小于或等于预设r阈值时,则返回步骤:调整所述预设auc阈值,直至所述p大于所述预设p阈值,且所述r大于所述预设r阈值时,训练出第二主题分类器;

利用所述第二主题分类器对所述文本数据进行分类。

可选地,所述采集文本数据,并对所述文本数据进行预处理,获得对应的第一关键词集,包括:

采集文本数据,并对所述文本数据进行分词;

根据预设停用词表去除分词后的文本数据中的停用词,得到第二关键词集;

计算所述第二关键词集中各关键词的词频-逆向文件频率tf-idf值,并去除tf-idf值低于预设tf-idf阈值的关键词,得到对应的第一关键词集。

可选地,所述计算所述第二关键词集中各关键词的词频-逆向文件频率tf-idf值,并去除tf-idf值低于预设tf-idf阈值的关键词,得到对应的第一关键词集,包括:

计算所述第二关键词集中各关键词的词频tf和逆向文件频率idf;

根据所述tf和idf计算所述第二关键词集中各关键词的词频-逆向文件频率tf-idf值,并去除tf-idf值低于预设tf-idf阈值的关键词,得到对应的第一关键词集。

此外,为实现上述目的,本发明还提供一种主题分类器的训练装置,所述主题分类器的训练装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的主题分类器训练程序,所述主题分类器训练程序被所述处理器执行时实现上述的主题分类器的训练方法的步骤。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有主题分类器训练程序,所述主题分类程序被处理器执行时实现上述的主题分类器的训练方法的步骤。

本发明通过获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的;利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征roc曲线,并根据roc曲线下面积auc对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器。通过上述方式,本发明利用预设算法对训练样本和测试样本进行特征提取,缩短了特征提取和模型训练的时间,提高了分类效率。本发明采用人工标注的方式筛选训练样本,可提高训练样本的准确性,从而提高主题分类器的分类准确率,同时,采用roc曲线下面积auc对所述含最优模型参数的逻辑回归模型进行评价训练出主题分类器,从而对文本数据进行分类,可进一步提高主题分类的准确率。

附图说明

图1是本发明实施例方案涉及的主题分类器装置结构示意图;

图2为本发明主题分类器的训练方法第一实施例的流程示意图;

图3为本发明实施例中获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的的细化流程示意图;

图4为本发明实施例中根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征roc曲线,并根据roc曲线下面积auc对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器的细化流程示意图;

图5为本发明主题分类器的训练方法第二实施例的流程示意图;

图6为本发明实施例中采集文本数据,并对所述文本数据进行预处理,获得对应的第一关键词集的细化流程示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

由于现有分类技术的分类效率和准确率较低,导致用户面对海量的信息资源时,难以准确快捷地获取自身所需的相关主题信息。

为了解决上述技术问题,本发明提供一种主题分类器的训练方法,通过获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的;利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征roc曲线,并根据roc曲线下面积auc对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器。通过上述方式,本发明利用预设算法对训练样本和测试样本进行特征提取,缩短了特征提取和模型训练的时间,提高了分类效率。本发明采用人工标注的方式筛选训练样本,可提高训练样本的准确性,从而提高主题分类器的分类准确率,同时,采用roc曲线下面积auc对所述含最优模型参数的逻辑回归模型进行评价训练出主题分类器,从而对文本数据进行分类,可进一步提高主题分类的准确率。

请参阅图1,为本发明实施例方案涉及的主题分类器装置结构示意图。

本发明实施例终端可以是pc,也可以是智能手机、平板电脑、便携计算机等具有显示功能的终端设备。

如图1所示,该终端可以包括:处理器1001,例如cpu,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地,终端还可以包括摄像头、rf(radiofrequency,射频)电路,传感器、音频电路、wifi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及主题分类器训练程序。

在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的主题分类器训练程序,以实现以下步骤:

获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的;

利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;

根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征roc曲线,并根据roc曲线下面积auc对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器。

进一步地,处理器1001可以调用存储器1005中存储的主题分类器训练程序,以实现以下步骤:

采集文本数据,并对所述文本数据进行预处理,获得对应的第一关键词集;

根据所述第一关键词集和预设数量的话题,利用预设主题模型计算得到所述文本数据在所述话题上的分布,并根据所述文本数据在所述话题上的分布情况进行聚类,训练出所述文本数据对应的话题模型;

根据基于所述话题模型对所述文本数据的人工标注结果,从所述文本数据中筛选出与目标主题分类器对应的训练样本,并将除所述训练样本之外的文本数据作为测试样本。

进一步地,处理器1001可以调用存储器1005中存储的主题分类器训练程序,以实现以下步骤:

利用预设算法分别提取训练样本和测试样本的特征,对应建立第一哈希散列表和第二哈希散列表;

将所述第一哈希散列表代入逻辑回归模型,并通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型。

进一步地,处理器1001可以调用存储器1005中存储的主题分类器训练程序,以实现以下步骤:

将所述第二哈希散列表代入所述含最优模型参数的逻辑回归模型,得到真阳性tp,真阴性tn,伪阴性fn和伪阳性fp;

根据所述tp,tn,fn和fp绘制roc曲线;

计算roc曲线下面积auc,根据auc值对所述含最优模型参数的逻辑回归模型进行评价;

当所述auc值小于或等于预设auc阈值时,则判定所述含最优模型参数的逻辑回归模型不符合要求,并返回步骤:通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;

当所述auc值大于所述预设auc阈值时,则判定所述含最优模型参数的逻辑回归模型符合要求,训练出第一主题分类器。

进一步地,处理器1001可以调用存储器1005中存储的主题分类器训练程序,以实现以下步骤:

根据所述tp,tn,fn和fp计算出伪阳性率fpr和真阳性率tpr,对应的计算公式分别为fpr=fp/(fp+tn),tpr=tp/(tp+fn);

以所述fpr为横坐标,所述tpr为纵坐标,绘制roc曲线。

进一步地,处理器1001可以调用存储器1005中存储的主题分类器训练程序,以实现以下步骤:

将所述第二哈希散列表代入所述第一主题分类器,得到所述测试样本属于对应话题的概率;

调整所述预设auc阈值,并根据所述tp,fp和fn计算准确率p和召回率r;

当所述p小于或等于预设p阈值,或所述r小于或等于预设r阈值时,则返回步骤:调整所述预设auc阈值,直至所述p大于所述预设p阈值,且所述r大于所述预设r阈值时,训练出第二主题分类器。

进一步地,处理器1001可以调用存储器1005中存储的主题分类器训练程序,以实现以下步骤:

利用所述第二主题分类器对所述文本数据进行分类。

进一步地,处理器1001可以调用存储器1005中存储的主题分类器训练程序,以实现以下步骤:

采集文本数据,并对所述文本数据进行分词;

根据预设停用词表去除分词后的文本数据中的停用词,得到第二关键词集;

计算所述第二关键词集中各关键词的词频-逆向文件频率tf-idf值,并去除tf-idf值低于预设tf-idf阈值的关键词,得到对应的第一关键词集。

进一步地,处理器1001可以调用存储器1005中存储的主题分类器训练程序,以实现以下步骤:

计算所述第二关键词集中各关键词的词频tf和逆向文件频率idf;

根据所述tf和idf计算所述第二关键词集中各关键词的词频-逆向文件频率tf-idf值,并去除tf-idf值低于预设tf-idf阈值的关键词,得到对应的第一关键词集。

请参阅图2,为本发明主题分类器的训练方法第一实施例的流程示意图。

在本发明实施例中,所述主题分类器的训练方法包括:

步骤s100,获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的;

步骤s200,利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;

在本实施例中,获取训练主题分类器所需的训练样本和测试样本,其中,训练样本为根据文本数据训练处对应的话题模型后经过人工标注获得的,用于优化模型的参数,而测试样本为除训练样本之外的文本数据,用于对建立的模型进行性能评价。在具体实施例中,训练样本和测试样本的获得还可以通过程序直接从互联网中查找到的微博进行抽样,例如数学软件matlab的svmtrain函数。

进一步地,利用预设算法分别提取训练样本和测试样本的特征,在本实施例中,采用二进制哈希散列表的字节4元语法byte4-gram算法分别提取所述训练样本和测试样本的特征,把每一个训练样本或测试样本对应地表示为一个由一组特征组成的特征向量。该方法抽取每一训练样本或测试样本数据中所有连续的4个字节为键(key),将字符串转换成字符串的utf-8编码所对应的byte数组,值为32bit的整数。进一步地,通过除留余数法构造出哈希函数,并分别对应建立第一哈希散列表和第二哈希散列表。其中,需要说明的是,对于散列表长为m的散列函数公式为:f(key)=keymodp,(p≤m)。其中,mod表示求余数。在具体实施方式中,为例减小冲突的发生,避免哈希散列表分布过于稀疏,p通常取小于散列表长的最大素数。

进一步地,将所述第一哈希散列表代入逻辑回归模型,并通过优化方法迭代计算出最优的模型参数,训练出逻辑回归模型,其中逻辑回归模型用于估计某种事物的可能性,或者说判断一个样本属于某种类别的概率是多少。逻辑回归模型为:

其中,xj表示第j个训练样本的特征向量,x(i)表示第i次取样,θ表示模型参数。

此外,还需说明的是迭代算法包括梯度下降,共轭梯度法和拟牛顿法等。在具体实施例中,可以通过上述任一迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型。当然,在具体实施例中,还可以采用其他方法分别提取训练样本和测试样本的特征,例如向量空间模型vsm、信息增益方法、期望交叉熵等。

步骤s300,根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征roc曲线,并根据roc曲线下面积auc对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器。

在本实施例中,将根据测试样本建立的第二哈希散列表代入所述含最优模型参数的逻辑回归模型,从而得到真阳性tp,真阴性tn,伪阴性fn和伪阳性fp,其中tp是利用逻辑回归模型对训练样本中正类进行判断后属于仍是正类的数目,tn利用逻辑回归模型对训练样本中负类进行判断后属于仍是负类的数目,fn利用逻辑回归模型对训练样本中负类进行判断后属于是正类的数目和fp利用逻辑回归模型对训练样本中正类进行判断后属于是负类的数目,正类和负类是指人工对训练样本标注的两种类别,即人工标注某个样本属于特定的类,则该样本属于正类,不属于该特定类的样本则属于负类。并根据所述tp,tn,fn和fp计算出伪阳性率fpr和真阳性率tpr,以fpr为横坐标,tpr为纵坐标,绘制出roc曲线,roc曲线是获得的各指标的特征曲线,用于展示各指标之间的关系,并进一步计算出roc曲线下面积auc,auc即roc曲线下面积,auc越大越好,提示该试验的诊断价值越高,对所述含最优模型参数的逻辑回归模型进行评价,当所述auc值小于或等于预设auc阈值时,则判定所述含最优模型参数的逻辑回归模型不符合要求,并返回步骤:通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型,直至所述auc值大于所述预设auc阈值时,则判定所述含最优模型参数的逻辑回归模型符合要求,训练出第一主题分类器。

本发明实施例通过获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的;利用预设算法分别提取训练样本和测试样本的特征,并根据所述训练样本的特征,通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征roc曲线,并根据roc曲线下面积auc对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器。通过上述方式,本发明利用预设算法对训练样本和测试样本进行特征提取,缩短了特征提取和模型训练的时间,提高了分类效率。本发明采用人工标注的方式筛选训练样本,可提高训练样本的准确性,从而提高主题分类器的分类准确率,同时,采用roc曲线下面积auc对所述含最优模型参数的逻辑回归模型进行评价训练出主题分类器,从而对文本数据进行分类,可进一步提高主题分类的准确率。

基于图2所示的第一实施例,请参阅图3,为本发明实施例中获取训练样本和测试样本,其中,所述训练样本为根据文本数据训练出对应的话题模型后经过人工标注获得的的细化流程示意图,步骤s100包括:

步骤s110,采集文本数据,并对所述文本数据进行预处理,获得对应的第一关键词集;

在本发明实施例中,文本数据可以从各大网络社交平台获得,例如微博、qq空间、知乎、百度贴吧等,也可以从各大信息资源数据库获得,例如腾讯视频,知网,电子报等。本实施例以微博文本为例进行说明,具体地,微博文本数据的采集可以通过新浪api(applicationprogramminginterface)获取新浪微博文本数据,所述文本数据包括微博正文和评论。

在本发明实施例中,对所述文本数据进行预处理的过程包括对所述文本数据进行分词,并进行词性标注,再根据预设停用词表去除分词后的文本数据中的停用词表,得到第二关键词集。进一步地,计算所述第二关键词集中各关键词的词频tf,逆向文件频率idf及词频-逆向文件频率tf-idf值,并去除tf-idf值低于预设tf-idf阈值的关键词,得到对应的第一关键词集。

步骤s120,根据所述第一关键词集和预设数量的话题,利用预设主题模型计算得到所述文本数据在所述话题上的分布,并根据所述文本数据在所述话题上的分布情况进行聚类,训练出所述文本数据对应的话题模型;

在本发明实施例中,预设主题模型采用lda主题模型,该模型是一种非监督机器学习技术,可用于识别大规模文档集或语料库中潜藏的主题信息,将文档集中的每一篇文档用潜在主题的概率分布进行表示,而每一个潜在主题由词项的概率分布进行表示。具体地,本实施例在终端接收到输入的第一关键词集和设定的话题数量时,lda主题模型会根据关键词在文档中的分布,计算得到所述话题在关键词上的分布,及文本数据在所述话题上的分布。进一步地,根据所述文本数据在所述话题上的分布情况进行聚类,训练出所述文本数据对应的话题模型。

步骤s130,根据基于所述话题模型对所述文本数据的人工标注结果,从所述文本数据中筛选出与目标主题分类器对应的训练样本,并将除所述训练样本之外的文本数据作为测试样本。

在本实施例中,由于lda模型是一种话题生成模型,无法控制所得到的话题的种类,因此,需要对得到的话题进行人工标注,从而筛选出与目标主题相对应的文本数据,以此作为主题分类器的训练样本,有利于提高主题分类器的分类准确率。此外,将除训练样本之外的文本数据作为测试样本,用于对训练出的逻辑回归模型进行评价。

基于图2所示的第一实施例,请参阅图4,为本发明实施例中根据所述测试样本的特征和所述含最优模型参数的逻辑回归模型绘制受试者工作特征roc曲线,并根据roc曲线下面积auc对所述含最优模型参数的逻辑回归模型进行评价,训练出第一主题分类器的细化流程示意图,步骤s300包括:

步骤s310,将所述第二哈希散列表代入所述含最优模型参数的逻辑回归模型,得到真阳性tp,真阴性tn,伪阴性fn和伪阳性fp;

步骤s320,根据所述tp,tn,fn和fp绘制roc曲线;

步骤s330,计算roc曲线下面积auc,根据auc值对所述含最优模型参数的逻辑回归模型进行评价;

步骤s340,当所述auc值小于或等于预设auc阈值时,则判定所述含最优模型参数的逻辑回归模型不符合要求,并返回步骤:通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型;

步骤s350,当所述auc值大于所述预设auc阈值时,则判定所述含最优模型参数的逻辑回归模型符合要求,训练出第一主题分类器。

在本实施例中,将所述第二哈希散列表代入所述含最优模型参数的逻辑回归模型,对测试样本进行分析,会出现以下四种情况:如果一个文本数据属于某一话题,同时被含最优模型参数的逻辑回归模型预测为属于该话题,则为真阳性tp;如果一个文本数据不属于某一话题,同时被预测为不属于该话题,则为真阴性tn;如果一个文本数据属于某一话题,却被预测为不属于该话题,则为伪阴性fn;如果一个文本数据不属于某一话题,却被预测为属于该话题,则为伪阳性fp。

进一步,根据所述tp,tn,fn和fp绘制roc曲线,具体地,roc曲线以伪阳性率fpr为横坐标,以真阳性率tpr为纵坐标,具体计算公式如下:

fpr=fp/(fp+tn),tpr=tp/(tp+fn)。

进一步地,计算roc曲线下面积auc,计算公式如下:

在本实施例中,auc值越大表示该含最优模型参数的逻辑回归模型的性能越好。当计算得到的auc值小于或等于预设auc阈值时,则判定所述含最优模型参数的逻辑回归模型不符合要求,并返回步骤:通过迭代算法计算出逻辑回归模型的最优模型参数,训练出含最优模型参数的逻辑回归模型。直至所述auc值大于所述预设auc阈值时,则判定所述含最优模型参数的逻辑回归模型符合要求,训练出第一主题分类器。

基于图2所示的第一实施例,请参阅图5,为本发明主题分类器的训练方法第二实施例的流程示意图,该主题分类器的训练方法还包括:

步骤s400,将所述第二哈希散列表代入所述第一主题分类器,得到所述测试样本属于对应话题的概率;

步骤s500,调整所述预设auc阈值,并根据所述tp,fp和fn计算准确率p和召回率r;

步骤s600,当所述p小于或等于预设p阈值,或所述r小于或等于预设r阈值时,则返回步骤:调整所述预设auc阈值,直至所述p大于所述预设p阈值,且所述r大于所述预设r阈值时,训练出第二主题分类器;

步骤s700,利用所述第二主题分类器对所述文本数据进行分类。

需要说明的是,相对于图2所示的第一实施例,图4所示第二实施例的区别在于:在实际使用过程中,由于文本数据过多,人工标注样本劳动力过大,可能无法涵盖所有可能的文本数据,导致使用效果不佳。此外,在使用roc曲线下面积auc对所述含最优模型参数的逻辑回归模型进行评价时,默认使用0.5作为预设auc阈值,大于0.5则逻辑回归模型的预测结果为1,即表示属于该话题;小于或等于0.5时则逻辑回归模型的预测结果为0,即表示不属于该话题。因此,在第二实施例中,通过调整所述预设auc阈值,在保证准确率p和召回率r的同时,进一步提高所述第二主题分类器的分类准确率。

在本发明实施例中,将所述第二哈希散列表代入所述第一主题分类器,得到所述测试样本属于对应话题的概率。进一步地,调整所述预设auc阈值,并根据所述tp,fp和fn计算出准确率p和召回率r,计算公式如下:

当所述p小于或等于预设p阈值,或所述r小于或等于预设r阈值时,则返回步骤:调整所述预设auc阈值,继续进行调整,直至所述p大于所述预设p阈值,且所述r大于所述预设r阈值,训练出第二主题分类器,并利用所述第二主题分类器对所述文本数据进行分类。

基于图3所示的实施方式,请参阅图6,为本发明实施例中采集文本数据,并对所述文本数据进行预处理,获得对应的第一关键词集的细化流程示意图,步骤s110包括:

步骤s111,采集文本数据,并对所述文本数据进行分词;

步骤s112,根据预设停用词表去除分词后的文本数据中的停用词,得到第二关键词集;

步骤s113,计算所述第二关键词集中各关键词的词频-逆向文件频率tf-idf值,并去除tf-idf值低于预设tf-idf阈值的关键词,得到对应的第一关键词集。

在本发明实施例中,文本数据可以从各大网络社交平台获得,例如微博、qq空间、知乎、百度贴吧等,也可以从各大信息资源数据库获得,例如腾讯视频,知网,电子报等。本实施例以微博文本为例进行说明,具体地,微博文本数据的采集可以通过新浪api(applicationprogramminginterface)获取新浪微博文本数据,所述文本数据包括微博正文和评论。

进一步地,对所述文本数据进行预处理,预处理过程包括对所述文本数据进行分词,并进行词性标注。需要说明的是,分词处理可以通过分词工具实施,例如汉语词法分析系统ictclas,清华大学中文词法分析程序thulac,语言技术平台ltp等。分词主要是根据中文语言的特点,将所述样本数据中的每条中文文本切割成一个一个的单词,并进行词性标注。

进一步地,预处理过程还包括根据预设停用词表去除分词后的文本数据中的停用词。停用词的去除有利于提高关键词的密度,从而有利于文本数据所属话题的确定。需要说明的是,停用词主要包括两类:第一类是使用过于频繁的一些单词,例如“我”,“就”等,这类词几乎在每个文档中均会出现;第二类是在文本中出现频率很高,但无实际意义的单词,这类词只有将其放入一个完整的句子中才有一定作用,包括语气助词、副词、介词、连接词等,如“的”、“在”,“接着”等。

进一步地,预处理过程还包括计算所述第一关键词集中各关键词的词频-逆向文件频率tf-idf值,并去除tf-idf值低于预设tf-idf阈值的关键词,得到对应的第二关键词集。具体地,首先计算词频if和逆向文件频率idf,其中,tf表示某个关键词在当前文档中出现的频率,idf表示该关键词在所有文本数据的文档中的分布情况,是一个词语普遍重要性的度量。tf和idf的计算公式如下:

其中,ni表示该关键词在当前文档中出现的次数,n表示当前文档中的关键词总数,n表示数据集的文档总数,ni表示在文本数据集在该关键词i的文档数。

进一步地,根据公式tf-idf=tf×idf计算tf-idf值,去除tf-idf值低于预设tf-idf阈值的关键词,得到对应的关键词集。

此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有主题分类器训练程序,所述主题分类器训练程序被处理器执行时实现如上所述的主题分类器的训练方法的步骤。

其中,在所述处理器上运行的主题分类器训练程序被执行时所实现的方法可参照本发明主题分类器的训练方法的各个实施例,在此不作赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1