一种新闻分类方法和系统与流程

文档序号:11697391阅读:460来源:国知局
一种新闻分类方法和系统与流程
本申请属于自然语言处理及模式识别技术领域,尤其涉及一种新闻分类方法和系统。

背景技术:
在用户的活动中,用户对事或者物的态度往往与用户的情绪是紧密相联系的,也就是说可以从用户的情绪观察到用户对事物的观点倾向。目前用户可以通过多种网络这一平台对新闻中的人物、事件和现象等表达自己的情绪。其中情绪是指用户内在的心理反应与感受,例如喜、怒、哀、乐等。然而对于不同的新闻不同用户会产生不同的情绪,例如“新台币最快下周见到28字头”,有的用户对于该新闻会产生“开心”的情绪,而有的用户对于该新闻则会产生“火大”的情绪,因此对于看到该新闻会产生“火大”的情绪的用户,则想尽快转到能让自身产生“开心”情绪的新闻。但是目前新闻推荐系统在组织新闻时是按照主题进行划分,例如按照经济、体育和娱乐等主题进行划分,而不同主题的新闻用户产生的情绪也会不同,因此急需一种按照情绪对新闻进行分类的方法。

技术实现要素:
有鉴于此,本申请的目的在于提供一种新闻分类方法,以获得待分类新闻含有的所有情绪类别,即可将所述待分类新闻划分到其含有的所有情绪类别对应的新闻中,并按照不同情绪推荐该待分类新闻。本申请还提供了一种新闻分类系统,用以保证上述方法在实际中的实现及应用。一方面,本申请提供一种新闻分类方法,预先构建不同情绪对应的基分类器,所述新闻分类方法包括:使用预先构建的每个基分类器对待分类新闻进行分类,得到每个基分类器的分类结果;依据每个基分类器的分类结果,分别对所述待分类新闻进行情绪判定,得到判定结果,其中情绪判定是指判定所述待分类新闻是否含有用户看到所述待分类新闻时产生的情绪,所述判定结果表明所述待分类新闻含有的情绪;使用所述判定结果,得到所述待分类新闻含有的所有情绪类别。优选地,所述分类结果包括第一后验概率和第二后验概率,其中第一后验概率是指所述待分类新闻含有所述基分类器对应的情绪的后验概率,第二后验概率是指所述待分类新闻不含有所述基分类器对应的情绪的后验概率;所述依据基分类器的分类结果,对所述待分类新闻进行情绪判定,得到判定结果包括:比较所述第一后验概率和所述第二后验概率;当所述第一后验概率大于所述第二后验概率时,判定结果是所述待分类新闻含有所述第一后验概率对应的情绪;当所述第一后验概率不大于所述第二后验概率时,判定结果是所述待分类新闻不含有所述第一后验概率对应的情绪。优选地,构建所述基分类器包括:采集已获知情绪类别的预设数量的新闻;从所述预设数量的新闻中,得到含有一种情绪类别的新闻;将含有相同情绪类别的所有新闻作为一个基分类器的训练集合;对所述训练集合采用机器学习分类方法进行分类,得到基分类器,其中所述基分类器对应的情绪类别是所述训练集合对应的情绪类别。优选地,所述从所述预设数量的新闻中,得到含有一种情绪类别的新闻包括:当新闻含有的至少两种情绪类别时,对含有至少两种情绪类别的新闻进行单一化处理,得到含有一种情绪的新闻,其中所述单一化处理是指仅保留新闻所含有的一种情绪。优选地,所述机器学习分类方法为最大熵分类方法。另一方面,本申请还提供一种新闻分类系统,包括:构建模块,用于预先构建不同情绪对应的基分类器;分类模块,用于使用预先构建的每个基分类器对待分类新闻进行分类,得到每个基分类器的分类结果;判定模块,用于依据每个基分类器的分类结果,分别对所述待分类新闻进行情绪判定,得到判定结果,其中情绪判定是指判定所述待分类新闻是否含有用户看到所述待分类新闻时产生的情绪,所述判定结果表明所述待分类新闻含有的情绪;统计模块,用于使用所述判定结果,得到所述待分类新闻含有的所有情绪类别。优选地,所述分类结果包括第一后验概率和第二后验概率,其中第一后验概率是指所述待分类新闻含有所述基分类器对应的情绪的后验概率,第二后验概率是指所述待分类新闻不含有所述基分类器对应的情绪的后验概率;所述判定模块包括:比较单元,用于比较所述第一后验概率和所述第二后验概率;判定单元,用于当所述第一后验概率大于所述第二后验概率时,判定结果是所述待分类新闻含有所述第一后验概率对应的情绪;以及用于当所述第一后验概率不大于所述第二后验概率时,判定结果是所述待分类新闻不含有所述第一后验概率对应的情绪。优选地,所述构建模块包括:采集单元,用于采集已获知情绪类别的预设数量的新闻;第一获取单元,用于从所述预设数量的新闻中,得到含有一种情绪类别的新闻;第二获取单元,用于将含有相同情绪类别的所有新闻作为一个基分类器的训练集合;分类单元,用于对所述训练集合采用机器学习分类系统进行分类,得到基分类器,其中所述基分类器对应的情绪类别是所述训练集合对应的情绪类别。优选地,所述第一获取单元具体用于当新闻含有的至少两种情绪类别时,对含有至少两种情绪类别的新闻进行单一化处理,得到含有一种情绪的新闻,其中所述单一化处理是指仅保留新闻所含有的一种情绪。优选地,所述机器学习分类系统为最大熵分类系统。在本申请中,使用预先得到的每个基分类器对待分类新闻进行分类,得到每个基分类器的分类结果,再依据每个基分类器的分类结果,分别对所述待分类新闻进行情绪判定,得到判定结果。由于所述情绪判定是指判定所述待分类新闻是否含有用户看到所述待分类新闻时产生的情绪,所述判定结果表明所述待分类新闻含有的情绪,所以使用所述判定结果,即可以得到所述待分类新闻含有的所有情绪类别。当获知待分类新闻含有的所有情绪类别后,可以将所述待分类新闻划分到其含有的所有情绪类别对应的新闻中,实现依据情绪对新闻划分。当然,本申请提供的新闻分类方法还可以应用到新闻推荐系统中,在依据情绪对待分类新闻进行划分后,进一步依据不同情绪推荐新闻,使推荐给用户的新闻更能满足用户当前的需求。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请提供的一种新闻分类方法的流程图;图2是本申请提供的一种新闻分类方法的子流程图;图3是本申请提供的一种新闻分类系统的结构示意图;图4是本申请提供的一种新闻分类系统中构建模块的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。请参阅图1,其示出了本申请实施例提供的一种新闻分类方法的一种流程图,在使用图1所示的新闻分类方法对待分类新闻进行分类时,首先需要预先构建不同情绪对应的基分类器,其中基分类器用于判定待分类新闻所含有的情绪,并且每个所述基分类器对应一种情绪。需要注意的是,不同情绪对应的基分类器在进行新闻分类之前构建,并且在构建完成后可以一直使用基分类器对每个待分类新闻进行处理,而无需重复构建基分类器。在本实施例中,图1所示的新闻分类方法可以包括:步骤101:使用预先构建的每个基分类器对待分类新闻进行分类,得到每个基分类器的分类结果。在本实施例中,每个基分类器对应一种情绪,因此待分类新闻需要经过每个基分类器进行分类后,可以从分类结果中确定待分类新闻中是否含有某种情绪,待分类新闻通过基分类器分类得到的情绪是基分类器所对应的情绪。例如,基分类器A对应“高兴”的情绪,基分类器B对应“悲伤”的情绪,则基分类器A和B分别对待分类新闻进行分类,然后从得到的分类结果中确定待分类新闻中是否包括“高兴”的情绪和“悲伤”的情绪。需要说明的是:情绪的类型和总数可以由操作人员预先确定。由于每个基分类器对应一种情绪,不同基分类器对应的情绪不同,所以基分类器的总数和情绪的总数相同,得到的每个基分类器都需要对待分类新闻进行分类,从而得到与情绪总数相同的分类结果。步骤102:依据每个基分类器的分类结果,分别对所述待分类新闻进行情绪判定,得到判定结果。其中情绪判定是指判定所述待分类新闻是否含有用户看到所述待分类新闻时产生的情绪,所述判定结果表明所述待分类新闻含有的情绪。在本实施例中,对于单独的基分类器来说,分类结果包括第一后验概率和第二后验概率,其中第一后验概率是指所述待分类新闻含有所述基分类器对应的情绪的后验概率,第二后验概率是指所述待分类新闻不含有所述基分类器对应的情绪的后验概率。例如,对应“高兴”情绪所对应的基分类器,第一后验概率是待分类新闻含有“高兴”这种情绪的后验概率,第二后验概率则是待分类新闻不含有“高兴”这种情绪的后验概率。第一后验概率可以标记为Pi(cEMOi|D),Pi(cEMOi|D)表示待分类新闻含有cEMOi情绪的后验概率,第二后验概率可以标记为Pi(cNEMOi|D),Pi(cNEMOi|D)表示所述待分类新闻不含有cEMOi情绪的后验概率。其中,第一后验概率Pi(cEMOi|D)的计算公式是:Z(D)是归一化因子,是特征函数,是特征函数的权值,在构建基分类器的过程中可以获得的取值。的取值通过最大熵模型学习的拟牛顿BFGS(BroydenFletcherGoldfarbShann,变尺度法)得到。Z(D)的计算公式如下:其中D是输入特征,n是特征的总数,例如若待分类新闻使用词特征,则n是待分类新闻中所有词的个数。特征函数的定义如下:其中,nk(d)是待分类新闻所含特征的长度,cEMOi=c表明含有此特征的待分类新闻含有c情绪。当特征的长度nk(d)>0,并且含有此特征的待分类新闻含有c这种情绪时,特征函数的取值为1,否则特征函数的取值为0。第二后验概率的计算公式为:Pi(cNEMOi|D)=1-Pi(cEMOi|D)。需要说明的是:在计算第一后验概率时,假设待分类新闻含有所有基分类器对应的情绪,然后使用第一后验概率的计算公式计算出含有每种情绪的第一后验概率,并在得出第一后验概率后计算第二后验概率。然后将某一种情绪对应的第一后验概率和第二后验概率的大小进行判断,通过判断结果最终确认待分类新闻含有的情绪类别。如果Pi(cEMOi|D)>Pi(cNEMOi|D),则判定结果是所述待分类新闻含有cEMOi情绪,如果Pi(cEMOi|D)≤Pi(cNEMOi|D),则判定结果是所述待分类新闻不含有cEMOi情绪。步骤103:使用所述判定结果,得到所述待分类新闻含有的所有情绪类别。由于不同用户看到同一个待分类新闻可以产生相同的情绪,也可以产生不同的情绪,所以待分类新闻经过本实施例提供的新闻分类方法后可能得到一种情绪,也可能得到多种情绪。在本实施例中,待分类新闻含有几种情绪可以从判定结果得出,其中判定结果用于表明待分类新闻含有的情绪。当得到判定结果后,对判定结果进行统计即可以得到待分类新闻含有的所有情绪类别和含有的情绪个数。为了便于对判定结果的统计,在本实施例所有情绪用不同序号表示。例如所有情绪包括:“高兴”情绪、“伤心”情绪和“愤怒”情绪,则“高兴”情绪是第一种情绪,“伤心”情绪是第二种情绪,“愤怒”情绪是第三种情绪。判定结果采用Emotion[i]表示,Emotion[i]=1时,表明待分类新闻含有第i种情绪,Emotion[i]=0时,表明待分类新闻不含有第i种情绪。当然,在得到待分类新闻的所有情绪类别后,还可以依据情绪类别将待分类新闻划分至不同情绪类别的数据库中。此外,用户在观看新闻时,还可以将划分到数据库中的待分类新闻推荐给用户观看,其中在推荐新闻时,可以根据用户选择的情绪类别进行推荐。在本实施例中,用户选择的情绪类别是用户通过点击遥控器中的“情绪”按钮时,“情绪”按钮所对应的情绪。应用上述技术方案,在确定待分类新闻的情绪类别时,可以首先使用预先得到的每个基分类器对待分类新闻进行分类,得到每个基分类器的分类结果,再依据每个基分类器的分类结果,分别对所述待分类新闻进行情绪判定,得到判定结果。由于所述情绪判定是指判定所述待分类新闻是否含有用户看到所述待分类新闻时产生的情绪,所述判定结果表明所述待分类新闻含有的情绪,所以使用所述判定结果,即可以得到所述待分类新闻含有的所有情绪类别。当获知待分类新闻含有的所有情绪类别后,可以将所述待分类新闻划分到其含有的所有情绪类别对应的新闻中,实现依据情绪对新闻划分。当然,本申请提供的新闻分类方法还可以应用到新闻推荐系统中,在依据情绪对待分类新闻进行划分后,进一步依据不同情绪推荐新闻,使推荐给用户的新闻更能满足用户当前的需求。在本实施例中,基分类器的构建过程请参阅图2所示,可以包括以下步骤:步骤201:采集已获知情绪类别的预设数量的新闻。在本实施例中,新闻的情绪可以是每个用户看到同一个新闻时产生的情绪,当然也可以统计看到同一个新闻时产生相同情绪的用户数量占看到该新闻的所有用户数量的比例,当该比例不小于预设比例时,判定该新闻含有此种情绪,当该比例小于预设比例时,判定该新闻不含有此种情绪。其中预设比例可以根据不同应用设定不同取值,对此本实施例不加以限制。所有用户数量可以设定为一定数量,例如可以是1000人,而无需设定为某个市或者某个省的全部人口数量,否则会提高计算时间,降低效率。其中,所采集新闻数量也可以预先设定,即采用预设数量的新闻。在本实施例中预设数量可以依据不同应用场景设定不同取值,对此本实施例不加以限制。步骤202:从所述预设数量的新闻中,得到含有一种情绪类别的新闻。不同用户看到一个新闻时可以产生相同的情绪,也可以产生不同的情绪。而在构建基分类器时所使用的新闻需要仅含有一种情绪类别,因此在构建之前首先对新闻是否含有多种情绪类别进行判断。当新闻含有一种情绪类别时,可以直接得到该新闻。当新闻含有至少两种情绪类别时,需要对其进行单一化处理,在单一化处理后,得到的新闻仅含有一种情绪。其中单一化处理是指仅包括新闻所含有的一种情绪。需要注意的是:在构建每个基分类器时,需要对预设数量的所有新闻含有的情绪数量进行判断。判断次数与预设数量的所有新闻含有的情绪类别总量相同。步骤203:将含有相同情绪类别的所有新闻作为一个基分类器的训练集合。为了便于理解,下面以一具体的应用场景对上述实施例中描述单一化处理进行详细的描述,具体的:使用的预设数量的所有新闻中共有五种情绪类别,分别为:高兴、古怪、无聊、难过、生气。首先,考虑“高兴”这一情绪,将新闻分为产生“高兴”情绪和不产生“高兴”情绪这两类新闻,然后将含有“高兴”情绪的所有新闻作为“高兴”情绪的基分类器的训练集合。同样地,依次考虑“古怪”情绪、“无聊”情绪、“难过”情绪和“生气”情绪对预设数量的所有新闻进行划分,总共可以得到5组训练集合。步骤204:对所述训练集合采用机器学习分类方法进行分类,得到基分类器,其中所述基分类器对应的情绪类别是所述训练集合对应的情绪类别。在本实施例中,机器学习方法优选采用最大熵分类。最大熵分类方法基于最大熵信息理论,其基本思想是得到一种概率分布,满足所有已知的事实,并让未知事实随机化。在最大熵分类下,可以采用第一后验概率和第二后验概率预测待分类新闻含有的情绪类别描述基分类器。其中第一后验概率的计算公式如下:Z(D)是归一化因子,是特征函数,是特征函数的权值,在构建基分类器的过程中可以获得的取值。的取值通过最大熵模型学习的拟牛顿BFGS得到。特征函数的定义如下:其中,nk(d)是待分类新闻所含特征的长度,ci=c表明含有此特征的待分类新闻含有c情绪。当待分类新闻所含特征的长度nk(d)>0,并且含有此特征的待分类新闻含有c这种情绪时,特征函数的取值为1,否则特征函数的取值为0。第二后验概率的计算公式为:Pi(cNi|D)=1-Pi(ci|D)。在得出基分类器的第一后验概率和第二后验概率的计算公式后,可以用基分类器对待分类新闻进行分类,得到待分类新闻的第一后验概率和第二后验概率,从而经过第一后验概率和第二后验概率比较确定出待分类新闻含有的情绪类别。为了验测本申请提供的新闻分类方法在新闻分类上的有效性,本实施例使用一定的训练样本和测试样本进行训练和测试。实验中使用的样本是在雅虎网上搜集的新闻样本,并且有用户对每一篇新闻的情绪投票,然后根据投票总人数对样本进行筛选,实验所用的样本一共有6000篇。根据用户的投票结果来确定其所有的情绪标签,一共含有5种情绪,分别为:高兴、古怪、无聊、难过、生气。在进行新闻分类时,对新闻含有的情绪类别进行单一化处理,即每次分类只考虑一种情绪类别,分为含有此类情绪的样本(正类样本)和不含此类情绪的样本(负类样本)。从6000篇样本中选用500篇作为测试样本,整个实验过程中保持不变。在剩下的样本中,选取每类情绪的训练样本。本实施例采用如下三个评价标准进行评价,三个评价标准如下:其中,D表示一个测试数据集,形式可以表示为:(xi,Yi),其中i=1...|D|,|D|表示测试数据集的数量,L是标签集合;H表示一个基分类器,Zi指的是样本xi通过分类器H分类后所得到的一系列标签,即Zi=H(xi)。表1为进行分类后采用上述三种评价标准得到的测试效果,其中每类情绪的正负样本数量分别取了1000,1500,2000。表1测试结果样本数量AccPreRecall10000.29560.37860.346515000.29980.37260.349720000.30140.36900.3489从表1所示的数据可以看出,本申请提供的新闻分类方法已经能够取得不错的效果,正确率达到0.3左右。随着样本规模的增大,本申请提供的新闻分类方法对新闻的多种情绪分类的正确率还会有进一步的提升,这为根据情绪类别进行新闻推荐提供了有效的依据。与上述方法实施例相对应,本申请实施例还提供一种新闻分类系统,其结构示意图请参阅图3所示,可以包括:构建模块11、分类模块12、判定模块13和统计模块14。其中,构建模块11,用于预先构建不同情绪对应的基分类器。该分类器用于判定待分类新闻所含有的情绪,并且每个所述基分类器对应一种情绪。需要说明的一点是:不同情绪对应的基分类器在进行新闻分类之前由构建模块11构建,并且在构建完成后可以一直使用基分类器对每个待分类新闻进行处理,而无需重复构建基分类器。分类模块12,用于使用预先构建的每个基分类器对待分类新闻进行分类,得到每个基分类器的分类结果。判定模块13,用于依据每个基分类器的分类结果,分别对所述待分类新闻进行情绪判定,得到判定结果,其中情绪判定是指判定所述待分类新闻是否含有用户看到所述待分类新闻时产生的情绪,所述判定结果表明所述待分类新闻含有的情绪。在本实施例中,分类结果包括第一后验概率和第二后验概率,其中第一后验概率是指所述待分类新闻含有所述基分类器对应的情绪的后验概率,第二后验概率是指所述待分类新闻不含有所述基分类器对应的情绪的后验概率。第一后验概率和第二后验概率的计算公式以及具体计算过程可以参阅步骤102中的阐述,对此本实施例不再加以阐述。相对应的,判定模块可以包括:比较单元和判定单元。其中比较单元,用于比较所述第一后验概率和所述第二后验概率。判定单元,用于当所述第一后验概率大于所述第二后验概率时,判定结果是所述待分类新闻含有所述第一后验概率对应的情绪;以及用于当所述第一后验概率不大于所述第二后验概率时,判定结果是所述待分类新闻不含有所述第一后验概率对应的情绪。统计模块14,用于使用所述判定结果,得到所述待分类新闻含有的所有情绪类别。由于不同用户看到同一个待分类新闻可以产生相同的情绪,也可以产生不同的情绪,所以待分类新闻经过本实施例提供的新闻分类系统后可能得到一种情绪,也可能得到多种情绪。在本实施例中,判定结果用于表明待分类新闻含有的情绪。当得到判定结果后,对判定结果进行统计即可以得到待分类新闻含有的所有情绪类别和含有的情绪个数。当然,在得到待分类新闻的所有情绪类别后,还可以依据情绪类别将待分类新闻划分至不同情绪类别的数据库中。此外,用户在观看新闻时,还可以将划分到数据库中的待分类新闻推荐给用户观看,其中在推荐新闻时,可以根据用户选择的情绪类别进行推荐。在本实施例中,用户选择的情绪类别是用户通过点击遥控器中的“情绪”按钮时,“情绪”按钮所对应的情绪。本实施例提供的新闻分类系统可以依据基分类器对待分类新闻的分类结果,对待分类新闻进行情绪判定,得到待分类新闻含有的所有情绪类别。当获知待分类新闻含有的所有情绪类别后,可以将所述待分类新闻划分到其含有的所有情绪类别对应的新闻中,实现依据情绪对新闻划分。当然,本申请提供的新闻分类系统还可以应用到新闻推荐系统中,在依据情绪对待分类新闻进行划分后,进一步依据不同情绪推荐新闻,使推荐给用户的新闻更能满足用户当前的需求。本实施例提供的新闻分类系统中构建模块的结构示意图请参阅图4所示,可以包括:采集单元111、第一获取单元112、第二获取单元113和分类单元114。采集单元111,用于采集已获知情绪类别的预设数量的新闻。在本实施例中,新闻的情绪可以是每个用户看到同一个新闻时产生的情绪,当然也可以统计看到同一个新闻时产生相同情绪的用户数量占看到该新闻的所有用户数量的比例,当该比例不小于预设比例时,判定该新闻含有此种情绪,当该比例小于预设比例时,判定该新闻不含有此种情绪。其中预设比例以及预设数量可以根据不同应用设定不同取值,对此本实施例不加以限制。第一获取单元112,用于从所述预设数量的新闻中,得到含有一种情绪类别的新闻。当新闻含有一种情绪类别时,第一获取单元112可以直接得到该新闻。当新闻含有至少两种情绪类别时,第一获取单元112需要对其进行单一化处理,在单一化处理后,得到的新闻仅含有一种情绪。其中单一化处理是指仅包括新闻所含有的一种情绪。第二获取单元113,用于将含有相同情绪类别的所有新闻作为一个基分类器的训练集合。分类单元114,用于对所述训练集合采用机器学习分类系统进行分类,得到基分类器,其中所述基分类器对应的情绪类别是所述训练集合对应的情绪类别。在本实施例中,机器学习方法优选采用最大熵分类,具体请参阅步骤204中的说明,对此不再加以介绍。需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于系统类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1