舆情新闻分类模型构建方法、装置、计算机设备和存储介质与流程

文档序号:17477504发布日期:2019-04-20 06:13阅读:142来源:国知局
舆情新闻分类模型构建方法、装置、计算机设备和存储介质与流程

本申请涉及数据处理技术领域,特别是涉及一种舆情新闻分类模型构建方法、装置、计算机设备和存储介质。



背景技术:

随着互联网的迅速发展,整个舆情新闻行业飞速发展。舆情新闻是对舆情的一种描述和反映。在对舆情新闻进行处理时,通常需要对舆情新闻进行分类,根据用户需求,推送用户所需的舆情新闻至用户。传统的舆情新闻分类的方法为利用半监督学习的方法,通过标注样本集生成分类策略,将分类策略应用到未分类的样本中,并选取误差小的子集加入当标注样本中。

然而,随着训练不断进行,自动标记的示例中噪音会不断累积,导致分类模型的准确率降低,容易出现将舆情新闻文本分类错误的情况,进而导致不能准确推送用户所需的舆情新闻。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够提高舆情新闻分类准确率的舆情新闻分类模型构建方法、装置、计算机设备和存储介质。

一种舆情新闻分类模型构建方法,所述方法包括:

获取与用户需求对应的舆情新闻样本集合;

获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词;

根据目标特征词集合建立分类模型,根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本;

推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本;

接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确定推送结果,根据推送结果更新分类模型。

在其中一个实施例中,获取与用户需求对应的舆情新闻样本集合包括:

获取历史舆情新闻文本以及用户需求,根据用户需求确定用户所需的舆情新闻类别;

根据舆情新闻类别设置筛选关键字;

根据筛选关键字遍历历史舆情新闻文本,获取与用户需求对应的舆情新闻样本集合。

在其中一个实施例中,获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词包括:

根据中文停用词表获取停用词集合;

根据停用词集合中的各停用词遍历舆情新闻样本集合,筛选掉舆情新闻样本集合中对应的停用词;

将筛选后的舆情新闻样本集合中的各舆情新闻样本拆分为多个词语,根据拆分后的多个词语生成词语集合,确定词语集合中各词语的词性并统计各词语在各舆情新闻样本中出现的次数;

根据各词语的词性对词语集合中的各词语进行筛选,筛选掉词语集合中的指代词和介词;

根据各词语在各舆情新闻样本中出现的次数,对筛选后的词语集合中的各词语进行筛选,筛选出出现次数大于预设的次数阈值的词语的集合;

根据预设的目标特征筛选出现次数大于预设的次数阈值的词语的集合,确定与目标特征对应的目标特征词集合。

在其中一个实施例中,根据预设的目标特征筛选出现次数大于预设的次数阈值的词语的集合,确定与目标特征对应的目标特征词集合包括:

确定出现次数大于预设的次数阈值的词语的集合中各词语与预设的舆情新闻类别值的卡方值;

筛选出与舆情新闻类别值的卡方值在预设的卡方阈值范围内的各词语;

按照各词语的卡方值对筛选出的词语进行排序;

获取顺序在预设的序号阈值范围内的词语作为目标特征词;

根据目标特征词确定目标特征词集合。

在其中一个实施例中,根据目标特征词集合建立分类模型包括:

确定目标特征词集合中各目标特征词与预设的舆情新闻类别值的卡方值,根据各目标特征词的卡方值对各目标特征词进行排序;

根据排序结果和预设的权重设置规则为各目标特征词设置对应的权重系数;

根据各目标特征词以及与各目标特征词对应的权重系数,建立分类模型。

在其中一个实施例中,根据反馈信息确定推送结果,根据推送结果更新分类模型包括:

根据反馈信息确认推送结果;

当正确推送时,将正确推送的待测试舆情新闻文本存入舆情新闻样本集合;

根据正确推送的待测试舆情新闻文本,提取新的目标特征词;

确定新的目标特征词与预设的舆情新闻类别值的卡方值;

根据新的目标特征词的卡方值,确定新的目标特征词的权重系数;

根据新的目标特征词以及与新的目标特征词的权重系数更新分类模型。

一种舆情新闻分类模型构建装置,所述装置包括:

获取模块,用于获取与用户需求对应的舆情新闻样本集合;

筛选模块,用于获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词;

分类模块,用于根据目标特征词集合建立分类模型,根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本;

推送模块,用于推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本;

更新模块,用于接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确定推送结果,根据推送结果更新分类模型。

在其中一个实施例中,获取模块还用于获取历史舆情新闻文本以及用户需求,根据用户需求确定用户所需的舆情新闻类别,根据舆情新闻类别设置筛选关键字,根据筛选关键字遍历历史舆情新闻文本,获取与用户需求对应的舆情新闻样本集合。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取与用户需求对应的舆情新闻样本集合;

获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词;

根据目标特征词集合建立分类模型,根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本;

推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本;

接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确定推送结果,根据推送结果更新分类模型。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取与用户需求对应的舆情新闻样本集合;

获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词;

根据目标特征词集合建立分类模型,根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本;

推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本;

接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确定推送结果,根据推送结果更新分类模型。

上述舆情新闻分类模型构建方法、装置、计算机设备和存储介质,获取与用户需求对应的舆情新闻样本集合,获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词,根据目标特征词集合建立分类模型,根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本,推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本,接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确定推送结果,根据推送结果更新分类模型。通过用户的反馈信息实现了对分类模型的更新,提高了分类模型的准确率,进而实现对用户所需的舆情新闻的准确推送。

附图说明

图1为一个实施例中舆情新闻分类模型构建方法的应用场景图;

图2为一个实施例中舆情新闻分类模型构建方法的流程示意图;

图3为一个实施例中图2中的步骤s202的子流程示意图;

图4为一个实施例中图2中的步骤s204的子流程示意图;

图5为一个实施例中图4中的步骤s412的子流程示意图;

图6为一个实施例中图2中的步骤s206的子流程示意图;

图7为一个实施例中图2中的步骤s210的子流程示意图;

图8为一个实施例中舆情新闻分类模型构建装置的结构框图;

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的舆情新闻分类模型构建方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104获取与用户需求对应的舆情新闻样本集合,获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词,根据目标特征词集合建立分类模型,根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本,推送反馈提示至终端102,反馈提示携带与用户需求对应的待测试舆情新闻文本,接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确定推送结果,根据推送结果更新分类模型。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种舆情新闻分类模型构建方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

s202:获取与用户需求对应的舆情新闻样本集合。

用户需求指的是用户所需的舆情新闻类别。服务器获取历史舆情新闻文本以及用户需求,根据用户需求确定用户所需的舆情新闻类别,根据舆情新闻类别设置筛选关键字,根据筛选关键字遍历历史新闻舆情新闻文本,获取与用户需求对应的舆情新闻样本集合。其中,舆情新闻类别指的是与舆情新闻对应的领域,举例说明,当用户所需的舆情新闻类别为与房贷相关的领域时,则根据用户需求从历史舆情新闻中先初步筛选出于房产相关的舆情新闻,作为舆情新闻样本集合。

s204:获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词。

停用词指的是在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉的某些字或词,常见的停用词集合包括:的、是、在、了等。服务器根据中文停用词表获取停用词集合,根据停用词集合中的各停用词遍历舆情新闻样本集合,筛选掉舆情新闻样本集合中对应的停用词,将筛选后的舆情新闻样本集合中各舆情新闻样本拆分为多个词语,根据拆分后的多个词语生成词语集合,确定词语集合中各词语的词性并统计各词语在各舆情新闻样本中出现的次数,根据各词语的词性对词语集合中的各词语进行筛选,筛选掉词语集合中的指代词和介词,根据各词语在各舆情新闻样本中出现的次数,对筛选后的词语集合中的各词语进行筛选,筛选出出现次数大于预设的次数阈值的词语的集合,根据预设的目标特征筛选出现次数大于预设的次数阈值的词语的集合,确定与目标特征对应的目标特征词集合。

其中,常见的词语的词性包括名词、形容词、动词、指代词、介词等。预设的次数阈值可按照需要自行设置,预设的目标特征可按照需要自行设置。举例说明,目标特征可以为舆情新闻类别值,服务器可以根据舆情新闻类别值通过卡方检验来进行特征选择,卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。

s206:根据目标特征词集合建立分类模型,根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本。

服务器可以通过卡方检验来进行特征选择,卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。在本实施例中,就是通过计算各词语与预设的舆情新闻类别值的卡方值来确定目标特征词集合。服务器在确定目标特征词集合中各目标特征词预设的舆情新闻类别值的卡方值之后,根据各目标特征词的卡方值对各目标特征词进行排序,根据排序结果和预设的权重设置规则为各目标特征词设置对应的权重系数,根据各目标特征词以及与各目标特征词对应的权重系数,建立分类模型。在确定分类模型之后,服务器根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本。其中,预设的权重设置规则可按照需要自行设置。

s208:推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本。

服务器在确定与用户需求对应的待测试舆情新闻文本之后,根据对应的待测试舆情新闻文本,生成并推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本,用于提示用户反馈对推送的待测试舆情新闻文本的满意度。

s210:接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确定推送结果,根据推送结果更新分类模型。

服务器接收与反馈提示对应的反馈信息,根据反馈信息确认用户对推送的待测试舆情新闻文本的满意度,根据用户的满意度确认推送结果,当用户满意度高时,即可认为已正确推送。当确认已正确推送时,服务器将正确推送的待测试舆情新闻文本存入舆情新闻样本集合,根据已正确推送的待测试新闻文本,提取新的目标特征词,确定新的目标特征词与预设的舆情新闻类别值的卡方值,根据新的目标特征词的卡方值,确定新的目标特征词的权重系数,根据新的目标特征词以及与新的目标特征词的权重系数更新分类模型。

上述舆情新闻分类模型构建方法,获取与用户需求对应的舆情新闻样本集合,获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词,根据目标特征词集合建立分类模型,根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本,推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本,接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确定推送结果,根据推送结果更新分类模型。通过用户的反馈信息实现了对分类模型的更新,提高了分类模型的准确率,进而实现对用户所需的舆情新闻的准确推送。

下面通过一个实施例来详细说明本申请的方案。

服务器首先获取历史舆情新闻文本以及用户需求,根据用户需求确定用户所需的舆情新闻类别,根据舆情新闻类别设置筛选关键字,根据筛选关键字遍历历史舆情新闻文本,获取与用户需求对应的舆情新闻样本集合。然后根据中文停用词表获取停用词集合,根据停用词集合中的各停用词遍历舆情新闻样本集合,筛选掉舆情新闻样本集合中对应的停用词,将筛选后的舆情新闻样本集合中的各舆情新闻样本拆分为多个词语,根据拆分后的多个词语生成词语集合,确定词语集合中各词语的词性并统计各词语在各舆情新闻样本中出现的次数,根据各词语的词性对词语集合中的各词语进行筛选,筛选掉词语集合中的指代词和介词,根据各词语在各舆情新闻样本中出现的次数,对筛选后的词语集合中的各词语进行筛选,筛选出出现次数大于预设的次数阈值的词语的集合,确定出现次数大于预设的次数阈值的词语的集合中各词语与预设的舆情新闻类别值的卡方值,筛选出与舆情新闻类别值的卡方值在预设的卡方阈值范围内的各词语,按照各词语的卡方值对筛选出的词语进行排序,获取顺序在预设的序号阈值范围内的词语作为目标特征词,根据目标特征词确定目标特征词集合。然后根据各目标特征词的卡方值对各目标特征词进行排序,根据排序结果和预设的权重设置规则为各目标特征词设置对应的权重系数,根据各目标特征词以及与各目标特征词对应的权重系数,建立分类模型。然后根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本,推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本,最后接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确认推送结果,当正确推送时,将正确推送的待测试舆情新闻文本存入舆情新闻样本集合,根据正确推送的待测试舆情新闻文本,提取新的目标特征词,确定新的目标特征词与预设的舆情新闻类别值的卡方值,根据新的目标特征词的卡方值,确定新的目标特征词的权重系数,根据新的目标特征词以及与新的目标特征词的权重系数更新分类模型。

在其中一个实施例中,如图3所示,s202包括:

s302:获取历史舆情新闻文本以及用户需求,根据用户需求确定用户所需的舆情新闻类别;

s304:根据舆情新闻类别设置筛选关键字;

s306:根据筛选关键字遍历历史舆情新闻文本,获取与用户需求对应的舆情新闻样本集合。

历史舆情新闻文本指的是未分类且已发布的舆情新闻文本,用户需求指的是用户所需的舆情新闻类别,筛选关键字指的是与舆情新闻类别对应的常见词组。服务器获取历史舆情新闻文本以及用户需求,根据用户需求确定用户所需的舆情新闻类别,根据舆情新闻类别设置筛选关键字,根据筛选关键字遍历历史新闻舆情新闻文本,确定包含筛选关键字的舆情新闻文本,将包含筛选关键字的舆情新闻文本作为舆情新闻样本,根据舆情新闻样本,获取与用户需求对应的舆情新闻样本集合。其中,舆情新闻类别指的是与舆情新闻对应的领域,举例说明,当用户所需的舆情新闻类别为与房贷相关的领域时,则根据用户需求从历史舆情新闻中先初步筛选出于房产相关的舆情新闻,作为舆情新闻样本集合。

上述实施例,获取历史舆情新闻文本以及用户需求,根据用户需求确定用户所需的舆情新闻类别,根据舆情新闻类别设置筛选关键字,根据筛选关键字遍历历史舆情新闻文本,获取与用户需求对应的舆情新闻样本集合,实现了对舆情新闻样本集合的准确获取。

在其中一个实施例中,如图4所示,s204包括:

s402:根据中文停用词表获取停用词集合;

s404:根据停用词集合中的各停用词遍历舆情新闻样本集合,筛选掉舆情新闻样本集合中对应的停用词;

s406:将筛选后的舆情新闻样本集合中的各舆情新闻样本拆分为多个词语,根据拆分后的多个词语生成词语集合,确定词语集合中各词语的词性并统计各词语在各舆情新闻样本中出现的次数;

s408:根据各词语的词性对词语集合中的各词语进行筛选,筛选掉词语集合中的指代词和介词;

s410:根据各词语在各舆情新闻样本中出现的次数,对筛选后的词语集合中的各词语进行筛选,筛选出出现次数大于预设的次数阈值的词语的集合;

s412:根据预设的目标特征筛选出现次数大于预设的次数阈值的词语的集合,确定与目标特征对应的目标特征词集合。

停用词指的是在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉的某些字或词,常见的停用词包括:的、是、在、了等。服务器根据中文停用词表获取停用词集合,根据停用词集合中的各停用词遍历舆情新闻样本集合,筛选掉舆情新闻样本集合中对应的停用词,将筛选后的舆情新闻样本集合中各舆情新闻样本拆分为多个词语,根据拆分后的多个词语生成词语集合,确定词语集合中各词语的词性并统计各词语在各舆情新闻样本中出现的次数,根据各词语的词性对词语集合中的各词语进行筛选,筛选掉词语集合中的指代词和介词,根据各词语在各舆情新闻样本中出现的次数,对筛选后的词语集合中的各词语进行筛选,筛选出出现次数大于预设的次数阈值的词语的集合,根据预设的目标特征筛选出现次数大于预设的次数阈值的词语的集合,确定与目标特征对应的目标特征词集合。

其中,常见的词语的词性包括名词、形容词、动词、指代词、介词等,预设的次数阈值可按照需要自行设置,预设的目标特征可按照需要自行设置。举例说明,目标特征可以为舆情新闻类别值,服务器可以根据舆情新闻类别值通过卡方检验来进行特征选择,卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。在本实施例中,就是通过计算各词语与预设的舆情新闻类别值的卡方值来确定目标特征词集合。将筛选后的舆情新闻样本集合中的各舆情新闻样本拆分为多个词语的方式可以为:将筛选后的舆情新闻样本集合中的各舆情新闻样本拆分为多个完整句子,再将各完整句子拆分为多个词语。

上述实施例,根据中文停用词表获取停用词集合,根据停用词集合中的各停用词遍历舆情新闻样本集合,筛选掉舆情新闻样本集合中对应的停用词,将筛选后的舆情新闻样本集合中的各舆情新闻样本拆分为多个词语,根据拆分后的多个词语生成词语集合,确定词语集合中各词语的词性并统计各词语在各舆情新闻样本中出现的次数,根据各词语的词性对词语集合中的各词语进行筛选,筛选掉词语集合中的指代词和介词,根据各词语在各舆情新闻样本中出现的次数,对筛选后的词语集合中的各词语进行筛选,筛选出出现次数大于预设的次数阈值的词语的集合,根据预设的目标特征筛选出现次数大于预设的次数阈值的词语的集合,确定与目标特征对应的目标特征词集合,实现了对目标特征词集合的获取。

在其中一个实施例中,如图5所示,s412包括:

s502:确定出现次数大于预设的次数阈值的词语的集合中各词语与预设的舆情新闻类别值的卡方值;

s504:筛选出与舆情新闻类别值的卡方值在预设的卡方阈值范围内的各词语;

s506:按照各词语的卡方值对筛选出的词语进行排序;

s508:获取顺序在预设的序号阈值范围内的词语作为目标特征词;

s510:根据目标特征词确定目标特征词集合。

服务器通过卡方检验来进行特征选择,确定出现次数大于预设的次数阈值的词语的集合中各词语与预设的舆情新闻类别值的卡方值,筛选出与舆情新闻类别值的卡方值在预设的卡方阈值范围内的各词语,按照各词语的卡方值对筛选出的词语进行排序,获取顺序在预设的序号阈值范围内的词语作为目标特征词,根据目标特征词确定目标特征词集合。其中,舆情新闻类别值可通过查询预设的舆情新闻类别值表确定,预设的卡方阈值和序号阈值可按照需要自行设置。

上述实施例,确定出现次数大于预设的次数阈值的词语的集合中各词语与预设的舆情新闻类别值的卡方值,筛选出与舆情新闻类别值的卡方值在预设的卡方阈值范围内的各词语,按照各词语的卡方值对筛选出的词语进行排序,获取顺序在预设的序号阈值范围内的词语作为目标特征词,根据目标特征词确定目标特征词集合,实现对目标特征词集合的获取。

在其中一个实施例中,如图6所示,s206包括:

s602:确定目标特征词集合中各目标特征词与预设的舆情新闻类别值的卡方值,根据各目标特征词的卡方值对各目标特征词进行排序;

s604:根据排序结果和预设的权重设置规则为各目标特征词设置对应的权重系数;

s606:根据各目标特征词以及与各目标特征词对应的权重系数,建立分类模型。

服务器可以通过卡方检验来进行特征选择,卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。服务器在确定目标特征词集合中各目标特征词与预设的舆情新闻类别值的卡方值之后,根据各目标特征词的卡方值对各目标特征词进行排序,根据排序结果和预设的权重设置规则为各目标特征词设置对应的权重系数,根据各目标特征词以及与各目标特征词对应的权重系数,建立分类模型。在确定分类模型之后,服务器根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本。其中,预设的权重设置规则可按照需要自行设置。

上述实施例,确定目标特征词集合中各目标特征词与预设的舆情新闻类别值的卡方值,根据各目标特征词的卡方值对各目标特征词进行排序,根据排序结果和预设的权重设置规则为各目标特征词设置对应的权重系数,根据各目标特征词以及与各目标特征词对应的权重系数,建立分类模型,实现对分类模型的建立。

在其中一个实施例中,如图7所示,s210包括:

s702:根据反馈信息确认推送结果;

s704:当正确推送时,将正确推送的待测试舆情新闻文本存入舆情新闻样本集合;

s706:根据正确推送的待测试舆情新闻文本,提取新的目标特征词;

s708:确定新的目标特征词与预设的舆情新闻类别值的卡方值;

s710:根据新的目标特征词的卡方值,确定新的目标特征词的权重系数;

s712:根据新的目标特征词以及与新的目标特征词的权重系数更新分类模型。

服务器接收与反馈提示对应的反馈信息,根据反馈信息确认用户对推送的待测试舆情新闻文本的满意度,根据用户的满意度确认推送结果,当用户满意度高时,即可认为已正确推送。当确认已正确推送时,服务器将正确推送的待测试舆情新闻文本存入舆情新闻样本集合,根据已正确推送的待测试新闻文本,提取新的目标特征词,确定新的目标特征词与预设的舆情新闻类别值的卡方值,根据新的目标特征词的卡方值,确定新的目标特征词的权重系数,根据新的目标特征词以及与新的目标特征词的权重系数更新分类模型。

上述实施例,根据反馈信息确认推送结果,当正确推送时,将正确推送的待测试舆情新闻文本存入舆情新闻样本集合,根据正确推送的待测试舆情新闻文本,提取新的目标特征词,确定新的目标特征词与预设的舆情新闻类别值的卡方值,根据新的目标特征词的卡方值,确定新的目标特征词的权重系数,根据新的目标特征词以及与新的目标特征词的权重系数更新分类模型,实现对分类模型的更新。

应该理解的是,虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图8所示,提供了一种舆情新闻分类模型构建装置,包括:获取模块802、筛选模块804、分类模块806、推送模块808和更新模块810,其中:

获取模块802,用于获取与用户需求对应的舆情新闻样本集合;

筛选模块804,用于获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词;

分类模块806,用于根据目标特征词集合建立分类模型,根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本;

推送模块808,用于推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本;

更新模块810,用于接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确定推送结果,根据推送结果更新分类模型。

上述舆情新闻分类模型构建装置,获取与用户需求对应的舆情新闻样本集合,获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词,根据目标特征词集合建立分类模型,根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本,推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本,接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确定推送结果,根据推送结果更新分类模型。通过用户的反馈信息实现了对分类模型的更新,提高了分类模型的准确率,进而实现对用户所需的舆情新闻的准确推送。

在其中一个实施例中,获取模块还用于获取历史舆情新闻文本以及用户需求,根据用户需求确定用户所需的舆情新闻类别,根据舆情新闻类别设置筛选关键字,根据筛选关键字遍历历史舆情新闻文本,获取与用户需求对应的舆情新闻样本集合。

在其中一个实施例中,筛选模块还用于根据中文停用词表获取停用词集合,根据停用词集合中的各停用词遍历舆情新闻样本集合,筛选掉舆情新闻样本集合中对应的停用词,将筛选后的舆情新闻样本集合中的各舆情新闻样本拆分为多个词语,根据拆分后的多个词语生成词语集合,确定词语集合中各词语的词性并统计各词语在各舆情新闻样本中出现的次数,根据各词语的词性对词语集合中的各词语进行筛选,筛选掉词语集合中的指代词和介词,根据各词语在各舆情新闻样本中出现的次数,对筛选后的词语集合中的各词语进行筛选,筛选出出现次数大于预设的次数阈值的词语的集合,根据预设的目标特征筛选出现次数大于预设的次数阈值的词语的集合,确定与目标特征对应的目标特征词集合。

在其中一个实施例中,筛选模块还用于确定出现次数大于预设的次数阈值的词语的集合中各词语与预设的舆情新闻类别值的卡方值,筛选出与舆情新闻类别值的卡方值在预设的卡方阈值范围内的各词语,按照各词语的卡方值对筛选出的词语进行排序,获取顺序在预设的序号阈值范围内的词语作为目标特征词,根据目标特征词确定目标特征词集合。

在其中一个实施例中,分类模块还用于确定目标特征词集合中各目标特征词与预设的舆情新闻类别值的卡方值,根据各目标特征词的卡方值对各目标特征词进行排序,根据排序结果和预设的权重设置规则为各目标特征词设置对应的权重系数,根据各目标特征词以及与各目标特征词对应的权重系数,建立分类模型。

在其中一个实施例中,更新模块还用于根据反馈信息确认推送结果,当正确推送时,将正确推送的待测试舆情新闻文本存入舆情新闻样本集合,根据正确推送的待测试舆情新闻文本,提取新的目标特征词,确定新的目标特征词与预设的舆情新闻类别值的卡方值,根据新的目标特征词的卡方值,确定新的目标特征词的权重系数,根据新的目标特征词以及与新的目标特征词的权重系数更新分类模型。

关于舆情新闻分类模型构建装置的具体限定可以参见上文中对于舆情新闻分类模型构建方法的限定,在此不再赘述。上述舆情新闻分类模型构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储停用词集合数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种舆情新闻分类模型构建方法。

本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:

获取与用户需求对应的舆情新闻样本集合;

获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词;

根据目标特征词集合建立分类模型,根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本;

推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本;

接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确定推送结果,根据推送结果更新分类模型。

上述舆情新闻分类模型构建计算机设备,获取与用户需求对应的舆情新闻样本集合,获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词,根据目标特征词集合建立分类模型,根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本,推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本,接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确定推送结果,根据推送结果更新分类模型。通过用户的反馈信息实现了对分类模型的更新,提高了分类模型的准确率,进而实现对用户所需的舆情新闻的准确推送。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

获取历史舆情新闻文本以及用户需求,根据用户需求确定用户所需的舆情新闻类别;

根据舆情新闻类别设置筛选关键字;

根据筛选关键字遍历历史舆情新闻文本,获取与用户需求对应的舆情新闻样本集合。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

根据中文停用词表获取停用词集合;

根据停用词集合中的各停用词遍历舆情新闻样本集合,筛选掉舆情新闻样本集合中对应的停用词;

将筛选后的舆情新闻样本集合中的各舆情新闻样本拆分为多个词语,根据拆分后的多个词语生成词语集合,确定词语集合中各词语的词性并统计各词语在各舆情新闻样本中出现的次数;

根据各词语的词性对词语集合中的各词语进行筛选,筛选掉词语集合中的指代词和介词;

根据各词语在各舆情新闻样本中出现的次数,对筛选后的词语集合中的各词语进行筛选,筛选出出现次数大于预设的次数阈值的词语的集合;

根据预设的目标特征筛选出现次数大于预设的次数阈值的词语的集合,确定与目标特征对应的目标特征词集合。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

确定出现次数大于预设的次数阈值的词语的集合中各词语与预设的舆情新闻类别值的卡方值;

筛选出与舆情新闻类别值的卡方值在预设的卡方阈值范围内的各词语;

按照各词语的卡方值对筛选出的词语进行排序;

获取顺序在预设的序号阈值范围内的词语作为目标特征词;

根据目标特征词确定目标特征词集合。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

确定目标特征词集合中各目标特征词与预设的舆情新闻类别值的卡方值,根据各目标特征词的卡方值对各目标特征词进行排序;

根据排序结果和预设的权重设置规则为各目标特征词设置对应的权重系数;

根据各目标特征词以及与各目标特征词对应的权重系数,建立分类模型。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:

根据反馈信息确认推送结果;

当正确推送时,将正确推送的待测试舆情新闻文本存入舆情新闻样本集合;

根据正确推送的待测试舆情新闻文本,提取新的目标特征词;

确定新的目标特征词与预设的舆情新闻类别值的卡方值;

根据新的目标特征词的卡方值,确定新的目标特征词的权重系数;

根据新的目标特征词以及与新的目标特征词的权重系数更新分类模型。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:

获取与用户需求对应的舆情新闻样本集合;

获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词;

根据目标特征词集合建立分类模型,根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本;

推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本;

接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确定推送结果,根据推送结果更新分类模型。

上述舆情新闻分类模型构建存储介质,获取与用户需求对应的舆情新闻样本集合,获取停用词集合,根据停用词集合筛选舆情新闻样本集合,提取筛选后的舆情新闻样本集合的目标特征词,根据目标特征词集合建立分类模型,根据分类模型对待测试舆情新闻文本进行分类,确定与用户需求对应的待测试舆情新闻文本,推送反馈提示,反馈提示携带与用户需求对应的待测试舆情新闻文本,接收与反馈提示对应的反馈信息,反馈信息用于确认用户对推送的待测试舆情新闻文本的满意度,根据反馈信息确定推送结果,根据推送结果更新分类模型。通过用户的反馈信息实现了对分类模型的更新,提高了分类模型的准确率,进而实现对用户所需的舆情新闻的准确推送。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

获取历史舆情新闻文本以及用户需求,根据用户需求确定用户所需的舆情新闻类别;

根据舆情新闻类别设置筛选关键字;

根据筛选关键字遍历历史舆情新闻文本,获取与用户需求对应的舆情新闻样本集合。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据中文停用词表获取停用词集合;

根据停用词集合中的各停用词遍历舆情新闻样本集合,筛选掉舆情新闻样本集合中对应的停用词;

将筛选后的舆情新闻样本集合中的各舆情新闻样本拆分为多个词语,根据拆分后的多个词语生成词语集合,确定词语集合中各词语的词性并统计各词语在各舆情新闻样本中出现的次数;

根据各词语的词性对词语集合中的各词语进行筛选,筛选掉词语集合中的指代词和介词;

根据各词语在各舆情新闻样本中出现的次数,对筛选后的词语集合中的各词语进行筛选,筛选出出现次数大于预设的次数阈值的词语的集合;

根据预设的目标特征筛选出现次数大于预设的次数阈值的词语的集合,确定与目标特征对应的目标特征词集合。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

确定出现次数大于预设的次数阈值的词语的集合中各词语与预设的舆情新闻类别值的卡方值;

筛选出与舆情新闻类别值的卡方值在预设的卡方阈值范围内的各词语;

按照各词语的卡方值对筛选出的词语进行排序;

获取顺序在预设的序号阈值范围内的词语作为目标特征词;

根据目标特征词确定目标特征词集合。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

确定目标特征词集合中各目标特征词与预设的舆情新闻类别值的卡方值,根据各目标特征词的卡方值对各目标特征词进行排序;

根据排序结果和预设的权重设置规则为各目标特征词设置对应的权重系数;

根据各目标特征词以及与各目标特征词对应的权重系数,建立分类模型。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:

根据反馈信息确认推送结果;

当正确推送时,将正确推送的待测试舆情新闻文本存入舆情新闻样本集合;

根据正确推送的待测试舆情新闻文本,提取新的目标特征词;

确定新的目标特征词与预设的舆情新闻类别值的卡方值;

根据新的目标特征词的卡方值,确定新的目标特征词的权重系数;

根据新的目标特征词以及与新的目标特征词的权重系数更新分类模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1