新闻文章分类的方法、装置、设备及存储介质与流程

文档序号:17990509发布日期:2019-06-22 00:45阅读:143来源:国知局
新闻文章分类的方法、装置、设备及存储介质与流程

本申请涉及人工智能领域,尤其涉及一种新闻文章分类的方法、装置、设备及存储介质。



背景技术:

在对新闻文章分类时,常采用词向量模型(wordtovector,word2vec)预训练的词向量模型,将词嵌入向量,以将该词纳入神经网络的第一层,而神经网络的其余部分依旧要重新训练,所以会导致分类时脱离上下文的关系。最终导致词向量模型的分类效果较差。



技术实现要素:

本申请提供了一种新闻文章分类的方法、装置、设备及存储介质,能够解决现有技术中新闻文章分类的准确率和效果均较差的问题。

第一方面,本申请提供一种新闻文章分类的方法,所述方法包括:

获取第一数据集,所述第一数据集可包括多篇新闻文章;

对所述第一数据集进行预处理,得到训练集和测试集;

采用分层表征方式,利用训练集预训练分类模型,得到所述分类模型的参数;

调整所述分类模型中的参数,得到所述分类模型的最优模型参数后,构建语言模型;

利用所述语言模型对所述测试集进行测试,若检测出所述语言模型的准确率高于预设阈值,则确定所述语言模型符合分类条件;

根据所述语言模型对输入所述语言模型的第二数据集进行分类。

一种可能的设计中,所述采用分层表征方式,利用训练集预训练分类模型,得到所述分类模型的参数,包括:

针对所述训练集中特征的整体层次结构,从边缘到形状,从低至高学习所有层级的特征,提取所述训练集中连续文本的内在联系和语言结构的表达能力,以训练所述分类模型;

其中,所述分类模型的参数表示神经网络的权重,将所述分类模型的参数作为输入语言模型的词语的向量化表示。

一种可能的设计中,所述调整所述分类模型中的参数,得到所述分类模型的最优模型参数,包括:

在模拟空间搜索,匹配出一个与所述训练集最匹配的假设,以得到一组最优模型参数。

一种可能的设计中,所述在假设空间搜索,匹配出一个与所述训练集最匹配的假设,以得到一组最优模型参数,包括:

将所述训练集输入所述模拟空间;

在所述模拟空间使用所述训练集对所述分类模型进行训练,训练得到一组与所述训练集最匹配的最优模型参数。

一种可能的设计中,所述语言模型中的参数包括分类自变量和分类因变量,所述构建语言模型,包括:

将新闻标题和新闻作者设置为分类自变量,将新闻类别设置为分类因变量;

根据所述新闻标题和所述新闻作者、所述新闻类别、以及所述最优模型参数构建所述语言模型。

一种可能的设计中,所述分类模型包括elmo模型、openaigpt模型或bert模型。

一种可能的设计中,所述预处理包括分层采样、数据中的缺失值处理、以及特征梳理与筛选。

第二方面,本申请提供一种用于对新闻文章分类的装置,具有实现对应于上述第一方面提供的一种新闻文章分类的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。

一种可能的设计中,所述装置包括:

输入输出模块,用于获取第一数据集,所述第一数据集可包括多篇新闻文章;

处理模块,用于对所述第一数据集进行预处理,得到训练集和测试集;采用分层表征方式,利用训练集预训练分类模型,得到所述分类模型的参数;整所述分类模型中的参数,得到所述分类模型的最优模型参数后,构建语言模型;利用所述语言模型对所述测试集进行测试,若检测出所述语言模型的准确率高于预设阈值,则确定所述语言模型符合分类条件;根据所述语言模型对所述输入输出模块输入所述语言模型的第二数据集进行分类。

一种可能的设计中,所述处理模块具体用于:

针对所述训练集中特征的整体层次结构,从边缘到形状,从低至高学习所有层级的特征,提取所述训练集中连续文本的内在联系和语言结构的表达能力,以训练所述分类模型;

其中,所述分类模型的参数表示神经网络的权重,将所述分类模型的参数作为输入语言模型的词语的向量化表示。

一种可能的设计中,所述处理模块具体用于:

在模拟空间搜索,匹配出一个与所述训练集最匹配的假设,以得到一组最优模型参数。

一种可能的设计中,所述处理模块具体用于:

通过所述输入输出模块将所述训练集输入所述模拟空间;

在所述模拟空间使用所述训练集对所述分类模型进行训练,训练得到一组与所述训练集最匹配的最优模型参数。

一种可能的设计中,所述语言模型中的参数,包括分类自变量和分类因变量,所述处理模块具体用于:

将新闻标题和新闻作者设置为分类自变量,将新闻类别设置为分类因变量;

根据所述新闻标题和所述新闻作者、所述新闻类别、以及所述最优模型参数构建所述语言模型。

一种可能的设计中,所述分类模型包括elmo模型、openaigpt模型或bert模型。所述预处理包括分层采样、数据中的缺失值处理、以及特征梳理与筛选。

本申请又一方面提供了一种计算机设备,其包括至少一个连接的处理器、存储器和输入输出单元,其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中的程序代码来执行上述第一方面所述的方法。

本申请又一方面提供了一种计算机存储介质,其包括指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。

相较于现有技术,本申请提供的方案中,对所述第一数据集进行预处理,得到训练集和测试集;采用分层表征方式,利用训练集预训练分类模型,得到所述分类模型的参数;调整所述分类模型中的参数,得到所述分类模型的最优模型参数后,构建语言模型;利用所述语言模型对所述测试集进行测试,若检测出所述语言模型的准确率高于预设阈值,则确定所述语言模型符合分类条件;根据所述语言模型对输入所述语言模型的第二数据集进行分类。提供采用本方案,能够提高新闻文章分类的准确率,以及提高word2vec预训练的词向量模型对新闻文章的分类效果。

附图说明

图1为本申请实施例中新闻文章分类的方法法人一种流程示意图;

图2为本申请实施例中用于对新闻文章分类的装置的一种结构示意图;

图3为本申请实施例中用于对新闻文章分类的装置的另一种结构示意图。

本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块,本申请中所出现的模块的划分,仅仅是一种逻辑上的划分,实际应用中实现时可以有另外的划分方式,例如多个模块可以结合成或集成在另一个系统中,或一些特征可以忽略,或不执行。

本申请提供一种新闻文章分类的方法、装置、设备及存储介质,可用于新闻分类。

为解决上述技术问题,本申请主要提供以下技术方案:

对获取的新闻文章进行预处理,构建预训练语言模型(例如采用elmo模型、openaigpt模型或bert模型),预训练语言模型能够对超大文本或超大预料进行处理,充分利用大规模的单语语料。通过预训练语言模型对这些新闻文章进行分类,能够解决上述背景技术中的技术问题,提高新闻文章分类的准确率。

请参照图1,以下对本申请提供一种新闻文章分类的方法进行举例说明,所述方法包括:

101、获取第一数据集。

其中,所述第一数据集可包括多篇新闻文章。所述第一数据集主要包括新闻文章的文章标题、文章摘要、文章总结等信息。可以以爬虫方式获取各个新闻平台的新闻文章。

102、对所述第一数据集进行预处理,得到训练集和测试集。

其中,训练集用来构建语言模型,测试集用于对构建的语言模型的准确率进行检验。

一些实施方式中,所述预处理包括分层采样、数据中的缺失值处理、以及特征梳理与筛选。

其中,分层采样是指是分别对每个类别进行随机采样,以保证在采样空间或类型选取上的均匀性及代表性。例如,按照文章标签进行划分(例如按照旅游、娱乐、社交等标签划分新闻文章)。

数据中的缺失值处理包括抽取、清洗、转换、集成和填充。

特征梳理与筛选可采用去噪声方式。

一些实施方式中,预处理可以采用留出法或者交叉验证法。其中,留出法是指将所述第一数据集划分为两个互斥的集合,即划分为测试集和训练集。交叉验证法是指将所述第一数据集划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性,即每个子集都从第一数据集中通过分层采样得到。然后,每次用k-1个子集的并集作为训练集,余下的子集作为测试集;这样就可以获得k组训练/测试集,从而可以进行k次训练和测试,最终返回的是k个测试结果的均值。

103、采用分层表征方式,利用训练集预训练分类模型,得到所述分类模型的参数。

其中,分类模型的参数可以成为神经网络的权重,将分类模型的参数作为输入语言模型的词语的向量化表示,即词向量。词向量用于度量词与词之间的相似性。

以word2vec模型为例,本申请使用分层表征方式来预训练整个word2vec模型,抛弃了现有机制中将word2vec模型中只初始化模型的第一层的方式。例如把学习单词向量比作计算机视觉中学习图像边缘,那么分层表征方式就像学习图像特征的整体层次结构一样,从边缘到形状,再到高级语义概念。使用分层表征方式来预训练整个word2vec模型时,这些预训练在对整个word2vec模型进行预训练的同时,也学到低层级的特征和高层级的特征,即使得word2vec模型能够学习到文本中更高层次的细微差别,以及学习到图像的通用特征。

一些实施方式中,分类模型可以选择elmo模型、openaigpt(generativepre-training)或bert模型等分类器模型。

其中,elmo是一种新型深度语境化词表征,可对词进行复杂特征(如句法和语义)和词在语言语境中的变化进行建模(即对多义词进行建模)。本申请的词向量是深度双向语言模型(bilm)内部状态的函数,在一个大型文本语料库中预训练而成。具体来说,先训练一个完整的语言模型,再用这个语言模型去处理需要训练的文本,生成相应的词向量,elmo模型对同一个字在不同句子中能生成不同的词向量。在预训练好这个语言模型之后,elmo就是根据公式来用作词表示,其实就是把这个双向语言模型的每一中间层进行一个求和。最简单的也可以使用最高层的表示来作为elmo。然后在进行有监督的nlp任务时,可以将elmo直接当做特征拼接到具体任务模型的词向量输入或者是模型的最高层表示上。

elmo在学习语言模型的时候是从整个语料库去学习的,通过语言模型生成的词向量就相当于基于整个语料库学习的词向量,因此,能够更加准确代表一个词的含义。

bert模型是一种基于微调的多层双向transformer编码器(即预训练语言表示的方法),其输入表示可以在一个词序列中表示单个文本句或一对文本,例如,词序列表示为[问题,答案]。bert模型使可以在大型文本语料库(如维基百科)上训练通用的“语言理解”模型。

104、调整所述分类模型中的参数,得到所述分类模型的最优模型参数后,构建语言模型。

一些实施方式中,所述调整所述分类模型中的参数,得到所述分类模型的最优模型参数,包括:

在模拟空间搜索,匹配出一个与所述训练集最匹配的假设,以得到一组最优模型参数。模拟空间也可称为假设空间。

例如,将所述训练集输入所述模拟空间,在所述模拟空间使用所述训练集对所述分类模型进行训练,最终训练得到一组与所述训练集最匹配的最优模型参数。

105、利用所述语言模型对所述测试集进行测试,若检测出所述语言模型的准确率高于预设阈值,则确定所述语言模型符合分类条件。

分类条件可包括:至少一个文本特征相同或相似,其中,文本特征可以是新闻文章的标签,例如财经、娱乐、体育、科技、军事或家居等标签。文本特征还可以是地区名称(武汉、深圳等)、新闻文章的提供平台(例如报纸、电台、广播、互联网)。还可以是地区级别(例如市级、省级或区级等)。

106、根据所述语言模型对输入所述语言模型的第二数据集进行分类。

与现有机制相比,本申请实施例中,对所述第一数据集进行预处理,得到训练集和测试集;采用分层表征方式,利用训练集预训练分类模型,得到所述分类模型的参数;调整所述分类模型中的参数,得到所述分类模型的最优模型参数后,构建语言模型;利用所述语言模型对所述测试集进行测试,若检测出所述语言模型的准确率高于预设阈值,则确定所述语言模型符合分类条件;根据所述语言模型对输入所述语言模型的第二数据集进行分类。提供采用本方案,能够提高新闻文章分类的准确率,以及提高word2vec预训练的词向量模型对新闻文章的分类效果。

可选的,在本申请的一些实施例中,所述采用分层表征方式,利用训练集预训练分类模型,得到所述分类模型的参数,包括:

针对所述训练集中特征的整体层次结构,从边缘到形状,从低至高学习所有层级的特征,提取所述训练集中连续文本的内在联系和语言结构的表达能力,以训练所述分类模型;

其中,所述分类模型的参数表示神经网络的权重,将所述分类模型的参数作为输入语言模型的词语的向量化表示。

可选的,在本申请的一些实施例中,所述语言模型中的参数包括分类自变量和分类因变量,所述构建语言模型,包括:

将新闻标题和新闻作者设置为分类自变量,将新闻类别设置为分类因变量;

根据所述新闻标题和所述新闻作者、所述新闻类别、以及所述最优模型参数构建所述语言模型。

上述实施例中所提及的各项技术特征也同样适用于本申请中的图2和图3所对应的实施例,后续类似之处不再赘述。

以上对本申请中一种新闻文章分类的方法进行说明,以下对执行上述新闻文章分类的方法的装置进行描述。

如图2所示的一种用于对新闻文章分类的装置20的结构示意图,其可应用于新闻文章分类。本申请实施例中的装置20能够实现对应于上述图1所对应的实施例中所执行的新闻文章分类的方法中的步骤。装置20实现的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的模块,所述模块可以是软件和/或硬件。所述装置20可包括输入输出模块201和处理模块202,所述处理模块202和输入输出模块201的功能实现可参考图1所对应的实施例中所执行的操作,此处不作赘述。处理模块可用于控制所述获取模块201的输入或输出操作。

一些实施方式中,所述输入输出模块201可用于获取第一数据集,所述第一数据集可包括多篇新闻文章;

所述处理模块202可用于对所述第一数据集进行预处理,得到训练集和测试集;采用分层表征方式,利用训练集预训练分类模型,得到所述分类模型的参数;整所述分类模型中的参数,得到所述分类模型的最优模型参数后,构建语言模型;利用所述语言模型对所述测试集进行测试,若检测出所述语言模型的准确率高于预设阈值,则确定所述语言模型符合分类条件;根据所述语言模型对输入所述语言模型的第二数据集进行分类。

本申请实施例中,处理模块202对所述第一数据集进行预处理,得到训练集和测试集;采用分层表征方式,利用训练集预训练分类模型,得到所述分类模型的参数;调整所述分类模型中的参数,得到所述分类模型的最优模型参数后,构建语言模型;利用所述语言模型对所述测试集进行测试,若检测出所述语言模型的准确率高于预设阈值,则确定所述语言模型符合分类条件;根据所述语言模型对输入所述语言模型的第二数据集进行分类。提供采用本方案,能够提高新闻文章分类的准确率,以及提高word2vec预训练的词向量模型对新闻文章的分类效果。

一些实施方式中,所述处理模块202具体用于:

针对所述训练集中特征的整体层次结构,从边缘到形状,从低至高学习所有层级的特征,提取所述训练集中连续文本的内在联系和语言结构的表达能力,以训练所述分类模型;

其中,所述分类模型的参数表示神经网络的权重,将所述分类模型的参数作为输入语言模型的词语的向量化表示。

一些实施方式中,所述处理模块202具体用于:

在模拟空间搜索,匹配出一个与所述训练集最匹配的假设,以得到一组最优模型参数。

一些实施方式中,所述处理模块202具体用于:

通过所述输入输出模块201将所述训练集输入所述模拟空间;

在所述模拟空间使用所述训练集对所述分类模型进行训练,训练得到一组与所述训练集最匹配的最优模型参数。

一些实施方式中,所述语言模型中的参数,包括分类自变量和分类因变量,所述处理模块202具体用于:

将新闻标题和新闻作者设置为分类自变量,将新闻类别设置为分类因变量;

根据所述新闻标题和所述新闻作者、所述新闻类别、以及所述最优模型参数构建所述语言模型。

一些实施方式中,所述分类模型包括elmo模型、openaigpt模型或bert模型。所述预处理包括分层采样、数据中的缺失值处理、以及特征梳理与筛选。

上面从模块化功能实体的角度分别介绍了本申请实施例中的用于对新闻文章分类的装置,以下从硬件角度介绍一种计算机设备,如图3所示,其包括:处理器、存储器、输入输出单元以及存储在所述存储器中并可在所述处理器上运行的计算机程序。例如,该计算机程序可以为图1所对应的实施例中新闻文章分类的方法对应的程序。例如,当计算机设备实现如图2所示的装置20的功能时,所述处理器执行所述计算机程序时实现上述图2所对应的实施例中由装置20执行的新闻文章分类的方法中的各步骤;或者,所述处理器执行所述计算机程序时实现上述图2所对应的实施例的装置20中各模块的功能。又例如,该计算机程序可以为图1所对应的实施例中新闻文章分类的方法对应的程序。

所称处理器可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分。

所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述输入输出单元也可以用输入单元和输出单元代替,可以为相同或者不同的物理实体。为相同的物理实体时,可以统称为输入输出单元。该输入输出单元可以为收发器。

所述存储器可以集成在所述处理器中,也可以与所述处理器分开设置。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述,但是本申请并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本申请的启示下,在不脱离本申请宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本申请的保护之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1