文本分类方法和装置、及电子设备与流程

文档序号:17090319发布日期:2019-03-13 23:22阅读:211来源:国知局
文本分类方法和装置、及电子设备与流程

本公开涉及计算机技术领域,更具体地,涉及一种文本分类方法和装置、及电子设备。



背景技术:

随着计算机技术的快速发展,自然语言处理得到飞速发展,其中,文本分类任务是自然语言处理(nlp)领域中基础和传统的任务之一,该文本分类任务又会根据领域类型的不同分成很多子任务,例如情感分类、主题分类和问题分类等。

在实现本构思的过程中,发明人发现现有技术中至少存在如下问题:现有的文本分类的方法,只是简单的利用词频-逆文件频率(termfrequency-inversedocumentfrequency,tf-idf)特征,通过单层分类器,根据权重计算来预测得到文本的分类结果,但由于待分类的文本可能是不同上报者上报的,则由于不同上报者具有不同的描述用词习惯等,可能会导致对文本预测的分类结果不准确,从而不能很好的解决实际问题中不同背景的分类问题。



技术实现要素:

有鉴于此,本公开提供了一种能够提高文本分类准确度的文本分类方法和装置、及电子设备。

本公开的一个方面提供了一种文本分类方法,该方法包括:根据文本包括的多个文本数据,获取文本的向量特征;以向量特征作为多个第一分类器的输入,得到文本的多组分类预测信息;以及以多组分类预测信息作为第二分类器的输入,得到文本的分类结果。

根据本公开的实施例,上述文本的向量特征包括:频率向量,用于表征文本包括的多个文本数据的词频-逆文件频率;并且/或者,词向量,用于表征文本包括的多个文本数据;并且/或者,句向量,用于表征文本包括的多个文本数据组成的多个语句。

根据本公开的实施例,上述以向量特征作为多个第一分类器的输入,得到文本的多组预测分类信息包括:以频率向量、词向量和句向量中的至少两个向量分别作为多个不同的第一分类器的输入,得到文本的多组分类预测信息,其中,以词向量或句向量作为输入的第一分类器包括神经网络模型分类器,每个第一分类器以一个向量作为输入,得到一组分类预测信息。

根据本公开的实施例,上述以向量特征作为多个第一分类器的输入,得到文本的多组预测分类信息包括:以频率向量分别作为多个不同的第一分类器的输入,得到文本的多组分类预测信息,其中,以频率向量作为输入的第一分类器包括伯努利模型分类器、多项式模型分类器和/或逻辑回归模型分类器。

根据本公开的实施例,上述文本分类方法还包括:根据文本包括的多个文本数据,获取文本的统计特征;以及以统计特征及多组分类预测信息作为第二分类器的输入,得到文本的分类结果,其中,统计特征包括:文本包括的多个文本数据中每个文本数据的出现次数、多个文本数据中包括预设关键词的数量、和/或根据文本包括的多个文本数据中的时间数据得到的时间间隔的最大值、最小值、极差值和/或平均值。

根据本公开的实施例,上述文本分类方法在获取文本的向量特征之前,还包括:对文本包括的所有文本数据进行分词处理,得到多个文本数据;并且/或者,过滤掉文本包括的所有文本数据中的停用词,得到多个文本数据。

本公开的另一个方面提供了一种文本分类装置,该装置包括:处理模块,用于根据文本包括的多个文本数据,获取文本的向量特征;多个第一分类器,用于分别以向量特征作为输入,得到文本的多组分类预测信息;以及第二分类器,用于以多组分类预测信息作为输入,得到文本的分类结果。

根据本公开的实施例,上述文本的向量特征包括:频率向量,用于表征文本包括的多个文本数据的词频-逆文件频率;并且/或者,词向量,用于表征文本包括的多个文本数据;并且/或者,句向量,用于表征文本包括的多个文本数据组成的多个语句。

根据本公开的实施例,上述多个第一分类器为不同的分类器,每一个第一分类器以频率向量、词向量和句向量中的任意一个向量作为输入,得到一组分类预测信息,其中:多个第一分类器中的至少两个分类器的输入为不同向量;并且/或者,多个第一分类器中的至少两个分类器的输入均为频率向量;并且/或者,以词向量或句向量作为输入的第一分类器包括神经网络模型分类器;并且/或者,以频率向量作为输入的第一分类器包括伯努利模型分类器、多项式模型分类器和/或逻辑回归模型分类器。

根据本公开的实施例,上述处理模块还用于根据文本包括的多个文本数据,获取文本的统计特征;则上述第二分类器是以统计特征及多组分类预测信息作为输入,得到文本的分类结果的,其中,统计特征包括:文本包括的多个文本数据中每个文本数据的出现次数、多个文本数据中包括预设关键词的数量、和/或根据文本包括的多个文本数据中的时间数据得到的时间间隔的最大值、最小值、极差值和/或平均值。

根据本公开的实施例,上述处理模块还用于在获取所述文本的向量特征之前,对文本包括的所有文本数据进行分词处理,得到多个文本数据;并且/或者,过滤掉文本包括的所有文本数据中的停用词,得到多个文本数据。

本公开的另一个方面提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行上述的文本分类方法。

本公开的另一个方面提供了一种计算机可读存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的文本分类方法。

本公开的另一个方面提供了一种计算机程序,该计算机程序包括计算机可执行指令,该指令在被执行时用于实现如上所述的文本分类方法。

根据本公开的实施例,可以至少部分地解决现有技术中的文本分类方法不能很好的解决实际问题中不同背景的分类问题;并因此通过两层分类器的设置,可以从多个维度对文本进行分类,并最终提高文本分类的准确度,使得该文本分类方法可以用于解决不同背景的分类问题。

附图说明

通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:

图1示意性示出了根据本公开实施例的文本分类方法和装置、及电子设备的应用场景;

图2示意性示出了根据本公开实施例的文本分类方法的流程图;

图3示意性示出了根据本公开实施例的文本分类方法的概念图;

图4示意性示出了根据本公开另一实施例的文本分类方法的流程图;

图5示意性示出了根据本公开又一实施例的文本分类方法的流程图;

图6示意性示出了根据本公开实施例的文本分类方法的具体实现流程图;

图7示意性示出了根据本公开实施例的文本分类装置的结构框图;

图8示意性示出了根据本公开实施例的电子设备的方框图。

具体实施方式

以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。

在使用类似于“a、b和c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b和c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。在使用类似于“a、b或c等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有a、b或c中至少一个的系统”应包括但不限于单独具有a、单独具有b、单独具有c、具有a和b、具有a和c、具有b和c、和/或具有a、b、c的系统等)。

本公开的实施例提供了一种用于提高文本分类准确度的文本分类方法和装置、及电子设备,其中文本分类方法包括:根据文本包括的多个文本数据,获取文本的向量特征;以向量特征作为多个第一分类器的输入,得到文本的多组分类预测信息;以及以多组分类预测信息作为第二分类器的输入,得到文本的分类结果。

图1示意性示出了根据本公开实施例的文本分类方法和装置、及电子设备的应用场景。需要说明的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示,该应用场景中包括电子设备100,该电子设备100上可以显示有文件上报平台110,该上报平台110通过用户的操作可以得到文本200,该文本200经由电子设备100处理后例如可以输出该文本200的分类结果。

其中,电子设备100可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

根据本公开的实施例,电子设备100上例如可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、社交平台软件、文本编辑类应用、文本上报类应用等(仅为示例),具体地,文件上报平台110具体例如可以是电子设备100中安装的文本上报类应用的展示平台。

根据本公开的实施例,上述文件上报平台110具体例如可以是线上事故上报平台、日志上报平台或工作记录上报平台等各种能够通过用户的编辑及上传操作得到待分类文本200的平台,本公开对此不作限定,根据实际需求,可以在电子设备100上安装相应的客户端应用,以向用户提供能够上传记录有内容的文本的平台。

根据本公开的实施例,上述文本200可以是用户编辑的用于记录各种不同内容的文本,记录的内容例如可以包括线上事故上报记录、情感记录或工作记录等,本公开对此不作限定。

电子设备100例如还具有处理功能,其可以用于通过对文件上报平台110上传的文件200进行处理,对该文件200进行分类。例如,在该文件200记录的内容为情感记录时,电子设备可以通过对该文件200记录的文本数据的处理,得到该文本200记录的情感分类;例如,在该文件200记录的内容为工作人员编辑的线上事故上报记录(具体例如可以包括事故时间、事故过程、事故原因的描述内容)时,电子设备100可以通过对该文件200记录的文本数据的处理,得到该文本200记录的线上事故所属的事故级别300,该事故级别300例如可以包括该文本200记录的线上事故分别属于特大事故、重大事故、严重事故、一般事故及轻微事故的概率p0、p1、p2、p3及p4。可以理解的是,上述文本200记载的内容及电子设备100对文本200进行处理后输出的分类结果仅作为示例以利于理解本公开,本公开对此不作限定。

需要说明的是,本公开实施例所提供的文本分类方法一般可以由电子设备100执行。相应地,本公开实施例所提供的文本分类装置一般可以设置于电子设备100中。

可以理解的是,图1中的电子设备的类型和数目、上报系统上报的文本数目及电子设备处理文本后输出的分类结果仅仅是示意性的,根据实现需要,可以具有任意类型和任意数目的电子设备,任意数目的文本,及任意类型的分类结果。

图2示意性示出了根据本公开实施例的文本分类方法的流程图;图3示意性示出了根据本公开实施例的文本分类方法的概念图。

如图2所示,该文本分类方法包括操作s210-操作s230。

在操作s210,根据文本包括的多个文本数据,获取文本的向量特征。

其中,文本例如可以是描述事件发生过程、事件发生时间、事件发生所在地或人物等的文本,例如,若该文本为线上事故上报文本,则该文本例如可以包括事故时间、事故过程、事故原因等。

其中,文本包括的多个文本数据具体例如可以是记载时间的时间数据、记载词汇的文字数据、记载数量的数字数据等,根据本公开的实施例,此处的文本数据具体例如可以是文本中描述的词汇。

其中,从词频角度来看,获取的向量特征例如可以包括有频率向量,该频率向量用于表征文本包括的多个文本数据的词频-逆文件频率,即tf-idf特征,每个文本数据对应有一个词频-逆文件频率,以用于作为评估每个文本数据在文本文档中的重要程度。

根据本公开的实施例,该频率向量的获取具体例如可以是通过tf-idf模型计算得到的,每个文本数据在多个文本中的词频-逆文件频率的值组成一个向量,且当前待分类的文本包括的多个文本数据在该文本中的词频-逆文件频率的值组成一个向量,作为所述频率向量。其中,tf-idf模型是指现有技术中的模型,此处不再赘述根据该模型计算得到词频-逆文件频率的具体操作。

其中,为了评估某个文本数据的含义,获取的向量特征例如可以包括有词向量,该词向量用于表征文本包括的多个文本数据,获取该词向量的目的是为了将文本中的文本数据表示成一个固定长度的特征向量。根据本公开的实施例,该词向量具体例如可以通过以下方式获取:根据给定的语料库,通过优化后的训练模型将一个文本数据表达成向量形式,则该得到的向量表示即为词向量,每个文本数据对应有一个词向量。

根据本公开的实施例,上述词向量的获取方式具体可以是:将文本包括的多个文本数据输入至word2vec模型,则该模型的输出即为与多个文本数据一一对应的词向量。

根据本公开的实施例,上述的word2vec模型的维数例如可以为300,且将文本的多个文本数据输入至word2vec模型之前,例如还可以对多个文本数据进行滤除,去除掉频数低于5的文本数据,以去除掉频数低于5后剩余的文本数据作为word2vec模型的输入,从而提高文本数据转换得到的词向量的区分度,便于分类器对文本进行分类,提高分类准确性。可以理解的是,上述word2vec模型的维数及文本数据的滤除规则仅作为示例以利于理解本公开,本公开对此不作限定。

其中,为了评估文本整体含义,获取的向量特征例如可以包括句向量,用于表征文本包括的多个文本数据组成的多个语句。具体地,该句向量的获取例如是为了表示文本数据的语义信息。

根据本公开的实施例,该句向量具体例如可以是提取的文本的doc2vec特征,该doc2vec特征例如可以包括以文本数据作为输入,通过doc2vec-dbow(distributedbagofwords)模型得到的输出向量。根据本公开的实施例,该doc2vec-dbow模型的维数例如可以为300,训练次数例如可以为5。可以理解的是,该doc2vec-dbow模型的维数与训练次数仅作为示例以利于理解本公开,本公开对此不作限定。

根据本公开的实施例,考虑到doc2vec-dbow模型仅专注于文本中各文本数据的语义信息,并不能很好的保留文本中的完整语义信息,因此上述句向量还可以包括以文本数据作为输入,通过doc2vec-dm(distributedmemory)模型得到的输出向量,则由于doc2vec-dm模型不仅考虑了词的上下文语义特征,还同时考虑到了词序信息,因此,通过doc2vec-dm和doc2vec-dbow模型得到的句向量,能够更好的保留文本中的完整语义信息。

根据本公开的实施例,为了更加全面的表征文本,还可以从多个维度提取文本的向量特征,即获取的向量特征例如还可以是上述描述的频率向量、词向量和句向量中的任意两种或包括上述三种,只要能够保证获取的向量特征能够通过不同的第一分类器得到不同的分类预测信息即可。根据本公开的实施例,为了有效避免不同上报者的描述用词习惯存在差异而导致的分类效果较差的情况发生,该获取的向量特征优选包括上述描述的三种向量。

在操作s220,以向量特征作为多个第一分类器的输入,得到文本的多组分类预测信息。

其中,如图3所示,以该向量特征分别作为第一分类器c1、c2、……cm的输入,经由多个第一分类器,得到的输出即为文本的多组分类预测信息p1、p2……pn,每个第一分类器的输出对应一组分类预测信息。

根据本公开的实施例,上述操作s220具体例如可以是以频率向量、词向量和句向量中的至少两个向量分别作为多个不同的第一分类器的输入,得到文本的多组分类预测信息,其中,每个第一分类器以上述频率向量、词向量和句向量中的一个向量作为输入,得到一组分类预测信息。例如,可以将频率向量、词向量和句向量分别输入至不同的三个第一分类器中,以分别得到根据频率向量得到的一组预测信息、根据词向量得到的一组预测信息及根据句向量得到的一组预测信息。由于根据上述三种向量特征的至少两种得到的预测信息包括有从文本的不同维度得到的预测信息,则第二分类器根据该多维度的预测信息得到的分类结果,相较于现有技术中的分类方法,可以避免分类结果因不同文本提交者的用词习惯不同而存在差异的缺陷,并因此可以在一定程度上提高文本分类的准确性。

根据本公开的实施例,上述操作s220具体例如还可以是以频率向量分别作为多个不同的第一分类器的输入,得到文本的多组分类预测信息。根据本公开的实施例,上述不同的第一分类器具体是指分类器在进行分类时采用的模型不同,则以相同的频率向量作为输入,不同的第一分类器得到的分类预测信息也不同。考虑到不同模型的侧重点及关注点不同,因此第二分类器通过处理不同的分类预测信息得到的分类结果则可以综合各模型的优点,使得最终得到的分类结果相较于通过一种模型得到的分类结果更为准确。

根据本公开的实施例,此处的多个第一分类器例如可以为五个,上述操作s220具体例如还可以是,以频率向量分别作为五个第一分类器中三个分类器的输入,以词向量和句向量分别作为其他两个第一分类器的输入,最终得到五个第一分类器输出的分类预测信息,作为第二分类器的输入。则此处由于综合前述的两个实施例的方案,因此,得到的分类结果相较于前述的两个实施例更为准确。

根据本公开的实施例,上述的多个第一分类器中,以词向量或句向量作为输入的第一分类器例如可以是基于神经网络模型训练得到的分类器,以频率向量作为输入的第一分类器例如可以包括伯努利模型(bernoullinb)的分类器、多项式模型(multinomialnb)的分类器、逻辑回归模型(logisticregression)的分类器和/或朴素贝叶斯(naivebayes)分类器。可以理解的是,上述第一分类器的类型仅作为示例以利于理解本公开,本公开对此不作限定,该第一分类器具体可以采用现有技术中的任意分类器。

在操作s230,以多组分类预测信息作为第二分类器的输入,得到文本的分类结果。

其中,如图3所示,该操作s230具体即为将操作s220得到的多组分类预测信息p1、p2……pm输入到第二分类器进行融合,通过第二分类器对该多组分类预测信息的处理,输出文本的分类结果pf。

根据本公开的实施例,该分类结果pf例如可以由图1描述的文本上报平台110或其他的应用程序通过电子设备100的显示功能展示给用户,作为用户对文本进行最终分类的参考,提高文本分类效率。

根据本公开的实施例,在上述操作s230执行之前,例如还可以对操作s220得到的多组分类预测信息作拼接处理,拼接处理后的结果作为第二分类器的输入。

根据本公开的实施例,上述第二分类器例如可以是基于boost算法的分类器,该boost算法例如可以是adaboost算法、lightgbm算法、catboost算法或者xgboost算法等。可以理解的是,上述列举的boost算法仅作为示例以利于理解本公开,本公开对此不作限定,本领域技术人员可以根据实际需求将上述的算法替换为现有技术中的任何算法。

综上可知,本公开实施例的文本分类方法,通过两层的分类器对文本进行分类,其中第一层的第一分类器是多个,可以从不同维度对文本的分类进行预测,该多个第一分类器的输出作为第二层的第二分类器的输入,由于该第二分类器在进行对文本的分类结果进行预测时,综合了从不同维度得到的文本的分类预测信息,因此该第二分类器输出的分类结果相较于现有技术中通过单层分类器得到的分类结果,准确性更高。

图4示意性示出了根据本公开另一实施例的文本分类方法的流程图。

如图4所示,本公开实施例的文本分类方法包括参考图2描述的操作s210-操作s220,还包括操作s410-操作s420,操作s410例如可以与操作s210同时执行,或者在操作s220之后执行,本公开对该操作s410的执行时序不作限定,只要保证该操作s410在操作s420之前执行即可。

在操作s410,根据文本包括的多个文本数据,获取文本的统计特征;在操作s420,以统计特征及多组分类预测信息作为第二分类器的输入,得到文本的分类结果。

其中,文本数据与操作s210中描述的文本数据相同,其中文本的统计特征例如可以包括:文本包括的多个文本数据中每个文本数据的出现次数、多个文本数据中包括预设关键词的数量、和/或根据文本包括的多个文本数据中的时间数据得到的时间间隔的最大值、最小值、极差值和/或平均值。

根据本公开的实施例,上述获取统计特征的具体过程例如可以为:提取文本中出现的所有时间数据,对该所有时间数据进行排序、统计,以得到相邻两个时间数据记载时间的间隔,并从多个时间间隔中确定时间间隔的最大值、最小值、极差值和/或平均值。

根据本公开的实施例,上述操作s420与参考图2中描述的操作s230类似,区别仅在于,不仅以操作s220中得到的多组分类预测信息作为第三分类器的输入,同时还输入操作s410获取的文本的统计特征。

根据本公开的实施例,在操作s420之前,例如还可以对统计特征及操作s220得到的多组分类预测信息做拼接处理,以拼接处理后的结果作为第二分类器的输入。

根据本公开的实施例,由于统计特征能够进一步补充文本中的部分细节信息,因此第二分类器输入的特征能够对文本进行全面性的描述,则本公开实施例的文本分类方法相较于参考图2描述的文本分类方法,可以进一步地提高文本分类的准确性。

图5示意性示出了根据本公开又一实施例的文本分类方法的流程图。

本公开实施例的文本分类方法在参考图2描述的操作s210-操作s230之前,例如还可以对文本包括的文本数据进行预处理,以便于操作s210-操作s230的执行。

根据本公开的实施例,上述预处理例如可以包括:对文本数据进行分词处理,对于文本数据为英文的文本,例如可以以文本中的“空格”字符为分词标准进行分词处理,或者进一步采用nltk(naturallanguagetoolkit)工具等进行分词处理;而对于文本数据为中文的文本,例如可以采用基于词典的方法、基于统计的方法或者基于机器学习的方法进行分词,其具体例如还可以采用结巴分词等现有的分词工具进行分词处理,本公开对此不作限定。通过该分词处理得到的文本数据,能够方便在操作s210中的向量化,且有利于对文本进行特征(例如可以为向量特征和/或统计特征)提取。

根据本公开的实施例,上述预处理例如可以包括去除文本中的停用词,即过滤掉停用词,该停用词例如可以是文本中的一些语气助词、介词、连接词等对文本的分类而言没有作用的文本数据,从而可以避免在特征提取时,大量无用词汇被特征化,并因此提高文本分类效率及准确性。该过滤掉停用词具体可以通过以下方式实现,将文本包括的所有文本数据与预设的停用词表进行比对,当某个文本数据与预设的停用词表中的停用词匹配时,则将该文本数据过滤掉。

根据本公开的实施例,上述预处理例如可以先对文本数据进行分词处理,在对该分词处理后的文本数据进行去除停用词的操作,则如图5所示,本实施例的文本分类方法除了参考图2描述的操作s210-操作s230之外,还包括操作s510,对文本包括的所有文本数据进行分词处理,并过滤掉停用词,得到操作s210描述的多个文本数据。

综上可知,在获取文本的向量特征之前,先对文本包括的所有文本数据进行预处理,能够在一定程度上提高向量特征的提取效率,且可以避免无用词汇的存在对文本分类结果的影响,因此可以在一定程度上提高文本分类结果的准确性。

图6示意性示出了根据本公开实施例的文本分类方法的具体实现流程图。

如图6所示,本公开实施例的文本分类方法的实现流程例如可以包括有操作s610-s640,以下以线上事故上报文本作为待分类的文本对该实现流程进行详细描述,以基于线上事故上报文本的描述,对该线上事故进行定级:

首先,在操作s610,输入用户提交的线上事故上报文本,该线上事故上报文本具体例如可以是用户通过线上事故上报平台上传的,文本通常包括对事故事件、事故过程和事故原因的描述;

然后,在操作s620,对该线上事故上报文本进行数据预处理,具体可以是先对该线上事故上报文本的文本数据进行分词处理,然后对分词处理后的文本数据进行过滤,去除该文本数据中的停用词;

接下来,在操作s630,根据操作s620中去除停用词的文本数据,进行文本的特征提取,该特征提取分别为:根据tf-idf模型计算得到该文本中各个文本数据的tf-idf特征;根据doc2vec-dbow模型提取得到doc2vec-dbow特征(即doc2vec-dbow模型的输出);根据doc2vec-dm模型提取得到doc2vec-dm特征(即doc2vec-dm模型的输出);根据word2vec模型提取得到word2vec特征;同时还根据去除停用词后的文本数据,提取得到统计特征;

最后在操作s640,将操作s630得到的特征通过两层分类器得到最终的输出,即线上事故等级,该操作s640具体包括:将tf-idf特征分别输入bernoulinb分类器、multinomialnb分类器、logisticregression分类器;将doc2vec-dbow特征、doc2vec-dm特征和word2vec特征分别输入三个不同的神经网络(neuralnetwork)分类器,该些分类器的输出及统计特征一并作为lightgbm分类器的输入,经由lightgbm分类器处理后得到的输出即为线上事故等级,该线上事故等级的内容具体可以为参考图1描述的事故等级300,在此不再赘述。

综上可知,本公开实施例的实现具体结合了stacking模型融合的思想,能够通过对线上事故上报文本的分析处理,自动实现上报事故的等级预测,从而可以有效地减轻人工审核负担;且本实施例在不同线上事故在事故定级时,考虑了线上事故上报文本的多维度特征,因此能够避免不同上报人员的倾向或习惯性偏差等导致的预测准确度低的缺陷,并因此提高线上事故定级质量。

图7示意性示出了根据本公开实施例的文本分类装置的结构框图。

如图7所示,本公开实施例的文本分类装置700包括处理模块710、多个第一分类器720和第二分类器730。

其中,处理模块710用于根据文本包括的多个文本数据,获取文本的向量特征,该获取的文本向量特征可以包括频率向量、和/或词向量、和/或句向量。其中,频率向量用于表征文本包括的多个文本数据的词频-逆文件频率;词向量用于表征文本包括的多个文本数据;句向量用于表征文本包括的多个文本数据组成的多个语句。根据本公开的实施例,该处理模块710例如可以用于执行参考图2描述的操作s210,在此不再赘述。

其中,多个第一分类器720用于分别以向量特征作为输入,得到文本的多组分类预测信息。根据本公开的实施例,该多个第一分类器720为不同的分类器,每一个第一分类器以频率向量、词向量和句向量中的任意一个向量作为输入,得到一组分类预测信息。根据本公开的实施例,该多个第一分类器中的至少两个分类器的输入为不同向量,并且/或者,该多个第一分类器中的至少两个分类器的输入均为频率向量。根据本公开的实施例,该多个第一分类器720例如可以用于执行参考图2描述的操作s220,在此不再赘述。

根据本公开的实施例,以词向量或句向量作为输入的第一分类器例如可以包括神经网络模型分类器;并且/或者,以频率向量作为输入的第一分类器例如可以包括伯努利模型分类器、多项式模型分类器和/或逻辑回归模型分类器等。

其中,第二分类器730用于以多组分类预测信息作为输入,得到文本的分类结果。根据本公开的实施例,该第二分类器730例如可以用于执行参考图2描述的操作s230,在此不再赘述。

根据本公开的实施例,上述处理模块710例如还可以用于根据文本包括的多个文本数据,获取文本的统计特征,该统计特征例如可以包括:文本包括的多个文本数据中每个文本数据的出现次数、多个文本数据中包括预设关键词的数量、和/或根据文本包括的多个文本数据中的时间数据得到的时间间隔的最大值、最小值、极差值和/或平均值。则第二分类器730可以是以统计特征及多组分类预测信息作为输入,得到文本的分类结果。根据本公开的实施例,处理模块710和第二分类器730例如还可以分别用于执行参考图4描述的操作s410-操作s420,在此不再赘述。

根据本公开的实施例,上述处理模块710例如还可以用于在获取文本的向量特征之前:对文本包括的所有文本数据进行分词处理,得到多个文本数据;并且/或者,过滤掉文本包括的所有文本数据中的停用词,得到多个文本数据。根据本公开的实施例,该处理模块710例如还可以用于执行参考图5描述的操作s510,在此不再赘述。

根据本公开的实施例,上述的多个第一分类器720及第二分类器730例如可以为模块化结构,具体例如可以为第一分类模块和第二分类模块,其中第一分类模块的功能即为执行第一分类器执行的操作,第二分类模块的功能即为执行第二分类器执行的操作,在此不再赘述。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。

例如,处理模块710、第一分类模块、以及第二分类模块中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,处理模块710、第一分类模块、以及第二分类模块中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,处理模块710、第一分类模块、以及第二分类模块中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。

图8示意性示出了根据本公开实施例的电子设备的方框图。图8示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示,根据本公开实施例的电子设备800包括处理器801,其可以根据存储在只读存储器(rom)802中的程序或者从存储部分808加载到随机访问存储器(ram)803中的程序而执行各种适当的动作和处理。处理器801例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器801还可以包括用于缓存用途的板载存储器。处理器801可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在ram803中,存储有电子设备800操作所需的各种程序和数据。处理器801、rom802以及ram803通过总线804彼此相连。处理器801通过执行rom802和/或ram803中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除rom802和ram803以外的一个或多个存储器中。处理器801也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例,电子设备800还可以包括输入/输出(i/o)接口805,输入/输出(i/o)接口805也连接至总线804。电子设备800还可以包括连接至i/o接口805的以下部件中的一项或多项:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至i/o接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。

根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被处理器801执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。

根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的rom802和/或ram803和/或rom802和ram803以外的一个或多个存储器。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1