信息分类方法、装置、计算机设备和存储介质与流程

文档序号:15347206发布日期:2018-09-04 22:54阅读:147来源:国知局

本申请涉及计算机技术领域,特别是涉及一种信息分类方法、装置、计算机设备和存储介质。



背景技术:

随着计算机技术的发展,以及信息内容的急剧增长,获得的信息越来越多,极大的方便了用户间的交流与沟通。但由于信息规模巨大、多种多样、杂乱无章,给用户检索信息,查找个人感兴趣的内容增加了难度。而信息分类作为组织和处理大量信息的关键技术,可在一定程度上解决信息杂乱的问题,有助于用户根据自己的需求有选择地选择信息。

然而,目前的信息分类算法存在精度不高的问题,较难确定与用户真实意途对应的类别。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够提高信息的分类精准度的信息分类方法、装置、计算机设备和存储介质。

一种信息分类方法,所述方法包括:

获取待分类信息,对所述待分类信息进行分词得到对应的原始词语集合;

分别获取所述原始词语集合中各个原始词语对应的同义词,将原始词语与对应的同义词形成扩展词语集合,每个原始词语都存在对应的扩展词语集合;

根据各个原始词语对应的扩展词语集合形成所述待分类信息对应的扩展分类信息集合;

将所述扩展分类信息集合输入已训练的多分类模型得到所述待分类信息对应的目标类别。

在其中一个实施例中,已训练的多分类模型的生成步骤包括:

获取训练语料数据,所述训练语料数据包括多个训练语料信息,各个训练语料信息存在对应的标准类别标注;

对所述各个训练语料信息进行分词得到各个训练语料信息对应的原始训练词语集合;

分别获取所述原始训练词语集合中各个原始训练词语对应的同义词,将原始词语与对应的同义词形成扩展训练词语集合,每个原始训练词语都存在对应的扩展训练词语集合;

根据各个原始训练词语对应的扩展训练词语集合形成各个训练语料信息对应的扩展训练分类信息集合;

根据各个训练语料信息对应的扩展训练分类信息集合和对应的标准类别标注对多分类模型通过支持向量机算法进行训练;

得到已训练的目标多分类模型。

在其中一个实施例中,多分类模型包括多个子二分类模型,所述将所述扩展分类信息集合输入已训练的多分类模型得到所述待分类信息对应的目标类别的步骤包括:

获取所述多分类模型中的第一个子二分类模型作为当前子二分类模型;

将所述扩展分类信息集合输入所述当前子二分类模型,得到对应的当前子类别信息,根据所述当前子类别信息判断是否输入下一个子二分类模型,如果是,则获取下一个子二分类模型,将下一个子二分类模型作为当前子二分类模型返回所述将所述扩展分类信息集合输入所述当前子二分类模型的步骤;

如果否,则将当前子类别信息对应的类别作为所述待分类信息对应的目标类别。

在其中一个实施例中,根据各个训练语料信息对应的扩展训练分类信息集合和对应的标准类别标注对多分类模型通过支持向量机算法进行训练的步骤包括:

获取特征项,计算所述特征项在第一类别对应的扩展训练分类信息的词频权重;

计算所述特征项在整个训练语料数据中的文档频率;

根据所述词频权重和文档频率计算所述特征项对应的特征权重;

根据所述特征权重选择所述特征项作为所述第一类别的特征词;

根据所述特征词提取所述扩展训练分类信息集合中各个扩展训练分类信息的特征。

在其中一个实施例中,所述将所述扩展分类信息集合输入已训练的多分类模型得到所述待分类信息对应的目标类别的步骤之前,还包括:

将所述扩展分类信息集合输入已训练的二分类模型得到所述待分类信息对应的初始类别,当所述初始类别为第一预设类别时,将所述待分类信息输入第一模块;

当所述初始类别为第二预设类别时,进入所述将所述扩展分类信息集合输入已训练的多分类模型得到所述待分类信息对应的类别的步骤。

在其中一个实施例中,所述第一预设类别为非业务类别,所述第二预设类别为业务类别,所述获取待分类信息的步骤包括:

获取用户实时输入的银行业务问题或聊天信息。

一种信息分类装置,所述装置包括:

分词模块,用于获取待分类信息,对所述待分类信息进行分词得到对应的原始词语集合;

扩展模块,用于分别获取所述原始词语集合中各个原始词语对应的同义词,将原始词语与对应的同义词形成扩展词语集合,每个原始词语都存在对应的扩展词语集合,根据各个原始词语对应的扩展词语集合形成所述待分类信息对应的扩展分类信息集合;

类别确定模块,用于将所述扩展分类信息集合输入已训练的多分类模型得到所述待分类信息对应的目标类别。

在其中一个实施例中,装置还包括:

训练模块,用于获取训练语料数据,所述训练语料数据包括多个训练语料信息,各个训练语料信息存在对应的标准类别标注,对所述各个训练语料信息进行分词得到各个训练语料信息对应的原始训练词语集合,分别获取所述原始训练词语集合中各个原始训练词语对应的同义词,将原始词语与对应的同义词形成扩展训练词语集合,每个原始训练词语都存在对应的扩展训练词语集合,根据各个原始训练词语对应的扩展训练词语集合形成各个训练语料信息对应的扩展训练分类信息集合,根据各个训练语料信息对应的扩展训练分类信息集合和对应的标准类别标注对多分类模型通过支持向量机算法进行训练,得到已训练的目标多分类模型。

一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取待分类信息,对所述待分类信息进行分词得到对应的原始词语集合;

分别获取所述原始词语集合中各个原始词语对应的同义词,将原始词语与对应的同义词形成扩展词语集合,每个原始词语都存在对应的扩展词语集合;

根据各个原始词语对应的扩展词语集合形成所述待分类信息对应的扩展分类信息集合;

将所述扩展分类信息集合输入已训练的多分类模型得到所述待分类信息对应的目标类别。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取待分类信息,对所述待分类信息进行分词得到对应的原始词语集合;

分别获取所述原始词语集合中各个原始词语对应的同义词,将原始词语与对应的同义词形成扩展词语集合,每个原始词语都存在对应的扩展词语集合;

根据各个原始词语对应的扩展词语集合形成所述待分类信息对应的扩展分类信息集合;

将所述扩展分类信息集合输入已训练的多分类模型得到所述待分类信息对应的目标类别。

上述信息分类方法、装置、计算机设备和存储介质,通过获取待分类信息,对待分类信息进行分词得到对应的原始词语集合,分别获取原始词语集合中各个原始词语对应的同义词,将原始词语与对应的同义词形成扩展词语集合,每个原始词语都存在对应的扩展词语集合,根据各个原始词语对应的扩展词语集合形成所述待分类信息对应的扩展分类信息集合,将扩展分类信息集合输入已训练的多分类模型得到待分类信息对应的目标类别,先形成每个原始词语对应的扩展词语集合,再通过扩展词语集合形成扩展分类信息集合,大大提高了扩展分类信息的扩展度,扩展后的各个扩展分类信息表达了与待分类信息相同或相近的含义,提高了待分类信息的有效覆盖范围,从而在后续输入已训练的多分类模型后,可提高目标类别的精准性。

附图说明

图1为一个实施例中信息分类方法的应用环境图;

图2为一个实施例中信息分类方法的流程示意图;

图3为一个实施例中得到已训练的目标多分类模型的流程示意图;

图4为一个实施例中得到目标类别的流程示意图;

图5为一个实施例中提取特征的流程示意图;

图6为另一个实施例中信息分类方法的流程示意图;

图7为一个实施例中信息分类装置的结构框图;

图8为另一个实施例中信息分类装置的结构框图;

图9为类别确定模块的结构框图;

图10为再一个实施例中信息分类装置的结构框图;

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的信息分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。终端可获取用户输入的待分类信息,将待分类信息发送至服务器104,服务器104对待分类信息进行分词得到对应的原始词语集合,分别获取所述原始词语集合中各个原始词语对应的同义词,将原始词语与对应的同义词形成扩展词语集合,得到每个原始词语对应的扩展词语集合,根据各个原始词语对应的扩展词语集合形成待分类信息对应的扩展分类信息集合,将所述扩展分类信息集合输入已训练的多分类模型得到所述待分类信息对应的目标类别,在进行分类前,先对待分类信息通过同义词进行了扩展,扩展后的各个扩展分类信息表达了与待分类信息相同或相近的含义,提高了待分类信息的有效覆盖范围,从而在后续输入已训练的多分类模型后,可提高目标类别的精准性。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种信息分类方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

步骤s210,获取待分类信息,对待分类信息进行分词得到对应的原始词语集合。

其中,待分类信息是指需要指定目标类别的信息,可以是文本信息,也可以是语音信息、图像信息,如果是语音信息、图像信息,则可先通过语音识别或图像识别,将语音信息和图像信息转化为文本信息。待分类信息可以是存储在服务器中的信息,也可以是服务器实时接收的从终端发送的用户提交的信息。可以是短文本也可以是长文本。可以是陈述性的信息,也可以是提问性的信息,提问性的信息是指存在对应答案的问题信息。

具体地,通过分词算法对待分类信息进行分词得到各个词语,各个词语组成原始词语集合。在一个实施例中,得到各个词语后,去除停用词、语气词、标点符号等对分类影响作用小的词语,从而提高后续特征提取的效率。停用词指的是文章中出现频率超过预设阈值但实际意义不大的词如我,的,他等。

步骤s220,分别获取原始词语集合中各个原始词语对应的同义词,将原始词语与对应的同义词形成扩展词语集合,每个原始词语都存在对应的扩展词语集合。

其中,同义词是指与原始词语含义相同或相近的词语,如原始词语为“什么时候”,同义词可为“多久”、“多长时间”、“什么时间”等,将原始词语与对应的同义词形成扩展词语集合,如原始词语“什么时候”对应的扩展词语集合为{什么时候,多久,多长时间,什么时间}。如原始词语集合为{a,b,c},则原始词语集合中的每个原始词语都存在对应的扩展词语集合,如a对应的扩展词语集合为{a,a1,a2},b对应的扩展词语集合为{b,b1,b2,b3},c对应的扩展词语集合为{c,c1,c2}。

步骤s230,根据各个原始词语对应的扩展词语集合形成待分类信息对应的扩展分类信息集合。

具体地,按与待分类信息中各个原始词语出现的顺序,从各个原始词语对应的扩展词语集合中任意选择一个词语,按顺序形成一个扩展分类信息。当从扩展词语集合中选择不同的词语时,则形成不同的扩展分类信息,不同的扩展分类信息组成扩展分类信息集合。在一个实施例中,对各个原始词语对应的扩展词语集合求笛卡尔积,形成不同的扩展分类信息组成对应的扩展分类信息集合。两个集合x和y的笛卡尔积,又称直积,表示为x×y,第一个对象是x的成员而第二个对象是y的所有可能有序对的其中一个成员。

步骤s240,将扩展分类信息集合输入已训练的多分类模型得到待分类信息对应的目标类别。

具体地,多分类模型用于根据输入从多个候选类型中确定与输入对应的目标类别。多分类模型可以是通过逻辑回归算法、支持向量机算法等训练得到的模型。多分类模型内部可以由多个子分类模型连接形成。由于已训练的多分类模型的输入是经过扩展了的扩展分类信息集合,扩展后的各个扩展分类信息表达了与待分类信息相同或相近的含义,提高了待分类信息的有效覆盖范围,从而在后续输入已训练的多分类模型后,可提高目标类别的精准性。

本实施例中,通过获取待分类信息,对待分类信息进行分词得到对应的原始词语集合,分别获取原始词语集合中各个原始词语对应的同义词,将原始词语与对应的同义词形成扩展词语集合,每个原始词语都存在对应的扩展词语集合,根据各个原始词语对应的扩展词语集合形成所述待分类信息对应的扩展分类信息集合,将扩展分类信息集合输入已训练的多分类模型得到待分类信息对应的目标类别,先形成每个原始词语对应的扩展词语集合,再通过扩展词语集合形成扩展分类信息集合,大大提高了扩展分类信息的扩展度,扩展后的各个扩展分类信息表达了与待分类信息相同或相近的含义,提高了待分类信息的有效覆盖范围,从而在后续输入已训练的多分类模型后,可提高目标类别的精准性。

在一个实施例中,如图3所示,已训练的多分类模型的生成步骤包括:

步骤s310,获取训练语料数据,训练语料数据包括多个训练语料信息,各个训练语料信息存在对应的标准类别标注。

具体地,训练语料数据可以为服务器根据用户历史行为搜集多个训练语料信息组成。每个训练语料信息都有对应的标准类别标注,用于描述训练语料信息的实际类别。如“透支卡多长时间还款”属于“信用卡什么时候还款”类别,则训练语料信息“透支卡多长时间还款”对应的标准类别标注为“信用卡什么时候还款”。训练语料数据包括所有候选类别对应的训练语料信息,以保证各个类别确定的准确性。在一个具体的实施例中,训练语料数据包括476个问题,标准类别总数为57。

步骤s320,对各个训练语料信息进行分词得到各个训练语料信息对应的原始训练词语集合。

具体地,通过分词算法对各个训练语料信息进行分词得到各个词语,各个词语组成各个训练语料信息对应的原始训练词语集合。在一个实施例中,得到各个词语后,去除停用词、语气词、标点符号等对分类影响作用小的词语,从而提高后续特征提取的效率。停用词指的是文章中出现频率超过预设阈值但实际意义不大的词如我,的,他等。

步骤s330,分别获取原始训练词语集合中各个原始训练词语对应的同义词,将原始词语与对应的同义词形成扩展训练词语集合,每个原始训练词语都存在对应的扩展训练词语集合。

其中,同义词是指与原始训练词语含义相同或相近的词语,如原始训练词语为“什么时候”,同义词可为“多久”、“多长时间”、“什么时间”等,将原始训练词语与对应的同义词形成扩展训练词语集合,如原始训练词语“什么时候”对应的扩展训练词语集合为{什么时候,多久,多长时间,什么时间}。如其中一个训练语料信息对应的原始训练词语集合为{a,b,c},则原始训练词语集合中的每个原始训练词语都存在对应的扩展训练词语集合,如a对应的扩展训练词语集合为{a,a1,a2},b对应的扩展训练词语集合为{b,b1,b2,b3},c对应的扩展训练词语集合为{c,c1,c2}。

步骤s340,根据各个原始训练词语对应的扩展训练词语集合形成各个训练语料信息对应的扩展训练分类信息集合。

具体地,先获取其中一个训练语料信息作为当前待扩展训练语料信息,获取当前待扩展训练语料信息对应的各个当前原始训练词语,获取各个当前原始训练词语对应的当前扩展训练词语集合,然后按与当前训练语料信息中各个当前原始训练词语出现的顺序,从各个当前原始训练词语对应的当前扩展训练词语集合中任意选择一个词语,按顺序形成一个当前扩展训练分类信息。不同的当前扩展训练分类信息组成当前扩展训练分类信息集合。各个训练语料信息都有对应的扩展训练分类信息集合。在一个实施例中,对各个原始训练词语对应的扩展训练词语集合求笛卡尔积,形成不同的扩展训练分类信息组成对应的扩展训练分类信息集合。

步骤s350,根据各个训练语料信息对应的扩展训练分类信息集合和对应的标准类别标注对多分类模型通过支持向量机算法进行训练。

具体地,支持向量机算法是一种用来进行模式识别,模式分类的机器学习算法。支持向量机的主要思想是:建立一个最优决策超平面,使得该平面两侧距离该平面最近的两类样本之间的距离最大化,从而对分类问题提供良好的泛化能力。对于一个多维的样本集,系统随机产生一个超平面并不断移动,对样本进行分类,直到训练样本中属于不同类别的样本点正好位于该超平面的两侧,满足该条件的超平面可能有很多个,支持向量机算法在保证分类精度的同时,寻找到这样一个超平面,使得超平面两侧的空白区域最大化,从而实现对线性可分样本的最优分类,支持向量机算法是一种有监督的训练方法。在一个实施例中,多分类模型由多个子二分类模型连接形成。

步骤s360,得到已训练的目标多分类模型。

具体地,通过上述训练得到已训练的目标多分类模型。

在一个实施例中,如图4所示,多分类模型包括多个子二分类模型,步骤s240包括:

步骤s241,获取多分类模型中的第一个子二分类模型作为当前子二分类模型。

具体地,子二分类模型是指分类结果为二类,其中一个类别为候选类别,另一个类别表示此输入不属于候选类别。则需要输入下一个子二分类模型再进一步判断是否属于另一个候选类别,目标候选类别的总数目与子二分类模型的数目相同。将扩展分类信息集合依次输入各个子二分类模型以根据输出确定目标类别。

步骤s242,将扩展分类信息集合输入当前子二分类模型,得到对应的当前子类别信息,根据当前子类别信息判断是否输入下一个子二分类模型,如果是,则获取下一个子二分类模型,将下一个子二分类模型作为当前子二分类模型返回步骤s242中将扩展分类信息集合输入当前子二分类模型的步骤。如果否,则进入步骤s243。

具体地,当前子二分类模型对应一个当前候选类别,如果当前子类别信息描述扩展分类信息集合对应的待分类信息属于当前候选类别,则不需要再输入下一个子二分类模型,如果当前子类别信息描述扩展分类信息集合对应的待分类信息属于当前候选类别,则需要输入下一个子二分类模型,以确定是否属于下一个候选类别。

步骤s243,将当前子类别信息对应的类别作为待分类信息对应的目标类别。

具体地,当不需要输入下一个子二分类模型时,说明当前子类别信息描述的当前类别为待分类信息对应的目标类别。

在一个实施例中,如图5所示,步骤s350包括:

步骤s351,获取特征项,计算特征项在第一类别对应的扩展训练分类信息的词频权重。

具体地,特征项可以是第一类别对应的扩展训练分类信息中的任一个词语。词频权重指的是特征项在第一类别对应的扩展训练分类信息中出现的频率,可以理解的是,如果扩展训练分类信息中存在特征项的同义词,则也算出现。词频权重通常被归一化,可表示为tfij,其中i表示特征项对应的标识,j表示类别标识。

步骤s352,计算特征项在整个训练语料数据中的文档频率。

具体地,文件频率dfi是一个词语普遍重要性的度量,可以由特征项所在的扩展训练分类信息数目除以训练语料数据中所有训练语料信息的总数目得到。

步骤s353,根据词频权重和文档频率计算特征项对应的特征权重,根据特征权重选择特征项作为第一类别的特征词。

具体地,如果该特征项在信息中出现的次数越多,表明该特征项对信息的影响力度越大,即特征权重与词频权重成正比。如果该特征项出现的信息的数量越多,表明,该特征项对信息分类的作用越小,即特征权重与文档频率成反比。在一个实施例中,特征权重其中n表示训练语料数据中所有训练语料信息的总数目。

如果特征权重超过预设阈值,则说明此特征项是这一类信息的重要词语,可将此特征项作为此类别的特征词。

步骤s354,根据特征词提取扩展训练分类信息集合中各个扩展训练分类信息的特征。

具体地,可根据确定的各个特征词提取扩展训练分类信息集合中各个扩展训练分类信息的特征。对于一个类别的信息,特征词可以包括一个或多个。

在一个实施例中,如图6所示,步骤s240之前,还包括:

步骤s410,将扩展分类信息集合输入已训练的二分类模型得到待分类信息对应的初始类别,当初始类别为第一预设类别时,将待分类信息输入第一模块。

具体地,已训练的二分类模型用于在二个类别中进行选择,得到目标初始类别。通过二个候选类别的划分,只有满足预设类别才会进入步骤s240,可对进行分类的信息进行筛选,只有满足条件才进入多类分流程,避免无效的信息进入后续分类流程,提高了分类的效率。如果初始类别为第一预设类别,说明不需要进入后续的多分类流程,只需要将待分类信息输入第一模块。第一模块的功能可根据需要自定义。

当初始类别为第二预设类别时,进入步骤s240。

具体地,只有初始类别为第二预设类别时,才会进入步骤s240进行后续的多分类流程,进行目标类别的确定。

在一个实施例中,第一预设类别为非业务类别,第二预设类别为业务类别,获取待分类信息的步骤包括:获取用户实时输入的银行业务问题或聊天信息。

具体地,业务类别表示与业务相关,可以进行分类的类别。非业务类别表示与业务不相关,不用进入多类别分类的流程。业务可以为购买业务、银行业务、理财业务、预定业务、通信业务等。服务器可接收终端发送的分类请求,分类请求中携带用户实时输入的银行业务问题或聊天信息。终端可通过搜索框界面接收用户实时输入的银行业务问题或聊天信息,由于用户输入信息时随机性较大,聊天信息通过二分类模型会被判断为第一预设类别,从而不用进入后续业务类别的分类流程,避免与业务不相关的信息进入分类流程,提高了分类的效率。银行业务问题是指与银行业务相关的问题,各个问题存在对应的回答,用于帮助用户解决办理银行业务时遇到的困难。

在一个具体的实施例中,信息分类方法的具体步骤如下:

1、采用的训练语料数据为实际项目中银行的问题集,数据量为479个问题,已有的标准类别为74大类,各个类别包括:

['临时身份证可以开户吗','什么是粤通卡','信用卡丢了','信用卡什么时候还款','……],将类别和对应的数量转化为矩阵形成shapecounter['56:36,46:35,42:23,36:22,……],其中56:36中56表示类别标识,36表示此类别下问题的数目。

2、对原有的分类数据进行与预处理,进行核查,合并个别相似类别同时删除个别数据量极少的类别,最终剩下476个问题,类别总数57,通过合并相以类别和删除个别数据量极少的类别可以提高模型训练后的准确度,通过实验可知,根据实际需求基于支持向量机算法进行数据分类,特征提取采用的是tf_idf,中文分词工具为jieba。以训练集为70%、测试集为30%对原始数据及预处理后的数据分别进行随机切分10次交叉验证,统计平均准确率,结果如下:原始数据进行训练后进行测试得到的分类准确率为0.422222222222,预处理后的数据进行训练后进行测试得到的分类准确率为0.467832167832。

3、对训练语料数据通过上述实施例的扩展方法进行扩展,得到各个训练语料信息对应的扩展训练分类信息集合,根据各个训练语料信息对应的扩展训练分类信息集合和对应的标准类别标注对多分类模型通过支持向量机算法进行训练,得到已训练的目标多分类模型。对生成的类别数据进行核查并删除个别语法不顺的问题,最终得到扩展后的5225个问题,可见扩展后问题数目得到了大幅提升。

4、根据实际需求基于支持向量机算法进行数据分类,特征提取采用的是tf_idf,中文分词工具为jieba。以训练集为70%、测试集为30%对扩展分类信息集合分别进行随机切分10次交叉验证,统计平均准确率,结果如下:数据进行扩展训练后进行测试得到的分类准确率为0.9435275。可见经过数据扩展后分类准确率得到了大幅的提升。

在一个具体的实施例中,训练语料数据包括原始闲聊语料,其中原始闲聊语料为人机对话语料,原始语料有50w个问答,处理了问题中多余的空格并用逗号连接形成一个完整的问题,另外只留下长度大于或等于5的问题,最终形成的闲聊语料总量为5308个语句。业务问题的总量为5225个问题。最终形成的训练语料数据中包含5308个闲聊语句及5225个业务问题,通过训练语料数据训练二分类模型,得到已训练的二分类模型,用于区别闲聊信息和业务问题。根据实际需求基于支持向量机算法进行数据分类,特征提取采用的是tf_idf,中文分词工具为jieba。以训练集为70%、测试集为30%对混合语料数据分别进行随机切分10次交叉验证,统计平均准确率,结果如下:数据进行混合语料数据训练后进行测试得到的二分类准确率为0.994398734177。可见二分类模型能准确将业务问题和闲聊信息进行区分,从而去除非业务信息。

应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图7所示,提供了一种信息分类装置,包括:

分词模块510,用于获取待分类信息,对待分类信息进行分词得到对应的原始词语集合。

扩展模块520,用于分别获取原始词语集合中各个原始词语对应的同义词,将原始词语与对应的同义词形成扩展词语集合,每个原始词语都存在对应的扩展词语集合,根据各个原始词语对应的扩展词语集合形成待分类信息对应的扩展分类信息集合。

类别确定模块530,用于将扩展分类信息集合输入已训练的多分类模型得到待分类信息对应的目标类别。

在一个实施例中,如图8所示,装置还包括:

训练模块540,用于获取训练语料数据,训练语料数据包括多个训练语料信息,各个训练语料信息存在对应的标准类别标注,对各个训练语料信息进行分词得到各个训练语料信息对应的原始训练词语集合,分别获取原始训练词语集合中各个原始训练词语对应的同义词,将原始词语与对应的同义词形成扩展训练词语集合,每个原始训练词语都存在对应的扩展训练词语集合,根据各个原始训练词语对应的扩展训练词语集合形成各个训练语料信息对应的扩展训练分类信息集合,根据各个训练语料信息对应的扩展训练分类信息集合和对应的标准类别标注对多分类模型通过支持向量机算法进行训练,得到已训练的目标多分类模型。

在一个实施例中,如图9所示,多分类模型包括多个子二分类模型,类别确定模块530包括:

当前子二分类模型确定单元530a,用于获取所述多分类模型中的第一个子二分类模型作为当前子二分类模型;

当前子类别信息确定单元530b,用于将扩展分类信息集合输入当前子二分类模型,得到对应的当前子类别信息,根据所述当前子类别信息判断是否输入下一个子二分类模型,如果是,则获取下一个子二分类模型,将下一个子二分类模型作为当前子二分类模型,返回将扩展分类信息集合输入当前子二分类模型,否则,进入目标类别确定单元530c。

目标类别确定单元530c,用于将当前子类别信息对应的类别作为待分类信息对应的目标类别。

在一个实施例中,训练模块540还用于获取特征项,计算特征项在第一类别对应的扩展训练分类信息的词频权重,计算特征项在整个训练语料数据中的文档频率,根据词频权重和文档频率计算所述特征项对应的特征权重,根据特征权重选择所述特征项作为第一类别的特征词,根据特征词提取扩展训练分类信息集合中各个扩展训练分类信息的特征。

在一个实施例中,如图10所示,装置还包括:

二分类模块550,用于将扩展分类信息集合输入已训练的二分类模型得到所述待分类信息对应的初始类别,当初始类别为第一预设类别时,将待分类信息输入第一模块,当所述初始类别为第二预设类别时,进入类别确定模块530。

在一个实施例中,第一预设类别为非业务类别,所述第二预设类别为业务类别,分词模块510还用于获取用户实时输入的银行业务问题或聊天信息。

上述信息分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述实施例所述的信息分类方法。

本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:获取待分类信息,对待分类信息进行分词得到对应的原始词语集合,分别获取原始词语集合中各个原始词语对应的同义词,将原始词语与对应的同义词形成扩展词语集合,每个原始词语都存在对应的扩展词语集合,根据各个原始词语对应的扩展词语集合形成待分类信息对应的扩展分类信息集合,将扩展分类信息集合输入已训练的多分类模型得到待分类信息对应的目标类别。

在一个实施例中,已训练的多分类模型的生成包括:获取训练语料数据,训练语料数据包括多个训练语料信息,各个训练语料信息存在对应的标准类别标注,对各个训练语料信息进行分词得到各个训练语料信息对应的原始训练词语集合,分别获取原始训练词语集合中各个原始训练词语对应的同义词,将原始词语与对应的同义词形成扩展训练词语集合,每个原始训练词语都存在对应的扩展训练词语集合,根据各个原始训练词语对应的扩展训练词语集合形成各个训练语料信息对应的扩展训练分类信息集合,根据各个训练语料信息对应的扩展训练分类信息集合和对应的标准类别标注对多分类模型通过支持向量机算法进行训练,得到已训练的目标多分类模型。

在一个实施例中,多分类模型包括多个子二分类模型,将扩展分类信息集合输入已训练的多分类模型得到所述待分类信息对应的目标类别包括:获取多分类模型中的第一个子二分类模型作为当前子二分类模型,将扩展分类信息集合输入所述当前子二分类模型,得到对应的当前子类别信息,根据当前子类别信息判断是否输入下一个子二分类模型,如果是,则获取下一个子二分类模型,将下一个子二分类模型作为当前子二分类模型返回所述将所述扩展分类信息集合输入当前子二分类模型的步骤,如果否,则将当前子类别信息对应的类别作为待分类信息对应的目标类别。

在一个实施例中,根据各个训练语料信息对应的扩展训练分类信息集合和对应的标准类别标注对多分类模型通过支持向量机算法进行训练包括:获取特征项,计算特征项在第一类别对应的扩展训练分类信息的词频权重,计算特征项在整个训练语料数据中的文档频率,根据词频权重和文档频率计算特征项对应的特征权重,根据特征权重选择所述特征项作为第一类别的特征词,根据特征词提取扩展训练分类信息集合中各个扩展训练分类信息的特征。

在一个实施例中,处理器执行将扩展分类信息集合输入已训练的多分类模型得到所述待分类信息对应的目标类别之前,还执行计算机程序实现以下步骤:将扩展分类信息集合输入已训练的二分类模型得到所述待分类信息对应的初始类别,当所述初始类别为第一预设类别时,将待分类信息输入第一模块;当初始类别为第二预设类别时,进入执行将扩展分类信息集合输入已训练的多分类模型得到待分类信息对应的类别的步骤。

在一个实施例中,第一预设类别为非业务类别,所述第二预设类别为业务类别,获取待分类信息包括:获取用户实时输入的银行业务问题或聊天信息。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待分类信息,对待分类信息进行分词得到对应的原始词语集合,分别获取原始词语集合中各个原始词语对应的同义词,将原始词语与对应的同义词形成扩展词语集合,每个原始词语都存在对应的扩展词语集合,根据各个原始词语对应的扩展词语集合形成待分类信息对应的扩展分类信息集合,将扩展分类信息集合输入已训练的多分类模型得到待分类信息对应的目标类别。

在一个实施例中,已训练的多分类模型的生成包括以下步骤:获取训练语料数据,训练语料数据包括多个训练语料信息,各个训练语料信息存在对应的标准类别标注,对各个训练语料信息进行分词得到各个训练语料信息对应的原始训练词语集合,分别获取原始训练词语集合中各个原始训练词语对应的同义词,将原始词语与对应的同义词形成扩展训练词语集合,每个原始训练词语都存在对应的扩展训练词语集合,根据各个原始训练词语对应的扩展训练词语集合形成各个训练语料信息对应的扩展训练分类信息集合,根据各个训练语料信息对应的扩展训练分类信息集合和对应的标准类别标注对多分类模型通过支持向量机算法进行训练,得到已训练的目标多分类模型。

在一个实施例中,多分类模型包括多个子二分类模型,将扩展分类信息集合输入已训练的多分类模型得到所述待分类信息对应的目标类别包括:获取多分类模型中的第一个子二分类模型作为当前子二分类模型,将扩展分类信息集合输入所述当前子二分类模型,得到对应的当前子类别信息,根据当前子类别信息判断是否输入下一个子二分类模型,如果是,则获取下一个子二分类模型,将下一个子二分类模型作为当前子二分类模型返回所述将所述扩展分类信息集合输入当前子二分类模型的步骤,如果否,则将当前子类别信息对应的类别作为待分类信息对应的目标类别。

在一个实施例中,根据各个训练语料信息对应的扩展训练分类信息集合和对应的标准类别标注对多分类模型通过支持向量机算法进行训练包括:获取特征项,计算特征项在第一类别对应的扩展训练分类信息的词频权重,计算特征项在整个训练语料数据中的文档频率,根据词频权重和文档频率计算特征项对应的特征权重,根据特征权重选择所述特征项作为第一类别的特征词,根据特征词提取扩展训练分类信息集合中各个扩展训练分类信息的特征。

在一个实施例中,计算机程序被处理器执行将扩展分类信息集合输入已训练的多分类模型得到所述待分类信息对应的目标类别之前,还实现以下步骤:将扩展分类信息集合输入已训练的二分类模型得到所述待分类信息对应的初始类别,当所述初始类别为第一预设类别时,将待分类信息输入第一模块;当初始类别为第二预设类别时,进入执行将扩展分类信息集合输入已训练的多分类模型得到待分类信息对应的类别的步骤。

在一个实施例中,第一预设类别为非业务类别,所述第二预设类别为业务类别,获取待分类信息包括:获取用户实时输入的银行业务问题或聊天信息。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1