文本分类方法和装置的制造方法

文档序号:10724973阅读:184来源:国知局
文本分类方法和装置的制造方法
【专利摘要】本发明涉及一种文本分类方法和装置,所述方法包括:获取待分类文本,所述待分类文本中包括特征词汇;获取分类模型以及所述分类模型对应的多个文本类别的特征权重向量;根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投票得分,得到投票得分最高的文本类别;将所述投票得分最高的文本类别确定为所述待分类文本对应的文本类别。采用本方法对文本进行实时在线分类时能够有效缓解服务器资源消耗。
【专利说明】
文本分类方法和装置
技术领域
[0001] 本发明涉及计算机网络技术领域,特别是涉及一种文本分类方法和装置。
【背景技术】
[0002] 随着互联网技术的发展,人们可以随时在网上发布信息。例如,在购物网站对已购 买商品进行点评,在看电影后发表个人观后感,人们可以参考这些信息来进行购物或观影。 通常这些信息的数量较多并且是以文本的形式存在。如果对这些信息进行分类,可以方便 人们快速了解相关内容。
[0003] 传统的文本分类方式中,需要对文本进行分词处理,通过使用朴素贝叶斯或支持 向量机等方法,在后台对大数据通过离线训练,得到分类模型。在后台对人们发布的信息进 行离线分类,并且对分类结果进行存储。在前端发起文本类别的请求时,后台直接返回分类 结果。由于后台离线训练和离线分类需要服务器支持,如果需要进行在线实时分类,则会消 耗大量的服务器资源,给服务器造成一定负担。

【发明内容】

[0004] 基于此,有必要针对上述技术问题,提供一种对文本进行实时在线分类时能够有 效缓解服务器资源消耗的文本分类方法和装置。
[0005] -种文本分类方法,所述方法包括:
[0006] 获取待分类文本,所述待分类文本中包括特征词汇;
[0007] 获取分类模型以及所述分类模型对应的多个文本类别的特征权重向量;
[0008] 根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投票得 分,得到投票得分最高的文本类别;
[0009] 将所述投票得分最高的文本类别确定为所述待分类文本对应的文本类别。
[0010] 一种文本分类装置,所述装置包括:
[0011] 第一获取模,用于获取待分类文本,所述待分类文本中包括特征词汇;获取分类模 型以及所述分类模型对应的多个文本类别的特征权重向量;
[0012] 分类模块,用于根据多个文本类别的特征权重向量计算所述特征词汇对应的文本 类别的投票得分,得到投票得分最高的文本类别;
[0013] 确定模块,用于将所述投票得分最高的文本类别确定为所述待分类文本对应的文 本类别。
[0014]上述文本分类方法和装置,由于分类模型以及所述分类模型对应的多个文本类别 的特征权重向量是预先训练好的,在通过获取待分类文本来得到待分类文本中包括的特征 词汇之后,可以根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投 票得分,从而能够得到投票得分最高的文本类别。继而可以将所述投票得分最高的文本类 别确定为所述待分类文本对应的文本类别。由于分类模型的算法是线性分类算法,算法复 杂度低、运算速度快并且具有较高的分类精确率,因此能够对Web前端的文本进行实时在线 分类并且能够有效缓解服务器资源消耗。
[0015] -种文本分类方法,所述方法包括:
[0016] 接收终端发送的文本分类请求;
[0017] 根据所述文本分类请求获取分类模型;
[0018] 根据所述分类模型获取对应的文本类别特征权重;
[0019] 将所述文本类别特征权重返回至所述终端,以使得所述终端根据所述文本类别特 征权重对待分类文本进行分类。
[0020] 一种文本分类装置,所述装置包括:
[0021] 接收模块,用于接收终端发送的文本分类请求;
[0022] 第二获取模块,用于根据所述文本分类请求获取分类模型;根据所述分类模型获 取对应的文本类别特征权重;
[0023] 发送模块,用于将所述文本类别特征权重返回至所述终端,以使得所述终端根据 所述文本类别特征权重对待分类文本进行分类。
[0024] 上述文本分类方法和装置,通过接收终端发送的文本分类请求,根据所述文本分 类请求获取分类模型,继而根据所述分类模型获取对应的文本类别特征权重。终端接收到 文本类别特征权重,从而能够根据所述文本类别特征权重对待分类文本进行分类。由于分 类模型的训练过程不在终端本地进行,从而减少了终端进行样本训练的过程,进而有效提 高了文本分类的效率。
【附图说明】
[0025] 图1为一个实施例中文本分类方法的应用环境图;
[0026] 图2为一个实施例中文本分类方法的流程图;
[0027]图3-1为一个实施例中文本分类前的页面示意图;
[0028] 图3-2为一个实施例中文本分类后的页面示意图;
[0029] 图4-1为一个实施例中当P(k|Cr)为定值的条件时函数f的形状示意图;
[0030] 图4-2为一个实施例中当P(t」|Cnr)为定值的条件时函数f的形状示意图;
[0031] 图5为一个实施例中终端的结构示意图;
[0032] 图6为又一个实施例中文本分类方法的流程图;
[0033] 图7为一个实施例中文本分类装置的结构示意图;
[0034] 图8为又一个实施例中文本分类装置的结构示意图;
[0035] 图9为另一个实施例中文本分类装置的结构示意图;
[0036] 图10为再一个实施例中文本分类装置的结构示意图;
[0037] 图11为一个实施例中服务器的结构示意图。
【具体实施方式】
[0038]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不 用于限定本发明。
[0039]本发明实施例中所提供的文本分类方法可以应用于如图1所示的应用环境中。终 端102和服务器104通过网络连接。终端102上运行了浏览器和浏览器插件,通过浏览器访问 服务器104的多个页面,通过浏览器插件在页面中获取待分类文本。终端102通过遍历待分 类文本的字符或字符串,得到待分类文本中的特征词汇。终端102获取分类模型以及分类模 型对应的多个文本类别的特征权重向量。其中,分类模型可以在终端利用训练文本和概率 函数进行训练得到。终端102根据多个文本类别的特征权重向量计算特征词汇对应的文本 类别的投票得分,得到投票得分最高的文本类别,将投票得分最高的文本类别确定为待分 类文本对应的文本类别,在终端102的页面中显示分类后的文本。
[0040]在一个实施例中,如图2所示,提供了一种文本分类方法,以该方法应用于终端为 例进行说明,具体包括:
[0041 ]步骤202,获取待分类文本,待分类文本中包括特征词汇。
[0042] 文本可以是具有完整含义的一个句子或者多个句子的组合。文本可以是中文文 本、英文文本或者中英文结合的文本。文本中包括停用词和特征词汇。其中,停用词(又称为 非用词)是指在文本中起辅助作用的词,这些词与文本类别无关。特征词汇是指文本中除停 用词外的单个字符或连续若干个字符的字符串。
[0043] 停用词包括助词、副词、连词、代词、指示词、介词等。中文停用词包括"的"、"特 另IJ"、"是"和"了"等。英文停用词包括"about"(关于)、"actually"(实际上)、"again"(又)和 "although"(尽管)等。由于去掉停用词并不会对文本类别的判断造成影响,因此在文本分 类过程中,可以去掉停用词。
[0044] 文本类别可以包括多种,例如,"建议"和"咨询"等。文本类别可以用类别集合来表 示,例如,类别集合为C={C1,C2, . . .,Ck}。文本也可以用文本集合来表示,例如,文本集合为 D,di是D中的一个文本。文本分类就是将文本类别cr分配给文本di的过程,其中rei,2,…, k〇
[0045] 终端上运行了应用程序,通过应用程序可以获取待分类文本。终端上也可以运行 了浏览器和浏览器插件,通过浏览器访问多个页面,通过浏览器插件在页面中获取待分类 文本。待分类文本可以是中文文本、英文文本或者中英文结合的文本。
[0046] 对于中文文本,终端遍历待分类文本中的每个字符或字符串,忽略掉停用词得到 待分类文本中的特征词汇。对于英文文本或者中英文结合的文本,终端除了忽略掉停用词 之外,还需要对去除非英文字符,把大写字母转换为小写字母,以及将词根还原来得到待分 类文本中的特征词汇。
[0047]传统的文本分类算法是通过对待分类文本进行分词处理来获得特征词汇。分词是 指把文本中的语句分割成一个个独立的特征词汇。分词算法通常依赖于词典,而且词典文 件通常较大,难以在移动网络中应用。本实施例中,终端可以将单个中文汉字或英文字符串 作为特征词汇,无需进行分词处理,适合在Web(网页)前端实时对待分类文本进行分类。 [0048]步骤204,获取分类模型以及分类模型对应的多个文本类别的特征权重向量。
[0049] 终端获取分类模型。分类模型可以在终端利用训练文本和概率函数进行训练得 到。概率函数中包括第一概率参数和第二概率参数。其中,第一概率参数是指特征词汇在某 一个文档类型中出现的概率,第二概率参数是指特征词汇在某一类文档类型中不出现的概 率。通过对概率函数进行训练得到多个文本类别得到特征权重向量。
[0050] 步骤206,根据多个文本类别的特征权重向量计算特征词汇对应的文本类别的投 票得分,得到投票得分最高的文本类别。
[0051]该分类模型也可以称为特征词汇投票的算法。这是一种类似于选举投票的加权和 计算方法。例如,评委可以将手中票投给任意一位候选人,最后获得票数最高的候选人获 胜。特征词汇相当于评委,特征词汇在待分类文本中的数量相当于评委手中的票数,候选人 相当于文本类别,最后获得票数最高的文本类别即为待分类文本对应的文本类别。
[0052]终端根据分类模型对待分类文本进行分类的过程就是计算投票得分最高的文本 类别的过程。终端根据文本类别的特征权重向量获取特征词汇对应的类别特征权重值,通 过计算多个特征词汇对应的类别特征权重值之和来得到各个文本类别的投票得分。
[0053]步骤208,将投票得分最高的文本类别确定为待分类文本对应的文本类别。
[0054]终端获取投票得分最高的文本类别,将投票得分最高的文本类别确定为待分类文 本对应的文本类别。由于特征词汇投票的算法是一种线性分类算法,因此该分类模型具有 较高的分类效率,并且具有较低的算法复杂度。
[0055] 通过终端上运行的应用程序来执行文本分类时,不需要消耗服务器资源,而且容 易实现在线实时分类。通过终端上运行的浏览器和浏览器插件来执行文本分类时,可以通 过浏览器访问页面,通过浏览器插件在页面中诸如JavaScript( -种直译式脚本语言)脚 本,实现对页面中的评论等进行在线实时分类。由此对Web前端的文本进行实时在线分类时 能够有效缓解服务器资源消耗。
[0056] 以通过终端上运行的浏览器和浏览器插件来执行文本分类为例,如图3-1所示,为 通过浏览器访问页面时,进行文本分类前的用户评价。如图3-2所示,为对当前页面中用户 评价进行文本分类后结果。通过图3-2可以清楚的看出,当前页面中的用户评价被分为两个 文档类别,分别是"咨询"和"建议"。通过对用户评价进行文本分类,为其他用户可以快速查 看其关注的内容提供了方便。进一步的,进行文本分类后的用户反馈,其中包括用户评价 等,也可以方便开发人员对互联网产品进行有效改进。
[0057] 本实施例中,由于分类模型以及分类模型对应的多个文本类别的特征权重向量是 预先训练好的,在通过获取待分类文本来得到待分类文本中包括的特征词汇之后,可以根 据多个文本类别的特征权重向量计算特征词汇对应的文本类别的投票得分,从而能够得到 投票得分最高的文本类别。继而可以将投票得分最高的文本类别确定为待分类文本对应的 文本类别。由于分类模型的算法是线性分类算法,算法复杂度低、运算速度快并且具有较高 的分类精确率,因此能够对Web前端的文本进行实时在线分类并且能够有效缓解服务器资 源消耗。
[0058] 在一个实施例中,在获取待分类文本步骤之前,还包括:获取多个训练文本,训练 文本包括多个字符或字符串;根据字符或字符串生成训练文本对应的文本向量;获取概率 函数,利用文本向量和概率函数进行训练,得到多个文本类别的特征权重向量;根据多个特 征权重向量生成分类模型。
[0059] 本实施例中,分类模型可以在终端利用训练文本和概率函数进行训练得到。在进 行训练之前,需要获取训练集。训练集是指标注了文本类别的训练文本的集合。训练文本中 包含预设的关键字,并且可以对选出的训练文本标注上对应的文档类别标签。每个文档类 别的训练文本不需要太多,例如,可以为每个文档类别选择1 〇个左右的训练文本。不同文档 类别的训练文本数量可以相同,也可以不同。
[0060] 为了对文本进行计算,采用的一种数据结构来表示文本,即文本表示。文本表示可 以采用向量空间模型的稀疏表示方式。具体的,可以采用key-value的数据结构进行文本表 示,其中,key表示单个中文字符或英文字符串,value表示key在该文本中出现的频率。key-value的数据结构在web前端就是JavaScript的普通Object (相关的变量和方法的软件集) 对象。
[0061] 以中文文本为例,假设文本为"不错的书,好评,好评"。其中,停用词为"的"。文本 表示为如下的数据结构:"不" :1,"错" :1,"书" :1,"好" :2,"评" :2}。如果"不"、"错"、"书"、 "好"、"评"分别对应向量空间的1-5维,则该数据结构相当于数学向量(1,1,1,2,2,0,..., 0),如果词典中包含m个特征词汇,即表示文本的向量空间有m维,此处省略了m-7个0,以此 类推。该向量即为文本向量。
[0062] 如上述实施例中提到的,特征词汇投票的算法是一种类似于选举投票的加权和计 算方法。假设把文档类别看作是候选人,将特征词汇看作是不同的选区。每个选区的选民对 候选人的支持率都不尽相同,对候选人的支持率可以通过"民调"来估计。词典中有m个特征 词汇,每个特征词汇相当于一个选区。一个训练文本中的每个特征词汇出现一次都看作是 该选区有一个选民来登记参加投票。每个选区的选民对候选人的支持率表示为权重wu。这 里可以将Wrj称为第r类文档类别的第j个特征的权重,Wr= {wrl,Wr2, . . .,Wrm}为类另Ijr的特征 权重集合(简称特征权重集合)。对候选人的支持率通过"民调"来估计,在这里的"民调"也 就是对训练集的统计。一个训练文本可以看作是一次选举的区域选民统计表,可以用cU = {tfu,tfl2, . . .,tflm}来表示。这样,文本分类的过程就可以看作是根据登记的选民情况,预 测投票结果的过程,即:
[0064] 公式(1)即为文本分类的分类模型。其中,Cmap表示分类后的文本类别的标识;cr表 示第r个文本类别的标识;arg max( ·)表示使当前表达式取最大值时的参数;m表示词典中 特征词汇的数量;表示词典j位置的特征词汇词在文本中出现的频率(未出现即是0)。当 wrj函数的形式确定后,通过训练可以得到相应的参数。其中,wrj可表示wrj = f [P(k | cr),P (t j I Cnr)]
[0065] 其中,f [P(k I cr),P(k I cnr)](简称为函数f),即为在类别cr中,特征词汇k的投票 权重。对于函数f应该有以下特性:
[0066] 1、?(4|(^)为定值的条件下,函数€在?(4|(^¥[0,1)单调不减;
[0067] 2、?(4|&)为定值的条件下,函数€在?(4|(^)£[0,1)单调不增;
[0068] 3、函数f在P(tj | cr)和P(tj | cnr)取值接近零的位置很敏感(变化率较大)。
[0069] 根据以上特性,当P(k|Cr)为定值的条件时,函数f的形状大致如图4-1所示;当P (tj|cnr)为定值的条件时,函数f的形状大致如图4-2所示。可见函数f是概率函数,并且是概 率敏感的,可以称为概率敏感函数。
[0070] 经过有限次的实验,同时满足以上3个条件的函数均能达到一定的分类效果,为了 分类模型不易过拟合并且具有较好的鲁棒性,f函数采用下面的公式来表示:
[0071] f[P(tj | Cr) ,P(tj | Cnr)] = l〇g(P(tj | Cr) )-l〇g(P( tj | Cnr)) (2)
[0072] 终端获取多个训练文本,根据训练文本中的多个字符或字符串生成训练文本对应 的文本向量。通过公式(2),终端利用文本向量和概率函数进行训练,计算每个特征词汇在 每个文本类别中的投票权重。根据特征词汇及其对应的每个文本类别中的投票权重来生成 每个文本类别的特征权重向量。其中,文本类别的特征权重向量可以采用key-value的数据 结构来表示。从而根据多个特征权重向量生成分类模型。
[0073] 进一步的,由于训练文本较少,因此可能出现在待分类文本中含有未在词典中注 册的特征词汇。终端在计算时可以认为该特征词汇对应的文本类别的特征权重为零。
[0074] 在分类模型的训练过程中,去停用词的步骤可以省略,可以将去停用词和文本表 示同时进行。与传统的文本分类方式相比,本实施例在分类模型的训练过程中,减少了分词 的步骤,并且可以省略去停用词的步骤,由此有效提高了文本分类效率。在传统的文本分类 方式中,例如,朴素贝叶斯方法需要大量手工分类文本进行训练,支持向量机训练耗时较 长,这些均不适合在Web前端进行分类模型的训练。本实施例中的分类模型所需的训练文本 较少,算法复杂度较低,能够适用于Web前端进行分类模型训练。通过在Web前端进行分类模 型的训练得到分类模型,在对待分类文本进行在线实时分类时,不需要消耗大量的服务器 资源,有效缓解了服务器压力。
[0075]进一步的,针对互联网中层出不穷的新词和新用法,,可以对分类模型进行更新。 具体的,可以按照预设频率获取网络热词,根据网络热词选取适当数量的训练文本,以此对 之前的训练文本进行更新。根据本实施例中提供的方式对更新后的训练文本进行训练,从 而得到更新后的分类模型。可以利用更新后的分类模型在Web前端进行文本分类,从而使得 分类模型能够适用于不断推出网络新词的Web环境。
[0076]在一个实施例中,分类模型的公式包括:
[0078] 其中,cmap表示待分类文本对应的文本类别的标识;cr表示第r个文本类别的标识; arg max( ·)表示使当前表达式取最大值时的参数;m表示词典中特征词汇的数量;tfj表示 词典j位置的特征词汇词在文本中出现的频率(未出现即是〇);P( ·)表示概率函数,P(tj Cr)表示第一概率参数,即特征词汇k在类cr的文本中出现的概率,P(k| Cnr)表示第二概率 参数,即特征词汇4不在类cr的文本中出现的概率。
[0079] 词典是文本集合中特征词汇的集合。通过词典可以建立特征词汇与其对应的空间 向量维度之间的索引关系。假设文本集合D有η个文本,相应的词典中包括m个特征词汇,则 每个文本控一个m维的向量来表示,如:
[0080] i/, = (/"" ) if, e £>, / = 1,2η
[0081] 其中,其中七6」〇 = 1,2,...,!11)表示文本向量第」个维度对应的特征词汇在文本1 中出现的频率。
[0082] 本实施例中,在获取分类模型以及分类模型对应的多个文本类别的特征权重向量 的步骤之前,还包括:遍历待分类文本中的字符或字符串;统计特征词汇出现的频率;生成 待分类文本对应的文本向量。
[0083] 如上述实施例中提到的,在对分类模型进行训练时,可以通过公式(2)计算出每个 文本类别的特征权重向量。根据公式(3)计算各个文本类别的投票得分,也就是计算文本向 量与文本类别的特征权重向量的点乘,并且将投票得分最高的文本类别确定为待分类文本 对应的文本类别。由于该分类模型的算法是一种线性分类算法,具有较高的分类效率,并且 具有较低的算法复杂度。因此采用该分类模型进行文本分类,能够有效提高分类效率。
[0084]在一个实施例中,分类模型的公式包括:
[0086] 其中,cmap表示待分类文本对应的文本类别的标识;cr表示第r个文本类别的标识; arg max( ·)表示使当前表达式取最大值时的参数;m表示词典中特征词汇的数量;P( ·)表 示概率函数,P(tj|cr)表示第一概率参数,即特征词汇k在类c r的文本中出现的概率,P(tj Cnr)表示第二概率参数,即特征词汇k不在类cr的文本中出现的概率。
[0087] 本实施例中,在获取待分类文本之后,可以根据公式(4)来计算根据多个文本类别 的特征权重向量计算特征词汇对应的文本类别的投票得分,得到投票得分最高的文本类 另IJ。并且将投票得分最高的文本类别确定为待分类文本对应的文本类别。终端可以将文本 向量与文本类别的特征权重向量的点乘计算简化为求待分类文本中特征词汇对应的文本 类别特征权重值之和。由此可以在文本分类的过程中,省略上述实施例中的遍历待分类文 本中的字符或字符串,统计特征词汇出现的频率,生成待分类文本对应的文本向量的步骤, 也就是可以省略文本表示的步骤。由此使得文本分类的过程得到简化,从而进一步提高了 文本分类的效率。
[0088]在一个实施例中,如图5所示,提供了一种终端,包括通过系统总线连接的处理器、 内存储器、非易失性存储介质、网络接口、显示屏以及输入装置。终端的非易失性存储介质 中存储有一种文本分类装置,用于实现对文本进行实时在线分类时能够有效缓解服务器资 源消耗的一种文本分类方法。终端的处理器用于提供计算和控制能力,被配置为执行一种 文本分类方法。终端的显示屏可以是液晶显示屏或者电子墨水显示屏等。终端的输入装置 可以是显示屏上覆盖的触摸层,也可以是终端的外壳上设置的按键、轨迹球或触控板,也可 以是外接的键盘、触控板或鼠标等。终端可以是台式计算机,也可以是如智能手机、平板电 脑、个人数字助理、智能穿戴式电子设备等的移动终端。
[0089] 在一个实施例中,如图6所示,提供了一种文本分类方法,以该方法应用于服务器 为例进行说明,具体包括:
[0090] 步骤602,接收终端发送的文本分类请求。
[0091 ]步骤604,根据文本分类请求获取分类模型。
[0092] 步骤606,根据分类模型获取对应的文本类别特征权重。
[0093] 步骤608,将文本类别特征权重返回至终端,以使得终端根据文本类别特征权重对 待分类文本进行分类。
[0094]本实施例中,服务器上预先存储了分类模型以及分类模型对应的文本类别特征权 重。终端可以通过运行的应用程序获取待分类文本,也可以通过浏览器访问多个页面,通过 浏览器插件在页面中获取待分类文本。当终端需要对待分类文本进行文本分类时,可以实 时向服务器发送文本分类请求。服务器接收文本分类请求,根据文本分类请求获取分类模 型以及分类模型获取对应的文本类别特征权重。服务器将将文本类别特征权重返回至终 端。终端根据文本类别特征权重对待分类文本进行分类。服务器中存储的分类模型可以是 上述实施例中提供的公式(3)或者公式(4)。
[0095] 当分类模型为公式(3)时,终端还需要遍历待分类文本中的字符或字符串,统计特 征词汇出现的频率,生成待分类文本对应的文本向量。终端接收到服务器返回的文本类别 特征权重时,终端通过计算计算文本向量与文本类别的特征权重向量的点乘来求得各个文 本类别的投票得分,并且将投票得分最高的文本类别确定为待分类文本对应的文本类别。 由于该分类模型的算法是一种线性分类算法,具有较高的分类效率,并且具有较低的算法 复杂度。因此采用该分类模型进行文本分类,能够有效提高分类效率。
[0096] 当分类模型为公式(4)时,终端可以省略遍历待分类文本中的字符或字符串,统计 特征词汇出现的频率,生成待分类文本对应的文本向量的步骤。终端接收到服务器返回的 文本类别特征权重时,可以将文本向量与文本类别的特征权重向量的点乘计算简化为求待 分类文本中特征词汇对应的文本类别特征权重值之和。根据多个文本类别的特征权重向量 计算特征词汇对应的文本类别的投票得分,得到投票得分最高的文本类别。并且将投票得 分最高的文本类别确定为待分类文本对应的文本类别。由此使得文本分类的过程得到简 化,从而进一步提高了文本分类的效率。
[0097] 进一步的,服务器向终端返回的文本类别特征权重是非零的权重值,从而使得终 端接收到的文本类别特征权重均为有效的权重值,并且能够有效提高文本类别特征权重的 传输效率。
[0098]本实施例中,通过接收终端发送的文本分类请求,根据文本分类请求获取分类模 型,继而根据分类模型获取对应的文本类别特征权重。终端接收到文本类别特征权重,从而 能够根据文本类别特征权重对待分类文本进行分类。由于分类模型的训练过程不在终端本 地进行,从而减少了终端进行样本训练的过程,进而有效提高了文本分类的效率。
[0099] 在一个实施例中,在接收终端发送的获取文本分类请求步骤之前,还包括:获取多 个训练文本,训练文本包括多个字符或字符串;根据字符或字符串生成训练文本对应的文 本向量;根据训练文本对应的文本向量进行训练,得到分类模型。
[0100] 本实施例中,在服务器上对分类模型训练可以采用上述实施例中提供的在终端对 分类模型进行训练的方式。具体的,服务器获取多个训练文本,根据训练文本中的多个字符 或字符串生成训练文本对应的文本向量。通过公式(2),服务器利用文本向量和概率函数进 行训练,计算每个特征词汇在每个文本类别中的投票权重。根据特征词汇及其对应的每个 文本类别中的投票权重来生成每个文本类别的特征权重向量。其中,文本类别的特征权重 向量可以采用key-value的数据结构来表示。从而根据多个特征权重向量生成分类模型。分 类模型可以是上述实施例中提供的公式(3)或者公式(4)。服务器对分类模型以及训练过程 中的文本类别特征权重进行存储。
[0101] 由于分类模型的训练过程是在服务器上进行的,终端在需要进行文本分类时,可 以实时在线通过服务器来获取所需的文本类别特征权重,由此有效提高了文本分类的效 率。
[0102] 进一步的,针对互联网中层出不穷的新词和新用法,可以对分类模型进行更新。具 体的,可以按照预设频率获取网络热词,根据网络热词选取适当数量的训练文本,以此对之 前的训练文本进行更新。根据本实施例中提供的方式对更新后的训练文本进行训练,从而 得到更新后的分类模型。可以利用更新后的分类模型在Web前端进行文本分类,从而使得分 类模型能够适用于不断推出网络新词的Web环境。
[0103] 在一个实施例中,如图7所示,提供了一种文本分类装置,包括:第一获取模702、分 类模块704和确定模块706,其中:
[0104] 第一获取模702,用于获取待分类文本,待分类文本中包括特征词汇;获取分类模 型以及分类模型对应的多个文本类别的特征权重向量。
[0105] 分类模块704,用于根据多个文本类别的特征权重向量计算特征词汇对应的文本 类别的投票得分,得到投票得分最高的文本类别。
[0106] 确定模块706,用于将投票得分最高的文本类别确定为待分类文本对应的文本类 别。
[0107] 在一个实施例中,第一获取模块702还用于获取多个训练文本,训练文本包括多个 字符或字符串;如图8所示,该装置还包括:第一生成模块708和第一训练模块710,其中:
[0108] 第一生成模块708,用于根据字符或字符串生成训练文本对应的文本向量。
[0109] 第一获取模块702还用于获取概率函数。
[0110] 第一训练模块710,用于利用文本向量和概率函数进行训练,得到多个文本类别的 特征权重向量;根据多个特征权重向量生成分类模型。
[0111] 在一个实施例中,分类模型的公式包括:
[0113] 其中,Cmap表示待分类文本对应的文本类别的标识;cr表示第r个文本类别的标识; arg max( ·)表示使当前表达式取最大值时的参数;m表示词典中特征词汇的数量;tfj表示 词典j位置的特征词汇词在文本中出现的频率(未出现即是〇);P( ·)表示概率函数,P(tj Cr)表示第一概率参数,即特征词汇k在类cr的文本中出现的概率,P(k| Cnr)表示第二概率 参数,即特征词汇4不在类cr的文本中出现的概率。
[0114] 在一个实施例中,分类模型的公式包括:
[0116]其中,cmap表示待分类文本对应的文本类别的标识;cr表示第r个文本类别的标识; arg max( ·)表示使当前表达式取最大值时的参数;m表示词典中特征词汇的数量;P( ·)表 示概率函数,P(tj|cr)表示特征词汇k在类cr的文本中出现的概率,P(t」| Cnr)表示特征词汇 tj不在类cr的文本中出现的概率。
[0117]在一个实施例中,如图9所示,提供了一种文本分类装置,包括:接收模块902、第二 获取模块904和发送模块906,其中:
[0118]接收模块902,用于接收终端发送的文本分类请求。
[0119]第二获取模块904,用于根据文本分类请求获取分类模型;根据分类模型获取对应 的文本类别特征权重。
[0120] 发送模块906,用于将文本类别特征权重返回至终端,以使得终端根据文本类别特 征权重对待分类文本进行分类。
[0121] 在一个实施例中,第二获取模块904还用于获取多个训练文本,训练文本包括多个 字符或字符串;如图10所示,该装置还包括:第二生成模块908和第二训练模块910,其中:
[0122] 第二生成模块908,用于根据字符或字符串生成训练文本对应的文本向量。
[0123] 第二训练模块910,用于根据训练文本对应的文本向量进行训练,得到分类模型。
[0124] 在一个实施例中,如图11所示,提供了一种服务器,包括通过系统总线连接的处理 器、存储介质、内存和网络接口。其中,该服务器的存储介质存储有操作系统、数据库和文本 分类装置,该文本分类装置用于实现适用于服务器的一种文本分类方法。该服务器的处理 器用于提供计算和控制能力,支撑整个服务器的运行。该服务器的内存为存储介质中的文 本分类装置的运行提供环境。该服务器的网络接口用于据以与外部的终端通过网络连接通 信,比如接收终端通过浏览器发送的文本分类请求,向终端返回文本类别特征权重等。服务 器可以采用独立的服务器或者是集群服务器来实现。
[0125] 以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例 中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛 盾,都应当认为是本说明书记载的范围。
[0126] 以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能 因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在 不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。 因此,本发明专利的保护范围应以所附权利要求为准。
【主权项】
1. 一种文本分类方法,所述方法包括: 获取待分类文本,所述待分类文本中包括特征词汇; 获取分类模型W及所述分类模型对应的多个文本类别的特征权重向量; 根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别的投票得分,得 到投票得分最高的文本类别; 将所述投票得分最高的文本类别确定为所述待分类文本对应的文本类别。2. 根据权利要求1所述的方法,其特征在于,在所述获取待分类文本步骤之前,还包括: 获取多个训练文本,所述训练文本包括多个字符或字符串; 根据所述字符或字符串生成所述训练文本对应的文本向量; 获取概率函数,利用所述文本向量和概率函数进行训练,得到多个文本类别的特征权 重向量; 根据多个特征权重向量生成所述分类模型。3. 根据权利要求1或2所述的方法,其特征在于,所述分类模型的公式包括:其中,cmap表示待分类文本对应的文本类别的标识;cr表示第r个文本类别的标识;arg max( ·)表示使当前表达式取最大值时的参数;m表示词典中特征词汇的数量;P( ·)表示概 率函数,P(tj|cr)表示特征词汇在类Cr的文本中出现的概率,P(tj|cnr)表示特征词汇tj不 在类。的文本中出现的概率。 4 . 一种文本分类方法,所述方法包括: 接收终端发送的文本分类请求; 根据所述文本分类请求获取分类模型; 根据所述分类模型获取对应的文本类别特征权重; 将所述文本类别特征权重返回至所述终端,W使得所述终端根据所述文本类别特征权 重对待分类文本进行分类。5. 根据权利要求4所述的方法,其特征在于,在所述接收终端发送的获取文本分类请求 步骤之前,还包括: 获取多个训练文本,所述训练文本包括多个字符或字符串; 根据所述字符或字符串生成所述训练文本对应的文本向量; 根据所述训练文本对应的文本向量进行训练,得到所述分类模型。6. -种文本分类装置,其特征在于,所述装置包括: 第一获取模,用于获取待分类文本,所述待分类文本中包括特征词汇;获取分类模型W 及所述分类模型对应的多个文本类别的特征权重向量; 分类模块,用于根据多个文本类别的特征权重向量计算所述特征词汇对应的文本类别 的投票得分,得到投票得分最高的文本类别; 确定模块,用于将所述投票得分最高的文本类别确定为所述待分类文本对应的文本类 别。7. 根据权利要求6所述的装置,其特征在于,所述第一获取模块还用于获取多个训练文 本,所述训练文本包括多个字符或字符串; 所述装置还包括: 第一生成模块,用于根据所述字符或字符串生成所述训练文本对应的文本向量; 所述第一获取模块还用于获取概率函数; 第一训练模块,用于利用所述文本向量和概率函数进行训练,得到多个文本类别的特 征权重向量;根据多个特征权重向量生成所述分类模型。8.根据权利要求6或7所述的装置,其特征在于,所述分类模型的公式包括:其中,Cmap表示待分类文本对应的文本类别的标识;表示第r个文本类别的标识;arg max( ·)表示使当前表达式取最大值时的参数;m表示词典中特征词汇的数量;P( ·)表示概 率函数,P(tj|cr)表示特征词汇在类Cr的文本中出现的概率,P(tj|cnr)表示特征词汇tj不 在类Cr的文本中出现的概率。 9 . 一种文本分类装置,其特征在于,所述装置包括: 接收模块,用于接收终端发送的文本分类请求; 第二获取模块,用于根据所述文本分类请求获取分类模型;根据所述分类模型获取对 应的文本类别特征权重; 发送模块,用于将所述文本类别特征权重返回至所述终端,W使得所述终端根据所述 文本类别特征权重对待分类文本进行分类。10.根据权利要求9所述的装置,其特征在于,所述第二获取模块还用于获取多个训练 文本,所述训练文本包括多个字符或字符串; 所述装置还包括: 第二生成模块,用于根据所述字符或字符串生成所述训练文本对应的文本向量; 第二训练模块,用于根据所述训练文本对应的文本向量进行训练,得到所述分类模型。
【文档编号】G06F17/30GK106095845SQ201610388041
【公开日】2016年11月9日
【申请日】2016年6月2日 公开号201610388041.1, CN 106095845 A, CN 106095845A, CN 201610388041, CN-A-106095845, CN106095845 A, CN106095845A, CN201610388041, CN201610388041.1
【发明人】梁锦全
【申请人】腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1