文本分类方法及服务器的制造方法

文档序号：9375611阅读：375来源：国知局

文本分类方法及服务器的制造方法
【技术领域】
[0001] 本申请涉及互联网数据处理领域，具体涉及一种文本分类方法及服务器。
【背景技术】
[0002] 文本分类是文本挖掘的一个重要内容，是指按照预先定义的主题类别，为文档集合中的每个文档确定一个类别。通过自动文本分类系统把文档进行归类，可以帮助人们更好地寻找需要的信息和知识。在人们看来，分类是对信息的一种最基本的认知形式。传统的文献分类研究有着丰富的研究成果和相当的实用水平。但随着文本信息的快速增长，特别是互联网（Internet)上在线文本信息的激增，文本自动分类已经成为处理和组织大量文档数据的关键技术。现在，文本分类正在各个领域得到广泛的应用。例如，在互联网平台中，服务器可以根据用户通过客户端接收到的一句询问语言，对询问语言对应的文本信息进行分类，确定该文本信息对应的分类之后，依据相应的分类自动对用户的询问语言进行解答，推送相关的信息。
[0003] 现有技术中对文本进行分类的方法中，K最近邻节点算法（kNN， k-NearestNeighbor)，是准确度最高的一种方法，该种方法中，根据训练数据集合与待分类文本数据距离最近（最相似）的K个数据的类别来判断待分类文本所属的类别，其基本过程包括：计算待分类文本与训练集中每个样本的距离；从训练集中筛选出于待分类文本距离最接近的K个样本；计算K个样本归属类别的权重，将权重最高的类别作为待分类样本类另Ij。该种方法具有较高的准确度，但是，随着信息量日趋丰富，人们对于内容搜索的准确率，查全率等方面的要求会越来越高，训练集中包含的样本数目也非常巨大，通过遍历的方式与训练集中的每个样本进行相似度计算，需要消耗服务器大量的性能，并且计算速度较慢。从而导致服务器有效资源被大量占用，计算时间过长导致向用户解答或者推送相关信息需要耗费大量时间。
[0004] 为此，在不影响分类准确度的情况下，提高服务器对文本进行分类的速度，是本申请需要解决的问题。

【发明内容】

[0005] 本申请的目的是提供一种文本分类方法，以实现在不影响分类准确度的情况下，提高服务器对文本进行分类的效率。
[0006] -方面，本申请实施例提供了一种文本分类方法，所述方法包括：
[0007] 对获取到的待分类文本进行预处理，以获取所述待分类文本的至少一个文本特征词；
[0008] 根据所述文本特征词，对所述待分类文本进行类别划分，以获取所述待分类文本的一定个数候选类别；
[0009] 根据所述文本特征词在预存储的倒排索引表中，确定第一文本内容标识集合，所述第一文本内容标识集合中包括多个与所述文本特征词相似的文本内容对应的文本内容标识，所述倒排索引表是根据最邻近结点算法预设置的训练数据集合构建的，其包含特征属性索引项和与每个特征属性对应的至少一个文本内容标识；
[0010] 根据所述第一文本内容标识集合，在所述预设置的训练数据集合中确定第一文本内容集合，所述训练数据集合中包括样本文本内容标识、样本文本内容以及每条所述样本文本内容对应的所属类别；
[0011] 在所述第一文本内容集合中，根据所述一定个数候选类别，选择N个候选类别对应的文本内容，来确定第二文本内容集合；
[0012] 根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度，确定所述待分类文本的目标类别。
[0013] 另一方面，本申请实施例提供了一种服务器，所述服务器包括：
[0014] 预处理单元，用于对获取到的待分类文本进行预处理，以获取所述待分类文本的至少一个文本特征词；
[0015] 获取单元，用于根据所述文本特征词，对所述待分类文本进行类别划分，以获取所述待分类文本的一定个数候选类别；
[0016] 第一确定单元，用于根据所述文本特征词在预存储的倒排索引表中，确定第一文本内容标识集合，所述第一文本内容标识集合中包括多个与所述文本特征词相似的文本内容对应的文本内容标识，所述倒排索引表是根据最邻近结点算法预设置的训练数据集合构建的，其包含特征属性索引项和与每个特征属性对应的至少一个文本内容标识；
[0017] 第二确定单元，用于根据所述第一文本内容标识集合，在所述预设置的训练数据集合中确定第一文本内容集合，所述训练数据集合中包括样本文本内容标识、样本文本内容以及每条所述样本文本内容对应的所属类别；
[0018] 第三确定单元，用于在所述第一文本内容集合中，根据所述一定个数候选类别，选择N个候选类别对应的文本内容，来确定第二文本内容集合；
[0019] 第四确定单元，用于根据所述文本特征词与所述第二文本集合中的每条文本内容的相似度，确定所述待分类文本的目标类别。
[0020] 本申请实施例提供的文本分类方法中，首先对于获取到的待分类文本进行预处理。从而提取出其中的文本特征词，再根据文本特征词，采用通常的快速分类组件对所述待分类文本进行初步分类，以获取候选类别；之后，根据所述文本特征词，进行筛选，筛选出包括与所述文本特征词相似的文本内容对应的文本内容的集合，并在集合中，除去所述候选类别之外的类别对应的文本内容，最后根据所述文本特征词与最终的集合中的每条样本文本内容的相似度，确定所述待分类文本的目标类别。通过上述的方案，能够大量采用减少 KNN算法对文本进行分类时所需要遍历的文本条目，降低计算复杂度和计算量，提高文本文类的效率。进一步，导致服务器有效资源被少量占用，计算迅速，从而向用户解答或者推送相关信息耗费少量时间。
【附图说明】
[0021] 图1为本申请实施例提供的应用场景的示例性的架构图；
[0022] 图2为本申请实施例提供的文本分类方法的一种实施例的流程图；
[0023] 图3是本申请实施例提供的文本分类方法的另一种实施例的流程图；
[0024] 图4是本申请实施例提供的文本分类方法的又一种实施例的流程图；
[0025] 图5是本申请实施例提供的文本分类方法的又一种实施例的流程图；
[0026] 图6是本申请实施例提供的服务器的一种实施例的结构图。
【具体实施方式】
[0027] 为了使本领域技术人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行详细地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请保护的范围。
[0028] 在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的"一种"、"所述"和"该" 也旨在包括多数形式，除非上下文清楚地表示其他含义。
[0029] 应当理解，尽管在本申请实施例中可能采用术语第一、第二等来描述各种数据，但这些数据不应限于这些术语。这些术语仅用来将数据彼此区分开。
[0030] 在互联网领域中，经常需要面对用户咨询、投诉、建议等情况。当互联网具有相当大的用户群体时，需要处理的类似问题会非常大。对于此类问题，如果都由人工进行处理，将消耗极大的人力，并且受限于此，也不能及时对于类似的问题进行处理。为此，在互联网领域中，通常会建立文本内容的训练集合，其中，通常包括文本内容项和归属类别项。在获取到用户发出的问题之后，通过匹配算法，在训练集合中与大量的样本文本内容逐条匹配，查询最匹配的样本，在查找到最匹配的样本之后，选在该样本的所属类目，并根据所属类目，对用户提出的问题进行处理，从而节约人工。
[0031] 例如，图1所示的应用架构中，用户10和20分别可以通过计算机上的客户端登陆互联网平台的服务器30,对互联网平台进行投诉或者建议。例如有，在淘宝、支付宝等平台，通常会收到用户的询问信息，例如"付款不成功，怎么办？"、"我的密码丢失了该怎么办？" 等类似的问题，这些文本可能来自于用户通过阿里旺旺等终端软件的投诉，也可能是来自于用户通过网页进行的咨询等。电子商务平台，不可能对于每个问题，都进行人工处理。但是用户提出的问题，往往具有相似性，为此，服务器可以建立训练数据集合，如下表所示的示例中，训练数据集合通常包括数据编号、文本内容以及所属类别三个项目，受限于篇幅，下表1只列出了较少的例子，实际上在一个训练集合中，可能包含上万条内容。
[0032]

[0033] 表1
[0034] 例如，当服务器通过客户端接收到用户发送的"我怎么不能进行支付？ "这样的文本内容时，通过算法将其与训练集合中的文本进行匹配查询，经过匹配确定数据编号为5 的文本内容与用户的询问内容最接近，因此确定用户的问题所属类别为"付款专题"。服务器确定了"所属类别"后，可以根据现有的设定，调用与"付款专题"相关的内容，发送给用户。例如，将支付宝付款专题的页面地址，推送给用户的客户端，从而避免人工参与。
[0035] 但是随着

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：焦盼盼;
技术所有人：阿里巴巴集团控股有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。