文本对象分类方法及装置与流程

文档序号：15686604发布日期：2018-10-16 21:07阅读：477来源：国知局

本申请涉及互联网技术领域，特别涉及一种文本对象分类方法及装置。

背景技术：

网页分类是指根据网页文档的内容将网页划分为不同的类别，并添加对应的类别标签。

网页文档是用超文本标记语言(英文：hypertextmarkuplanguage，简称：html)描述的文本，类别标签的名字通常对应具体的应用场景，比如：新闻网页的类别标签可能是“国内”、“国际”、“政治、“经济”等，敏感网页的类别标签可能是“包含敏感信息”和“不包含敏感信息”。在对网页进行分类时，通常将网页看做一个文本，然后用词向量来表示文本中的每个词，基于词向量表示，通过神经网络对文本进行编码，得到文本的特征，然后将文本的特征输入到分类器中进行分类，得到文本所属的类别标签。

但通过神经网络提取到的特征比较片面，不能够完全描述出网页的特征，进而会影响到分类结果的准确性。

技术实现要素：

为了解决现有技术中通过神经网络提取到的特征比较片面，不能够完全描述出网页的特征，进而会影响到分类结果的准确性的问题，本申请实施例提供了一种文本对象分类方法及装置。所述技术方案如下：

第一方面，提供了一种文本对象分类方法，该文本对象具有树结构，该树结构中包括n层节点，树结构中的第i层节点的文本内容是所属第i+1层节点的文本内容的一部分，n和i为正整数，1≤i＜n，最底层的节点被称为第一层节点，最顶层的节点被称为根节点，根节点的数量为一个，通过人工特征工程提取到的特征被称为第一类特征，通过机器学习到的特征被称为第二类特征；第i+1层节点在提取节点特征时，首先获取属于该第i+1层节点的各个第i层节点的节点特征，该节点特征为对应节点的第二类特征或对应节点的第一类特征和第二类特征进行拼接后得到的拼接特征，然后将各个第i层节点的节点特征输入与第i+1层节点对应的神经网络，每个第i+1层节点对应有各自的神经网络，由神经网络输出该第i+1层节点的第二类特征；从树结构的最底层起逐层向上计算出各个节点的节点特征，直到计算出根节点的节点特征后，根节点的节点特征被输入分类器，由分类器输出文本对象的类别标签；其中，在每个节点的节点特征的确定过程中，至少有一个节点的节点特征是将第一类特征和第二类特征进行拼接得到的拼接特征，另外，第i+1层节点还被称为中间节点，第i层节点还被称为是第i+1层节点的孩子节点。

通过在提取文本对象的节点特征时，将文本对象的树结构中的至少一个节点的节点特征由第一类特征和第二类特征拼接得到，使得提取文本对象的节点特征中不仅只有通过神经网络得到的第二类特征，同时还融合了通过人工特征工程提取到的第一类特征，使得根节点输出的节点特征能够更加全面的表达出文本对象的特征，解决了相关技术中通过神经网络提取到的特征比较片面，不能够完全描述出网页的特征，进而会影响到分类结果的准确性的问题，达到了提取更加全面的特征，提高分类结果的准确性的效果。

另外，通过将同一个第i+1层节点的各个第i层节点的节点特征输入第i+1层节点对应的神经网络中，得到第i+1层节点的第二类特征，使得具有树状结构的文本对象能够逐层计算各个节点的节点特征。

另外，由于每个第i+1层节点对应有各自的神经网络，使得神经网络的设计方式更加灵活，能够在树结构的任意节点上将第一类特征和第二类特征进行拼接。

在第一方面的第一种可能的实施方式中，在计算各个节点的节点特征时，存在至少一个节点的节点特征是将第一类特征和第二类特征进行拼接得到的拼接特征，或者，存在至少一个路径的节点的节点特征是将第一类特征和第二类特征进行拼接得到的拼接特征，或者，存在至少一层节点的节点特征是将第一类特征和第二类特征进行拼接得到的拼接特征，或者，树结构中的全部节点的节点特征都是拼接特征。

当存在部分节点的节点特征是拼接特征时，各个节点对应的神经网络可以灵活设计，使得神经网络的结构适用性更强；当全部节点的节点特征是拼接特征时，神经网络能够将各个节点的第一类特征和第二类特征进行拼接，使得最终得到的根节点的节点特征能够最大可能地表示出文本对象更全面的特征。

结合第一方面或者第一方面的第一种可能的实施方式，在第二种可能的实施方式中，树结构中，相同类型的节点所对应的神经网络是相同的，不同类型的节点所对应的神经网络为相同或不同的。

通过将相同类型的节点所对应的神经网络设计为相同，使得相同类型的节点能够复用同一个神经网络，从而降低了神经网络的训练成本；不同类型的节点对应的神经网络相同，可以降低神经网络的训练成本，而不同类型的节点对应的神经网络不同，使得神经网络的设计更加灵活，针对不同类型的节点实现不同的功能。

结合第一方面、第一方面的第一种可能的实施方式或者第一方面的第二种可能的实施方式，在第三种可能的实施方式中，当第i+1层节点对应的神经网络的类型是第一类神经网络时，第i+1层节点的第二类特征的计算是通过将属于该第i+1层节点的各个第i层节点的节点特征输入与第i+1层节点对应的第一类神经网络，通过第一类神经网络对各个第i层节点的节点特征进行拼接，将拼接后的特征作为该第i+1层节点的第二类特征。

第一类神经网络实现的功能是将各个第i层节点的节点特征进行多级拼接，适用于简单的节点特征的处理。

结合第一方面、第一方面的第一种可能的实施方式、第一方面的第二种可能的实施方式或者第一方面的第三种可能的实施方式，在第四种可能的实施方式中，当第i+1层节点对应的神经网络的类型是第二类神经网络时，假设第i+1层节点包括m个第i层节点，m为正整数，m>1，其中最左侧的第i层节点被称为第1个第i层节点，最右侧的第i层节点被称为第m个第i层节点，第i+1层节点的第二类特征的计算是通过将m个第i层节点的节点特征从左往右依次输入第二类神经网络，通过第二类神经网络输出第一特征，然后再将m个第i层节点的节点特征从右往左依次输入第二类神经网络，通过第二类神经网络输出第二特征，最后将第一特征和第二特征进行拼接，得到该第i+1层节点的第二类特征；其中，在从左往右的执行过程中，在第i个第i层节点的节点特征被第二类神经网络处理完毕后，将第i+1个第i层节点的节点特征输入第二类神经网络进行处理；而在从右往左的执行过程中，在第i个第i层节点的节点特征被第二类神经网络处理完毕后，将第i-1个第i层节点的节点特征输入第二类神经网络，i为正整数，1<i<m，也就是说，在前一个第i层节点被第二类神经网络处理完毕后，再将下一个第i层节点输入第二类神经网络进行处理。

由于从左往右和从右往左的处理过程，神经网络输出的第一特征和第二特征不同，将第一特征和第二特征进行拼接，使得神经网络输出的第二类特征能够有更全面的表达。

结合第一方面、第一方面的第一种可能的实施方式、第一方面的第二种可能的实施方式、第一方面的第三种可能的实现方式或者第一方面的第四种可能的实施方式，在第五种可能的实施方式中，根节点的节点特征被输入分类器后，分类器能够输出文本对象可能对应的各个类别标签的概率值，然后将概率值最大的类别标签确定为文本对象的类别标签。

通过将概率值最大的类别标签确定为文本对象的类别标签，使得分类器确定出的各个类别标签中可能性最大的类别标签作为文本对象的类别标签，分类结果的准确性更高。

结合第一方面、第一方面的第一种可能的实施方式、第一方面的第二种可能的实施方式、第一方面的第三种可能的实现方式、第一方面的第四种可能的实施方式或者第一方面的第五种可能的实施方式，在第六种可能的实施方式中，神经网络以及分类器在用于对文本对象进行分类之前，需要先通过训练确定出神经网络以及分类器的参数，训练过程需要用到包含样本内容和样本标签的各个训练样本，对神经网络和分类器进行监督学习，开始训练时，首先对神经网络和分类器的训练参数进行初始化，初始化的方式可以是随机方式，也可以通过监督训练方法确定出一套初始化参数，然后将各个训练样本的样本内容输入神经网络，与实际使用时一样的流程，从最底层逐层网上计算各节点的节点特征，最终计算得到根节点对应的节点特征，然后将根节点的节点特征输入分类器，由分类器输出各个标签对应的概率值，获取与样本标签对应的概率值，将根据各个样本内容计算出的各自对应的样本标签的概率值相加，得到概率值之和，根据计算出的概率值之和，使用梯度上升算法计算出调整后的各个训练参数，之后判断是否达到迭代结束条件，若未达到迭代结束条件，则将之前计算出概率值之和的步骤迭代执行，若达到迭代结束条件，则将最后一个迭代计算出的训练参数确定为训练好的训练参数，即确定为分类器和神经网络最终投入使用时的参数。

通过使用带样本标签的训练样本对神经网络和分类器进行有监督的训练，使得最终训练出的神经网络和分类器的参数能够有效的根据文本对象的内容进行准确的分类。

结合第一方面、第一方面的第一种可能的实施方式、第一方面的第二种可能的实施方式、第一方面的第三种可能的实现方式、第一方面的第四种可能的实施方式、第一方面的第五种可能的实施方式或者第一方面的第六种可能的实施方式，在第七种可能的实施方式中，在对神经网络和分类器的训练参数进行训练时，迭代结束条件为迭代次数达到第一次数，或者，连续第二次数计算得到的概率值之和的变化属于预定范围内，其中，第一次数、第二次数和预定范围由人工根据实际训练需求预先进行设置。

通过人工设置迭代结束条件，使得训练过程在迭代计算到人工预设的第一次数后能够自动停止，另外，若连续第二次数计算得到的概率值之和的变化较小，则可以判定已达到需要的训练效果，提前结束训练过程，节省计算资源。

第二方面，提供了一种文本对象分类装置，该文本对象分类装置包括至少一个单元，各个单元分别用于实现上述第一方面的文本对象分类方法中对应的步骤。

第三方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述第一方面所提供的文本对象分类方法。

第四方面，提供了一种计算机可读介质，该计算机可读介质存储用于实现上述第一方面所提供的文本对象分类方法的指令。

附图说明

图1是本申请一个实施例提供的一种树结构的示意图；

图2是本申请一个实施例提供的一种网页文档的结构示意图；

图3是本申请一个实施例提供的神经网络对网页文档进行分类的流程图；

图4是本申请一个实施例提供的一种文本对象分类方法的方法流程图；

图5是本申请另一个实施例提供的一种文本对象分类方法的方法流程图；

图6是本申请一个实施例提供的神经网络和分类器的结构示意图；

图7是本申请一个实施例提供的一种神经网络的示意图；

图8是本申请另一个实施例提供的一种神经网络的示意图；

图9是本申请另一个实施例提供的神经网络和分类器的结构示意图；

图10是本申请一个实施例提供的文本对象分类方法的示意图；

图11是本申请一个实施例提供的一种神经网络和分类器的训练方法的方法流程图；

图12是本申请实施例提供的一种文本对象分类装置的结构方框图；

图13是本申请一个实施例中提供的服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

树结构是将数据元素按照分支关系组织起来的结构，通常用于描述具有层次关系的对象。树结构中的数据元素称为节点，其中，树结构最顶层的一个节点称为根节点，树结构的每个分支中最底层的节点称为叶子节点，除了叶子节点之外的其余节点称为中间节点(包括根节点)，每个中间节点包含至少一个孩子节点，叶子节点不包含孩子节点，孩子节点是属于该中间节点的下一层节点(下一层节点可能是中间节点，也可能是叶子节点)，孩子节点的节点内容为所属中间节点的节点内容的一部分，同一中间节点的各个孩子节点的节点内容之间无交集，同一中间节点的所有孩子节点的节点内容的并集与中间节点的节点内容相等。下面结合图1对树结构的组成进行描述，如图1所示，其示意性地示出一个具有3层节点的树结构，该树结构包括节点101、节点102、节点103、节点104、节点105、节点106、节点107、节点108，其中，节点101为根节点，节点101至节点103为中间节点，节点104至节点108为叶子节点，节点101的孩子节点包括节点102和节点103，节点102的孩子节点包括节点104和节点105，节点103的孩子节点包括节点106、节点107和节点108。其中，根节点到一个叶子节点组成的分支为一个路径，比如：节点101-节点102-节点105为一个路径，或，节点101-节点103-节点108为一个路径。

文本对象具有树结构，假设树结构具有n层节点，树结构中的第i层节点的文本内容是所属第i+1层节点的文本内容的一部分，属于同一第i+1层节点的各个第i层节点的文本内容之间没有交集，属于同一第i+1层节点的所有第i层节点的文本内容的并集与该第i+1层节点的文本内容相等。对应的，第i+1层节点为上述中间节点，第i层节点是第i+1层节点的孩子节点，n和i为正整数，1≤i＜n。常见的文本对象包括网页文档、电子病例、新闻评论等。

以网页文档为例，结合参考图2，其示例性地示出了一个网页文档的结构组成。超文本标记语言(英文：hypertextmarkuplanguage，简称：html)文件节点201为根节点，html文件节点201包含标题节点202和主体节点203两个孩子节点，主体节点203的孩子节点为段落节点204，段落节点204的孩子节点为句子节点205，句子节点205的孩子节点为词语节点206，标题节点202的孩子节点为词语节点206。其中词语节点206为叶子节点，html文件节点201、标题节点202、主体节点203、段落节点204、句子节点205为中间节点。

示例性的，电子病例的结构为：根节点是临床文档节点，临床文档节点的孩子节点为文档段节点，文档段节点的孩子节点是数据组节点，数据组节点的孩子节点是数据元节点。其中，临床文档节点、文档段节点、数据组节点是中间节点，数据元节点是叶子节点。

示例性的，新闻评论的结构为：根节点是评论内容节点，评论内容节点的孩子节点是段落节点，段落节点的孩子节点是句子节点，句子节点的孩子节点是词语节点。其中，评论内容节点、段落节点、句子节点是中间节点，词语节点是叶子节点。

为了信息检索的便捷，网页文档等文本对象需要按照内容划分为不同的类别，添加对应的类别标签，类别标签的名字通常对应具体的应用场景，比如：新闻网页的类别标签可能是“国内”、“国际”、“政治”、“经济”等。由于网页文档等文本对象具有复杂的树结构，早期的分类技术主要依赖人工进行分类，根据人工设计的规则获取文本对象的特征叫做人工特征工程。人工分类得到的分类结果准确度较高，但需要付出很高的人力成本，并且随着文本对象的数量的迅速增长，为了达到文本对象的分类需求，需要付出很高的人力成本。

为了节省人力成本，现有技术中发展出通过神经网络对网页文档进行自动分类。结合参考图3，神经网络对网页文档进行自动分类的过程通常包括：301，输入网页文档；302，神经网络提取特征；303，分类器根据特征分类；304，分类器输出类别标签。神经网络提取特征的一种典型的实现方式为：神经网络通常将网页文档看做一个由字符串序列构成的文本，将该文本分解为由各个词语组成，然后将词语用词向量表示，文本中各个词语的词向量组成一个词向量序列，神经网络根据词向量序列生成一个语义向量，该语义向量即神经网络提取到的特征，将语义向量作为分类器的输入。在神经网络提取特征的过程中，无论是词向量，还是语义向量，都是通过机器学习到的特征。其中，词向量是通过训练将语言中的每一个词语映射成一个实数向量的表达方式，这些词向量组成一个词向量空间，每一个词向量为该词向量空间中的一个点，根据词向量之间的距离可以判断词向量在词法或语义上的相似性。

上述两种对网页文档的分类过程，分别涉及两种特征提取方式，在本申请各实施例中，通过人工特征工程提取的特征被称为第一类特征，通过机器学习到的特征被称为第二类特征。第一类特征是通过人工设计的规则提取到的，通常较为准确；第二类特征是通过机器学习到的特征，能够用于处理大量的数据，但由于神经网络在提取特征时，忽略了网页文档的树结构，因此由神经网络提取到的特征比较片面，不能够完全描述出网页文档的特征，进而会影响到分类结果的准确性。

由于第一类特征对树结构的文本对象的分类更为准确，第二类特征能够用于处理大规模的数据，为了保留第一类特征和第二类特征各自的优势，本申请各实施例针对具有树结构的文本对象，提供了一种文本对象分类方法。其中，文本对象的树结构包括n层节点，最底层的节点为第一层节点，最顶层的节点为根节点，树结构中的第i层节点的文本内容是所属第i+1层节点的文本内容的一部分，n和i为正整数，1≤i＜n，可选的，属于同一个第i+1层节点的各个第i层节点的文本内容之间无交集，属于同一个第i+1层节点的所有第i层节点的文本内容的并集等于第i+1层节点的文本内容。

图4是本申请一个实施例提供的一种文本对象分类方法的方法流程图。该文本对象分类方法以应用在服务器中举例说明，如图4所示，该文本对象分类方法包括：

401，获取第i层节点的节点特征，节点特征包括：第一类特征和第二类特征拼接后得到的拼接特征，或者，第二类特征。

第一类特征是通过人工特征工程提取的特征。可选地，第一类特征通常用稀疏向量表示，稀疏向量的第i位若为1，则表示第i个第一类特征出现，稀疏向量的第i位若为0，则表示没有出现第i个第一类特征。稀疏向量包括两个并列的顺序向量和值向量，比如：向量(1,0,1,3)表示成稀疏向量为：(4，[0,2,3]，[1,1,3])，4表示向量的元素个数，[0,2,3]是顺序向量，[1,1,3]是值向量，表示向量0的位置的值是1，向量2的位置的值是1，向量3的位置的值是3，其他位置的值都是0。

第二类特征是通过机器学习到的特征，第二类特征通常用密集向量表示。比如：向量(1,0,1,3)表示成密集向量为：[1,0,1,3]。

由于树结构包含多层节点，从根节点往下，通常第i+1层节点包括一个或多个第i层节点，第i+1层节点又被称为中间节点，第i层节点又被称为孩子节点，孩子节点是指所属的中间节点的下一层节点。

拼接的含义是：输入两个向量，第一个向量的维度为m，第二个向量的维度为n，根据第一个向量和第二个向量输出一个新的向量，新的向量的维度是m+n，前m个维度的内容复制于第一个向量，后n个维度的内容复制于第二个向量。比如：用于表示第一类特征的第一向量是[1，2，3]，即第一向量的维度为3，用于表示第二类特征的第二向量是[4，5]，即第二向量的维度为2，第一类特征和第二类特征拼接之后得到的拼接特征表示为[1,2,3,4,5]，拼接特征对应的向量的维度为5。

节点的节点特征可以是第一类特征和第二类特征拼接后得到的拼接特征，也可以是通过机器学习到的第二类特征。比如，树结构的网页文档中，词语节点的节点特征可以为词性与词向量的拼接，词性是人工设计的特征，词向量是通过机器学习到的特征；词语节点的节点特征也可以只为第二类特征词向量。

402，将属于同一个第i+1层节点的各个第i层节点的节点特征，输入第i+1层节点对应的神经网络，得到第i+1层节点的第二类特征。

每个第i+1层节点对应有各自的神经网络，第i+1层节点的节点特征依赖所包含的各个第i层节点的节点特征来确定，获得节点特征的过程称为编码，编码的方式有三种：人工编码、神经网络编码以及两者兼有。对应的，人工编码得到的是人工特征，即第一类特征，神经网络编码得到的神经网络提取的特征，即第二类特征，两者兼有是指将第一类特征和第二类特征拼接得到的拼接特征。

由于第i层节点的节点特征可能是第i层节点的第二类特征，也可能是第i层节点的第一类特征和第二类特征进行拼接得到的拼接特征，因此输入到第i+1层节点对应的神经网络中的第i层节点的节点特征可能是第二类特征，也可能是拼接特征，但通过神经网络输出的只是第i+1层节点的第二类特征。第i+1层节点的节点特征可以为第二类特征，若第i+1层节点的节点特征为拼接特征，第i+1层节点对应的神经网络还需要将第一类特征与第二类特征进行拼接。

在对树结构的文本对象编码时，从树结构的叶子节点开始编码，在得到叶子节点的节点特征之后，将叶子节点的节点特征作为上一层节点的编码输入，继续对上一层节点进行编码，在得到上一层节点的节点特征之后，将上一层节点的节点特征继续向上传递，直到对根节点进行编码得到根节点的节点特征。比如：一个4层树结构的网页文档，从根节点往下依次为网页节点、段落节点、句子节点、词语节点，首先对词语节点进行编码，得到词语节点的节点特征，然后将词语节点的节点特征作为句子节点的编码输入，对句子节点进行编码，得到句子节点的节点特征，然后将句子节点的节点特征作为段落节点的编码输入，对段落节点进行编码，得到段落节点的节点特征，然后将段落节点的节点特征作为网页节点的编码输入，对网页节点进行编码，得到网页节点的节点特征，网页节点的节点特征即为网页文档的根节点的节点特征。这种对树结构的文本对象自底向上依次对每个节点进行编码，直到对根节点进行编码的过程称为级联编码。

403，当第i+1层节点是根节点时，将根节点的节点特征输入分类器，通过分类器输出文本对象的类别标签。

当级联编码进行到根节点时，根节点的节点特征计算得到后，将根节点的节点特征输入到分类器，分类器能够根据根节点的节点特征计算出文本对象的类别标签。

需要说明的是，在树结构的文本对象的各个节点中，存在至少一个节点的节点特征是拼接特征。为了使得节点特征能够更加全面地描述出文本对象的特征，在文本对象的树结构中，需要确定出至少一个节点，在获取该节点的节点特征时，该节点对应的神经网络需要将该节点的第一类特征和第二类特征进行拼接，将拼接后得到的拼接特征作为该节点的节点特征。

综上所述，本申请实施例提供的文本对象分类方法，通过在提取文本对象的节点特征时，将文本对象的树结构中的至少一个节点的节点特征由第一类特征和第二类特征拼接得到，使得提取文本对象的节点特征中不仅只有通过神经网络得到的第二类特征，同时还融合了通过人工特征工程提取到的第一类特征，使得根节点输出的节点特征能够更加全面的表达出文本对象的特征，解决了相关技术中通过神经网络提取到的特征比较片面，不能够完全描述出网页的特征，进而会影响到分类结果的准确性的问题，达到了提取更加全面的特征，提高分类结果的准确性的效果。

另外通过步骤402，将同一个第i+1层节点的各个第i层节点的节点特征输入第i+1层节点对应的神经网络中，得到第i+1层节点的第二类特征，从叶子节点的节点特征开始，由下往上逐层将下层节点的节点特征作为上层节点对应的神经网络的输入，得到上层节点的第二类特征，然后将上层节点的第二类特征或将上层节点的第一类特征与第二类特征的拼接特征输入到更上层节点对应的神经网络中，继续提取更上层节点的节点特征，直到获取到根节点的节点特征，使得具有树状结构的文本对象能够逐层计算各个节点的节点特征。

另外通过步骤402，由于每个第i+1层节点对应有各自的神经网络，根据不同类型的节点设计不同的神经网络，结合不同的文本对象所对应的节点类型，使得神经网络的设计方式更加灵活，并且能够在树结构的任意节点上设计将第一类特征和第二类特征进行拼接。

图5是本申请另一个实施例提供的一种文本对象分类方法的方法流程图。该文本对象分类方法以应用在服务器中举例说明，如图5所示，该文本对象分类方法包括：

501，获取第i层节点的节点特征，节点特征包括：第一类特征和第二类特征拼接后得到的拼接特征，或者，第二类特征。

以网页文档为例，网页文档的节点包括html文件节点、标题节点、主体节点、段落节点、句子节点、词语节点。

第一类特征是通过人工特征工程提取的特征，第一类特征通常用稀疏向量表示。

第二类特征是通过机器学习到的特征，第二类特征通常用密集向量表示。

拼接的含义是：输入两个向量，第一个向量的维度为m，第二个向量的维度为n，根据第一个向量和第二个向量输出一个新的向量，新的向量的维度是m+n，前m个维度的内容复制于第一个向量，后n个维度的内容复制于第二个向量。

节点的节点特征可以是第一类特征和第二类特征拼接后得到的拼接特征，也可以是仅由神经网络输出的第二类特征。如图6所示，本实施例以每个节点的节点特征为第一类特征和第二类特征拼接后得到的拼接特征进行示例性地说明。图6所示的文本对象600包含3层节点，分别是第一层节点610、第二层节点620和根节点630。除了第一层节点610，第二层节点620和根节点630均可以被称为中间节点或第i+1层节点。在计算第二层节点620的节点特征时，获取第二层节点620包含的各个第一层节点610的节点特征，在计算根节点630的节点特征时，获取根节点所包含的各个第二层节点620的节点特征。

每个第i+1层节点对应有各自的神经网络，最底层的节点可能没有对应的神经网络，比如：最底层节点为词语。

可选地，当词语节点有对应的第一类特征时，比如通过人工抽取到的第一类特征为词性，词语节点需要对应有神经网络将词语节点的第一类特征和第二类特征进行拼接。

可选地，当词语节点没有对应的第一类特征时，即词语节点只对应第二类特征，由于词语节点的第二类特征通常为词向量，词向量是预先训练出的将某种语言中的每一个词语映射成一个实数向量的表达方式，通常对于某种语言中的词语与词向量的对应关系是经过成熟的训练体系，因此词语节点可以不需要设计对应的神经网络，按照对应关系直接映射为词向量，因此在这种情况下，词语节点没有对应的神经网络。

同一类型的节点对应的神经网络是相同的，不同类型的节点所对应的神经网络不同或相同。

以网页文档为例，网页文档中html文件节点的孩子节点通常只包括标题节点和主体节点，由于包含的孩子节点较少，html文件节点对应的神经网络在根据标题节点的节点特征和主体节点的节点特征提取html文件的节点特征时，设计的神经网络可以简单点，比如只涉及单个操作，如拼接操作；而网页文档中的段落节点的孩子节点为句子节点，由于一个段落通常包含多个句子，因此属于同一个段落节点的句子节点较多，输入到段落节点对应的神经网络中的句子节点的节点特征也较多，用于处理这种多输入的神经网络设计的要复杂点，比如采用循环神经网络。

结合参考图6，文本对象600的各个节点在神经网络601中分别对应各自的神经网络，第一层节点610对应第一神经网络611，第二层节点620对应第二神经网络621，根节点630对应第三神经网络631。

示例性的，本实施例中提供两种不同类型的神经网络，包括第一类神经网络和第二类神经网路。在计算第i+1层节点的第二类特征时，当与第i+1层节点对应的神经网络是第一类神经网络时，计算第i+1层节点的第二类特征的方式请参见步骤502至步骤503，当与第i+1层节点对应的神经网络是第二类神经网络时，计算第i+1层节点的第二类特征的方式请参见步骤504至步骤506。

502，当与第i+1层节点对应的神经网络是第一类神经网络时，将属于同一个第i+1层节点的各个第i层节点的节点特征，输入与第i+1层节点对应的第一类神经网络。

由于不同类型的节点对应的神经网络可能不同，因此神经网络实现的具体功能取决于神经网络的类型。

503，通过第一类神经网络对各个第i层节点的节点特征进行多级拼接，得到第i+1层节点的第二类特征。

第一类神经网络实现的功能是对第i层节点的节点特征进行多级拼接。多级拼接是将至少两个节点特征做拼接操作，比如：第i层节点的数量为2，第一类神经网络将第一个第i层节点的节点特征和第二个第i层节点的节点特征做拼接操作，得到的拼接特征为第i+1层节点的第二类特征；第i层节点的数量为3，第一类神经网络先将第一个第i层节点的节点特征和第二个第i层节点的节点特征做拼接操作，得到第一节点特征，再将第一节点特征和第三个第i层节点的节点特征做拼接操作，得到第二节点特征，第二节点特征作为第i+1层节点的第二类特征。

以网页文档为例，如图7所示，网页文档的页面节点710包含两个孩子节点：标题节点720和主体节点730，页面节点710对应的第一类神经网络740对标题节点720和主体节点730的节点特征做拼接操作。示意性的，标题节点720的节点特征为1.8,2.6,…，主体节点730的节点特征为3.8,4.2,8.1,…，则通过第一类神经网络740输出的页面节点710的第二类特征为1.8,2.6,…,3.8,4.2,8.1,…。

504，当与第i+1层节点对应的神经网络是第二类神经网络时，将各个第i层节点的节点特征从左往右依次输入第二类神经网络，得到第一特征。

在实际应用中，第二类神经网络可以为门限循环单元(英文：gatedrecurrentunit，gru)。

以网页文档为例，如图8所示，网页文档的主体节点包含n(n为正整数，n>1)个段落节点：p1、p2、…、pn，第一gru810从左往右依次处理每个段落节点，即第一gru810依次处理p1到pn，当p1被第一gru810处理完毕后，第一gru810继续处理p2，当pn被第一gru810处理完毕后，第一gru810输出s1，s1即为第一gru810得到的第一特征。其中，p1、p2、…、pn互相独立，彼此之间没有联系，当p1被第一gru810处理完毕后，第一gru810输出第1个特征，当p2被第一gru810处理完毕后，第一gru810输出第2个特征，一直到当pn被第一gru810处理完毕后，第一gru810输出第n个特征，最终第一gru810输出的s1是将第1个特征、第2个特征、…、第n个特征进行多级拼接得到的。

505，将各个第i层节点的节点特征从右往左依次输入第二类神经网络，得到第二特征。

请参见图8，第二gru820从右往左依次处理每个段落节点，即第二gru820依次处理pn到p1，当pn被第二gru820处理完毕后，第二gru820继续处理pn-1，当p1被第二gru820处理完毕后，第二gru820输出s2，s2即为第二gru820得到的第二特征。由于第二gru820是从右往左依次处理每个段落节点，则第二gru820最终输出的s2是将第n个特征、第n-1个特征、…、第1个特征进行多级拼接得到的。

506，将第一特征和第二特征进行拼接，得到第i+1层节点的第二类特征。

结合参考图8，第一gru810输出的s1和第二gru820输出的s2进行拼接830操作，得到主体节点的第二类特征b。

可选的，p1、p2、…、pn在从左往右执行过程中是串行执行的，p1、p2、…、pn在从右往左执行过程中是串行执行的，第一gru810和第二gru820对p1、p2、…、pn的处理可以是并行执行的(第一gru810和第二gru820同时处理)，也可以是串行执行的(第一gru810先处理，第一gru810处理完后，第二gru820处理；或者，第二gru820先处理，第二gru820处理完后，第一gru810处理)。

需要说明的是，第一gru810之间的箭头表示执行的顺序(从左往右)，第一gru810在处理各个节点特征时，彼此之间没有关联，第二gru820之间的箭头表示执行的顺序(从右往左)，第二gru820在处理各个节点特征时，彼此之间没有关联；另外，第一gru810与s1之间的箭头表示第一gru810最终的输出为s1，第二gru820与s2之间的箭头表示第二gru820最终的输出为s2。

507，当第i+1层节点是根节点时，将根节点的节点特征输入分类器，得到文本对象属于各个类别标签的概率值。

结合参考图6，将文本对象600输入到神经网络601后，神经网络601在计算各个节点的节点特征时，采用自底向上的方式，首先计算第一层节点610的节点特征，第一层节点610对应第一神经网络611，第一层节点610的第一类特征612和第二类特征613被输入第一神经网络611后，第一神经网络611输出第一层节点610的节点特征，当第一神经网络611是第一类神经网络时，第一神经网络611将第一类特征612和第二类特征613进行拼接操作；然后计算第二层节点620的节点特征，第二层节点620对应第二神经网络621，根据获取到的属于同一第二层节点620的各个第一层节点610的节点特征，在各个第一层节点610的节点特征输入第二神经网络621后，第二神经网络621输出第二层节点620的第二类特征，第二层节点620的第一类特征622和第二层节点620的第二类特征拼接后得到第二层节点620的节点特征，第二神经网络621可以是第一类神经网络，也可以是第二类神经网络；最后计算根节点630的节点特征，根节点630对应第三神经网络631，根据获取到的属于根节点630的各个第二层节点620的节点特征，在各个第二层节点620的节点特征输入第三神经网络631后，第三神经网络631输出根节点630的第二类特征，根节点630的第一类特征632和根节点630的第二类特征拼接后得到根节点630的节点特征，第三神经网络631可以是第一类神经网络，也可以是第二类神经网络。

当根节点630的节点特征计算完毕后，根节点630的节点特征被输入分类器640，用于计算文本对象属于各种类别标签的概率值。

当级联编码进行到根节点时，根节点的节点特征计算得到后，将根节点的节点特征输入到分类器，分类器能够根据根节点的节点特征计算出文本对象对应的各种类别标签的概率值。比如，分类器对敏感网页的分类结果为：包含敏感信息(0.8)，不包含敏感信息(0.2)。

508，将概率值最大的类别标签确定为文本对象对应的类别标签。

比如：当分类器对敏感网页的分类结果为：包含敏感信息(0.8)，不包含敏感信息(0.2)，则该敏感网页的类别标签为“包含敏感信息”。

可选地，在计算文本对象的各个节点的节点特征时，存在至少一个节点的节点特征是拼接特征。

可选地，在计算文本对象的各个节点的节点特征时，存在至少一个路径的节点特征是拼接特征。

可选地，在计算文本对象的各个节点的节点特征时，存在至少一层节点的节点特征是拼接特征。

可选地，在计算文本对象的各个节点的节点特征时，全部节点的节点特征是拼接特征。

图6示出的各个节点的节点特征都是拼接特征，在其他可能的实现方式中，还可以只有一层节点的节点特征是拼接特征，或者是树结构中的部分几层节点的节点特征是拼接特征，其余节点的节点特征为第二类特征，或者是树结构中的部分几个节点的节点特征是拼接特征，或者是树结构中的一个路径的节点的节点特征是拼接特征，或者是树结构中的部分几个路径的节点的节点特征是拼接特征。本实施例不对节点特征为拼接特征的节点位置进行限定。

示例性的，如图9所示，文本对象900被输入神经网络901中，假设第一层节点910为词语节点，则第一层节点910的第二类特征912为词向量，由于第一层节点910没有对应的第一类特征，因此第一层节点910没有对应的神经网络，第二类特征912直接作为第一层节点910的节点特征；然后计算第二层节点920的节点特征，第二层节点920对应第二神经网络921，根据获取到的属于同一个第二层节点920的各个第一层节点910的节点特征，在各个第一层节点910的节点特征输入第二神经网络921后，第二神经网络921输出第二层节点920的第二类特征，第二层节点920的第一类特征922和第二层节点920的第二类特征拼接后得到第二层节点920的节点特征；最后计算根节点930的节点特征，根节点930对应第三神经网络931，根据获取到的属于根节点930的各个第二层节点920的节点特征，在各个第二层节点920的节点特征输入第三神经网络931后，第三神经网络931输出根节点930的第二类特征。当根节点930的节点特征计算完毕后，根节点930的节点特征被输入分类器940，用于计算文本对象属于各种类别标签的概率值。

可选地，本实施例中的文本对象分类方法还可以表示为图10所示的示意图。如图10所示，首先执行步骤1010，输入网页文档树；然后执行步骤1020，人工特征工程抽取第一类特征，得到带第一类特征的网页文档树1030；然后执行步骤1040，机器学习第二类特征，并将第一类特征和第二类特征拼接，得到网页文档树的编码1050；最后执行步骤1060，分类器进行分类，取概率值最大的类别标签，得到最优类别标签1070。

通过步骤501将同一个第i+1层节点的各个第i层节点的节点特征输入第i+1层节点对应的神经网络中，得到第i+1层节点的第二类特征，使得具有树状结构的文本对象能够逐层计算各个节点的节点特征。

针对步骤501，由于每个第i+1层节点对应有各自的神经网络，使得神经网络的设计方式更加灵活，能够在树结构的任意节点上将第一类特征和第二类特征进行拼接。

针对步骤501，当存在部分节点的节点特征是拼接特征时，各个节点对应的神经网络可以灵活设计，使得神经网络的结构适用性更强；当全部节点的节点特征是拼接特征时，神经网络能够将各个节点的第一类特征和第二类特征进行拼接，使得最终得到的根节点的节点特征能够最大可能地表示出文本对象更全面的特征。

针对步骤501，通过将相同类型的节点所对应的神经网络设计为相同，使得相同类型的节点能够复用同一个神经网络，从而降低了神经网络的训练成本；不同类型的节点对应的神经网络相同，可以降低神经网络的训练成本，而不同类型的节点对应的神经网络不同，使得神经网络的设计更加灵活，针对不同类型的节点实现不同的功能。

通过步骤502和步骤503，第一类神经网络实现的功能是将各个第i层节点的节点特征进行多级拼接，适用于简单的节点特征的处理。

通过步骤504至步骤506，由于从左往右和从右往左的处理过程，神经网络输出的第一特征和第二特征不同，将第一特征和第二特征进行拼接，使得神经网络输出的第二类特征能够有更全面的表达。

通过步骤508，通过将概率值最大的类别标签确定为文本对象的类别标签，使得将分类器确定出的各个类别标签中可能性最大的类别标签作为文本对象的类别标签，分类结果的准确性更高。

图11是本申请一个实施例提供的一种神经网络和分类器的训练方法的方法流程图。该方法以应用在服务器中举例说明，如图11所示，该方法包括：

1101，初始化分类器和神经网络的训练参数。

可选地，初始化的方式为随机初始化，或者，通过有监督训练方法训练出一套初始化参数。

1102，获取训练样本，训练样本包括样本内容和该样本内容对应的样本标签，样本内容具有树结构。

训练样本包括样本内容和与样本内容对应的样本标签，比如：样本内容为新闻网页，样本标签为“国际”、“经济”；样本内容为敏感网页，样本标签为“包含敏感信息”。

由于训练样本包括样本内容和与样本内容对应的样本标签，通过神经网络和分类器对样本内容进行分类，再根据样本标签对神经网络和分类器进行有监督的学习训练。

训练样本中的样本标签的概率值默认为1。

1103，将样本内容输入神经网络，计算得到样本内容的根节点对应的节点特征。

神经网络包括与各个第i+1层节点对应的神经网络。比如：样本内容为新闻网页，新闻网页包含网页节点、标题节点、主体节点、段落节点、句子节点、词语节点。其中，网页节点对应一种神经网络，标题节点对应一种神经网络，主体节点对应一种神经网络，段落节点对应一种神经网络，句子节点对应一种神经网络，而词语节点为叶子节点，可能没有对应的神经网络。

通过神经网络计算出样本内容的根节点对应的节点特征，该节点特征对应具备当前参数的神经网络。

1104，将节点特征输入分类器，计算得到样本标签属于样本标签的概率值。

对应步骤401至步骤403中的神经网络和分类器对文本对象进行分类的过程，在计算得到样本内容的根节点的节点特征后，根节点的节点特征被输入分类器，由分类器计算样本内容属于各种类别标签的概率值，然后获取对应样本标签的概率值。

在实际训练过程中，训练样本通常不止一个，神经网络和分类器需要根据各个训练样本的样本内容计算出各自对应的样本标签的概率值。

1105，将各个样本内容属于各自对应的样本标签的概率值相加，计算得到概率值之和。

概率值之和的计算方式可以通过公式(1)来表示：

其中，θ表示训练参数，n表示训练样本数，(xn,yn)表示第n个训练样本，xn表示样本内容，yn表示样本标签，p(yn|xn,θ)表示在训练参数为θ时，神经网络和分类器根据样本内容xn计算出该样本内容属于样本标签yn的概率值，l(θ)表示概率值之和。通过公式(1)计算在当前神经网络的训练参数下，神经网络对各个样本内容进行分类，得到的属于各自对应的样本标签的概率值之和。log是对概率值的数学运算，并不影响概率值所表示的属性。

1106，根据概率值之和，使用梯度上升算法计算出调整后的训练参数。

梯度上升算法是将神经网络中的参数看做一个多维的曲面，通过调整神经网络的训练参数，使得神经网络根据样本内容找出曲面中的极大值，该极大值即为对神经网络的训练目标。可选的，若公式(1)中log前面添加负号，则使用梯度下降算法调整训练参数，训练目标为计算得到曲面中的极小值。

使用梯度上升算法对神经网络和分类器的训练参数进行调整，然后根据新的训练参数进行迭代计算，每次迭代按照公式(2)更新训练参数：

其中，θ′表示调整后的训练参数，lr＝learningrate，表示学习速率，是一个常数，lr的取值大小影响训练参数调整的快慢。

公式(2)被执行一次，表示完成一次迭代，对应的，上述步骤1103至步骤1106被循环执行一次，通过梯度上升算法完成每次迭代后，概率值之和通常会增加，或保持不变。

1107，判断是否达到迭代结束条件。

可选地，迭代结束条件包括：迭代次数达到第一次数，或者，连续第二次数计算得到的概率值之和的变化属于预定范围内。

若每次迭代后，概率值之和都在不断增长，且增长幅度较大，则人工预设一个第一次数，在迭代次数达到第一次数后停止迭代计算。

若迭代次数没有达到第一次数，但是连续第二次数计算得到的概率值之和的变化在预定范围内，即概率值之和随着训练参数的调整变化不明显，即可停止迭代计算，神经网络和分类器当前的训练参数可能已经符合要求。

1108，当未达到迭代结束条件时，迭代执行上述四个计算步骤。

当未达到迭代结束条件时，继续按照梯度上升算法调整训练参数，基于新的训练参数，重新根据各个样本内容计算各自对应的样本标签的概率值的和。

1109，当达到迭代结束条件时，将最后一次迭代计算出的训练参数确定为训练好的训练参数。

综上所述，本申请实施例提供的神经网络和分类器的训练方法，通过使用带样本标签的训练样本对神经网络和分类器进行有监督的训练，使得最终训练出的神经网络和分类器的参数能够有效的根据文本对象的内容进行准确的分类。

另外，通过人工设置迭代结束条件，使得训练过程在迭代计算到人工预设的第一次数后能够自动停止，另外，若连续第二次数计算得到的概率值之和的变化较小，则可以判定已达到需要的训练效果，提前结束训练过程，节省计算资源。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

图12是本申请实施例提供的一种文本对象分类装置的结构方框图，该文本对象分类装置可以通过软件、硬件或者两者的结合实现成为服务器的部分或者全部。该文本对象分类装置可以包括：获取单元1210、处理单元1220和确定单元1230。

获取单元1210，用于实现上述步骤401、步骤501、步骤1102以及其他任意隐含或公开的与获取相关的功能。

处理单元1220，用于实现上述步骤402、步骤502、步骤503、步骤504、步骤505、步骤506、步骤1101、步骤1103、步骤1104、步骤1105、步骤1106、步骤1107、步骤1108以及其他任意隐含或公开的与处理相关的功能。

确定单元1230，用于实现上述步骤403、步骤507、步骤508、步骤1109以及其他任意隐含或公开的与确定相关的功能。

综上所述，本申请实施例提供的文本对象分类装置，通过在提取文本对象的节点特征时，将文本对象的树结构中的至少一个节点的节点特征由第一类特征和第二类特征拼接得到，使得提取文本对象的节点特征中不仅只有通过神经网络得到的第二类特征，同时还融合了通过人工特征工程提取到的第一类特征，使得根节点输出的节点特征能够更加全面的表达出文本对象的特征，解决了相关技术中通过神经网络提取到的特征比较片面，不能够完全描述出网页的特征，进而会影响到分类结果的准确性的问题，达到了提取更加全面的特征，提高分类结果的准确性的效果。

另外，当存在部分节点的节点特征是拼接特征时，各个节点对应的神经网络可以灵活设计，使得神经网络的结构适用性更强；当全部节点的节点特征是拼接特征时，神经网络能够将各个节点的第一类特征和第二类特征进行拼接，使得最终得到的根节点的节点特征能够最大可能地表示出文本对象更全面的特征。

另外，通过将相同类型的节点所对应的神经网络设计为相同，使得相同类型的节点能够复用同一个神经网络，从而降低了神经网络的训练成本；不同类型的节点对应的神经网络相同，可以降低神经网络的训练成本，而不同类型的节点对应的神经网络不同，使得神经网络的设计更加灵活，针对不同类型的节点实现不同的功能。

另外，第一类神经网络实现的功能是将各个第i层节点的节点特征进行多级拼接，适用于简单的节点特征的处理。

另外，由于从左往右和从右往左的处理过程，神经网络输出的第一特征和第二特征不同，将第一特征和第二特征进行拼接，使得神经网络输出的第二类特征能够有更全面的表达。

另外，通过将概率值最大的类别标签确定为文本对象的类别标签，使得将分类器确定出的各个类别标签中可能性最大的类别标签作为文本对象的类别标签，分类结果的准确性更高。

图13是本申请一个实施例中提供的服务器的结构示意图。具体来讲：服务器1300包括中央处理单元(英文：centralprocessingunit，简称：cpu)1301、包括随机存取存储器(英文：randomaccessmemory，简称：ram)1302和只读存储器(英文：read-onlymemory，简称：rom)1303的系统存储器1304，以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述服务器1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(i/o系统)1306，和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。

所述基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到系统总线1305的输入/输出控制器1310连接到中央处理单元1301。所述基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入/输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为服务器1300提供非易失性存储。也就是说，所述大容量存储设备1307可以包括诸如硬盘或者只读光盘(英文：compactdiscread-onlymemory，简称：cd-rom)驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括ram、rom、可擦除可编程只读存储器(英文：erasableprogrammableread-onlymemory，简称：eprom)、电可擦除可编程只读存储器(英文：electricallyerasableprogrammableread-onlymemory，简称：eeprom)、闪存或其他固态存储其技术，cd-rom、数字通用光盘(英文：digitalvideodisc，简称：dvd)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。

根据本发明的各种实施例，所述服务器1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1300可以通过连接在所述系统总线1305上的网络接口单元1311连接到网络1312，或者说，也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。

需要说明的是：上述实施例提供的文本对象分类装置和服务器在对文本对象进行分类时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本对象分类装置和服务器与文本对象分类方法的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

应当理解的是，在本文中使用的，除非上下文清楚地支持例外情况，单数形式“一个”(“a”、“an”、“the”)旨在也包括复数形式。还应当理解的是，在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘晓华;李航;涂兆鹏;严哲峰
技术所有人：华为技术有限公司
我是此专利的发明人

上一篇：一种合成人造细胞膜用纳米银涂层反应釜的制作方法
上一篇：一种用于皮革的超声波染色装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。