训练用于确定文档类别的分类器的系统和方法与流程

文档序号：17326557发布日期：2019-04-05 21:50阅读：131来源：国知局

本发明涉及防止信息泄露的领域，并且更具体地涉及训练用于确定文档类别的分类器的系统和方法。

背景技术：

与最近的网络攻击和信息窃取量的增加有关，数据泄露防护(dlp)系统正在变得越来越需要。dlp系统的主要任务之一是防止个人以及保密文档(诸如护照、出生证明、驾驶执照、保密协议等)的电子副本的泄露。

机器学习技术已被广泛用于个人和保密文档的检测，特别是诸如模式识别技术以及光学字符识别(ocr)技术的机器学习技术。对于这些技术，将一组感兴趣的类别相似的文档放入分类器中，并且基于该组文档制定特征，然后利用这些特征将新文档分配到其中一个类别。

然而，现有技术通常仅对于给定的一组文档类别证明了很好的分类质量。当添加新类别的文档时，必须在大量类似文档上再次进行分类器的训练。此外，如果不能给新文档分配任何类别，它可能仍然包含机密数据。而且，在大多数分类器的构建中，分析员对分类器的调节起着主要作用，但是通常这不会产生高质量的分类。

因此，出现了难以构建确保高质量分类的分类器的技术问题。

已知的技术不能解决所述的技术问题，因为在很多情况下，已知的技术不能够提供高质量的分类，特别是，已知的技术不能够对包含机密数据且不属于任何已知类别的文档进行分类，并且还有必要识别包含在文档中的文本以确定前述公开技术中的特征。

技术实现要素：

本文公开了用于训练用于确定文档类别的分类器的方法和系统。

在一个示例性方面中，提供了一种用于训练分类器的方法，该方法以下步骤：包括获取属于第一类别的一个或多个文档作为分类器的训练样本；确定包含在所述一个或多个文档的每个文档中的对象；通过硬件处理器形成由所述对象构成的特征集；基于所述特征集，通过选择分类模型并训练所述分类器来构建所述分类器；获取属于所述第一类别的另外的文档；使用所述分类器计算所述另外的文档的分类误差；以及当所述误差超过给定值时，获取属于所述第一类别或属于一个或多个新类别的第二组文档，否则，确定完成所述分类器。

在另一方面中，所述方法还包括对于每一个新类别重复前述步骤。

另一方面，所述分类误差包括对所述一个或多个文档的错误分类的概率。

在另一方面中，所述对象包括图形元素和/或文本元素中的一个或多个元素。

在另一方面中，所述图形元素包括以下中的一者或多者：人脸的图像、脸部照片的框架、国家的印章和/或旗帜、邮票、标准字(logotype)或整个文档。

在另一方面中，所述方法还包括对所述一个或多个文档进行初步处理，所述初步处理包括以下中的一者或多者：将文件分解成所述一个或多个文档中的每个文档；以及修正在所述一个或多个文档中检测到的失真。

在另一方面中，所述特征集包括以下中的一者或多者：在所述一个或多个文档的每个文档中的对象的存在、对象的位置、对象的数量、在文档中的各个对象之间的关系、对象的尺寸、对象的倾斜角度、对象的失真的存在。

在另一方面中，所述特征集还包括以下中的一者或多者：对象的颜色的直方图、对象的元数据、由特定特征统一的一组对象、相同对象的数量、对象的颜色的直方图与指定的图案的一致性、指定的对象的组合与彼此布置的图案的一致性、对象的颜色的直方图的傅里叶变换以及对象的图像中的失真类型。

在一个示例性方面中，提供了一种用于训练用于确定文档类别的分类器的系统，该系统包括：分析模块，该分析模块被配置为获取属于第一类别的一个或多个文档作为分类器的训练样本，以及确定包含在所述一个或多个文档的每个文档中的对象；特征形成模块，该特征形成模块被配置为形成由所述对象构成的特征集；分类器构建模块，所述分类器构建模块被配置为基于所述特征集，通过选择分类模型并训练所述分类器来构建所述分类器；以及，其中，所述分析模块还被配置为：获取属于所述第一类别的另外的文档；使用所述分类器计算所述另外的文档的分类误差；以及当所述误差超过给定值时，获取属于所述第一类别或属于一个或多个新类别的第二组文档；否则，确定完成所述分类器。

在一个示例性方面中，一种非暂时性计算机可读介质，所述非暂时性计算机可读介质上存储有计算机可执行指令，当执行所述计算机可执行指令时，所述计算机可执行指令执行用于训练用于确定文档类别的分类器的方法，所述方法包括：通过硬件处理器获取属于第一类别的一个或多个文档作为分类器的训练样本；通过硬件处理器确定包含在所述一个或多个文档的每个文档中的对象；通过硬件处理器形成由所述对象构成的特征集；基于所述特征集，由硬件处理器通过选择分类模型并训练所述分类器来构建所述分类器；获取属于所述第一类别的另外的文档；使用所述分类器计算所述另外的文档的分类误差；以及当所述误差超过给定值时，获取属于所述第一类别或属于一个或多个新类别的第二组文档；否则，确定完成所述分类器。

以上对示例性方面的简化概述用于提供对本发明的基本理解。本概述不是对所有预期方面的广泛概述，并且既不旨在确定所有方面的关键或重要元素，也不描绘本发明的任何或全部方面的范围。其唯一目的是以简化的形式呈现一个或多个方面，作为对本发明的以下更详细描述的序言。为了实现前述内容，本发明的一个或更多个方面包括权利要求中所描述和示例性指出的特征。

附图说明

并入本说明书并构成本说明书的一部分的附图示出了本发明的一个或多个示例方面，并且与详细描述一起用于解释它们的原理和实现方式。

图1示出了根据本发明的示例性方面的用于训练用于确定文档类别的分类器的系统。

图2是根据本发明的示例性方面的用于训练分类器的方法的流程图。

图3a至图3c示出了根据本发明的示例性方面的文档的示例以及确定包含在文档中的对象的各种示例。

图4a和图4b示出了根据本发明的示例性方面的文档的另一示例以及确定包含在文档中的对象的各种示例。

图5示出了根据本发明的示例性方面的通用计算机系统的示例。

具体实施方式

本文在用于训练用于确定文档类别的分类器的系统、方法和计算机程序产品的背景下描述示例性方面。本领域的普通技术人员将认识到，以下描述仅是示例性的，并不意图以任何方式进行限制。受益于本发明的本领域技术人员将容易地想到其它方面。现在将详细介绍如附图中所示的示例性方面的实现方式。在整个附图和以下描述中尽可能使用相同的附图标记来指代相同或相似的项目。

图1示出了用于训练被设计成用于确定文档类别的分类器的系统100。电子文档(以下称为文档)可以指包含图形信息和/或文本信息的任何计算机文件。这样的文件可以具有图形数据格式(jpeg、png、tiff等)或电子文档格式(pdf、doc、docx等)。本发明描述了用于构造确定文档类别的分类器的方法和系统。在一个示例性方面中，考虑可能包含个人数据、机密数据或任何其它表示值的数据的文档。某些文档可已被预先分配类别，表征它们属于现有的纸质文件(护照、驾驶执照、出生证明等)。例如，可以由分析员、用户或计算机系统分配文档的类别。

在一个示例性方面中，使用分析模块110来获取属于特定类别106的文档101。文档101被用作用于构建分类器140的训练样本。分类器140是用于确定任何给定文档的类别的分类模型。分析模块110可以获取单个文档101以构建分类器。然而，如果训练样本包含足够大量的文档101，则将显著提高分类的质量。对于接收到的每个文档101，分析模块110确定包含在文档101中的对象104，对象104特别是图形元素和/或文本元素。在一个示例性方面中，如果文档101的格式是图形，则对象104例如可以为以下中的一个或多个：人脸的图像、脸部照片的框架、国家的印章或旗帜、邮票、标准字或者整个文档101。在另一示例性方面中，如果文档101的格式是图形，则对象104也可以是诸如线段、点、样条曲线、椭圆或其它基元的对象的组合。在一些示例性方面中，文档101可以包含组合的图形元素和文本元素。

因此，例如，“护照”类别的文档以对象104的存在为特征，该对象104诸如为照片、印章的图像以及文本区域(诸如“姓氏”、“名字”、“中间名”、“出生日期”、“出生地”、“签证日期”、“签发部门”等)。应该注意的是，在一个示例性方面中，可以通过处理模块111使用光学字符识别(ocr)技术来识别文本对象。

在另一示例性方面中，文本区域不被识别为文本，而是被识别为文本所在的区域。在这种情况下，文本区域可以被确定为单独的矩形图形图像——这稍微降低了分类的质量，但是同时显著提高了分类器的工作速度，因为处理模块111将不会执行费力的文本识别任务。

在另一示例性方面中，可以使用混合方法——在一些文本区域(诸如区域“姓氏”、“名字”等)中识别文本，而在其它文本区域中不识别文本，并且这些不被识别的文本区域被确定为矩形对象。指定特定姓氏的矩形对象可能位于区域“姓氏”的对面。在这种情况下，选择的附加特征可以是该矩形对象的宽度。大多数英文姓氏例如通常包含3至8个字母。因此，为该矩形对象选择的特征可以是这样的标志，该标志表明是否满足该对象的宽度在对应的3-8个字母的范围内的条件。

在一个示例性方面中，系统包含处理模块111，处理模块111用于文档101的初步处理。例如，同一个图形文件可能包含几个文档101。在这种情况下，处理模块111将挑选出(例如，提取)包含在图形文件中的所有文档，并将这些文档发送到分析模块110，用于确定包含在所提取的文档中的对象。

在另一示例中，文档101的图像可能包含失真或缺陷，诸如变形、旋转、改变的视角、眩光或其它缺陷(例如拍摄或扫描文档时的天生缺陷)。在一个示例性方面中，在文档101被发送用于由分析模块110进行后续分析之前，处理模块111可以使用现有技术中已知的方法来执行失真校正。在该示例中，在构建的分类器140(将在下面更详细描述分类器140)确定未被分配类别的新文档102的类别之前，处理模块111可以在该新文档102中执行失真校正。在另一示例性方面中，处理模块111将不执行文档101的失真校正。在该示例中，在由构建的分类器140确定新文档102的类别之前，处理模块111也可以不在新文档102中执行失真校正。

在另一示例性方面中，分析模块110最初接收预处理的文档101。

对于每个文档101，特征形成模块120形成由所确定的对象104构成的特征集105。这些特征是文档101的特性。这些特征可以是二元的、名义上的、连续的或定量的特征。特别的，这些特征可以包括以下中的一者或多者：

●对象的存在；

●对象的位置(诸如坐标)；

●对象的数量；

●一个对象相对于另一个对象的位置(诸如对象之间的距离、对象的中心之间的角度等等)；

●对象的尺寸(例如，面积)；

●对象的倾斜角度。

所指示的特征的数字特征可以相对于整个文档的相应参数而采用相对值和绝对值。

在一个特定方面中，特征可以是分类算法的工作结果。

在另一特定方面中，特征可以是对象的图像的失真的存在以及该失真的类型(变形、旋转、改变的视角、眩光的存在等)。

此外，当存在对象的图像失真时，其它特征可能被削弱。例如，在整个文档的图像中的眩光可能隐藏一个或多个对象，因此一个或多个这样的对象的存在可以是可选的。

因此，分类器构建模块130将基于文档101的制定特征105的值，特别是这些文档101所属的类别106的值，来构建分类器140。

然后使用构建的分类器140来执行对之前未分配类别的文档的分类(即分配类别)。

在一个示例性方面中，分析模块110获取另外的文档102和103，其中一些文档(文档102)属于类别106，而其它文档(文档103)属于另一类别107，并且分析模块110借助分类器140计算上述另外的文档的分类误差。分类误差例如可以是文档的错误分类的可能性(例如，来自类别107的文档被归类为属于类别106，而来自类别106的文档被归类为不属于类别106)。如果分类的误差超过给定值(例如超过5％)，则除了分析模块获取文档101、文档102以及文档103之外(其中一些文档属于类别106(文档101和文档102)，而其它文档(文档103)属于类别107)，重复分类器的构建(即重复分析模块110、特征形成模块120以及分类构建模块130的工作)。否则，如果分类误差小于或等于给定值，则分类器构建模块130完成分类器140的构建。在另一示例性方面中，除了类别106和类别107之外，还可以有另外的类别。在另一特定示例性方面中，通过使用算法，特别是使用以下中的一个算法来计算分类误差：经验风险最小化、交叉验证。

在另一示例性方面中，获取属于分类器的每个制定类别的另外的文档，并且利用该分类器计算这些另外的文档的分类误差。如果分类误差超过给定值，则在考虑这些另外的文档的情况下重复分类器的构建，否则，完成分类器的构建。

分类器构建模块130通过选择分类模型(算法)然后对分类器140进行训练来执行分类器104的构建，其中，制定的特征用作文档的特征描述，特别是文档的一种类别(category)用作类别(class)。

在一个示例性方面中，选择以下分类模型(算法)中的一个：

●贝叶斯分类器；

●神经网络；

●哈尔小波；

●局部二进制模式；

●逻辑回归；

●方向梯度直方图。

通过使用现有技术中的已知的方法来完成分类器140的训练。

作为示例，假设文档属于同一类别y(如果文档属于该类别，则y＝1，否则y＝0)。该类别例如可以是护照或身份文档或任何其它类别。

假设分类器构建模块130已经选择了逻辑回归模型。在这种情况下，分类器140的构建在于建立概率模型p(y＝1|x)＝f(z),z＝θ^tx，其中，x和θ是制定的特征x的值的向量和回归参数，f(z)是逻辑函数，且f(z)＝1/(1+e^-z)。

对于参数θ的选择，分类器构建模块130使用最大似然法，该方法涉及找到这些参数θ，这些参数θ最大化关于训练样本(即，关于文档101的制定的特征集和这些特征所采用的值，已知的是这些文档101属于所指示的类别)的似然函数。

因此，对于不具有为其分配的类别的任意的新文档，可以通过使用分类器140来确定该新文档是否属于该类别。为此，将确定新文档中包含的对象，然后将基于该对象确定制定特征的值。将计算文档是否属于特定类别的概率p(y＝1|x)。如果计算出的概率值大于0.5，则将确定该新文档属于所指定的类别。否则，将确定该新文档不属于该类别。

在一个示例性方面中，特定的分类模型的选择可以由分析员指定。在另一特定示例性方面中，对于同一组文档，可以使用不同模型的训练分类器的方法(参见图2)，并且因此将选择确保关于类别已知的另外的这组文档(测试样本)的分类误差最小的分类器140。

在另一示例性方面中，文档的类别也可以是两个或更多个类别的组以及已知类别的子类别。例如，“护照”类别可以具有以下子类别：“内部护照”、“外国护照”、“外交护照”以及世界上不同国家的护照。在该示例性方面中，这些子类别(subcategory)本身可以是类别(category)。

因此，所述技术问题将被解决，并且将达到所述的技术结果，该技术效果在于更好的由分类器确定文档类别的质量。因此，例如，文档“居留许可证”可以被确定为属于主要类别“身份证”，因为“居留许可证”包含了所有前述特征，即使“居留许可证”既不是“护照”，也不是“驾驶执照”，也没有被确定为属于这两个类别中任何一类。

在一个示例性方面中，特征还包括以下：

●对象的颜色的直方图；

●对象的元数据(诸如文档的可交换图像文件(exif))；

●由特定特征统一的一组对象；

●相同对象的数量；

●对象的颜色的直方图与指定的图案的一致性；

●指定的对象的组合与彼此布置的图案的一致性；

●对象的颜色的直方图的傅里叶变换；

●对象的图像中失真(几何学和光学失真)的存在；

●对象的图像中的失真类型(诸如变形、旋转、改变的视角、眩光的存在等)。

图2示出了根据本发明的示例性方面的用于训练分类器的方法200的流程图。方法200可以由图5中所示的系统20的处理器21执行。

在步骤201中，分析模块110获取属于同一类别106的多个文档101，然后在步骤202中，对于获取的每个文档，分析模块110确定包含在文档中的对象。在步骤203中，对于每个文档，特征形成模块120形成由所确定的对象组成的特征集。因此，在步骤204中，分类器构建模块130基于对这些文档形成的特征来执行分类器140构建。考虑到一个类别可以包含不同子类别(诸如护照和驾驶执照)的文档的事实，解决了所述问题，并且实现了更好的由分类器确定文档类别的质量的技术结果。

在一示例性方面中，在步骤204中，分析模块110获取属于类别106的另外的文档102，并借助于分类器140计算这些另外的文档的分类误差。如果分类误差超过给定值，则除了在步骤201中将获取属于一个或两个(或更多个)类别(例如，类别106和不同于类别106的新类别107)的文档之外，将重复步骤201至步骤204。否则，完成分类器的构建。应该注意的是，如果存在多于两个的类别，则所提议的方法将类似地工作。在这种情况下，所述方法的步骤201至步骤204将重复相应的次数。

图3a至图3c示出了文档的示例以及确定包含在文档中的对象的各种示例。图3a示出了美国(us)护照300(示出了示例性示例，其不旨在精确地描绘官方政府文档)。分析模块110可以确定包含在文档300中的对象，例如，图3b和图3c中所示的那些对象。

在第一示例中，在图3b中，对象例如可以是照片311、文本区域312以及线段313。可以使用光学字符识别(ocr)识别包含在文本区域312中或包含在文本区域312中的一些区域中的字符，或者不识别这些字符。在一个示例性方面中，文本区域312将被确定为其中包含文档310(具有选定对象的文档300)的文本的矩形区域。在本示例中，总共选定了16个文本区域312以及9个线段313。

可以制定以下特征，例如：

●对象的存在，所述对象为：照片311、文本区域312、线段313；

●对象的位置：对象311-对象313相对于文档310的边界的坐标；

●对象311-对象313的数量(在给出的示例中，一个照片311、16个文本区域312以及9个线段313)；

●对象的彼此部署，例如，线段313之间的距离、线段313与照片311之间的距离和角度、照片311与文本区域312之间的距离和角度等；

●对象的尺寸，例如照片311的面积与整个文档310的面积的比值，所有文本区域312的面积与文档310的面积的比值等；

●对象的倾斜角度，例如，线段313相对于文档310的边界的倾斜角度。

图3c呈现了分析模块110如何确定包含在文档310中的对象的另一可能的示例。因此，除了照片311、文本区域312以及线段313之外，还将确定诸如图案314和图案315、us铭文316的对象。本示例中的附加特征可以如下，例如：

●图案314的数量(共21个)、图案315的数量(共25个)；

●图案314相对于文档310的边界的倾斜角度(10个对象在0度的角度，1个对象在45度的角度，10个对象在90度的角度)；

●美国铭文316的位置(右上角)；

●图案314的彼此部署(以彼此之间等距离的旋转字母l的形式)和图案315的彼此部署(以彼此之间等距离的水平线的形式)。

在另一示例性方面中，可以利用光学字符识别(ocr)来识别文本区域312中的一些区域或全部区域中的字符。在本示例中，可以另外形成文本区域的存在的特征：姓氏、名字、中间名、性别、出生日期、出生地点。可以同样形成符合护照号码要求的号码的存在的特征以及其它特征。

应该注意的是，两个较低的文本区域是机器可读的文本(例如，符合标准doc9303-icao(国际民航组织))，并且可以使用相应的算法快速地识别它们。在这种情况下，机器可读文本的存在可以是附加特征。

通常，证明身份的证件，诸如护照300，具有特定颜色的特征网格背景。在本示例中，可以选择在整个文档300的颜色的直方图中的主要颜色作为附加特征。

图4a和图4b示出了文档的另一示例以及确定包含在文档中的对象的各种示例。图4a示出了纽约(ny)驾驶执照400。分析模块110能够确定包含在文档400中的对象，诸如图4b中所示的那些对象。

在图4b的示例中，对象例如可以是照片406、文本区域402、文本区域403、州名称(代码)401、签名404以及类别405。可以使用光学字符识别(ocr)识别包含在文本区域402-文本区域403中或包含在文本区域402-文本区域403的一些文本区域中的字符，或者不识别这些字符。在一个示例性方面中，文本字段402-文本区域403将被确定为其中包含文档410(具有选定对象的文档400)的文本的矩形区域。在本示例中，总共选定了11个文本区域403以及14个文本区域402。

在一个示例性方面中，可以制定以下特征，例如：

●对象的存在，所述对象为：照片406、文本区域402-文本区域403、州名称401、签名404、类别405；

●对象的位置，所述对象为：照片406、文本区域402-文本区域403、州名称401、签名404、类别405；

●对象401-对象406的数量：(在给出的示例中，一个照片406、11个文本区域403、14个文本区域402、一个签名404、一个类别405、一个州名称401)；

●对象的彼此部署，例如，照片406和文本区域402之间的距离和角度等；

●对象的尺寸，例如照片406的面积与整个文档410的面积的比值，所有的文本区域402和所有的文本区域403的面积与文档410的面积的比值等；●对象的倾斜角度，例如，文本区域402相对于文档410的边界的倾斜角度。

在一个特定示例性方面中，类别“护照”和类别“驾驶执照”可以被组合成单个的广义类别“身份证”。前述两个类别包含很多相同的对象104(诸如照片、国家名称、文本区域：姓氏、名字、中间名、出生日期)以及可以为它们制定相同特征的集合，因此使用所提出的公开内容，可以构建能够确定未被分配类别的新文档的类别的分类器140。

在给出的示例中，这些特征例如可以是诸如照片(用于护照的照片311和用于驾驶执照的照片406)、国家名称(用于护照的国家名称316和用于驾驶执照的国家名称401)的对象的存在，以及可以是诸如姓氏、名字、中间名、出生日期(用于护照的文本区域313中的一些文本区域以及用于驾驶执照的文本区域402中的一些文本区域)的文本区域的存在。

因此，通过使用上述特征，将构建确定护照300和驾驶执照400的类别(“身份证”)的分类器。此外，构建的分类器还将确定其它类似的属于类别“身份证”的文档，这些文档对于制定的特征集具有相同的值。特别地，这些文档可以是居留许可证、外国护照、其它国家的护照以及在其中具有照片、国家名称和文本区域(姓氏、名字、中间名、出生日期)的其它文档。

因此，所述问题将被解决并且将取得所述的技术结果，即通过分类器确定文档类别的质量更高。

图5是示出根据本发明的示例性方面的通用计算机系统的示意图，在该通用计算机系统上可以实现用于训练用于确定文档类别的分类器的方法和系统的各个方面。

如图所示，计算机系统20(其可以是个人计算机或服务器)包括中央处理单元21、系统存储器22和连接各个系统部件的系统总线23，所述系统部件包括与中央处理单元21相关联的存储器。如本领域普通技术人员将理解的，系统总线23可以包括总线存储器或总线存储器控制器、外围总线以及能够与任何其它总线架构交互的本地总线。系统存储器可以包括永久存储器(rom)24和随机存取存储器(ram)25。基本输入/输出系统(bios)26可以存储用于在计算机系统20的各元件之间传输信息的基本程序，诸如在使用rom24加载操作系统时的那些程序。

计算机系统20还可以包括用于读取和写入数据的硬盘27、用于在可移动磁盘29上读取和写入的磁盘驱动器28、以及用于读取和写入可移动光盘31(诸如cd-rom、dvd-rom和其它光学介质)的光盘驱动器30。硬盘27、磁盘驱动器28和光盘驱动器30分别通过硬盘接口32、磁盘接口33和光盘驱动器接口34连接到系统总线23。驱动器和相应的计算机信息介质是用于存储计算机系统20的计算机指令、数据结构、程序模块和其它数据的电源独立的模块。

计算机系统20包括通过控制器55连接到系统总线23的硬盘27、可移动磁盘29和可移动光盘31。本领域普通技术人员将会理解，也可以使用能够以计算机可读形式存储数据的任何类型的介质56(固态驱动器、闪存卡、数字盘、随机存取存储器(ram)等)。

计算机系统20具有可存储操作系统35的文件系统36、以及附加的程序应用37、其它程序模块38以及程序数据39。计算机系统20的用户可以使用键盘40、鼠标42或本领域普通技术人员已知的任何其它输入设备(例如但不限于麦克风、操纵杆、游戏控制器、扫描仪等)来输入命令和信息。这种输入设备通常通过串行端口46插入计算机系统20，串行端口46又连接到系统总线，但是本领域普通技术人员将理解，输入设备也可以以其它方式连接，例如但不限于，通过并行端口、游戏端口或通用串行总线(usb)连接。监控器47或其它类型的显示设备也可以通过诸如视频适配器48的接口连接到系统总线23。除了监控器47之外，个人计算机还可以配备有其它外围输出设备(未示出)，如扬声器、打印机等。

计算机系统20可以使用与一个或多个远程计算机49的网络连接而在网络环境中操作。一个或多个远程计算机49可以是本地计算机工作站或服务器，其包括在描述计算机系统20的性质时描述的上述元件中的大多数元件或全部元件。计算机网络中还可以存在其它设备，例如但不限于路由器、网站、对等设备或其它的网络节点。

网络连接可以形成局域计算机网络(local-areacomputernetwork，lan)50和广域计算机网络(wide-areacomputernetwork，wan)。这种网络用在公司计算机网络和公司内部网络中，并且这些网络通常有权访问互联网。在lan或wan网络中，个人计算机20通过网络适配器或网络接口51连接到局域网50。当使用网络时，计算机系统20可以使用调制解调器54或本领域普通技术人员熟知的、实现与广域计算机网络(诸如因特网)的通信的其它模块。调制解调器54可以是内部设备或外部设备，且可以通过串行端口46连接到系统总线23。本领域普通技术人员将理解，所述网络连接是使用通信模块建立一台计算机与另一台计算机的连接的许多熟知方式的非限制性示例。

在各个方面，本文所描述的系统和方法可以以硬件、软件、固件或它们的任何组合来实现。如果以软件实现，则所述方法可以作为一个或多个指令或代码而被存储在非暂时性计算机可读介质上。计算机可读介质包括数据存储器。作为示例而非限制，这种计算机可读介质可以包括ram、rom、eeprom、cd-rom、闪存，或其它类型的电存储介质、磁存储介质或光存储介质、或可用来携带或存储所期望的指令或数据结构形式的程序代码并可以被通用计算机的处理器访问的任何其它介质。

在各个方面中，本发明中所描述的系统和方法可以按照模块来描述。本文中所使用的术语“模块”指的是例如使用硬件(例如通过专用集成电路(applicationspecificintegratedcircuit，asic)或现场可编程门阵列(field-programmablegatearray，fpga))实现的实际的设备、部件、或部件的布置，或者指的是硬件和软件的组合，例如通过微处理器系统和实现模块功能的指令集(该指令集在被执行时将微处理器系统转换成专用设备)来实现这样的组合。一个模块还可以被实施为两个模块的组合，其中仅通过硬件促进某些功能，并且通过硬件和软件的组合促进其它功能。在某些实现方式中，可以在通用计算机(诸如上文在图3中更详细描述的通用计算机)的处理器上实现模块的至少一部分(以及在一些情况下，模块的全部)。因此，每个模块可以以各种适合的配置来实现，而不应受限于本文中所例示的任何特定的实现方式。

为了清楚起见，本文中没有公开各个方面的所有常规特征。应当领会的是，在本发明的任何实际的实现方式的开发中，必须做出许多特定实现方式的决定，以便实现开发者的特定目标，并且这些特定目标将对于不同的实现方式和不同的开发者变化。应当理解的是，这种开发努力会是复杂的且费时的，但对于了解本发明的优点的本领域的普通技术人员来说仍然是工程的常规任务。

此外，应当理解的是，本文中所使用的措辞或术语出于描述而非限制的目的，从而本说明书的术语或措辞应当由本领域技术人员根据本文中所提出的教导和指导结合相关领域技术人员的知识来解释。此外，不旨在将本说明书或权利要求中的任何术语归于不常见的或特定的含义，除非明确如此阐述。

本文中所公开的各个方面包括本文中以说明性方式所引用的已知模块的现在和未来已知的等同物。此外，尽管已经示出并描述了各个方面和应用，但是对于了解本发明的优点的本领域技术人员将显而易见的是，在不脱离本文中所公开的发明构思的前提下，相比于上文所提及的内容而言的更多修改是可行的。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：德米特里·S·多洛戈伊;亚历山大·V·沙罗夫;亚历山大·A·图佐夫斯基;伊利亚·A·捷列先科
技术所有人：卡巴斯基实验室股份制公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。