标签体系的构建方法及装置与流程

文档序号：16147284发布日期：2018-12-05 16:41阅读：468来源：国知局

本公开涉及数据处理技术领域，尤其涉及一种标签体系的构建方法及装置。

背景技术

随着社会信息化、智能化和智慧化发展的不断推进，信息获取手段和传播方式发生重大变化。多样的信息获取手段和信息传播方式为目标行为和选择提供了多种可能。构建目标标签体系，实现目标人员行为预测，受到各领域和业务部门的关注。

基于公安数据构建目标人员的标签体系，可以实现对目标人员倾向的研判，例如对目标人员涉恐倾向的研判，意义重大。相关技术中，基于公安数据构建目标人员的标签时存在：人物信息以逐条的数据库记录为主，人物刻画不直观；人物信息分散，特征信息整合和量化困难；主题信息不明显等问题。

技术实现要素：

有鉴于此，本公开提出了一种标签体系的构建方法及装置，能够全面直观的刻画目标对象的特征和倾向。

根据本公开的一方面，提供了一种标签体系的构建方法，所述方法包括：按照预设类目，从数据源中抽取目标对象的原始数据；对各预设类目的原始数据分别进行预处理，得到所述目标对象的各预设类目的目标特征信息，且每个预设类目的目标特征信息包括一个或多个字段；针对每个预设类目，从该预设类目的目标特征信息包括的字段中选择第一特征字段，并根据所述第一特征字段的特征值，确定该预设类目的标签；从所有预设类目的目标特征信息包括的字段中选择第二特征字段，并将所述第二特征字段的特征值输入倾向研判模型，得到所述目标对象的倾向预测标签；基于各预设类目的标签和所述倾向预测标签，构建所述目标对象的标签体系。

根据本公开的另一方面，提供了一种标签体系的构建装置，所述装置包括：抽取模块，用于按照预设类目，从数据源中抽取目标对象的原始数据；预处理模块，用于对各预设类目的原始数据分别进行预处理，得到所述目标对象的各预设类目的目标特征信息，且每个预设类目的目标特征信息包括一个或多个字段；确定模块，用于针对每个预设类目，从该预设类目的目标特征信息包括的字段中选择第一特征字段，并根据所述第一特征字段的特征值，确定该预设类目的标签；输入模块，用于从所有预设类目的目标特征信息包括的字段中选择第二特征字段，并将所述第二特征字段的特征值输入倾向研判模型，得到所述目标对象的倾向预测标签；构建模块，用于基于各预设类目的标签和所述倾向预测标签，构建所述目标对象的标签体系。

通过按照预设类目，从数据源中抽取目标对象的原始数据；对各预设类目的原始数据分别进行预处理，得到目标对象的各预设类目的目标特征信息，且每个预设类目的目标特征信息包括一个或多个字段；针对每个预设类目，从该类目的目标特征信息包括的字段中选择第一特征字段，并根据第一特征字段的特征值，确定该预设类目的标签；从所有预设类目的目标特征信息包括的字段中选择第二特征字段，并将第二特征字段的特征值输入倾向研判模型，得到所述目标对象的倾向预测标签；基于各预设类目的标签和倾向预测标签，构建所述目标对象的标签体系，根据本公开各方面的标签体系的构建方法及装置，能够获取目标对象在多个方面的标签，全面直观的刻画目标对象的特征和倾向。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出根据本公开一实施例的标签体系的构建方法的流程图。

图2示出根据本公开一实施例的标签体系的构建方法的流程图。

图3示出根据本公开一实施例的目标对象的标签体系的展示结果的一个示例。

图4示出根据本公开一实施例的标签体系的构建装置的框图。

图5示出根据本公开一实施例的标签体系的构建装置的框图。

图6是根据一示例性实施例示出的一种用于标签体系的构建的装置的框图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

图1示出根据本公开一实施例的标签体系的构建方法的流程图。根据标签体系的构建方法可以全面直观的刻画目标对象的特征和倾向，本公开实施例中以刻画目标对象的涉恐主题的特征和倾向为例进行说明。如图1所示，该标签体系的构建方法包括：

步骤s11，按照预设类目，从数据源中抽取目标对象的原始数据。

目标对象为需要刻画特征和倾向的对象。服务器可以从多个数据源(例如户籍系统、学籍系统、案件系统和道路监控系统等)抽取数据，将构建目标对象的标签体系时需要用到的数据整合在一起，解决原始数据因源于多张数据表和不同系统而造成的数据分散问题。

服务器在从多个数据源抽取数据时，可以按照预设类目进行抽取。针对每个预设类目，服务器可以从多个数据源中抽取与该预设类目有关的数据，作为该预设类目的原始数据。

以刻画目标对象的涉恐主题的特征和倾向为例，预设类目可以包括基本信息类目、财产状况类目、社交状态类目、轨迹信息类目和涉案信息类目。

其中，基本信息可以表示目标对象的基本情况，例如姓名、年龄、性别、户口地址、职业等。目标对象的基本信息记录在户籍信息、社保信息、学籍信息等多张数据表中。

财产状况可以表示目标对象的经济实力，例如拥有的房产和车辆等。目标对象的财产状况记录在房产信息、机动车登记表等多张数据表中。

社交状态可以表示目标对象的人际关系，例如经常与谁住在一起，经常与谁一起出行等。目标对象的社交状态可以基于住宿信息和出行信息等确定，其中，住宿信息主要记录在住宿登记表中，出行信息主要记录在火车、飞机等乘坐登记表、道路监控信息表中。

轨迹信息可以表示目标人员的活动情况，例如活动轨迹、目的地等。目标对象的轨迹信息可以基于出行信息确定。

步骤s12，对各预设类目的原始数据分别进行预处理，得到所述目标对象的各预设类目的目标特征信息，且每个预设类目的目标特征信息包括一个或多个字段。

服务器抽取到各预设类目原始数据后，对各个预设类目的原始数据分别进行预处理，得到各预设类目的目标特征信息，实现对各预设类目的特征数据的提取。

每个预设类目的目标特征信息可以包括一个或多个字段。各预设类目的特征信息包括哪些字段可以根据先验知识结合数据探索分析确定。例如，基本信息类目的特征信息可以包括姓名、年龄、体型、体重、婚姻状况、职业、文化程度、民族、户口地址、常驻地址、社保编号等字段。财产状况类目的特征信息可以包括房产数量、车辆数量等字段。社交状态类目的特征信息可以包括异常住宿、异常飞机、异常大巴、异常火车等字段。轨迹信息类目的特征信息可以包括出入敏感区的次数等字段。涉案信息类目的特征信息可以包括涉案次数、拘留次数、犯罪次数、涉毒次数、涉嫌次数等字段。各预设类目的特征信息包括的字段还可以通过其他方式进行确定，对此本公开不做限制。

在一种可能的实现方式中，步骤s12可以包括：对各预设类目的原始数据分别进行整合和清洗，得到各预设类目的初步信息；对各预设类目的初步信息进行离散化处理或统计分析处理，得到各预设类目的目标特征信息。

以涉案信息类目为例，对如何得到初步特征信息进行说明。目标对象的涉案信息记录在案件基本信息、涉案人员基本信息、交通违法信息等多张数据表中，这些数据表可以作为涉案信息维度的原始数据。服务器可以分别从这些数据表中获取目标对象涉案信息，将获取的这些涉案信息整合在一起并去除重复的信息，从而得到涉案信息类目的初步特征信息。

服务器得到各预设类目的初步特征信息后，可以对各预设类目的初步特征信息进行离散化处理或统计分析处理，得到各预设类目的目标特征信息。

其中，对各预设类目的初步信息进行离散化处理或统计分析处理，得到各预设类目的目标特征信息可以包括：针对每个预设类目的每个字段：若该字段对应于分类变量，则对预设类目中该字段的初步信息进行离散化处理，得到该字段的特征值；若该字段对应于连续变量，则对预设类目中该字段的初步信息进行统计分析，得到该字段的特征值。

以基本信息类目的户口地址字段为例，该字段对应于分类变量，可以通过离散化处理将户口地址离散化为北京、山东和上海等中的一个，将离散结果确定为户口地址字段的值。

以财产状况类目的房产数量字段、车辆数量字段为例，该字段对应于连续变量，可以通过统计分析统计目标对象拥有的房产数量和车辆数量，将统计结果作分别为财产状况类目中房产数量和车辆数量字段的值。

以涉案信息类目中交通事故次数字段为例，该字段对应于连续变量可以通过统计分析统计目标对象发生的交通事故的次数，将统计结果作作为交通事故次数字段的值。

以轨迹信息类目的出入学校次数字段为例，该字段对应于连续变量，可以通过统计分析统计目标对象发生交通事故的次数，将统计结果作为轨迹信息类目的出入学校次数字段的值。

以社交状态类目中的异常火车次数字段为例，该字段对应于连续变量，可以通过统计分析统计目标对象异常火车次数，将统计结果作为社交状态类目的异常火车次数字段的值。

需要说明的是，服务器在统计目标对象异常火车次数时，需要首先通过关联分析，确定什么是异常火车。在一个示例中，服务器可以提取目标对象的火车出行记录，以及可能存在同火车出行关系的人员的火车出行记录，通过关联分析，确定和目标对象多次同火车出行的人员列表，形成该目标对象的同火车出行关系圈，进而确定目标人员是否与重点人员(例如，涉恐人员)存在同火车出行关系，若存在同火车出行关系，则确定本次出行为异常火车。

步骤s13，针对每个预设类目，从该预设类目的目标特征信息包括的字段中选择第一特征字段，并根据所述第一特征字段的特征值，确定该预设类目的标签。

第一特征字段为能够体现目标对象在相应预设类目特点的字段。服务器可以通过分析各预设类目的第一特征字段的特征值，得到各预设类目的标签。

在一种可能的实现方式中，可以通过过滤式特征选择方法从各预设类目的目标特征信息包括的所有字段中选择第一特征字段。其中，过滤式特征选择与特定的学习算法无关，选择出来的指标具有较强的通用型，选择方法计算复杂度低，可以快速去除大量不相关的冗余特征，可以作为特征的预筛选器。

在一个示例中，基本信息类目的目标特征信息的第一特征字段可以包括姓名、性别、年龄和职业字段，各第一特征字段的特征值分别为小明、男、21岁和学生，则目标对象在基本信息类目的标签为小明、男、21岁和学生。

财产状况类目的目标特征信息的第一特征字段可以包括房产数量和车辆数量字段。服务器可以将目标对象作为目标群体中的一个对象，根据目标群体中每个对象的房产数量和车辆数据进行聚类(例如，采用k-均值等算法进行聚类)，根据聚类结果，确定目标对象所述类别，将目标对象所述类别对应的标签确定为目标对象在财产状况类目下的标签。例如，目标对象归类于拥有多套房产和车辆的类别时，对应标签为富人；目标对象归类于拥有无车无房类别时，对应标签为穷人。

社交状态类目的目标特征信息的第一特征字段可以包括异常住宿次数、异常飞机次数、异常大巴次数、异常火车次数和异常通话次数字段。异常住宿次数、异常飞机次数、异常大巴次数、异常火车次数和异常通话次数分别表示与重点人员同住宿、同飞机、同大巴、同火车、通话的次数。当目标对象对应的异常火车次数字段的特征值小于指定阈值时，可以确定目标对象在社交状态类目下的标签为火车出行正常；当目标对象对应的异常火车次数字段的特征值大于或等于指定阈值时，可以确定目标对象在社交状态类目下的标签为火车出行异常。其中，指定阈值可以根据需要进行设置，例如设置为2或者3等，对此本公开不做限制。目标对象在社交状态类目下与异常住宿次数、异常飞机次数、异常大巴次数和异常通话次数对应的标签，可以参照异常或者次数对应的标签，这里不再赘述。

轨迹信息类目的目标特征信息的第一特征字段可以包括出入敏感区的次数，其中敏感区包括学校、火车站、商场等人员密集的场所中的一个或多个。举例来说，当目标对象对应的出入学校的次数和出入火车站次数较多时，可以确定目标对象在轨迹信息类目下的标签为常驻学校和常去火车站。

涉案信息类目的目标特征信息的第一特征字段可以包括交通违规次数、涉毒次数。举例来说，当目标对象对应的交通违规次数和涉毒次数为0时，可以确定目标对象在涉案信息类目下的标签为无交通违规和无涉毒信息。

步骤s14，从所有预设类目的目标特征信息包括的字段中选择第二特征字段，并将第二特征字段的特征值，输入倾向研判模型，得到所述目标对象的倾向预测标签。

第二特征字段为对倾向判断有影响的字段，倾向研判模型中可以采用这些字段的特征值，第二特征字段与目标对象的倾向密切相关(例如，与目标对应的涉恐倾向密切相关)，第二特征字段可以包括各个类目中的字段，例如基本信息类目中的职业字段、涉案信息类目中的涉毒次数字段、社交状态类目中的异常火车字段和异常住宿字段、轨迹信息类目中的出入敏感区次数字段。第二特征字段的选择方式可以参照第一特征字段，这里不再赘述。

倾向研判模型为用于判断目标对象倾向的机器学习模型。

在一种可能的实现方式中，通过训练对象的目标特征信息，训练所述倾向研判模型，具体可以包括：获取多个训练对象的目标特征信息，从每一个训练对象的目标特征信息中获取第二特征字段对应的特征值，得到与每一个训练对象对应的第二特征值集合；采用所有训练对象的第二特征值集合和各训练对象的真实标签，训练逻辑回归模型，得到所述倾向研判模型。

其中，训练对象的目标特征信息的确定方法可以参照目标对象的目标特征信息的确定方法，这里不再赘述。

logistic逻辑回归模型是一种概率型非线性回归模型，是研究二分类观察结果y与一些影响因素(x1,x2,…,xn)之间关系的一种多变量分析方法。通常的问题是，研究某些因素条件下某个结果是否发生，比如根据目标对象的一些公安数据判断该目标对象是否有涉恐倾向。

在分类情形下，经过学习后的lr(logisticregressionclassifier，logistic回归分类器)是一组权值(w0,w1,…,wn)，当测试样本的数据输入时，这组权值与测试数据按照线性加和得到：g(x)＝w0+w1x1+…+wnxn，其中，x1,x2,…,xn是每个样本的n个特征。之后按照sigmoid函数的形式得到

设条件概率p(y＝1|x)为在x条件下y发生的概率。logistics回归模型可以表示为其中，g(x)＝w0+w1x1+…+wnxn。在x条件下y不发生的概率为在x条件下y发生与不发生的概率之比为：这个比值称为在x条件下y的发生比，简记为odds。对odds取对数得到：

在本公开实施例中，目标对象的第二特征字段对应的第二特征值可以作为服务器训练得到的logistic逻辑回归模型(倾向研判模型)中的(x1,x2,…,xn)，将第二特征值集合输入该模型中可以得到在x条件下y发生的概率或者在x条件下y不发生的概率，从而确定y是否发生，得到分类结果。在本公开实施例中，服务器可以将该倾向研判模型的输出结果作为目标对象的倾向预测标签。在一个示例中，目标对象的倾向预测标签分为有涉恐倾向和无涉恐倾向。

步骤s15，基于各预设类目的标签和所述倾向预测标签，构建所述目标对象的标签体系。

目标对象在各预设类目的标签和倾向预测标签共同构成目标对象的标签体系。

在本公开实施例中，能够获取目标对象多个方面标签，全面直观的刻画了目标对象的特征和倾向。

图2示出根据本公开一实施例的标签体系的构建方法的流程图。如图2所示，该方法还包括：

步骤s16，展示所述目标对象的标签体系，所述标签体系包括所述倾向预测标签和各预设类目的标签。

图3示出根据本公开一实施例的目标对象的标签体系的展示结果的一个示例。如图3所示，展示了目标对象在基本信息、财产状况、社交状态、轨迹信息和涉案信息五个类目下的标签，以及倾向预测标签和分类概率。

另外，在logistic逻辑回归模型训练完成的情况下，logistic逻辑回归模型的权值(w0,w1,…,wn)是确定的，将第二特征值集合(x1,x2,…,xn)输入logistic逻辑回归模型后，可以通过公式g(x)＝w0+w1x1+…+wnxn，得到在x条件下y发生的概率，从确定目标对象的分类概率，例如图3所示的涉恐倾向的评分。

图4示出根据本公开一实施例的标签体系的构建装置的框图。如图4所示，该装置40包括：

抽取模块41，用于按照预设类目，从数据源中抽取目标对象的原始数据；

预处理模块42，用于对各预设类目的原始数据分别进行预处理，得到所述目标对象的各预设类目的目标特征信息，且每个预设类目的目标特征信息包括一个或多个字段；

确定模块43，用于针对每个预设类目，从该预设类目的目标特征信息包括的字段中选择第一特征字段，并根据所述第一特征字段的特征值，确定该预设类目的标签；

输入模块44，用于从所有预设类目的目标特征信息包括的字段中选择第二特征字段，并将所述第二特征字段的特征值输入倾向研判模型，得到所述目标对象的倾向预测标签；

构建模块45，用于基于各预设类目的标签和所述倾向预测标签，构建所述目标对象的标签体系。

图5示出根据本公开一实施例的标签体系的构建装置的框图。如图5所示，在一种可能的实现方式中，所述预处理模块42包括：

整合子模块421，用于对各预设类目的原始数据分别进行整合和清洗，得到各预设类目的初步信息；

处理子模块422，用于对各预设类目的初步信息进行离散化处理或统计分析处理，得到各预设类目的目标特征信息。

在一种可能的实现方式中，所述处理子模块422具体用于：

针对每个预设类目的每个字段：

若该字段对应于分类变量，则对预设类目中该字段的初步信息进行离散化处理，得到该字段的特征值；

若该字段对应于连续变量，则对预设类目中该字段的初步信息进行统计分析，得到该字段的特征值。

在一种可能的实现方式中，所述装置40还包括：

训练模块46，用于通过训练对象的目标特征信息，训练所述倾向研判模型，其中，所述训练模块46包括：

获取子模块461，用于获取多个训练对象的目标特征信息，从每一个训练对象的目标特征信息中获取第二特征字段对应的特征值，得到与每一个训练对象对应的第二特征值集合；

训练子模块462，用于采用所有训练对象的第二特征值集合和各训练对象的真实标签，训练逻辑回归模型，得到所述倾向研判模型。

在一种可能的实现方式中，该装置40还包括：

选择模块47，用于采用过滤式特征选择法选择所述第一特征字段和所述第二特征字段。

在一种可能的实现方式中，所述装置40还包括：

展示模块48，用于展示所述目标对象的标签体系，所述标签体系包括所述倾向预测标签和各预设类目的标签。

图6是根据一示例性实施例示出的一种用于标签体系的构建的装置900的框图。参照图6，该装置900可包括处理器901、存储有机器可执行指令的机器可读存储介质902。处理器901与机器可读存储介质902可经由系统总线903通信。并且，处理器901通过读取机器可读存储介质902中与标签体系的构建逻辑对应的机器可执行指令以执行上文所述的标签体系的构建方法。

本文中提到的机器可读存储介质902可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：ram(radomaccessmemory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、dvd等)，或者类似的存储介质，或者它们的组合。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑东东
技术所有人：新华三大数据技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。