用于敏感内容质检模型的训练文本采集方法、系统及设备与流程

文档序号:26733646发布日期:2021-09-22 21:59阅读:71来源:国知局
用于敏感内容质检模型的训练文本采集方法、系统及设备与流程

1.本发明实施例涉及数据采集领域,尤其涉及一种用于敏感内容质检模型的 训练文本采集方法、系统及设备。


背景技术:

2.随着互联网的快速发展和全民应用,网络舆情成为社会舆情中十分重要的 一部分。相对于传统媒介(电视、报纸、广播等),承载网络舆情的互联网呈现 出言论自由度过高、突发性、传播快、受众广等特点,这也给舆情监控系统提 出了实时性、高精度等要求。因此,针对有恶意在网络上散布敏感恶意内容的 敏感恶意内容质检显得尤为重要。
3.敏感内容质检问题也可以看作是短文本分类问题,即判断一个用户发出的 文本信息是属于正常文本或违规文本。传统的敏感内容识别模型通常采用有监 督的机器学习方法。而敏感内容识别模型的识别率往往取决于训练文本的有效 性,即使用越有效的训练文本可以提高敏感内容识别模型的识别率。但是,若 有恶意用户通过间杂特殊符号、同音字变换、孤僻字、形近字变换、偏旁拆分 等低成本手段绕过敏感内容识别模型或传统安全策略的拦截,传统的敏感内容 识别模型将无法有效的进行拦截;而这些训练文本获取难度较高,现有训练文 本需要人为获取筛选,且获取速度很难跟上敏感内容的变化速度。因此,如何 提高敏感内容质检模型的训练文本的获取速度和效率成为了当前亟需解决的技 术问题。


技术实现要素:

4.有鉴于此,有必要提供一种用于敏感内容质检模型的训练文本采集方法、 系统、设备及可读存储介质,以解决敏感内容质检模型的训练文本获取难度较 高、获取速度和效率较低的问题。
5.为实现上述目的,本发明实施例提供了一种用于敏感内容质检模型的训练 文本采集方法,所述方法步骤包括:
6.获取多个用户的账号数据和各个用户之间的关系数据,以得到多个账号数 据和多个关系数据;
7.根据所述多个账号数据和所述多个关系数据构建账号联系图谱;
8.基于所述账号联系图谱对各个账号数据进行聚类,以得到多个用户集合;
9.从所述多个用户集合中选取出敏感账号集合,所述敏感账号集合包括多个 敏感用户;
10.采集各个敏感用户在预设时间窗口的历史文本,以得到多个历史文本;及
11.对所述多个历史文本进行筛选操作,以得到用于训练所述敏感内容质检模 型的多个训练文本。
12.可选的,所述根据所述多个账号数据和所述多个关系数据构建账号联系图 谱的步骤,包括:
13.将每个账号数据定义为实体v,以得到所述多个账号数据对应的账号集合 v={v1,v2,

,v
n
};
14.将每个关系数据定义为边e,以得到所述多个关系数据对应的关系集合 e={e1,e2,

,e
m
};及
15.根据所述账号集合中的各个实体v和所述关系集合中的各个边e,定义所 述账号联系图谱。
16.可选的,所述基于所述账号联系图谱对各个账号数据进行聚类,以得到多 个用户集合的步骤,包括:
17.基于社区划分算法对所述账号联系图谱进行图谱分区操作,以得到多个目 标图谱社区;及
18.根据每个目标图谱社区中的用户账号生成一个用户集合,以得到所述多个 用户集合。
19.可选的,所述基于社区划分算法对所述账号联系图谱进行图谱分区操作, 以得到多个目标图谱社区的步骤,包括:
20.对所述账号联系图谱进行初始化操作,以将所述账号联系图谱的各个实体 划分为多个初始图谱社区;
21.执行第i次划分操作:将各个第i

1次划分的图谱社区中每个实体,划分到 与该实体相邻的图谱社区中,以生成多个第i次划分的图谱社区;i为正整数, 所述i为1时,所述第i

1次划分的图谱社区为所述初始图谱社区;所述i为> 1时,所述第i

1次划分的图谱社区为第i

1次划分操作得到的图谱社区;
22.执行第i次构建操作:基于所述多个第i次划分的图谱社区构建的多个第i 次构建的社区网络,其中,每个第i次划分的图谱社区对应一个第i次构建的社 区网络;
23.判断每个第i次构建的社区网络与对应的第i

1次构建的社区网络的网络结 构是否相同;
24.若每个第i次构建的社区网络与对应的第i

1次构建的社区网络的网络结构 不相同,则执行第i+1次划分操作和第i+1次构建操作;
25.若每个第i次构建的社区网络与对应的第i

1次构建的社区网络的网络结构 相同,则不执行第i+1次划分操作和第i+1次构建操作,并将所述多个第i次划 分的图谱社区作为所述多个目标图谱社区。
26.可选的,所述将各个第i

1次划分的图谱社区中每个实体,划分到与该实 体相邻的图谱社区中,以生成多个第i次划分的图谱社区的步骤,包括:
27.计算各个第i

1次划分的图谱社区的目标实体的第一模块度,所述第一模 块度为所述目标实体在被划分到相邻图谱社区之前的模块度,所述模块度用于 表示实体在对应的图谱社区的稳定度,所述目标实体为各个第i

1次划分的图 谱社区中的任意一个实体;
28.计算所述目标实体的第二模块度,所述第二模块度为所述目标实体在被划 分到相邻图谱社区之后的模块度;
29.判断所述目标实体的所述第一模块度是否小于所述第二模块度;及
30.若所述目标实体的所述第一模块度不小于所述第二模块度,则基于所述目 标实体生成第i次划分的图谱社区中。
31.可选的,所述对所述多个历史文本进行筛选操作,以得到用于训练所述敏 感内容质检模型的多个训练文本的步骤,包括:
32.通过预设敏感词对所述多个历史文本进行聚类操作,以得到多个聚类文本 集合;
33.根据所述预设敏感词筛选所述多个聚类文本集合,得到目标聚类;及
34.将所述目标聚类中的多个文本作为所述多个训练文本。
35.可选的,还包括:将所述多个训练文本上传到区块链。
36.为实现上述目的,本发明实施例还提供了一种用于敏感内容质检模型的训 练文本采集系统,包括:
37.获取模块,用于获取多个用户的账号数据和各个用户之间的关系数据,以 得到多个账号数据和多个关系数据;
38.构建模块,用于根据所述多个账号数据和所述多个关系数据构建账号联系 图谱;
39.聚类模块,用于基于所述账号联系图谱对各个账号数据进行聚类,以得到 多个用户集合;
40.选取模块,用于从所述多个用户集合中选取出敏感账号集合,所述敏感账 号集合包括多个敏感用户;
41.采集模块,用于采集各个敏感用户在预设时间窗口的历史文本,以得到多 个历史文本;及
42.筛选模块,用于对所述多个历史文本进行筛选操作,以得到用于训练所述 敏感内容质检模型的多个训练文本。
43.为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设 备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算 机程序,所述计算机程序被处理器执行时实现如上述的用于敏感内容质检模型 的训练文本采集方法的步骤。
44.为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述 计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理 器所执行,以使所述至少一个处理器执行如上述的用于敏感内容质检模型的训 练文本采集方法的步骤。
45.本发明实施例提供的用于敏感内容质检模型的训练文本采集方法、系统、 计算机设备及计算机可读存储介质,本实施例通过构建账号联系图谱,并基于 选取出敏感账号集合,以从敏感账号的历史文本中获取多个训练文本,减少了 人工筛选环节,降低了训练文本的获取成本和获取难度,提高了训练文本准确 率和获取效率。
附图说明
46.图1为本发明实施例用于敏感内容质检模型的训练文本采集方法的流程示 意图;
47.图2为本发明用于敏感内容质检模型的训练文本采集系统实施例二的程序 模块示意图;
48.图3为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
49.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实 施例,
对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅 用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通 技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发 明保护的范围。
50.需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的, 而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。 由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。 另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技 术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认 为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
51.实施例一
52.参阅图1,示出了本发明实施例之用于敏感内容质检模型的训练文本采集 方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的 顺序进行限定。本实施例中的用于敏感内容质检模型的训练文本采集系统可以 被执行在计算机设备2中,下面以计算机设备2为执行主体进行示例性描述。 具体如下。
53.步骤s100,获取多个用户的账号数据和各个用户之间的关系数据,以得到 多个账号数据和多个关系数据。
54.所述账号数据可以是各个用户的用户id,所述关系数据可以是用于记录各 个用户之间的关联关系的数据,所述关联关系可以包括各个用户账号是否互为 好友、是否共用设备、是否共用ip、是否共用非共用wifi等关系。
55.步骤s102,根据所述多个账号数据和所述多个关系数据构建账号联系图谱。
56.所述多个账号数据对应的多个账号可以是指发布过违规信息的恶意账号。
57.在实际场景中,有些有恶意用户通常会通过间杂特殊符号、同音字变换、 孤僻字、形近字变换、偏旁拆分等低成本手段绕过敏感内容识别模型或传统安 全策略的拦截,从而使得传统的敏感内容识别模型将无法有效的进行拦截,增 加了获取用于训练敏感内容识别模型的训练文本难度。但是,由于资源的有限 性,恶意账号的用户通常会利用有限的设备,在有限的地域范围内发布大量的 违规消息,因此,恶意账号之间在ip及设备上往往会存在很大的聚集性。本实 施例可以基于多个账号之间的关系构建账号联系图谱,并通过所述账号联系图 谱定位恶意账号,以从恶意账号发布过的信息中获取恶意内容,降低了训练文 本的获取难度。所述账号联系图谱可以是由所述多个账号数据v和所述多个关 系数据e定义的多个三元组构成的图谱g=(v,e)。
58.在示例性的实施例中,所述步骤s102还可以进一步的包括步骤s200~步骤 s204,其中:步骤s200,将每个账号数据定义为实体v,以得到所述多个账号 数据对应的账号集合v={v1,v2,

,v
n
};步骤s202,将每个关系数据定义为边e, 以得到所述多个关系数据对应的关系集合e={e1,e2,

,e
m
};及步骤s204,根据 所述账号集合中的各个实体v和所述关系集合中的各个边e,定义所述账号联 系图谱。本实施例通过将每个账号数据定义为实体v,将每个关系数据定义为 边e,并基于实体v和边e构建所述账号联系图谱g=(v,e),以通过账号联 系图谱g=(v,e)记录所述多个账号数据之间的内在关系,提高了恶意账号的 筛选效率。
59.步骤s104,基于所述账号联系图谱对各个账号数据进行聚类,以得到多个 用户集
合。
60.为了提高定位恶意账号的准确率,本实施例可以基于所述账号联系图谱对 各个账号数据进行聚类,以得到多个用户集合。
61.在示例性的实施例中,所述步骤s104还可以进一步的包括步骤s300~步骤 s302,其中:步骤s300,基于社区划分算法对所述账号联系图谱进行图谱分区 操作,以得到多个目标图谱社区;及步骤s302,根据每个目标图谱社区中的用 户账号生成一个用户集合,以得到所述多个用户集合。所述社区划分算法(如, fast

unfolding算法)是基于模块度对图谱网络划分的迭代算法。本实施例所述 fast

unfolding算法对账号联系图谱进行不断划分操作,并通过提高整个网络的 所述模块度,使划分后的网络社区结构强度不断增大,当社区结构强度不再变 化时,网络社区结构趋于稳定,此时可以得到具有稳定结构的多个目标图谱社 区。本实施例通过迭代算法提高了图谱社区的稳定性,进一步地提高了定位恶 意账号的准确率。
62.在示例性的实施例中,所述步骤s300还可以进一步的包括步骤s400~步骤 s410,其中:步骤s400,对所述账号联系图谱进行初始化操作,以将所述账号 联系图谱的各个实体划分为多个初始图谱社区;步骤s402,执行第i次划分操 作:将各个第i

1次划分的图谱社区中每个实体,划分到与该实体相邻的图谱 社区中,以生成多个第i次划分的图谱社区;i为正整数,所述i为1时,所述 第i

1次划分的图谱社区为所述初始图谱社区;所述i为>1时,所述第i

1次 划分的图谱社区为第i

1次划分操作得到的图谱社区;步骤s404,执行第i次 构建操作:基于所述多个第i次划分的图谱社区构建的多个第i次构建的社区网 络,其中,每个第i次划分的图谱社区对应一个第i次构建的社区网络;步骤 s406,判断每个第i次构建的社区网络与对应的第i

1次构建的社区网络的网络 结构是否相同;步骤s408,若每个第i次构建的社区网络与对应的第i

1次构 建的社区网络的网络结构不相同,则执行第i+1次划分操作和第i+1次构建操 作;步骤s410,若每个第i次构建的社区网络与对应的第i

1次构建的社区网 络的网络结构相同,则不执行第i+1次划分操作和第i+1次构建操作,并将所 述多个第i次划分的图谱社区作为所述多个目标图谱社区。本实施例通过执行 第i次划分操作和第i次构建操作,提高了对将所述账号联系图谱划分的准确性, 从而进一步地提高了目标图谱社区的稳定性。
63.在示例性的实施例中,所述步骤s402还可以进一步的包括步骤s500~步骤 s506,其中:步骤s500,计算各个第i

1次划分的图谱社区的目标实体的第一 模块度,所述第一模块度为所述目标实体在被划分到相邻图谱社区之前的模块 度,所述模块度用于表示实体在对应的图谱社区的稳定度,所述目标实体为各 个第i

1次划分的图谱社区中的任意一个实体;步骤s502,计算所述目标实体 的第二模块度,所述第二模块度为所述目标实体在被划分到相邻图谱社区之后 的模块度;步骤s504,判断所述目标实体的所述第一模块度是否小于所述第二 模块度;及步骤s506,若所述目标实体的所述第一模块度不小于所述第二模块 度,则基于所述目标实体生成第i次划分的图谱社区中。所述模块度(也称之 为:模块化度量值)用于衡量网络社区结构强度,所述模块度的计算如下:
64.[0065][0066]
其中,aij表示实体i和j之间的权重,k
i
表示与i相连的所有边权重之和, δ(
·
)是指示函数,表示的是若两个实体是否为同一个社区,若两个实体是同一个 社区,则为1,若两个实体不是同一个社区,则为0。
[0067]
在一些实施例中,所述第一模块度和所述第二模块度之差可以通过模块化 梯度增益表示,并通过判断所述模块化梯度增益是否为正数确定是否所述目标 实体生成第i次划分的图谱社区。其中,模块化梯度增益计算如下:
[0068][0069]
其中,[c]表示的是社区c内部的权重之和,表示社区c内部的实体 连接的边的权重之和,包括社区内部的边以及社区外部的边。
[0070]
步骤s106,从所述多个用户集合中选取出敏感账号集合,所述敏感账号集 合包括多个敏感用户。
[0071]
当得到多个用户集合后,可以基于预设的黑名单来筛选出多个敏感账号集 合。在本实施例中可以预先统计各个黑名单的团伙内的特征,例如年龄、性别 的分布特征,ip地址等信息,通过已发现的黑名单团伙特的征来标注各个团伙, 并通过监督模型分类,找出敏感账号集。
[0072]
步骤s108,采集各个敏感用户在预设时间窗口的历史文本,以得到多个历 史文本。
[0073]
由于敏感用户在一定时间切片内(预设时间窗口)的消息内容通常会存在 相似性,因此本实施例可以在一定时间切片内对所有敏感用户对应的敏感账号 所发出的文本信息做文本聚类,并筛选出多个历史文本,所述历史文本为各个 敏感用户在时间切片内发送的文本。
[0074]
步骤s110,对所述多个历史文本进行筛选操作,以得到用于训练所述敏感 内容质检模型的多个训练文本。
[0075]
为了进一步的提高训练文本的有效性,本实施例还可以对所述多个历史文 本进行筛选操作,以从所述多个历史文本获取用于训练所述敏感内容质检模型 的多个训练文本。
[0076]
在示例性的实施例中,所述步骤s110还可以进一步的包括步骤s600~步骤 s604,其中:步骤s600,通过预设敏感词对所述多个历史文本进行聚类操作, 以得到多个聚类文本集合;步骤s602,根据所述预设敏感词筛选所述多个聚类 文本集合,得到目标聚类;及步骤s604,将所述目标聚类中的多个文本作为所 述多个训练文本。所述dbscan算法是基于密度的聚类算法,它能够将足够高 的密度趋于划分成簇,并能在具有噪声的空间数据库中识别出任意形式的簇, 具有非常高的鲁棒性。其中,dbscan算法将数据点分为三类:核心点,在半 径eps内含有超过minpts数目的点;边界点,在半径eps内点的数量小于minpts, 但是落在核心点的邻域内的点;噪音点,既不是核心点也不是边界点的点。通 过本实施例筛选出来的训练文本具有一下几个优点:筛选出来的训练文本更优 代表性,能够较好追溯到同
类的恶意账户;方便后续的进一步细分,通过聚类 算法的处理,在一定程度上也能够细分出不同类型的敏感内容,更方便后续对 这些文本的处理。
[0077]
在得到所述多个目训练文本后,本实施例可以基于多个训练文本训练敏感 内容识别模型,以优化敏感内容识别模型。本实施例通过构建账号联系图谱, 并基于选取出敏感账号集合,以从敏感账号的历史文本中获取多个训练文本, 减少了人工筛选环节,降低了训练文本的获取成本和获取难度,提高了训练文 本准确率和获取效率。
[0078]
示例性的,所述用于敏感内容质检模型的训练文本采集方法还包括:将所 述多个训练文本上传到区块链。
[0079]
示例性的,将所述多个训练文本上传至区块链可保证其安全性和公正透明 性。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法 等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的 数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了 一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。 区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0080]
实施例二
[0081]
图2为本发明用于敏感内容质检模型的训练文本采集系统实施例二的程序 模块示意图。用于敏感内容质检模型的训练文本采集系统20可以包括或被分割 成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一 个或多个处理器所执行,以完成本发明,并可实现上述用于敏感内容质检模型 的训练文本采集方法。本发明实施例所称的程序模块是指能够完成特定功能的 一系列计算机程序指令段,比程序本身更适合于描述用于敏感内容质检模型的 训练文本采集系统20在存储介质中的执行过程。以下描述将具体介绍本实施例 各程序模块的功能:
[0082]
获取模块200,用于获取多个用户的账号数据和各个用户之间的关系数据, 以得到多个账号数据和多个关系数据。
[0083]
构建模块202,用于根据所述多个账号数据和所述多个关系数据构建账号 联系图谱。
[0084]
聚类模块204,用于基于所述账号联系图谱对各个账号数据进行聚类,以 得到多个用户集合。
[0085]
选取模块206,用于从所述多个用户集合中选取出敏感账号集合,所述敏 感账号集合包括多个敏感用户。
[0086]
采集模块208,用于采集各个敏感用户在预设时间窗口的历史文本,以得 到多个历史文本。
[0087]
筛选模块210,用于对所述多个历史文本进行筛选操作,以得到用于训练 所述敏感内容质检模型的多个训练文本。
[0088]
示例性的,所述构建模块202,还用于:将每个账号数据定义为实体v,以 得到所述多个账号数据对应的账号集合v={v1,v2,

,v
n
};将每个关系数据定义 为边e,以得到所述多个关系数据对应的关系集合e={e1,e2,

,e
m
};及根据所述 账号集合中的各个实体v和所述关系集合中的各个边e,定义所述账号联系图 谱。
[0089]
示例性的,所述聚类模块204,还用于:基于社区划分算法对所述账号联 系图谱进
行图谱分区操作,以得到多个目标图谱社区;及根据每个目标图谱社 区中的用户账号生成一个用户集合,以得到所述多个用户集合。
[0090]
示例性的,所述聚类模块204,还用于:对所述账号联系图谱进行初始化 操作,以将所述账号联系图谱的各个实体划分为多个初始图谱社区;执行第i 次划分操作:将各个第i

1次划分的图谱社区中每个实体,划分到与该实体相 邻的图谱社区中,以生成多个第i次划分的图谱社区;i为正整数,所述i为1 时,所述第i

1次划分的图谱社区为所述初始图谱社区;所述i为>1时,所述 第i

1次划分的图谱社区为第i

1次划分操作得到的图谱社区;执行第i次构建 操作:基于所述多个第i次划分的图谱社区构建的多个第i次构建的社区网络, 其中,每个第i次划分的图谱社区对应一个第i次构建的社区网络;判断每个第 i次构建的社区网络与对应的第i

1次构建的社区网络的网络结构是否相同;若 每个第i次构建的社区网络与对应的第i

1次构建的社区网络的网络结构不相同, 则执行第i+1次划分操作和第i+1次构建操作;若每个第i次构建的社区网络与 对应的第i

1次构建的社区网络的网络结构相同,则不执行第i+1次划分操作和 第i+1次构建操作,并将所述多个第i次划分的图谱社区作为所述多个目标图 谱社区。
[0091]
示例性的,所述聚类模块204,还用于:计算各个第i

1次划分的图谱社区 的目标实体的第一模块度,所述第一模块度为所述目标实体在被划分到相邻图 谱社区之前的模块度,所述模块度用于表示实体在对应的图谱社区的稳定度, 所述目标实体为各个第i

1次划分的图谱社区中的任意一个实体;计算所述目 标实体的第二模块度,所述第二模块度为所述目标实体在被划分到相邻图谱社 区之后的模块度;判断所述目标实体的所述第一模块度是否小于所述第二模块 度;及若所述目标实体的所述第一模块度不小于所述第二模块度,则基于所述 目标实体生成第i次划分的图谱社区中。
[0092]
示例性的,所述筛选模块210,还用于:通过预设敏感词对所述多个历史 文本进行聚类操作,以得到多个聚类文本集合;根据所述预设敏感词筛选所述 多个聚类文本集合,得到目标聚类;及将所述目标聚类中的多个文本作为所述 多个训练文本。
[0093]
示例性的,所述用于敏感内容质检模型的训练文本采集系统20还包括,上 传模块,所述上传模块,用于将所述多个训练文本上传到区块链中。
[0094]
实施例三
[0095]
参阅图3,是本发明实施例三之计算机设备的硬件架构示意图。本实施例 中,计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计 算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、 塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服 务器集群)等。如图所示,计算机设备2至少包括,但不限于,可通过系统总 线相互通信连接存储器21、处理器22、网络接口23、以及用于敏感内容质检 模型的训练文本采集系统20。
[0096]
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可 读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器 等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器 (rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、 磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2 的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存 储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的 插
接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital, sd)卡,闪存卡(flash card)等。当然,存储器21还可以既包括计算机设备 2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存 储安装于计算机设备2的操作系统和各类应用软件,例如实施例二的用于敏感 内容质检模型的训练文本采集系统20的程序代码等。此外,存储器21还可以 用于暂时地存储已经输出或者将要输出的各类数据。
[0097]
处理器22在一些实施例中可以是中央处理器(central processing unit, cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通 常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器 21中存储的程序代码或者处理数据,例如运行用于敏感内容质检模型的训练文 本采集系统20,以实现实施例一的用于敏感内容质检模型的训练文本采集方法。
[0098]
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通 常用于在计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接 口23用于通过网络将计算机设备2与外部终端相连,在计算机设备2与外部终 端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(intranet)、互联网(internet)、全球移动通讯系统(global system of mobilecommunicati/on,gsm)、宽带码分多址(wideband code divisi/on multipleaccess,wcdma)、4g网络、5g网络、蓝牙(bluetooth)、wi

fi等无线或有 线网络。
[0099]
需要指出的是,图3仅示出了具有部件20

23的计算机设备2,但是应理 解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
[0100]
在本实施例中,存储于存储器21中的用于敏感内容质检模型的训练文本采 集系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块 被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执 行,以完成本发明。
[0101]
例如,图2示出了本发明实施例二之所述实现用于敏感内容质检模型的训 练文本采集系统20的程序模块示意图,该实施例中,所述用于敏感内容质检模 型的训练文本采集系统20可以被划分为获取模块200、构建模块202、聚类模 块204、选取模块206、采集模块208和筛选模块210。其中,本发明所称的程 序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描 述所述用于敏感内容质检模型的训练文本采集系统20在计算机设备2中的执行 过程。所述程序模块200

210的具体功能在实施例二中已有详细描述,在此不 再赘述。
[0102]
实施例四
[0103]
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡 型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机 访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器 (eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘、服务 器、app应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相 应功能。本实施例的计算机可读存储介质用于敏感内容质检模型的训练文本采 集系统20,被处理器执行时实现实施例一的用于敏感内容质检模型的训练文本 采集方法。
[0104]
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0105]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实 施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬 件,但很多情况
下前者是更佳的实施方式。
[0106]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利 用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运 用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1