字符串处理方法和装置的制造方法

文档序号:9524273阅读:146来源:国知局
字符串处理方法和装置的制造方法
【技术领域】
[0001] 本申请设及互联网领域,具体而言,设及一种字符串处理方法和装置。
【背景技术】
[0002] 在互联网领域,对网络数据进行分析之前,需要从网络上爬取大量的数据,例如论 坛、微博等数据。而在论坛的帖子的正文中,经常被恶意的注入许多链接,数量可能会达到 几千甚至上万个,称为灌水帖。运种论坛可能整个板块都被灌水帖占据,且每天不断的更 新。运些灌水帖被爬取下来后,在解析论坛的帖子内容过程中,会极大的降低解析的效率, 因此,需要找出灌水帖,并将其剔除。
[0003] 目前,对于灌水帖的识别通常是:在给定有效字符集的情况下,遍历整个帖子内容 里的字符串,计算整个字符串内有效字符的个数,再根据有效字符的比例来判别字符串是 否为灌水帖。然而,大部分灌水帖的篇幅较长,可能包含上万甚至几十万的字符数,运使得 遍历整个字符串的过程耗时长,有效字符的比例计算速度慢,进而导致对灌水帖的识别效 率低。
[0004] 针对上述的问题,目前尚未提出有效的解决方案。

【发明内容】
阳〇化]本申请实施例提供了一种字符串处理方法和装置,W至少解决对灌水帖的字符串 中有效字符的比例计算速度慢的技术问题。
[0006] 根据本申请实施例的一个方面,提供了一种字符串处理方法,包括:获取目标字符 串;从所述目标字符串上随机选择预设数量的字符;利用预先设置的有效字符集从选择的 所述预设数量的字符中确定出有效字符,统计所述有效字符的数量;W及根据所述预设数 量和所述有效字符的数量计算选择的所述预设数量的字符中有效字符的比例,将所述比例 作为所述目标字符串中有效字符的比例。
[0007] 进一步地,在所述根据所述预设数量和所述有效字符的数量计算选择的所述预设 数量的字符中有效字符的比例之后,所述方法还包括:记录所述有效字符的比例;判断从 所述目标字符串上随机选择预设数量的字符的次数是否超过预设次数;在从所述目标字符 串上随机选择预设数量的字符的次数未超过所述预设次数时,将从所述目标字符串上随机 选择预设数量的字符的次数加1,并返回执行从所述目标字符串上随机选择预设数量的字 符的步骤;在从所述目标字符串上随机选择预设数量的字符的次数超过所述预设次数时, 计算记录的有效字符的比例的平均值,将所述平均值作为所述目标字符串中有效字符的比 例。
[0008] 进一步地,从所述目标字符串上随机选择预设数量的字符包括:从所述目标字符 串上随机截取多个预设长度的字符串;利用预先设置的有效字符集从选择的所述预设数量 的字符中确定出有效字符,统计所述有效字符的数量包括:利用所述预先设置的有效字符 集分别从多个预设长度的字符串中确定出有效字符,统计每个预设长度的字符串中有效字 符的数量;根据所述预设数量和所述有效字符的数量计算选择的所述预设数量的字符中有 效字符的比例,将所述比例作为所述目标字符串中有效字符的比例包括:根据所述预设长 度和所述每个预设长度的字符串中有效字符的数量分别计算每个预设长度的字符串中有 效字符的比例,计算所述多个预设长度的字符串中有效字符的比例的平均值,将所述平均 值作为所述目标字符串中有效字符的比例。
[0009] 进一步地,在获取目标字符串之后,所述方法还包括:计算所述目标字符串的长 度;从所述目标字符串上随机选择预设数量的字符包括:随机生成所述预设数量的随机 数,其中,所述随机数为小于目标字符串的长度的正整数;W所述随机数作为位置编号,从 所述目标字符串上选择所述随机数对应的位置处的字符。
[0010] 进一步地,在获取目标字符串之后,W及从所述目标字符串上随机选择预设数量 的字符之前,所述方法还包括:计算所述目标字符串的长度;判断所述目标字符串的长度 是否小于长度阔值;在判断所述目标字符串的长度小于所述长度阔值时,利用预先设置的 有效字符集遍历所述目标字符串得到有效字符的数量,并计算所述目标字符串上有效字符 的比例;在判断所述目标字符串的长度大于等于所述长度阔值时,确定从所述目标字符串 上随机选择预设数量的字符。
[0011] 根据本申请实施例的另一方面,还提供了一种字符串处理装置,包括:获取单元, 用于获取目标字符串;选择单元,用于从所述目标字符串上随机选择预设数量的字符;第 一确定单元,用于利用预先设置的有效字符集从选择的所述预设数量的字符中确定出有效 字符,统计所述有效字符的数量;W及第一计算单元,用于根据所述预设数量和所述有效字 符的数量计算选择的所述预设数量的字符中有效字符的比例,将所述比例作为所述目标字 符串中有效字符的比例。
[0012] 进一步地,所述装置还包括:记录单元,用于在所述根据所述预设数量和所述有效 字符的数量计算选择的所述预设数量的字符中有效字符的比例之后,记录所述有效字符的 比例;第一判断单元,用于判断从所述目标字符串上随机选择预设数量的字符的次数是否 超过预设次数;所述第一确定单元具体用于在从所述目标字符串上随机选择预设数量的字 符的次数未超过所述预设次数时,将从所述目标字符串上随机选择预设数量的字符的次数 加1,并执行从所述目标字符串上随机选择预设数量的字符的步骤;所述第一计算单元具 体用于在从所述目标字符串上随机选择预设数量的字符的次数超过所述预设次数时,计算 记录的有效字符的比例的平均值,将所述平均值作为所述目标字符串中有效字符的比例。
[0013] 进一步地,所述获取单元具体用于从所述目标字符串上随机截取多个预设长度的 字符串;所述第一确定单元具体用于利用所述预先设置的有效字符集分别从多个预设长度 的字符串中确定出有效字符,统计每个预设长度的字符串中有效字符的数量;所述第一计 算单元具体用于根据所述预设长度和所述每个预设长度的字符串中有效字符的数量分别 计算每个预设长度的字符串中有效字符的比例,计算所述多个预设长度的字符串中有效字 符的比例的平均值,将所述平均值作为所述目标字符串中有效字符的比例。
[0014] 进一步地,所述装置还包括:第二计算单元,在获取目标字符串之后,计算所述目 标字符串的长度;所述选择单元包括:生成模块,用于随机生成所述预设数量的随机数,其 中,所述随机数为小于目标字符串的长度的正整数;选择模块,用于W所述随机数作为位置 编号,从所述目标字符串上选择所述随机数对应的位置处的字符。
[0015] 进一步地,所述装置还包括:第Ξ计算单元,用于在获取目标字符串之后,W及从 所述目标字符串上随机选择预设数量的字符之前,计算所述目标字符串的长度;第二判断 单元,用于判断所述目标字符串的长度是否小于长度阔值;遍历单元,用于在判断所述目标 字符串的长度小于所述长度阔值时,利用预先设置的有效字符集遍历所述目标字符串得到 有效字符的数量,并计算所述目标字符串上有效字符的比例;第二确定单元,用于在判断所 述目标字符串的长度大于等于所述长度阔值时,确定从所述目标字符串上随机选择预设数 量的字符。
[0016] 根据本申请实施例,通过获取目标字符串,从目标字符串上随机选择预设数量的 字符,利用预先设置的有效字符集从选择的预设数量的字符中确定出有效字符,统计有效 字符的数量,根据预设数量和有效字符的数量计算选择的预设数量的字符中有效字符的比 例,将该比例作为目标字符串中有效字符的比例,解决了对灌水帖的字符串中有效字符的 比例计算速度慢的技术问题,提高了对灌水帖的字符串中有效字符的比例计算速度。
【附图说明】
[0017] 此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申 请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中: [001引图1是根据本申请实施例的字符串处理方法的流程图;
[0019] 图2是根据本申请实施例的优选的字符串处理方法的流程图;
[0020] 图3是根据本申请实施例的字符串处理装置的示意图。
【具体实施方式】
[0021] 为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的 附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是 本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范 围。
[0022] 需要说明的是,本申请的说明书和权利要求书及上述附图中的术语"第一"、"第 二"等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解运样使用 的数据在适当情况下可W互换,W便运里描述的本申请的实施例能够W除了在运里图示或 描述的那些W外的顺序
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1