一种垃圾信息的识别方法及装置与流程

文档序号:12825042阅读:268来源:国知局
一种垃圾信息的识别方法及装置与流程

本发明涉及信息技术领域,具体涉及一种垃圾信息的识别方法及装置。



背景技术:

随着互联网的不断发展,自媒体和社交媒体产品发展迅速,网络上的信息量日益剧增,而且互联网的开放性也导致在网络中存在很多不良信息。为了能给用户一个更好的网络环境,也为了避免用户因不良信息受到伤害或损失,对信息进行监控和过滤就成为了普遍需求。

应用内容过滤技术,可以实现对网上不良信息的过滤,从而保障网络环境的安全。网络上的信息有多种表现形式,其中文本形式是最为常见的一种。文本过滤指的是从大量文本信息中找出特定文本的过程,目前,常见的文本过滤方法都是基于基本关键词匹配技术实现的:系统根据预先设置的多个与不良信息相关的关键词,在输入文本中进行查找,如果在输入文本中发现与关键词相匹配的内容,则对这部分内容或全部的输入文本进行过滤或替换处理。

但是,发明人在实现本发明的过程中,发现在现有技术中至少存在如下问题:现有的关键词匹配技术仅仅通过是否直接包含特定关键词来过滤垃圾信息,而汉语博大精深,同一个词在不同的语义下可能表达完全相反的含义,因此,该种方式容易导致包含关键词的非垃圾信息被误识别,使得正常信息的传播受到阻碍;而且,关键词匹配技术的识别和过滤效果受预设关键词数量的限制,无法自主学习和扩大识别范围。由此可见,现有的关键词匹配技术存在着准确率低下、过滤能力受限的问题。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种垃圾信息的识别方法及装置。

根据本发明的一个方面,提供了一种垃圾信息的识别方法,包括:

将待识别对象输入预设的信息分类器进行初次识别;其中,信息分类器根据已知垃圾信息设置;

获取初次识别结果中包含的第一垃圾信息;

将待识别对象中除第一垃圾信息之外的内容输入预设的神经网络模型进行二次识别;

获取二次识别结果中包含的第二垃圾信息;

根据第一垃圾信息和/或第二垃圾信息对预设的神经网络模型进行修正。

根据本发明的另一方面,提供了一种垃圾信息的识别装置,包括:

初次识别模块,用于将待识别对象输入预设的信息分类器进行初次识别;其中,信息分类器根据已知垃圾信息设置;并获取初次识别结果中包含的第一垃圾信息;

二次识别模块,用于将待识别对象中除第一垃圾信息之外的内容输入预设的神经网络模型进行二次识别;并获取二次识别结果中包含的第二垃圾信息;

修正模块,用于根据第一垃圾信息和/或第二垃圾信息对预设的神经网络模型进行修正。

综上所述,根据本发明提供的垃圾信息的识别方法及装置,通过至少两次识别,可以有效避免现有技术存在的误识别问题,而且保证了垃圾信息识别的准确性和智能性;同时,通过神经网络模型的学习功能,使得该方法及装置能够不断自我完善识别机制,扩大垃圾信息识别范围,从而更好的完成对网络信息的监控和过滤。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例一提供的一种垃圾信息的识别方法的流程图;

图2示出了本发明实施例二提供的一种垃圾信息的识别方法的流程图;

图3示出了本发明实施例三提供的一种垃圾信息的识别装置的结构示意图;

图4示出了本发明实施例四提供的一种垃圾信息的识别装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明提供了一种垃圾信息的识别方法及装置,至少能够解决现有技术中的关键词匹配方式所存在的准确率低下的技术问题。

实施例一

图1示出了本发明实施例一提供的一种垃圾信息的识别方法的流程图,该方法包括:

步骤s110:将待识别对象输入预设的信息分类器进行初次识别。

其中,信息分类器是根据已知的垃圾信息设置的,该信息分类器用于根据已知的垃圾信息,识别待识别对象中是否包含上述垃圾信息,如果待识别对象包含已知的垃圾信息,将该垃圾信息标记为第一垃圾信息,从而得到包含该第一垃圾信息的初次识别结果。

在实际应用中,待识别对象可以是新闻信息,也可以是评论信息,还可以是邮件、短信或者程序。

步骤s120:获取初次识别结果中包含的第一垃圾信息。

从步骤s110得到的初次识别结果中分离保存第一垃圾信息,该信息用于在后续步骤中对神经网络模型进行修正。

步骤s130:将待识别对象中除第一垃圾信息之外的内容输入预设的神经网络模型进行二次识别。

根据步骤s120获取的第一垃圾信息对待识别对象进行过滤,将过滤后的待识别对象中除第一垃圾信息之外的内容输入预设的神经网络模块中,以此进行第二次识别,从而得到二次识别结果。

步骤s140:获取二次识别结果中包含的第二垃圾信息。

从步骤s130得到的二次识别结果中获取第二垃圾信息,该第二垃圾信息用于在后续步骤中对神经网络模型进行修正。

步骤s150:根据第一垃圾信息和/或第二垃圾信息对预设的神经网络模型进行修正。

具体地,通过第一垃圾信息和/或第二垃圾信息对神经网络模块进行监督学习,使该神经网络模型通过作为样本的第一垃圾信息和/或第二垃圾信息自动发现垃圾信息所具备的规律和/或特征,大幅提高神经网络模块对垃圾信息的识别准确性。

由此可见,本发明提供的一种垃圾信息识别方法,分别通过信息分类器和神经网络模型,对待识别对象进行精确识别,有效避免了现有技术存在的误识别问题,提高了垃圾信息识别的准确性和智能性。同时,通过神经网络模型的学习功能,使得该方法能够不断自我完善识别机制,扩大垃圾信息识别范围,从而更好的完成对网络信息的监控和过滤。

实施例二

图2示出了本发明实施例二提供的一种垃圾信息的识别方法的流程图,该方法包括:

步骤s210:对获取到的已知垃圾信息进行特征提取,根据特征提取结果设置信息分类器。

具体地,归纳提取已知垃圾信息所具有的规律和特征,根据提取出来的规律和特征,对应地设置信息分类器。

在一种实现方式中,该信息分类器可以是关键词过滤器。此时,根据特征提取结果确定已知垃圾信息中包含的关键词,然后根据上述关键词设置关键词过滤器,用于识别并过滤待识别对象中包含的上述关键词。具体地,该关键词过滤器可以根据预先收集的负面词汇库进行设置。

在另一种实现方式中,该信息分类器也可以是组合规则过滤器。此时,根据特征提取结果确定已知垃圾信息所对应的组合过滤规则,然后根据上述组合过滤规则设置组合规则过滤器,用于根据组合过滤规则识别并过滤待识别对象。其中,组合过滤规则包括字符串规则和/或条件规则等。其中,通过字符串规则可以定义预设的垃圾字符串,该规则可以通过各类字符串以及正则表达式实现。通过条件规则能够设定垃圾信息所满足的条件,该规则可以通过布尔类型的表达式进行设置,具体可以通过布尔操作符、关系操作符和/或按位操作符实现。总之,通过组合过滤规则能够自定义各种垃圾信息所满足的多种规律,从而更加全面地识别垃圾信息。

上述的两种实现方式既可以单独使用,也可以结合使用。在本实施例中,为了提升效果,将上述两种方式进行结合,通过关键词和组合过滤规则进行双重识别过滤,提高信息分类器的准确性。例如,将上述的关键词过滤器作为第一重信息分类器,将上述的组合规则过滤器作为第二重信息分类器,由此在信息分类器的内部实现双重过滤效果。

另外,信息分类器的分类结果可以为黑白两类,黑色信息为垃圾信息,白色信息为非垃圾信息;根据分类严格程度的不同,分类结果也可以划分为三类或三类以上,例如,在要求严格分类的情况下,分类结果可以分为黑色信息、深灰色信息、灰色信息、浅灰色信息和白色信息五个类别,其中,黑色信息为严重垃圾信息,白色信息为完全非垃圾信息,随着信息垃圾程度的加深,其对应的分类颜色也随之加深。本发明对此不作具体限定,本领域技术人员可以根据实际情况采取合适的分类方式,只要能够区分垃圾信息与非垃圾信息即可。

步骤s220:将待识别对象输入预设的信息分类器进行初次识别。

当待识别对象输入到信息分类器中时,信息分类器会根据预存的已知垃圾信息对待识别对象进行识别和过滤,将与已知垃圾信息匹配的内容从待识别对象中过滤掉,并将过滤掉的内容标记为第一垃圾信息,并将第一垃圾信息和经过过滤后的第一非垃圾信息均保存在初次识别结果中。

其中,在实际应用中,待识别对象可以是互联网上的各种信息,例如新闻、评论、邮件、短信或者程序等。

步骤s230:获取初次识别结果中包含的第一垃圾信息。

当该信息分类器为关键词过滤器和组合规则过滤器的结合时,步骤s220中初次识别的具体过程为:将待识别对象输入关键词过滤器进行识别并过滤,将过滤后的待识别对象输入组合规则过滤器进行识别并过滤。对应的,此时步骤s230中的第一垃圾信息包括:通过上述关键词过滤器得到的被过滤内容以及通过上述组合规则过滤器得到的被过滤内容。

其中,通过关键词过滤器能够方便快速地过滤掉大量已知的垃圾信息,由于关键词过滤器的过滤方式简单高效,因此,将关键词过滤器作为第一重信息分类器能够显著降低后续识别过程中的工作量。通过组合规则过滤器能够对关键词过滤器无法滤除的垃圾信息进行更深入地识别,因此,将组合规则过滤器作为第二重信息分类器能够进一步提升过滤效率。例如,组合规则过滤器能够设置词汇的模糊度等组合规则,从而进一步识别各种垃圾信息的谐音、变体等形式。

步骤s240:将待识别对象中除第一垃圾信息之外的内容输入预设的神经网络模型进行二次识别。

其中,在本实施例中,该神经网络模型为多层神经分类器,该步骤具体为将待识别对象中除第一垃圾信息之外的内容先转换成词向量,然后将上述词向量输入到上述预设的多层神经分类器中,让该多层神经分类器对除去第一垃圾信息的待识别对象进行二次识别。

本发明中的神经网络模型是指人工神经网络模型,是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统,是一个高度复杂的非线性动力学习系统。人工神经网络模型一般有三个层次,分别为输入层、隐藏层和输出层,其中输入层用于接收外部世界的信号和数据;隐藏层位于输入层与输出层之间,不能由系统外部观察到,负责数据处理;输出层用于输出隐藏层对数据的处理结果。神经网络模型具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。

人工神经网络模型的优势在于具有自学习功能,人工神经网络模型的各个处理单元之间存在连接权值,该权值变化会影响人工神经网络模型的最终输出结果,该人工神经网络模型通过学习行为,会自动改变上述连接权值,由此得到更准确的输出结果。例如在用于识别垃圾信息时,只需要预先将已知的垃圾信息样本和对应的识别结果输入人工神经网络模型,该神经网络模型就能通过自学习功能,慢慢学会识别类似的垃圾信息。

本发明对神经网络模型的具体训练方式和训练样本集的获取来源均不做限定。例如,训练样本集可以根据步骤s210中获取到的已知垃圾信息得到,还可以通过其他的获取来源进行补充。而且,该训练样本集还可以在模型的运行过程中不断更新。

发明人在实现本发明的过程中发现,通过将待识别对象转换为词向量,并以词向量作为神经网络模型的输入信号能够有效提升神经网络模型的输出精度。具体地,在生成词向量时,可以首先根据预设的词典从待识别对象中提取包含在词典中的特征词;然后,根据预设的特征赋权规则,为各个特征词赋予对应的权重;最后,根据提取出的各个特征词及其对应的权重设置相应的词向量。其中,特征词的权重可以基于特征词在当前处理的待识别对象中的出现频率以及该特征词在其他已处理的待识别对象中的出现频率来设置:若某特征词在当前处理的待识别对象中的出现频率高,而在其他已处理的待识别对象中的出现频率低,则为该特征词设置较高的权重值,从而有效提升分析的准确性。或者,特征词的权重也可以简单地基于该特征词在当前处理的待识别对象中的出现频率进行设置。关于词向量的具体转换规则,本发明不作具体限定,本领域技术人员可以根据实际情况灵活确定。

步骤s250:获取二次识别结果中包含的第二垃圾信息。

将除去第一垃圾信息的待识别对象输入预设的神经网络模型后,神经网络模型对其进行识别过滤,将类似垃圾信息的内容过滤掉,并将过滤掉的内容标记为第二垃圾信息,将第二垃圾信息和过滤后的第二非垃圾信息均保存在二次识别结果中。

由此可见,通过上述步骤能够对待识别对象中包含的全部垃圾信息进行识别及过滤,从而输出过滤后的安全信息。

步骤s260:根据第一垃圾信息和/或第二垃圾信息对预设的神经网络模型进行修正。

具体地,通过预设的学习算法,利用上述第一垃圾信息和/或第二垃圾信息对预设的神经网络模型进行监督学习,根据学习结果调整所述神经网络模型。

根据学习环境不同,神经网络的学习方式可分为监督学习和非监督学习。在监督学习中,将训练样本的数据加到神经网络模型的输入层,同时将相应的期望输出与神经网络模型的输出层的输出结果相比较,得到误差信号,以此控制各个处理单元之间的连接权值的调整,经多次训练后收敛到一个确定的权值。当样本情况发生变化时,经学习可以修改权值以适应新的环境。非监督学习时,事先不给定标准样本,直接将网络置于环境之中,学习阶段与工作阶段成为一体。此时,学习规律的变化服从连接权值的演变方程。

优选地,本发明实施采用监督学习方式,能够更有针对性地训练神经网络模型。其中,预设的学习算法为反向传播算法。其主要思想是:将样本数据输入到输入层,经过隐藏层,最后达到输出层并输出结果,这是人工神经网络模型的前向传播过程;由于人工神经网络模型的输出结果与实际结果有误差,则计算估计值与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层;在反向传播的过程中,根据误差调整各种参数的值;不断迭代上述过程,直至收敛。

为了进一步提高神经网络模型的识别准确性,在利用第一垃圾信息和/或第二垃圾信息进行修正的基础上,还可以利用上述的第一非垃圾信息和/或第二非垃圾信息对神经网络模型进行修正,具体地,通过步骤s230进一步获取初次识别结果中包含的第一非垃圾信息,通过步骤s250进一步获取二次识别结果总包含的第二非垃圾信息,然后根据第一垃圾信息和/或第二垃圾信息,并结合第一非垃圾信息和/或第二非垃圾信息对预设的神经网络模型进行修正。通过上述正面样本(即第一非垃圾信息和/或第二非垃圾信息)和负面样本(即第一非垃圾信息和/或第二非垃圾信息)的综合修正,可以使神经网络模型的识别和过滤准确性更高。

在本发明实施例中,因为步骤s210中已知的垃圾信息通常由技术人员根据以往经验预设,因此范围有限。为了扩大已知垃圾信息的范围,可以将步骤s230中获取到的第一垃圾信息和步骤s250中获取到的第二垃圾信息定期地加入到已知垃圾信息中,进一步有效地扩大已知垃圾信息范围,并根据扩容后的已知垃圾信息调整设置信息分类器,由此,可以使信息分类器的识别过滤效果更好。

为了方便进一步理解上述方法,下面以该方法在具体场景中的应用为例,进行进一步阐述:例如,将本发明提供的垃圾信息识别方法应用于新闻平台时:首先,对该新闻平台中的所有新闻视频弹幕、直播间聊天内容、新闻评论等内容进行自动的机器审核。该机器审核分为两个层次,第一层是通过关键字或关键词等预设的特征信息进行过滤,将包含上述特征信息的垃圾信息过滤掉;第二层是将通过第一层过滤的内容输入到神经网络模型中进行第二次过滤,通过预设的神经网络模型的识别,将识别结果中有极大概率是负面或违禁信息的内容直接过滤掉,将剩下的内容分发给编辑进行人工审核。其中,神经网络模型还可以先将过滤后的内容先进行分级,然后再分发给编辑进行人工审核,以提高人工审核效率,例如,可以将过滤后的内容标记为敏感和一般两个级别,然后优先将敏感级别的内容分发给编辑进行人工审核。因为个人的语言习惯不同,而且随着时间的推移,广告等垃圾信息的伪装模式也会不同,机器审核中的预设特征信息过滤和神经网络模型识别也不能完全过滤掉所有的垃圾信息,所以需要不断地根据人工审核的结果对预设特征信息和神经网络模型进行优化和修正,将新的特征信息加入到预设的特征信息中,将模型未发现的垃圾信息的新伪装模式补充到神经网络模型的训练集中,并对神经网络模型进行新的训练。由此,可以通过神经网络模型的自学习功能,不断提高神经网络模型对垃圾信息的识别能力。

由此可见,本发明提供的一种垃圾信息识别方法,首先通过根据已知垃圾信息进行识别和过滤的信息分类器对待识别对象进行第一轮识别,过滤出第一垃圾信息和第一非垃圾信息,然后通过预设的神经网络模型对第一非垃圾信息进行第二轮识别,过滤出第二垃圾信息和第二非垃圾信息,最后,通过第一垃圾信息和/或第二垃圾信息和/或第一非垃圾信息和/或第二非垃圾信息对上述神经网络模型进行修正,进一步提高神经网络模型的识别和过滤准确性。该方法有效避免了现有技术存在的误识别问题,极大地提高了垃圾信息识别的准确性和智能性。同时,通过神经网络模型的学习功能,使得该方法能够不断自我完善识别机制,扩大垃圾信息识别范围,从而更好的完成对网络信息的监控和过滤。总之,本发明能够利用信息分类器来识别已知的垃圾信息,例如新闻中的垃圾评论,然后通过对已知的垃圾信息抽取特征进行训练的方式构建神经网络模型,从而学习到未知的新增垃圾信息的特征,进而实现过滤系统的自动补全。

另外,本领域技术人员还可以对上述实施例进行各种改动和变形。例如,神经网络模型可以基于n-gram模型来实现,利用n-gram模型能够学习并预测一个词汇与其周围词汇之间的关联关系,因此,通过将n-gram模型增加到神经网络模型中能够提升预测准确度。又如,上述的神经网络模型除了可以通过多层神经分类器实现之外,还可以通过其他各类具备机器学习功能的分类器实现,例如,还可以通过深度学习分类器等,本发明对神经网络模型所采用的具体算法和分类器不做限定,对神经网络模型的具体训练方式和修正方式也不做限定。

实施例三

图3示出了本发明实施例三提供的一种垃圾信息的识别装置的结构示意图,该装置包括:初次识别模块310、二次识别模块320和修正模块330。

初次识别模块310,用于将待识别对象输入预设的信息分类器进行初次识别;并获取初次识别结果中包含的第一垃圾信息。

其中,信息分类器是根据已知的垃圾信息设置的,该信息分类器用于根据已知的垃圾信息,识别待识别对象中是否包含上述垃圾信息,如果待识别对象包含已知的垃圾信息,将该垃圾信息标记为第一垃圾信息,从而得到包含该第一垃圾信息的初次识别结果。然后将待识别对象中除第一垃圾信息之外的内容发送给二次识别模块320,将第一垃圾信息发送给修正模块330。

在实际应用中,待识别对象可以是新闻信息,也可以是评论信息,还可以是邮件、短信或者程序。

二次识别模块320,用于将待识别对象中除第一垃圾信息之外的内容输入预设的神经网络模型进行二次识别;并获取二次识别结果中包含的第二垃圾信息。

具体地,将待识别对象中除第一垃圾信息之外的内容输入预设的神经网络模型,该神经网路模型会对上述内容进行分析和识别,然后将识别出的垃圾信息标记为第二垃圾信息,最后将第二垃圾信息发送给修正模块330。

修正模块330,用于根据第一垃圾信息和/或第二垃圾信息对预设的神经网络模型进行修正。

具体地,通过第一垃圾信息和/或第二垃圾信息对神经网络模块进行监督学习,使该神经网络模型通过作为样本的第一垃圾信息和/或第二垃圾信息自动发现垃圾信息所具备的规律和/或特征,大幅提高神经网络模块对垃圾信息的识别准确性。

关于上述各个模块的功能描述可参照上述方法实施例中各个步骤的相应部分的描述,此处不再赘述。

由此可见,本发明提供的一种垃圾信息识别装置,分别通过初次识别模块中的信息分类器和二次识别模块中的神经网络模型,对待识别对象进行精确识别,有效避免了现有技术存在的误识别问题,提高了垃圾信息识别的准确性和智能性。同时,通过神经网络模型的学习功能,使得该装置能够不断自我完善识别机制,扩大垃圾信息识别范围,从而更好的完成对网络信息的监控和过滤。

实施例四

图4示出了本发明实施例四提供的一种垃圾信息的识别装置的结构示意图,该装置包括:设置模块410、初次识别模块420、二次识别模块430和修正模块440。

设置模块410,用于在初次识别模块进行初次识别之前,对获取到的已知垃圾信息进行特征提取,根据特征提取结果设置信息分类器。

具体地,设置模块410归纳提取已知垃圾信息所具有的规律和特征,根据提取出来的规律和特征,对应地设置好信息分类器。

在一种实现方式中,该信息分类器可以是关键词过滤器。此时,根据特征提取结果确定已知垃圾信息中包含的关键词,然后根据上述关键词设置关键词过滤器,用于识别并过滤待识别对象中包含的上述关键词。具体地,该关键词过滤器可以根据预先收集的负面词汇库进行设置。

在另一种实现方式中,该信息分类器也可以是组合规则过滤器。此时,根据特征提取结果确定已知垃圾信息所对应的组合过滤规则,然后根据上述组合过滤规则设置组合规则过滤器,用于根据组合过滤规则识别并过滤待识别对象。其中,组合过滤规则包括字符串规则和/或条件规则等。其中,通过字符串规则可以定义预设的垃圾字符串,该规则可以通过各类字符串以及正则表达式实现。通过条件规则能够设定垃圾信息所满足的条件,该规则可以通过布尔类型的表达式进行设置,具体可以通过布尔操作符、关系操作符和/或按位操作符实现。总之,通过组合过滤规则能够自定义各种垃圾信息所满足的多种规律,从而更加全面地识别垃圾信息。

上述的两种实现方式既可以单独使用,也可以结合使用。在本实施例中,为了提升效果,将上述两种方式进行结合,通过关键词和组合过滤规则进行双重识别过滤,提高信息分类器的准确性。例如,将上述的关键词过滤器作为第一重信息分类器,将上述的组合规则过滤器作为第二重信息分类器,由此在信息分类器的内部实现双重过滤效果。

另外,信息分类器的分类结果可以为黑白两类,黑色信息为垃圾信息,白色信息为非垃圾信息;根据分类严格程度的不同,分类结果也可以划分为三类或三类以上,例如,在要求严格分类的情况下,分类结果可以分为黑色信息、深灰色信息、灰色信息、浅灰色信息和白色信息五个类别,其中,黑色信息为严重垃圾信息,白色信息为完全非垃圾信息,随着信息垃圾程度的加深,其对应的分类颜色也随之加深。本发明对此不作具体限定,本领域技术人员可以根据实际情况采取合适的分类方式,只要能够区分垃圾信息与非垃圾信息即可。

初次识别模块420,用于将待识别对象输入预设的信息分类器进行初次识别;并获取初次识别结果中包含的第一垃圾信息。

当待识别对象输入到初次识别模块420中的信息分类器中时,信息分类器会根据预存的已知垃圾信息对待识别对象进行识别和过滤,将与已知垃圾信息匹配的内容从待识别对象中过滤掉,并将过滤掉的内容标记为第一垃圾信息,并将第一垃圾信息和经过过滤后的第一非垃圾信息均保存在初次识别结果中。其中,在实际应用中,待识别对象可以是互联网上的各种信息,例如新闻、评论、邮件、短信或者程序等。

当该信息分类器为关键词过滤器和组合规则过滤器的结合时,初次识别模块420将待识别对象输入关键词过滤器进行识别并过滤,将过滤后的待识别对象输入组合规则过滤器进行识别并过滤。对应的,此时初次识别结果中的第一垃圾信息包括:通过上述关键词过滤器得到的被过滤内容以及通过上述组合规则过滤器得到的被过滤内容。

其中,通过关键词过滤器能够方便快速地过滤掉大量已知的垃圾信息,由于关键词过滤器的过滤方式简单高效,因此,将关键词过滤器作为第一重信息分类器能够显著降低后续识别过程中的工作量。通过组合规则过滤器能够对关键词过滤器无法滤除的垃圾信息进行更深入地识别,因此,将组合规则过滤器作为第二重信息分类器能够进一步提升过滤效率。例如,组合规则过滤器能够设置词汇的模糊度等组合规则,从而进一步识别各种垃圾信息的谐音、变体等形式。

二次识别模块430,用于将待识别对象中除第一垃圾信息之外的内容输入预设的神经网络模型进行二次识别;并获取二次识别结果中包含的第二垃圾信息。

其中,在本实施例中,该神经网络模型为多层神经分类器,二次识别模块430将待识别对象中除第一垃圾信息之外的内容先转换成词向量,然后将上述词向量输入到上述预设的多层神经分类器中,让该多层神经分类器对除去第一垃圾信息的待识别对象进行二次识别。之后,二次识别模块430将除去第一垃圾信息的待识别对象输入预设的神经网络模型后,神经网络模型对其进行识别过滤,将类似垃圾信息的内容过滤掉,并将过滤掉的内容标记为第二垃圾信息,将第二垃圾信息和过滤后的第二非垃圾信息均保存在二次识别结果中。

发明人在实现本发明的过程中发现,通过将待识别对象转换为词向量,并以词向量作为神经网络模型的输入信号能够有效提升神经网络模型的输出精度。具体地,在生成词向量时,可以首先根据预设的词典从待识别对象中提取包含在词典中的特征词;然后,根据预设的特征赋权规则,为各个特征词赋予对应的权重;最后,根据提取出的各个特征词及其对应的权重设置相应的词向量。其中,特征词的权重可以基于特征词在当前处理的待识别对象中的出现频率以及该特征词在其他已处理的待识别对象中的出现频率来设置:若某特征词在当前处理的待识别对象中的出现频率高,而在其他已处理的待识别对象中的出现频率低,则为该特征词设置较高的权重值,从而有效提升分析的准确性。或者,特征词的权重也可以简单地基于该特征词在当前处理的待识别对象中的出现频率进行设置。关于词向量的具体转换规则,本发明不作具体限定,本领域技术人员可以根据实际情况灵活确定。

由此可见,通过上述模块能够对待识别对象中包含的全部垃圾信息进行识别及过滤,从而输出过滤后的安全信息。

修正模块440,用于根据第一垃圾信息和/或第二垃圾信息对预设的神经网络模型进行修正。

具体地,通过预设的学习算法,修正模块440利用上述第一垃圾信息和/或第二垃圾信息对预设的神经网络模型进行监督学习,根据学习结果调整所述神经网络模型。

优选地,本发明实施采用监督学习方式,能够更有针对性地训练神经网络模型。其中,预设的学习算法为反向传播算法。其主要思想是:将样本数据输入到输入层,经过隐藏层,最后达到输出层并输出结果,这是人工神经网络模型的前向传播过程;由于人工神经网络模型的输出结果与实际结果有误差,则计算估计值与实际值之间的误差,并将该误差从输出层向隐藏层反向传播,直至传播到输入层;在反向传播的过程中,根据误差调整各种参数的值;不断迭代上述过程,直至收敛。

为了进一步提高神经网络模型的识别准确性,修正模块440在利用第一垃圾信息和/或第二垃圾信息进行修正的基础上,还可以利用上述的第一非垃圾信息和/或第二非垃圾信息对神经网络模型进行修正,具体地,通过初次识别模块420进一步获取初次识别结果中包含的第一非垃圾信息,通过二次识别模块430进一步获取二次识别结果总包含的第二非垃圾信息,然后修正模块440根据第一垃圾信息和/或第二垃圾信息,并结合第一非垃圾信息和/或第二非垃圾信息对预设的神经网络模型进行修正。通过上述正面样本(即第一非垃圾信息和/或第二非垃圾信息)和负面样本(即第一非垃圾信息和/或第二非垃圾信息)的综合修正,可以使神经网络模型的识别和过滤准确性更高。

在本发明实施例中,因为设置模块410中已知的垃圾信息通常由技术人员根据以往经验预设,因此范围有限。为了扩大已知垃圾信息的范围,可以将初次识别模块420获取到的第一垃圾信息和二次识别模块430获取到的第二垃圾信息定期地加入到已知垃圾信息中,进一步有效地扩大已知垃圾信息范围,并根据扩容后的已知垃圾信息调整设置信息分类器,由此,可以使信息分类器的识别过滤效果更好。

关于上述各个模块的功能描述可参照上述方法实施例中各个步骤的相应部分的描述,此处不再赘述。

由此可见,本发明提供的一种垃圾信息识别装置,首先通过初次识别模块中的信息分类器对待识别对象进行第一轮识别,过滤出第一垃圾信息和第一非垃圾信息,然后通过二次识别模块中的神经网络模型对第一非垃圾信息进行第二轮识别,过滤出第二垃圾信息和第二非垃圾信息,最后,通过修正模块根据第一垃圾信息和/或第二垃圾信息和/或第一非垃圾信息和/或第二非垃圾信息对上述神经网络模型进行修正,进一步提高神经网络模型的识别和过滤准确性。该装置有效避免了现有技术存在的误识别问题,极大地提高了垃圾信息识别的准确性和智能性。同时,通过神经网络模型的学习功能,使得该装置能够不断自我完善识别机制,扩大垃圾信息识别范围,从而更好的完成对网络信息的监控和过滤。总之,本发明能够利用信息分类器来识别已知的垃圾信息,例如新闻中的垃圾评论,然后通过对已知的垃圾信息抽取特征进行训练的方式构建神经网络模型,从而学习到未知的新增垃圾信息的特征,进而实现过滤系统的自动补全。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的垃圾信息的识别装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明公开了:a1、一种垃圾信息的识别方法,包括:

将待识别对象输入预设的信息分类器进行初次识别;其中,所述信息分类器根据已知垃圾信息设置;

获取初次识别结果中包含的第一垃圾信息;

将所述待识别对象中除所述第一垃圾信息之外的内容输入预设的神经网络模型进行二次识别;

获取二次识别结果中包含的第二垃圾信息;

根据所述第一垃圾信息和/或所述第二垃圾信息对所述预设的神经网络模型进行修正。

a2、根据a1所述的方法,其中,所述将待识别对象输入预设的信息分类器进行初次识别的步骤之前,进一步包括步骤:

对获取到的已知垃圾信息进行特征提取,根据特征提取结果设置所述信息分类器。

a3、根据a2所述的方法,其中,所述信息分类器进一步包括:关键词过滤器和/或组合规则过滤器,则所述对获取到的已知垃圾信息进行特征提取,根据特征提取结果设置所述信息分类器的步骤具体包括:

根据特征提取结果确定所述已知垃圾信息中包含的关键词,设置用于识别并过滤所述关键词的关键词过滤器;和/或,

根据特征提取结果确定所述已知垃圾信息所对应的组合过滤规则,设置用于根据所述组合过滤规则进行识别并过滤的组合规则过滤器;其中,所述组合过滤规则包括字符串规则和/或条件规则。

a4、根据a3所述的方法,其中,所述将待识别对象输入预设的信息分类器进行初次识别的步骤具体包括:

将所述待识别对象输入所述关键词过滤器进行识别并过滤,将过滤后的待识别对象输入所述组合规则过滤器进行识别并过滤;

则所述初次识别结果中包含的第一垃圾信息包括:通过所述关键词过滤器得到的被过滤内容以及通过所述组合规则过滤器得到的被过滤内容。

a5、根据a1-a4任一所述的方法,其中,所述神经网络模型为多层神经分类器,且所述将所述待识别对象中除所述第一垃圾信息之外的内容输入预设的神经网络模型进行二次识别的步骤具体包括:

将所述除所述第一垃圾信息之外的内容转换为词向量后输入预设的神经网络模型进行二次识别。

a6、根据a1-a5任一所述的方法,其中,所述根据所述第一垃圾信息和/或所述第二垃圾信息对所述预设的神经网络模型进行修正的步骤具体包括:

通过预设的学习算法,利用所述第一垃圾信息和/或所述第二垃圾信息对所述预设的神经网络模型进行监督学习,根据学习结果调整所述神经网络模型。

a7、根据a6所述的方法,其中,所述学习算法为反向传播算法。

a8、根据a1-a7任一所述的方法,其中,所述获取初次识别结果中包含的第一垃圾信息的步骤之后,进一步包括:获取所述初次识别结果中包含的第一非垃圾信息;所述获取二次识别结果中包含的第二垃圾信息的步骤之后,进一步包括:获取所述二次识别结果中包含的第二非垃圾信息;

则所述根据所述第一垃圾信息和/或所述第二垃圾信息对所述预设的神经网络模型进行修正的步骤具体包括:根据所述第一垃圾信息和/或所述第二垃圾信息,并结合所述第一非垃圾信息和/或所述第二非垃圾信息对所述预设的神经网络模型进行修正。

a9、根据a1-a8任一所述的方法,其中,所述待识别对象包括以下中的至少一个:新闻、评论、邮件、短信以及程序。

本发明还公开了:b10、一种垃圾信息的识别装置,包括:

初次识别模块,用于将待识别对象输入预设的信息分类器进行初次识别;其中,所述信息分类器根据已知垃圾信息设置;并获取初次识别结果中包含的第一垃圾信息;

二次识别模块,用于将所述待识别对象中除所述第一垃圾信息之外的内容输入预设的神经网络模型进行二次识别;并获取二次识别结果中包含的第二垃圾信息;

修正模块,用于根据所述第一垃圾信息和/或所述第二垃圾信息对所述预设的神经网络模型进行修正。

b11、根据b10所述的装置,其中,所述装置进一步包括:

设置模块,用于在所述初次识别模块进行初次识别之前,对获取到的已知垃圾信息进行特征提取,根据特征提取结果设置所述信息分类器。

b12、根据b11所述的装置,其中,所述信息分类器进一步包括:关键词过滤器和/或组合规则过滤器,则所述设置模块具体用于:

根据特征提取结果确定所述已知垃圾信息中包含的关键词,设置用于识别并过滤所述关键词的关键词过滤器;和/或,

根据特征提取结果确定所述已知垃圾信息所对应的组合过滤规则,设置用于根据所述组合过滤规则进行识别并过滤的组合规则过滤器;其中,所述组合过滤规则包括字符串规则和/或条件规则。

b13、根据b12所述的装置,其中,所述初次识别模块具体用于:

将所述待识别对象输入所述关键词过滤器进行识别并过滤,将过滤后的待识别对象输入所述组合规则过滤器进行识别并过滤;

则所述初次识别结果中包含的第一垃圾信息包括:通过所述关键词过滤器得到的被过滤内容以及通过所述组合规则过滤器得到的被过滤内容。

b14、根据b10-b13任一所述的装置,其中,所述神经网络模型为多层神经分类器,且所述二次识别模块具体用于:

将所述除所述第一垃圾信息之外的内容转换为词向量后输入预设的神经网络模型进行二次识别。

b15、根据b10-b14任一所述的装置,其中,所述修正模块具体用于:

通过预设的学习算法,利用所述第一垃圾信息和/或所述第二垃圾信息对所述预设的神经网络模型进行监督学习,根据学习结果调整所述神经网络模型。

b16、根据b15所述的装置,其中,所述学习算法为反向传播算法。

b17、根据b10-b16任一所述的装置,其中,所述初次识别模块进一步用于:获取所述初次识别结果中包含的第一非垃圾信息;所述二次识别模块进一步用于:获取所述二次识别结果中包含的第二非垃圾信息;

则所述修正模块具体用于:根据所述第一垃圾信息和/或所述第二垃圾信息,并结合所述第一非垃圾信息和/或所述第二非垃圾信息对所述预设的神经网络模型进行修正。

b18、根据b10-b17任一所述的装置,其中,所述待识别对象包括以下中的至少一个:新闻、评论、邮件、短信以及程序。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1