一种垃圾信息的处理方法和装置与流程

文档序号:12271419阅读:245来源:国知局
一种垃圾信息的处理方法和装置与流程

本发明涉及通信系统,具体是一种垃圾信息的处理方法、装置及系统。



背景技术:

随着信息化的不断发展,人们在遭受着日益严重的垃圾信息的冲击和困扰,垃圾信息的发送者借助多种途径散步广告、反动言论和诈骗信息等,这些行为影响了正常用户的业务体验,消耗了大量的网络资源,并且对社会稳定和社会秩序产生负面影响。

目前,常用的处理垃圾信息的方法就是垃圾信息的过滤,垃圾信息过滤是应用自然语言处理技术,对手机以及其他通讯软件接收到的带有色情、欺骗、广告等内容的信息进行过滤。

然而,通过垃圾信息中的关键词进行过滤,通常需要预设过滤词,而过滤词受个人主观感受的影响较大,某些含有过滤词的信息可能是用户需要的,并非需要过滤的,这使得过滤结果不够精准,也这制约了对垃圾信息进行告警的灵活性和准确性。



技术实现要素:

有鉴于此,本发明提出了一种垃圾信息的处理方法、装置及系统,用于解决现有技术中垃圾信息干扰用户的问题,能够基于用户使用行为进行过滤,提高垃圾信息告警的灵活性和准确性。

依据本发明的第一个方面,本发明提供了一种垃圾信息的处理方法,所述方法包括:

确定垃圾信息与各预设的垃圾分类模板之间的匹配度,其中,每个垃圾分类模板对应一种垃圾信息类别;

查找当前各匹配度所处的取值范围所对应的概率分布值;

在查找各匹配度所对应的概率分布值时,根据预设的算法,计算所述垃圾信息的当前处理等级;

在所述垃圾信息的当前处理等级大于预设处理等级时,拦截所述垃圾信息。

优选的,所述确定垃圾信息与各预设的垃圾分类模板之间的匹配度,包括:

对接收到的所述垃圾信息进行分词;

根据垃圾信息分词后的词语与垃圾分类模板中的预设的匹配词相同的数量,确定垃圾信息与垃圾分类模板之间的匹配度。

优选的,所述方法还包括:

获取采集器实时采集到的用户对垃圾信息的历史处理行为指标数据,所述历史处理行为指标数据包括用户标识、垃圾信息类别、处理动作和处理时间;

将所采集的所述历史处理行为指标数据存储在历史行为指标数据库中;

根据历史行为指标数据库中的历史处理行为指标数据,计算对应于各个垃圾信息类别的垃圾信息的预设处理等级。

优选的,所述查找当前各匹配度所处的取值范围所对应的概率分布值,包括:

获取垃圾信息与各预设的垃圾分类模板之间的匹配度;

计算匹配度的取值范围的概率分布。

优选的,所述方法还包括:

在没有查找各匹配度所对应的概率分布值时,丢弃所述垃圾信息。

本发明还提供一种垃圾信息的处理装置,所述装置包括:

匹配度确定单元,用于确定垃圾信息与各预设的垃圾分类模板之间的匹配度,其中,每个垃圾分类模板对应一种垃圾信息类别;

查找单元,用于查找当前各匹配度所处的取值范围所对应的概率分布值;

当前处理等级计算单元,在查找各匹配度所对应的概率分布值时,根据预设的算法,计算所述垃圾信息的当前处理等级;

拦截单元,在所述垃圾信息的当前处理等级大于预设处理等级时,拦截所述垃圾信息。

优选的,所述匹配度确定单元,还包括:

分词子单元,用于对接收到的所述垃圾信息进行分词;

确定子单元,用于根据垃圾信息分词后的词语与垃圾分类模板中的预设的匹配词相同的数量,确定垃圾信息与垃圾分类模板之间的匹配度。

优选的,所述装置还包括:

获取单元,用于获取采集器实时采集到的用户对垃圾信息的历史处理行为指标数据,所述历史处理行为指标数据包括用户标识、垃圾信息类别、处理动作和处理时间;

存储单元,用于将所采集的所述历史处理行为指标数据存储在历史行为指标数据库中;

预设处理等级计算单元,根据历史行为指标数据库中的历史处理行为指标数据,计算对应于各个垃圾信息类别的垃圾信息的预设处理等级。

优选的,所述查找单元还包括:

获取子单元,用于获取垃圾信息与各预设的垃圾分类模板之间的匹配度;

计算子单元,用于计算各匹配度的取值范围的概率分布值。

优选的,所述装置还包括:

丢弃单元,用于在没有查找各匹配度所对应的概率分布值时,丢弃所述垃圾信息。

借由上述技术方案,本发明实施例提供的一种垃圾信息的处理方法和系统,通过确定垃圾信息与各预设的垃圾分类模板之间的匹配度;查找当前各匹配度所处的取值范围所对应的概率分布值;在查找各匹配度所对应的概率分布值时,根据预设的算法,确定所述垃圾信息的处理等级;在所述垃圾信息的处理等级大于预设等级时,拦截所述垃圾信息。本发明可以解决垃圾信息干扰用户的问题,能够基于用户使用行为进行过滤,提高垃圾信息告警的灵活性和准确性。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了本发明实施例提供的一种垃圾信息的处理方法的流程图;

图2示出了本发明另一施例提供的一种垃圾信息的处理方法的流程图;

图3示出了本发明实施例提供的一种垃圾信息的处理装置的组成框图;

图4示出了本发明另一实施例提供的一种垃圾信息的处理装置的组成框图。

具体实施方式

下面将参照附图更加详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种垃圾信息的处理方法,如图1所示,该方法包括:

101、确定垃圾信息与各预设的垃圾分类模板之间的匹配度,其中,每个垃圾分类模板对应一种垃圾信息类别。

其中,后台服务器中可以预先存储多种垃圾分类模板,每个垃圾分类模板对应一种垃圾信息类别。

举例来说,垃圾分类模板可以分为购物类垃圾信息、广告类垃圾信息、反动类垃圾信息等。

例如某用户不希望收到购物类垃圾信息,用户就可以预设“促销”、“打折”、“买”这些词作为用户预设关键词,也可以将购物网站的号码添加到用购物类垃圾信息的垃圾分类模板中。

在收到垃圾信息后,即可将垃圾信息与预设的垃圾分类模板进行匹配,从而确定垃圾信息与垃圾分类模板之间的匹配度。

具体的,后台检测装置检测到垃圾信息后,可以根据垃圾信息中的词语与垃圾分类模板中的词语相同的数量,确定垃圾信息与垃圾分类模板之间的匹配度。

102、查找当前各匹配度所处的取值范围所对应的概率分布值。

本实施例中的当前各匹配度指的是最新接收到垃圾信息与各预设的垃圾分类模板之间的匹配度。

可以首先确定当前各匹配度位于哪个取值范围内,然后查找该取值范围所对应的概率分布值。

例如,假设匹配度的取值范围有三个,即0-5,5-10,10-15,其中0-5取值范围所对应的概率分布值为p1,5-10取值范围所对应的概率分布值为p2,10-15取值范围所对应的概率分布值为p3,再假设当前垃圾信息与购物类垃圾分类模板的匹配度为0.9,匹配度位于0-5的范围内,则在步骤102中可以确定当前垃圾信息与购物类垃圾分类模板的匹配度所处的取值范围所对应的概率分布值为p1。

需要说明的是,若某垃圾信息与多个垃圾分类模板的匹配度相同,则可将该垃圾信息分别划分至两个垃圾分类模板中。

103、在查找各匹配度所对应的概率分布值时,根据预设的算法,确定所述垃圾信息的处理等级。

具体的,可以利用下式,确定所述垃圾信息的处理等级:

s=a×t1+b×t2+c×t3

其中,s为所述垃圾信息的处理等级的得分,a、b、c为比例常数,t1为垃圾信息与购物类垃圾信息分类的匹配度,t2为垃圾信息与广告类垃圾信息分类的匹配度,t3为垃圾信息与反动类垃圾信息分类的匹配度。

其中,a、b、c的和为1,比如,在计算新闻稿件中各关键词得分时,a可以取0.5、b为0.3,c为0.2。

应说明的是,比例常数a、b、c的取值是动态变化的,对于不同的匹配度,该比例常数可以取不同值。

104、在所述垃圾信息的处理等级大于预设处理等级时,拦截所述垃圾信息。

在上述实施例的基础上,本发明的一种垃圾信息的处理方法,通过确定垃圾信息与各预设的垃圾分类模板之间的匹配度,其中,每个垃圾分类模板对应一种垃圾信息类别;查找当前各匹配度所处的取值范围所对应的概率分布值;在查找各匹配度所对应的概率分布值时,根据预设的算法,确定所述垃圾信息的处理等级;在所述垃圾信息的处理等级大于预设等级时,拦截所述垃圾信息。本发明根据用户的使用行为设置预设等级,从而可以避免误删有用的信息,提高垃圾信息拦截的灵活性和准确性。

图2示出了本发明另一施例提供的一种垃圾信息的处理方法的流程图,如图2所示,所述方法包括:

201、获取采集器实时采集到的用户对垃圾信息的历史处理行为指标数据,所述历史处理行为指标数据包括用户标识、垃圾信息类别、处理动作和处理时间。

本步骤中,统计每个用户对若干历史垃圾信息的不同处理行为,例如,对于购物垃圾信息类别,若A用户在接收到该垃圾信息后的3分钟内即删除,则A用户对购物垃圾信息的处理行为指标数据记录为:用户A-购物-删除-3分钟。

202、将所采集的所述历史处理行为指标数据存储在历史行为指标数据库中。

其中,历史行为指标数据库中存储了先前采集到的不同用户对垃圾信息的处理行为指标数据,因此,随着处理行为指标数据的不断采集,历史行为指标数据库中的处理行为指标数据也会不断更新。

203、根据历史行为指标数据库中的历史处理行为指标数据,计算对应于各个垃圾信息类别的垃圾信息的预设处理等级。

可以理解的是,可以根据用户自己的兴趣爱好,以及平时经常处理的垃圾信息动作,预先设定处理等级,以便终端根据用户的历史行为拦截垃圾信息。

204、确定垃圾信息与各预设的垃圾分类模板之间的匹配度,其中,每个垃圾分类模板对应一种垃圾信息类别。

其中,后台服务器中可以预先存储多种垃圾分类模板,每个垃圾分类模板对应一种垃圾信息类别。

举例来说,垃圾分类模板可以分为购物类垃圾信息、广告类垃圾信息、反动类垃圾信息等。

205、查找当前各匹配度所处的取值范围所对应的概率分布值。

本实施例中的当前各匹配度指的是最新接收到垃圾信息与各预设的垃圾分类模板之间的匹配度。

可以首先确定当前各匹配度位于哪个取值范围内,然后查找该取值范围所对应的概率分布值。

206、在查找各匹配度所对应的概率分布值时,根据预设的算法,确定所述垃圾信息的处理等级。

207、在所述垃圾信息的处理等级大于预设处理等级时,拦截所述垃圾信息。

在上述实施例的基础上,本发明的方法可以根据用户自己的兴趣爱好,以及平时经常处理的垃圾信息动作,预先设定处理等级,以便终端根据用户的历史行为拦截垃圾信息,为了避免误删有用的信息。

如图3所示,本发明中的一种垃圾信息的处理装置,包括:匹配度确定单元31、查找单元32、当前处理等级计算单元33和拦截单元34,其中:

匹配度确定单元31,用于确定垃圾信息与各预设的垃圾分类模板之间的匹配度,其中,每个垃圾分类模板对应一种垃圾信息类别;

查找单元32,用于查找当前各匹配度所处的取值范围所对应的概率分布值;

当前处理等级计算单元33,在查找各匹配度所对应的概率分布值时,根据预设的算法,计算所述垃圾信息的当前处理等级;

拦截单元34,在所述垃圾信息的当前处理等级大于预设处理等级时,拦截所述垃圾信息。

本实施例的一种垃圾信息的处理装置可执行上述方法的步骤,此处不再赘述。

本实施例的一种垃圾信息的处理装置,通过匹配度确定单元31确定垃圾信息与各预设的垃圾分类模板之间的匹配度,查找单元32查找当前各匹配度所处的取值范围所对应的概率分布值;在查找单元32查找到各匹配度所对应的概率分布值时,当前处理等级计算单元33根据预设的算法,确定所述垃圾信息的当前处理等级;在所述垃圾信息的处理等级大于预设等级时,拦截单元34拦截所述垃圾信息。本发明根据用户的使用行为设置预设等级,从而可以避免误删有用的信息,提高垃圾信息拦截的灵活性和准确性。

优选的,在一种实施例中,所述匹配度确定单元31,还进一步包括:

分词子单元,用于对接收到的所述垃圾信息进行分词;

确定子单元,用于根据垃圾信息分词后的词语与垃圾分类模板中的预设的匹配词相同的数量,确定垃圾信息与垃圾分类模板之间的匹配度。

所述查找单元,还包括:

获取子单元,用于获取垃圾信息与各预设的垃圾分类模板之间的匹配度;

计算子单元,用于计算各匹配度的取值范围的概率分布值。

如图4所示,本发明另一实施例中的一种垃圾信息的处理装置,包括:获取单元41、存储单元42、预设处理等级计算单元43、匹配度确定单元44、查找单元45、当前处理等级计算单元46和拦截单元47,其中:

获取单元41,用于获取采集器实时采集到的用户对垃圾信息的历史处理行为指标数据,所述历史处理行为指标数据包括用户标识、垃圾信息类别、处理动作和处理时间;

存储单元42,用于将所采集的所述历史处理行为指标数据存储在历史行为指标数据库中;

预设处理等级计算单元43,根据历史行为指标数据库中的历史处理行为指标数据,计算对应于各个垃圾信息类别的垃圾信息的预设处理等级。

匹配度确定单元44,用于确定垃圾信息与各预设的垃圾分类模板之间的匹配度,其中,每个垃圾分类模板对应一种垃圾信息类别;

查找单元45,用于查找当前各匹配度所处的取值范围所对应的概率分布值;

当前处理等级计算单元46,在查找各匹配度所对应的概率分布值时,根据预设的算法,计算所述垃圾信息的当前处理等级;

拦截单元47,在所述垃圾信息的当前处理等级大于预设处理等级时,拦截所述垃圾信息。

优选的,所述装置还包括:

丢弃单元,用于在没有查找各匹配度所对应的概率分布值时,丢弃所述垃圾信息。

本发明实施例可以根据用户自己的兴趣爱好,以及平时经常处理的垃圾信息动作,预先设定处理等级,以便终端根据用户的历史行为拦截垃圾信息,为了避免误删有用的信息。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

可以理解的是,上述方法及装置中的相关特征可以相互参考。另外,上述实施例中的“第一”、“第二”等是用于区分各实施例,而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的发明名称(如确定网站内链接等级的装置)中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1