基于帖子的出现规律来检测垃圾帖子的方法及设备的制作方法

文档序号:7752924阅读:122来源:国知局
专利名称:基于帖子的出现规律来检测垃圾帖子的方法及设备的制作方法
技术领域
本发明涉及互联网技术领域,具体来说,涉及一种用于检测社区网络中垃圾帖子的方法及装置。
背景技术
随着互联网技术的不断发展,社区网络(SNS,Social Network krvice)越来越普及,逐渐成为人们日常生活的一部分。然而,基于社区网络的垃圾帖子泛滥以及由此带来的对真正有用信息的干扰一直是伴随着社区网络的蓬勃发展而产生的不利方面。为此,为了有效地抑制社区网络中垃圾信息的产生,现有技术至少包括如下过滤社区网络中帖子中垃圾内容的方法(1)脏词匹配,即在用户将帖子发布到社区网络上之前,经过至少一次脏词过滤, 将所述帖子内容中与脏词索引库中相匹配的词汇认定为垃圾内容进行先行屏蔽,然后将经过过滤处理后的帖子成功地发布到社区网络上;对于在脏词过滤中未过滤出的垃圾内容, 只能在后期对发布到社区网络上的帖子进行人工或机器巡查的方式进行检测,以实现对社区网络中帖子中垃圾内容的过滤。(2)语义分析,即在用户将帖子发布到社区网络上之前,采用语义分析的方式以预定的语义分析条件对所述帖子的内容进行判断,将所述帖子的内容中满足所述预定的语义分析条件的内容作为垃圾内容进行屏蔽,然后将经过屏蔽处理后的帖子成功地发布到社区网络上。有关利用语义分析方法来对社区网络的帖子中垃圾内容的屏蔽的详细内容可以参见公开号为CN101510879A中国发明专利申请。可见,现有技术都是基于单个帖子的内容进行判断,实现对该帖子中垃圾内容的屏蔽,即现有技术仅局限于在单个帖子的范围内对该帖子的内容进行过滤,因而不能适用于这样一种情形单个帖子的内容的垃圾特征不明显或者较隐蔽(例如软文帖子),但实际上其在整个社区网络中存在大量的需要删除的重复帖子。因此,需要一种能够快速并准确地检测社区网络中垃圾帖子的方法及装置。

发明内容
本发明的目的是为了克服现有技术的上述缺陷,提供一种基于帖子在社区网络中的出现规律来检测垃圾帖子的方法及设备,提高了判断结果的准确度。根据本发明的一个方面,提供一种用于检测社区网络中垃圾帖子的方法,该方法包括a.对帖子进行检测,根据该帖子在一个或多个社区网络中的出现规律来判断该帖子是否为垃圾帖子。在一个优选实施例中,该方法包括al.根据预定语义规则对该帖子进行识别,提取其中的内容特征;a2.根据所述帖子的内容特征来查询与该帖子在社区网络中的出现规律;
a3.基于第一预定规律根据该帖子在所述社区网络中的出现规律来判断所述帖子是否为垃圾帖子。根据本发明的另一方面,提供了一种用于检测社区网络中垃圾帖子的设备,其中, 帖子检测装置,用于对帖子进行检测,根据该帖子在一个或多个社区网络中的出现规律来判断该帖子是否为垃圾帖子。在一个优选实施例中,帖子检测装置包括特征识别装置,用于根据预定语义规则对该帖子进行识别,提取其中的内容特征;规律查询装置,用于根据所述帖子的内容特征来查询与该帖子在社区网络中的出现规律;判断装置,用于基于第一预定规律根据根据该帖子在所述社区网络中的出现规律来判断所述帖子是否为垃圾帖子。本发明根据帖子的内容特征及其在社区网络中的出现规律来判断所述帖子是否为垃圾帖子,避免了孤立地对单个帖子的内容进行脏词匹配或者语义分析所造成的无法检测出在社区网络中存在大量重复帖子的情形,提高了对垃圾帖子的判断准确度。


通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显图1为根据本发明的设备管理多个社区网络的示意图。图2为根据本发明的一个方面的用户检测社区网络中垃圾帖子的方法的流程图。图3为根据本发明根据本发明一个方面的在社区网络或出现规律库中检测垃圾帖子的系统的示意图。附图中相同或相似的附图标记代表相同或相似的部件。
具体实施例方式下面结合具体实施例和附图对本发明作进一步说明,但不应以此限制本发明的保护范围。图1示出一个根据本发明的社区网络的拓扑图,其中包含一个网络设备和多名用户a_f,每名用户通过各自的用户终端经由网络访问一个社区网络服务网站(SNS),其包含一个或多个网络设备,用于提供该社区网络服务,该网络设备包括但不限于,网络服务器、 网络主机或者、云计算模式下的其他用户设备等。用户终端包括但不限于,计算机、智能手机、PDA、游戏机或IPTV等任何具有上网浏览功能的设备。而根据本发明的用于检测垃圾帖子的设备可以是与网络设备通过网络进行通信连接的独立的设备,包括但不限于普通计算机、服务器、主机等;也可以是与网络设备成一体,为简明起见,以下统称网络设备。此外,用户终端与网络设备之间的通信可以是基于诸如TCP/IP协议、UDP协议等的分组数据传输。而网络设备2与用于检测帖子的设备之间的通信可以是基于上述TCP/IP 协议、UDP协议等的分组数据传输,也可是在网络设备内部基于各种计算机总线协议的信号传输。但本领域技术人员应理解本发明不限于上述通信传输协议,任何已有或今后可能出现的外部通信协议或内部计算机总线协议均适用于本发明,从而被引用而包含于此。当其中一名用户,例如用户a在访问社区网络时,通过其用户终端1发出交互请求,例如在该社区网络特定板块进行发帖,网络设备2对该用户a所发帖子审核通过后,将其保存并提供给访问该社区网络特定板块的用户进行展示。本领域技术人员应理解,本发明的社区网络不限上述形式,可以包括诸如基于P2P 形式的用户终端之间直接连接进行交互的其他形式。下面参照图2-3来对根据本发明的识别垃圾帖子的技术方案进行详细描述。请参阅图2,图2为根据本发明的一个方面的用于检测社区网络中垃圾帖子的方法的流程图。为简明起见,图2中仅示出一名候选用户及其用户终端。如图2所示,在步骤Si,用户a经由用户终端1访问社区网络网站并登陆其特定板块(以下简称“贴吧)时,例如“军事论坛”贴吧,通过人机交互的方式,利用用户终端1 向网络设备发送帖子。在此虽然以“网络设备”为例来阐述本发明,但本领域技术人员应理解本发明还可适用于基于P2P模式或云计算方式的用户终端直接互连社区网络模式,其中,每一或特定的一些用户终端可起到网络设备的功能,对用户所发帖子进行检测,也应包含在本发明的保护范围以内。具体地,用户a可通过诸如IE、Firefox等浏览器访问社区网络网页,也可通过安装于用户终端1中的客户端软件,诸如QQ等进入该社区网络的“军事论坛”贴吧网页。在前一情形中,用户a可以在该社区网络的“军事论坛”贴吧网页上的帖子输入栏中输入相应的帖子内容,然后点击该网页上的特定功能按钮,使得用户终端1发送帖子;在后一情形中, 用户a可在客户端的软件用户界面中输入帖子内容并通过点击该客户端软件界面中特定功能按钮使得用户终端1发送该帖子。本领域技术人员应理解,本发明应不限于上述方式, 任何可适用于本发明的访问社区网络以及发帖的方式均应在本发明的保护范围以内,并以引用方式包含于此。在步骤S2中,网络设备2对帖子进行识别,根据其内容特征及在一个或多个社区网络中的出现规律来判断该帖子是否为垃圾帖子。设备2可在用户发帖时即进行帖子的识别,也可根据需要,在其管理的一个或多个社区网络中主动发起对帖子的识别。具体地,在步骤S21中,网络设备2在接收到发帖的用户(以下简称“发帖人”)所发帖子后,将对帖子进行内容特征的识别。具体地,网络设备2可采用以下方式来对内容特征进行识别1)所述帖子内容是否符合垃圾内容的语法规则;用户发帖后,网络设备2接收用户所发帖子,并根据预定语法规则对该帖子内容进行查询,判断帖子内容是否包括能与垃圾内容的语法规则相匹配的内容。2)所述帖子内容中是否含有垃圾词汇;用户发帖后,网络设备2接收用户所发帖子,并对该帖子内容进行识别,判断帖子内容中是否包括能与预设垃圾词库(未示出)中的垃圾词汇相匹配的词汇。3)所述帖子内容中是否含有地址信息,该地址信息包括但不限于,网页地址链接、 电话号码、或QQ号码;4)所述帖子内容中是否多次出现重复内容;网络设备2接收用户所发帖子,分析其中内容中是否多次出现重复的内容。
本领域技术人员应理解本发明并不限于上述几种内容特征识别方式,其他的任何可适用于本发明的内容特征识别方式也均应包含在本发明的保护范围以内,并以引用方式包含于此。随后,在步骤S22中,网络设备2基于所提取的内容特征来查询该帖子在一个或多个社区网络中的出现规律。网络设备2可以通过各种方式来获取该帖子的出现规律,包括但不限于以下方式1)网络设备2根据所获取的该帖子的内容特征在整个社区网络中,或在本社区网络以及其他社区网络中,查询该帖子的出现规律;幻更优选地,网络设备可建立并管理一个包含大量帖子的出现特征库中,并根据该帖子的内容特征在该出现规律库中查询该帖子的出现规律,并根据其此次查询过程来在该出现规律库中建立或更新该帖子的出现规律,其中该出现规律库包括各种类型的数据库,其在硬件上可以包含在网络设备中,也可是独立于网络设备并通过网络链路与之建立通信连接。本领域技术人员应理解本发明并不限于上述几种出现规律查询方式,其他的任何可适用于本发明的出现规律方式也均应包含在本发明的保护范围以内,并以引用方式包含于此。具体地,网络设备2可查询该帖子的以下出现规律1)所述帖子的全部或部分内容在社区网络中的出现频率;优选地,网络设备2可根据步骤S21中获得的帖子的内容特征来判断与该帖子的具有全部或部分的相同或近似内容特征的其他在社区网络中的出现次数或重复程度;用户发帖后,网络设备2接收用户所发帖子,并在社区网络或出现规律库中检测该帖子的全部或部分内容的出现频率,若出现频率高于相应的预定阈值,则该帖子具有为垃圾帖子的可能。进一步的,为了提高查询的效率,可先查找同一 ID或同一 IP地址所发的帖子,然后再在此范围内检测帖子的全部或部分内容的重复频率。例如,在1分钟的时间内,来自同一 ID或同一 IP的帖子达到10条以上,并且内容部分或全部相同。2)所述帖子的全部或部分内容在社区网络中的出现次数或重复程度;更优选地,网络设备2查询与该帖子具有全部或部分的相同或相似内容特征的其他帖子在社区网络中的出现次数或重复程度。用户发帖后,网络设备2接收用户所发帖子,并在社区网络或出现规律库中检测该帖子的全部或部分内容的出现次数或重复程度,若出现次数或重复程度高于一定的阈值,则该帖子具有为垃圾帖子的可能。优选地,为了提高查询的效率,可先查找同一 ID或同一 IP地址所发的帖子,然后再在此范围内检测帖子的全部或部分内容的出现次数或重复程度。例如,来自同一 ID或同一 IP的内容全部重复或部分重复帖子达到50条以上。本领域技术人员应理解本发明并不限于上述几种出现规律,其他的任何可适用于本发明的帖子的出现规律也均应包含在本发明的保护范围以内,并以引用方式包含于此。步骤S23、结合帖子的内容特征及该帖子在一个或多个社区网络中的出现规律来判断该帖子是否为垃圾帖子。网络设备2可根据以下判断准则来判断该帖子是否为垃圾帖子1)将上述各项出现规律分别与相应的预定阈值相比较,以获得相应的判断结果,若有任何一项判断结果为“是”,则该帖子具有为垃圾帖子的可能;在出现规律包括的两项判断中,若有任何一项判断结果为“是”,则该帖子具有为垃圾帖子的可能。具体是否判定该帖子为垃圾帖子,则需要根据预定的判断规则,包括但不限于,将内容特征分级,并设定不同的预定阈值,例如出现“联系地址”、“联系电话”等明显具有垃圾特征的帖子,直接判定为垃圾帖子;对于出现链接地址的帖子,则需要进一步结合其是否具有垃圾词汇,是否具有垃圾内容的语法规则,同一个帖子是否大量存在等其他方面来判断;而对于单个帖子本身不明显的“软文帖子”,若在短时间内大量出现,来自同一个ID或IP地址,且分布在不同的主题帖或社区网络中,也可直接判定为垃圾帖子等等;2)将上述各项出现规律中的一项或多项进行归一化后作为权重因子,对剩余出现规律进行加权,并将加权后的出现规律与相应阈值进行比较,以获得相应的判断结果。本领域技术人员应理解,本发明不限上述几种判断方式,其他可适用于本发明的基于帖子出现规律的判断方式,也均应一并包含在本发明的保护范围中,并以引用方式包含于此。此外,虽然上述过程均以用户向社区网络发出发帖请求后,网络设备2即对帖子进行内容特征的识别为例。但在网络设备2主动发起垃圾帖子检测的情况下,是同样适用的。比如在出现规律库更新后,或因为某种需要针对性检测的情况下,根据网络设备2的要求,对社区网络中的帖子进行重新检测,完全是在本领域技术人员能够实现的范围内的。最后,在步骤S3,网络设备2将根据步骤S2中的判断结果来对该帖子进行处理。 具体地,当判断该帖子并非垃圾帖子时,可直接放行以在相应贴吧上进行展示;而当判断该帖子为垃圾帖子或疑似垃圾帖子时,当判断所述帖子为垃圾帖子,则根据预定规则对所述垃圾帖子进行处理,处理方式包括但不限于1)通知网站管理人员对疑似垃圾帖子进行人工审核和人工处理;幻根据所述垃圾帖子的垃圾内容程度,采用不同等级的处理方法。对于第2、种处理方式,具体地,网络设备可根据垃圾内容的内容特征、在社区网络或出现规律库中的出现规律、及是否存在在先处理情况来判定所述帖子的垃圾内容程度。例如,对于在社区网络中的出现次数,若在社区网络的部分帖子下,出现了同样的垃圾帖子,判定采用第一等级的处理方法;若在整个社区网络的部分帖子下,出现了同样的垃圾帖子,判定采用第二等级的处理方法;若在若干个社区网络的部分帖子下,均出现了同样的垃圾帖子,判定采用第三等级的处理方法。对于在社区网络中的出现频率,若在一段时间,出现了少量同样的垃圾帖子,判定采用第一等级的处理方法;若在一段时间,出现了一定量的同样的垃圾帖子,判定采用第二等级的处理方法;若在一个极短时间,出现了大量的同样的垃圾帖子,判定采用第三等级的处理方法。对于在出现规律库中的重复程度,若重复次数较少,垃圾内容较短,判定采用第一等级的处理方法;若重复次数一般,垃圾内容有一定篇幅,判定采用第二等级的处理方法; 若重复次数极高,垃圾内容很长,判定采用第三等级的处理方法。对于在先处理情况,若同样的垃圾内容为首次发现,且出现程度较轻,可判定采用第一或第二等级的处理方法,若不是首次发现,则采用第三等级的处理方法。其中,第一等级的处理方法为警告,第二等级的处理方法为删帖,第三等级的处理方法为封ID及/或IP。上述举例仅为更好地说明步骤S3,本领域技术人员应该理解,任何可适用于本发明的根据判断结果对垃圾帖子进行处理的方式均应包含在本发明的范围内,并以引用方式包含于此。在一个优选实施例中,在步骤S21中、网络设备2识别帖子的内容特征,判断是否存在疑似垃圾内容。对于内容特征的检测,已在步骤S21中详述,在此不再累述。在内容特征包括的四项判断中,若有任何一项判断结果为“是”,则使得该选项判断结果为“是”的帖子的内容,即为疑似垃圾内容。例如若该帖子的部分内容符合垃圾内容的语法规则,则含有垃圾内容语法规则的内容部分即为疑似垃圾内容;若该帖子的部分内容含有垃圾词汇, 则含有垃圾词汇的内容部分即为疑似垃圾内容;若该帖子的部分内容含有链接,则含有链接的部分内容即为疑似垃圾内容;若该帖子的部分内容出现重复内容,则该重复内容即为疑似垃圾内容。随后,在步骤S22中、当识别帖子中存在疑似垃圾内容,则根据疑似垃圾内容在社区网络或出现规律库中的出现规律来判断所述帖子是否为垃圾帖子。所述疑似垃圾内容在社区网络或出现规律库中的出现规律至少包括以下任一项1)所述疑似垃圾内容在社区网络或出现规律库中的出现频率;将得到的疑似垃圾内容,在社区网络或出现规律库中进行检测,得到其出现的频率。例如,是否在一定的时间内,所述疑似垃圾内容的出现频率超过了一定的阈值。2)所述疑似垃圾内容在社区网络或出现规律库中的出现次数或重复程度。将得到的疑似垃圾内容,在社区网络或出现规律库中进行检测,得到其出现次数或重复的程度。例如,是否所述疑似垃圾内容的出现次数或重复的程度超出了一定的阈值。若在一定的时间内,所述疑似垃圾内容的出现频率超过了一定的阈值,或在某个范围内,所述疑似垃圾内容的出现次数或重复的程度超出了一定的阈值,则均可判定该帖子为垃圾帖子。进一步的,步骤S22包括两个子步骤S221及S222。步骤S221 (未示出)、将所述疑似垃圾内容在所述社区网络或出现特征库中进行匹配查询,以根据其出现规律来判断所述帖子是否为垃圾帖子。疑似垃圾内容在社区网络中的出现规律至少包括以下任一项1)所述疑似垃圾内容在社区网络中的出现频率;将得到的疑似垃圾内容,在社区网络中进行检测,得到其出现的频率。判断是否在一定的时间内,所述疑似垃圾内容的出现频率超过了一定的阈值。例如,在1分钟之内,所述疑似垃圾内容的在社区网络中出现频率超过了 5次,则可以判定该帖子为垃圾帖子。2)所述疑似垃圾内容在社区网络中的出现次数或重复程度。将得到的疑似垃圾内容,在社区网络中进行检测,得到其出现次数或重复的程度。 判断是否所述疑似垃圾内容的出现次数或重复的程度超出了一定的阈值。例如,在某个范围内,所述疑似垃圾内容的出现次数或重复的程度超过了 N次,则可以判定该帖子为垃圾帖子。其中,所述某个范围可以是一个社区网络的部分、整个社区网络、不同社区网络的部分、或若干个社区网络等等。步骤S222(未示出)、将所述疑似垃圾内容在所述出现规律库中进行查询,以根据其出现规律来判断所述帖子是否为垃圾帖子。疑似垃圾内容在出现规律库中的出现规律至少包括以下任一项1)所述疑似垃圾内容在出现规律库中的出现频率;将得到的疑似垃圾内容,在出现规律库中进行检测,得到其出现的频率。判断是否在一定的时间内,所述疑似垃圾内容的出现频率超过了一定的阈值。例如,在一小段的检索时间之内,所述疑似垃圾内容在出现规律库中的出现频率超过了某个设定值,则可以判定该帖子为垃圾帖子。2)所述疑似垃圾内容在出现规律库中的出现次数或重复程度。将得到的疑似垃圾内容,在出现规律库中进行检测,得到其出现次数或重复的程度。判断是否所述疑似垃圾内容在出现规律库中的出现次数或重复的程度超出了一定的阈值。例如,所述疑似垃圾内容中的若干部分能够分别在所述出现规律库中得到匹配,若所述若干部分的数量超过了某个设定值,则可以判定该帖子为垃圾帖子。优选地,在步骤S4(未示出)、当判断所述帖子为垃圾帖子,根据所述判断结果来更新此类所述出现规律库。S卩,判断帖子为垃圾帖子后,相应地根据该帖子的垃圾内容部分在所述出现规律库中进行更新。例如帖子中包含垃圾语法词汇的部分,甚至当该帖子为软文帖子,是为通过在社区网络中的出现规律检测得到的情况下,将帖子的全部内容录入所述出现规律库中。上述举例仅为更好地说明步骤S4,本发明并不以此为限,事实上,任何将已判断得到的垃圾帖子的信息录入所述出现规律库中的行为,均应包含在本发明中。同样,在步骤S3,网络设备2将根据步骤S2中的判断结果来对该帖子进行处理。 该步骤S3与参照图2所描述的步骤S3相同,为简明起见,以引用方式包含于此,在此不作赘述。请参阅图3,图3示出根据本发明一个方面的在社区网络或出现规律库中检测垃圾帖子的系统示意图。为简明起见,图3中仅示出一名候选用户及其用户终端1、以及网络设备2。该网络设备2包括但不限于,网络服务器、网络主机或者、云计算模式下的其他用户设备等。用户终端包括但不限于,计算机、智能手机、PDA、游戏机或IPTV等任何具有上网浏览功能的设备。如图4所示,网络设备2包括一个用于检测垃圾帖子的帖子检测装置 20,但本领域技术人员应理解,该帖子检测装置20也可是与网络设备通过网络进行通信连接的独立设备,包括但不限于普通计算机、服务器、主机等。其中,用户终端与网络设备之间的通信可以是基于诸如TCP/IP协议、UDP协议等的分组数据传输。而帖子检测装置为独立设备时,其与网络设备2之间的通信也可是基于上述TCP/IP协议、UDP协议等的分组数据传输;当帖子检测装置20包含于网络设备2中时, 其与网络设备其他模块的通信是基于各种计算机总线协议的信号传输。但本领域技术人员应理解本发明不限于上述通信传输协议,任何已有或今后可能出现的外部通信协议或内部计算机总线协议均适用于本发明,从而被弓I用而包含于此。以下,仅以帖子检测装置20包含于网络设备2中为例对本发明进行详细描述。如图3所示,用户a经由用户终端1访问社区网络网站并登陆其特定板块(以下简称“贴吧)时,例如“军事论坛”贴吧,通过人机交互的方式,利用用户终端1向网络设备发送帖子。在此虽然以“网络设备”为例来阐述本发明,但本领域技术人员应理解本发明还可适用于基于P2P模式或云计算方式的用户终端直接互连社区网络模式,其中,每一或特定的一些用户终端可起到网络设备的功能,对用户所发帖子进行检测,也应包含在本发明的保护范围以内。 具体地,用户a可通过诸如IE、Firefox等浏览器访问社区网络网页,也可通过安装于用户终端1中的客户端软件,诸如QQ等进入该社区网络的“军事论坛”贴吧网页。在前一情形中,用户a可以在该社区网络的“军事论坛”贴吧网页上的帖子输入栏中输入相应的帖子内容,然后点击该网页上的特定功能按钮,使得用户终端1发送帖子;在后一情形中, 用户a可在客户端的软件用户界面中输入帖子内容并通过点击该客户端软件界面中特定功能按钮使得用户终端1发送该帖子。本领域技术人员应理解,本发明应不限于上述方式, 任何可适用于本发明的访问社区网络以及发帖的方式均应在本发明的保护范围以内,并以引用方式包含于此。如图3所示,网络设备2接收到来自用户的发帖后,帖子检测装置20对帖子进行识别,根据其内容特征及在一个或多个社区网络中的出现规律来判断该帖子是否为垃圾帖子。本领域技术人员应理解,网络设备2可在用户发帖时即进行帖子的识别,也可根据需要,在其管理的一个或多个社区网络中主动发起对帖子的识别。具体地,网络设备2在接收到发帖的用户(以下简称“发帖人”)所发帖子后,特征识别装置21将对帖子进行内容特征的识别。具体地,其可采用以下方式来对内容特征进行识别1)所述帖子内容是否符合垃圾内容的语法规则;网络设备2接收用户所发帖子,特征识别装置21根据预定语法规则对该帖子内容进行查询,判断帖子内容是否包括能与垃圾内容的语法规则相匹配的内容。2)所述帖子内容中是否含有垃圾词汇;网络设备2接收用户所发帖子,特征识别装置21对该帖子内容进行识别,判断帖子内容中是否包括能与预设垃圾词库(未示出)中的垃圾词汇相匹配的词汇。3)所述帖子内容中是否含有地址信息,该地址信息包括但不限于,网页地址链接、 电话号码、或QQ号码;4)所述帖子内容中是否多次出现重复内容;特征识别装置21对该帖子内容进行识别,分析其中内容中是否多次出现重复的内容。本领域技术人员应理解本发明并不限于上述几种内容特征识别方式,其他的任何可适用于本发明的内容特征识别方式也均应包含在本发明的保护范围以内,并以引用方式包含于此。随后,规律查询装置22基于所提取的内容特征来查询该帖子在一个或多个社区网络中的出现规律。规律查询装置22可以通过各种方式来获取该帖子的出现规律,包括但不限于以下方式1)根据所获取的该帖子的内容特征在整个社区网络中,或在本社区网络以及其他社区网络中,查询该帖子的出现规律;幻更优选地,网络设备2可建立并管理一个包含大量帖子的出现特征库中,规律查询装置22可根据该帖子的内容特征在该出现规律库中查询该帖子的出现规律,并根据其此次查询过程来在该出现规律库中建立或更新该帖子的出现
11规律,其中该出现规律库包括各种类型的数据库,其在硬件上可以包含在网络设备中,也可是独立于网络设备并通过网络链路与之建立通信连接。本领域技术人员应理解本发明并不限于上述几种出现规律查询方式,其他的任何可适用于本发明的出现规律方式也均应包含在本发明的保护范围以内,并以引用方式包含于此。具体地,规律查询装置22可查询该帖子的以下出现规律1)所述帖子的全部或部分内容在社区网络中的出现频率;优选地,规律查询装置22可根据特征设备装置21提供的帖子的内容特征来判断与该帖子的具有全部或部分的相同或近似内容特征的其他在社区网络中的出现次数或重复程度;网络设备2接收用户所发帖子后,规律查询装置22可在社区网络或出现规律库中检测该帖子的全部或部分内容的出现频率,若出现频率高于相应的预定阈值,则该帖子具有为垃圾帖子的可能。进一步的,为了提高查询的效率,规律查询装置22可先查找同一 ID或同一 IP地址所发的帖子,然后再在此范围内检测帖子的全部或部分内容的重复频率。例如,在1分钟的时间内,来自同一 ID或同一 IP的帖子达到10条以上,并且内容部分或全部相同。2)所述帖子的全部或部分内容在社区网络中的出现次数或重复程度;更优选地,规律查询装置22可查询与该帖子具有全部或部分的相同或相似内容特征的其他帖子在社区网络中的出现次数或重复程度。网络设备2接收用户所发帖子后,规律查询装置22在社区网络或出现规律库中检测该帖子的全部或部分内容的出现次数或重复程度,若出现次数或重复程度高于一定的阈值,则该帖子具有为垃圾帖子的可能。优选地,为了提高查询的效率,规律查询装置22可先查找同一 ID或同一 IP地址所发的帖子,然后再在此范围内检测帖子的全部或部分内容的出现次数或重复程度。例如, 来自同一 ID或同一 IP的内容全部重复或部分重复帖子达到50条以上。本领域技术人员应理解本发明并不限于上述几种出现规律,其他的任何可适用于本发明的帖子的出现规律也均应包含在本发明的保护范围以内,并以引用方式包含于此。随后,判断装置22结合帖子的内容特征及该帖子在一个或多个社区网络中的出现规律来判断该帖子是否为垃圾帖子。判断装置22可根据以下判断准则来判断该帖子是否为垃圾帖子1)将上述各项出现规律分别与相应的预定阈值相比较,以获得相应的判断结果, 若有任何一项判断结果为“是”,则该帖子具有为垃圾帖子的可能;在出现规律包括的两项判断中,若有任何一项判断结果为“是”,则该帖子具有为垃圾帖子的可能。具体是否判定该帖子为垃圾帖子,则需要根据预定的判断规则,包括但不限于,将内容特征分级,并设定不同的预定阈值,例如出现“联系地址”、“联系电话”等明显具有垃圾特征的帖子,直接判定为垃圾帖子;对于出现链接地址的帖子,则需要进一步结合其是否具有垃圾词汇,是否具有垃圾内容的语法规则,同一个帖子是否大量存在等其他方面来判断;而对于单个帖子本身不明显的“软文帖子”,若在短时间内大量出现,来自同一个ID或IP地址,且分布在不同的主题帖或社区网络中,也可直接判定为垃圾帖子等等;2)将上述各项出现规律中的一项或多项进行归一化后作为权重因子,对剩余出现规律进行加权,并将加权后的出现规律与相应阈值进行比较,以获得相应的判断结果。本领域技术人员应理解,本发明不限上述几种判断方式,其他可适用于本发明的基于帖子出现规律判断垃圾帖子的判断方式,也均应一并包含在本发明的保护范围中,并以引用方式包含于此。此外,虽然上述过程均以用户向社区网络发出发帖请求后,网络设备2即对帖子进行内容特征的识别为例。但在网络设备2主动发起垃圾帖子检测的情况下,是同样适用的。比如在出现规律库更新后,或因为某种需要针对性检测的情况下,根据网络设备2的要求,对社区网络中的帖子进行重新检测,完全是在本领域技术人员能够实现的范围内的。最后,帖子处理装置对将根据判断装置23中的判断结果来对该帖子进行处理。具体地,当判断该帖子并非垃圾帖子时,可直接放行以在相应贴吧上进行展示;而当判断该帖子为垃圾帖子或疑似垃圾帖子时,当判断所述帖子为垃圾帖子,则根据预定规则对所述垃圾帖子进行处理,处理方式包括但不限于1)通知网站管理人员对疑似垃圾帖子进行人工审核和人工处理;幻根据所述垃圾帖子的垃圾内容程度,采用不同等级的处理方法。对于第幻种处理方式,具体地,网络设备可根据垃圾内容的内容特征、在社区网络或出现规律库中的出现规律、及是否存在在先处理情况来判定所述帖子的垃圾内容程度。例如,对于在社区网络中的出现次数,若在社区网络的部分帖子下,出现了同样的垃圾帖子,判定采用第一等级的处理方法;若在整个社区网络的部分帖子下,出现了同样的垃圾帖子,判定采用第二等级的处理方法;若在若干个社区网络的部分帖子下,均出现了同样的垃圾帖子,判定采用第三等级的处理方法。对于在社区网络中的出现频率,若在一段时间,出现了少量同样的垃圾帖子,判定采用第一等级的处理方法;若在一段时间,出现了一定量的同样的垃圾帖子,判定采用第二等级的处理方法;若在一个极短时间,出现了大量的同样的垃圾帖子,判定采用第三等级的处理方法。对于在出现规律库中的重复程度,若重复次数较少,垃圾内容较短,判定采用第一等级的处理方法;若重复次数一般,垃圾内容有一定篇幅,判定采用第二等级的处理方法; 若重复次数极高,垃圾内容很长,判定采用第三等级的处理方法。对于在先处理情况,若同样的垃圾内容为首次发现,且出现程度较轻,可判定采用第一或第二等级的处理方法,若不是首次发现,则采用第三等级的处理方法。其中,第一等级的处理方法为警告,第二等级的处理方法为删帖,第三等级的处理方法为封ID及/或IP。上述举例仅为更好地说明帖子处理装置M的处理过程,本领域技术人员应该理解,任何可适用于本发明的根据判断结果对垃圾帖子进行处理的方式均应包含在本发明的范围内,并以引用方式包含于此。在一个优选实施例中,特征识别装置21识别帖子的内容特征,判断是否存在疑似垃圾内容。对于内容特征的检测,以上上述参照图3对特征识别装置21的描述中已有详述, 在此不再累述。在内容特征包括的四项判断中,若有任何一项判断结果为“是”,则使得该选项判断结果为“是”的帖子的内容,即为疑似垃圾内容。例如若该帖子的部分内容符合垃圾内容的语法规则,则含有垃圾内容语法规则的内容部分即为疑似垃圾内容;若该帖子的部分内容含有垃圾词汇,则含有垃圾词汇的内容部分即为疑似垃圾内容;若该帖子的部分内容含有链接,则含有链接的部分内容即为疑似垃圾内容;若该帖子的部分内容出现重复内容,则该重复内容即为疑似垃圾内容。随后,当特征识别装置21识别出帖子中存在疑似垃圾内容,规律查询装置22则根据疑似垃圾内容在社区网络或出现规律库中的出现规律来判断所述帖子是否为垃圾帖子。 所述疑似垃圾内容在社区网络或出现规律库中的出现规律至少包括以下任一项1)所述疑似垃圾内容在社区网络或出现规律库中的出现频率;将得到的疑似垃圾内容,在社区网络或出现规律库中进行检测,得到其出现的频率。例如,是否在一定的时间内,所述疑似垃圾内容的出现频率超过了一定的阈值。2)所述疑似垃圾内容在社区网络或出现规律库中的出现次数或重复程度。将得到的疑似垃圾内容,在社区网络或出现规律库中进行检测,得到其出现次数或重复的程度。例如,是否所述疑似垃圾内容的出现次数或重复的程度超出了一定的阈值。若在一定的时间内,所述疑似垃圾内容的出现频率超过了一定的阈值,或在某个范围内,所述疑似垃圾内容的出现次数或重复的程度超出了一定的阈值,则均可判定该帖子为垃圾帖子。进一步的,规律查询装置22包括第一查询装置221和第二查询装置222。第一查询装置221 (未示出)、将所述疑似垃圾内容在所述社区网络或出现特征库中进行匹配查询,以根据其出现规律来判断所述帖子是否为垃圾帖子。疑似垃圾内容在社区网络中的出现规律至少包括以下任一项1)所述疑似垃圾内容在社区网络中的出现频率;将得到的疑似垃圾内容,在社区网络中进行检测,得到其出现的频率。判断是否在一定的时间内,所述疑似垃圾内容的出现频率超过了一定的阈值。例如,在1分钟之内,所述疑似垃圾内容的在社区网络中出现频率超过了 5次,则可以判定该帖子为垃圾帖子。2)所述疑似垃圾内容在社区网络中的出现次数或重复程度。将得到的疑似垃圾内容,在社区网络中进行检测,得到其出现次数或重复的程度。 判断是否所述疑似垃圾内容的出现次数或重复的程度超出了一定的阈值。例如,在某个范围内,所述疑似垃圾内容的出现次数或重复的程度超过了 N次,则可以判定该帖子为垃圾帖子。其中,所述某个范围可以是一个社区网络的部分、整个社区网络、不同社区网络的部分、或若干个社区网络等等。第二查询装置222(未示出)、将所述疑似垃圾内容在所述出现规律库中进行查询,以根据其出现规律来判断所述帖子是否为垃圾帖子。疑似垃圾内容在出现规律库中的出现规律至少包括以下任一项1)所述疑似垃圾内容在出现规律库中的出现频率;将得到的疑似垃圾内容,在出现规律库中进行检测,得到其出现的频率。判断是否在一定的时间内,所述疑似垃圾内容的出现频率超过了一定的阈值。例如,在一小段的检索时间之内,所述疑似垃圾内容在出现规律库中的出现频率超过了某个设定值,则可以判定该帖子为垃圾帖子。2)所述疑似垃圾内容在出现规律库中的出现次数或重复程度。将得到的疑似垃圾内容,在出现规律库中进行检测,得到其出现次数或重复的程度。判断是否所述疑似垃圾内容在出现规律库中的出现次数或重复的程度超出了一定的阈值。例如,所述疑似垃圾内容中的若干部分能够分别在所述出现规律库中得到匹配,若所述若干部分的数量超过了某个设定值,则可以判定该帖子为垃圾帖子。优选地,更新装置4(未示出)、当判断所述帖子为垃圾帖子,根据所述判断结果来更新此类所述出现规律库。S卩,判断帖子为垃圾帖子后,更新装置4相应地根据该帖子的垃圾内容部分在所述出现规律库中进行更新。例如帖子中包含垃圾语法词汇的部分,甚至当该帖子为软文帖子,是为通过在社区网络中的出现规律检测得到的情况下,将帖子的全部内容录入所述出现规律库中。上述举例仅为更好地说明更新装置4,本发明并不以此为限,事实上,任何将已判断得到的垃圾帖子的信息录入所述出现规律库中的行为,均应包含在本发明中。同样,帖子处理装置M将根据判断装置23的判断结果来对该帖子进行处理,其过程与参照图2所描述的帖子处理装置M的过程相同,为简明起见,以引用方式包含于此,在此不作赘述。以上参照图2-3对本发明的多个具体实施例详细描述。对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,上述实施例仅为示范性的,而非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此应将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括” 一词不排除其他单元或步骤,单数不排除复数。 系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
权利要求
1.一种用于检测社区网络中垃圾帖子的方法,其中,该方法包括a.对帖子进行检测,根据该帖子在一个或多个社区网络中的出现规律来判断该帖子是否为垃圾帖子。
2.根据权利要求1所述的方法,其中,所述步骤a包括al.根据预定语义规则对该帖子进行识别,提取其中的内容特征; a2.根据所述帖子的内容特征来查询与该帖子在社区网络中的出现规律; a3.基于第一预定规则根据该帖子在所述社区网络中的出现规律来判断所述帖子是否为垃圾帖子。
3.根据权利要求2所述的方法,其中,所述步骤a2还包括-根据所述帖子的内容特征在所述社区网络中进行匹配查询,以查询与该帖子在社区网络中的出现规律。
4.根据权利要求2所述的方法,其中,所述步骤a2还包括-根据所述帖子的内容特征在出现规律库中进行匹配查询,以查询与该帖子在社区网络中的出现规律。
5.根据权利要求4所述的方法,其中,该方法还包括 -根据所述判断结果来更新所述出现规律库。
6.根据权利要求1至5中任一项所述的方法,其中,所述出现规律包括以下各项中的至少任一项-所述与该帖子具有相同或相似内容特征的其他帖子在社区网络中的出现频率; -所述与该帖子具有相同或相似内容特征的其他帖子在社区网络中的出现次数或重复程度。
7.根据权利要求6所述的方法,其中,所述第一预定规律相应地包括以下任一项-所述与该帖子具有相同或相似内容特征的其他帖子在社区网络中的出现频率是否超出第一预定阈值;所述与该帖子具有相同或相似内容特征的其他帖子在社区网络中的出现次数是否超出第二预定阈值;-所述内容特征的重复程度是否超出第三预定阈值。
8.根据权利要求1至7中任一项所述的方法,其中,所述预定语义规则包括以下至少一项-所述帖子内容是否符合垃圾内容的语法规则; -所述帖子内容中是否含有垃圾词汇; -所述帖子内容中是否含有地址信息; -所述帖子内容中是否多次出现重复内容。
9.根据权利要求8所述的方法,其中,所述地址信息包括网页地址链接、电话号码、或QQ号码。
10.根据权利要求1至9中任一项所述的方法,其中,该方法还包括b.基于预定处理规则根据所述判断结果对该帖子进行处理。
11.一种用于检测社区网络中垃圾帖子的设备,其中,包括帖子检测装置,用于对帖子进行检测,根据该帖子在一个或多个社区网络中的出现规律来判断该帖子是否为垃圾帖子。
12.根据权利要求11所述的设备,其中,所述帖子检测装置包括特征识别装置,用于根据预定语义规则对该帖子进行识别,提取其中的内容特征; 规律查询装置,用于根据所述帖子的内容特征来查询与该帖子在社区网络中的出现规律;判断装置,用于基于第一预定规则根据该帖子在所述社区网络中的出现规律来判断所述帖子是否为垃圾帖子。
13.根据权利要求12所述的设备,其中,所述规律查询装置还用于根据所述帖子的内容特征在所述社区网络中进行匹配查询,以查询与该帖子在社区网络中的出现规律。
14.根据权利要求12所述的设备,其中,所述规律查询装置还用于根据所述帖子的内容特征在出现规律库中进行匹配查询,以查询与该帖子在社区网络中的出现规律。
15.根据权利要求14所述的设备,其中,还包括更新装置,用于根据所述判断结果来更新所述出现规律库。
16.根据权利要求11至15中任一项所述的设备,其中,所述出现规律包括以下各项中的至少任一项-所述与该帖子具有相同或相似内容特征的其他帖子在社区网络中的出现频率; -所述与该帖子具有相同或相似内容特征的其他帖子在社区网络中的出现次数或重复程度。
17.根据权利要求16所述的设备,其中,所述第一预定规律相应地包括以下任一项-所述与该帖子具有相同或相似内容特征的其他帖子在社区网络中的出现频率是否超出第一预定阈值;所述与该帖子具有相同或相似内容特征的其他帖子在社区网络中的出现次数是否超出第二预定阈值;-所述内容特征的重复程度是否超出第三预定阈值。
18.根据权利要求11至17中任一项所述的设备,其中,所述预定语义规则包括以下至少一项-所述帖子内容是否符合垃圾内容的语法规则; -所述帖子内容中是否含有垃圾词汇; -所述帖子内容中是否含有地址信息; -所述帖子内容中是否多次出现重复内容。
19.根据权利要求18所述的设备,其中,所述地址信息包括网页地址链接、电话号码、 或QQ号码。
20.根据权利要求11至19中任一项所述的设备,其中,还包括帖子处理装置,用于基于预定处理规则根据所述判断结果对该帖子进行处理。
全文摘要
本发明提供一种用于基于帖子在检测社区网络中出现规律来检测垃圾帖子的方法和设备。该方法包括a.对帖子进行识别,根据其内容特征及在一个或多个社区网络中的出现规律来判断该帖子是否为垃圾帖子。优选地,步骤a包括a1.根据预定语义规则对该帖子进行识别,提取其中的内容特征;a2.根据所述帖子的内容特征来查询与该帖子在社区网络中的出现规律;a3.基于第一预定规律根据该帖子在所述社区网络中的出现规律来判断所述帖子是否为垃圾帖子。现有技术通常孤立地对单个帖子的内容进行脏词匹配或者语义分析所造成的无法检测出在社区网络中存在大量重复帖子的情形,与之相比本发明提高了对垃圾帖子的判断准确度。
文档编号H04L29/06GK102315953SQ201010214189
公开日2012年1月11日 申请日期2010年6月29日 优先权日2010年6月29日
发明者尹佳, 帅帅, 王波, 罗亮, 舒迅 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1