本发明涉及通信技术领域,具体涉及一种特定内容的去除方法和装置。
背景技术:
伴随自媒体的发展,个性化阅读产品越来越丰富。目前个性化阅读产品大多是内容聚合类的阅读产品,比如,可以在即时通讯应用中集成内容聚合器来获取丰富的文章。
即时通讯应用中的内容聚合器可以聚合即时通讯公众号发送的文章。内容聚合器对应的内容聚合服务器可以向用户推送文章时,比如会根据用户订阅的公众号信息、用户兴趣等向用户推送相应的文章。
然而,目前内容聚合服务器推送的文章包含大量的恶意内容(比如广告内容等),降低了用户阅读体验,例如,参考图1a和图1b,在文章内容中包含了广告文字和广告图片。因此,为了提升用户阅读体验,需要对文章中的恶意内容进行去除。目前恶意内容的去除方式主要依靠图像文字识别技术和广告特征模型,具体地,对文章内容进行图像文字识别,基于训练的广告特征模型确定识别出的内容识别出的内容是否为恶意内容如广告文字、广告图片等,若是,则将识别出的恶意内容删除。
由于目前图像文字识别技术的局限性,其对一些文字或者图片的识别准确性比较低,如图像文字识别技术对手写体文字的识别准确性比较低;并且一些广告文章发布者会变化文字的描述手法,比如用户拼音替代,用象形文字替代等,出现没有训练过的内容特征,使得广告特征模型无法识别恶意内容,因此,降低了恶意内容的识别准确性,导致恶意内容去除的准确性较低。
技术实现要素:
本发明实施例提供一种特定内容的去除方法和装置,可以提高特定内容去除的准确性。
本发明实施例提供一种特定内容的去除方法,包括:
当文章集合有新文章加入时,获取所述新文章的文章内容成分,得到待识别的目标文章内容成分;
从所述文章集合中确定具有所述目标文章内容成分的目标文章;
当所述目标文章的数量大于预设文章数量时,确定所述目标文章所属的文章类别,得到文章类别集合;
根据所述文章类别集合所包含的文章类别种数,确定所述目标文章内容成分是否为特定内容成分;
若是,则根据所述目标文章内容成分对所述新文章中相应的特定内容进行去除。
相应的,本发明实施例还提供一种特定内容的去除装置,包括:
成分获取单元,用于当文章集合有新文章加入时,获取所述新文章的文章内容成分,得到待识别的目标文章内容成分;
目标文章确定单元,用于从所述文章集合中确定具有所述目标文章内容成分的目标文章;
类别确定单元,用于当所述目标文章的数量大于预设文章数量时,确定所述目标文章所属的文章类别,得到文章类别集合;
内容确定单元,用于根据所述文章类别集合所包含的文章类别种数,确定所述目标文章内容成分是否为特定内容成分;
去除单元,用于当所述内容确定单元,确定所述目标文章内容成分为特定内容成分时,根据所述目标文章内容成分对所述新文章中相应的特定内容进行去除。
本发明实施例采用当文章集合有新文章加入时,获取该新文章的文章内容成分,得到待识别的目标文章内容成分,然后,从该文章集合中确定具有该目标文章内容成分的目标文章,当该目标文章的数量大于预设文章数量时,确定该目标文章所属的文章类别,得到文章类别集合,根据该文章类别集合所包含的文章类别种数,确定该目标文章内容成分是否为特定内容成分,若是,则根据该目标文章内容成分对该新文章中相应的特定内容进行去除。该方案可以基于特定内容(如恶意内容等)的共现性以及特定内容所属文章类别种类来识别特定内容,无需依靠依靠图像文字识别技术和广告特征模型来识别特定内容,因此,可以提高特定内容如恶意内容等)的识别准确性,进而提高特定内容如恶意内容等)去除的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是具有广告文字的文章示意图;
图1b是具有广告图片的文章示意图;
图1c是本发明实施例提供的特定内容的去除方法的流程示意图;
图2是本发明实施例提供的特定内容的去除方法的另一流程示意图;
图3是本发明实施例提供的特定内容的去除系统的架构示意图;
图4a是本发明实施例提供的特定内容的去除装置的第一种结构示意图;
图4b是本发明实施例提供的特定内容的去除装置的第二种结构示意图;
图4c是本发明实施例提供的特定内容的去除装置的第三种结构示意图;
图4d是本发明实施例提供的特定内容的去除装置的第四种结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种特定内容的去除方法和装置。以下将分别进行详细说明。
实施例一、
本实施例将从特定内容的去除装置的角度进行描述,该特定内容的去除装置具体可以集成在服务器,比如内容聚合服务器等设备中。
一种特定内容的去除方法,包括:当文章集合有新文章加入时,获取该新文章的文章内容成分,得到待识别的目标文章内容成分,然后,从该文章集合中确定具有该目标文章内容成分的目标文章,当该目标文章的数量大于预设文章数量时,确定该目标文章所属的文章类别,得到文章类别集合,根据该文章类别集合所包含的文章类别种数,确定该目标文章内容成分是否为特定内容成分,若是,则根据该目标文章内容成分对该新文章中相应的特定内容进行去除。
如图1c所示,该特定内容的去除方法的具体流程可以如下:
101、当文章集合有新文章加入时,获取该新文章的文章内容成分,得到待识别的目标文章内容成分。
本实施例中,特定内容指的是文章内容中满足某种条件的内容,该条件可以根据实际需求设定。比如,特征内容可以包括文章内容中与文章本身不相关的内容;又比如,该特征内容还可以包括文章内容中与文章本身不相关,且具有恶意性的内容,即恶意内容,如,广告内容、不良内容(如色情内容、政治敏感内容等等)、欺诈内容等等。其中,文章集合包括多个文章。比如,在步骤101之前,本实施例可以收集自媒体用户发布的文章,得到文章集合。该文章集合可以存储在本地,或者存在其他设备或系统中,比如,可以存储在远程nosql(notonlysql,非关系型数据库)系统中。
本实施例中,当检测到有新文章加入该文章集合中时,可以获取该新文章的文章内容成分。比如,当检测到远程nosql系统中文章集合有新文章加入时,可以获取新文章的文章内容成分。
其中,文章内容成分为组成文章内容的内容单元,该内容单元可以选取根据实际需求设定。文章内容一般可以包括文本内容、图片内容等中的至少一种;因此,该内容单元可以包括组成文本内容的文本内容单元、组成图片内容的图片内容单元中的至少一种。其中,组成文本内容的文本内容单元可以根据段落、句子等划分。比如,文本内容单元可以包括文本内容中段落内容、句子内容等等,即每一段的文本内容即为一个文章内容成分,或每一句内容即为一个文章内容成分。
该组成图片内容的图片内容单元即为图片内容本身,比如,该当文章内容包括某个图片时,图片内容单元即为该图片,也即每一张图片即为一个文章内容成分。
为了加快特定内容的识别效率和去除效率,本实施例还可以对文章内容进行清洗或者过滤,然后,在从过滤后的文章内容中获取文章内容成分。比如,可以对文章内容中的一些敏感内容(用户标识、政治敏感词等)进行过滤。
为了加快特定内容的识别速度和去除速度,本实施例可以将组成文章内容的内容单元对应的内容标识作为文章内容成分,也即步骤“获取该新文章的文章内容成分”可以包括:
从该新文章的文章内容中获取相应的内容单元;
获取该内容单元对应的内容标识,并将该内容标识作为该新文章的文章内容成分。
比如,可以将组成文本内容的内容单元的标识作为文本内容成分,将图片内容的标识作为图片内容成分。
其中,内容单元对应的内容标识可以为内容单元的唯一标识;比如,当内容单元包括组成文本内容的文本内容单元时,文本内容单元的内容标识可以包括文本内容单元的文本指纹,如某段文本内容的文本指纹,此时,文章内容成分可以为文本指纹。
其中,该文本指纹从形式上来一般为固定长度较短的字符串,相同文本指纹的文本可以认为是相同文本。比如,可以基于simhash(汉明)算法来获取一个文本内容单元的文本指纹,该文本指纹可以称为simhash指纹。simhash是用来网页去重最常用的hash(哈希)方法,可以用来快速识别文本的相似性。
又比如,当内容单元包括组成图片内容的图片内容单元,即图片时,该图片内容单元的内容标识可以为图片的图片标识,如图片的md5(消息摘要算法)值。
本实施例中,文章内容除了包含文本内容和图片内容之外,还可以包括图片的链接地址,此时,内容单元可以包括每个图片的链接地址,那么本实施例可以根据图片的链接地址下载相应的图片,然后,获取下载图片对应的图片标识如md5值。
根据上述描述,本实施例中文章内容成分可以包括文本内容单元的内容标识(如文本指纹等)和/或图片内容单元的图片标识(如md5值等)。
可选地,为能够识别特定内容以达到去除特定内容的目的,本实施例可以在步骤101之前,获取文章集合内每个文章的文章内容成分,并保存每个文章的文章内容成分。该文章内容成分可以包括组成文章内容的内容单元,或者该文章内容成分可包括文本内容单元的内容标识(如文本指纹等)和/或图片内容单元的图片标识(如md5值等)。
本实施例可以将新文章的文章内容成分作为待识别的目标文章内容。
102、从该文章集合中确定具有该目标文章内容成分的目标文章。
比如,可以将新文章的文章内容成分与文章集合内原有文章的文章内容成分进行对比,根据对比结果从文章集合中确定具有新文章的文章内容成分的目标文章。
本实施例中,文章内容成分可以包括:组成文章内容的内容单元,或者组成文章内容的内容单元的内容标识。因此,文章内容成分进行对比的方式可以包括:直接对比文章内容成分本身,即对比组成文章内容的内容单元,或者比较组成文章内容的内容单元的内容标识。
例如,新文章的文章内容成分包括文本指纹1、文本指纹2…文本指纹i…文本指纹m时,通过将文本指纹i与文章集合内原有文章的文本指纹进行对比,从而从文章集合内确定具有文本指纹i的文章。又例如,当新文章的文章内容成分包括:md5值1、md5值2…md5值i…md5值m时,通过将md5值i与文章集合内原有文章的md5值进行对比,从而从文章集合内确定具有md5值i的文章。
为了能够快速地确定具有目标文章内容成分的目标文章,本实施例可以在步骤101之前,获取文章集合内容文章的文章内容成分,并建立文章内容成分与文章之间的映射关系,这样后续便可以根据目标文章内容成分与建立的映射关系来确定具有目标文章内容成分的文章。也即在步骤101之前,本实施例方法还可以包括:
针对文章集合内的文章,获取文章集合内文章的文章内容成分以及文章标识;
建立该文章内容成分与该文章之间的映射关系,得到映射关系集合;
此时,步骤“从该文章集合中确定具有该目标文章内容成分的目标文章”可以包括:
根据该目标文章内容成分、以及该映射关系集合,从该文章集合中确定具有该目标文章内容成分的目标文章。
比如,当文章集合原先包含文章1、文章2…文章i…文章n时,可以获取文章i的文章内容成分{文章内容成分1、文章内容成分2……文章内容成分m}、建立文章内容成分1与文章1之间的映射关系、文章内容成分2与文章1之间的映射关系……文章内容成分m与文章1之间的映射关系;这样当针对集合内所有文章建立完映射关系之后,便可以得到一个映射关系集合。后续当有新文章加入文章集合时,便可以获取新文章的文章内容成分得到待识别的目标文章内容成分,然后,基于该映射关系集合和目标文章内容成分,从文章集合中确定具有该目标文章内容成分的目标文章。
其中,文章内容成分与文章之间的映射关系可以包括文章内容成分与文章标识之间的映射关系,该映射关系的表现形式可以由多种,比如文章内容成分与文章标识之间的映射关系可以为索引对,索引对的索引关键词(key)为文章的文章内容成分,该索引对的索引值(value)包括该文章的文章标识。此时,映射关系集合可以包括索引对集合。
例如,文章i的文章内容成分(如md5值或文本指纹)包括:文章内容成分1(如md5值或文本指纹)、文章内容成分2(如md5值或文本指纹)……文章内容成分m(如md5值或文本指纹),可以建立{key(文章内容成分1)、value(文章i)}、{key(文章内容成分2)、value(文章i)}……{key(文章内容成分m)、value(文章i)};这样在针对集合内所有文章建立索引对完成之后,便可以得到一个索引对集合。
此时,步骤“根据该目标文章内容成分、以及该映射关系集合,从该文章集合中确定具有该目标文章内容成分的目标文章”可以包括:
将该目标文章内容成分作为待检索的目标索引关键词;
从该索引对集合中查找索引关键词与该目标索引关键词相同的索引值,得到具有该目标文章内容成分的目标文章。
例如,新文章的文章内容成分为文章内容成分k(如md5值或文本指纹)时,可以将文章内容成分k作为目标索引关键词key,假设索引对集合包括:{key(文章内容成分1)、value(文章1)}、{key(文章内容成分2)、value(文章2)}……{key(文章内容成分k)、value(文章1)}、{key(文章内容成分k)、value(文章2)}……{key(文章内容成分k)、value(文章3)}、{key(文章内容成分m)、value(文章i)};此时,便可以从索引对集合中查找到key=文章内容成分k的value为:value(文章1)、value(文章2)、value(文章3),从而得到具有目标文章内容成分k的目标文章,即文章1、文章2、文章3。
为了便于查找到具有相同文章内容成分的文章,本实施例可以在获取索引关键词与该目标索引关键词相同的索引值之后,可以对索引值进行合并,得到目标索引关键词对应的索引值;这样后续遍历目标索引关键词时便可从其索引值中获取具有目标索引关键词对应的文章内容成分的所有文章。也即,步骤“从该索引对集合中查找索引关键词与该目标索引关键词相同的索引值,得到具有该目标文章内容成分的目标文章”可以包括:
从该索引对集合中查找索引关键词与该目标索引关键词相同的索引值;
将索引关键词与该目标索引关键词相同的索引值进行合并,得到目标索引关键词及其对应的目标索引值;
遍历该目标索引关键词,并获取该目标索引关键词对应的目标索引值;
根据该目标索引值确定具有该目标文章内容成分的目标文章。
例如,当查找到key=文章内容成分k的value为:value1(文章1)、value2(文章2)、value3(文章3),可以将value1(文章1)、value2(文章2)、value3(文章3)进行合并得到keyk(文章内容成分k)对应的valuek(文章1、文章2、文章3)。这样后续,当遍历到keyk时便可以获取valuek,从而根据valuek确定具有文章内容成分k的目标文章为文章1、文章2、文章3。
又比如新过来的文章doc2拆分出文章内容成分md5,并将其作为key(md5),然后在索引对集合中查找,假设发现了同样的key(md5)并且其value是doc1,那么就把doc2增加到原来的value中;变成了key(md5)->doc1、doc2。
本实施例中,建立的索引对集合可以存储在本地(即本机),或者远程设备中,比如,可以存储在远程nosql系统中。如果存在远程设备中,那么可以从远程设备中查找具有相同目标文章内容成分的目标文章,如通过远程nosql系统提高的接口来实现查找。
103、当该目标文章的数量大于预设文章数量时,确定该目标文章所属的文章类别,得到文章类别集合。
由于特定内容(如恶意内容)具有共现性,也就是说一段特定内容往往会出现在多篇文章中。因此,本实施例可以获取具有目标文章内容成分的目标文章的数量,当该数量大于预设文章数量时,表明该目标文章内容成分可能为特定内容,所以需要针对该目标文章内容成分作进一步判断。
其中,预设文章数量可以经过多次测试实验得到,比如,该预设文章数量可以为5、6等等。
104、根据该文章类别集合所包含的文章类别种数,确定该目标文章内容成分是否为特定内容成分,若是,则执行步骤105。
比如,根据该文章类别集合所包含的文章类别种数,确定该目标文章内容成分是否为恶意内容成分等等。
当某个文章内容成分在超过预设数量的文章中出现时,并不能说该文章内容成分就是特定内容成分(如广告内容成分),也可能是天然的一句引用文字或者常见图片,因此,本实施例方法需要进行二次判断,具体地,可以基于出现相同文章内容成分的文章所属的文章类别来进一步确定该文章内容成分是否为特定内容成分。
经过实际分析可知,如果某个文章内容成分在一定数量的文章中出现,且该出现该文章内容的文章所属多个不同的文章类别时,那么很大概率可以确定该文章内容成分为特定内容成分,因为多个不同类别的文章内容出现同一段文字的概率非常小。
因此,本实施例可以基于具有目标文章内容成分的目标文章所属的文章类别种类进一步确定该目标文章内容成分是否为特定内容成分。具体地,步骤“根据该文章类别集合所包含的文章类别种数,确定该目标文章内容成分是否为特定内容成分”可以包括:
当该文章类别集合所包含的文章类别种数大于预设类别种数时,确定该目标文章内容成分为特定内容成分。
其中,预设类别种数可以根据实际需求设定,比如可以为3、4等。本实施例文章类别可以根据实际需求划分,比如,可以将文章类别划分为:财经、体育、娱乐、动漫等等。
当文章类别集合所包含的文章类别种数小于预设类别种数时,为提高特定内容识别的精确性,本实施例可以交由人工来确定。由于实际中这种情况较少,人工需要做的二次审核工作很少。而且审核速度非常快,因为只需要对比一段成分或者一张图片,比阅读完全文去找到广告成分要快很多。也即步骤“根据该文章类别集合所包含的文章类别种数,确定该目标文章内容成分是否为特定内容成分”还可以包括:
当该文章类别种数不大于预设类别种数时,根据用户输入的成分确认信息确定该目标文章内容成分为特定内容成分。
例如,当扫描到某个key下面如果链接的文章id多余5个,可以采用如策略:
如果文章id多余5个,所有文章所属的文章类别的种数大于3,那么可以确定该目标文章内容成分为特定内容成分;
如果文章id多余5个,所有文章所属的文章类别的种数不大于3,那么就提交给人工审核。应用人的知识来判断该目标文章内容成分是否为特定内容成分。
为了能够快速地获取到文章所属的文章类别以及类别种数,本实施例可以在步骤101之前或者在进行特定内容去除的流程之前,预选获取文章集合内所有文章所属的文章类别,并且在新文章加入文章集合时获取新文章所属的文章类别;这样后续在确定目标文章的数量大于数量之后,便可以直接得到目标文章所属的文章类别,以及文章类别集合。
比如,可以建立文章集合内文章与其文章类别之间的映射关系,得到文章类别映射关系集合;这样便可以根据目标文章和该文章类别映射关系集合,获取目标文章所属的文章类别。其中,文章与其文章类别之间的映射关系可以包括:文章标识与其文章类别之间的映射关系;该映射关系可以由索引对来体现索引对的key为文章的文章标识、vlaue包括文章所属的文章类别。
实际应用中,当有新文章加入文章集合时,获取新文章与其文章类别直接的映射关系,并根据该映射关系更新该类别映射关系集合。
105、根据该目标文章内容成分对该新文章中相应的特定内容进行去除。
比如,当文章内容成分为组成文章内容的内容单元(如某段文字或者某张图片)时,那么可以将该内容单元直接从新文章中去除。
当文章内容成分为组成文章内容的内容单元的内容标识(md5、或者文本指纹)时,可以将内容标识对应的内容单元(如文本指纹对于的某段文字或者md5对应的某张图片)从新文章中去除。
可选地,本实施例在确定目标内容成分不为特定内容成分时,可以结束流程,或者识别下一个目标文章内容成分是否为特定内容成分等等。比如,可以返回步骤103继续确定识别下一个目标文章内容成分是否为特定内容成分。
由上可知,本发明实施例采用当文章集合有新文章加入时,获取该新文章的文章内容成分,得到待识别的目标文章内容成分,然后,从该文章集合中确定具有该目标文章内容成分的目标文章,当该目标文章的数量大于预设文章数量时,确定该目标文章所属的文章类别,得到文章类别集合,根据该文章类别集合所包含的文章类别种数,确定该目标文章内容成分是否为特定内容成分,若是,则根据该目标文章内容成分对该新文章中相应的特定内容进行去除。该方案可以基于特定内容(如恶意内容)的共现性以及特定内容所属文章类别种类来识别特定内容,无需依靠依靠图像文字识别技术和广告特征模型来识别特定内容(如恶意内容),因此,可以提高特定内容的识别准确性和效率,进而提高特定内容(如恶意内容)去除的准确性和效率。
实施例二、
根据实施例一所描述的方法,以下将作进一步详细说明。
本实施例将以特定内容的去除装置集成在服务器中为例,来对本发明的去除方法进一步描述。
如图2所示,一种特定内容的去除方法,具体流程可以如下:
201、服务器获取文章集合,该文章集合包多个文章。
该文章集合可以由服务器收集自媒体用户发布的文章得到,该服务器可以将文章集合存储在本地,或者存在其他服务器中,可以将文章集合存储在其他服务器的nosql中。
或者,该文章集合可以由其他服务器收集自媒体用户发布的文章得到,服务器可以供其他服务器中获取该文章集合。
202、服务器提取文章集合内每个文章的文章内容成分。
其中,文章内容成分为组成文章内容的内容单元,该内容单元可以选取根据实际需求设定。文章内容一般可以包括文本内容、图片内容等中的至少一种;因此,该内容单元可以包括组成文本内容的文本内容单元、组成图片内容的图片内容单元中的至少一种。其中,组成文本内容的文本内容单元可以根据段落、句子等划分。比如,文本内容单元可以包括文本内容中段落内容、句子内容等等。即每一段的文本内容即为一个文章内容成分,或每一句内容即为一个文章内容成分。
该组成图片内容的图片内容单元即为图片内容本身,比如,该当文章内容包括某个图片时,图片内容单元即为该图片,也即每一张图片即为一个文章内容成分。
为了加快特定内容的识别效率和去除效率,本实施例还可以对文章内容进行清洗或者过滤,然后,在从过滤后的文章内容中获取文章内容成分。比如,可以对文章内容中的一些敏感内容(用户标识、政治敏感词等)进行过滤。
为了加快特定内容的识别速度和去除速度,本实施例可以将组成文章内容的内容单元对应的内容标识作为文章内容成分,比如,可以将组成文本内容的内容单元的标识作为文本内容成分,将图片内容的标识作为图片内容成分。
其中,内容单元对应的内容标识可以为内容单元的唯一标识;比如,当内容单元包括组成文本内容的文本内容单元时,文本内容单元的内容标识可以包括文本内容单元的文本指纹,如某段文本内容的文本指纹,此时,文章内容成分可以为文本指纹如simhash指纹。
又比如,当内容单元包括组成图片内容的图片内容单元,即图片时,该图片内容单元的内容标识可以为图片的图片标识,如图片的md5(消息摘要算法)值。
本实施例中,文章内容除了包含文本内容和图片内容之外,还可以包括图片的链接地址,此时,内容单元可以包括每个图片的链接地址,那么本实施例可以根据图片的链接地址下载相应的图片,然后,获取下载图片对应的图片标识如md5值。
根据上述描述,本实施例中文章内容成分可以包括文本内容单元的内容标识(如文本指纹等)和/或图片内容单元的图片标识(如md5值等)。
203、服务器建立文章内容成分与文章之间的映射关系,得到映射关系集合。
其中,文章内容成分与文章之间的映射关系可以包括文章内容成分与文章标识之间的映射关系,该映射关系的表现形式可以有多种,比如文章内容成分与文章标识之间的映射关系可以为成分标识索引对,成分标识索引对的索引关键词(key)为文章的文章内容成分(如文本指纹、md5值),该索引对的索引值(value)包括该文章的文章标识。此时,映射关系集合即为成分标识索引对集合。
比如,在获取文本集合之后,可以进行nosql存储,具体地,构建文章内容索引对即key-value对,key为文章的文章标识即文章id,value包括:文本内容、图片的链接地址、文章所属的文章类别比如体育、娱乐、财经等;然后,在数据库中存储key-value对。
在采用nosql存储文本集合之后,可以对文章集合中每篇文章进行文章内容成分抽取,将抽取的文章内容成分作为成分标识索引对的key,并将该文章的文章id作为key对应的value(也即前面文章内容索引对中的key)。如对于每篇文章,按照段落力度进行抽取,在文本内容中抽取每段文本内容,计算每段文本内容的文本指纹,将该文本指纹作为文章的文章内容成分,将文本内容成分作为key,将该文章的文章id作为该key对应的value;以及计算文章中图片的md5、图片链接地址对应图片的md5,将md5作为key,将该文章的文章id作为该key对应的value。
本实施例可以将映射关系集合如索引对集合存储在本地,也可以存储在远程数据库中。
204、当该文章集合有新文章加入时,服务器提取新文章的文章内容成分,并将新文章的文章内容成分待识别的目标文章内容成分。
其中,新文章的文章内容提取方式可以参考前面介绍的提取方式。该新文章的文章内容成分可以包括md5值、文本指纹等。
205、服务器根据当前目标文章内容成分和映射关系集合,从文章集合中确定具有目标文章内容成分的目标文章。
比如,服务器可以将当前目标文章内容成分作为待检索的目标索引关键词key’,然后,在存储的索引对集合中查找key与该key’相同的value,根据查找到value确定具有相同文章内容的目标文章,如查找到key=key’的value为:value1(doc1)、value2(doc2)、value3(doc3),从而得到具有当前目标文章内容成分的目标文章,即doc1、doc2、doc3。
为了便于查找到具有相同文章内容成分的文章,本实施例服务器可以在获取索引关键词与该目标索引关键词相同的索引值之后,可以对索引值进行合并,得到目标索引关键词对应的索引值。比如,如查找到key=key’的value为:value1(doc1)、value2(doc2)、value3(doc3)之后,可以将value1(doc1)、value2(doc2)、value3(doc3)合并成key’->value’(doc1、doc2、doc3)。
每个预定时间段如1个小时等,扫描或遍历索引关键词key,比如,扫描或者遍历key’时,可以得到key’对应的value’(doc1、doc2、doc3),根据该value’(doc1、doc2、doc3)便可以得到具有key’对应的文章内容成分的所有文章,即doc1、doc2、doc3。
206、服务器判断目标文章的数量是否大于预设数量,若是,则执行步骤207,若否,则执行步骤212。
由于特定内容(如广告内容等)具有共现性,也就是说一段特定内容往往会出现在多篇文章中。因此,本实施例可以获取具有目标文章内容成分的目标文章的数量,当该数量大于预设文章数量时,表明当前目标文章内容成分可能为特定内容,所以需要针对当前目标文章内容成分作进一步判断。
其中,预设数量可以经过多次测试实验得到,比如,该预设数量可以为5、6、7等等。
该目标文章的数量可以为目标文章的标识数量,即文章id数量;例如,当遍历到key’时,其value’包含的文章标识为doc1、doc2、doc3、doc4、doc5、doc6,此时,可以获取到目标文章的数量为6,假设预设数量为5,那么此时,可以表明当前目标文章内容成分可能为特定内容成分,因此,需要做作进一步判断。
207、服务器获取目标文章所属的文章类别,得到文章类别集合。
比如,目标文章为doc1、doc2、doc3、doc4、doc5、doc6时,可以获取doc1所属的文章类别(如财经),doc2所属的文章类别(如体育)……doc6(如时政)所属的文章类别,得到文章类别集合,该文章类别集合包括目标文章所属的所有文章类别。
可选地,为快速获取文章所属的文章类别,本实施例可以在获取文章集合后,预先建立文章与文章类别之间的映射关系,得到类别映射关系集合;这样在当目标文章数量大于预设数量之后,便可以根据目标文章、以及类别映射关系集合获取目标文章所属的文章类别。
其中,文章与文章类别之间的映射关系,可以包括文章标识与文章类别之间的映射关系,该映射关系的表现形式有多种,比如可以为索引对。例如,在获取文章集合之后,可以建立索引对,该索引对的索引关键词(key)为文章的文章标识(如doc1),该索引对的索引值(value)包括该文章所属的文章类别(如财经)。
为了便于从文章内容中提取文章内容成分,该索引对的索引值(value)还可以包括文章内容,如文本内容、图片内容、图片的链接地址等;此时,该索引对可以称为文章内容索引对。
此时,本实施例中,可以将目标文章的文章标识作为待检索的key,然后,根据该key从文章内容索引对集合中,查找该key对应的value,从value中获取该目标文章所属的文章类别。
208、服务器确定文章类别集合所包含的文章类别种数是否大于预设种数,若是,则执行步骤209,若否,则执行210。
当某个文章内容成分在超过预设数量的文章中出现时,并不能说该文章内容成分就是特定内容成分,也可能是天然的一句引用文字或者常见图片,因此,本实施例方法需要进行二次判断。
经过实际分析可知,如果某个文章内容成分在一定数量的文章中出现,且该出现该文章内容的文章所属多个不同的文章类别时,那么很大概率可以确定该文章内容成分为特定内容成分,因为多个不同类别的文章内容出现同一段文字的概率非常小。
因此,本实施例可以基于具有目标文章内容成分的目标文章所属的文章类别种类进一步确定该目标文章内容成分是否为特定内容成分。
具体地,当文章类别集合所包含的文章类别种数大于预设种数时,可以确定当前目标文章内容成分为特定内容成分。
209、服务器确定当前目标文章内容成分为特定内容成分。
例如,目标文章为doc1、doc2、doc3、doc4、doc5、doc6时,获取各目标文章所属的文章类别,可以得到:doc1的文章类别为财经、doc2的文章类别为体育、doc3的文章类别为财经、doc4的文章类别为娱乐、doc5的文章类别为时政、doc6的文章类别为财经。那么可以获取文章类别的种数有4种,即财经、体育、娱乐、时政。假设预设种数为3,那么目标文章所属的文章类别种数大于预设种数,可以当前目标文章内容成分为特定内容成分。
210、服务器获取用户输入的成分确定信息,并根据该成分确认信息确定当前目标文章内容成分为特定内容成分。
例如,当遍历到key’时,其value’包含doc1、doc2、doc3,此时,可以获取到目标文章的数量为3,假设预设数量为5,此时,目标文章的数量小于预设数量,那么可以交由人工审核,通过人工来确定当前目标文章内容成分是否为特定内容成分,假设用户确定该文章内容成分为特定内容成分时,可以输入相应的成分确定信息,服务器可以根据成分确定信息确定当前目标文章你让成分为特定内容成分。
211、根据当前目标文章内容成分对该新文章中相应的特定内容进行去除。
比如,当目标文章内容成分为组成文章内容的内容单元(如某段文字或者某张图片)时,那么可以将该内容单元直接从新文章中去除。
当文章内容成分为组成文章内容的内容单元的内容标识(md5、或者文本指纹)时,可以将内容标识对应的内容单元(如文本指纹对于的某段文字或者md5对应的某张图片)从新文章中去除。
212、取下一个目标文章内容成分作为当前目标文章内容成分,并返回执行步骤205,直到所有目标文章内容成分确定完为止。
由上可知,本发明实施例采用当文章集合有新文章加入时,获取该新文章的文章内容成分,得到待识别的目标文章内容成分,然后,从该文章集合中确定具有该目标文章内容成分的目标文章,当该目标文章的数量大于预设文章数量时,确定该目标文章所属的文章类别,得到文章类别集合,根据该文章类别集合所包含的文章类别种数,确定该目标文章内容成分是否为特定内容成分,若是,则根据该目标文章内容成分对该新文章中相应的特定内容进行去除。该方案可以基于特定内容(如恶意内容等)的共现性以及特定内容所属文章类别种类来识别特定内容(如恶意内容等),无需依靠依靠图像文字识别技术和广告特征模型来识别特定内容,因此,可以提高特定内容(如恶意内容等)的识别准确性和效率,进而提高特定内容(如恶意内容等)去除的准确性和效率。
此外,本发明提供的方案可以结合算法和人工确定特定内容(如恶意内容等),可以避免单纯采用机器算法进行广告去除的盲目性,可以在保证特定内容(如恶意内容等)除去效率的前提下,进一步提高特定内容(如恶意内容等)去除的准确性。
实施例三、
根据实施例一和实施例二所描述的方法,本实施例提供一种特定内容的去除系统,该系统的架构和流程如图3所示。如图3所示,该特定内容的去除系统包括:内容基础库、成分抽取模块、成分存储模块、成分对比模块、成分存储库以及离线打击模块。
下面将详细描述图3所示系统中各服务模块的主要功能,具体如下:
(1)、内容基础库:
用来收集全网自媒体用户的发文,作为内容分发平台的文字存储仓库,可以采用nosql存储。具体地,构建文章内容索引对,其中,key就是每篇文章的id,value至少包括
1文章的文本内容(已经清洗的内容,保留了分段属性,但是不保留文字样式,如字体或者颜色);
2所有图片的链接地址,以及图片。
3文章文本所属的分类,比如体育,娱乐,财经等(这个文本分类技术并非本专利保护范围,可以查询背景资料)。
(2)、成分抽取模块:
对于每篇文章,抽取文章内容成分;以及构建成分文章索引对。
比如,对于每篇文章,按照段落力度进行抽取,抽取文章中文本内容的段落内容,计算段落内容对应的文本指纹(如simhash指纹),该文本指纹可以作为文章内容成分。
又比如,对于每篇文章,抽取每篇文章中图片,并计算图片的md5,将该md5作为文章内容成分;或者,对于每篇文章,抽取图片的链接地址,根据该链接地址下载相应的图片,计算该图片的md5,将该md5作为文章内容成分。
其中,成分文章索引对中,key为文章内容成分(如文本指纹或者md5),value为文章的id,该value可以文章内容索引对中的key。
(3)、成分存储模块:
用于存储上述构建的成分文章索引对,即两个key,成分存储模块可以将该成分文章索引存储在本机,或者远程nosql存储中。视具体的数据规模而定。该成分存储模块可以为成分存储库。
(4)、成分对比模块;
用于当有新文章内容出现时,就需要和近期(可以是一个月,或者一周)的内容进行对比,找出共现的成分,然后对每个成分进行统计,并且写回成分存储模块。
提取新文章的文章内容成分(比如可以按照成分抽取模块抽取成分的方式进行提取),然后,将该文章内容成分作为待检索的目标key,通过在成分存储模块中查找与该目标key相同的key,并将相同key的value值合并,得到该目标key对应的目标value值,将该目标key及其对应的目标value值写入成分存储模块,更新成分存储模块。
比如,比如新过来的文章doc2拆分出成分key,key(md5),通过在成分存储模块中查找发现了同样的key(md5)并且value是doc1,那么就把doc2增加到原来的value中,变成了key(md5)->doc1,doc2。
(5)、离线打击模块;
用于每隔预设时间段如1个小时,扫描成分存储模块中的所有key,,对于某个key下面如果链接的文章id多余5个。则使用如下策略:
a、如果文章id多余5个,并且去内容基础库查询,所有文章的类别超过3个。那自动判断这个成分为特定内容成分。
b、如果文章id多余5个,但是文章所属类别少于3个,那么就提交给人工审核。应用人的知识来判断是不是特定内容成分。
如果以上两个条件(a和b)任意一个满足,那么就判断这个key对应的文章内容成分为低质量的特定内容成分,对应的文章就是作恶文章、或广告文章。
这个时候本实施例方法并不把文章删除,而是仅仅把文章本身的特定内容部分删除,因为文章本体往往是好的。
该特定内容的去除系统可以基于特定内容(如恶意内容等)的共现性以及特定内容所属文章类别种类来识别特定内容(如恶意内容等),无需依靠依靠图像文字识别技术和广告特征模型来识别特定内容,因此,可以提高特定内容(如恶意内容等)的识别准确性和效率,进而提高特定内容(如恶意内容等)去除的准确性和效率。
实施例四、
为了更好地实施以上方法,本发明实施例还提供特定内容的去除装置,如图4a所示,该特定内容的去除装置包括:成分获取单元401、目标文章确定单元402、类别确定单元403、内容确定单元404和去除单元405,如下:
(1)成分获取单元401;
成分获取单元401,用于当文章集合有新文章加入时,获取该新文章的文章内容成分,得到待识别的目标文章内容成分。
本实施例中,特定内容指的是文章内容中满足某种条件的内容,该条件可以根据实际需求设定。比如,特征内容可以包括文章内容中与文章本身不相关的内容;又比如,该特征内容还可以包括文章内容中与文章本身不相关,且具有恶意性的内容,即恶意内容,如,广告内容、不良内容(如色情内容、政治敏感内容等等)、欺诈内容等等。
其中,文章集合包括多个文章。比如,在步骤101之前,本实施例可以收集自媒体用户发布的文章,得到文章集合。该文章集合可以存储在本地,或者存在其他设备或系统中,比如,可以存储在远程nosql(notonlysql,非关系型数据库)系统中。
本实施例中,成分获取单元401当检测到有新文章加入该文章集合中时,可以获取该新文章的文章内容成分。比如,当检测到远程nosql系统中文章集合有新文章加入时,可以获取新文章的文章内容成分。
其中,文章内容成分为组成文章内容的内容单元,该内容单元可以选取根据实际需求设定。文章内容一般可以包括文本内容、图片内容等中的至少一种;因此,该内容单元可以包括组成文本内容的文本内容单元、组成图片内容的图片内容单元中的至少一种。其中,组成文本内容的文本内容单元可以根据段落、句子等划分。比如,文本内容单元可以包括文本内容中段落内容、句子内容等等。,即每一段的文本内容即为一个文章内容成分,或每一句内容即为一个文章内容成分。
该组成图片内容的图片内容单元即为图片内容本身,比如,该当文章内容包括某个图片时,图片内容单元即为该图片,也即每一张图片即为一个文章内容成分。
为了加快特定内容的识别速度和去除速度,本实施例可以将组成文章内容的内容单元对应的内容标识作为文章内容成分。参考图4b,该成分获取单元401可以包括:
内容提取子单元4011,用于从该新文章的文章内容中获取相应的内容单元;
成分获取子单元4012,用于获取该内容单元对应的内容标识,并将该内容标识作为该新文章的文章内容成分。
其中,内容单元对应的内容标识可以为内容单元的唯一标识;比如,当内容单元包括组成文本内容的文本内容单元时,文本内容单元的内容标识可以包括文本内容单元的文本指纹,如某段文本内容的文本指纹,此时,文章内容成分可以为文本指纹。
又比如,当内容单元包括组成图片内容的图片内容单元,即图片时,该图片内容单元的内容标识可以为图片的图片标识,如图片的md5(消息摘要算法)值。
本实施例中,文章内容除了包含文本内容和图片内容之外,还可以包括图片的链接地址,此时,内容单元可以包括每个图片的链接地址,那么本实施例可以根据图片的链接地址下载相应的图片,然后,获取下载图片对应的图片标识如md5值。
根据上述描述,本实施例中文章内容成分可以包括文本内容单元的内容标识(如文本指纹等)和/或图片内容单元的图片标识(如md5值等)。
(2)目标文章确定单元402;
目标文章确定单元402,用于从该文章集合中确定具有该目标文章内容成分的目标文章。
比如,目标文章确定单元402,可以用于从可以将新文章的文章内容成分与文章集合内原有文章的文章内容成分进行对比,根据对比结果从文章集合中确定具有新文章的文章内容成分的目标文章。
为了能够快速地确定具有目标文章内容成分的目标文章,本实施例可以在新文章加入文章集合之前,获取文章集合内容文章的文章内容成分,并建立文章内容成分与文章之间的映射关系,这样后续便可以根据目标文章内容成分与建立的映射关系来确定具有目标文章内容成分的文章。
可选地,参考图4c,本实施例的去除装置还可以包括:关系建立单元406;
关系建立单元406,用于在文章集合有新文章加入之前,针对文章集合内的文章,获取文章集合内文章的文章内容成分,建立该文章内容成分与该文章之间的映射关系,得到映射关系集合;
此时,目标文章确定单元402,用于根据该目标文章内容成分、以及该映射关系集合,从该文章集合中确定具有该目标文章内容成分的目标文章。
其中,文章内容成分与文章之间的映射关系可以包括文章内容成分与文章标识之间的映射关系,该映射关系的表现形式可以由多种,比如文章内容成分与文章标识之间的映射关系可以为索引对,索引对的索引关键词(key)为文章的文章内容成分,该索引对的索引值(value)包括该文章的文章标识。此时,映射关系集合可以包括索引对集合。
此时,该文章内容成分与该文章之间的映射关系包括:索引对,该索引对的索引关键词为该文章内容成分,该索引对的索引值包括该文章的文章标识,该映射关系集合包括索引对集合。参考图4d,目标文章确定单元402,包括:
关键词确定子单元4021,用于将该目标文章内容成分作为待检索的目标索引关键词;
目标文章确定子单元4022,用于从该索引对集合中查找索引关键词与该目标索引关键词相同的索引值,得到具有该目标文章内容成分的目标文章。
为了便于查找到具有相同文章内容成分的文章,本实施例可以在获取索引关键词与该目标索引关键词相同的索引值之后,可以对索引值进行合并,得到目标索引关键词对应的索引值;这样后续遍历目标索引关键词时便可从其索引值中获取具有目标索引关键词对应的文章内容成分的所有文章。比如,目标文章确定子单元4022,可以用于:
从该索引对集合中查找索引关键词与该目标索引关键词相同的索引值;
将索引关键词与该目标索引关键词相同的索引值进行合并,得到目标索引关键词及其对应的目标索引值;
遍历该目标索引关键词,并获取该目标索引关键词对应的目标索引值;
根据该目标索引值确定具有该目标文章内容成分的目标文章。
(3)类别确定单元403;
类别确定单元403,用于当该目标文章的数量大于预设文章数量时,确定该目标文章所属的文章类别,得到文章类别集合。
由于特定内容具有共现性,也就是说一段特定内容往往会出现在多篇文章中。因此,本实施例可以获取具有目标文章内容成分的目标文章的数量,当该数量大于预设文章数量时,表明该目标文章内容成分可能为特定内容,所以需要针对该目标文章内容成分作进一步判断。
其中,预设文章数量可以经过多次测试实验得到,比如,该预设文章数量可以为5、6等等。
为了能够快速地获取到文章所属的文章类别以及类别种数,本实施例可以在新文章加入文章集合之前,建立文章集合内文章与其文章类别之间的映射关系,得到文章类别映射关系集合;这样类别确定单元403便可以根据目标文章和该文章类别映射关系集合,获取目标文章所属的文章类别。其中,文章与其文章类别之间的映射关系可以包括:文章标识与其文章类别之间的映射关系;该映射关系可以由索引对来体现索引对的key为文章的文章标识、vlaue包括文章所属的文章类别。
(4)内容确定单元404;
内容确定单元404,用于根据该文章类别集合所包含的文章类别种数,确定该目标文章内容成分是否为特定内容成分。
当某个文章内容成分在超过预设数量的文章中出现时,并不能说该文章内容成分就是特定内容成分,也可能是天然的一句引用文字或者常见图片,因此,本实施例方法需要进行二次判断,具体地,可以基于出现相同文章内容成分的文章所属的文章类别来进一步确定该文章内容成分是否为特定内容成分。
经过实际分析可知,如果某个文章内容成分在一定数量的文章中出现,且该出现该文章内容的文章所属多个不同的文章类别时,那么很大概率可以确定该文章内容成分为特定内容成分,因为多个不同类别的文章内容出现同一段文字的概率非常小。
因此,本实施例可以基于具有目标文章内容成分的目标文章所属的文章类别种类进一步确定该目标文章内容成分是否为特定内容成分。比如,内容确定单元404,可以用于:
当该文章类别集合所包含的文章类别种数大于预设类别种数时,确定该目标文章内容成分为特定内容成分;
当该文章类别种数不大于预设类别种数时,根据用户输入的成分确认信息确定该目标文章内容成分为特定内容成分。
其中,预设类别种数可以根据实际需求设定,比如可以为3、4等。本实施例文章类别可以根据实际需求划分,比如,可以将文章类别划分为:财经、体育、娱乐、动漫等等。
(5)、去除单元405;
去除单元405,用于当该内容确定单元404,确定该目标文章内容成分为特定内容成分时,根据该目标文章内容成分对该新文章中相应的特定内容进行去除。
比如,当文章内容成分为组成文章内容的内容单元(如某段文字或者某张图片)时,那么可以将该内容单元直接从新文章中去除。
当文章内容成分为组成文章内容的内容单元的内容标识(md5、或者文本指纹)时,可以将内容标识对应的内容单元(如文本指纹对于的某段文字或者md5对应的某张图片)从新文章中去除。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
该特定内容的去除装置具体可以集成在服务器中,比如可以集成在内容聚合服务器中。
由上可知,本发明实施例采用成分获取单元401当文章集合有新文章加入时,获取该新文章的文章内容成分,得到待识别的目标文章内容成分,然后,由目标文章确定单元402从该文章集合中确定具有该目标文章内容成分的目标文章,当该目标文章的数量大于预设文章数量时,由类别确定单元403确定该目标文章所属的文章类别,得到文章类别集合,由内容确定单元404根据该文章类别集合所包含的文章类别种数,确定该目标文章内容成分是否为特定内容成分,若是,则由去除单元405根据该目标文章内容成分对该新文章中相应的特定内容进行去除。该方案可以基于特定内容的共现性以及特定内容(如恶意内容等)所属文章类别种类来识别特定内容(如恶意内容等),无需依靠依靠图像文字识别技术和广告特征模型来识别特定内容,因此,可以提高特定内容(如恶意内容等)的识别准确性和效率,进而提高特定内容(如恶意内容等)去除的准确性和效率。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取记忆体(ram,randomaccessmemory)、磁盘或光盘等。
以上对本发明实施例所提供的一种特定内容的去除方法和装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。