用于识别网络游戏中发布消息的广告特征的装置和方法

文档序号:6517748阅读:189来源:国知局
用于识别网络游戏中发布消息的广告特征的装置和方法
【专利摘要】本发明公开了一种用于识别网络游戏中发布消息的广告特征的装置和方法,其中该方法包括:检测游戏客户端的发布消息事件;根据所述发布消息事件获取发布消息文本;提取所述发布消息文本中包含的一个或多个特征向量;根据所述特征向量,识别待检测的发布消息文本是否与广告特征数据库中的一个或多个记录匹配;当识别出上述匹配时,对所述发布消息事件进行屏蔽处理。使用本发明的装置和方法,可以由发布消息文本提取出特征向量,以及根据特征向量识别待检测的发布消息文本是否与广告特征数据库中的一个或多个记录匹配,从而能够准确识别网络游戏中发布消息的广告特征。
【专利说明】用于识别网络游戏中发布消息的广告特征的装置和方法
【技术领域】
[0001]本发明涉及计算机网络领域,具体涉及一种用于识别网络游戏中发布消息的广告特征的装置和方法。
【背景技术】
[0002]随着网络游戏等应用的兴起,出现了大量的网络游戏产品和网络游戏用户。网络游戏用户在进行游戏时,会通过发布消息进行交流,然而在大量的发布信息中,存在广告信息,给用户带来了诸多不便,同时也降低了网络游戏的质量。为了解决这个问题,识别网络游戏中发布消息的广告特征的研究工作逐渐开展起来,以期望能够从发布信息中找出具有广告特征的垃圾信息。

【发明内容】

[0003]鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种相似文本检测装置和相应的一种相似文本检测方法。
[0004]依据本发明的一个方面,提供了一种用于识别网络游戏中发布消息的广告特征的装置,包括:检测单元,适于检测游戏客户端的发布消息事件;文本获取单元,适于根据所述发布消息事件获取发布消息文本;特征向量提取单元,适于提取所述发布消息文本中包含的一个或多个特征向量;识别单元,适于根据所述特征向量,识别待检测的发布消息文本是否与广告特征数据库中的一个或多个记录匹配;屏蔽单元,适于在识别单元识别出上述匹配时,对所述发布消息事件进行屏蔽处理。
[0005]可选地,所述检测单元,适于在所述文本获取单元根据所述发布消息事件获取发布消息文本之前,检测所述消息事件的类型是否是广播消息事件或组播消息事件,若否则退出流程,若是则由所述文本获取单元根据所述发布消息事件获取发布消息文本。
[0006]可选地,所述屏蔽单元,位于游戏服务器或执行所述发布消息事件的游戏客户端。
[0007]可选地,所述识别单元,适于对所述特征向量中的每个特征,检测广告特征数据库中是否多次出现该特征;所述识别单元,适于判断所述特征向量中的在广告特征数据库中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值,是则确定所述待检测的发布消息文本与广告特征数据库中的记录匹配,否则不匹配。
[0008]可选地,所述识别单元,适于对所述特征向量中的每个特征,从广告特征数据库中查找是否存在该特征,如果存在,则进一步查看该特征的权值,如果该特征的权值大于或等于第二阈值,则广告特征数据库中多次出现该特征。
[0009]可选地,该装置进一步包括广告特征数据库更新单元,所述广告特征数据库更新单元,适于在确定所述待检测的发布消息文本与广告特征数据库中的记录匹配时,对于所述特征向量中的每个特征,如果检测到广告特征数据库中存在该特征,则将广告特征数据库中该特征的权值加I。
[0010]可选地,所述识别单元,适于在对于所述特征向量中的每个特征,检测广告特征数据库中是否存在该特征之前,判断所述特征向量中的特征的数目是否小于第三阈值,是则所述待检测的发布消息文本与广告特征数据库中的记录不匹配并结束判断操作,否则对于所述特征向量中的每个特征,检测广告特征数据库中是否多次出现该特征。
[0011]可选地,所述特征向量提取单元包括:中文文本获取子单元,适于对发布消息文本进行文本处理以获取中文文本;拼音文本获取子单元,适于将获取的中文文本中的汉字转为拼音得到拼音文本;指纹获取子单元,适于提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量。
[0012]可选地,所述中文文本获取子单元,适于对发布消息文本进行数据清洗操作,将文本中的内容转换为规则字符;将拼音转化为汉字;以及将保留常用的汉字。
[0013]可选地,所述中文文本获取子单元,适于识别并丢弃HTML标记,将繁体字转换为简体字,将全角字符转换为半角字符,将大写英文字母转换为小写英文字母,以及识别并丢弃url和标点符号,以将发布消息文本中的内容转换为规则字符;所述中文文本获取子单元,适于使用双向最大匹配算法将文本中的拼音转换为汉字,如果一个拼音对应多个汉字,则从对应的多个汉字中任选一个,以将文本中的拼音转化为汉字;所述中文文本获取子单元,适于使用GBK编码表中的常用汉字对发布消息文本进行过滤,丢弃所有不属于常用汉字的字符,以保留常用的汉字。
[0014]可选地,所述拼音文本获取子单元,适于使用拼音汉字对照表,将每个汉字转换为对应的拼音串,以得到拼音文本。
[0015]可选地,所述指纹获取子单元,适于以单个汉字为切分粒度提取所述拼音文本的特征,并使用向量空间模型将提取的特征形成所述拼音文本的特征向量。
[0016]依据本发明的另一个方面,提供了一种用于识别网络游戏中发布消息的广告特征的方法,包括:检测游戏客户端的发布消息事件;根据所述发布消息事件获取发布消息文本;提取所述发布消息文本中包含的一个或多个特征向量;根据所述特征向量,识别待检测的发布消息文本是否与广告特征数据库中的一个或多个记录匹配;当识别出上述匹配时,对所述发布消息事件进行屏蔽处理。
[0017]可选地,该方法进一步包括:在所述根据所述发布消息事件获取发布消息文本之前,检测所述消息事件的类型是否是广播消息事件或组播消息事件,若否则退出流程,若是则根据所述发布消息事件获取发布消息文本。
[0018]可选地,对所述发布消息事件进行屏蔽处理是由游戏服务器或游戏客户端执行的。
[0019]可选地,所述根据所述特征向量,识别待检测的发布消息文本是否与广告特征数据库中的一个或多个记录匹配,具体包括:对所述特征向量中的每个特征,检测广告特征数据库中是否多次出现该特征;判断所述特征向量中的在广告特征数据库中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值,是则确定所述待检测的发布消息文本与广告特征数据库中的记录匹配,否则不匹配。
[0020]可选地,所述检测广告特征数据库中是否多次出现该特征包括:从广告特征数据库中查找是否存在该特征,如果存在,则进一步查看该特征的权值,如果该特征的权值大于或等于第二阈值,则广告特征数据库中多次出现该特征。
[0021]可选地,在确定所述待检测的发布消息文本与广告特征数据库中的记录匹配时,该方法进一步包括:对于所述特征向量中的每个特征,如果检测到广告特征数据库中存在该特征,则该将广告特征数据库中该特征的权值加I。
[0022]可选地,在对于所述特征向量中的每个特征,检测广告特征数据库中是否存在该特征之前,所述判断待检测的发布消息文本是否与广告特征数据库中的记录匹配进一步包括:判断所述特征向量中的特征的数目是否小于第三阈值,是则所述待检测的发布消息文本与广告特征数据库中的记录不匹配并结束判断操作,否则对于所述特征向量中的每个特征,检测广告特征数据库中是否多次出现该特征。
[0023]可选地,所述提取所述发布消息文本中包含的一个或多个特征向量,具体包括:对待检测的发布消息文本进行文本处理以获取中文文本;将获取的中文文本中的汉字转为拼音得到拼音文本;提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量。
[0024]可选地,所述对文本进行文本处理以获取中文文本,具体包括:对文本进行数据清洗操作,将发布消息文本中的内容转换为规则字符;将拼音转化为汉字;保留常用的汉字。
[0025]可选地,所述对发布消息文本进行数据清洗操作,具体包括:识别并丢弃HTML标记,将繁体字转换为简体字,将全角字符转换为半角字符,将大写英文字母转换为小写英文字母,以及识别并丢弃url和标点符号;所述将文本中的拼音转化为汉字,具体包括:使用双向最大匹配算法将文本中的拼音转换为汉字,如果一个拼音对应多个汉字,则从对应的多个汉字中任选一个;所述保留常用的汉字,具体包括:使用GBK编码表中的常用汉字对发布消息文本进行过滤,丢弃所有不属于常用汉字的字符。
[0026]可选地,所述将获取的中文文本中的汉字转为拼音得到拼音文本,具体包括:使用拼音汉字对照表,将每个汉字转换为对应的拼音串,得到拼音文本。
[0027]可选地,所述提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量,具体包括:以单个汉字为切分粒度提取所述拼音文本的特征,并使用向量空间模型将提取的特征形成所述拼音文本的特征向量。
[0028]根据本发明的用于识别网络游戏中发布消息的广告特征的装置和方法,可以由发布消息文本得到特征向量,进而根据特征向量识别待检测的发布消息文本是否与广告特征数据库中的一个或多个记录匹配,以及识别出上述匹配时对所述发布消息事件进行屏蔽处理,能够有效地识别网络游戏中发布消息的广告特征。
[0029]上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的【具体实施方式】。
【专利附图】

【附图说明】
[0030]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0031]图1示出了根据本发明一个实施例的用于识别网络游戏中发布消息的广告特征的方法的流程图;
[0032]图2示出了如图1所示的步骤S300的详细的流程图;
[0033]图3示出了如图2所示的步骤S310、步骤S320和步骤S330的详细的流程图;[0034]图4示出了如图1所示的步骤S400的详细的流程图;
[0035]图5示出了根据本发明第一实施例的用于识别网络游戏中发布消息的广告特征的装置的框图;
[0036]图6示出了根据本发明第一实施例的用于识别网络游戏中发布消息的广告特征的装置的详细的框图;以及
[0037]图7示出了根据本发明第二实施例的用于识别网络游戏中发布消息的广告特征的装置的详细的框图。
【具体实施方式】
[0038]下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0039]图1示出了根据本发明一个实施例的用于识别网络游戏中发布消息的广告特征的方法的流程图。该方法包括以下的步骤S100、S200、S300、S400和S500。
[0040]SlOO、检测游戏客户端的发布消息事件。
[0041]具体地,当游戏客户端发布消息时,可以检测到发布消息事件。进一步地,可以通过检测游戏服务器与游戏客户端的通信内容,检测发布消息事件。
[0042]S200、根据所述发布消息事件获取发布消息文本。本领域技术人员容易了解的是,通过检测发布消息事件,可以得到发布消息文本。
[0043]S300、提取所述发布消息文本中包含的一个或多个特征向量。本实施例中,可以通过检测断句符号,将发布消息文本切分为多段文本,进而得到多个特征向量;也可以不切分发布消息文本,进而得到一个特征向量。
[0044]S400、根据所述特征向量,识别待检测的发布消息文本是否与广告特征数据库中的一个或多个记录匹配。
[0045]本实施例中,对特征向量中的每一个特征,会检测在一个预设的广告特征数据库中是否多次出现该特征。检测了特征向量中的所有特征之后,判断特征向量中的在广告特征数据库中多次出现的特征占特征向量的全部特征的比例,从而判断待检测的文本与广告特征数据库中的记录是否匹配。本实施例中预设的广告特征数据库使用Redis广告特征数据库,可以是通过对海量的网络广告文本(例如抓取收集的网络广告等垃圾信息)进行分析得到海量的特征,并统计得到的各个特征的数目而得到权值,令特征(Shingle)和权值(Value)构成广告特征数据库。
[0046]S500、当识别出上述匹配时,对所述发布消息事件进行屏蔽处理。较佳地,对所述发布消息事件进行屏蔽处理是由游戏服务器或游戏客户端执行的。
[0047]进一步地,本发明在步骤S200之中根据所述发布消息事件获取发布消息文本之前,还包括:检测所述消息事件的类型是否是广播消息事件或组播消息事件,若否则退出流程,若是则根据所述发布消息事件获取发布消息文本。
[0048]本发明的步骤S300和步骤S400,实现了通过与广告特征数据库中的记录进行相似文本监测,识别网络游戏中发布消息的广告特征。不同于本发明步骤S300和步骤S400的一种相似文本检测方法为:首先提取文本的特征(例如对文本进行分词,提取实体词)并使用各种技术对特征进行扩展(例如使用同义词词林,近义词词典等知识库进行词汇扩展),并使用VSM模型来描述文本(例如使用VSM模型将一篇文本表示为一个向量),然后使用聚类方法对文本进行聚类(例如对于两篇文本,经过向量化表示后,计算两个向量的余弦夹角用于表征两篇文本的相似性,如果相似度大于一定阈值,则认为两篇文本是相似的),被聚到一起的文本是相似的。
[0049]然而,在网络应用中,存在着大量的相似文本的变种,如使用繁体字、适用拼音代替文字、用同音字代替原字、加入大量无意义的干扰字符,等等,上述技术存在以下缺点:(一)分词结果存在误差;(二)同音不同字的文本无法判断为相似;(三)无法将经过拼音化处理的两篇文本识别为相似文本;(四)对文本的计算复杂度太高(例如,将文本表示为向量,需要较大的运算量)。因此,这种方法无法满足当前大数据量情况下的运算实时性要求。
[0050]图2示出了如图1所示的步骤S300的详细的流程图。该方法包括以下的步骤S310、S320 和 S330。
[0051 ] S310、对待检测的发布消息文本进行文本处理以获取中文文本。
[0052]通过由待检测的发布消息文本获取中文文本,可以消除包括有无意义的干扰字符、繁体字等相似文本的变种对本实施例的识别效果的影响。
[0053]S320、将获取的中文文本中的汉字转为拼音得到拼音文本。
[0054]通过将中文文本 中的汉字统一转化为拼音,可以消除用拼音代替文字、用同音字代替原字等相似文本的变种对本实施例的识别效果的影响。
[0055]S330、提取所述拼音文本的特征,将提取的特征形成所述拼音文本的特征向量。
[0056]本实施例中,可以采用N元语言模型(N-gram)提起拼音文本的特征向量,基于步骤S310获取的中文文本中的汉字粒度,对步骤S320获取的拼音文本提取N-gram特征SHINGLE^ SHINGLe2,…SHINGLEm。例如,如果步骤S310获取的中文文本为“我爱北京天安门”,汉字粒度为“我”、“爱”、“北”、“京”、“天”,“安”,“门”,步骤S320获取的拼音文本为“wo ai bei jing tian an 111611”,那么拼音串被切分为“¥0”、“&;[”、‘<^6;[”、“」;[1^”、“1:1&11”、“an”、“men”,如果令 N=6 则步骤 S330 中,获取的 N-gram 特征 SHINGLei 为“wo ai bei jingtian an”、SHINGLe2 为“ai bei jing tian an men”,依次类推。并使用向量空间模型(VSM,Vector Space Model)形成特征向量 DMSHINGLEi, SHINGLE2,…,SHINGLEJ。
[0057]图3示出了如图2所示的步骤S310、步骤S320和步骤S330的详细的流程图。步骤S310具体包括:
[0058]S311、对待检测的发布消息文本进行数据清洗操作,将待检测的发布消息文本中的内容转换为规则字符。
[0059]其中,对待检测的发布消息文本进行数据清洗操作,具体包括:识别并丢弃HTML标记,将繁体字转换为简体字,将全角字符转换为半角字符,将大写英文字母转换为小写英文字母,以及识别并丢弃url和标点符号。
[0060]S312、将拼音转化为汉字。
[0061]其中,将经过步骤S311处理的文本中的拼音转化为汉字,具体包括:使用双向最大匹配算法将文本中的拼音转换为汉字,如果一个拼音对应多个汉字,则从对应的多个汉字中任选一个。[0062]S313、保留常用的汉字。
[0063]其中,保留常用的汉字,具体包括:使用GBK编码表中的常用汉字对文本进行过滤,丢弃所有不属于常用汉字的字符,即只保留汉字GBK编码在OxBOAO~0xF7FE中的汉字。
[0064]步骤S320具体包括:使用拼音汉字对照表,将每个汉字转换为对应的拼音串,得到拼音文本。
[0065]通过步骤S310由待检测的发布消息文本获取中文文本,以及通过步骤S320将获取的中文文本中的汉字转为拼音得到拼音文本,可以将相似文本的不同变种,识别为相同的拼音文本。例如将如表1所示的待检测的发布消息文本和三种变种,通过步骤S310和S320得到相同的拼音文本。
[0066]表1待检测的发布消息文本及三种变种
[0067]
【权利要求】
1.一种用于识别网络游戏中发布消息的广告特征的装置,包括: 检测单元,适于检测游戏客户端的发布消息事件; 文本获取单元,适于根据所述发布消息事件获取发布消息文本; 特征向量提取单元,适于提取所述发布消息文本中包含的一个或多个特征向量; 识别单元,适于根据所述特征向量,识别待检测的发布消息文本是否与广告特征数据库中的一个或多个记录匹配; 屏蔽单元,适于在识别单元识别出上述匹配时,对所述发布消息事件进行屏蔽处理。
2.根据权利要求1所述的装置,其中, 所述检测单元,适于在所述文本获取单元根据所述发布消息事件获取发布消息文本之前,检测所述消息事件的类型是否是广播消息事件或组播消息事件,若否则退出流程,若是则由所述文本获取单元根据所述发布消息事件获取发布消息文本。
3.根据权利要求1或2所述的装置,其中, 所述屏蔽单元,位于游戏服务器或执行所述发布消息事件的游戏客户端。
4.根据权利要求1-3任一项所述的装置,其中, 所述识别单元,适于对所述特征向量中的每个特征,检测广告特征数据库中是否多次出现该特征; 所述识别单元,适于判断所述特征向量中的在广告特征数据库中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值,是则确定所述待检测的发布消息文本与广告特征数据库中的记录匹配,否则不匹配。
5.根据权利要求1-4任一项所述的装置,其中, 所述识别单元,适于对所述特征向量中的每个特征,从广告特征数据库中查找是否存在该特征,如果存在,则进一步查看该特征的权值,如果该特征的权值大于或等于第二阈值,则广告特征数据库中多次出现该特征。
6.一种用于识别网络游戏中发布消息的广告特征的方法,包括: 检测游戏客户端的发布消息事件; 根据所述发布消息事件获取发布消息文本; 提取所述发布消息文本中包含的一个或多个特征向量; 根据所述特征向量,识别待检测的发布消息文本是否与广告特征数据库中的一个或多个记录匹配; 当识别出上述匹配时,对所述发布消息事件进行屏蔽处理。
7.根据权利要求6所述的方法,其中,该方法进一步包括: 在所述根据所述发布消息事件获取发布消息文本之前,检测所述消息事件的类型是否是广播消息事件或组播消息事件,若否则退出流程,若是则根据所述发布消息事件获取发布消息文本。
8.根据权利要求6或7所述的方法,其中, 对所述发布消息事件进行屏蔽处理是由游戏服务器或游戏客户端执行的。
9.根据权利要求6-8任一项所述的方法,其中,所述根据所述特征向量,识别待检测的发布消息文本是否与广告特征数据库中的一个或多个记录匹配,具体包括: 对所述特征向量中的每个特征,检测广告特征数据库中是否多次出现该特征;判断所述特征向量中的在广告特征数据库中多次出现的特征占该特征向量的全部特征的比例是否达到第一阈值,是则确定所述待检测的发布消息文本与广告特征数据库中的记录匹配,否则不匹配。
10.根据权利要求6-9任一项所述的方法,其中,所述检测广告特征数据库中是否多次出现该特征包括: 从广告特征数据库中查找是否存在该特征,如果存在,则进一步查看该特征的权值,如果该特征的权值大于或等于第 二阈值,则广告特征数据库中多次出现该特征。
【文档编号】G06F17/30GK103605693SQ201310537964
【公开日】2014年2月26日 申请日期:2013年11月4日 优先权日:2013年11月4日
【发明者】孙林, 陈培军, 秦吉胜 申请人:北京奇虎科技有限公司, 奇智软件(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1