内容相关广告识别方法和内容相关广告服务器的制作方法

文档序号:6609827阅读:166来源:国知局
专利名称:内容相关广告识别方法和内容相关广告服务器的制作方法
技术领域
本发明涉及内容相关广告技术领域,尤其涉及内容相关广告识别方法和内容相关广告服务器。
背景技术
随着网络用户数量的剧增,通过网络提供的交互式广告变得非常流行,广告商可以利用网络通过多种方式宣传自己的产品;例如,可以将广告直接投放在网站上,用户登录网站时,广告即被呈现给用户,当用户点击广告时,嵌入的超链接可以将用户导向相应的产品网页或广告商的网站等;还有一种方式是向搜索引擎登记广告信息,当用户通过搜索引擎查询产品信息时,搜索引擎会根据用户输入的特定关键词,向用户返回对应的广告列表,用户点击列表中的某条广告,就可以访问相应的网页。
近年来,内容相关广告成为交互式广告领域中的又一个热点,其主要思想是,在向用户提供目标文档的同时,投放与该文档内容相关的广告;在现有技术中,多采用关键词匹配方法对内容相关广告进行识别,该方法的基本流程是通过对目标文档进行智能分词、关键词提取等处理,获得该文档的关键词集合;对于已登记广告投放业务的广告,若广告的关键词与该目标文档的关键词匹配,则确认该广告与该目标文档相关。
在对现有技术的研究和实践过程中发现在实际中,可能存在广告和目标文档的关键字匹配,而两者的主题并不相关,甚至相差很远的情况,在这种情况下,即使关键字匹配,两者仍然是不相关的;而根据上述现有技术的方案,只要广告的关键词和目标文档的关键词匹配,无论两者的主题是否相关,该广告都会被认为是与目标文档相关的广告,因此,在上述情况下,根据上述现有技术识别内容相关广告时,准确性较差。

发明内容
本发明的实施例要解决的技术问题是提供内容相关广告识别方法和内容相关广告服务器,可以提高内容相关广告识别的准确性。
为解决上述技术问题,本发明的实施例提供以下技术方案一种内容相关广告识别方法,包括获取目标文档的特征词集合;根据所述特征词集合对所述目标文档进行分类,获得所述目标文档所属的类别;根据所述目标文档所属的类别,判断广告是否符合与所述目标文档属于同一类别,且其特征词与所述目标文档的特征词集合中的特征词匹配的条件,若是,则确认该广告与所述目标文档相关。
一种内容相关广告服务器,包括特征词获取单元,用于获取并输出目标文档的特征词集合;分类单元,用于根据所述特征词集合对所述目标文档进行分类,获得所述目标文档所属的类别并输出;内容相关广告识别单元,用于根据所述目标文档所属的类别,判断广告是否符合与所述目标文档属于同一类别,且其特征词与所述目标文档的特征词集合中的特征词匹配的条件,若是,则确认该广告与所述目标文档相关。
从以上技术方案可以看出,在本发明实施例中,识别广告是否为与目标文档相关的广告时,不但要使广告与目标文档的关键字匹配,还要保证广告与目标文档的类别相同,从而保证查找到的广告与目标文档的主题也具有较好的相关性;当出现广告与目标文档的关键字匹配,而两者的主题不同,甚至相差很远的情况时,由于广告与目标文档的主题不相关时,两者各自所属的类别通常也不相同,因此,该广告并不会被识别成与目标文档相关的广告;综上所述,与现有技术相比,本发明实施例可以提高内容相关广告识别的准确性。


图1是本发明内容相关广告识别方法实施例一的流程图;图2是本发明内容相关广告识别方法实施例一中类别树的实例图;图3是本发明内容相关广告服务器实施例一的结构图;图4是本发明内容相关广告服务器实施例二的结构图。
具体实施例方式
下面结合附图,对本发明提供的内容相关广告识别方法和内容相关广告服务器的推荐实施例进行详细描述。
请参考图1,本发明内容相关广告识别方法实施例一的流程图,所述方法包括以下流程A1、获取目标文档的特征词集合;在本发明实施例中,文档的特征词可以广义理解为字、词、词组或字串等,可以是从文档中提取出的关键词,和/或能够表征文档主题的主题词等;在本发明实施例中,目标文档主要指将要提供给客户端的文档,例如网页等;此外,还可以进一步获取特征词集合中特征词的权值;特征词的权值用于表征特征词相对于文档主题的相关程度,特征词的权值越高,表示该特征词越能够代表文档主题;特征词的权值具体可以是特征词在文档中出现的频度,或者依据特征词的频度通过具体算法计算获得;文档的特征词集合,以及集合中特征词的权值主要是通过智能分词、特征词提取等技术对文档进行处理而获得,在具体实现时,可以根据实际需求,参考智能分词、特征词提取等技术领域的相关算法加以实现,在此不做赘述;A2、根据所获取的目标文档的特征词集合对所述目标文档进行分类,获得所述目标文档所属的类别;对目标文档的分类主要通过文本自动分类技术实现,其中一种可选的分类方法实例是分别获取各类别的分类样本集与所获取的目标文档的特征词集合的相似度,并确定与所述特征词集合的相似度最大的分类样本集;将所述目标文档划分到所确定的分类样本集对应的类别;在具体实现时,可以参考自动分类技术领域的相关算法;其中,分类样本集主要是指与相应类别的主题相关的多个特征词的集合,特征词可以是字、词、词组或字串等;服务器端根据业务环境的需求建立类别树,类别树可以只有一级,也可以为多级,当类别数为多级时,可以根据实际需求将目标文档分类到所需深度的级别,分类到越深的级别,分类的粒度越细;
图2给出具有两级拓扑结构的类别树的实例图,在图中,财经、娱乐、体育属于第一级(以下称为大类),而足球、篮球、游泳是体育的子类,属于第二级(以下称为小类);当根据上述的分类方法实例将目标文档分类到大类时,可以将上述分类方法中获取相似度的类限制在大类中,即只对各大类的分类样本集进行处理;当根据上述的分类方法实例将目标文档分类到小类时,可以通过两种方式实现;一种是将上述分类方法中获取相似度的类限制在小类中,即只对各小类的分类样本集进行处理,该方式较适用于各大类中所包括的小类无重复的情况,由于需要对所有小类的分类样本集进行处理,因此运算量较大;另外一种是先对各大类的分类样本集进行处理,将目标文档分类到相应的大类的相应类别,接着对该类别内包括的各类别的分类样本集进行处理,将目标文档分类到相应的小类;对目标文档进行分类时,还可以参考目标文档的特征词集合中各特征词的权值;A3、根据所述目标文档所属的类别,判断广告是否符合与所述目标文档属于同一类别,且其特征词与所述目标文档的特征词集合中的特征词匹配的条件,若是,则确认所述广告与所述目标文档相关;广告具有类别属性,以及对应的特征词集合;通常,根据广告登记信息,以及从广告链接网站上的相关信息等内容确定广告的类别,以及广告的特征词集合;其中,广告与目标文档属于同一类别主要是指广告和目标文档在规定级别下的类别相同,且所属上级类别也相同,以保证广告的主题与目标文档的主题具有较好的相关性;较佳的,可设置该规定级别具有较粗粒度,即,使该规定级别的深度较小,从而在相对大的范围内保证与目标文档的主题不同的广告不会被识别为目标文档相关的广告;其中,所述广告的特征词与目标文档的特征词集合中的特征词匹配具体可以是广告和目标文档有一个或多个特征词相匹配;广告和目标文档的匹配程度可以作为广告投放顺序的标准之一;
在本方法实施例中,识别广告是否为与目标文档相关的广告时,不但要使广告与目标文档的关键字匹配,还要保证广告与目标文档的类别相同,从而保证查找到的广告与目标文档的主题也具有较好的相关性;当出现广告与目标文档的关键字匹配,而两者的主题不同,甚至相差很远的情况下,由于广告与目标文档的主题不相关时,两者各自所属的类别通常也不相同,因此,该广告并不会被识别成与目标文档相关的广告;综上所述,与现有技术相比,本发明实施例可以提高内容相关广告识别的准确性。
本发明内容相关广告识别方法实施例二;本实施例与上述实施例一基本相同,主要区别在于,在步骤A2和A3之间还包括A2′、根据所述目标文档所属类别的相关信息,对所获取的目标文档的特征词集合进行扩展;其中,所述相关信息具体可以是目标文档所属类别的分类样本集,和/或目标文档所属类别的主题信息等;根据目标文档所属类别的分类样本集,对目标文档的特征词集合进行扩展具体可以是将目标文档所属类别的分类样本集中符合预定条件的样本词增加到目标文档的特征词集合;所述符合预定条件的样本词具体可以是在目标所属类别的分类样本集中的权值较大,且在目标文档中不存在的样本词;根据目标文档所属类别的主题信息,对目标文档的特征词集合进行扩展具体可以是将目标文档所属类别的主题词增加到目标文档的特征词集合;在本方法实施例中,较佳的,可以根据目标文档在较细粒度级别下所属类别的相关信息,对目标文档的特征词集合进行扩展,使得扩展后的目标文档的特征词集合中的特征词更加具体,从而提高所述特征词集合的覆盖面。
在本方法实施例中,在对目标文档进行分类后,根据目标文档所属类别的相关信息,对目标文档的特征词集合进行扩展,使得目标文档的特征词集合中不仅包括从所述文档中提取的特征词,还包括与所属类别对应的特征词,从而提高了目标文档的特征词集合的覆盖面,因此当广告和目标文档的主题较相关,而关键字无法匹配时,可以提高该广告被识别为目标文档相关广告的可能性,从而进一步提高内容相关广告识别的准确性。
参考图3本发明内容相关广告服务器实施例一的结构图;所述内容相关广告服务器包括特征词获取单元310、分类单元320和内容相关广告识别单元330特征词获取单元310,用于获取并输出目标文档的特征词集合;分类单元320,用于根据特征词获取单元310输出的特征词集合对所述目标文档进行分类,获得目标文档所属的类别后输出;内容相关广告识别单元330,用于根据分类单元320输出的目标文档所属的类别,判断广告是否符合与所述目标文档属于同一类别,且其特征词与特征词获取单元310输出的目标文档的特征词集合中的特征词匹配的条件,若是,则确认该广告与所述目标文档相关。
所述内容相关广告服务器实施例一具体可以采用内容相关广告识别方法实施例一中的方法实现。
参考图4本发明内容相关广告服务器实施例二的结构图;所述内容相关广告服务器包括特征词获取单元410、分类单元420、扩展单元430和内容相关广告识别单元440特征词获取单元410,用于获取并输出目标文档的特征词集合;分类单元420,用于根据特征词获取单元410输出的特征词集合对所述目标文档进行分类,获得目标文档所属的类别并输出;扩展单元430,用于根据目标文档所属类别的相关信息,对特征词获取单元410输出的目标文档的特征词集合进行扩展并输出;内容相关广告识别440,用于根据分类单元420输出的目标文档所属的类别,判断广告是否符合与所述目标文档属于同一类别,且其特征词与扩展单元430输出的目标文档的特征词集合中的特征词匹配的条件,若是,则确认该广告与所述目标文档相关。
所述内容相关广告服务器实施例二具体可以采用内容相关广告识别方法实施例二中的方法实现。
以上对本发明实施例所提供的内容相关广告识别方法和内容相关广告服务器进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式
及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
权利要求
1.一种内容相关广告识别方法,其特征在于,包括获取目标文档的特征词集合;根据所述特征词集合对所述目标文档进行分类,获得所述目标文档所属的类别;根据所述目标文档所属的类别,判断广告是否符合与所述目标文档属于同一类别,且其特征词与所述目标文档的特征词集合中的特征词匹配的条件,若是,则确认该广告与所述目标文档相关。
2.如权利要求1所述的内容相关广告识别方法,其特征在于,所述根据所述目标文档所属的类别,判断广告是否符合与所述目标文档属于同一类别,且其特征词与所述目标文档的特征词集合中的特征词匹配的条件前还包括根据所述目标文档所属类别的相关信息,对所获取的目标文档的特征词集合进行扩展。
3.如权利要求2所述的内容相关广告识别方法,其特征在于,所述根据所述目标文档所属类别的相关信息,对所获取的目标文档的特征词集合进行扩展具体包括根据所述目标文档所属类别的分类样本集,对所获取的目标文档的特征词集合进行扩展。
4.如权利要求3所述的内容相关广告识别方法,其特征在于,所述根据所述目标文档所属类别的分类样本集,对所获取的目标文档的特征词集合进行扩展具体包括将目标文档所属类别的分类样本集中符合预定条件的样本词增加到所获取的目标文档的特征词集合中。
5.如权利要求2所述的内容相关广告识别方法,其特征在于,所述根据所述目标文档所属类别的相关信息,对所获取的目标文档的特征词集合进行扩展具体包括根据所述目标文档所属类别的主题信息,对所获取的目标文档的特征词集合进行扩展。
6.如权利要求1至5任一项所述的内容相关广告识别方法,其特征在于,所述根据所述特征词集合对所述目标文档进行分类,获得所述目标文档所属的类别具体包括分别获取各类别的分类样本集与所述特征词集合的相似度,并确定与所述特征词集合的相似度最大的分类样本集;将所述目标文档划分到所确定的分类样本集对应的类别,获得所述目标文档所属的类别。
7.一种内容相关广告服务器,其特征在于,包括特征词获取单元,用于获取并输出目标文档的特征词集合;分类单元,用于根据所述特征词集合对所述目标文档进行分类,获得所述目标文档所属的类别并输出;内容相关广告识别单元,用于根据所述目标文档所属的类别,判断广告是否符合与所述目标文档属于同一类别,且其特征词与所述目标文档的特征词集合中的特征词匹配的条件,若是,则确认该广告与所述目标文档相关。
8.如权利要求7所述的内容相关广告服务器,其特征在于,在所述特征词获取单元和内容相关广告识别单元之间还包括扩展单元,用于根据目标文档所属类别的相关信息,对特征词获取单元输出的特征词集合进行扩展并输出。
全文摘要
本发明涉及内容相关广告技术领域,公开内容相关广告识别方法,该方法包括获取目标文档的特征词集合;根据所述特征词集合对所述目标文档进行分类,获得所述目标文档所属的类别;根据所述目标文档所属的类别,判断广告是否符合与所述目标文档属于同一类别,且其特征词与所述目标文档的特征词集合中的特征词匹配的条件,若是,则确认该广告与所述目标文档相关。本发明还公开相应的内容相关广告服务器。通过本发明实施例,可以提高内容相关广告识别的准确性。
文档编号G06F17/30GK101071443SQ20071011245
公开日2007年11月14日 申请日期2007年6月26日 优先权日2007年6月26日
发明者陈朝光 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1