一种富媒体互联网广告内容匹配、效果评估方法

文档序号:6602497阅读:152来源:国知局
专利名称:一种富媒体互联网广告内容匹配、效果评估方法
技术领域
本发明涉及广告内容匹配、效果评估技术,特别涉及一种富媒体互联网广告内容匹配、效果评估方法。
背景技术
互联网广告现在已经广泛应用于各个网站,为网站运营者提供了一个很好的利益增长点。通常的方法运用关键词匹配策略来进行广告投放与评价,即网络侧的广告服务器对用户所浏览的页面的内容进行分析,抽取出满足条件的关键词,并在广告库中将该关键词与广告进行匹配,并将匹配的广告返回给网页,然后展现给浏览的用户。普通的广告信息匹配、评估软件,多只支持网页信息,不支持其他媒体形式的广告,具有一定的局限性。另外,在广告效用评测效果上也不尽如人意。本发明的方法是一种电子商务的互联网广告信息匹配、评估和分析方法,是互联网广告商、电子商务企业提高互联网广告制作水平、精准推送产品和服务信息的有效方法。 本方法能有效地提升用户广告针对性,能更好地促进网络营销的效果。本方法能有效提高广告效用评测的准确性。

发明内容
本发明的目的在于解决现有技术中普通的广告信息匹配、评估软件只支持网页信息、不支持其他媒体形式、广告效用评测不准确的问题,提供一种富媒体互联网广告内容匹配、效果评测方法。为了解决上述技术问题,本发明结合具体实施例公布了如下技术方案—种富媒体互联网广告内容匹配、效果评估方法,包括如下步骤动态收取网络数据,对多媒体内容进行处理;对多媒体内容进行分析,抽取特征,建立特征库;基于XML模型建立特征管理知识库和语义关系库;采用本体库技术实现对网络广告内容的语义表示;利用基于Agent的自动语义匹配技术,实现文本、语音、视频、图片等的快速准确匹配;通过TOB数据挖掘,将用户基础资料、用户行为、用户关键字的表现生成大量的记录文件和信息库,从而获得浏览率、点击率、路径、关联规则、序列模式和统计特征等指标, 对其进行深入挖掘分析,从而对广告效果进行评估。进一步的,上述的多媒体内容处理步骤进一步包括内容获取步骤,用于对原始媒体进行处理,提取内容;内容描述步骤,用于将提取出的内容采用标准形式进行描述;内容操纵步骤,用于对内容进行查询、检索、搜索、摘要、浏览、过滤等操作。进一步的,上述的TOB数据挖掘步骤进一步包括
对数据进行预处理;对数据进行挖掘,得到用户的共同使用模式和概念空间;根据上一步骤得到的结果,为当前用户提供个性化推荐。进一步的,上述方法进一步包括设置动态数据库,用于统计检验广告点击次数,当检测到同一 IP地址一天之内针对同一广告进行点击时,其点击次数记为1 ;当检测到同一台计算机在同一天在同一网站进行广告点击时,点击次数超过设 定阈值时,其点击次数记为设定阈值。进一步的,上述方法进一步包括防作弊点击步骤,包括记录点击的来路页面后,人工巡查广告放置是否正确,查看旁边是否有引导性不良语句;记录放置广告页面的来路,如果该页面没有来路,则判断这个页面的流量非连接
流量;设置当访问者打开网站页面N秒内点击广告为作弊点击;当几次点击的时间差完全一致时,判断为作弊点击;或是在N秒内立即关闭的,判断为作弊点击;对于同一个鼠标值,只记一次点击。本发明具有如下优点本发明构建了浏览率、点击率、路径、关联规则、序列模式和特征统计等分析指标的广告效用评测体系,建立了基于用户背景与能力、访问行为、消费偏好、购买模式等特征信息的受众行为模型,为电子商务产品和服务信息的精准推送提供技术支撑。研发了智能防作弊点击技术,建立了网页访问的动态参数与判断规则库,动态设置过滤机制和警示模块中的参数及权重,构建了多层次的作弊识别系统,有效剔除了 “作弊点击”,提高了广告效用评测的准确性。针对广告信息的多媒体特征,提出了广告内容的特征分析和语义描述方法,开发了海量广告信息的搜索引擎,支持多媒体广告信息的快速搜索和匹配。


图1系统结构图;图2内容处理示意图。
具体实施例方式本发明针对互联网广告的多媒体特征,包括文本、语音、视频、图片等,对互联网广告内容中的海量信息进行特征抽取,建立基于内容的特征库;然后基于XML的模型建立互联网广告内容特征关联知识库和语义关系表,采用Ontology技术实现广告内容的语义表示;再利用基于Agent的自动语义匹配技术,支持商务信息的文本、语音、视频、图片等快速准确搜索和匹配。如图1所示。在此基础上,构建互联网广告效用评估分析体系,通过建立广告受众行为模型,为广告的精准推送和服务提供技术支撑。本发明是针对互联网广告的多媒体特征,要求实现商务信息文本、语音、视频、图片等的快速搜索与匹配,因此多媒体内容的特征选取和建立识别模型就显得格为重要。
多媒体内容的处理步骤分为三大部分内容获取、内容描述和内容操纵。也可将其看成是内容处理的三个步骤,即先对原始媒体进行处理,提取内容,然后用标准形式对它们进行描述,以支持各种内容的操纵。内容处理如图2所示。 内容获取(Populating)通过对各种的而获得媒体内容的过程。多媒体数据具有时空特性,内容的一个重要成分是空间和时间结构。内容的结构化(Structuring)就是分割(Segmenting)出图像对象、视频的时间结构、运动对象,以及这些对象之间的关系。特征抽取(Extraction)就是提取显著的区分特征和人的视觉(Visual)、听觉(Auditory)方面的感知特征来表示媒体和媒体对象的性质。内容描述(Description)描述在以上过程中获取的内容。目前,MPEG-7专家组正在制定多媒体内容描述标准。该标准主要采用描述子(Descriptor)和描述模式(Scheme) 来分别描述媒体的特性及其关系。内容操纵(Manipulating)针对内容的用户操作和应用。有许多这方面的名词和术语。查询(Query)是面向用户的术语,多用于数据库操作。检索(Retrieval)是在索引 (Index)支持下的快速信息获取方式。搜索(Search)常用于Internet的搜索引擎,含有搜寻的意思,又有在大规模信息库中搜寻信息的含义。摘要(Summarization,Excerpt)对多媒体中的时基媒体(如视频和音频)是一种特殊的操作。我们熟知文献摘要的含义,在内容技术支持下,也可以对视频和音频媒体进行摘要,获得一目了然的全局视图和概要。同样,用户可以通过浏览(Browsing)操作,线性或非线性地存取结构化的内容。另外,基于内容的技术不仅仅用在多媒体信息的检索和搜索方面,检索仅仅是信息存取的一个方面。过滤(Filtering)就是与检索相反的一种信息存取方式。用过滤技术可以实现个人化的信息服务。本体映射技术是实现商品供求语义匹配的核心。本体映射通过定义条件规则、函数、逻辑以及表与关系的集合来实现不同本体间的映射,是完成本体集成的重要一步工作 (本体集成的概念包括本体重用、本体合并、本体修正等,在这些过程中建立准确的本体映射是基础性的任务)。或者说,本体映射是不同的本体在概念层语义相关联,源本体的实例根据语义关联的关系转换为目的本体。本体映射技术主要包括一对一映射、定义一个共享本体作为标准,以其作为中介进行映射、基于资源的相似性而使用本体聚类等方法。在本项目中,我们考虑到软件的实用性,采用了定义共享本体作为中介进行映射的方式。Agent和多Agent系统基于分布式人工智能的研究,已成为分布式人工智能(DAD 的一个热点,并且被赋予高于早期的分布式问题求解型的人工智能的一些特点。多Agent 系统(MultiAgent System)是一个高度交叉的研究领域。在一个个标准的多Agent系统口必须包含一些通过通信交互的Agent。这些Agent可以感知环境并在环境中动作,不同的 Agent可以控制或影响环境的不同部分。若有时这些影响有重叠部分,则证明了这些Agent 之间直接或间接存在着某种依赖关系。传统的并行数据库的UNION查询处理流程一般分为三个步骤第一步数据重新分布,即根据分布算法将数据分布到执行节点上;第二步子查询并行执行,即在所有执行节点并行执行子查询;第三步结果汇总,把执行节点的查询结果汇总,返回给用户。
这种处理方式导致UNION查询成为数据库中代价最大的几个操作之一。在海量并行数据库应用系统中,由于系统具有海量性、高速性、连续性等特点,从而对UNION查询的执行效率以及查询性能提出了更高的要求。然而,即使是最好的查询方案也不得不遍历分布在各个数据库节点上的全部数据源才能找到满足查询条件的完整实体集。随着数据源的数量和查询条件的数量的增加,UNION查询所要做的数据传输量也将迅速的增加。系统需要大量的网络和磁盘I/O开销,以至于在海量并行数据库环境下,即使是很简单的查询统计也变得很难实现。 Web挖掘分三类第一类是Web内容挖掘(Web Content Mining)从大量的Web数据中发现并抽取有用信息的过程;第二类是Web使用挖掘(Web Usage Mining)通过挖掘用户的Web日志(log)记录,发现用户访问Web页面的模式,得到有价值的信息 ’第三类是 Web结构挖掘(Web Structure Mining)从WWW链接结构关系网络中推导出知识。利用Web挖掘方法分析Web访问日志可以帮助人们根据用户群访问的相似性,进行页面和用户聚类分析,直接对用户进行页面内容过滤、传送,为用户提供个性化的服务。 个性化服务技术一般分为三类第一类是企业Web站点管理员根据用户统计数、静态个性文件或用户会话(User Session)记录制定一系列规则并利用这些规则为特定用户提供特定服务;第二类是基于内容的过滤(Content-basedFiltering)系统,通过用户历史访问内容挖掘用户访问模式并将该模式需求同URL(Uniform Resource Locator)结合以满足用户个性化需求;第三种是协作过滤(Collaborative Filtering)系统,通过用户群的相似性进行内容推荐。WEB数据挖掘技术进一步包括对数据进行预处理;对数据进行挖掘,得到用户的共同使用模式和概念空间;根据上一步骤得到的结果,为当前用户提供个性化推荐。首先对站点文档以及服务器日志进行数据预处理,分别得到倒置文档结构及事务文件,并对其表示形式进行统一化,再分别对它们进行聚类,得到相应的概念空间及使用模式,通过对概念空间和使用模式的进一步处理,得到用户的共同概念空间和共同使用模式 (分别表示用户在内容聚类和使用聚类中的重叠区域)。由内容挖掘和使用挖掘分别得到用户共同概念空间和共同使用模式,作为输入数据为推荐机所使用。推荐机是Web个性化系统的在线部分,其任务是根据当前用户会话进行推荐,即推荐出与当前用户会话最匹配的对象的集合(广告、链接、产品等)。通过TOB数据挖掘技术,建立了基于用户背景与能力、用户访问行为、消费偏好、 购买模式等特征信息的网络广告受众行为模型,为商务网络广告的精准推送和服务提供了技术支撑。网络广告效果评测体系中指标包括浏览率、点击率、路径、关联规则、序列模式以及特征统计等,体系对用户行为进行了强大的综合性的全面评测。网络广告效用评测需要的数据主要来自三个方面用户的背景信息,主要来自用户的登记表。有基本信息和附加信息构成,包括了用户实体基础资料,用户教育实体基本资料,用户工作实体基础资料,用户社会关系实体基础资料等等。这是获取有效的,潜在的信息,实施用户行为分析,提升和改进用户体验的基础数据。
来自用户的点击流,主要用于考查用户的行为表现。我们构建了强大,健壮的用户点击流信息库,以数据分析软件和自主分析技术系统作为支撑,实施数据库的知识发现,分析用户的个人偏好,性格特征,职业背景等信息,从而匹配出用户感兴趣的广告,实现数据模式的非平凡过程。用户的关键词搜索,主要用于关注用户的需求表现。根据用户自我需求的定位和确定,系统可以数据建模,搜索优化,抽样评估已达到“送广告上门,,的目的,以满足用户的定制需求,个性需求,以人为本,精准的匹配所需求的广告。以此为基础,本发明利用计算机,网络,数据挖掘等相关技术,智能,高效,快速,准确的对数据进行分析,挖掘,利用。从而匹配出用户当前最需要和预期需要的广告信息,进而了解和理解用户的消费偏好、购买模式,行为表现,预期需求。构建网络广告受众行为模型,为商务网络广告的精准推送和服务提供了技术支撑。为了提高网络广告效用评测的准确性,本发明还包括防无效点击步骤和防作弊点
击步骤。建立网页访问的动态参数与判断规则库,基于联接机制和方法,动态设置过滤机制和警示模块中的参数与权重,搭建了技术+人工干预的四层无效点击和反作弊点击机制。前两层是自动处理,无须人工干预的,而后面两层则加入人工干预因素,剔除了无效点击和作弊点击,节约成本,提高网络广告效用评测的准确性。无效点击指的是非刻意安排下的点击行为,与有效点击相反,也可以说是一种统计方法,如同一个IP —天之内针对同一个广告的点击都只算一次;只有广告打开完整才统计;客户端禁止使用cookie的点击无效;同一台计算机同一天在同一页面同一广告位只能点击广告N次,这个N是动态的,系统会不定期进行合理的调整;同一台计算机同一天在同一网站点击广告只有前N次有效,这个N值也是动态的。将这些参数建立动态数据库,防止无效点击行为计入费用点击,为广告主节省推广成本。所谓防作弊点击,与无效点击不同,主要是人为刻意进行的点击行为,如利用自动点击程序或者专门为点击广告而设计的应用软件;雇用低价劳力或者诱导他人点击广告链接;发布者人工点击他们页面上的广告;广告客户人工点击他们竞争者的广告;遭受竞争者或其他恶意者报复的发布者等。本项目针对此类作弊点击行为创新性的采用“反伪造点击技术”,除过滤无效点击外,还设立点击比率上限设置,目前富媒体广告的点击率在2%到 5%,普通图片点击在0. 到1%,与图片的创意有关,所以设置的点击率超过5%即提示可能作弊点击;另外通过来源统计防止作弊,1)记录点击的来路页面后,人工巡查广告放置是否正确,查看旁边是否有引导性不良语句;2)记录放置广告页面的来路,如果该页面没有来路,则判断这个页面的流量非连接流量;还有时间顺差防止作弊,即设置当访问者打开网站页面N秒内点击广告为作弊广告,当几次点击的时间差完全一致时,也判断为作弊点击,或是在N秒内立即关闭的,这里的N为动态设置,可以进行合理调整。同时还根据鼠标值,因为当你按下鼠标时,都会有一个坐标值,同一个鼠标值,我们只记一次点击,而且每次点击都会产生鼠标的KEYUP和KEYD0WN的行为,如果未能捕获这个值,也视为作弊点击给予标记或报警。
权利要求
1.一种富媒体互联网广告内容匹配、效果评估方法,其特征在于,包括如下步骤 动态收取网络数据,对多媒体内容进行处理;对多媒体内容进行分析,抽取特征,建立特征库; 基于XML模型建立特征管理知识库和语义关系库; 采用本体库技术实现对网络广告内容的语义表示;利用基于Agent的自动语义匹配技术,实现文本、语音、视频、图片等的快速准确匹配; 通过WEB数据挖掘,将用户基础资料、用户行为、用户关键字的表现生成大量的记录文件和信息库,从而获得浏览率、点击率、路径、关联规则、序列模式和统计特征等指标,对其进行深入挖掘分析,从而对广告效果进行评估。
2.根据权利要求1所述的富媒体互联网广告内容匹配、效果评估方法,其特征在于,所述方法进一步包括通过WEB数据挖掘技术,建立基于用户背景与能力、用户访问行为、消费偏好、购买模式等特征信息的网络广告受众行为模型,为商务网络广告的精准推送和服务提供依据。
3.根据权利要求1所述的富媒体互联网广告内容匹配、效果评估方法,其特征在于,所述的多媒体内容处理步骤进一步包括内容获取步骤,用于对原始媒体进行处理,提取内容;内容描述步骤,用于将提取出的内容采用标准形式进行描述;内容操纵步骤,用于对内容进行查询、检索、搜索、摘要、浏览、过滤等操作。
4.根据权利要求1所述的富媒体互联网广告内容匹配、效果评估方法,其特征在于,所述的WEB数据挖掘步骤进一步包括对数据进行预处理;对数据进行挖掘,得到用户的共同使用模式和概念空间; 根据上一步骤得到的结果,为当前用户提供个性化推荐。
5.根据权利要求1所述的富媒体互联网广告内容匹配、效果评估方法,其特征在于,所述方法进一步包括设置动态数据库,用于统计检验广告点击次数,当检测到同一 IP地址一天之内针对同一广告进行点击时,其点击次数记为1 ;当检测到同一台计算机在同一天在同一网站进行广告点击时,点击次数超过设定阈值时,其点击次数记为设定阈值。
6.根据权利要求1所述的富媒体互联网广告内容匹配、效果评估方法,其特征在于,所述方法进一步包括防作弊点击步骤,包括记录点击的来路页面后,人工巡查广告放置是否正确,查看旁边是否有引导性不良语句;记录放置广告页面的来路,如果该页面没有来路,则判断这个页面的流量非连接流量;设置当访问者打开网站页面N秒内点击广告为作弊点击;当几次点击的时间差完全一致时,判断为作弊点击;或是在N秒内立即关闭的,判断为作弊点击; 对于同一个鼠标值,只记一次点击。
全文摘要
本发明涉及广告内容匹配、效果评估技术,提供了一种富媒体互联网广告内容匹配、效果评估方法,所述方法包括如下步骤动态收取网络数据,对多媒体内容进行处理;对多媒体内容进行分析,抽取特征,建立特征库;基于XML模型建立特征管理知识库和语义关系库;采用本体库技术实现对网络广告内容的语义表示;利用基于Agent的自动语义匹配技术,实现文本、语音、视频、图片等的快速准确匹配;通过WEB数据挖掘,将用户基础资料、用户行为、用户关键字的表现生成大量的记录文件和信息库,从而获得浏览率、点击率、路径、关联规则、序列模式和统计特征等指标,对其进行深入挖掘分析,从而对广告效果进行评估。
文档编号G06F17/30GK102254265SQ20101017480
公开日2011年11月23日 申请日期2010年5月18日 优先权日2010年5月18日
发明者王健, 胡飞阳, 苏琪, 项东方 申请人:北京首家通信技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1