一种广告受众用户数据的处理方法和装置与流程

文档序号:18000730发布日期:2019-06-25 22:49阅读:182来源:国知局
一种广告受众用户数据的处理方法和装置与流程

本发明涉及互联网广告领域,具体涉及一种广告受众用户数据的处理方法和装置。



背景技术:

用户在浏览网页时会注意到,在网页的上方、下方或者是悬浮窗中存在着不少广告,这些都属于互联网广告的展示方式,浏览网页的用户也就是广告受众用户。而广告主为了实现广告的精准投放,希望了解哪些人群对自己的产品感兴趣,在现有技术中往往是通过获取广告的展现量、点击量等数据,对这些数据进行分析来确定如何投放广告更加有效。而这些数据与用户是相关的,也就是属于广告受众用户数据,不仅维度众多,数量也庞大,需要一种有效、快速的处理方式。



技术实现要素:

鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的广告受众用户数据的处理方法和装置。

依据本发明的一个方面,提供了一种广告受众用户数据的处理方法,包括:

按维度生成所述广告受众用户数据的倒排索引;

存储所述倒排索引,生成所述倒排索引的存储位置描述信息;

接收涵盖至少一个维度的数据分析条件,根据所述数据分析条件查询所述存储位置描述信息,确定相应倒排索引的存储位置;

根据确定的存储位置读取相应的倒排索引,根据所述倒排索引确定数据分析结果。

可选地,所述按维度生成所述广告受众用户数据的倒排索引包括:

调用分布式计算框架mapreduce生成所述倒排索引;

所述存储所述倒排索引包括:将同一维度下维度特征值相同的倒排索引连续输出至分布式文件系统hdfs的指定路径下。

可选地,所述生成所述倒排索引的存储位置描述信息包括:

记录同一维度下同一维度特征值的倒排索引在所述hdfs上的起始位置和长度,生成全部倒排索引的二级索引。

可选地,该方法还包括:

将所述二级索引保存至mongo数据库中;

所述根据所述数据分析条件查询所述存储位置描述信息包括:调用mongo数据库的快速检索功能进行查询。

可选地,所述存储所述倒排索引包括:将所述倒排索引导入列式数据库hbase中;

所述生成所述倒排索引的存储位置描述信息包括:在所述hbase中为所述倒排索引设置多个采样点,得到多个采样区间;

所述根据所述数据分析条件查询所述存储位置描述信息包括:根据所述数据分析条件确定至少一个采样区间,从所述hbase中读取所述采样区间下的倒排索引进行查询。

可选地,所述将所述倒排索引导入列式数据库hbase中包括:

根据所述倒排索引生成符合hbase内部数据存储格式的hfile文件;

将所述hfile文件热载入所述hbase。

可选地,所述数据分析条件为广告受众人群分析条件,所述倒排索引包括维度的特征值与广告受众用户标识;

所述根据所述倒排索引确定数据分析结果包括:从读取的所述倒排索引中提取广告受众用户标识,根据提取出的全部广告受众用户标识生成广告受众人群。

可选地,所述数据分析条件为广告受众用户行为分析条件,所述根据所述倒排索引确定数据分析结果包括:

根据所述倒排索引读取相应的广告受众用户数据,对所述广告受众用户数据进行数据分析,得到数据分析结果。

可选地,所述广告受众用户数据存储在hdfs上,所述倒排索引包括维度的特征值与广告受众用户标识,该方法还包括:

获取各广告受众用户数据在所述hdfs上的存储位置;

将各广告受众用户数据在所述hdfs上的存储位置对应添加到生成的倒排索引中,或者,生成用户索引,所述用户索引包括广告受众用户标识和各广告受众用户数据在所述hdfs上的存储位置;

所述根据所述倒排索引读取相应的广告受众用户数据包括:根据所述倒排索引中广告受众用户数据在所述hdfs上的存储位置,从所述hdfs中读取广告受众用户数据,或者,根据所述倒排索引中的广告受众用户标识查询所述用户索引,确定广告受众用户数据在所述hdfs上的存储位置,从所述hdfs中读取广告受众用户数据。

依据本发明的另一方面。提供了一种广告受众用户数据的处理装置,包括:

生成单元,适于按维度生成所述广告受众用户数据的倒排索引;

存储单元,适于存储所述倒排索引,生成所述倒排索引的存储位置描述信息;

定位单元,适于接收涵盖至少一个维度的数据分析条件,根据所述数据分析条件查询所述存储位置描述信息,确定相应倒排索引的存储位置;

数据分析单元,适于根据确定的存储位置读取相应的倒排索引,根据所述倒排索引确定数据分析结果。

可选地,所述生成单元,适于调用分布式计算框架mapreduce生成所述倒排索引;

所述存储单元,适于将同一维度下维度特征值相同的倒排索引连续输出至分布式文件系统hdfs的指定路径下。

可选地,所述存储单元,适于记录同一维度下同一维度特征值的倒排索引在所述hdfs上的起始位置和长度,生成全部倒排索引的二级索引。

可选地,所述存储单元,适于将所述二级索引保存至mongo数据库中;

所述定位单元,适于调用mongo数据库的快速检索功能进行查询。

可选地,所述存储单元,适于将所述倒排索引导入列式数据库hbase中,在所述hbase中为所述倒排索引设置多个采样点,得到多个采样区间;

所述定位单元,适于根据所述数据分析条件确定至少一个采样区间,从所述hbase中读取所述采样区间下的倒排索引进行查询。

可选地,所述存储单元,适于根据所述倒排索引生成符合hbase内部数据存储格式的hfile文件,将所述hfile文件热载入所述hbase。

可选地,所述数据分析条件为广告受众人群分析条件,所述倒排索引包括维度的特征值与广告受众用户标识;

所述数据分析单元,适于从读取的所述倒排索引中提取广告受众用户标识,根据提取出的全部广告受众用户标识生成广告受众人群。

可选地,所述数据分析条件为广告受众用户行为分析条件;

所述数据分析单元,适于根据所述倒排索引读取相应的广告受众用户数据,对所述广告受众用户数据进行数据分析,得到数据分析结果。

可选地,所述广告受众用户数据存储在分布式文件系统hdfs上,所述倒排索引包括维度的特征值与广告受众用户标识;

所述生成单元,适于将各广告受众用户数据在所述hdfs上的存储位置对应添加到生成的倒排索引中,或者,适于生成用户索引,所述用户索引包括广告受众用户标识和各广告受众用户数据在所述hdfs上的存储位置;

所述数据分析单元,适于根据所述倒排索引中广告受众用户数据在所述hdfs上的存储位置,从所述hdfs中读取广告受众用户数据,或者,适于根据所述倒排索引中的广告受众用户标识查询所述用户索引,确定广告受众用户数据在所述hdfs上的存储位置,从所述hdfs中读取广告受众用户数据。

由上述可知,本发明的技术方案,为广告受众用户数据按维度生成倒排索引,将其保存后生成其存储位置描述信息,这样在接收到涵盖至少一个维度的数据分析条件时,可以先根据数据分析条件查询存储位置描述信息,确定相应倒排索引的存储位置,再根据确定的存储位置读取相应的倒排索引,根据倒排索引确定数据分析结果。该技术方案针对海量的广告受众数据,根据其数据特点,采用按维度生成倒排索引的方式,可以实现利用倒排索引进行数据的快速检索;而针对同样数量庞大的倒排索引,采用为其设置存储位置描述信息的方式,进一步提高了倒排索引的读取效率,这样分层级地提高了数据分析的效率,效果显著。

上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:

图1示出了根据本发明一个实施例的一种广告受众用户数据的处理方法的流程示意图;

图2示出了根据本发明一个实施例的一种广告受众用户数据的处理装置的结构示意图;

图3示出了根据本发明一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

图1示出了根据本发明一个实施例的一种广告受众用户数据的处理方法的流程示意图,如图1所示,该方法包括:

步骤s110,按维度生成广告受众用户数据的倒排索引。

广告受众用户正如前所述,包括与各广告受众用户相关的展现数据、点击数据等等,通常数量级在亿级以上。维度就是广告受众用户数据的维度,可以包括广告的创意、地域,用户的id等等,随着数据分析需求的变更也可能发生变化,维度的数量在十个到几十个不等。

步骤s120,存储倒排索引,生成倒排索引的存储位置描述信息。

广告受众用户数据在存储时可以是按条存储,每条数据包括多个维度,这样如果在数据分析时需要限定查找维度下的值为某个特定值的广告受众用户数据时,需要将所有的广告受众用户数据全部读取、遍历、判定是否满足条件,前面提到广告受众用户数据的数量极为庞大,因此这种数据处理的效率极低,而采用倒排索引,可以按各维度下的值记录相应广告受众用户数据的存储位置,这样在进行数据处理时,可以大大提升效率。

由于生成倒排索引的数量依然是很庞大的,因此在本步骤中,还为生成的倒排索引进一步生成存储位置描述信息。

步骤s130,接收涵盖至少一个维度的数据分析条件,根据数据分析条件查询存储位置描述信息,确定相应倒排索引的存储位置。

步骤s140,根据确定的存储位置读取相应的倒排索引,根据倒排索引确定数据分析结果。

由此可以看出,根据数据分析条件中涵盖的维度,可以先由存储位置描述信息确定目标倒排索引的存储位置,这样先减少了待读取的倒排索引的数据量,之后再根据倒排索引确定数据分析结果,又减少了直接读取广告受众用户数据的数据量。

可见,图1所示的方法,为广告受众用户数据按维度生成倒排索引,将其保存后生成其存储位置描述信息,这样在接收到涵盖至少一个维度的数据分析条件时,可以先根据数据分析条件查询存储位置描述信息,确定相应倒排索引的存储位置,再根据确定的存储位置读取相应的倒排索引,根据倒排索引确定数据分析结果。该技术方案针对海量的广告受众数据,根据其数据特点,采用按维度生成倒排索引的方式,可以实现利用倒排索引进行数据的快速检索;而针对同样数量庞大的倒排索引,采用为其设置存储位置描述信息的方式,进一步提高了倒排索引的读取效率,这样分层级地提高了数据分析的效率,效果显著。

在本发明的一个实施例中,上述方法中,按维度生成广告受众用户数据的倒排索引包括:调用分布式计算框架mapreduce生成倒排索引;存储倒排索引包括:将同一维度下维度特征值相同的倒排索引连续输出至分布式文件系统hdfs的指定路径下。

在本实施例中巧妙地利用mapreduce输出结果有序的特性,输入广告受众用户数据的存储地址到mapreduce,由其进行处理后生成倒排索引,具体来说,格式可以为:a1-用户a;a1-用户b……a2-用户c;a2-用户d……b1-用户e……其中,a1,a2等可以是维度a下的各维度特征值,也就是作为key,用户a、b、c、d、e等是用户标识,也就是用户id,也就是说倒排索引的格式可以是key-用户id。这样,就实现了同一维度下维度特征值相同的倒排索引在hdfs上连续存储。这样的好处在于为生成存储位置描述信息提供了便利条件。

在本发明的一个实施例中,上述方法中,生成倒排索引的存储位置描述信息包括:记录同一维度下同一维度特征值的倒排索引在hdfs上的起始位置和长度,生成全部倒排索引的二级索引。

由于在hdfs上存储时实现了连续存储,因此,知道了起始位置(start)和长度(length),就可以获取该维度特征值的全部倒排索引。起始位置和长度也可以称为偏移量(offset)。具体的存储形式可以为key(维度特征值)-offset。

这样,例如采用mapreduce读取二级索引的方式,可以将在输入的hdfs路径中写入待读取的二级索引在文件中的偏移量,例如file/a/start/length,这样就可以直接读取到相应的二级索引。

在本发明的一个实施例中,上述方法中,该方法还包括:将二级索引保存至mongo数据库中;根据数据分析条件查询存储位置描述信息包括:调用mongo数据库的快速检索功能进行查询。

在本实施例中为了提高二级索引的检索效率,进一步利用了基于分布式文件存储的数据库mongodb的快速检索功能,将二级索引保存至mongodb。

利用上述实施例的结合,可以实现如下的一个较佳实施例:利用mapreduce读取广告受众用户数据,输出有序的倒排索引,为这些倒排索引建立二级索引,存储至mongodb,这样可以利用mongodb的快速检索功能高效快速地在查询时得到目标二级索引,进一步查询出相应的倒排索引。

在本发明的一个实施例中,上述方法中,存储倒排索引包括:将倒排索引导入列式数据库hbase中;生成倒排索引的存储位置描述信息包括:在hbase中为倒排索引设置多个采样点,得到多个采样区间;根据数据分析条件查询存储位置描述信息包括:根据数据分析条件确定至少一个采样区间,从hbase中读取采样区间下的倒排索引进行查询。

在本实施例中示出了又一种存储倒排索引的方式,即将倒排索引导入列式数据库hbase中,利用了hbase中数据有序排列的特性。而在生成倒排索引的时同样可以利用mapreduce,这样hdfs上的倒排索引有序,导入后也是有序,导入方便。

而且,数据分析条件涵盖维度,而一些维度特征值对应的用户数量可能是庞大的,例如某个关键词为热点词,搜索该关键词的用户可能每天就有几百万个,这样在读取倒排索引时,也是需要读取大量数据的。因此在本实施例中对倒排索引设置采样点,这样即使需要读取的倒排索引很多,也可以分成几个部分进行读取。

例如,利用mapreduce读取倒排索引时,可以根据数据分析条件所涵盖的维度(每个维度对应一个或几个维度特征值),以每个维度特征值映射为一个map读取倒排索引,举例来说,读取维度“关键词”下的“爱xx”对应的广告受众用户数据,而爱xx网站作为一个视频网站,每天搜索“爱xx”的用户数量为百万级,因此广告受众用户数据的数量巨大,相应的倒排索引也很多,这样相应map的效率就很低。而在本实施例中可以利用采样点,将其映射为多个map,这样就大大提高了效率,读取时可以被并行处理,这样就提高了读取速度,解决了长尾影响。

在本发明的一个实施例中,将所述倒排索引导入列式数据库hbase中包括:根据所述倒排索引生成符合hbase内部数据存储格式的hfile文件;将所述hfile文件热载入所述hbase。

这样,利用hbase的批量导入功能,先根据倒排索引生成符合hbase内部数据存储格式的hfile文件,再将hfile文件热载入hbase集群以提高数据导入速度。

在本发明的一个实施例中,上述方法中,数据分析条件为广告受众人群分析条件,倒排索引包括维度的特征值与广告受众用户标识;根据倒排索引确定数据分析结果包括:从读取的倒排索引中提取广告受众用户标识,根据提取出的全部广告受众用户标识生成广告受众人群。

广告受众用户数据的一大利用价值就是定位广告投放的目标人群,也就是广告受众人群。广告主(希望投放广告的商家)往往会自己选择一个或多个维度的特征值,根据这些筛选出目标人群。在本实施例中,由于倒排索引包括维度的特征值与广告受众用户标识(例如前面实施例示出的key-用户id),则在读取出倒排索引后,就可以提取广告受众用户标识,把所有提取的广告受众用户标识进行汇总,对相应的广告受众用户进行广告投放即可。

在本发明的一个实施例中,上述方法中,数据分析条件为广告受众用户行为分析条件,根据倒排索引确定数据分析结果包括:根据倒排索引读取相应的广告受众用户数据,对广告受众用户数据进行数据分析,得到数据分析结果。

在本实施例中,由于还需要进行数据分析,因此仅获取到倒排索引还不够,需要根据倒排索引读取相应的广告受众用户数据再进行分析,具体地也可以调用已有的数据分析工具。

在本发明的一个实施例中,上述方法中,广告受众用户数据存储在hdfs上,倒排索引包括维度的特征值与广告受众用户标识,该方法还包括:获取各广告受众用户数据在hdfs上的存储位置;将各广告受众用户数据在hdfs上的存储位置对应添加到生成的倒排索引中,或者,生成用户索引,用户索引包括广告受众用户标识和各广告受众用户数据在hdfs上的存储位置;根据倒排索引读取相应的广告受众用户数据包括:根据倒排索引中广告受众用户数据在hdfs上的存储位置,从hdfs中读取广告受众用户数据,或者,根据倒排索引中的广告受众用户标识查询用户索引,确定广告受众用户数据在hdfs上的存储位置,从hdfs中读取广告受众用户数据。

在本实施例中示出了两种快速读取广告受众用户数据的方式,但是共同点在于需要预先获取各广告受众用户数据在hdfs上的存储位置并保存到索引中,一种方式下可以将其存在倒排索引中,即倒排索引就包括了维度的特征值、广告受众用户标识和广告受众用户数据在hdfs上的存储位置;另一种方式是再建立一个用户索引,包括广告受众用户标识和各广告受众用户数据在hdfs上的存储位置,具体地可以存在mongodb中并利用其快速检索功能进行快速查找。这样第一步需要根据数据分析条件读取倒排索引获取广告受众用户标识,第二步根据广告受众用户标识查找用户索引确定广告受众用户数据在hdfs上的存储位置,第三步读取广告受众用户数据进行分析。

图2示出了根据本发明一个实施例的一种广告受众用户数据的处理装置的结构示意图,如图2所示,广告受众用户数据的处理装置200包括:

生成单元210,适于按维度生成广告受众用户数据的倒排索引。

广告受众用户正如前所述,包括与各广告受众用户相关的展现数据、点击数据等等,通常数量级在亿级以上。维度就是广告受众用户数据的维度,可以包括广告的创意、地域,用户的id等等,随着数据分析需求的变更也可能发生变化,维度的数量在十个到几十个不等。

存储单元220,适于存储倒排索引,生成倒排索引的存储位置描述信息。

广告受众用户数据在存储时可以是按条存储,每条数据包括多个维度,这样如果在数据分析时需要限定查找维度下的值为某个特定值的广告受众用户数据时,需要将所有的广告受众用户数据全部读取、遍历、判定是否满足条件,前面提到广告受众用户数据的数量极为庞大,因此这种数据处理的效率极低,而采用倒排索引,可以按各维度下的值记录相应广告受众用户数据的存储位置,这样在进行数据处理时,可以大大提升效率。

由于生成倒排索引的数量依然是很庞大的,因此存储单元220还为生成的倒排索引进一步生成存储位置描述信息。

定位单元230,适于接收涵盖至少一个维度的数据分析条件,根据数据分析条件查询存储位置描述信息,确定相应倒排索引的存储位置。

数据分析单元240,适于根据确定的存储位置读取相应的倒排索引,根据倒排索引确定数据分析结果。

由此可以看出,根据数据分析条件中涵盖的维度,可以先由存储位置描述信息确定目标倒排索引的存储位置,这样先减少了待读取的倒排索引的数据量,之后再根据倒排索引确定数据分析结果,又减少了直接读取广告受众用户数据的数据量。

可见,图2所示的装置,通过各单元的相互配合,为广告受众用户数据按维度生成倒排索引,将其保存后生成其存储位置描述信息,这样在接收到涵盖至少一个维度的数据分析条件时,可以先根据数据分析条件查询存储位置描述信息,确定相应倒排索引的存储位置,再根据确定的存储位置读取相应的倒排索引,根据倒排索引确定数据分析结果。该技术方案针对海量的广告受众数据,根据其数据特点,采用按维度生成倒排索引的方式,可以实现利用倒排索引进行数据的快速检索;而针对同样数量庞大的倒排索引,采用为其设置存储位置描述信息的方式,进一步提高了倒排索引的读取效率,这样分层级地提高了数据分析的效率,效果显著。

在本发明的一个实施例中,上述装置中,生成单元210,适于调用分布式计算框架mapreduce生成倒排索引;存储单元220,适于将同一维度下维度特征值相同的倒排索引连续输出至分布式文件系统hdfs的指定路径下。

在本实施例中巧妙地利用mapreduce输出结果有序的特性,输入广告受众用户数据的存储地址到mapreduce,由其进行处理后生成倒排索引,具体来说,格式可以为:a1-用户a;a1-用户b……a2-用户c;a2-用户d……b1-用户e……其中,a1,a2等可以是维度a下的各维度特征值,也就是作为key,用户a、b、c、d、e等是用户标识,也就是用户id,也就是说倒排索引的格式可以是key-用户id。这样,就实现了同一维度下维度特征值相同的倒排索引在hdfs上连续存储。这样的好处在于为生成存储位置描述信息提供了便利条件。

在本发明的一个实施例中,上述装置中,存储单元220,适于记录同一维度下同一维度特征值的倒排索引在hdfs上的起始位置和长度,生成全部倒排索引的二级索引。

由于在hdfs上存储时实现了连续存储,因此,知道了起始位置(start)和长度(length),就可以获取该维度特征值的全部倒排索引。起始位置和长度也可以称为偏移量(offset)。具体的存储形式可以为key(维度特征值)-offset。

这样,例如采用mapreduce读取二级索引的方式,可以将在输入的hdfs路径中写入待读取的二级索引在文件中的偏移量,例如file/a/start/length,这样就可以直接读取到相应的二级索引。

在本发明的一个实施例中,上述装置中,存储单元220,适于将二级索引保存至mongo数据库中;定位单元230,适于调用mongo数据库的快速检索功能进行查询。

在本实施例中为了提高二级索引的检索效率,进一步利用了基于分布式文件存储的数据库mongodb的快速检索功能,将二级索引保存至mongodb。

利用上述实施例的结合,可以实现如下的一个较佳实施例:利用mapreduce读取广告受众用户数据,输出有序的倒排索引,为这些倒排索引建立二级索引,存储至mongodb,这样可以利用mongodb的快速检索功能高效快速地在查询时得到目标二级索引,进一步查询出相应的倒排索引。

在本发明的一个实施例中,上述装置中,存储单元220,适于将倒排索引导入列式数据库hbase中,在hbase中为倒排索引设置多个采样点,得到多个采样区间;定位单元230,适于根据数据分析条件确定至少一个采样区间,从hbase中读取采样区间下的倒排索引进行查询。

在本实施例中示出了又一种存储倒排索引的方式,即将倒排索引导入列式数据库hbase中,利用了hbase中数据有序排列的特性。而在生成倒排索引的时同样可以利用mapreduce,这样hdfs上的倒排索引有序,导入后也是有序,导入方便。

而且,数据分析条件涵盖维度,而一些维度特征值对应的用户数量可能是庞大的,例如某个关键词为热点词,搜索该关键词的用户可能每天就有几百万个,这样在读取倒排索引时,也是需要读取大量数据的。因此在本实施例中对倒排索引设置采样点,这样即使需要读取的倒排索引很多,也可以分成几个部分进行读取。

例如,利用mapreduce读取倒排索引时,可以根据数据分析条件所涵盖的维度(每个维度对应一个或几个维度特征值),以每个维度特征值映射为一个map读取倒排索引,举例来说,读取维度“关键词”下的“爱xx”对应的广告受众用户数据,而爱xx网站作为一个视频网站,每天搜索“爱xx”的用户数量为百万级,因此广告受众用户数据的数量巨大,相应的倒排索引也很多,这样相应map的效率就很低。而在本实施例中可以利用采样点,将其映射为多个map,这样就大大提高了效率,读取时可以被并行处理,这样就提高了读取速度,解决了长尾影响。

在本发明的一个实施例中,存储单元220,适于根据所述倒排索引生成符合hbase内部数据存储格式的hfile文件;将所述hfile文件热载入所述hbase。

这样,利用hbase的批量导入功能,先根据倒排索引生成符合hbase内部数据存储格式的hfile文件,再将hfile文件热载入hbase集群以提高数据导入速度。

在本发明的一个实施例中,上述装置中,数据分析条件为广告受众人群分析条件,倒排索引包括维度的特征值与广告受众用户标识;数据分析单元240,适于从读取的倒排索引中提取广告受众用户标识,根据提取出的全部广告受众用户标识生成广告受众人群。

广告受众用户数据的一大利用价值就是定位广告投放的目标人群,也就是广告受众人群。广告主(希望投放广告的商家)往往会自己选择一个或多个维度的特征值,根据这些筛选出目标人群。在本实施例中,由于倒排索引包括维度的特征值与广告受众用户标识(例如前面实施例示出的key-用户id),则在读取出倒排索引后,就可以提取广告受众用户标识,把所有提取的广告受众用户标识进行汇总,对相应的广告受众用户进行广告投放即可。

在本发明的一个实施例中,上述装置中,数据分析条件为广告受众用户行为分析条件;数据分析单元240,适于根据倒排索引读取相应的广告受众用户数据,对广告受众用户数据进行数据分析,得到数据分析结果。

在本实施例中,由于还需要进行数据分析,因此仅获取到倒排索引还不够,需要根据倒排索引读取相应的广告受众用户数据再进行分析,具体地也可以调用已有的数据分析工具。

在本发明的一个实施例中,上述装置中,广告受众用户数据存储在分布式文件系统hdfs上,倒排索引包括维度的特征值与广告受众用户标识;生成单元210,适于将各广告受众用户数据在hdfs上的存储位置对应添加到生成的倒排索引中,或者,适于生成用户索引,用户索引包括广告受众用户标识和各广告受众用户数据在hdfs上的存储位置;数据分析单元240,适于根据倒排索引中广告受众用户数据在hdfs上的存储位置,从hdfs中读取广告受众用户数据,或者,适于根据倒排索引中的广告受众用户标识查询用户索引,确定广告受众用户数据在hdfs上的存储位置,从hdfs中读取广告受众用户数据。

在本实施例中示出了两种快速读取广告受众用户数据的方式,但是共同点在于需要预先获取各广告受众用户数据在hdfs上的存储位置并保存到索引中,一种方式下可以将其存在倒排索引中,即倒排索引就包括了维度的特征值、广告受众用户标识和广告受众用户数据在hdfs上的存储位置;另一种方式是再建立一个用户索引,包括广告受众用户标识和各广告受众用户数据在hdfs上的存储位置,具体地可以存在mongodb中并利用其快速检索功能进行快速查找。这样第一步需要根据数据分析条件读取倒排索引获取广告受众用户标识,第二步根据广告受众用户标识查找用户索引确定广告受众用户数据在hdfs上的存储位置,第三步读取广告受众用户数据进行分析。

综上所述,本发明的技术方案,为广告受众用户数据按维度生成倒排索引,将其保存后生成其存储位置描述信息,这样在接收到涵盖至少一个维度的数据分析条件时,可以先根据数据分析条件查询存储位置描述信息,确定相应倒排索引的存储位置,再根据确定的存储位置读取相应的倒排索引,根据倒排索引确定数据分析结果。该技术方案针对海量的广告受众数据,根据其数据特点,采用按维度生成倒排索引的方式,可以实现利用倒排索引进行数据的快速检索;而针对同样数量庞大的倒排索引,采用为其设置存储位置描述信息的方式,进一步提高了倒排索引的读取效率,这样分层级地提高了数据分析的效率,效果显著。

需要说明的是:

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。

类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(dsp)来实现根据本发明实施例的广告受众用户数据的处理装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。

图3示出了根据本发明一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质300存储有用于执行根据本发明的方法步骤的计算机可读程序代码310,例如可以被电子设备的处理器读取的程序代码,当这些程序代码由电子设备运行时,导致该电子设备执行上面所描述的方法中的各个步骤。程序代码可以以适当形式进行压缩。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明的实施例公开了a1、一种广告受众用户数据的处理方法,包括:

按维度生成所述广告受众用户数据的倒排索引;

存储所述倒排索引,生成所述倒排索引的存储位置描述信息;

接收涵盖至少一个维度的数据分析条件,根据所述数据分析条件查询所述存储位置描述信息,确定相应倒排索引的存储位置;

根据确定的存储位置读取相应的倒排索引,根据所述倒排索引确定数据分析结果。

a2、如a1所述的方法,其中,所述按维度生成所述广告受众用户数据的倒排索引包括:

调用分布式计算框架mapreduce生成所述倒排索引;

所述存储所述倒排索引包括:将同一维度下维度特征值相同的倒排索引连续输出至分布式文件系统hdfs的指定路径下。

a3、如a2所述的方法,其中,所述生成所述倒排索引的存储位置描述信息包括:

记录同一维度下同一维度特征值的倒排索引在所述hdfs上的起始位置和长度,生成全部倒排索引的二级索引。

a4、如a3所述的方法,其中,该方法还包括:

将所述二级索引保存至mongo数据库中;

所述根据所述数据分析条件查询所述存储位置描述信息包括:调用mongo数据库的快速检索功能进行查询。

a5、如a2所述的方法,其中,所述存储所述倒排索引包括:将所述倒排索引导入列式数据库hbase中;

所述生成所述倒排索引的存储位置描述信息包括:在所述hbase中为所述倒排索引设置多个采样点,得到多个采样区间;

所述根据所述数据分析条件查询所述存储位置描述信息包括:根据所述数据分析条件确定至少一个采样区间,从所述hbase中读取所述采样区间下的倒排索引进行查询。

a6、如a5所述的方法,其中,所述将所述倒排索引导入列式数据库hbase中包括:

根据所述倒排索引生成符合hbase内部数据存储格式的hfile文件;

将所述hfile文件热载入所述hbase。

a7、如a1所述的方法,其中,所述数据分析条件为广告受众人群分析条件,所述倒排索引包括维度的特征值与广告受众用户标识;

所述根据所述倒排索引确定数据分析结果包括:从读取的所述倒排索引中提取广告受众用户标识,根据提取出的全部广告受众用户标识生成广告受众人群。

a8、如a1所述的方法,其中,所述数据分析条件为广告受众用户行为分析条件,所述根据所述倒排索引确定数据分析结果包括:

根据所述倒排索引读取相应的广告受众用户数据,对所述广告受众用户数据进行数据分析,得到数据分析结果。

a9、如a7所述的方法,其中,所述广告受众用户数据存储在hdfs上,所述倒排索引包括维度的特征值与广告受众用户标识,该方法还包括:

获取各广告受众用户数据在所述hdfs上的存储位置;

将各广告受众用户数据在所述hdfs上的存储位置对应添加到生成的倒排索引中,或者,生成用户索引,所述用户索引包括广告受众用户标识和各广告受众用户数据在所述hdfs上的存储位置;

所述根据所述倒排索引读取相应的广告受众用户数据包括:根据所述倒排索引中广告受众用户数据在所述hdfs上的存储位置,从所述hdfs中读取广告受众用户数据,或者,根据所述倒排索引中的广告受众用户标识查询所述用户索引,确定广告受众用户数据在所述hdfs上的存储位置,从所述hdfs中读取广告受众用户数据。

本发明的实施例还公开了b10、一种广告受众用户数据的处理装置,包括:

生成单元,适于按维度生成所述广告受众用户数据的倒排索引;

存储单元,适于存储所述倒排索引,生成所述倒排索引的存储位置描述信息;

定位单元,适于接收涵盖至少一个维度的数据分析条件,根据所述数据分析条件查询所述存储位置描述信息,确定相应倒排索引的存储位置;

数据分析单元,适于根据确定的存储位置读取相应的倒排索引,根据所述倒排索引确定数据分析结果。

b11、如b10所述的装置,其中,

所述生成单元,适于调用分布式计算框架mapreduce生成所述倒排索引;

所述存储单元,适于将同一维度下维度特征值相同的倒排索引连续输出至分布式文件系统hdfs的指定路径下。

b12、如b11所述的装置,其中,

所述存储单元,适于记录同一维度下同一维度特征值的倒排索引在所述hdfs上的起始位置和长度,生成全部倒排索引的二级索引。

b13、如b12所述的装置,其中,

所述存储单元,适于将所述二级索引保存至mongo数据库中;

所述定位单元,适于调用mongo数据库的快速检索功能进行查询。

b14、如b11所述的装置,其中,

所述存储单元,适于将所述倒排索引导入列式数据库hbase中,在所述hbase中为所述倒排索引设置多个采样点,得到多个采样区间;

所述定位单元,适于根据所述数据分析条件确定至少一个采样区间,从所述hbase中读取所述采样区间下的倒排索引进行查询。

b15、如b14所述的装置,其中,所述存储单元,适于根据所述倒排索引生成符合hbase内部数据存储格式的hfile文件,将所述hfile文件热载入所述hbase。

b16、如b10所述的装置,其中,所述数据分析条件为广告受众人群分析条件,所述倒排索引包括维度的特征值与广告受众用户标识;

所述数据分析单元,适于从读取的所述倒排索引中提取广告受众用户标识,根据提取出的全部广告受众用户标识生成广告受众人群。

b17、如b10所述的装置,其中,所述数据分析条件为广告受众用户行为分析条件;

所述数据分析单元,适于根据所述倒排索引读取相应的广告受众用户数据,对所述广告受众用户数据进行数据分析,得到数据分析结果。

b18、如b17所述的装置,其中,所述广告受众用户数据存储在分布式文件系统hdfs上,所述倒排索引包括维度的特征值与广告受众用户标识;

所述生成单元,适于将各广告受众用户数据在所述hdfs上的存储位置对应添加到生成的倒排索引中,或者,适于生成用户索引,所述用户索引包括广告受众用户标识和各广告受众用户数据在所述hdfs上的存储位置;

所述数据分析单元,适于根据所述倒排索引中广告受众用户数据在所述hdfs上的存储位置,从所述hdfs中读取广告受众用户数据,或者,适于根据所述倒排索引中的广告受众用户标识查询所述用户索引,确定广告受众用户数据在所述hdfs上的存储位置,从所述hdfs中读取广告受众用户数据。

本发明的实施例还公开了c19、一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如a1-a9中任一项所述的方法。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1