数据库的生成及查询方法

文档序号:6402734阅读:269来源:国知局
专利名称:数据库的生成及查询方法
技术领域
本发明涉及服务数据及信息处理领域,尤其涉及数据库的生成及查询方法。
背景技术
随着计算机技术的不断普及和发展,数据库处理技术也不断被应用到生产和生活的多个领域。新的数据库处理技术也伴随着这些应用而被开发出来。例如,商品关注度数据作为人群的行为数据越来越多的被应用到了群体行为的预测领域。其中,季节性商品的关注度数据属性更是明显的呈现出了随季节性变化的特性。因此季节性商品的关注度数据对于季节性商品的计划生产、广告投放及库存调配都具有较强的指导意义。随着电子商务及服务计算的快速发展,进一步扩大了人类行为类数据的采集及应用。在该应用例中,由于关注度数据属于人类行为类数据,因此通常可通过搜索类网站的“搜索”或“成交”记录的统计进行收集。通过上述数据采集过程获得的数据,由于是根据每日作为时间点采集,从而产生了较大的数据量。这一庞大的数据量在进行数据后期处理过程中,将直接导致大负荷数据量计算。另一方面,在该应用例中,在商品的关注度数据中普遍存在“小份额、小比重”数据,此类“小份额、小比重”数据通常是由于小众季节性消费品或近似类季节性消费品所产生的。在整体的季节性商品的关注度计算中单位数据量级小、但单位数据多,同时关注度数据为倾向性指数数据。因此,此类“小份额、小比重”数据由于单位量较小,因此在计算中往往也无法体现出其数据的倾向性。同时需要指出的是,对上述“小份额、小比重”数据进行处理时,为了保证整体数据的信息完整性,此类数据的简化不能仅通过删减来实现。另外,现有的季节性商品的关注度数据为单一数据来源,因 此其季节性商品的季节性商品的季节特性无法进行体现。如简单的通过采集时间来推算,将无法体现出季节变化及南、北方的地域性差异。因此,在上述这样的应用例中,现有的例如季节性商品的关注度数据的数据量大,在处理过程中无法对数据项结构进行精简。同时,由于数据来源的单一,无法实现有效的数据聚合,因此在后期的数据使用过程中无法进行有效处理,获得可用数据。

发明内容
鉴于现有技术中存在的情况,根据本发明的一个方面,提供一种数据库的生成方法,包括:从多个关注度数据表中选取样本区域数据表,所述样本区域数据表包含属性和与所述属性的相关的多元组数据;根据所述样本区域数据表中属性的多元组关注度数据,对所述属性项进行合并,获取样本属性项;根据所述样本属性项将所述多个关注度数据表中的属性项映射为多个优化关注度数据表;以所述采集时间作为主码,关联同一区域的优化关注度数据表及气象参数数据表,获取目标关注度数据库。在一些实施方式中,所述从多个关注度数据表中选取样本区域数据表的步骤包括:根据多个区域的年度日气温表及气象学四季温度设定获取多个区域的四季平均天数;根据该四季平均天数在一年中的均衡度从所述的多个区域中选取样本区域,将该样本区域对应的数据表选取为样本区域数据表。在一些实施方式中,所述获取样本属性项的步骤包括:根据设定时间间隔提取所述样本区域数据表的元组项,获得样本采样数据表;在所述样本采样数据表中,根据每一属性项中各元组项的关注度建立维度,构成向量余弦模型,在任意两个属性项的向量余弦模型之间通过向量余弦算法获取多个属性近似度;根据所述多个属性近似度对所对应的多个属性项进行合并,获取样本属性项。在一些实施方式中,所述根据所述多个属性近似度对所对应的多个属性项进行合并的步骤包括:从所述多个属性近似度中获取最小近似度;将所述最小近似度所对应的两个属性项中的一个确定为基准项;以所述基准项的近似度为基准,对其余属性项的近似度进行排序,获取属性项序列;若所述属性项序列中相邻的属性项间的近似度区间值小于近似度设定值,则将该相邻属性项进行合并。在一些实施方式中,所述近似度设定值根据所述属性序列中相邻属性项的最小近似度区间值或中间近似度值区间值确定。在一些实施方式 中,所述获取目标关注度数据库的步骤包括:根据本地IP网络地址确定本地区域;以所述采集时间作为主码,关联所述本地区域的优化关注度数据表及气象参数数据表,获取本地的目标关注度数据库。同时本发明还提供了一种数据库的查询方法,包括:根据本地信息从所述季节性商品关注度数据库中调取本地多年季节性商品关注度数据表;根据设定时间确定本地区域当前气象参数;将所述本地当前气象参数与本地历史同期区间内气象参数进行匹配,获取与所述本地当前气象参数匹配的本地历史年份;从所述本地历史年份所对应的本地的关注度数据表中获取属性项的关注度总值及每一属性关注度值,根据所述属性项的关注度总值及每一属性关注度值获取每一属性项的关注度占比数;根据所述每一属性项的关注度占比数确定本地区域在设定时间中的各属性项的
关注度。在一些实施方式中,所述气象参数包括:日平均气温、日最高气温或气象指数SWD。在一些实施方式中,所述获取与所述本地当前气象参数匹配的本地历史年份的步骤包括:将所述本地当前气象参数与本地两年或三年内的历史同期、三日区间或五日区间内气象参数进行匹配,获取与所述本地当前气象参数匹配的本地多个历史年份。在一些实施方式中,所述获取每一属性项的关注度占比数的步骤包括:根据本地多个历史年份与当前年份的年度跨度确定年份权重值;根据本地多个历史年份与本地当前气象参数的匹配度确定匹配权重值;从所述本地多个历史年份所对应的本地的优化关注度数据表中获取属性项的关注度总值及每一属性关注度值;根据所述年份权重值和/或匹配权重值将所述多个历史年份所对应的属性项的关注度总值及每一属性关注度值加权后,平均为属性项的关注度总均值及每一属性关注度均值;根据所述属性项的关注度总均值及每一属性关注度均值获取每一属性项的关注度占比数。在一些实施方式中,所述从所述本地历史年份所对应的本地的季节性商品优化关注度数据表中获取属性项的关注度总值及每一属性关注度值,根据所述属性项的关注度总值及每一属性关注度值获取每一属性项的关注度占比数的步骤包括:从所述本地多个历史年份所对应的本地的季节性商品优化关注度数据表中获取属性项的关注度总值及每一属性关注度值;根据每年度的所述属性项的关注度总值及每一属性关注度值生成每年度玫瑰图;将所述每年度玫瑰图进行图形拟合,获取每一属性项的关注度占比数。在一些实施方式中,所述根据所述每一属性项的关注度占比数确定本地在设定时间中的各属性项关注度的步骤还包括:根据所述每一属性项的关注度占比数确定多个本地在设定时间中的各属性项关注度;根据所述多个本地在设定时间中的各属性项关注度获取多个本地区域间的区域近似度;根据所述多个本地区域间的区 域近似度对所述多个本地区域进行合并,获取优选区域列表;根据所述优选当前区域列表获取广告区域列表;发送系统根据所述优选当前区域进行所述属性的广告发放。在一些实施方式中,所述属性项为当前库存产品名称,所述本地区域为多个当前库存区域;所述根据所述每一属性项的关注度占比数确定本地在设定时间中的各属性项关注度的步骤包括:所述根据每一当前库存产品名称所对应的关注度占比数确定多个当前库存区域在设定时间中的各当前库存产品的关注度;根据多个当前库存区域在设定时间中的各当前库存产品的关注度生成库存区域当前库存产品列表。通过上述技术方案,本发明与现有技术相比具有以下优点:本发明通过商品近似度的分析对季节性商品属性进行组合,将同一类型并且走势趋势相似的属性进行合并,然后利用合并统计的方式让同一属性的数据互相进行对冲,最后得到的给个商品属性占比数据;并且通过这种方式也消除了实际数据的数据量的影响,得到的最后数据实际上是各地区各城市的单位数量关注行为的关注强度分布,由此就比较好的解决了数据城市间分布极不平衡的问题。通过这种数据筛选和清洗方式,我们得到了较小数据杂音的数据,最后我们结合各个城市的实况气象数据制作出了能够反映一个地区一个时段降温影响的预测算法。


图1为本发明关注度数据库的生成方法的数据库模型图;图2为本发明季节性商品关注度数据库的生成方法的流程示意图;图3为本发明季节性商品关注度数据库的生成方法中样本区域数据表的选取流程不意图;图4为本发明季节性商品关注度数据库的“方式I”的合并方法流程示意图;图5为本发明季节性商品关注度向量示意图;图6为本发明季节性商品关注度的偏移轴示意图7为本发明季节性商品关注度数据库的“方式2”的合并方法流程示意图;图8为本发明季节性商品关注度数据库的查询方法的流程示意图;图9为2009 2011年度北京地区温度折线图。
具体实施例方式下面结合附图对本发明作进一步详细的说明。图1为可实施本发明的季节性商品关注度数据库的生成方法的数据库模型图。该数据库模型为关系型数据库模型,在此数据库中包括:2009年度的北京季节性商品关注度数据表B1、河南季节性商品关注度数据表B2、吉林季节性商品关注度数据表B3、上海季节性商品关注度数据表B4及广东季节性商品关注度数据表B5等多个二维数据表,每个数据表的结构如表I所示,其中,数据表的属性为,即每一列的内容为“围巾、手套、帽子、凉鞋、羽绒服、风衣及外套”等季节性商品的关注度,例如:围巾在2009.3.1所采集的关注度值为
653、手套在2009.3.1所采集的关注度值为505......,其每一列的属性项名称可使用“围
巾、手套、帽子、凉鞋、羽绒服、风衣及外套”等季节性商品的名称表示;数据表的元组,即每
一行为在“围巾、手套、帽子......”等季节性商品的关注度的采集时间,可具体到每个采集
日期上,其最小的采集时间间隔可以以日作为基本单位,如:2009年3月I日、2009年3月
2日、2009年3月3日、2009年3月4日.......在本实施方式中的上述数据表中,其元组
中的采集时间为数据表的主码,上述表格的数据表中所提及的“商品关注度”应理解为:是以网络用户在搜索类或电子商务类数据平台(或网站)上的搜索量或成交量为数据基础,以季节性商品的名称为统计对象,通过分析而获得的指数量,该指数量与搜索量或成交量具有对应关系,可体现出其搜索量或成交量的不 同量级。
采集时间I围巾[¥1 ~ΜΨ~piI羽绒服I风衣phi2009.3.1 653 505 4953520 500
2009.3.2 520 576 ¥0 602 2879 ¥0 497 2009.3.3 501 499 595 θ θ 2215 500 509 2009.3.4 540 186 460 593 1551 400 510......
表I本发明实现季节性商品关注度数据库的生成方法的步骤如图2所示:步骤SlOl:如图1所示,从北京季节性商品关注度数据表B1、河南季节性商品关注度数据表Β2、吉林季节性商品关注度数据表Β3、上海季节性商品关注度数据表Β4及广东季节性商品关注度数据表Β5等多个二维数据表中选取一个数据表为样本区域数据表。其具体的选取方式包括以下步骤,如图3所示:SlOll:根据北京、河南、吉林、上海、广东等多地的2008年度、2009年度及2010年
度的日平均气温数据表(如下表2所示),及日平均气温值及气象学四季温度设定(如:气象意义上的春天为:若连续5天的日平均气温在一年中首次(北半球)均大于、等于10摄氏度(日平均气温以当地2时、8时、14时、20时的平均温度)。获取北京、河南、吉林、上海、广东等多地的四季天数,如北京:春天为80天、夏天为95天,秋天为:100天、冬天为90天;河南:春天为91天、夏天为92天,秋天为:91天、冬天为91天.......
权利要求
1.数据库的生成方法,其特征在于,包括以下步骤: 从多个关注度数据表中选取样本区域数据表,所述样本区域数据表包含属性和与所述属性的相关的多元组数据; 根据所述样本区域数据表中属性的多元组关注度数据,对所述属性项进行合并,获取样 本属性项; 根据所述样本属性项将所述多个关注度数据表中的属性项映射为多个优化关注度数据表; 以所述采集时间作为主码,关联同一区域的优化关注度数据表及气象参数数据表,获取目标关注度数据库。
2.根据权利要求1所述的生成方法,其特征在于,所述从多个关注度数据表中选取样本区域数据表的步骤包括: 根据多个区域的年度日气温表及气象学四季温度设定获取多个区域的四季平均天数; 根据该四季平均天数在一年中的均衡度从所述的多个区域中选取样本区域,将该样本区域对应的数据表选取为样本区域数据表。
3.根据权利要求1或2所述的生成方法,其特征在于,所述获取样本属性项的步骤包括: 根据设定时间间隔提取所述样本区域数据表的元组项,获得样本采样数据表; 在所述样本采样数据表中,根据每一属性项中各元组项的关注度建立维度,构成向量余弦模型,在任意两个属性项的向量余弦模型之间通过向量余弦算法获取多个属性近似度; 根据所述多个属性近似度对所对应的多个属性项进行合并,获取样本属性项。
4.根据权利要求3所述的生成方法,其特征在于,所述根据所述多个属性近似度对所对应的多个属性项进行合并的步骤包括: 从所述多个属性近似度中获取最小近似度; 将所述最小近似度所对应的两个属性项中的一个确定为基准项; 以所述基准项的近似度为基准,对其余属性项的近似度进行排序,获取属性项序列; 若所述属性项序列中相邻的属性项间的近似度区间值小于近似度设定值,则将该相邻属性项进行合并。
5.根据权利要求4所述的生成方法,其特征在于,所述近似度设定值根据所述属性序列中相邻属性项的最小近似度区间值或中间近似度值区间值确定。
6.根据权利要求1所述的生成方法,其特征在于,所述获取目标关注度数据库的步骤包括: 根据本地IP网络地址确定本地区域; 以所述采集时间作为主码,关联所述本地区域的优化关注度数据表及气象参数数据表,获取本地的目标关注度数据库。
7.数据库的查询方法,其特征在于,包括: 根据本地信息从所述季节性商品关注度数据库中调取本地多年季节性商品关注度数据表;根据设定时间确定本地区域当前气象参数; 将所述本地当前气象参数与本地历史同期区间内气象参数进行匹配,获取与所述本地当前气象参数匹配的本地历史年份; 从所述本地历史年份所对应的本地的关注度数据表中获取属性项的关注度总值及每一属性关注度值,根据所述属性项的关注度总值及每一属性关注度值获取每一属性项的关注度占比数; 根据所述每一属性项的关注度占比数确定本地区域在设定时间中的各属性项的关注度。
8.根据权利要求7所述的查询方法,其特征在于,所述气象参数包括:日平均气温、日最高气温或气象指数SWD。
9.根据权利要求7所述的查询方法,其特征在于,所述获取与所述本地当前气象参数匹配的本地历史年份的步骤包括: 将所述本地当前气象参数与本地两年或三年内的历史同期、三日区间或五日区间内气象参数进行匹配,获取与所述本地当前气象参数匹配的本地多个历史年份。
10.根据权利要求或9所述的查询方法,其特征在于,所述获取每一属性项的关注度占比数的步骤包括: 根据本地多个历史年份与当前年份的年度跨度确定年份权重值; 根据本地多个历史年份与本地当前气象参数的匹配度确定匹配权重值;` 从所述本地多个历史年份所对应的本地的优化关注度数据表中获取属性项的关注度总值及每一属性关注度值; 根据所述年份权重值和/或匹配权重值将所述多个历史年份所对应的属性项的关注度总值及每一属性关注度值加权后,平均为属性项的关注度总均值及每一属性关注度均值; 根据所述属性项的关注度总均值及每一属性关注度均值获取每一属性项的关注度占比数。
11.根据权利要求1或9所述的查询方法,其特征在于,所述从所述本地历史年份所对应的本地的季节性商品优化关注度数据表中获取属性项的关注度总值及每一属性关注度值,根据所述属性项的关注度总值及每一属性关注度值获取每一属性项的关注度占比数的步骤包括: 从所述本地多个历史年份所对应的本地的季节性商品优化关注度数据表中获取属性项的关注度总值及每一属性关注度值; 根据每年度的所述属性项的关注度总值及每一属性关注度值生成每年度玫瑰图; 将所述每年度玫瑰图进行图形拟合,获取每一属性项的关注度占比数。
12.根据权利要求7所述的查询方法,其特征在于,所述根据所述每一属性项的关注度占比数确定本地在设定时间中的各属性项关注度的步骤还包括: 根据所述每一属性项的关注度占比数确定多个本地在设定时间中的各属性项关注度; 根据所述多个本地在设定时间中的各属性项关注度获取多个本地区域间的区域近似度;根据所述多个本地区域间的区域近似度对所述多个本地区域进行合并,获取优选区域列表; 根据所述优选当前区域列表获取广告区域列表; 发送系统根据所述优选当前区域进行所述属性的广告发放。
13.根据权利要求7所述的查询方法,其特征在于,所述属性项为当前库存产品名称,所述本地区域为多个当前库存区域;所述根据所述每一属性项的关注度占比数确定本地在设定时间中的各属性项关注度的步骤包括: 所述根据每一当前库存产品名称所对应的关注度占比数确定多个当前库存区域在设定时间中的各当如库存广品的关注度; 根据多个当前库存区域在设定时间中的各当前库存产品的关注度生成库存区域当前库存产品列表。 ·
全文摘要
本发明公开了一种数据库的生成及查询方法,包括从多个关注度数据表中选取样本区域数据表,样本区域数据表包含属性和与属性的相关的多元组数据;根据样本区域数据表中属性的多元组关注度数据,对属性项进行合并,获取样本属性项;根据样本属性项将多个关注度数据表中的属性项映射为多个优化关注度数据表;以采集时间作为主码,关联同一区域的优化关注度数据表及气象参数数据表,获取目标关注度数据库。从而在对现有数据结构简化的同时,提高的季节性商品关注度数据的可用性和有效性。
文档编号G06F17/30GK103235822SQ20131016087
公开日2013年8月7日 申请日期2013年5月3日 优先权日2013年5月3日
发明者杜春生, 张勇, 孙蓟旅 申请人:富景天策(北京)气象科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1