一种关联网页和关联网站的方法和系统的制作方法

文档序号:6470701阅读:101来源:国知局
专利名称:一种关联网页和关联网站的方法和系统的制作方法
技术领域
本发明涉及关联网页和关联网站技术,尤其涉及根据语义相关给网 页添加附加信息的技术。
背景技术
现有的网络广告平台所谓的精确广告投放主要采用对网络进行多维 度分类的方法。而该方法存在以下几个问题1)该分类是针对网站的 分类,而往往同一个网站会有很多种类的内容,不同的内容会有不同的 受众,例如新闻网站,论坛,博客等网站的内容具有非常多的种类,很 难对一个网站或一个栏目给出一个统一的分类;2)由人工进行分类, 费时费力,如果由提供广告位的网站自己对其网站进行分类更有可能有 失公允。
另一种现有广告投放平台,主要利用关键词匹配技术来实现相对精 确的广告投放,然而关键词匹配技术存在很严重的缺陷,即使文档含有 某个关键词也不一定表示该文档想表达这个意思,而没有某个关键词也 不表示该文档就没有这个意思。
而本发明基于这样的原理,即浏览网站的用户感兴趣的是网页的内 容,从网页的内容可以推断出用户的兴趣,所以通过对网页内容的分析 可以对网页进行分类。
另外,希望在网络上投放的广告,后面一般都有一个超链接,该超 链接所指向的网页是广告主希望用户看到的内容。很大的程度上,该内 容是广告主对其产品的表述。同样,我们可以分析该内容,来发现广告 主希望寻找哪种与广告最匹配的内容网页上的广告位,即通过匹配内容 来自动定向投放与用户兴趣相关的广告。
另外,有许多大型电子商务网站具有海量的商品必须通过互联网发 布给感兴趣的潜在用户。采用传统的关键字按网页匹配来发布,显然已 不能适应。因此必须采用网站间的自动内容匹配来发布,即关联网站间 的内容。
所以本申请通过对广告位和广告内容的内容分析将广告位和广告内 容进行自动匹配。

发明内容
本发明的一个目的是提供 一种关联网页的方法,包括获取希望 在上面放置附加信息的至少一个第一网页,计算该至少一个第一网页中 每一个第一网页上的内容的第一文档向量,获取附加信息所对应的第二 网页,计算该第二网页上的内容的第二文档向量,计算第二文档向量与所有或部分第一文档向量的相关度,根据相关度对所有或部分第一文档 向量进行排序,将若干个相关度最高的第一文档向量所对应的第一网页 作为该第二网页所对应的附加信息的投放位置。本发明的一个目的是提供 一种关联网页的系统,包括获取希望 在上面放置附加信息的至少一个第一网页的装置,计算该至少一个第一 网页中每一个第一网页上的内容的第一文档向量的装置,获取附加信息 所对应的第二网页的装置,计算该第二网页上的内容的第二文档向量的 装置,计算第二文档向量与所有或部分第一文档向量的相关度的装置, 根据相关度对所有或部分第一文档向量进行排序的装置,将若干个相关 度最高的第一文档向量所对应的第一网页作为该第二网页所对应的附加 信息的投方文位置的装置。本发明的一个目的是提供 一种关联网页的方法,包括获取希望 通过附加信息推广的至少一个第二网页,计算该至少一个第二网页中每 一个第二网页上的内容的第二文档向量,获取希望在上面放置附加信息 的第一网页,计算该第一网页上的内容的第一文档向量,计算第一文档 向量与所有或部分第二文档向量的相关度,根据相关度对所有或部分第 二文档向量进行排序,将相关度最高的第二文档向量所对应的第二网页 作为在该第一网页上投放的附加信息所对应的网页,或者从相关度最高 的若干个第二文档向量所对应的第二网页中选择一个作为该第一网页上 投放的附加信息所对应的网页。本发明的一个目的是提供 一种关联网页的系统,包括获取希望 通过附加信息推广的至少一个第二网页的装置,计算该至少一个第二网 页中每一个第二网页上的内容的第二文档向量的装置,获取希望在上面 放置附加信息的第一网页的装置,计算该第一网页上的内容的第一文档 向量的装置,计算第一文档向量与所有或部分第二文档向量的相关度的 装置,根据相关度对所有或部分第二文档向量进行排序的装置,将相关 度最高的第二文档向量所对应的第二网页作为在该第一网页上投放的附 加信息所对应的网页,或者从相关度最高的若干个第二文档向量所对应 的第二网页中选择一个作为该第一网页上投放的附加信息所对应的网页 的装置。本发明更进一步的目的是 一种计算机程序产品,存储在计算机可 读的介质上,该计算机程序产品具体地包括可读的程序方法,从而触发 计算机执行上述的方法。本发明更进一步的目的是 一种计算机程序,由计算机执行而实现 上述方法。附图描述6上述内容和其它方面的内容,以及本发明特定优选实施例的特征和 优势将通过结合相应附图的详细说明更加清楚。其中

图1是关于词条的表现方法和组合方式; 图2是词条-文档(term-document)矩阵;图3是高维(r维)词条空间投影到低维(k维)词条空间的公式; 图4是词条向量表;图5是描述了词条和文档在二维空间上的投影关系;图6如何获得査询请求的向量;图7是根据本发明第一实施例的第一网页列表10;图8是图7中列举的第6个网页的具体内容;图9是根据本发明第一实施例的流程图;图IO是第二网页的示意图;图11是根据本发明第二实施例的第二网页列表50; 图12是根据本发明第二实施例的流程图。 所有附图中,同一附图标记理解为同一单元、特征和结构。优选实施例描述说明书中定义的内容如具体的结构和单元,是用于辅助全面理解本 发明的优选实施例的。因此,根据本领域的普通技术对本申请描述的实 施例进行的各种改变和修改都被认为没有脱离本发明的精神范围。同 时,为了清楚和简要,省略了对公知的功能和结构的说明。在现有技术中有大量关于基于语义搜索的技术,本领域技术人员可 以利用这些技术很容易的构建词条向量,以及文档向量。其中有代表性 的是潜在语义索引模型等技术。下面介绍潜在语义索引的原理,但不代 表本发明一定要构建在潜在语义索引之上,本发明可以应用在所有的基 于语义的搜索技术上。潜在语义索引的原理为了能够更加容易的解释LSI原理,下面通过一个具体例子来描述。 设文档由17本书的标题组成。图1中,有下划线的词表示词条。当然,对于本领域技术人员,存 在很多其他选择词条的规则,可以增加或减少词条的数量,也可以改变 词条的组合方式等。图2是16x17词条-文档(term-document)矩阵,被称作A。行代表词 条(term),列代表文档(document)。矩阵的值代表该词条在该文档中出现 的次数。7图3是潜在语义索引方法通过降维,将高维(r维)词条空间投影到低 维(k维)词条空间。为方便图示表示,在本例中选择k为2,即表示将原词条空间降维 到二维词条空间上。矩阵U的前两列表示了词条在二维空间中的向量。 获得的向量组即词条向量表为如附图中图4所示。利用这些基本的词条向量,可以根据 v-qTUkrV 公式3 来合成新的向量。例如文档向量B。用户输入的查询请求,都可通过分 析所引用的词条按公式3相合成。本领域技术人员很容易明了,在合成 向量时可以考虑词条向量的权重。图5描述了词条和文档在二维空间上的投影关系。词条向量之间的 夹角越小或夹角的余弦值越大,代表词条和和该文档的相关性越大。例 如,以词条"oscillation"为例,在所有词条中"delay"与其夹角最小, 即"delay"与其最相关。当用户输入一个查询请求时,如"application theory",系统通过分 析该请求中包含的关键词"applications "theory",将该两关键词相关 的词条向量按公式3合成如附图中图6所示,从而获得査询请求的向量。通过计算文档向量与该査询请求向量的夹角的余弦值,其值越大, 表示该文档与査询请求越相关。词条与文档的相关度是计算词条向量与文档向量之间的夹角的余弦 值,其值越大,表示该文档与査询请求越相关。例如,"nonlinear"这个 词条与B9的文档向量间的夹角的余弦值最大,所以与"nonlinear"最 相关的文档是B9。本领域技术人员已知的实际应用中,通过上述原理,对现有的足够 数量的文献进行上述处理,即可获得全面的词条向量表。计算文档向量 的方法是抽取文档中的词条,比对词条向量表获得相关词条的向量,将 这些向量合成为文档向量如公式3。为了简化的目的,本申请不再详细 描述如何获得词条向量表,因为本领域技术人员可以根据现有技术能够 很容易地获得词条向量表。本发明是在现有的词条向量表的基础上描述 的。相关的参考文献如下1. M.W.Berry.S.T.Dumaiis&G.W.O'Brien. Using Linear Algebra Intelligent Information Retrieval. Computer Science Department CS-94-270 1994-12。2. 居斌.潜在语义标引在中文信息检索中的研究与实现.计算机工程 2007-03 。3. 陈越郭力.隐含语义检索及其应用.信息检索技术2001年第6期。4. Michael W. Berry ,Paul G. Young. Using latent semantic indexing for multilanguage information retrieval. Volume 29, Number 6 / 1995年12月。下面对本发明实施例的详细描述中为了描述方便的目的,将第一网 页描述为新闻网页,将第二网页描述为物品买卖网页,而将附加信息具 体为与产品买卖网页相对应的广告信息。而上述限定仅仅是为了描述的 方便而不是对本发明的限定。在本发明中第一网页可以任何类型的网 页,优选的是内容类网页,例如新闻,博客,论坛等以传播内容信息为 特征的网页。而第二网页也可以是任何类型的网页,优选的是特殊类型 的网页,例如物品买卖网页或百科全书等具有特殊性质的网页。图7是根据本发明第一实施例的第一网页列表10。在列表10中包 括的每一项是广告系统获得希望提供广告位的网页。为了示例的目的, 在本实施例中仅列举了 8个网页,但是该数字仅仅为了示例而不是对本 发明的限定,本发明可以包括任意个广告系统愿意接受的网页。本实施 例中的8个网页是http:〃news.cn.yahoo.com/于2008年6月22日所发布 的网页中列举的新闻。在本发明中假设,这个8个网页上希望设置广告。 列表10中的每一项包括如下内容网页名称,网页内容,文档向量, 其他属性。其中其他属性包括该网页客观存在的属性,例如访问量等内 容,还包括网页所有人主动设置的内容,例如该网页上广告位的具体信 息。图8是图7中列举的第6个网页的具体内容,在该网页的主题是"国 家旅游局公布大陆居民赴台游注意事项",其中有一个等待插入广告的 广告位。图9是根据本发明第一实施例的流程图。在步骤31,广告系统了解 到有8个网页希望在上面设置广告,于是系统获取了这8个网页的具体 内容。将这些具有广告位的网页称作第一网页。在步骤32,根据上述的 现有的智能语义搜索技术对网页内容进行处理获得网页内容所对应的文 档向量。该现有智能语义搜索技术例如是,但不限于LSI或者向量空间 模型。在步骤33,当有一个客户希望要在网页上发布他的广告时,系统 获取该广告所对应的网页内容。在步骤34,根据上述的现有的智能语义 搜索技术对网页内容进行处理获得网页内容所对应的文档向量。该现有9智能语义搜索技术例如是,但不限于LSI或者向量空间模型。将广告所 对应的网页称作第二网页。所述的网页内容可以是网页上的所有内容, 也可以由系统根据第二网页的特性而所选择的某些部位的信息,例如对 于淘宝网上的网页而言是"宝贝详情"这一内容。在步骤35,将第二网 页的文档向量与所有或部分第一网页的文档向量进行相关度比较。众所 周知,比较向量的相关度是计算两个向量之间的夹角,夹角越小越相关, 反之亦然。在步骤36,根据相关度对所有或部分第一文档向量进行排序。 在步骤37,将相关度最高的若干个向量所对应的第一网页作为第二网页 的广告位。优选的,在步骤35中,先在所有第一网页中选择一部分,然后将 选择出的部分与第二网页进行文档向量比较。该选择主要是考虑第一网 页的其他属性。例如广告客户,即第二网页的主人可以输入对其他属性 的要求,然后系统基于该要求先査询出匹配的第一网页,然后在进行网 页之间文档向量比较。这些其他属性有很多种类,例如广告位的位置, 大小,价格等因素,也可以是网页的浏览量等信息。其中至少一个第一 网页可以是一个网站的所有网页,也是可以是部分网页,甚至可以是多 个网站的所有或部分网页,或者是网站的某个栏目下的网页。至少一个 第二网页可以是一个网站的所有网页,也是可以是部分网页,甚至可以 是多个网站的所有或部分网页,或者是网站的某个栏目下的网页。图10是第二网页的示意图,即希望通过广告让用户看到的网页。 通过计算该网页的文档向量,然后与图7所列举的网页的文档向量相比 后,系统计算出最相关的是第6个网页,于是将第6个网页上的广告位 作为该第二网页的广告位。图11是根据本发明第二实施例的第二网页列表50。在列表50中包 括的每一项是希望作为广告所对应的网页。为了示例的目的,在本实施 例中仅列举了 4个网页,但是该数字仅仅为了示例而不是对本发明的限 定,本发明可以包括任意个广告系统愿意接受的网页。本实施例中的4 个网页是http:〃WWW.TAOBAO.COM/于2008年6月22日所发布的网页 中列举的网页。在本发明中假设,这个4个网页的主人希望发布广告来 推广这些网页上的产品。列表50中的每一项包括如下内容网页名称, 网页内容,文档向量,广告要求。其中广告要求是广告主事先设置的对 广告位的要求。图12是根据本发明第二实施例的流程图。在步骤61,广告系统了 解到有4个网页希望在上面设置广告,于是系统获取了这4个网页的具 体内容。在步骤62,根据上述的现有的智能语义搜索技术对网页内容进 行处理获得网页内容所对应的文档向量。该现有智能语义搜索技术例如 是,但不限于LSI或者向量空间模型。在步骤63,当有一个新的网页向10系统发送提供广告位的愿望时,系统获取该网页的内容。在步骤64,根 据上述的现有的智能语义搜索技术对网页内容进行处理获得网页内容所 对应的文档向量。该现有智能语义搜索技术例如是,但不限于LSI或者 向量空间模型。在步骤65,将第一网页的文档向量与所有或部分第二网 页的文档向量进行相关度比较。众所周知,比较向量的相关度是计算两 个向量之间的夹角,夹角越小越相关,反之亦然。在步骤66,根据相关 度对所有或部分第二文档向量进行排序。在步骤67,将相关度最高的一 个向量所对应的第二网页所对应的广告作为在该第一网页上投放的广告 所对应的网页,或者从若干个最相关的向量所对应的第二网页中选择一 个作为在该第一网页上投放的广告所对应的网页。
优选的,在步骤65中,先在所有第二网页中选择一部分,然后将 选择出的部分与第一网页进行文档向量比较。该选择主要是考虑第二网 页的广告要求。例如广告位的位置,大小,价格等因素。其中至少一个 第一网页可以是一个网站的所有网页,也是可以是部分网页,甚至可以 是多个网站的所有或部分网页,或者是网站的某个栏目下的网页。至少 一个第二网页可以是一个网站的所有网页,也是可以是部分网页,甚至 可以是多个网站的所有或部分网页,或者是网站的某个栏目下的网页。
尽管本发明通过一些特定的优选实施例加以表述,但是本领域的技 术人员都应知道,可能的形式上的各种变化和具体化都没有脱离本发明 的精神以及权利要求及其等价内容所定义的范围。
权利要求
1.一种关联网页的方法,包括步骤一获取希望在上面放置附加信息的至少一个第一网页,步骤二计算该至少一个第一网页中每一个第一网页上的内容的第一文档向量,步骤三获取附加信息所对应的第二网页,步骤四计算该第二网页上的内容的第二文档向量,步骤五计算第二文档向量与所有或部分第一文档向量的相关度,步骤六根据相关度对所有或部分第一文档向量进行排序,步骤七将若干个相关度最高的第一文档向量所对应的第一网页作为该第二网页所对应的附加信息的投放位置。
2. 权利要求1的方法,其中的第二网页上的内容是第二网页上的所有 内容。
3. 权利要求1的方法,其中的第二网页上的内容是第二网页上的某些 部分的内容。
4. 权利要求3的方法,其中所述的第二网页上的某些部分是根据第二网 页的特性来选择的。
5. 权利要求2-4的方法中的任意一个,其中在步骤一的第一网页是通过匹配第一网页的属性而选择出来的。
6. 权利要求5的方法,其中第一网页的属性包括以下的一种或多种广告位的位置,大小,价格或网页的浏览量。
7. —种关联网页的系统,包括获取希望在上面放置附加信息的至少一个第一网页的装置, 计算该至少一个第一网页中每一个第一网页上的内容的第一文档向量的装置,获取k加信息所对应的第二网页的装置, 计算该第二网页上的内容的第二文档向量的装置,计算第二文档向量与所有或部分第一文档向量的相关度的装置, 根据相关度对所有或部分第一文档向量进行排序的装置, 将若干个相关度最高的第一文档向量所对应的第一网页作为该第二网页 所对应的附加信息的投放位置的装置。
8. 权利要求7的系统,其中的第二网页上的内容是第二网页上的所有内容。
9. 权利要求7的系统,其中的第二网页上的内容是第二网页上的某些部分的内容。
10. 权利要求8的系统,其中所述的第二网页上的某些部分是根据第二 网页的特性来选择的。
11. 权利要求7-10的系统中的任意一个,其中所述第一网页是通过匹配 第一网页的属性而选择出来的。
12. 权利要求11的系统,其中第一网页的属性包括以下的一种或多种 广告位的位置,大小,价格或网页的浏览量。
13. —种关联网页的方法,包括步骤一获取希望被作为附加信息附加到其他网页的至少一个第二网 页,步骤二计算该至少一个第二网页中每一个第二网页上的内容的第二文 档向量,步骤三获取希望在上面放置附加信息的第一网页,步骤四计算该第一网页上的内容的第一文档向量,步骤五计算第一文档向量与所有或部分第二文档向量的相关度,步骤六根据相关度对所有或部分第二文档向量进行排序,步骤七将相关度最高的第二文档向量所对应的第二网页作为在该第一网页上投放的附加信息所对应的网页,或者从相关度最高的若干个第二文档向量所对应的第二网页中选择一个作为该第一网页上投放的附加信息所对应的网页。
14. 权利要求13的方法,其中的第二网页上的内容是第二网页上的所 有内容。
15. 权利要求13的方法,其中的第二网页上的内容是第二网页上的某 些部分的内容。
16. 权利要求15的方法,其中所述的第二网页上的某些部分是根据第二网页的特性来选择的。
17. 权利要求13-16的方法中的任意一个,其中在步骤一的第二网页是 通过匹配第二网页的属性而选择出来的。
18. 权利要求17的方法,其中第一网页的属性包括以下的一种或多种 广告位的位置,大小或价格。
19. 权利要求2-6, 13-18的方法中的任意一个,其中第一网页是内容类 网页,例如新闻网页或博客网页。
20. 权利要求2-6, 13-18的方法中的任意一个,其中第二网页是特殊信 息类网页,例如物品买卖网页或百科全书网页。
21. —种关联网页的系统,包括获取希望被作为附加信息附加到其他网页的至少一个第二网页的装置,计算该至少一个第二网页中每一个第二网页上的内容的第二文档向量的装置,获取希望在上面放置附加信息的第一网页的装置, 计算该第一网页上的内容的第一文档向量的装置, 计算第一文档向量与所有或部分第二文档向量的相关度的装置, 根据相关度对所有或部分第二文档向量进行排序的装置,将相关度最高的第二文档向量所对应的第二网页作为在该第一网页上投 放的附加信息所对应的网页,或者从相关度最高的若干个第二文档向量 所对应的第二网页中选择一个作为该第一网页上投放的附加信息所对应 的网页的装置。
22. 权利要求21的系统,其中的第二网页上的内容是第二网页上的所有内容。
23. 权利要求21的系统,其中的第二网页上的内容是第二网页上的某些部分的内容。
24. 权利要求22的系统,其中所述的第二网页上的某些部分是根据第二 网页的特性来选择的。
25. 权利要求21-24的系统中的任意一个,其中所述第一网页是通过匹 配第一网页的属性而选择出来的。
26. 权利要求25的系统,其中第一网页的属性包括以下的一种或多种 广告位的位置,大小或价格。
27. 权利要求7-12, 21-26的系统中的任意一个,其中第一网页是内容 类网页,例如新闻网页。
28. 权利要求7-12, 21-26的系统中的任意一个,其中第二网页是特殊 信息类网页,例如物品买卖网页或百科全书网页。
29. 权利要求2-6, 13-20的方法中的任意一个,其中至少一个第一网页 包括一个或多个网站的所有或部分网页。
30. 权利要求2-6, 13-20的方法中的任意一个,其中至少一个第二网页 包括一个或多个网站的所有或部分网页。
31. 权利要求7-12, 21-28的系统中的任意一个,其中至少一个第一网 页包括一个或多个网站的所有或部分网页。
32. 权利要求7-12, 21-28的系统中的任意一个,其中至少一个第二网 页包括一个或多个网站的所有或部分网页。
33,一种计算机程序产品,存储在计算机可读的介质上,该计算机程序产 品具体地包括可读的程序方法,从而触发计算机执行根据权利要求1到 6, 13至lj20, 29和30中任意之一的方法。
34.—种计算机程序,由计算机执行而实现根据权利要求1到6, 13到20, 29和30中任意之一的方法。
全文摘要
一种自动设置广告的方法,包括获取希望在上面放置广告的至少一个第一网页,计算该至少一个第一网页中每一个第一网页上的内容的第一文档向量,获取广告所对应的第二网页,计算该第二网页上的内容的第二文档向量,计算第二文档向量与所有或部分第一文档向量的相关度,根据相关度对所有或部分第一文档向量进行排序,将若干个相关度最高的第一文档向量所对应的第一网页作为该第二网页所对应的广告的投放位置。
文档编号G06F17/30GK101650719SQ200810222070
公开日2010年2月17日 申请日期2008年9月8日 优先权日2008年9月8日
发明者钢 裘 申请人:索意互动(北京)信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1