基于文本分类的推广触发方法和装置制造方法

文档序号:6501450阅读:113来源:国知局
基于文本分类的推广触发方法和装置制造方法
【专利摘要】本发明实施方式提出了一种基于文本分类的推广触发方法和装置。方法包括:接收网页文本和推广文本,分别对网页文本和推广文本进行词法分析;从词法分析后的网页文本和推广文本中分别提取出包含流量特征的特征,并基于预先训练的层次分类模型分别对网页文本和推广文本中提取的特征进行层次分类;根据网页文本和推广文本提取特征的层次分类结果,计算网页文本和推广文本的相似度,并基于该相似度计算结果触发推广操作。本发明实施方式可以对网页文本、推广文本或用户文本进行有效分类,在不同的流量上侧重于不同的特征信息,能够有效提高分类准确度,并提高推广准确度。
【专利说明】基于文本分类的推广触发方法和装置

【技术领域】
[0001] 本发明实施方式涉及信息处理【技术领域】,更具体地,涉及一种基于文本分类的推 广触发方法和装置。

【背景技术】
[0002] 随着计算机技术和网络技术的飞速发展,互联网(Internet)和即时通信技术在人 们的日常生活、学习和工作中发挥的作用也越来越大。而且,随着移动互联网的发展,互联 网也在向移动化发展。在当今的信息时代中,各种信息设备应运而生:有用于话音传输的固 定电话、移动电话;有用于信息资源共享、处理的服务器和个人电脑;有用于视频数据显示 的各种电视机等等。这些设备都是在特定领域内为解决实际的需求而产生的。随着电子消 费、计算机、通信(3C)融合的到来,人们越来越多地将注意力放到了对各个不同领域的信息 设备进行综合利用的研究上,以充分利用现有资源设备来为人们更好的服务。
[0003] 搜索引擎广告就是一种针对信息综合利用的示范性应用。搜索引擎广告也称为关 键词广告,是指广告主根据自己的产品或服务的内容、特点等确定关键词,撰写广告内容并 自主定价投放在搜索引擎上的广告。当用户搜索的内容与广告主的关键词匹配时,相应的 广告就可能会被展示,并在用户点击后按照广告主对该关键词的出价收费。在广告的展示 中,好的推广语可以促进广告的曝光率以及点击率。在基于效果为基础的广告系统中,广告 主只需要为可衡量的结果付费。
[0004] 在现有技术的效果广告系统中,广告触发基本都是基于文本分类方法。具体包括: 分别首先通过规则或者机器学习的方法对广告和网页进行分类,然后在分类维度上计算广 告和页面的相似度,最后根据相似度的排名进行拉取初选广告,再交由广告点击率预估系 统进行最终排序。
[0005] 然而,在这种广告文本分类技术中,一方面分类体系粒度不够,难以适应网页信 息的1?速变化,另一方面仅考虑了来自页面内容的特征,如仅考虑标记(token)和关键字 (keyword)等信息,缺乏对其他有效信息的利用。因此,现有技术中基于文本分类的推广触 发方法的分类准确度不高,并导致推广准确度不高。


【发明内容】

[0006] 本发明实施方式提出一种基于文本分类的推广触发方法,以提高推广准确度。
[0007] 本发明实施方式还提出了一种基于文本分类的推广触发装置,以提高推广准确 度。
[0008] 本发明实施方式的具体方案如下:
[0009] -种基于文本分类的推广触发方法,该方法包括:
[0010] 接收网页文本和推广文本,分别对网页文本和推广文本进行词法分析;
[0011] 从词法分析后的网页文本和推广文本中分别提取出包含流量特征的特征,并基于 预先训练的层次分类模型分别对网页文本和推广文本中提取的特征进行层次分类;
[0012] 根据针对网页文本和推广文本提取特征的层次分类结果,计算网页文本和推广文 本的相似度,并基于该相似度计算结果触发推广操作。
[0013] 一种推广触发装置,包括词法分析单元、层次分类单元和推广触发单元,其中:
[0014] 词法分析单元,用于接收网页文本和推广文本,分别对网页文本和推广文本进行 词法分析;
[0015] 层次分类单元,用于从词法分析后的网页文本和推广文本中分别提取出包含流量 特征的特征,并基于预先训练的层次分类模型分别对网页文本和推广文本中提取的特征进 行层次分类;
[0016] 推广触发单元,用于根据针对网页文本和推广文本提取特征的层次分类结果,计 算网页文本和推广文本的相似度,并基于该相似度计算结果触发推广操作。
[0017] 从上述技术方案可以看出,在本发明实施方式中,接收网页文本和推广文本,分别 对网页文本和推广文本进行词法分析;从词法分析后的网页文本和推广文本中分别提取出 包含流量特征的特征,并基于预先训练的层次分类模型分别对网页文本和推广文本中提取 的特征进行层次分类;根据网页文本和推广文本提取特征的层次分类结果,计算网页文本 和推广文本的相似度,并基于该相似度计算结果触发推广操作。由此可见,应用本发明实施 方式之后,考虑到不同流量上不同的特征属性,因此可以对网页文本、推广文本或用户文本 进行有效分类,在不同的流量上侧重于不同的特征信息,因此能够有效提高分类准确度,并 提高推广准确度。
[0018] 另外,本发明实施方式将推广文本、网页文本和用户文本三个维度的信息映射到 同一分类维度下,对于推广文本触发进行了有效支持。

【专利附图】

【附图说明】
[0019] 图1为根据本发明实施方式基于文本分类的推广触发方法流程图;
[0020] 图2为根据本发明实施方式的分类体系结构图;
[0021] 图3为根据本发明实施方式基于文本分类的推广触发装置结构图;
[0022] 图4为根据本发明实施方式基于文本分类的推广触发过程示意图。

【具体实施方式】
[0023] 为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步 的详细描述。
[0024] 在现有技术中,没有考虑到不同流量上不同的特征属性,因此无法对网页文本、广 告文本或用户文本进行有效分类,只能在某个维度上效果不错,而其他维度上效果一般。
[0025] 在本发明实施方式中,将流量也引入到层次分类体系下,流量名作为一个层次分 类的节点。在文本分类时,对于网页文本、推广文本和用户文本的页面内容,可以判断其属 于某个流量,再在该流量下进行具体分类,因此这个层次分类体系很容易进行扩展。
[0026] 在本发明实施方式中,一方面针对不同流量建立分类体系,并将其融入到整个层 次分类体系,另一方面充分利用不同流量下的特征信息,为网页文本、推广文本(比如广告 文本)及用户文本的分类提供统一可靠的方法,保证其分类的整体效果。
[0027] 图1为根据本发明实施方式基于文本分类的推广触发方法流程图。
[0028] 如图1所示,该方法包括:
[0029] 步骤101 :接收网页文本和推广文本,分别对网页文本和推广文本进行词法分析。
[0030] 在这里,推广文本具体可以由推广源(比如广告商)所提供,用于对某项产品或业 务进行推广。比如,推广文本可以是由广告商所提供的广告文本。
[0031] 分别对网页文本和推广文本进行词法分析(lexical analysis)。词法分析是计算 机科学中将字符序列转换为单词(Token)序列的过程。进行词法分析的程序或者函数称为 词法分析器(Lexical analyzer,简称Lexer),也叫扫描器(Scanner)。
[0032] 词法分析器一般以函数的形式存在,供语法分析器调用。在词法分析阶段,通常从 左到右逐个字符地读入源程序,即对构成源程序的字符流进行扫描,然后根据构词规则识 别单词(也称单词符号或符号)。词法分析程序用于实现这个任务,而且词法分析程序可以 使用Lex等工具自动生成。
[0033] 步骤102 :从词法分析后的网页文本和推广文本中分别提取出包含流量特征的特 征,并基于预先训练的层次分类模型分别对网页文本和推广文本中提取的特征进行层次分 类。
[0034] 在这里,从词法分析后的网页文本中提取出包含流量特征的特征,并且还从词法 分析后的推广文本中也提取出包含流量特征的特征。
[0035] 网页文本流量特征用于标识网页文本的来源特征,推广文本流量特征用于标识推 广文本的来源特征。
[0036] 如,对于网页文本,可以用该网页文本的域名(URL)或网站源来标识流量特征。
[0037] 在一个实施方式中,可以首先解析该网页文本的域名,再根据网页文本的域名确 定网页文本的流量特征。比如,根据网页文本的域名中的预设关键字确定该网页文本来源 自新闻类型网站,则可以确定该网页文本的流量特征为"新闻"。根据网页文本的域名中 的预设关键字确定该网页文本来源自财经类型网站,则可以确定该网页文本的流量特征为 "财经"。根据网页文本的域名中的预设关键字确定该网页文本来源自某门户网站,则可以 确定该网页文本的流量特征为该门户网站。
[0038] 对于推广文本,可以用推广文本的推广来源种类来标识流量特征。对于推广来源 种类,可以利用流量特征进行各种行业划分。在行业划分的过程中,可以按照多种划分方式 进行区分。
[0039] 比如,可以按照三次行业进行划分。第一产业是指农、林、牧、渔业;第二产业是指 采矿业,制造业,电力、燃气及水的生产和供应业,建筑业;第三产业是指除第一、二产业以 外的其他行业,具体包括:交通运输、仓储和邮政业,信息传输、计算机服务和软件业,批发 和零售业,住宿和餐饮业,金融业,房地产业,租赁和商务服务业,科学研究、技术服务和地 质勘查业,水利、环境和公共设施管理业,居民服务和其他服务业,教育,卫生、社会保障和 社会福利业,文化、体育和娱乐业,公共管理和社会组织,国际组织,等等。
[0040] 可选地,还可以根据国民经济行业类型进行划分。分为15大类,排列顺序如 下:⑴农、林、牧、渔业;⑵采掘业;⑶制造业;⑷电力、煤气及水的生产和供应业;(5)建筑 业;(6)地质勘查、水利管理业;(7)交通运输、仓储及邮电通信业;(8)批发和零售贸易餐饮业; ⑶金融、保险业;(1Φ房地产业;(11)社会服务业;(12)卫生体育和社会福利业;(13)教育、文化艺术 和广播电影电视业;(M)科学研究和综合技术服务业;(15)国家机关、政党机关和社会团体,等 等。
[0041] 以上详细罗列出行业划分的【具体实施方式】,本领域技术人员可以意识到,这种罗 列仅仅是阐述性的,并不用于对本发明实施方式的保护范围进行限定。
[0042] 在一个实施方式中,从词法分析后的网页文本和推广文本中除了提取出流量特征 之外,还可以提取出标记Token特征、关键字特征、主题特征、通用关键字特征、扩展关键字 特征或命名实体NamedEntity特征,等等。
[0043] 在一个实施方式中,可以为每个分类文本训练一个最大熵模型。对于待分类文本, 优选使用实数型的特征,既包含特征项,也包含特征值,同时输入到分类训练器中。
[0044] 比如:可以设计如下的分类器特征及模版,每个类别的特征以数字编号加开 头:
[0045] 标记(Token)特征:以"1_"开头,后接 token name,如"1-iphone, 1-ipad";
[0046] 关键字(Keyword) 特征:以〃2_〃开头,后接keyword name,如 〃2_iphone4s, 2_ipad2〃 ;
[0047] 主题(Topic)特征:以〃3_〃 开头,后接 topic id,如〃3-1, 3-10〃 ;
[0048] 通用关键字(General Keyword)特征:以〃4_〃 开头,后接general keyword name, 如"4-鲜花〃;
[0049] 命名实体(NamedEntity)特征:以〃5_〃 开头,后接 NamedEntity type,如 "5-BRAND";
[0050] 扩展 Keyword 特征:以〃6_〃 开头,后接 expanded keyword name,如〃6_ 鲜花速 递〃;
[0051] 对于每类特征,特征值需要归一化到[0, 1]区间,并且添加开关控制,方便线下实 验和评估每类特征对于分类器的贡献。在特征抽取和验证完毕后,可以考虑采用基于统计 方法的特征选择方法来过滤部分冗余特征,如利用卡方,信息增益等。
[0052] 步骤103 :根据网页文本和推广文本提取特征的层次分类结果,计算网页文本和 推广文本的相似度,并基于该相似度计算结果触发推广操作。
[0053] 在这里,根据网页文本和推广文本提取特征的层次分类结果,计算网页文本和推 广文本的相似度,并基于该相似度计算结果触发推广操作。具体地,可以采用多种文本相似 度算法来计算网页文本和推广文本的相似度。
[0054] 比如:在向量空间模型中,文本泛指各种机器可读的记录。用D (Document)表示, 特征项(Term,用t表示)是指出现在文档D中且能够代表该文档内容的基本语言单位,主 要是由词或者短语构成,文本可以用特征项集表示为D(T1,T2,…,化),其中Tk是特征项, l〈=k〈=N。例如一篇文档中有a、b、c、d四个特征项,那么这篇文档就可以表示为D(a,b,c, d)。对含有η个特征项的文本而言,通常会给每个特征项赋予一定的权重表示其重要程度。 即D = D(T1,W1 ;T2,W2 ; ...,Tn,Wn),简记为 D = D(W1,W2,...,Wn),把它叫做文本 D 的向 量表示。其中Wk是Tk的权重,l〈=k〈=N。
[0055] 在上面那个例子中,假设a、b、c、d的权重分别为30, 20, 20,10,那么该文本的向量 表示为D (30, 20, 20,10)。在向量空间模型中,两个文本D1和D2之间的内容相关度Sim(D1, D2)常用向量之间夹角的余弦值表示。
[0056] 对于待分类文本,在线预测与离线训练共享特征抽取模块进行特征抽取,这样能 保证线上线下特征的一致性。同时需要设计一个基于最大熵模型的层次分类器预测工具 (hierarchical_classif ier_predictor),该预测工具进行分类的步骤如下:
[0057] 在每个节点加载已经训练好的子分类模型;从根节点出发,先按照第一级分类体 系的进行分类,由于是最大熵分类器,每类的输出值是一个概率值,其和为1 ;逐个递归的 对其下层的每个子分类节点进行分类,在判断是否继续向下分类时,会根据一个阈值进行 控制,如果其上层的分类结果小于该阈值,就不需要向下继续分类;每一层的子类的分类值 会乘上其父类的分类值,因此可以保证每一层分类值之和为1 ;遍历完整个层次分类器后, 对于每一层的分类结果按从大到小的进行排序,实际调用时会根据阈值或者topn顺序输 出分类结果。
[0058] 计算完网页文本和各个候选推广文本的相似度之后,可以根据相似度排名拉取初 选的推广文本,然后再由推广点击率预估系统确定最终的排序结果,并且在网页文本上向 用户推送预定数目个排序靠前的推广文本。
[0059] 在上述流程中,进一步包括:接收用户文本,对用户文本进行词法分析,从词法分 析后的用户文本中提取出包含流量特征的特征,并基于该预先训练的层次分类模型对用户 文本中提取的特征进行层次分类;根据针对网页文本和用户文本提取特征的层次分类结 果,计算网页文本和用户文本的相似度。
[0060] 此时,根据针对网页文本和推广文本提取特征的层次分类结果,计算网页文本和 推广文本的相似度,并基于该相似度计算结果触发推广操作具体包括:对网页文本与用户 文本的相似度以及网页文本与推广文本的相似度,进行加权求和,并根据该加权求和结果 触发推广操作。
[0061] 类似地,用户文本流量特征用于标识用户文本的来源特征。具体地,用户文本可以 包括用户的历史搜索查询请求项query、用户的微薄标签或用户所浏览的网页标题,等等。
[0062] 而且,用户可以在各种终端上利用浏览器来浏览网页文本和推广文本,这些终端 可以包括但是不局限于:功能手机、智能手机、掌上电脑、个人电脑(PC)、平板电脑或个人 数字助理(PDA),等等。
[0063] 以上虽然详细罗列了终端的具体实例,本领域人员可以意识到,这些罗列仅是阐 述目的,并不用于限定本发明实施方式的保护范围。浏览器具体可以包括微软的Internet Explorer、Mozilla 的 Firefox、Apple 的 Safari, Opera、Google Chrome、GreenBrowser 等 浏览器。
[0064] 以上虽然详细列出了一些常用浏览器,本领域技术人员可以意识到,本发明实施 方式并不局限于这些浏览器,而是可以适用于任意可用于显示网页服务器或档案系统内的 文件、并让用户与文件互动的应用(App),这些应用可以是目前常见的各种浏览器,也可以 是其他的任意具有网页浏览功能的应用程序。
[0065] 在本发明实施方式中,建立一套能够分类推广文本(标题和关键词等信息)、用户 文本(浏览历史和搜索历史等信息)和网页文本(网页标题和文本内容等信息)的文本分类 器。目标是建立面向情境广告系统的层次分类体系,依据分类体系构建兼容网页、用户自生 成内容(UGC)及广告库的标注语料库,以及一个健壮可靠的高性能分类器。
[0066] 在本发明实施方式中,建立有面向推广文本,网页文本和用户信息的统一的层次 分类体系。首先,需要把推广文本、用户文本和网页文本投影到同一个分类体系,所以需要 建立一个覆盖推广文本、用户文本和网页文本中商业概念的分类体系。由于商业概念具有 天然的层次体系,并且层次体系允许分类器在信息不足的情况下定位到较浅的类别,而在 信息充分的情况下定位到较深的类别,所以需要层次(hierarchical)分类器;在层次分类 体系中考虑流量信息,作为一个节点加入到分类体系下。
[0067] 图2为根据本发明实施方式的分类体系结构图。如图2所示,本发明实施方式中 建立有面向推广文本,网页文本和用户信息的统一的层次分类体系。
[0068] 基于上述详细分析,本发明实施方式还提出了一种基于文本分类的推广触发装 置。
[0069] 图3为根据本发明实施方式基于文本分类的推广触发装置结构图。如图3所示, 该装置包括词法分析单元301、层次分类单元302和推广触发单元303,其中:
[0070] 词法分析单元301,用于接收网页文本和推广文本,分别对网页文本和推广文本进 行词法分析;
[0071] 层次分类单元302,用于从词法分析后的网页文本和推广文本中分别提取出包含 流量特征的特征,并基于预先训练的层次分类模型分别对网页文本和推广文本中提取的特 征进行层次分类;
[0072] 推广触发单元303,用于根据网页文本和推广文本提取特征的层次分类结果,计算 网页文本和推广文本的相似度,并基于该相似度计算结果触发推广操作。
[0073] 在一个实施方式中,词法分析单元301,进一步用于接收用户文本,对用户文本进 行词法分析,从词法分析后的用户文本中提取出包含流量特征的特征,并基于该预先训练 的层次分类模型对用户文本中提取的特征进行层次分类;
[0074] 层次分类单元302,进一步用于根据针对网页文本和用户文本提取特征的层次分 类结果,计算网页文本和用户文本的相似度;
[0075] 推广触发单元303,用于对网页文本与用户文本的相似度以及网页文本与推广文 本的相似度,进行加权求和,并根据该加权求和结果触发推广操作。
[0076] 在一个实施方式中,层次分类单元302,用于解析该网页文本的域名;根据网页文 本的域名确定网页文本的流量特征。
[0077] 在一个实施方式中,词法分析单元301,用于接收该用户的历史搜索查询请求项 query、该用户的微薄标签或该用户所浏览的网页标题。
[0078] 在一个实施方式中,层次分类单元302,用于从词法分析后的网页文本和推广文本 中分别提取出流量特征、标记Token特征、关键字特征、主题特征、通用关键字特征、扩展关 键字特征或命名实体(NamedEntity)特征。
[0079] 图4为根据本发明实施方式基于文本分类的推广触发过程示意图。
[0080] 如图4所示,可以对训练样本(包括预先设置的分类标签和源文件)中的源文件进 行词汇分析,并提取源文件特征,再基于预先设立的层级体系和分类标签进行层次分类训 练,以得到层次分类模型。然后,可以利用该层次分类模型分别对分类文本(包括网页文本、 推广文本或用户文本)中提取的特征进行层次分类。最后,可以根据网页文本和推广文本提 取特征的层次分类结果,计算网页文本和推广文本的相似度,并基于该相似度计算结果触 发推广操作。
[0081] 实际上,可以通过多种形式来具体实施本发明实施方式所提出的基于文本分类的 推广触发方法和装置。
[0082] 比如,可以遵循一定规范的应用程序接口,将基于文本分类的推广触发方法编写 为安装到个人电脑、移动终端等中的插件程序,也可以将其封装为应用程序以供用户自行 下载使用。当编写为插件程序时,可以将其实施为OCX、dll、cab等多种插件形式。也可以 通过Flash插件、RealPlayer插件、MMS插件、MIDI五线谱插件、ActiveX插件等具体技术 来实施本发明实施方式所提出的基于文本分类的推广触发方法。
[0083] 可以通过指令或指令集存储的储存方式将本发明实施方式所提出的基于文本分 类的推广触发方法存储在各种存储介质上。这些存储介质包括但是不局限于:软盘、光盘、 DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒(Memory Stick)、xD卡等。
[0084] 另外,还可以将本发明实施方式所提出的基于文本分类的推广触发方法应用到基 于闪存(Nand flash)的存储介质中,比如U盘、CF卡、SD卡、SDHC卡、MMC卡、SM卡、记忆 棒、xD卡等。
[0085] 综上所述,在本发明实施方式中,接收网页文本和推广文本,分别对网页文本和推 广文本进行词法分析;从词法分析后的网页文本和推广文本中分别提取出包含流量特征的 特征,并基于预先训练的层次分类模型分别对网页文本和推广文本中提取的特征进行层次 分类;根据网页文本和推广文本提取特征的层次分类结果,计算网页文本和推广文本的相 似度,并基于该相似度计算结果触发推广操作。由此可见,应用本发明实施方式之后,考虑 到不同流量上不同的特征属性,因此可以对网页文本、推广文本或用户文本进行有效分类, 在不同的流量上侧重于不同的特征信息,因此能够有效提高分类准确度,并提高推广准确 度。
[0086] 另外,本发明实施方式将推广文本、网页文本和用户文本三个维度的信息映射到 同一分类维度下,对于推广文本触发进行了有效支持。
[〇〇87] 以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在 本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护 范围之内。
【权利要求】
1. 一种基于文本分类的推广触发方法,其特征在于,该方法包括: 接收网页文本和推广文本,分别对网页文本和推广文本进行词法分析; 从词法分析后的网页文本和推广文本中分别提取出包含流量特征的特征,并基于预先 训练的层次分类模型分别对网页文本和推广文本中提取的特征进行层次分类; 根据网页文本和推广文本提取特征的层次分类结果,计算网页文本和推广文本的相似 度,并基于该相似度计算结果触发推广操作。
2. 根据权利要求1所述的基于文本分类的推广触发方法,其特征在于,该方法进一步 包括: 接收用户文本,对用户文本进行词法分析,从词法分析后的用户文本中提取出包含流 量特征的特征,并基于该预先训练的层次分类模型对用户文本中提取的特征进行层次分 类; 根据针对网页文本和用户文本提取特征的层次分类结果,计算网页文本和用户文本的 相似度; 所述根据针对网页文本和推广文本提取特征的层次分类结果,计算网页文本和推广文 本的相似度,并基于该相似度计算结果触发推广操作包括: 对网页文本与用户文本的相似度以及网页文本与推广文本的相似度,进行加权求和, 并根据该加权求和结果触发推广操作。
3. 根据权利要求1所述的基于文本分类的推广触发方法,其特征在于,所述从词法分 析后的网页文本中分别提取出包含流量特征的特征包括: 解析该网页文本的域名; 根据网页文本的域名确定网页文本的流量特征。
4. 根据权利要求2所述的基于文本分类的推广触发方法,其特征在于,所述接收用户 文本包括: 接收该用户的历史搜索查询请求项query、该用户的微薄标签或该用户所浏览的网页 标题。
5. 根据权利要求2所述的基于文本分类的推广触发方法,其特征在于,所述从词法分 析后的网页文本和推广文本中分别提取出包含流量特征的特征包括: 从词法分析后的网页文本和推广文本中分别提取出流量特征、标记Token特征、关键 字特征、主题特征、通用关键字特征、扩展关键字特征或命名实体NamedEntity特征。
6. -种基于文本分类的推广触发装置,其特征在于,包括词法分析单元、层次分类单元 和推广触发单元,其中: 词法分析单元,用于接收网页文本和推广文本,分别对网页文本和推广文本进行词法 分析; 层次分类单元,用于从词法分析后的网页文本和推广文本中分别提取出包含流量特征 的特征,并基于预先训练的层次分类模型分别对网页文本和推广文本中提取的特征进行层 次分类; 推广触发单元,用于根据网页文本和推广文本提取特征的层次分类结果,计算网页文 本和推广文本的相似度,并基于该相似度计算结果触发推广操作。
7. 根据权利要求6所述的基于文本分类的推广触发装置,其特征在于, 词法分析单元,进一步用于接收用户文本,对用户文本进行词法分析,从词法分析后的 用户文本中提取出包含流量特征的特征,并基于该预先训练的层次分类模型对用户文本中 提取的特征进行层次分类; 层次分类单元,进一步用于根据针对网页文本和用户文本提取特征的层次分类结果, 计算网页文本和用户文本的相似度; 推广触发单元,用于对网页文本与用户文本的相似度以及网页文本与推广文本的相似 度,进行加权求和,并根据该加权求和结果触发推广操作。
8. 根据权利要求6所述的基于文本分类的推广触发装置,其特征在于, 层次分类单元,用于解析该网页文本的域名;根据网页文本的域名确定网页文本的流 量特征。
9. 根据权利要求6所述的基于文本分类的推广触发装置,其特征在于, 词法分析单元,用于接收该用户的历史搜索查询请求项query、该用户的微薄标签或该 用户所浏览的网页标题。
10. 根据权利要求6所述的基于文本分类的推广触发装置,其特征在于, 层次分类单元,用于从词法分析后的网页文本和推广文本中分别提取出流量特征、 标记Token特征、关键字特征、主题特征、通用关键字特征、扩展关键字特征或命名实体 NamedEntity 特征。
【文档编号】G06F17/30GK104102639SQ201310113608
【公开日】2014年10月15日 申请日期:2013年4月2日 优先权日:2013年4月2日
【发明者】杨攀 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1