归类关键字的方法、装置和处理系统、分类模型生成方法与流程

文档序号:12863854阅读:171来源:国知局
归类关键字的方法、装置和处理系统、分类模型生成方法与流程

本公开的实施方式涉及搜索关键字。更具体地,实施方式涉及使用经训练的模型对搜索关键字归类。



背景技术:

在在线环境中,搜索提供者常常允许内容提供者提供某些字或词以便显示与该内容提供者有关的搜索结果。这允许内容提供者为实际上或很可能对来自内容提供者的内容感兴趣的用户定制内容计划。尽管这种形式的内容搜索已经变得普遍,但建立在线内容计划对内容提供者来说仍然是困难的。例如,选择适当的词并做预算会是复杂且耗时的过程。此外,一旦创建了计划,内容提供者就必须投入大量时间来确定哪些字是最有效的以及用新的词来替代执行力低的字。

换句话说,上述方法的大部分效用依赖于内容提供者选择最适当的词。例如,如果内容提供者具有多个单位,那么必须为每个单位开发特定的计划。然而,内容提供者常常没有资源来为每个单位设计这种特定计划。因此,常常选择词来应用到广泛范围的单位。结果,完全依赖于由内容提供者选择的词可能并不总是产生最相关的搜索结果。



技术实现要素:

本申请的目的在于提供一种用于对关键字归类的计算机实现方法、一种用于对关键字归类的装置、一种处理系统和一种用于生成分类模型的计算机实现方法。

根据本申请的一个方面,提供了一种用于对关键字归类的计算机实现方法,该方法可包括:从自客户端接收的查询提取一个或多个关键字,一个或多个关键字将被归类为多个预定类别中的一个;使用分类模型来确定与关键字相关联的类别,包括:将关键字应用于分类模型以创建至少一个关键字向量,在与分类模型相关联的字向量的多个集群当中,基于从集群的质心到至少一个关键字向量的位置的距离来确定最近集群,其中每个集群的质心对应于预定类别中的一个,以及将由最近集群表示的类别选择为与关键字相关联的类别;以及将所选类别传输到客户端作为查询结果的一部分。

根据本申请的另一方面,提供了一种用于对关键字归类的装置,该装置可包括:从自客户端接收的查询提取一个或多个关键字的装置,其中,一个或多个关键字将被归类为多个预定类别中的一个;使用分类模型来确定与关键字相关联的类别的装置,包括:将关键字应用于分类模型以创建至少一个关键字向量的单元,在与分类模型相关联的字向量的多个集群当中,基于从集群的质心到至少一个关键字向量的位置的距离来确定最近集群的单元,其中每个集群的质心对应于预定类别中的一个,以及将由最近集群表示的类别选择为与关键字相关联的类别的单元;以及将所选类别传输到客户端作为查询结果的一部分的装置。

根据本申请的另一方面,提供了一种处理系统,该系统可包括根据根据本申请实施方式的用于对关键字归类的装置。

根据本申请的另一方面,提供了一种用于生成分类模型的计算机实现方法,分类模型用于用多个预定类别中的一个来对关键字归类,该方法包括:在与一群关键字相关联的字当中确定一组独特的字;将一组独特的字应用于字嵌入模型以创建一组独特的字的多个字向量;将一组独特的字的字向量聚类成多个集群;使集群中的每个与预定类别中的一个相关联;以及生成多个分类模型,每个分类模型对应于预定类别中的一个,其中分类模型随后被利用来将搜索查询归类到预定类别中的一个或多个。

附图说明

本公开的实施方式在附图的各图中以举例而非限制的方式示出,在附图中,相同的参考数字指示类似的元件。

图1是示出根据本公开的一些实施方式的示例系统配置的框图。

图2是示出根据本公开的实施方式的内容提供者、关键字与类别之间的关联性的示例概述的图。

图3是示出根据本公开的实施方式的使用分类模型来实施训练过程的示例的处理流程图。

图4a是示出根据本公开的实施方式的在训练分类模型期间字向量到向量空间的示例映射的图。

图4b是示出根据本公开的实施方式的识别如图4a中所示的字向量的集群的示例的图。

图5是示出根据本公开的实施方式的使用分类模型来实施确定过程的示例的处理流程图。

图6a是示出根据本公开的实施方式在分类模型的字向量当中的关键字向量的示例映射的图。

图6b是示出根据本公开的实施方式的确定与如图6a中所示的被映射的关键字向量最近的集群的示例的图。

图7是示出根据本公开的实施方式的对关键字归类的方法的流程图。

图8是示出根据本公开的实施方式的生成用于对关键字归类的模型的方法的流程图。

图9是示出根据本公开的实施方式的示例计算装置的框图。

具体实施方式

以下将参考所讨论的细节来描述本发明的多种实施方式和方面,并且附图将示出多种实施方式。以下描述和附图是对本发明的说明,而不应当解释为限制本发明。描述了许多特定细节以便提供对本发明的各种实施方式的全面理解。然而,在某些例子中,并未描述众所周知的或常规的细节以便提供对本发明的实施方式的简洁讨论。

本说明书中对“一个实施方式”或“实施方式”的提及意味着结合实施方式所描述的特定特征、结构或特性可以包括在本发明的至少一个实施方式中。短语“在一个实施方式中”在本说明书中各个地方的出现不必全部是指同一实施方式。

根据一些实施方式,描述了用于使搜索查询中所使用的关键字与类别相关联的技术。这种技术旨在通过改进与关键字的关联性来潜在地产生更为相关的搜索结果。通常,使用关键字的搜索将提供与内容提供者有关的搜索结果。然而,内容提供者常常将关键字关联到无所不包的组织、服务或产品。然而,内容提供者可与相关实体(诸如,子组织、部门或其他相关服务或产品)相关联。结果,尽管事实上相关的实体可能是最相关的,由用户进行的包括了这些关键字的搜索可能常常产生列出自身更通用的实体的搜索结果。换句话说,由内容提供者选择的关键字并不总是提供最相关的搜索结果。例如,在与卫生保健有关的上下文中,当用户搜索特定眼疾时,典型的搜索可能常常提供与跟某些关键字相关联的地方医院有关的结果,可事实上医院的特定眼科将是更为相关的搜索结果。

因此,为了设法潜在地产生更为相关的搜索结果,本文中所描述的实施方式通过使用机器学习技术来关联关键字。更具体地,一些实施方式描述了训练分类模型,且另外,利用分类模型来选择可能与内容提供者相关联的类别。例如,实施方式描述了分类模型,该分类模型被训练以接收作为输入的一组关键字,且所述模型将该组关键字转化成字向量。这些字向量可接着被映射到向量空间,且所述技术可接着执行对向量的集群分析。基于集群分析,可识别离关键字向量最近的集群。所识别的集群可与对应的类别相关联。这些类别例如可与跟内容提供者有关的实体(诸如,组织、业务单位、部门或其他相关产品或服务)相关联。

结果,本文中所描述的实施方式可有助于产生更为相关的搜索结果并且能够不断学习以进一步改进这些结果。此外,所述过程是有效的,因为可进一步响应于新增的关键字或关键字计划来周期性地训练分类模型。因此,本文中进一步讨论了用于训练和利用这种分类模型的实施方式。

图1是示出根据本公开的一些实施方式的示例系统配置的框图。在图1中,系统100可包括经由网络103通信地联接到服务器104的客户端装置101(一个或多个)。分类系统或服务器150也可通信地联接到网络103和服务器104。客户端装置101(或客户端,或装置)可以是任何类型的计算装置,诸如个人计算机(例如,台式计算机、膝上型计算机和平板计算机)、“薄”客户端、个人数字助理(pda)、支持网络的电器、智能手表或移动电话(例如,智能手机)等。网络103可以是任何类型的有线或无线网络,诸如局域网(lan)、诸如因特网的广域网(wan)或它们的组合。

服务器104可以是任何种类的服务器或服务器集群,且可包括基于网络或云的服务器、应用服务器、后端服务器或它们的组合。在一个实施方式中,服务器104可包括搜索引擎120、关键字提取模块110、关键字模块115和映射存储器130。

搜索引擎120例如可包括被设计成在万维网上搜索信息的网络搜索引擎。搜索引擎120可以是现有的引擎(诸如,可获自百度公司的搜索引擎),或可替代地,搜索引擎120可表示搜索引擎、microsoftbingtm搜索引擎、搜索引擎或另一种类型的搜索引擎。搜索引擎120可提供包括网页、图像和其他类型的文件的混合体的搜索结果(或查询结果),并且可通过运行算法(例如,网络爬虫)来维持实时信息,以维护索引。例如,当用户将查询输入到搜索引擎中(通常通过使用关键字)时,引擎检查它的索引并提供结果的列表。如本文中进一步描述的,当接收到查询时,与特定关键字相关联的类别可由分类模型来实时确定并被提供为搜索结果的一部分。例如,响应于查询,搜索引擎120可将已确定的类别整合为搜索结果的一部分。另外,可提前确定类别,并且可更新索引。例如,响应于查询,搜索引擎120可引用其已更新的索引以基于已针对一个或多个关键字所实施的确定过程(例如,确定过程500)来确定类别。还应注意,搜索引擎120可采用各种技术来提供搜索结果,且本文中的实施方式可与这些技术组合以提供搜索结果。

搜索引擎120可在诸如主要内容数据库和/或辅助内容数据库的内容数据库(未示出)中执行搜索,以生成内容项目列表。可经由统一资源链接(url)和/或统一资源标识符(uri)使每一个内容项目与特定内容提供者的特定网站的特定网页相关联。在一个实施方式中,主要内容数据库存储已由网络爬虫收集的一般内容项目(例如,非赞助内容)。辅助内容数据库存储与特定的、已知的或预定的内容提供者相关联的特定或特殊内容项目(例如,赞助内容)。可替代地,在不区分主要内容数据库与辅助内容数据库的情况下,可将内容数据库实现为单个数据库。可将内容数据库维持在独立的服务器(例如,内容服务器)中。

映射存储器130可包括如本文中所描述的任何合适类型的存储器,且可包括关键字132、相关字134和类别136。关键字132可包括由搜索引擎120使用的字或词,且可包括与内容提供者相关联的字或词。例如,如上所述,内容提供者可对作为关键字132的各种字或词投标,关键字132可以是由搜索提供者提供的关键字计划的一部分。尽管在本公开中将关键字132描述为单个字或词,但应理解,关键字132也可包括可以呈一种或多种语言的短语或句子。

如本文中进一步描述,相关字134包括在分类模型156的训练过程(或训练阶段)期间所使用的字。相关字可包括与一群关键字(例如,其与关键字计划相关联)有关的一组独特的字。基于用相关字134来训练分类模型156,可确定与关键字132相关联的类别136。在一些实施方式中,类别136可对应于与内容提供者有关的实体。应注意,如本文中所使用的词实体是宽泛定义的,且可包括可与内容提供者相关联的任何组织(或子组织)、部门、业务单位、组、协会或其他相关产品或服务、单位、对象或项目。

关键字模块115可管理关键字132以及内容提供者与关键字132之间的关联性。如本文中进一步描述的,关键字模块115也可确定如上所述的相关字134。如本文中进一步描述的,关键字提取模块110可从自客户端接收的搜索查询(或查询)来提取相关的关键字。

服务器104还可包括允许装置(例如,客户端装置101或分类系统150)访问由服务器104提供的资源或服务的接口(未示出)。所述接口可包括网络接口、应用编程接口(api)和/或命令行接口接口(cli)。

分类系统150可以是如所示的独立式装置(例如,服务器),或可以是服务器104的一部分(如上所述,其可以是服务器集群的一部分)。在一个实施方式中,分类系统150可包括训练模块152、确定模块154和分类模型156。如本文中进一步描述,训练模块152可训练分类模型156。例如,训练模块152可提供输入(例如,一组训练数据)以便训练分类模型156。训练模块152也可使用各种形式的结构化输入来预训练分类模型156。例如,训练模块152可将本领域中已知的各种训练文档(包括开放源工具)提供为输入。如本文中进一步描述,确定模块154可基于来自分类模型156的输出来确定与关键字相关联的类别。

分类模型156可利用语言建模技术。例如,分类模型可采用语言建模或特征学习技术,例如,与自然语言处理有关的字嵌入技术,其中来自词汇的字或短语被映射为相对于词汇尺寸的低维空间中的实数向量。例如,在一个实施方式中,分类模型采用word2vec模型以便将字转化成字向量。一般地,word2vec模型可实现学习字的分布式表示的神经网络。word2vec可创建有意义的表示,所述表示创建具有有用特性的向量。例如,当映射到向量空间中时,具有类似含义的字可以以集群出现。另外,集群被隔开,使得可以使用向量数学来再现一些字关系(诸如,类推)。例如,最显著的示例是:在字向量经充分训练的情况下,“国王-男人+女人=女王”。应注意,除word2vec之外,也可利用其他字嵌入技术,诸如“glove”、“deeplearning4j”或其他合适的技术。

一旦分类模型创建了字向量,就可将向量和相关信息存储在向量存储器180中,为了处理所创建的字向量,可利用向量映射模块162来将向量映射到向量空间上。应注意,虽然将“向量映射”示为视觉映射,但实施方式的实现不一定非要以此方式来映射向量。例如,当向量已经呈数字表示的形式时,集群分析模块164可直接分析向量。

集群分析模块164可分析向量以识别向量的集群。如本文中进一步描述的,在训练过程期间,这些集群可被识别,且对应类别可被识别。结果,在确定过程(或预测阶段)期间,集群分析模块164可确定离关键字向量最近的集群以确定与关键字相关联的对应类别。

集群分析模块164可采用任何合适的、用于分析的算法。例如,集群分析算法可涉及基于以下各者来识别集群:在集群成员当中具有短距离的群、数据空间的密集区、间隔、特定的统计分布或其他技术。因此,实施方式可包括各种聚类算法和各种参数设定(包括距离函数、密度阈值或预期集群的数目)。在一个实施方式中,可使用例如基于距离连接性的分层聚类。另外,可使用质心模型,其基于例如用均值向量来表示每个集群的k-均值算法。也可使用其他合适的模型,诸如分布模型(例如,使用统计分布来对集群建模)、密度模型(例如,将集群定义为数据空间中的已连接的密集区域)、子空间模型(例如,双聚类或共聚类或双模式聚类)、群模型(groupmodel)和基于图的模型(graph-basedmodel)。应注意,可使用这些模型的组合,并且如本文中进一步讨论的,可在集群分析期间针对训练过程和确定过程来使用相同或不同的技术。

关于图1的系统配置,其他架构或配置也可以是可应用的。例如,映射存储器130或向量存储器180可通过网络在作为内容服务器的独立服务器中被维持和托管。这种内容服务器或额外服务器可由与服务器104的提供者或组织相同的提供者或组织来组织和提供。可替代地,这种内容服务器或额外服务器可由独立的提供者或组织(例如,第三方提供者)来维持和托管,所述独立的提供者或组织负责管理内容数据库中的内容。

本文中所描述的框图被包括为示例。这些配置并非为所有部件的详尽说明,且这些图可存在变化。在不脱离本文中所描述的实现方式的情况下,可使用其他布置和部件。例如,可添加、省略部件,且部件可按本领域普通技术人员所已知的各种方式来交互。

图2是示出根据本公开的实施方式的内容提供者、关键字与类别之间的关联性的示例概述的图。在这个示例中,内容提供者201可关联到一个或多个关键字计划221。例如,内容提供者201可订购包括与卫生保健领域有关的一个或多个关键字的关键字计划。例如,这些关键字可包括与内容提供者的组织、产品或服务有关的词。每个关键字计划221可包括形成一群关键字232的一部分的一个或多个关键字(例如,关键字132)。可替代地,内容提供者201可直接与一群关键字232相关联。为了训练分类模型(例如,分类模型156),一组相关字134可与每一群关键字232和/或每个关键字计划221相关联。如本文中进一步描述的,可在训练分类模型期间使用每一组相关字134来创建字向量。另外,该组相关字134可以是一组独特的字,其可包括对于关联的一群关键字独有的每个字,或该组相关字134可以是作为群而独特的一组字。

另外,如上所述,内容提供者201也可与一个或多个相关实体211(诸如,组织、部门或其他相关服务或产品)相关联。在一些实施方式中,这些相关实体211中的每个可与类别136中的一个相关联,或对应于类别136中的一个。这些类别136也可包括预定类别。这些类别可按任何合适方式来预先确定。例如,内容提供者可通过搜索提供者将一组相关实体211定义为帐户的一部分。另外,搜索引擎120(或服务器104)可预先确定类别。例如,搜索引擎120可采用被用作搜索算法的一部分的技术来找到相关实体(例如,基于相关内容、网站等)。例如,搜索引擎120可从域名分析(例如,相关实体可共用或具有类似的域名)、相关内容(例如,网站)的分析或其他合适的技术来确定相关实体。

在一些实施方式中,当分类模型基于关键字来确定类别时,也可将内容提供者201的相关实体211确定为搜索结果的一部分。通过非限制性示例,内容提供者201可订购与医疗疾病相关的关键字计划。因此,一组相关字可包括相关的医疗词或描述对关键字计划(或一群关键字)独有的特定症状的词。然后可使用所确定的该组字来训练分类模型。因此,在包括关键字中的一个或多个(例如,特定疾病的词)的后续搜索期间,分类模型可将类别确定为搜索结果的一部分。该类别可与相关实体(诸如,治疗该特定疾病的医院的部门)相关联或对应于所述相关实体,其可被用作比仅包括医院(例如,内容提供者)自身的结果更合适的搜索结果。

图3是示出根据本公开的实施方式的使用分类模型来实施训练过程的示例的处理流程图。为了设法潜在地改进搜索结果,训练模块152可执行训练过程300。在一些实施方式中,训练模块152可起始训练过程300以作为用于初始化分类模型156的方式,并且也可周期性地(例如,每日、每周)训练分类模型156,或基于特定事件训练分类模型156。例如,特定事件可包括添加新的内容提供者201,或当创建了新的关键字计划221或一群关键字232时。

如上所述,内容提供者可与一群关键字(例如,一群关键字232)相关联。例如,内容提供者可对作为关键字计划(例如,关键字计划221)的一部分的某些关键字投标,所述关键字计划由搜索提供者来提供。作为训练过程300的一部分或作为独立过程的一部分,例如可由关键字模块115使用各种技术来确定一组相关字134。在一个实施方式中,该组相关字134可以是对于特定的关键字计划或一群关键字独有的一组字。另外,在一个实施方式中,关键字模块115可基于相关性来确定该组相关字134,所述相关性可使用各种技术来确定。例如,一种技术可包括确定与关键字计划或一群关键字相关联的字的频率。例如,在一个实施方式中,可使用词频-逆文档频率(tf-idf)统计来确定该组相关字134。该统计例如基于权重来反映出字对文档的重要性,所述权重随字出现在文档中的次数而成比例地增加,但被字在语料库中的频率抵消,这一般说明了一些字出现得更频繁。

接下来,可将该组相关字134(其可以是一组独特的字)用作分类模型156的训练数据。因此,所确定的该组相关字134被提供为分类模型156的输入。如上所述,分类模型156可采用各种语言建模技术(包括字嵌入模型)来创建字向量321。字向量321的大小可根据应用来适应,且可包括数以百计的维度。字向量321还可包括以任何合适的方式(包括矩阵)来组织的多组向量。由于字向量321现在是以数字形式来表示,所以可实施数学分析。

一旦创建了字向量321,向量映射模块162就可将字向量321映射到例如如图4a中所示的向量空间。图4a是示出根据本公开的实施方式的在训练分类模型期间字向量到向量空间的示例映射的图。如所示的,字向量可被映射为向量空间400内的点401。应注意,图4a是仅出于示出的目的,且向量空间可以是任何数目的n维度。

回到图3,向量映射模块162可对字向量321执行任何数目的函数、运算或计算。例如,可添加或减去字向量以形成向量空间400内的新点。

集群分析模块164可利用本文中所描述的任一聚类技术来识别集群。例如,在一个实施方式中,集群分析模块164可采用分层聚类技术。因此,集群分析模块164可识别在向量空间中位于彼此的阈值距离内的字向量,例如,如图4b中所示的。图4b是示出根据本公开的实施方式的识别如图4a中所示的字向量的集群的示例的图。如该示例中所示的,识别了三个集群410a-c。一旦集群已被识别,集群分析模块164就可使集群中的每个与类别(例如,类别136)中的一个相关联。例如,每个集群可用最接近的对应类别来标明。在一个实施方式中且如在图4b的示例中所示,每个集群的质心(例如,质心420a-c)可用对应类别来标明。

回到图3,作为训练过程300的结果,创建了“经训练”的集群。这些经训练的集群330现在可被用在确定过程(或预测阶段)中。

图5是示出根据本公开的实施方式的使用分类模型来实施确定过程的示例的处理流程图。一旦训练了分类模型156,就可使用确定过程500来确定(例如,“预测”)与关键字相关联的预定的类别。在一个实施方式中,确定模块154可执行确定过程500。在实施方式中,可由服务器104(或搜索引擎120)来接收查询510。因此,关键字提取模块110可处理所述查询并提取关键字132。查询510可包括具有一个或多个字或词的搜索字符串。例如,关键字提取模块110可识别相关的关键字132并舍弃搜索字符串中的不相关词(例如,“所述(the)”、“一(a)”等)。在另一个示例中,关键字提取模块110可从搜索字符串中舍弃作为“噪音”的、地理上相关的字和词。另外,关键字提取模块110可处理来自各种语言的字符串。例如,基于某种符号的语言可具有各种字符集。应注意,实施方式并不限于英语语言,而是本文中所描述的技术也同等地可适用于其他语言,包括基于符号或音节的语言(诸如例如,广东话)。此外,由于分类模型156将关键字转化成向量(例如,数字表示),所以本文中的公开内容可适合于任何合适的语言。

一旦关键字132已被隔离,就可将其输入到现在已从训练过程300受过训练的分类模型156中。如上所述,经训练的分类模型156可使用语言建模技术来输出关键字向量512。一旦创建了关键字向量512,向量映射模块162就可将关键字向量512映射到训练过程300中所使用的同一个向量空间,例如如图6a中所示的。

图6a是示出根据本公开的实施方式的关键字向量在分类模型的字向量当中的示例映射的图。如该示例中所示,关键字向量512可被映射于在训练过程(例如,训练过程300)期间所映射的字向量当中。回到图5,向量映射模块162可对关键字向量512执行任何数目的函数、运算或计算。集群分析模块164可确定与关键字向量512相关联的适当类别。当确定最近集群时,可使用各种技术。例如,可利用k最近邻算法(或k-nn)。在一个实施方式中,集群分析模块164可基于从最近集群的质心到被映射的关键字向量的距离来确定最近集群,例如,如图6b中所示的。

图6b是示出根据本公开的实施方式的确定到如图6a中所示的被映射的关键字向量的最近集群的示例的图。如该示例中所示,可确定从关键字向量512到质心420c的距离611。因此,可确定质心420c是最接近的质心,且因此集群410c是最近集群。然后集群分析模块164可将对应于集群410c的类别选择为与关键字相关联的类别。返回到图5,可接着将所选类别作为查询结果520的一部分而传回。

图7是示出根据本公开的实施方式的对关键字归类的方法的流程图。过程700可使用处理逻辑,所述处理逻辑可包括软件、硬件或它们的组合。例如,可由计算装置或装置(例如,服务器104)来执行过程700。在框701中,装置可从自客户端接收的查询来提取待被归类为多个预定类别(例如,类别136)中的一个的一个或多个关键字(例如,关键字132)。装置可使用分类模型(例如,分类模型156)来确定与关键字相关联的类别。因此,在框702中,装置可将关键字应用于分类模型以创建关键字向量(例如,关键字向量512)。在一个实施方式中,分类模型可以是基于用于创建关键字向量的字嵌入模型的。例如,字嵌入模型可以是基于word2vec模型的。word2vec模型的架构也可迎合特定应用。例如,word2vec模型可应用skip-gram或连续字袋(cbow)过程以创建字向量。

在框703中,在来自分类模型的字向量的集群当中,装置可基于从最近集群的质心到关键字的字向量的位置的距离来确定最近集群。在实施方式中,每个集群的质心对应于预定类别中的一个。在框704中,装置可将由最近集群表示的类别选择为与关键字相关联的类别。在框705中,装置可将所选类别传输到客户端作为查询结果的一部分。

在一个实施方式中,预定类别中的每个可与医疗数据段(例如,作为项目的相关实体)相关联,且每个医疗数据段可与医疗组织中的一个医疗部门相关联。例如,预定类别可与医疗疾病相关联,且医疗部门可以是治疗每种医疗疾病的适当的医疗部门。

图8是示出根据本公开的实施方式的生成用于对关键字归类的模型的方法的流程图。过程800可使用处理逻辑,所述处理逻辑可包括软件、硬件或它们的组合。例如,可由计算装置或装置(例如,分类系统150或服务器104)来执行过程800。在框801中,装置可在与一群关键字(例如,一群关键字232)相关联的字当中确定一组字(例如,相关字134)。在一个实施方式中,该组字可以是在与一群关键字相关联的字当中基于字在该组中的频率通过确定词频-逆文档频率(tf-idf)统计所确定的一组独特的字。

在框802中,装置可将该组字应用于字嵌入模型以创建该组字的字向量。在一个实施方式中,装置可响应于例如一群新的关键字与内容提供者相关联来周期性地训练(例如,更新)字嵌入模型。另外,可另外通过将一组字手动地映射到预定义类别中的至少一个来训练字嵌入模型。在框803中,装置可将该组字的字向量聚类成集群。在一个实施方式中,聚类可包括分层地聚类该组字的字向量。在框804中,装置可使每个集群与预定类别中的一个相关联。例如,在一个实施方式中,装置可用预定类别中的一个来标明每个集群的质心。在一个实施方式中,可手动地执行此标明(或映射)。在一个实施方式中,一群关键字可与内容提供者相关联,且预定类别中的每个可对应于以下各者中的一个:内容提供者的部门、内容提供者的相关实体、由内容提供者提供的产品或由内容提供者提供的服务。

在一个实施方式中,也可以将上述技术应用于跟踪在线广告或广告互动和广告转化(例如,离线转化)。在典型的搜索广告情况中,广告商(也称为广告提供者)用广告公司的搜索引擎来购买关键字,并设置以这些关键字为目标的广告。当用户的搜索查询匹配购买的关键字中的一个或多个时,对应的广告可连同原始搜索结果一起显示在结果页面中。可基于广告商的广告的示出或点击次数对广告商收费。可替代地,可基于由于广告而发生的转化次数对广告商收费。转化可以是在线的(诸如,用户访问广告商的网站并下订单)或离线的(诸如,用户访问广告商的实体店)。转化率是评估广告有效性的关键指标,因此广告商通常对弄清楚哪些广告导致转化极为感兴趣。

因此,广告提供者可对一个或多个关键字投标,所述关键字可以是(例如)广告计划、在线营销计划或由搜索提供者提供的关键字计划的一部分。在一些情形中,内容提供者可只是投标整个组织(例如,医疗机构或医院)的一组字。然而,所述字中的一些可与组织的特定子单位或部门相关联。可以利用上述分类模型来确定特定广告是否与组织的特定子单位或部门相关联。

图9是示出根据本公开的实施方式的示例计算系统的框图。例如,系统1500可表示执行上述过程或方法中的任一个的上述数据处理系统中的任一个(诸如例如,上述服务器104或客户端101)。系统1500可包括许多不同部件。在一个实施方式中,系统1500包括经由总线或互连件1510的处理器1501、存储器1503和装置1505-1508。处理器1501可表示其中包括有单个处理器核心或多个处理器核心的单个处理器或多个处理器。处理器1501可表示一个或多个通用处理器,诸如微处理器、中央处理单元(cpu)等。处理器1501也可以是一个或多个专用处理器,诸如专用集成电路(asic)、蜂窝或基带处理器、现场可编程门阵列(fpga)、数字信号处理器(dsp)、网络处理器、图形处理器、通信处理器、加密处理器、共处理器、嵌入式处理器或能够处理指令的任何其他类型的逻辑。

处理器1501可被配置成执行用于执行本文中所讨论的操作和步骤的指令。系统1500还可包括与可选的图形子系统(显示控制器和/或显示装置)1504通信的图形接口,所述图形子系统1504可包括显示控制器、图形处理器和/或显示装置。

处理器1501可与存储器1503通信,在一个实施方式中,可以通过多个存储器装置来实施所述存储器以提供给定量的系统存储。存储器1503可包括一个或多个易失性存储器(或存储器)装置,诸如随机存取存储器(ram)、动态ram(dram)、同步dram(sdram)、静态ram(sram)或其他类型的存储装置。

系统1500还可包括i/o装置,诸如装置1505-1508,包括网络接口装置1505、可选的输入装置1506和其他可选的i/o装置1507。网络接口装置1505可包括无线收发器和/或网络接口卡(nic)。无线收发器可以是wifi收发器、红外收发器、蓝牙收发器、wimax收发器、无线蜂窝电话收发器、卫星收发器(例如,全球定位系统(gps)收发器)或其他射频(rf)收发器或它们的组合。nic可以是以太网卡。

输入装置1506可包括鼠标、触摸板、触敏屏幕(其可与显示装置1504集成在一起)、点选装置(诸如,定位笔)和/或键盘(例如,物理键盘或作为触敏屏幕的一部分显示的虚拟键盘)。例如,输入装置1506可包括联接到触摸屏的触摸屏控制器。触摸屏和触摸屏控制器例如可以使用多种触摸灵敏度技术(包括但不限于电容、电阻、红外和表面声波技术)中的任一种以及用于确定与触摸屏接触的一个或多个点的其他接近式传感器阵列或其他元件来检测其接触和移动或间断。

i/o装置1507可包括音频装置。音频装置可包括扬声器和/或麦克风,以促进支持语音的功能,诸如语音辨识、语音复制、数字记录和/或电话功能。其他i/o装置1507还可包括通用串行总线(usb)端口、并行端口、串行端口、打印机、网络接口、总线桥(例如,pci-pci桥)、传感器(例如,诸如加速度计的运动传感器、陀螺仪、磁强计、光传感器、罗盘、接近式传感器等)或它们的组合。装置1507还可包括成像处理子系统(例如,相机),所述成像处理子系统可包括用来促进相机功能(诸如,记录照片和视频片段)的光学传感器,诸如电荷耦合装置(ccd)或互补金属氧化物半导体(cmos)光学传感器。某些传感器可经由传感器集线器(未示出)联接到互连件1510,而其他装置(诸如,键盘或热传感器)可由嵌入式控制器(未示出)控制,这取决于系统1500的特定配置或设计。

存储装置1508可包括计算机可访问的存储介质1509(也被称为机器可读存储介质或计算机可读介质),其上存储有实现本文所述的任何一种或多种方法或功能的一个或多个指令集或软件(例如,模块、单元和/或逻辑1528)。

模块/单元/逻辑1528可表示任一上述组件,诸如例如如上所述的搜索引擎、服务器模块(例如,关键字提取模块110、关键字模块115)以及分类系统150、分类模型156和分类器模块(例如,训练模块152、确定模块154、向量映射模块162和集群分析模块164)。模块/单元/逻辑1528也可在其由数据处理系统1500、存储器1503和处理器1501(它们同样构成机器可访问的存储介质)执行期间完全地或至少部分地驻留在存储器1503内和/或处理器1501内。另外,可以将模块/单元/逻辑1528实现为硬件装置内的固件或功能电路。此外,可以在硬件装置与软件部件的任何组合中实现模块/单元/逻辑1528。

应注意,虽然系统1500被示出为具有数据处理系统的各种部件,但是其不旨在表示任何特定的架构或互连部件的方式;因为此类细节和本发明的实施方式没有密切关系。还应当了解,具有更少部件或可能具有更多部件的网络计算机、手持计算机、移动电话、服务器和/或其他数据处理系统也可与本发明的实施方式一起使用。

前述详细描述中的一些部分已经以在计算机存储器内对数据位的运算的算法和符号表示的形式而呈现。这些算法描述和表示是数据处理领域中的技术人员所使用的方法,以便最有效地将它们的工作实质传达给本领域中的其他技术人员。这里,算法通常被认为是导致所期望结果的自洽的运算序列。这些运算是需要对物理量进行物理操控的运算。

然而,应当牢记,所有这些和类似的术语均将与适当的物理量相关联,并且仅仅是应用于这些量的适宜标记。除非在以上讨论中另外明确地说明清楚,否则应当了解,贯穿本说明书,利用术语(诸如,所附权利要求书中所阐述的术语)的讨论是指计算机系统或类似电子计算装置的动作和处理,所述计算机系统或电子计算装置操控计算机系统的寄存器和存储器内的表示为物理(例如,电子)量的数据,并将所述数据变换成计算机系统存储器或寄存器或其他此类信息存储器、传输或显示装置内类似地表示为物理量的其他数据。

附图中所示的技术可以使用存储和执行于一个或多个电子装置上的代码及数据来实施。此类电子装置使用计算机可读介质来存储和通信(在内部地和/或通过网络与其他电子装置地)代码及数据,所述计算机可读介质是诸如非暂时性计算机可读存储介质(例如,磁盘;光盘;随机存取存储器;只读存储器;闪存存储器装置;相变存储器)和暂时性计算机可读传输介质(例如,电的、光学的、声学的或其他形式的传播信号—诸如载波、红外信号、数字信号)。

前述附图中所描绘的过程或方法可由处理逻辑来执行,所述处理逻辑包括硬件(例如,电路、专用逻辑等)、固件、软件(例如,实现在非暂时性计算机可读介质上的)或两者的组合。尽管过程或方法在上文中以一些顺序操作的形式来描述,但是应当了解,所描述的操作中的一些可按不同的次序执行。此外,一些操作可并行地而不是顺序地执行。

在以上的说明书中,已经参考本发明的特定例示性实施方式对其实施方式进行了描述。将显而易见的是,在不脱离如所附权利要求书中阐述的本发明的更宽泛精神和范围的情况下,可对其做出各种修改。因此,说明书和附图应当在说明性意义而不是限制性意义上来理解。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1