一种否定关键词的获取方法及装置和搜索方法及装置与流程

文档序号:11697471阅读:155来源:国知局
一种否定关键词的获取方法及装置和搜索方法及装置与流程
本申请涉及数据处理领域,特别是涉及一种否定关键词的获取方法和装置,以及一种搜索方法和装置。

背景技术:
针对搜索引擎关键词竞价广告系统,广告主在系统账户中购买关键词,每个关键词绑定一个广告。当一个用户查询词通过某种匹配方式匹配到广告主购买的关键词时,该关键词所绑定的广告将在查询词搜索结果展示页面显示。在某些情况下,对于查询词与广告的关键词进行匹配得出的搜索结果,广告主可能并不希望自己的广告出现在这些搜索结果中。例如,某广告主是一个出售电动车器材的商家,设置一个″电动车器材″的词组匹配,当搜索用户搜索″劣质电动车器材商家名录″或者″电动车器材维修点″这类搜索词的时候,该广告主的广告也会显示在搜索结果中,而且有可能显示在左侧搜索结果的上端。可以通过设定否定关键词来避免这种情况的发生,如上例,可以在该广告的关键词中添加否定关键词“劣质”,即只要用户搜索词中完整的包含了否定关键词(不论以何种词序),该广告都不会展示。当用户搜索″劣质摄影器材商家名录″时就不会展示该广告。当账户包含很多广泛匹配关键词时,否定关键词的作用非常关键。目前,否定关键词的主要来源是账户的搜索查询报告。投放广告之后,搜索引擎关键词竞价广告系统账户就将访客点击的广告,当前查询词和点击费用数据(用户点击广告后,广告主付给搜索引擎的费用)记录在搜索查询报告中。导出最近一个时期的搜索查询报告,对于点击费用数据比较高,以及点击率(点击次数除以展现次数)比较高的查询词,认为是可能对账户有价值的词,将这类词过滤掉;然后,对过滤后的查询词进行人工审核,再删掉一批可能对账户有价值的词,剩下的作为否定关键词调价到账户中。以上现有技术中存在的问题是,按照上述方案得到的否定关键词是点击次数较少的查询词,但相对于其较少的点击次数,访客在点击后展示的广告页面中的访问行为(能给广告主带来收益的行为,例如点击、注册、提交订单等)可能并不少,因此,按照上述方法选取否定关键词存在错选漏选的问题,得到的否定关键词不精确。因此,目前需要本领域技术人员解决的一个技术问题就是,提供一种否定关键词的获取机制,使选取的否定词更为精确,减少错选漏选概率。

技术实现要素:
本申请所要解决的技术问题是提供一种否定关键词的获取方法,使选取的否定词更为精确,减少错选漏选概率。本申请还提供了一种否定关键词的获取装置,用以保证上述方法在实际中的应用及实现。为了解决上述问题,本申请公开了一种否定关键词的获取方法,包括:记录依据在页面的访问行为生成的访问行为数据,并在所述访问行为数据中提取访客访问的网页信息,以及各网页信息所对应的一个或多个查询词和各查询词对应的第一特征数据;在预置数据库中提取所述查询词对应的第二特征数据和点击率;将满足下述任一条件的查询词提取为否定关键词:条件1、第二特征数据大于第三预设阀值且第三特征收益数据小于第二预设阀值的查询词;条件2、点击率小于第一预设阀值且第三特征收益数据小于第二预设阀值的查询词;其中,所述第三特征数据等于第一特征数据,或为第一特征数据与第二特征数据的比值。优选的,所述在访问行为数据中提取访问的网页信息,以及各网页信息对应的一个或多个查询词和各查询词对应的第一特征数据的步骤包括:在访问行为数据中提取访问的网页信息,以及各网页信息所对应的搜索查询词和第一特征数据;对所述搜索查询词进行归一化处理,得到各网页信息对应的一个或多个查询词,以及各查询词对应的第一特征数据。优选的,所述网页信息为广告,所述第一特征数据为收益数据,所述第二特征数据为费用数据。优选的,所述第一特征数据包括点击收益数据、登录量、订单量、展现量和交易量中的一种或几种。优选的,所述搜索查询词位于,所述访问行为数据的http头信息的referer字段中。优选的,所述在预置数据库中提取查询词对应的第二特征数据和点击率的步骤包括:在预置数据库中提取记录的多个网页信息、各网页信息对应的一个或多个查询词,以及各查询词对应的第二特征数据和点击率;将网页信息、查询词和第一特征收益数据的对应关系,与预置数据库中提取的查询词、第二特征数据和点击率的对应关系进行匹配,得到各网页信息对应的一个或多个查询词,以及各查询词对应的第一特征数据,第二特征数据和点击率。优选的,所述预置数据库为广告账户。优选的,所述广告账户通过以下步骤记录各网页信息对应的查询词,以及各查询词对应的第二特征数据和点击率:由访客输入的搜索查询词,搜索关键词与之匹配的网页信息并进行展示;记录访客点击的网页信息、当前搜索查询词、第二特征数据,以及展示的广告网页信息;针对各网页信息,统计其展示次数和点击次数,并计算各网页信息的点击率;将记录的各个搜索查询词归一化处理为一个或多个查询词,得到各网页信息对应的一个或多个查询词,以及各查询词对应的第二特征数据和点击率。优选的,所述方法还包括:将相同的查询词所对应的各个数据进行合并。本申请还提供了一种搜索方法,包括:输入搜索查询词;将所述搜索查询词与数据库中各网页信息的关键词进行匹配,所述关键词包括匹配关键词和否定关键词,其中,所述否定关键词通过上述否定关键词的获取方法得出;若所述搜索查询词按照预设匹配方式与某网页信息的匹配关键词匹配,且不包含所述否定关键词,则将该网页信息作为搜索结果输出。本申请还提供了一种否定关键词的获取装置,包括:第一特征数据获取模块,用于记录依据在页面的访问行为生成的访问行为数据,并在所述访问行为数据中提取访客访问的网页信息,以及各网页信息所对应的一个或多个查询词和各查询词对应的第一特征数据;第二特征数据获取模块,用于在预置数据库中提取所述查询词对应的第二特征数据和点击率;否定关键词提取模块,用于将满足下述任一条件的查询词提取为否定关键词:条件1、第二特征数据大于第三预设阀值且第三特征收益数据小于第二预设阀值的查询词;条件2、点击率小于第一预设阀值且第三特征收益数据小于第二预设阀值的查询词;其中,所述第三特征数据等于第一特征数据,或为第一特征数据与第二特征数据的比值。本申请还提供了一种搜索装置,包括:搜索查询词输入模块,用于输入搜索查询词;匹配模块,用于将所述搜索查询词与数据库中各网页信息的关键词进行匹配,所述关键词包括匹配关键词和否定关键词,其中,所述否定关键词通过上述否定关键词的获取方法得出;搜索结果输出模块,用于若所述搜索查询词按照预设匹配方式与某网页信息的匹配关键词匹配,且不包含所述否定关键词,则将该网页信息作为搜索结果输出。与现有技术相比,本申请具有以下优点:本申请通过记录广告页面的访问行为数据,提取访问行为数据中触发各广告的查询词带来的收益数据,然后依据所述收益数据,以及广告帐户中记录的费用数据、点击率,将费用数据高且收益数据小,以及点击率低且收益数据小的查询词作为广告的否定关键词,有利于降低广告成本,提高广告收益,从而使得选取的否定关键词更为精确,减少漏选错选的概率。由于目前主流电子商务平台中,搜索引擎带来的流量在平台总流量中占有很大的比例,本申请对选取否定关键词的优化,可以为广告主引入更优质的流量。附图说明图1是本申请的一种否定关键词的获取方法实施例的流程图;图2是本申请的一种搜索方法实施例的流程图;图3是本申请的一种否定关键词的获取装置实施例的结构框图;图4是本申请的一种搜索装置实施例的结构框图。具体实施方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。现有技术中,将用户输入的搜索查询词与广告的关键词进行匹配,匹配上的广告作为搜索结果进行展示。具体的,查询词和关键词的匹配方式可以包括以下三种:1、精确匹配:关键词匹配方式的一种,当查询词与某一广告的关键词完全相同,则查询词和竞价词匹配成功,搜索引擎触发匹配成功的关键词所对应的广告。2、词组匹配:关键词匹配方式的一种,当查询词完全包含关键词的组成成分时候且不论其各个组成成分以何种顺序出现,则查询词与关键词匹配成功,搜索引擎触发匹配成功的关键词所对应的广告,例如,查询词“mp3价格”通过词组匹配方式可以触发关键词“mp3”对应的广告3、广泛匹配:关键词匹配方式的一种,其匹配范围更广,通过广泛匹配上的查询词和关键词存在语义上的相关性即可。不要求,完全相同,或者包含关系。甚至字面意义上完全不同也可。例如“mp3”和“播放器”可构成广泛匹配关系。当使用广泛匹配和词组匹配时候,如果广告主认为使用某些搜索词的网民不是自己的潜在客户,可以通过添加否定关键词,让包含这些词的搜索词不触发自己的广告出现在搜索结果中。现有技术中,依据广告帐户的搜索查询报告来获取广告的费用数据和点击率,将费用数据和点击率比较低的查询词作为否定关键词,而费用数据比较低的查询词给广告主带来的收益数据可能并不少,按照这种方法选取否定关键词存在错选漏选的问题,得到的否定关键词不精确。参考图1,示出了本申请的一种否定关键词的获取方法实施例的流程图,具体可以包括以下步骤:步骤101、记录依据在页面的访问行为生成的访问行为数据,并在所述访问行为数据中提取访客访问的网页信息,以及各网页信息所对应的一个或多个查询词和各查询词对应的第一特征数据。访客访问包含网页信息的页面时,可以依据用户的行为信息生成相应的访问行为数据,具体实现中,可以在页面上部署JavaSript函数来捕捉访客的访问行为;也可以将该网页的流量作为访问行为数据。访问行为数据表现为http请求的形式,其中记录了访客访问的网页信息,该访客是由搜索引擎的哪个搜索查询词找到该网页信息的,以及各查询词对应的第一特征数据,在本申请中,所述网页信息为广告,所述第一特征数据为收益数据。在具体的实现中,所述搜索查询词可以位于所述访问行为数据的http头信息的referer字段中。在本申请的一种优选实施例中,所述步骤101可以包括:子步骤S11、在访问行为数据中提取访问的网页信息,以及各网页信息所对应的搜索查询词和第一特征数据;子步骤S12、对所述搜索查询词进行归一化处理,得到各网页信息对应的一个或多个查询词,以及各查询词对应的第一特征数据。由于访客输入的搜索查询词通常包含多个不同词性的描述用词,因此需要对搜索查询词进行归一化处理为多个查询词,例如,原来的搜索查询词为″金属铬牌丝印油黑″,进行归一化处理后得到″金属铬牌丝印油黑″这6个以空格隔开的查询词,经过去除空格与标点符号等非文字类符号处理后,得到″金属″、″铬″、″牌″、″丝″、″印油″和″黑″6个词,原本一个网页信息对应一个触发的搜索查询词,一个网页信息对应一个或多个查询词,每个查询词对应各自的第一特征数据。具体的,访客点击搜索结果打开广告页面后,广告页面对页面中的推荐广告、推荐用户拨打的电话进行了一次展示,或是访客在广告页面上点击广告、进行用户登录、下订单、进行交易等都会给广告主带来收益,这些访客操作对应的访问行为数据都会有相应的收益数据,相应的,收益数据可以为点击收益数据、登录量、订单量、展现量和交易量中的一种或几种。在具体的实现中,所述步骤101还可以包括:子步骤S13、将相同的查询词所对应的各个数据进行合并。由于同一网页信息对应的可能有多个访问行为数据,同一访问行为数据会有一个或多个查询词,因此,经过归一化处理后,同一网页信息对应的查询词可能会有相同的,可以将相同的查询词的数据进行合并,收益数据可以直接相加。步骤102、在预置数据库中提取所述查询词对应的第二特征数据和点击率。在本申请的一种优选实施例中,所述步骤102可以包括:子步骤S21、在预置数据库中提取记录的多个网页信息、各网页信息对应的一个或多个查询词,以及各查询词对应的第二特征数据和点击率;子步骤S22、将网页信息、查询词和第一特征收益数据的对应关系,与预置数据库中提取的查询词、第二特征数据和点击率的对应关系进行匹配,得到各网页信息对应的一个或多个查询词,以及各查询词对应的第一特征数据,第二特征数据和点击率。在本申请中,所述第二特征数据可以为费用数据。导出数据库中的一段时间的记录,将查询词、第二特征数据和点击率的对应关系和由访问行为数据中提取出的网页信息、查询词和第一特征数据的对应关系进行匹配,可以得到各网页信息对应的一个或多个查询词,以及各查询词对应的第一特征数据、第二特征数据和点击率。在本申请的一种优选实施例中,所述预置数据库可以为广告账户,所述广告帐户可以通过以下子步骤记录各网页信息对应的查询词,以及各查询词对应的第二特征数据和点击率:子步骤S31、由访客输入的搜索查询词,搜索关键词与之匹配的网页信息并进行展示;子步骤S32、记录访客点击的网页信息、当前搜索查询词、第二特征数据,以及展示的广告网页信息;子步骤S33、针对各网页信息,统计其展示次数和点击次数,并计算各网页信息的点击率;子步骤S34、将记录的各个搜索查询词归一化处理为一个或多个查询词,得到各网页信息对应的一个或多个查询词,以及各查询词对应的第二特征数据和点击率。在具体的实现中,上述步骤还可以包括:子步骤S35、将相同的查询词所对应的各个数据进行合并。在具体的实现中,可以将第二特征数据记录在广告账户中,依据搜索关键词搜索到匹配的网页信息后,将网页信息在搜索结果页面进行展示,访客点击搜索结果中的网页信息后,将触发网页信息展现的搜索查询词、所有展示的网页信息、访客点击的网页信息以及访客点击网页信息所产生的费用数据(即广告主付给搜索引擎的费用)记录下来,统计各网页信息的展示次数和点击次数可以得到各网页信息的点击率,因此,可以得到各网页信息对应的一个搜索查询词、各查询词对应的第二特征数据和点击率。由于一个搜索查询词可以是由多个查询词组成的词组,可以对各个搜索查询词进行归一化处理,首先可以将搜索查询词分隔成多个词,然后过滤掉其中的空白字符和标点,可以得到一个或多个查询词。经过如上处理,数据库中的数据结构可以表现为,各网页信息对应一个或多个查询词,各查询词有相应的第二特征数据和点击率。在具体的实现中,由于第一特征数据是在搜索结果页面记录的,第二特征数据在点击后的广告页面记录的,因此,部分第一特征数据和第二特征数据可能并不匹配。步骤103、将满足下述任一条件的查询词提取为否定关键词:条件1、第二特征数据大于第一预设阀值且第三特征收益数据小于第二预设阀值的查询词;条件2、点击率小于第三预设阀值且第三特征收益数据小于第二预设阀值的查询词;其中,所述第三特征数据等于第一特征数据,或为第一特征数据与第二特征数据的比值。在上面得出各查询词对应的第一特征数据、第二特征数据和点击率之后,可以将第一特征数据和第二特征数据的比值、或第一特征数据作为第三特征数据,即第三特征数据可以为收益数据,或收益数据和费用数据的比值,收益数据和费用数据的比值即投入产出比。否定关键词可以从两个维度提取,一种是费用数据大于第一预设阀值且收益数据(或投入产出比)大于第二预设阀值;一种是点击率大于第三预设阀值且收益数据(或投入产出比)大于第三预设阀值。如此提取出的否定关键词可以降低广告主的费用,在相同的费用数据下,可以提高关键词给广告主带来的收益数据。由于收益数据大于费用数据时,即投入产出比大于1时,可以认为带来了利润,因此第二预设阀值可以为1。如下例,给出了利用本申请的方法设定否定关键词后,广告关键词的优化效果。某关键词为w1的广告,在广告账户中,提取出其对应的查询词包括q1、q2和q3,各查询词触发该广告展示在搜索结果页面,被点击后收取的第二特征数据(费用数据)分别为500、50和100,触发广告展示后被点击的概率为10%、0.05%和3%。通过记录对该广告的访问行为数据可以得出各查询词对应的第一特征数据(收益数据,此处为点击收益数据)分别为150、30和200,可以进一步计算得出各查询词的第三特征数据(投入产出比)为1.5、0.6和1。如下表所示:由上表可见,该广告的第一特征数据(收益数据)略大于第二特征数据(费用数据),投入产出比仅仅为1.09。设定第一预设阀值为30,第二预设阀值为1,第三预设阀值为0.1%,在两种条件下提取出的查询词均为q2,因此,可以将q2作为否定关键词。在查询词中包含q2时,不触发该广告的展现。如上表为将q2设置为否定关键词后,该账户的各个数据,该广告的投入产出比由1.09增大到1.17,点击率由4%上升到了6%,因此,采用本申请的方法设置的否定关键词,可以提高广告的收益,降低广告成本,从而使得选取的否定关键词更为精确。参考图2,示出了本申请的一种搜索方法实施例的流程图,具体可以包括以下步骤:步骤201、输入搜索查询词;步骤202、将所述搜索查询词与数据库中各网页信息的关键词进行匹配,所述关键词包括匹配关键词和否定关键词,其中,所述否定关键词可以通过图1所示实施例的方法得出;步骤203、若所述搜索查询词按照预设匹配方式与某网页信息的匹配关键词匹配,且不包含所述否定关键词,则将该网页信息作为搜索结果输出。在搜索引擎中输入搜索关键词后,搜索引擎会将各网页信息对应的关键词与搜索查询词进行匹配,具体的匹配方式可以为精确匹配、词组匹配和广泛匹配,关键词包括匹配关键词和否定关键词。将关键词和搜索查询词进行匹配时,若搜索查询词按照预设的匹配方式可以与某个网页信息的匹配关键词匹配,且不包含该网页信息所对应的否定关键词,则说明搜索查询词与该网页信息匹配,可以添加到搜索结果中,并对所有与搜索查询词相匹配的网页信息进行展示。综上所述,本申请通过记录广告页面的访问行为数据,提取访问行为数据中触发各广告的查询词带来的收益数据,然后依据所述收益数据,以及广告帐户中记录的费用数据、点击率,将费用数据高且收益数据小,以及点击率低且收益数据小的查询词作为广告的否定关键词,有利于降低广告成本,提高广告收益,从而使得选取的否定关键词更为精确,减少漏选错选的概率。由于目前主流电子商务平台中,搜索引擎带来的流量在平台总流量中占有很大的比例,本申请对选取否定关键词的优化,可以为广告主引入更优质的流量。对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。参考图3,示出了本申请的一种否定关键词的获取装置实施例的结构框图,具体可以包括以下模块:第一特征数据获取模块301,用于记录依据在页面的访问行为生成的访问行为数据,并在所述访问行为数据中提取访客访问的网页信息,以及各网页信息所对应的一个或多个查询词和各查询词对应的第一特征数据;第二特征数据获取模块302,用于在预置数据库中提取所述查询词对应的第二特征数据和点击率;否定关键词提取模块303,用于将满足下述任一条件的查询词提取为否定关键词:条件1、第二特征数据大于第三预设阀值且第三特征收益数据小于第二预设阀值的查询词;条件2、点击率小于第一预设阀值且第三特征收益数据小于第二预设阀值的查询词;其中,所述第三特征数据等于第一特征数据,或为第一特征数据与第二特征数据的比值。在本申请的一种优选实施例中,所述第一特征数据获取模块可以包括:搜索查询词提取子模块,用于在访问行为数据中提取访问的网页信息,以及各网页信息所对应的搜索查询词和第一特征数据;归一化处理子模块,用于对所述搜索查询词进行归一化处理,得到各网页信息对应的一个或多个查询词,以及各查询词对应的第一特征数据。在具体的实现中,所述网页信息可以为广告,所述第一特征数据可以为收益数据,所述第二特征数据可以为费用数据,所述第一特征数据可以包括点击收益数据、登录量、订单量、展现量和交易量中的一种或几种。具体的,所述搜索查询词可以位于,所述访问行为数据的http头信息的referer字段中。在本申请的一种优选实施例中,所述第二特征数据获取模块可以包括:数据库数据提取子模块,用于在预置数据库中提取记录的多个网页信息、各网页信息对应的一个或多个查询词,以及各查询词对应的第二特征数据和点击率;匹配子模块,用于将网页信息、查询词和第一特征收益数据的对应关系,与预置数据库中提取的查询词、第二特征数据和点击率的对应关系进行匹配,得到各网页信息对应的一个或多个查询词,以及各查询词对应的第一特征数据,第二特征数据和点击率。优选的,所述第二特征数据获取模块还可以包括:合并子模块,用于将相同的查询词所对应的各个数据进行合并。在具体的实现中,所述预置数据库可以为广告账户,所述数据库数据提取子模块可以包括:搜索结果展示子单元,用于由访客输入的搜索查询词,搜索关键词与之匹配的网页信息并进行展示;第二特征数据记录子单元,用于记录访客点击的网页信息、当前搜索查询词、第二特征数据,以及展示的广告网页信息;点击率计算子单元,用于针对各网页信息,统计其展示次数和点击次数,并计算各网页信息的点击率;归一化处理子单元,用于将记录的各个搜索查询词归一化处理为一个或多个查询词,得到各网页信息对应的一个或多个查询词,以及各查询词对应的第二特征数据和点击率。参考图4,示出了本申请的一种搜索装置实施例的结构框图,具体可以包括以下模块:搜索查询词输入模块401,用于输入搜索查询词;匹配模块402,用于将所述搜索查询词与数据库中各网页信息的关键词进行匹配,所述关键词包括匹配关键词和否定关键词,其中,所述否定关键词通过图3所示实施例的装置得出;搜索结果输出模块403,用于若所述搜索查询词按照预设匹配方式与某网页信息的匹配关键词匹配,且不包含所述否定关键词,则将该网页信息作为搜索结果输出。由于所述装置实施例基本相应于前述图1和图2所示的方法实施例,故本实施例的描述中未详尽之处,可以参见前述实施例中的相关说明,在此就不赘述了。本申请可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。以上对本申请所提供的一种否定关键词的获取方法和一种否定关键词的获取装置,以及,一种搜索方法和一种搜索装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1