页面推送方法、装置、系统、存储介质及电子设备与流程

文档序号:26937709发布日期:2021-10-12 12:39阅读:64来源:国知局
页面推送方法、装置、系统、存储介质及电子设备与流程

1.本发明实施例涉及大数据处理技术领域,具体而言,涉及一种页面推送方法、页面推送装置、页面推送系统、计算机可读存储介质以及电子设备。


背景技术:

2.随着电子商务迅速发展,其接下来的发展会从流量扩张到深耕细作,而搜索广告作为电商广告的重要组成部分,如何使其具有更加定向的引流特点,是精细化营销的重要方式。其中,搜索广告就是基于搜索引擎平台的网络营销,利用人们对搜索引擎的依赖和使用习惯,在人们检索信息的时候将企业信息传递给目标用户,从而达到营销的目的。
3.在现有的关键词投放方法中,可以按照以下两种方案进行:一种是:获取搜索广告投放关键词,然后按照转化率与阈值的关系来确定是否投放;另一种是,定时下载广告商给出的关键词效果数据,然后与企业内部的效果数据进行比对分析,确定投放的关键词和着陆页。
4.但是,上述方案存在如下缺陷:由于没有提取关键词中的商品相关词,因此会导致在对关键词进行搜索时,推送的页面并不是用户所需要搜索的页面,进而导致页面推送的准确率较低。
5.因此,需要提供一种新的页面推送方法及装置。
6.需要说明的是,在上述背景技术部分发明的信息仅用于加强对本发明的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。


技术实现要素:

7.本发明的目的在于提供一种页面推送方法、页面推送装置、页面推送系统、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的页面推送的准确率较低的问题。
8.根据本公开的一个方面,提供一种页面推送方法,包括:
9.对投放关键词进行分词得到多个分词结果,并计算各所述分词结果在所述投放关键词中的分词权重;
10.根据各所述分词结果的分词权重以及各所述分词结果的词长,计算所述投放关键词的相关词;
11.根据所述相关词计算所述投放关键词的目标显示页面,并在接收到用户对所述投放关键词的触控操作时,为所述用户推送所述目标显示页面。
12.在本公开的一种示例性实施例中,对投放关键词进行分词得到多个分词结果包括:
13.基于预设的分词字典以及二元分词序列计算所述投放关键词中的每一个词之间的连接权重,并根据各所述连接权重构建第一词网;
14.根据所述第一词网得到所述投放关键词的第一分词序列,并根据所述第一分词序
列构建第二词网;
15.根据所述第二词网得到第二分词序列,并基于所述第二分词序列对所述投放关键词中的每一个词进行最大切分,得到第三分词序列;
16.根据所述第三分词序列得到所述分词结果。
17.在本公开的一种示例性实施例中,根据所述第一词网得到所述投放关键词的第一分词序列包括:
18.基于维特比算法计算所述第一词网中各个词之间的最短距离,并根据各个词以及与其对应的具有最短距离的另一个词,构建所述第一分词序列。
19.在本公开的一种示例性实施例中,根据所述第一分词序列构建第二词网包括:
20.利用多个不同元数的分词序列对所述第一分词序列进行分词得到多个包括不同词长的词组;
21.将多个所述包括不同词长的词组中能够在预设的搜索词网中共现的词组作为目标词组,并根据所述目标词组构建所述第二词网。
22.在本公开的一种示例性实施例中,计算各所述分词结果在所述投放关键词中的分词权重包括:
23.根据各所述分词结果在所述投放关键词中出现的次数、所述分词结果的总数以及各所述分词结果在所有的分词结果中出现的次数,计算各所述分词结果在所述投放关键词中的分词权重。
24.在本公开的一种示例性实施例中,根据所述相关词计算所述投放关键词的目标显示页面包括:
25.利用多个不同元数的分词序列对所述相关词进行切分得到多个切分词,并根据所述相关词以及各所述切分词构建语义矩阵;
26.对所述相关词的点击矩阵以及所述语义矩阵进行降维处理,并根据降维处理结果计算所述点击矩阵以及所述语义矩阵中每一组显示页面所包括的页面关键词的二跳率;
27.如果所述二跳率大于第一预设阈值,则将该页面关键词作为该组的内聚词组,并计算所述相关词与所述内聚词组之间的相似性值;
28.如果所述相似性值大于第二预设阈值,则将相似性值最高的内聚词组对应的显示页面作为所述投放关键词的目标显示页面。
29.在本公开的一种示例性实施例中,对投放关键词进行分词得到多个分词结果还包括:
30.获取站内数据、媒体数据以及所述投放关键词,并基于所述站内数据以及所述媒体数据计算所述投放关键词的二跳率;
31.如果所述投放关键词的二跳率小于第三预设阈值,则对所述投放关键词进行分词得到多个分词结果。
32.根据本公开的一个方面,提供一种页面推送装置,包括:
33.分词模块,用于对投放关键词进行分词得到多个分词结果,并计算各所述分词结果在所述投放关键词中的分词权重;
34.相关词计算模块,用于根据各所述分词结果的分词权重以及各所述分词结果的词长,计算所述投放关键词的相关词;
35.页面推送模块,用于根据所述相关词计算所述投放关键词的目标显示页面,并在接收到用户对所述投放关键词的触控操作时,为所述用户推送所述目标显示页面。
36.根据本公开的一个方面,提供一种页面推送系统,包括:
37.数据子系统,用于对投放关键词进行存储;
38.分词子系统,与所述数据子系统网络连接,用于对投放关键词进行分词得到多个分词结果,并计算各所述分词结果在所述投放关键词中的分词权重;
39.以及根据各所述分词结果的分词权重以及各所述分词结果的词长,计算所述投放关键词的相关词,并将相关词发送至数据子系统;
40.分流子系统,与所述数据子系统网络连接,用于根据所述相关词计算所述投放关键词的目标显示页面,并将所述目标显示页面发送至所述数据子系统;
41.外部应用子系统,与所述数据子系统网络连接,用于在接收到用户对所述投放关键词的触控操作时,为所述用户推送所述目标显示页面。
42.在本公开的一种示例性实施例中,所述页面推送系统还包括:
43.算法子系统,分别与所述分词子系统以及分流子系统网络连接,用于为所述分词子系统以及分流子系统提供算法依据;其中,所述算法包括维特比算法、隐式马尔科夫算法、词频-逆文件频率算法、感知机以及相似搜索算法中的至少一种。
44.根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的页面推送方法。
45.根据本公开的一个方面,提供一种电子设备,包括:
46.处理器;以及
47.存储器,用于存储所述处理器的可执行指令;
48.其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的页面推送方法。
49.本发明实施例提供的一种页面推送方法,一方面,通过对投放关键词进行分词得到多个分词结果,并计算各分词结果在投放关键词中的分词权重;然后根据各分词结果的分词权重以及各分词结果的词长,计算投放关键词的相关词;最后根据相关词计算投放关键词的目标显示页面,并在接收到用户对投放关键词的触控操作时,为用户推送目标显示页面,实现了基于相关词计算投放关键词的目标显示页面,最后再为用户推送该目标显示页面,解决了现有技术中由于没有提取关键词中的商品相关词,因此会导致在对关键词进行搜索时,推送的页面并不是用户所需要搜索的页面,进而导致页面推送的准确率较低,提高了页面推送的准确率;另一方面,通过根据相关词计算投放关键词的目标显示页面,并在接收到用户对投放关键词的触控操作时,为用户推送目标显示页面,提高了目标显示页面的推送效率,节省了用户时间,进而提升了用户体验。
50.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
51.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明
的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
52.图1示意性示出根据本发明示例实施例的一种关键词的搜索结果示例图。
53.图2示意性示出根据本发明示例实施例的另一种关键词的搜索结果示例图。
54.图3示意性示出根据本发明示例实施例的一种页面推送方法的流程图。
55.图4示意性示出根据本发明示例实施例的一种页面推送系统的框图。
56.图5示意性示出根据本发明示例实施例的一种分词子系统的框图。
57.图6示意性示出根据本发明示例实施例的一种对投放关键词进行分词得到多个分词结果的方法流程图。
58.图7示意性示出根据本发明示例实施例的一种第一分词序列的示例图。
59.图8示意性示出根据本发明示例实施例的一种第二分词序列的示例图。
60.图9示意性示出根据本发明示例实施例的一种第三分词序列的示例图。
61.图10示意性示出根据本发明示例实施例的一种权重标注结果的示例图。
62.图11示意性示出根据本发明示例实施例的一种分词子系统的运行流程图。
63.图12示意性示出根据本发明示例实施例的一种根据所述相关词计算所述投放关键词的目标显示页面的方法流程图。
64.图13示意性示出根据本发明示例实施例的一种分流子系统的框图。
65.图14示意性示出根据本发明示例实施例的另一种页面推送方法的流程图。
66.图15示意性示出根据本发明示例实施例的一种页面推送装置的框图。
67.图16示意性示出根据本发明示例实施例的一种用于实现上述页面推送方法的电子设备。
具体实施方式
68.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本发明的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本发明的各方面变得模糊。
69.此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
70.在现有的广告搜索技术中,大多数的搜索广告都是基于单次点击付费(cost per click,简称cpc)。用户每一次的点击都会消耗广告主的成本,如何让用户每一次点击都是有效的,是本领域的最终目标。常规的效用指标可以包括:展现量、点击量、点击率(ctr)、投
资回报率(roi)、转化率(cr)、二跳率、长尾词、相关词等等。
71.进一步的,搜索广告主要通过以下的步骤来完成搜索广告的引流作用:首先,获取关键词:电商用户(广告主)提取和自己经营领域相关的品牌词和产品词,加上搜索引擎(广告商)向电商用户(广告主)推荐的搜索词,作为推广关键词。例如:显卡(产品词),小米(品牌词),华为(品牌词),显卡天梯图(搜索词)。其次,推送关键词:电商用户(广告主)为每一个关键词设置一个自己的url路径(着陆页,即显示页面)。推送到搜索引擎(广告商)。最后,引流:当用户点击推送的关键词时,就可以通过电商用户(广告主)指定的连接进入站内,完成一次引流操作。
72.通过以上的步骤结合实际可以得出如下结论:为了提高搜索广告投放的效用,需要做好如下两个方面:一方面,准确的提取出投放关键词中对电商用户(广告主)最有用的相关词,例如:从“显卡天梯图”找到“显卡”;另一方面,找到投放关键词中对电商用户(广告主)最有利的着陆页。
73.与本发明相关的主要技术,一般有三种方案:
74.方案一:方案描述:获取搜索广告投放关键词,按照转化率与阈值的关系来确定是否投放。包括以下步骤:步骤s1、获取待投放的关键词:步骤s2、计算该关键词的转化概率:步骤s3、将转化率达到第一阈值的关键词投放到广告商的系统中。缺点:通过转化率来确定投放关键词;没有提取关键词中的商品相关词;没有手动或者自动设置着陆页。
75.方案二:方案描述:定时下载广告商给出的关键词效果数据,以及企业内部的效果数据进行对比分析,确定投放的关键词和落地页。缺点:通过关键词效果来确定投放关键词;没有提取关键词中的相关词;通过人工批量设置的方式来标注着陆页。
76.方案三:方案描述:通过标注关键词中的品牌词,将品牌词和热门词进行组合作为推荐词进行投放。缺点:提取关键词中的相关词,但有失偏颇;没有手动或者自动设置着陆页。
77.进一步的,针对以上的现有三种技术,还存在如下问题:
78.问题一:提取关键词中的相关词,使用默认着陆页(例如:搜索页)。通过点击进入着陆页,发现展示的商品并不是想要的商品,又或者想看到的是活动页而不是搜索页,它会造成投放成本的浪费。例如:【iphonexsmax好用吗】

【iphonexsmax好用吗】

默认着陆页:搜索页。具体搜索结果可以参考图1所示。
79.问题二:人工标注关键词中的相关词,人工标注着陆页(例如:搜索页)。通过这种方式能够配置不错的相关词和着陆页。但人无法标注上亿的关键词,或者很难初始实时的标注关键词,又或者判断失误等问题无法解决。例如:【iphonexsmax好用吗】

【iphonexsmax】

搜索页。具体搜索结果可以参考图2所示。
80.基于上述技术问题,如何自动生成与投放关键词对应的相关词以及如何根据相关词自动计算着陆页,成了亟需解决的问题。
81.本示例实施方式中首先提供了一种页面推送方法,如图3所示,该方法可以运行于服务器、服务器集群或云服务器等;当然,本领域技术人员也可以根据需求在其他平台运行本发明的方法,本示例性实施例中对此不做特殊限定。参考图3所示,该页面推送方法可以包括以下步骤:
82.步骤s310.对投放关键词进行分词得到多个分词结果,并计算各所述分词结果在
所述投放关键词中的分词权重;
83.步骤s320.根据各所述分词结果的分词权重以及各所述分词结果的词长,计算所述投放关键词的相关词;
84.步骤s330.根据所述相关词计算所述投放关键词的目标显示页面,并在接收到用户对所述投放关键词的触控操作时,为所述用户推送所述目标显示页面。
85.上述页面推送方法中,一方面,通过对投放关键词进行分词得到多个分词结果,并计算各分词结果在投放关键词中的分词权重;然后根据各分词结果的分词权重以及各分词结果的词长,计算投放关键词的相关词;最后根据相关词计算投放关键词的目标显示页面,并在接收到用户对投放关键词的触控操作时,为用户推送目标显示页面,实现了基于相关词计算投放关键词的目标显示页面,最后再为用户推送该目标显示页面,解决了现有技术中由于没有提取关键词中的商品相关词,因此会导致在对关键词进行搜索时,推送的页面并不是用户所需要搜索的页面,进而导致页面推送的准确率较低,提高了页面推送的准确率;另一方面,通过根据相关词计算投放关键词的目标显示页面,并在接收到用户对投放关键词的触控操作时,为用户推送目标显示页面,提高了目标显示页面的推送效率,节省了用户时间,进而提升了用户体验。
86.以下,将结合附图对本发明示例实施例页面推送方法中涉及的各步骤进行详细的解释以及说明。
87.首先,对本发明示例实施例中涉及到的专有名词进行如下解释。
88.展现量(impression):搜索引擎展示给用户的次数。
89.点击量(click):搜索引擎展示给用户,用户点击的次数。
90.点击率(click through rate,简称ctr):在互联网中,点击/展现的比值。
91.投资回报率(return on investment,简称roi):单位成本下的收益。
92.转化率(conversion rate,简称cr):指访问某一个网站的访客中,转化访客的比例。
93.二跳率:用户在广告主页面上产生的首次点击被称为二跳,二跳次数即为二跳量,二跳量/点击量的比值简称为二跳率。
94.长尾词(long tail keyword):指网站上的非目标关键词,但与目标关键词相关的也可以带来搜索流量的组合关键词,例如:2019手机排行榜,2019年新款的裤子配什么上衣好看。
95.相关词:电商商品相关词,例如:小米9怎么样好用吗?它的相关词就是小米9。
96.维特比(viterbi):动态规划算法,用于求解网络中任意两个节点之间的最短距离。在本系统中主要用于找到权重最大的分词路径。
97.隐马尔可夫(hidden markov model,简称hmm):统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。在本系统中主要用来进行分词结合推测。
98.词频-逆文件频率(简称tf-idf):词频-逆文件频率,tf表示指定的某一个词在该文件中出现的次数。tf-idf的计算方式如下所示:
[0099][0100]
其在本系统中主要用来计算关键词的相关词的权重。
[0101]
n元分词序列(n-gram):将文本内容按字进行长度n的滑动窗口操作,形成长度为n的字节片段序列,每个字节片段是一个gram,对全部gram的出现频度进行统计,并按照设定的阈值进行过滤,形成keygram列表,即为该文本的特征向量空间,每一种gram则为特征向量维度。
[0102]
二元分词序列(bigram):以大小为2的滑动窗口进行操作,切成长度为2的字节片段。
[0103]
感知机:单层神经网络,对稀疏矩阵进行降维,提取语义和点击特征。
[0104]
相似搜索:从所有的样本集中找到和某一个样本最相似的一组样本。在本系统中,用来衡量两个词是否相似。
[0105]
其次,为了便于对页面推送方法中的各步骤进行更好的解释以及说明,先对本技术中涉及的页面推送系统进行解释以及说明。
[0106]
具体的,参考图4所示,该页面推送系统可以包括:数据子系统410、分词子系统420、分流子系统430以及外部应用子系统440。其中:
[0107]
数据子系统410可以用于对投放关键词进行存储。其中,数据子系统是该页面推送系统的基础模块,可以为系统提供数据存储、查询、计算、流转以及容错等支撑。
[0108]
分词子系统420,与所述数据子系统网络连接,可以用于对投放关键词进行分词得到多个分词结果,并计算各所述分词结果在所述投放关键词中的分词权重;以及根据各所述分词结果的分词权重以及各所述分词结果的词长,计算所述投放关键词的相关词;并将相关词发送至数据子系统。其中,分词子系统是系统的功能模块,为系统提供投放关键词的分词操作以及相关词筛选工作。进一步的,参考图5所示,该分词子系统可以包括分词模块501以及权重模块502;其中,分词模块501中可以包括:搜索投放关键词模块5011、搜索修正词模块5012以及维特比分词模块5013;权重模块502可以包括权重标注模块5021以及权重筛选模块5022;其中,投放关键词的类别可以包括品类词、品牌词、产品词以及搜索词等等。
[0109]
分流子系统430,与所述数据子系统网络连接,可以用于根据所述相关词计算所述投放关键词的目标显示页面,并将所述目标显示页面发送至所述数据子系统。其中,分流子系统是系统的功能模块,为关键词提供目标显示页面(着陆页)以及url实时更新等功能。进一步的,该分流子系统可以包括url模块以及分流模块。
[0110]
外部应用子系统440,与所述数据子系统网络连接,可以用于在接收到用户对所述投放关键词的触控操作时,为所述用户推送目标显示页面(与着陆页的url对应的页面)。
[0111]
进一步的,该页面推送系统还可以包括算法子系统450、标注子系统460以及管理子系统470。其中:
[0112]
算法子系统450,分别与所述分词子系统以及分流子系统网络连接,用于为所述分词子系统以及分流子系统提供算法依据;其中,所述算法包括维特比算法、隐式马尔科夫算法、词频-逆文件频率算法、感知机以及相似搜索算法等等。
[0113]
标注子系统460,与数据子系统网络连接,该子系统是系统的基础模块,主要通过人工干预的方式来对分词标注和着陆页标注。主要标注方式可以包括:分词标注以及着陆页标注。其中,分词标注是指在分词子系统中,分词结果的相关词我们会通过电商搜索页进行验证。如果包含不错召回结果,我们就认为相关词是正确的。如果不包含,就需要人工标注。着陆页标注是指如果某一个搜索词的点击很高,但是二跳率确很低,调整后依然无法提
高二跳率,我们也需要拿出来让人工标注。
[0114]
管理子系统470,与数据子系统网络连接,子系统是系统的基础模块,用于维护相关的配置操作。例如:算法的参数、黑名单、白名单、自定义字典等。
[0115]
以下,结合图4以及图5对页面推送方法中的各步骤进行解释以及说明。
[0116]
在步骤s310中,对投放关键词进行分词得到多个分词结果,并计算各所述分词结果在所述投放关键词中的分词权重。
[0117]
在本示例实施例中,首先,对投放关键词进行分词得到多个分词结果。具体的,参考图6所示,对投放关键词进行分词得到多个分词结果可以包括步骤s610-步骤s640,以下进行详细说明。
[0118]
在步骤s610中,基于预设的分词字典以及二元分词序列计算所述投放关键词中的每一个词之间的连接权重,并根据各所述连接权重构建第一词网。
[0119]
在步骤s620中,根据所述第一词网得到所述投放关键词的第一分词序列,并根据所述第一分词序列构建第二词网。
[0120]
在本示例实施例中,首先,根据所述第一词网得到所述投放关键词的第一分词序列。具体的,根据第一词网得到投放关键词的第一分词序列可以包括:基于维特比算法计算所述第一词网中各个词之间的最短距离,并根据各个词以及与其对应的具有最短距离的另一个词,构建所述第一分词序列。
[0121]
其次,当得到第一分词序列以后,可以根据该第一分词序列构建第二词网。具体的可以包括:首先,利用多个不同元数的分词序列对所述第一分词序列进行分词得到多个包括不同词长的词组;其次,将多个所述包括不同词长的词组中能够在预设的搜索词网中共现的词组作为目标词组,并根据所述目标词组构建所述第二词网。
[0122]
在步骤s630中,根据所述第二词网得到第二分词序列,并基于所述第二分词序列对所述投放关键词中的每一个词进行最大切分,得到第三分词序列。
[0123]
在步骤s640中,根据所述第三分词序列得到所述分词结果。
[0124]
以下,将结合图5对上述步骤s610-步骤s640以及其中涉及到的步骤进行解释以及说明。
[0125]
首先,对上述分词子系统中包括的分词模块以及权重模块进行解释以及说明。
[0126]
具体的,分词模块适用于对投放关键词进行分词的模块,在本模块中,需要基于电商商品标题(sku_name)构建预设的分词字典、bigram(二元分词序列)和分词算法,以便分词的结果更加侧重于和商品相关的词。例如:在电脑显卡天梯图中,更加侧重于电脑显卡,而对天梯图关心的比较小。权重模块,基于分词模块的分词结果,对关键词进行权重标注。最终在筛选出感兴趣的关键词。
[0127]
对于分词子系统,首先需要准备语料的统计特征,在本系统中,我们准备的统计特征如下:预设的分词字典:分词字典主要是品牌词、产品词、品类词和自定义词。bigram:二元分词序列,基于互联网新闻语料和商品标题(sku_name)语料训练的bigram。例如:小米@路由器234。搜索词网:基于站内的搜索日志和点击日志,构建相关搜索词网,其可以用于衡量一个关键词的最小切分单元,共现可能性。例如:iphonexsmax的最小切分单元为iphone xs max。小米+路由器能够在搜索和点击日志中得到支持。当统计特征准备完毕,就可以按照算法进行分词。以下将会按照一个搜索关键词在分词子系统中的流转来说明分词子系
统。
[0128]
进一步的,在本示例实施例中,以“小米路由器能够让iphonexsmax连接吗?”为例进行举例说明。首先,去除投放关键词中的特殊字符,构建一个文本term(词语)。例如:小米路由器能够让iphonexsmax连接吗;其次,基于预设的分词字典、bigram计算投放关键词中每一个词的连接权重,然后根据每一个词之间的连接权重构建第一词网,通过viterbi算法计算最短路径作为分词关键词,作为第一分词序列t1。例如:小米、路由器、能够、让、iphonexsmax、连接、吗。具体示例图可以参考图7所示。
[0129]
进一步的,基于第一分词序列t1,利用多个不同元数的分词序列(2-gram,3-gram,

,n-gram等等)对上述第一分词序列进行分词得到多个不同包括不同词长的词组,然后计算相邻的2-gram,3-gram,n-gram是否在搜索词网中共现,如果能够共现,则将其作为目标词组,并基于该目标词组构建第二词网。最后,基于dijkstra计算第二词网中每个词之间的最短路径,得到第二分词序列。例如:小米路由器、能够、让、iphonexsmax、连接、吗。具体的,参考图8所示,小米+路由器来自搜索词网,能够相邻且共现,所以连接在一起。
[0130]
最后,基于第二分词序列t2和搜索词网,对其中每一个词进行最大切分,构成第三分词序列t3。例如:小米、路由器、能够、让、iphone、xs、max、连接、吗#小米路由器,iphonexsmax。具体的,参考图9所示,iphonexsmax在搜索词网中最小可以切分成为iphone xs max。所以,第三分词序列t3作为最终的分词结果。
[0131]
进一步的,在步骤s310中,当得到上述分词结果后,还需要计算各分词结果在投放关键词中的分词权重。具体的可以包括:根据各所述分词结果在所述投放关键词中出现的次数、所述分词结果的总数以及各所述分词结果在所有的分词结果中出现的次数,计算各所述分词结果在所述投放关键词中的分词权重。详细而言:
[0132]
首先,对第三分词序列中的词的权重进行标注,具体的标注方法为:
[0133]
w
c
=αtfidf
c
+β;
[0134][0135]
其中,w
c
表示词c的权重,tfidf
c
表示词c的tf-idf权重。α以及β是常参数,根据词的不同,取值不同。具体的,参考图10所示,上述各词的标注权重可以如图10中所示。
[0136]
在步骤s320中,根据各所述分词结果的分词权重以及各所述分词结果的词长,计算所述投放关键词的相关词。
[0137]
在本示例实施例中,当得到个分词结果的分词权重后,可以进行权重筛选。按照长词优先和权重大于1的准则,得到相关词为小米路由器,iphonexsmax两个词。而小米路由器和iphonexsmax无法共现在搜索词网中,因此,取最高权重的词:小米路由器;得到最终的相关词为:小米路由器。
[0138]
以下,结合图11对具体的分词子系统的整体运行流程进行进一步的解释以及说明。具体的,参考图11所示,通过分词子系统对投放关键词进行处理得到相关词,具体可以包括以下步骤:
[0139]
步骤s1101,获取投放关键词,并基于维特比算法对投放关键词进行分词;
[0140]
步骤s1102,搜索修正词,并对分词结果的权重进行标注;其中,分词结果中可以包括品类词、品牌词、产品词以及搜索词等等,词性不同,对应的标注权重不同;
[0141]
步骤s1103,判断权重是否大于1,如果是,则跳转至步骤s1104,;如果否,则跳转至步骤s1105;
[0142]
步骤s1104,将权重最大的词作为相关词;
[0143]
步骤s1105,将投放关键词作为相关词。
[0144]
具体案例可以为:iphone xsmax好用吗

iphone/xsmax/好用/吗

iphone/xsmax/好用/吗#iphonexsmax

iphone:2.3bp/xs:0.8o/好用:0.01/吗:0.01#iphonexsmax23:p

iphonexsmax。
[0145]
在步骤s330中,根据所述相关词计算所述投放关键词的目标显示页面,并在接收到用户对所述投放关键词的触控操作时,为所述用户推送所述目标显示页面。
[0146]
在本示例实施例中,首先,根据相关词计算投放关键词的着陆页。具体的,参考图12所示,根据相关词计算投放关键词的着陆页可以包括步骤s1210-步骤s1240,以下进行详细说明。
[0147]
在步骤s1210中,利用多个不同元数的分词序列对所述相关词进行切分得到多个切分词,并根据所述相关词以及各所述切分词构建语义矩阵。
[0148]
在步骤s1220中,对所述相关词的点击矩阵以及所述语义矩阵进行降维处理,并根据降维处理结果计算所述点击矩阵以及所述语义矩阵中每一组显示页面所包括的页面关键词的二跳率。
[0149]
在步骤s1230中,如果所述二跳率大于第一预设阈值,则将该页面关键词作为该组的内聚词组,并计算所述相关词与所述内聚词组之间的相似性值。
[0150]
在步骤s1240中,如果所述相似性值大于第二预设阈值,则将相似性值最高的内聚词组对应的显示页面作为所述投放关键词的目标显示页面。
[0151]
以下,将对步骤s1210-步骤s1240进行解释以及说明。
[0152]
首先,对上述分流子系统进行解释以及说明。具体的,参考图13所示,该分流子系统可以包括统一资源定位符(url)模块1310以及分流模块1320。
[0153]
其中,url模块可以分为周期和实时更新两种方式。周期(准实时)的方式用来更新一些时效性不强的着陆页,而实时用来更新实时要求很强的着陆页。例如:周期更新一些指向下架商品的着陆页,实时更新指向活动结束的着陆页,以便于提高着陆页的准确性。进一步的,分流模块可以基于相关词语义,点击日志等数据,离线计算每一个关键词的着陆页,其可以包括基于分流模型1321设置的热卖页1322、搜索页1323、店铺页1324、商详页1325、活动页1326以及品专页1327等等。
[0154]
其次,对上述步骤s1210-步骤s1240进行解释以及说明。首先,从数据子系统中读取相关词,然后基于相关词按照1-gram,2-gram,3-gram,n-gram对相关词进行切分得到多个切分词;统计全部的相关词,根据各相关词以及各切分词构建语义矩阵,具体可以入下表1所示:
[0155]
表1
[0156][0157]
其次,统计相关词的全部点击,并基于相关词的点击构建相关词的点击矩阵,具体可以如下表2所示:
[0158]
表2
[0159][0160]
进一步的,基于感知机算法对语义矩阵以及点击矩阵进行降维处理,然后基于降维处理结果计算每一组着陆页(显示页面)所包括的页面关键词的二跳率(例如:指向搜索页的一组着陆页),如果二跳率大于排名前
ɑ
(第一预设阈值,例如:二跳率排名前10%),则将该页面关键词作为该组的内聚词组。
[0161]
最后,基于相似搜索算法,计算相关词与内聚词组的相似性值,如果相似性值大于β(第二预设阈值),则使用该着陆页组设定新的着陆页,否则采用默认的着陆页。当得到该着陆页以后,输出着陆页到数据子系统中,并周期或者实时的更新该着陆页。
[0162]
进一步的,当得到上述着陆页(目标显示页面)以后,在接收到用户对所述投放关键词的触控操作时,为所述用户推送该目标显示页面。通过该方法,可以提高推送的页面的准确率,进而提升用户体验。
[0163]
此外,为了可以进一步的提高相关词的准确率,可以先计算投放关键词的二跳率,当投放关键词的二跳率较小时,才需要对投放关键词进行分词步骤。具体的,对投放关键词进行分词得到多个分词结果还包括:获取站内数据、媒体数据以及所述投放关键词,并基于所述站内数据以及所述媒体数据计算所述投放关键词的二跳率;如果所述投放关键词的二跳率小于第三预设阈值,则对所述投放关键词进行分词得到多个分词结果。当然,如果二跳率较大,则直接将该投放关键词作为相关词。通过该方法,当出现投放关键词的二跳率较低时,将会使用分词子系统中的分词标注、权重筛选来确定相关词。
[0164]
以下,结合图14对本发明示例实施例的页面推送方法进行进一步的解释以及说明。参考图14所示,该页面推送方法可以包括以下步骤:
[0165]
步骤s1410,获取站内数据(例如:搜索、点击、订单等)、媒体数据(例如:媒体展示、
点击、消费等)以及投放关键词(在广告商系统中投放的关键词)),然后计算投放关键词在站内数据以及媒体数据中的二跳率;
[0166]
步骤s1420,判断二跳率是否大于预设二跳率值(第三预设阈值,例如可以是0.8,也可以是0.9,本示例对此不做特殊限制);如果是,跳转至步骤s1430;如果否,跳转至步骤s1440;
[0167]
步骤s1430,使用投放关键词作为相关词;
[0168]
步骤s1440,用分词子系统中的分词标注、权重筛选来确定相关词;
[0169]
步骤s1450,使用分流子系统计算相关词的着陆页;
[0170]
步骤s1460,用户通过点击关键词、到达着陆页。如果着陆页有效,跳转到着陆页。如果着陆页无效,采用默认的着陆页(例如:搜索页)。
[0171]
本发明示例实施例提供的页面推送方法,至少具有以下优点:
[0172]
一方面,实现了基于相关词计算投放关键词的着陆页,最后再为用户推送该着陆页,解决了现有技术中由于没有提取关键词中的商品相关词,因此会导致在对关键词进行搜索时,推送的页面并不是用户所需要搜索的页面,进而导致页面推送的准确率较低,提高了页面推送的准确率;
[0173]
另一方面,提高了着陆页的推送效率,节省了用户时间,进而提升了用户体验;
[0174]
再一方面,解决了上述问题1中所提及的:提取关键词中的相关词,使用默认着陆页(例如:搜索页)。通过点击进入着陆页,发现展示的商品并不是想要的商品,又或者想看到的是活动页而不是搜索页,它会造成投放成本的浪费的问题。
[0175]
进一步的,解决了上述问题2中所提及的:人工标注关键词中的相关词,人工标注着陆页(例如:搜索页)。通过这种方式能够配置不错的相关词和着陆页。但人无法标注上亿的关键词,或者很难初始实时的标注关键词,又或者判断失误等问题。
[0176]
本发明示例实施例还提供了一种页面推送装置。参考图15所示,该页面推送装置可以包括分词模块1510、相关词计算模块1520以及页面推送模块1530。其中:
[0177]
分词模块1510可以用于对投放关键词进行分词得到多个分词结果,并计算各所述分词结果在所述投放关键词中的分词权重;
[0178]
相关词计算模块1520可以用于根据各所述分词结果的分词权重以及各所述分词结果的词长,计算所述投放关键词的相关词;
[0179]
页面推送模块1530可以用于根据所述相关词计算所述投放关键词的目标显示页面,并在接收到用户对所述投放关键词的触控操作时,为所述用户推送所述目标显示页面。
[0180]
在本公开的一种示例性实施例中,对投放关键词进行分词得到多个分词结果包括:
[0181]
基于预设的分词字典以及二元分词序列计算所述投放关键词中的每一个词之间的连接权重,并根据各所述连接权重构建第一词网;
[0182]
根据所述第一词网得到所述投放关键词的第一分词序列,并根据所述第一分词序列构建第二词网;
[0183]
根据所述第二词网得到第二分词序列,并基于所述第二分词序列对所述投放关键词中的每一个词进行最大切分,得到第三分词序列;
[0184]
根据所述第三分词序列得到所述分词结果。
[0185]
在本公开的一种示例性实施例中,根据所述第一词网得到所述投放关键词的第一分词序列包括:基于维特比算法计算所述第一词网中各个词之间的最短距离,并根据各个词以及与其对应的具有最短距离的另一个词,构建所述第一分词序列。
[0186]
在本公开的一种示例性实施例中,根据所述第一分词序列构建第二词网包括:
[0187]
利用多个不同元数的分词序列对所述第一分词序列进行分词得到多个包括不同词长的词组;
[0188]
将多个所述包括不同词长的词组中能够在预设的搜索词网中共现的词组作为目标词组,并根据所述目标词组构建所述第二词网。
[0189]
在本公开的一种示例性实施例中,计算各所述分词结果在所述投放关键词中的分词权重包括:
[0190]
根据各所述分词结果在所述投放关键词中出现的次数、所述分词结果的总数以及各所述分词结果在所有的分词结果中出现的次数,计算各所述分词结果在所述投放关键词中的分词权重。
[0191]
在本公开的一种示例性实施例中,根据所述相关词计算所述投放关键词的着陆页包括:
[0192]
利用多个不同元数的分词序列对所述相关词进行切分得到多个切分词,并根据所述相关词以及各所述切分词构建语义矩阵;
[0193]
对所述相关词的点击矩阵以及所述语义矩阵进行降维处理,并根据降维处理结果计算所述点击矩阵以及所述语义矩阵中每一组显示页面所包括的页面关键词的二跳率;
[0194]
如果所述二跳率大于第一预设阈值,则将该页面关键词作为该组的内聚词组,并计算所述相关词与所述内聚词组之间的相似性值;
[0195]
如果所述相似性值大于第二预设阈值,则将相似性值最高的内聚词组对应的显示页面作为所述投放关键词的目标显示页面。
[0196]
在本公开的一种示例性实施例中,对投放关键词进行分词得到多个分词结果还包括:
[0197]
获取站内数据、媒体数据以及所述投放关键词,并基于所述站内数据以及所述媒体数据计算所述投放关键词的二跳率;
[0198]
如果所述投放关键词的二跳率小于第三预设阈值,则对所述投放关键词进行分词得到多个分词结果。
[0199]
上述页面推送装置中各模块的具体细节已经在对应的页面推送方法中进行了详细的描述,因此此处不再赘述。
[0200]
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
[0201]
此外,尽管在附图中以特定顺序描述了本发明中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
[0202]
在本发明的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
[0203]
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
[0204]
下面参照图16来描述根据本发明的这种实施方式的电子设备1600。图16显示的电子设备1600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0205]
如图16所示,电子设备1600以通用计算设备的形式表现。电子设备1600的组件可以包括但不限于:上述至少一个处理单元1610、上述至少一个存储单元1620、连接不同系统组件(包括存储单元1620和处理单元1610)的总线1630以及显示单元1640。
[0206]
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1610执行,使得所述处理单元1610执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元1610可以执行如图3中所示的步骤s310:对投放关键词进行分词得到多个分词结果,并计算各所述分词结果在所述投放关键词中的分词权重;步骤s320:根据各所述分词结果的分词权重以及各所述分词结果的词长,计算所述投放关键词的相关词;步骤s330:根据所述相关词计算所述投放关键词的目标显示页面,并在接收到用户对所述投放关键词的触控操作时,为所述用户推送所述目标显示页面。
[0207]
存储单元1620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)16201和/或高速缓存存储单元16202,还可以进一步包括只读存储单元(rom)16203。
[0208]
存储单元1620还可以包括具有一组(至少一个)程序模块16205的程序/实用工具16204,这样的程序模块16205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0209]
总线1630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
[0210]
电子设备1600也可以与一个或多个外部设备1700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备1600交互的设备通信,和/或与使得该电子设备1600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口1650进行。并且,电子设备1600还可以通过网络适配器1660与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器1660通过总线1630与电子设备1600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备1600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
[0211]
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本发明实施方式的
方法。
[0212]
在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
[0213]
根据本发明的实施方式的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0214]
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0215]
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
[0216]
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。
[0217]
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0218]
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
[0219]
本领域技术人员在考虑说明书及实践这里发明的发明后,将容易想到本发明的其他实施例。本技术旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未发明的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1