一种信息匹配处理方法和装置与流程

文档序号:19074803发布日期:2019-11-08 21:18阅读:188来源:国知局
一种信息匹配处理方法和装置与流程

本发明涉及数据处理技术领域,特别是涉及一种信息匹配处理方法和装置。



背景技术:

随着计算机和互联网技术的发展,电子商务网站得到了迅速的发展。在电子商务网站中通常存储有海量的数据或者产品,为了提高用户搜索感兴趣产品的效率,网站服务器往往会根据用户输入的搜索词,向用户推荐与所述搜索词匹配的产品。在向用户推荐的与搜索词匹配的产品中,一些与搜索词匹配度高、质量好且进行了广告推广的产品往往会被优先推荐给用户。而卖家为了提高产品销售量往往会选择质量好的产品进行广告推广。卖家进行广告推广时,需要为发布的产品信息购买相应的搜索关键词,如果卖家发布的产品信息与搜索关键词的匹配度越高,产品被用户搜索的几率则越大,而买家用户也更可能找到与搜索词匹配的产品,从而能够在信息海洋中获取到有用的信息。

因此,准确判断产品信息与搜索词的匹配度,不仅可以提高卖家用户推广产品的有效性,还可以减少买家用户反复搜索产品带来的客户端与服务器的数据交互,提高用户体验,同时提升服务器的性能。

现有技术存在的判断产品信息与搜索词的匹配度方法,往往是通过计算搜索词与广告产品的相关性,根据所述相关性分数判断搜索词和发布产品信息的匹配度,推荐卖家购买匹配度高的搜索关键词。

然而,现有技术存在的这种方法,只考虑搜索词与广告产品的相关性,而未考虑广告产品被用户偏好的程度,因此由此计算的匹配性并不准确。不准确的匹配性计算结果不仅导致卖家未能有效推广其产品,也导致网站向买家用户推荐的产品并不是与其需求、兴趣完全匹配的产品,买家不得不反复检索才能够获取到其真正感兴趣的产品,从而增加了用户所在客户端与服务器的数据交互,加大了服务器的数据处理负载,降低了服务器的处理性能,并严重占用了宝贵的互联网带宽资源。



技术实现要素:

为解决上述技术问题,本发明公开了一种信息匹配处理方法和装置,可提高信息匹配的客观性和准确性,提高了用户体验,降低了服务器的数据处理负载,提高服务器的处理性能,节省宝贵的互联网带宽资源。

技术方案如下:

根据本发明实施例的第一方面,公开了一种产品信息匹配处理方法,所述方法包括:

获取各搜索关键词和产品信息,并将所述各搜索关键词和产品信息两两组成搜索关键词和产品信息特征对;

计算各所述搜索关键词和产品信息特征对的相关性,根据相关性计算结果确定各所述搜索关键词和产品信息特征对的相关性档位;

计算各所述搜索关键词和产品信息特征对的预估点击率,利用分位点确定与各所述搜索关键词和产品信息特征对的预估点击率对应的预估点击率档位;

根据所述相关性档位和所述预估点击率档位确定各所述搜索关键词和产品信息特征对的评分,所述评分用于表征所述搜索关键词与产品信息的匹配程度。

根据本发明实施例的第二方面,公开了一种产品信息匹配处理装置,所述装置包括:

获取单元,用于获取各搜索关键词和产品信息,并将所述各搜索关键词和产品信息两两组成搜索关键词和产品信息特征对;

相关性档位确定单元,用于计算各所述搜索关键词和产品信息特征对的相关性,根据相关性计算结果确定各所述搜索关键词和产品信息特征对的相关性档位;

预估点击率档位确定单元,用于计算各所述搜索关键词和产品信息特征对的预估点击率,利用分位点确定与各所述搜索关键词和产品信息特征对的预估点击率对应的预估点击率档位;

匹配性确定单元,用于根据所述相关性档位和所述预估点击率档位确定各所述搜索关键词和产品信息特征对的评分,所述评分用于表征所述搜索关键词与产品信息的匹配程度。

本发明实施例的一个方面能够达到的有益效果为:本发明提供的方法和装置,在确定搜索关键词与产品信息的匹配程度时,不仅考虑了搜索关键词与产品信息的相关性,还考虑了产品被用户偏好的程度,引入了能够客观反映产品被用户偏好的程度的预估点击率因子进行预估点击率计算,并还根据预设的比例规则(例如,正态分布规律)确定该广告产品在该搜索关键词下被用户点击的概率所对应的点击率档位,由相关性档位和点击率档位综合确定搜索关键词与产品信息的匹配程度,从而得到更加准确的匹配性结果。由此,不仅可以提高卖家用户推广产品的有效性,还可以减少买家用户反复搜索产品带来的客户端与服务器的数据交互,提高用户体验,降低了服务器的数据处理负载,提高服务器的处理性能,节省宝贵的互联网带宽资源。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种信息匹配处理方法流程示意图;

图2为本发明实施例提供的标准正态分布分位表示意图;

图3为本发明实施例提供的预估点击率档位分布示意图;

图4为本发明实施例提供的信息匹配处理装置示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

本发明公开了一种信息匹配处理方法和装置,不仅考虑了搜索关键词与产品信息的相关性,还考虑了产品被用户偏好的程度,引入了能够反映产品被用户偏好的程度的预估点击率因子进行预估点击率计算,并根据正态分布规律确定该广告产品在该搜索关键词下被用户点击的概率所对应的点击率档位,由相关性档位和点击率档位综合确定搜索关键词与产品信息的匹配程度,从而得到更加准确的匹配性结果。

在本发明的一种应用场景中,在电子商务类网站,卖家需要购买搜索关键词来推广其广告产品,本发明实施例提供的方法可以应用于网站服务器端,用于判断搜索关键词与卖家发布的产品信息的匹配程度,从而向卖家推荐购买匹配度高的搜索关键词,以提高卖家用户推广产品的有效性,进一步提高卖家用户产品被买家用户点击的概率;另一方面,也可以提高买家用户搜索产品的效率,减少买家用户反复搜索产品带来的客户端与服务器的数据交互,提高用户体验,降低了服务器的数据处理负载,提高服务器的处理性能,节省宝贵的互联网带宽资源。

参见图1,为本发明实施例提供的一种信息匹配处理方法流程示意图。

S101,获取各搜索关键词和产品信息,并将所述各搜索关键词和产品信息两两组成搜索关键词和产品信息特征对。

通常对于卖家而言,其经营的产品是多样的,可能属于不同的类目,这时,可以针对卖家的产品信息分别进行处理,获取一个或多个能够描述其产品信息的词语,并与搜索关键词两两组成搜索关键词和产品信息特征对。例如,卖家的产品信息包括MP3播放器、iphone6,Note4,耳机等。搜索关键词为手机,则组成的搜索关键词和产品信息特征对就包括(手机,MP3播放器),(手机,iphone6),(手机,Note4),(手机,耳机)。当然,以上仅为示例性说明,不视为对本发明的限制。其中,所述产品信息具体可以为广告产品信息。

需要说明的是,在执行步骤S102和步骤S103之前,可以对所述各搜索关键词和产品信息进行预处理,所述预处理包括进行各项特征匹配所需的语义特征的抽取处理。具体处理的方式可以是多样的,在此不进行限定。

此外,步骤S102和步骤S103之间并没有必然的先后执行顺序,二者可以并行地执行,也可以颠倒地执行。

S102,计算各所述搜索关键词和产品信息特征对的相关性,根据相关性计算结果确定各所述搜索关键词和产品信息特征对的相关性档位。

其中,相关性的计算主要通过搜索关键词与广告产品的类目相关性以及文本相关性得到。其中,类目相关性是指搜索关键词的点击类目与广告产品所在类目的匹配程度;文本相关性包括多方面,主要是指搜索关键词的核心词与广告产品标题的核心词匹配程度以及搜索关键词中出现的属性与广告产品描述中的属性匹配度,综合类目匹配与文本匹配即可得到相关性分数。

具体实现时,步骤S102具体可以包括:将所述搜索关键词和产品信息特征对进行各项特征的匹配判断;根据所述各项特征的匹配判断结果,确定所述搜索关键词和产品信息特征对的相关性档位。

具体实现时,在进行相关性计算时,所述搜索关键词和产品信息特征对进行各项特征的匹配判断:类目特征匹配判断和文本特征匹配判断两者至少一种。

进一步,所述类目特征匹配判断为判断所述搜索关键词和产品信息是否属于同一类目。在本发明一具体实现中,所述类目特征匹配判断通常指按照文本含义所进行的类目判断。如所述搜索关键词类目同发布产品信息的类目相同,则类目特征匹配判断的结果为“是”,否则,类目特征匹配判断的结果为“否”。其中,类目特征匹配判断的结果为“否”的一种特殊情况是所述搜索关键词没有类目,对于没有类目的搜索关键词通常是其长尾比较严重,所述长尾即很少被用户搜索的搜索关键词。例如,所述搜索关键词为“mp3”,而发布产品为“音频播放器”,则两者属于同一类目,类目特征匹配判断的结果为“是”。所述搜索关键词为“mp3”,而发布产品为“收音机”,则两者不属于同一类目,类目特征匹配判断的结果为“否”。

进一步,所述文本特征匹配判断为判断所述搜索关键词和发布产品信息的文本内容是否相关联。具体地,本发明所述文本特征匹配判断包括:完全匹配判断、部分匹配判断、中心词匹配判断、中心词完全匹配判断、隐藏词匹配判断以及反向介词匹配判断中至少一种。当然,文本特征匹配判断还可以包括提取文本特征向量,利用余弦夹角公式计算文本向量的相似性的方法。本发明对此不进行限定。

在根据搜索关键词和产品信息特征对进行各项特征的匹配判断后,即可以根据所述各项特征的匹配判断结果,确定所述搜索关键词和产品信息特征对的相关性档位。在本发明中,相关性档位划分为优良差三档。

如表1所示,为相关性档位划分的一种示意性说明,当然还可以采用其他档位划分方法,在此不进行限定。

表1

S103,计算各所述搜索关键词和产品信息特征对的预估点击率,利用分位点确定与各所述搜索关键词和产品信息特征对的预估点击率对应的预估点击率档位。

具体实现时,步骤S103可以包括:预先确定预估点击率档位各档位对应的比例系数;根据所述比例系数确定分位点的数值;根据所述各所述搜索关键词和产品信息特征对的预估点击率以及所述分位点的数值确定所述预估点击率所在的档位区间。

优选地,所述分位点为正态分布分位点。

下面结合一个实例进行详细地说明。

首先对标准正态分布分位点进行介绍。标准正态分布又称为高斯分布,是以0为均数、以1为标准差的正态分布,记为N(0,1),其是一个呈现钟形的概率分布曲线,两头小,中间大,曲线下的总面积为1,其定义为:若随机变量X服从一个位置参数为μ、尺度参数为σ的概率分布,记为:

X~N(μ,σ2) (1)

其概率密度函数为

则称f服从0为平均数,1为标准差的标准正态分布。

正态分布分位点用于刻画正态分布下的曲线面积符合的规律,标准正态分布的上α分位点定义:设X~N(0,1),对于任给的α,(0<α<1),称满足P(X>Za)=α的点Za为标准正态分布的上α分位点。如查图2所示的正态分布表示意图,当Za=1,查出α=0.158655。

正态分布常用的分位点有如下规律:

函数曲线下68.268949%的面积在平均数左右的一个标准差范围内。

95.449974%的面积在平均数左右两个标准差2σ的范围内。

99.730020%的面积在平均数左右三个标准差3σ的范围内。

99.993666%的面积在平均数左右四个标准差4σ的范围内。

本发明正是应用了正态分布规律进行了预估点击率的档位划分。

其中,预估点击率eCTR是通过对历史上的多次曝光和点击行为建立数学概率模型,并通过该模型来对未来的曝光是否产生点击来进行预测,最终给出的值是指在某个词下,某个产品曝光后被用户点击的概率,因此,其是一个0~1之间的值,值越大则说明被点击可能性越大。

eCTR的预估采用业界标准的LR模型,LR模型包括特征提取和模型训练两个部分。其中,计算各所述搜索关键词和产品信息特征对的预估点击率包括:对所述搜索关键词和产品信息特征对进行特征提取,根据训练模型得到每一特征对应的特征权重;利用提取的特征以及所述特征对应的特征权重计算预估点击率。

其中,特征提取的特征包括以下所列中的一种或任意结合:所述搜索关键词的文本信息、所述搜索关键词的类目信息、所述产品信息的标题、所述产品信息的属性、所述搜索关键词与所述产品信息的相关性。

然后,通过模型训练得到特征权重后,就可以估算出广告对(Query,offer)的预估点击率eCTR。其中,Query为搜索关键词,offer为产品信息。

LR模型属于广义线性模型,它是线性模型经过Logistic公式变化而得,具体如表达式为:

其中,wi为特征权重,fi为特征值,y为最终计算的预估点击率,公式将最终结果限定为(0,1)之间,正好与点击概率相吻合。

理论上,预估准确的eCTR应符合高斯正态分布,使用关键词和全局的维度对广告对的eCTR划分档位,每一广告对的eCTR,其定会落在整体eCTR分布的对应区间上,该区间即决定了该广告对所对应的预估点击率档位。按照本发明提供的预估点击率档位划分方法,可保证大部分客户的广告产品的评分处于平均水平,小部分客户的广告产品处于较好或较差的水平。

在本发明实施例中,根据实际业务分析和经验确定,确定将预估点击率档位划分为好、中、差3档,每一档位对应的比例系数分别为3:4:3,即档位为好的广告产品所占比例为30%,档位为中的广告产品所占比例为40%,档位为差的广告产品所占比例为30%,分别对应的评分是5星,4星和3星。具体请参照图3,为预估点击率档位划分示意图。其中,横坐标为预估点击率值,纵坐标为频次,曲线面积对应概率(即比例值)。

具体实现时,当按照3:4:3的比例划分全局或关键词维度预估点击率eCTR分布时,要求偏离平均数一定范围的曲线下分布面积为0.4,两侧由于对称关系,则各为0.3,按照正态分布常用分位点的规律可得:

其中,μ为平均数,σ为标准差,Za为正态分布分位点。

也就是说,在确定预估点击率档位各档位对应的比例系数后,即可以根据所述比例系数确定正态分布分位点的数值。

假设图3服从标准正态分布,即X~N(0,1),对于任给的α,(0<α<1),称满足P(X>Zα)=α的点Zα为标准正态分布的上α分位点,Z(1-α)对应下α分位点。

Zα是一个数值,当X~N(0,1),那么P(X>Zα)=α。举例进行说明,在正态分布表中找α,对应查出Zα。例如查Z0.025的值,即需要查1-0.025=0.975对应的Z值,查找图2所示正态分布表,刚好能查到0.9750对应的Z值为1.96,故Z0.025=1.96反过来查Zα=1.96对应的α值,需要先查1.96,对应着0.975,1-0.975=0.025=即为α值。

则由图3可以看出来,a1和a2分别对应标准正态分布的两个分位点,通过图3中标的比例值,可分别对应到Zα1和Zα2上,通过上面的方法即可得到Zα1和Zα2的值,在标准正态分布下,Zα1对应上α分位点,Zα2对应下α分位点。

具体实现时,按照3:4:3的比例划分预估点击率档位各档位时,可以看到两侧偏离平均数一定范围的曲线下分布面积为0.4,左右两侧由于对称关系,则各为0.3,则在图3标准正态分布分位图中a2分位点对应的右侧曲线面积为0.3,即查Z0,3的值,即需要查1-0.3=0.7对应的Z值。查图2所示的正态分布分位表可以得到,0.7对应的Z值为0.52,则Z0,3=0.52,即a2为0.52;类似地,可以确定a1的值为-0.52。a2和a1则分别对应该比例在正态分布下的两个分位点。当然也可以按照公式(4)计算正态分布分位点Zα1和Zα2的值。由于图3满足标准正态分布分位点,因此,有X~N(0,1),即μ等于0,σ等于1,由公式(4)计算得到,Za=±0.5,对应图3,即a1=-0.5,a2=0.5。

预估点击率的取值符合一般正态分布规律。对应到一般的正态分布(μ不等于0,σ不等于1)的情况下,对应分位点则可通过正态分布分位点的规律近似得到,一般正态分布对应比例3:4:3的分位点从而可以得到以下公式:

其中,μ为平均数,σ为标准差。其中,μ和σ可以通过实际数据样本来计算得到。具体地,在获得预估点击率数值后,即可求出所有预估点击率的平均值μ以及对应的方差σ,具体计算方法可以参照现有技术存在的方法。然后,根据平均值μ以及方差σ,根据公式(4)得到一般正态分布分位点的数值。

在确定一般正态分布分位点的数值后,则可以根据预估点击率与正态分布分位点的数值大小,确定所述预估点击率所在的档位区间。例如,根据标准正态分布分位表求出预估点击率属于(0,μ-σ/2]时,其对应的预估点击率档位为差;预估点击率属于(μ-σ/2,μ+σ/2)之间时,其对应的预估点击率档位为中;预估点击率属于[μ+σ/2,1)时,其对应的预估点击率档位为好。

需要说明的是,以上以比例系数为3:4:3为例进行说明,当确定的比例系数为其他比例时,可以参照上述方法的思想进行计算。

S104,根据所述相关性档位和所述预估点击率档位确定各所述搜索关键词和产品信息特征对的评分,所述评分用于表征所述搜索关键词与产品信息的匹配程度。

具体实现时,评分的具体计算方法可以是多样的,例如采用加权平均的方法得到评分或者其他实现方式,本发明对此不进行限定。

参照表2,为星级评分的一种实现方式。

表2

其中,根据实际业务分析,可以选定使用好中差为3:4:3的比例对相关性为优的广告对进行划分,分别对应的是5星,4星和3星,对于相关性为良的广告对按照1:1的比例划分档位,分别对应2星和1星,优广告对的划分如表2所示,良的广告对由于仅两档,划分相对简单,取分布均值点均可,良广告对中,大于均值是2星,小于均值为1星。

在本发明实施例中,结合了相关性计算与预估点击率计算搜索关键词与广告产品的匹配程度,不仅告知卖家用户广告质量以及匹配度如何,还会客观反映买家用户在网站搜索产品时该广告产品被买家所点击的概率,评分星级越高,排名越靠前,买家点击的可能性就越大,带来的曝光以及反馈就会更多,使得广告客户的投资回报率也越大,提高了卖家推广产品的有效性。对于网站买家来说,广告客户对广告的优化会带来产品质量的提升,其直接结果就是用户在网站的体验会变得更好,用户所在客户端与服务器的数据交互会变少,降低了服务器的数据处理负载,提高服务器的处理性能,节省宝贵的互联网带宽资源。

参见图4,为本发明实施例提供的产品信息匹配处理装置示意图。

一种产品信息匹配处理装置400,所述装置包括:

获取单元401,用于获取各搜索关键词和产品信息,并将所述各搜索关键词和产品信息两两组成搜索关键词和产品信息特征对。

相关性档位确定单元402,用于计算各所述搜索关键词和产品信息特征对的相关性,根据相关性计算结果确定各所述搜索关键词和产品信息特征对的相关性档位。

预估点击率档位确定单元403,用于计算各所述搜索关键词和产品信息特征对的预估点击率,利用分位点确定与各所述搜索关键词和产品信息特征对的预估点击率对应的预估点击率档位。

匹配性确定单元404,用于根据所述相关性档位和所述预估点击率档位确定各所述搜索关键词和产品信息特征对的评分,所述评分用于表征所述搜索关键词与产品信息的匹配程度。

进一步的,所述预估点击率档位确定单元包括预估点击率计算子单元和档位确定子单元,其中,所述预估点击率计算子单元包括:

模型建立子单元,用于对所述搜索关键词和产品信息特征对进行特征提取,根据训练模型得到每一特征对应的特征权重;

计算子单元,用于利用提取的特征以及所述特征对应的特征权重计算预估点击率。

进一步的,所述模型建立子单元提取的特征包括以下所列中的一种或任意结合:所述搜索关键词的文本信息、所述搜索关键词的类目信息、所述产品信息的标题、所述产品信息的属性、所述搜索关键词与所述产品信息的相关性。

进一步的,所述预估点击率档位确定单元包括预估点击率计算子单元和档位确定子单元,其中,所述档位确定子单元包括:

比例系数确定子单元,用于预先确定预估点击率档位各档位对应的比例系数;

分位点确定子单元,用于根据所述比例系数确定分位点的数值;

档位区间确定子单元,用于根据所述各所述搜索关键词和产品信息特征对的预估点击率以及所述分位点的数值确定所述预估点击率所在的档位区间。

其中,所述分位点为正态分布分位点。

进一步的,所述相关性档位确定单元包括:

特征匹配子单元,用于将所述搜索关键词和产品信息特征对进行各项特征的匹配判断;

确定子单元,用于根据所述各项特征的匹配判断结果,确定所述搜索关键词和产品信息特征对的相关性档位。

进一步的,所述特征匹配子单元进行的各项特征的匹配判断包括:类目特征匹配判断和文本特征匹配判断两者至少一种;

所述类目特征匹配判断为判断所述搜索关键词和产品信息是否属于同一类目;

所述文本特征匹配判断为判断所述搜索关键词和产品信息的文本内容是否相关联。

上述各单元的功能可对应于图1详细描述的上述方法的处理步骤,于此不再赘述。需要说明的是,由于对方法实施例进行详细的阐述,对装置实施例的描述较为简单,本领域技术人员可以理解的是,可以参照方法实施例构造本发明的装置实施例。本领域技术人员在不付出创造性劳动下获取的其他实现方式均属于本发明的保护范围。

本领域技术人员可以理解的是,以上对方法和装置实施例进行了示例性说明,以上不视为对本发明的限制,本领域技术人员在不付出创造性劳动下获得的其他实现方式均属于本发明的保护范围。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。以上所述仅是本发明的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1