基于标签用户品牌偏好行为预测方法及其装置与流程

文档序号：12786511阅读：1210来源：国知局

本发明涉及信息技术领域，尤其涉及了一种基于标签用户品牌偏好行为预测方法及其装置。

背景技术：

市场上现有的品牌偏好行为预测技术方案一般遵循数据规整、关键词识别和匹配、品牌权重统计。数据规整时由于数据来源纷繁复杂，特别是通过机器从互联网上直接采集提取的数据，数据的字符类型和长度大小等无法做到完全的统一规范，所以需要进行统一的数据格式化。通过统一化的规整，可以有效剔除脏数据，降低无效数据的影响，提高后期数据的分析效率和准确率。关键词识别和匹配时，通过需要长期人工维护的文本词语维表库，对规范好的文本语句进行文本切词，确保核心的词语能够被准确切分开来。将经过文本切除之后数据与品牌维表库进行匹配关联，得出文本中所描述的品牌信息，并且根据文本相似程度、匹配率和出现频度等指标，进行初步权重计算，得出文本中的品牌权重分值。通常，由于市场上的品牌变化频繁以及中文文本语义的多样性特点，品牌维表库多需要经常或者不定期的整理维护，以保证品牌的匹配率和准确率。品牌权重统计时，根据互联网分词结果，结合每个品牌所出现的频次，品牌的相似程度等特性，通过聚类方式得出各个品牌偏好最终权重值。存在的问题：多数数据筛选仍存在大量人工干预，效率低，执行时间长；没有良好的技术手段实现因语义引起的数据分析误差，导致错误率较高，数据真实性待考证。

技术实现要素：

本发明针对现有技术中多数数据筛选仍存在大量人工干预，效率低，执行时间长；没有良好的技术手段实现因语义引起的数据分析误差，导致错误率较高，数据真实性待考证这些缺点，提供了一种基于标签用户品牌偏好行为预测方法及其装置。

为了解决上述技术问题，本发明提供了一种基于标签用户品牌偏好行为预测方法。该方法包括：获取用以反映用户上网行为的URL数据；解析所述URL数据，从解析结果中提取搜索关键词并存储在用户搜索行为表中；从所述解析结果中提取电商的商品编码；通过爬虫式数据库，获取与所述商品编码相对应的电商浏览数据并存储在用户电商浏览行为表中；对所述用户搜索行为表和用户电商浏览行为表中存储的数据通过文本智能分词和语义分析，删除与品牌信息不相符的数据，形成第一数据集合；对所述第一数据集合进行聚类分析，获得用户对品牌信息的偏好程度，计算得到用户的品牌偏好。

可选地，所述方法还包括：通过预设的数据黑白名单，过滤所述URL数据。

可选地，所述使用所述品牌偏好数据模型，获取用户的品牌偏好度，具体包括：

使用如下公式计算所述用户的品牌偏好度：

其中，αplatformj为计算得出的平台权重；Ni为在售i品牌的电商数量；αaction为计算得出的行为权重；αt为计算得出的时间权重和频率权重。

可选地，所述语义分析具体通过Word2vec的语义相似度算法完成。

可选地，所述从解析结果中提取搜索关键词，具体包括：

基于平均互信息，从解析结果中提取品牌关键词；

所述平均互信息通过如下算式计算：

其中，I(xi；yi)为x，y共同出现的概率；p(xiyi)为x，y同时出现的概率，p(xi|yi)为y出现时会出现x的概率，p(xi)为x出现的概率；x和y为任意两个词。

本发明还提供了一种基于标签用户品牌偏好行为预测装置。该装置包括：URL数据获取模块，用于获取用以反映用户上网行为的URL数据；关键词提取模块，用于解析所述URL数据，从解析结果中提取搜索关键词并存储在用户搜索行为表中商品编码提取模块，用于从所述解析结果中提取电商的商品编码；电商浏览数据获取模块，用于通过爬虫式数据库，获取与所述商品编码相对应的电商浏览数据并存储在用户电商浏览行为表中；第一数据集合生成模块，用于对所述用户搜索行为表和用户电商浏览行为表中存储的数据通过文本智能分词和语义分析，删除与品牌信息不相符的数据，形成第一数据集合；品牌偏好度生成模块，用于对所述第一数据集合进行聚类分析，获得用户对品牌信息的偏好程度，计算得到用户的品牌偏好。

可选地，所述URL数据获取模块还用于通过预设的数据黑白名单，过滤所述URL数据。

可选地，所述品牌偏好度生成模块具体用于：使用如下公式计算所述用户的品牌偏好度：

其中，αplatformj为计算得出的平台权重；Ni为在售i品牌的电商数量；αaction为计算得出的行为权重；αt为计算得出的时间权重和频率权重。

可选地，所述第一数据集合生成模块具体用于：通过Word2vec的语义相似度算法完成语义分析。

可选地，所述关键词提取模块具体用于：基于平均互信息，在所述解析结果中提取品牌关键词；

所述平均互信息通过如下算式计算：

其中，I(xi；yi)为x，y共同出现的概率；p(xiyi)为x，y同时出现的概率，p(xi|yi)为y出现时会出现x的概率，p(xi)为x出现的概率；x和y为任意两个词。

本发明通过关键词提取技术可以大大提升关键词提取效率，降低人工成本投入，减少因人工输出产生的误差率；通过语义纠正技术，能进一步深入分析URL文本信息提取的正确性，保证后续品牌偏好分析结果的真实性和可靠性；通过品牌偏好模型建立，精准分析出用户的品牌偏好，可动态地调整标签的赋值和划分，并基于标签对用户行为进行预测，实现企业精准推荐，提供个性化服务。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的基于标签用户品牌偏好行为预测方法的方法流程图；

图2是本发明的具体算法流程图。

图3是本发明的部分流程图。

图4是本发明的部分示意图。

图5是本发明的结构示意图。

具体实施方式

下面结合实施例对本发明做进一步的详细说明，以下实施例是对本发明的解释而本发明并不局限于以下实施例。

示例性方法：

本发明为一种基于标签用户品牌偏好行为预测方法，如图1所示，包括以下步骤：

S1：获取用以反映用户上网行为的URL数据。

可选地，由于URL数据的稀疏特性，可以在进行提取关键词前，使用合适的方法进行一些预处理，例如通过预设的数据黑白名单，过滤所述URL数据从而减少需要处理的URL数据，具有更好的代表性。

S2：解析所述URL数据，并从解析结果中提取搜索关键词并存储在用户搜索行为表中。

URL是统一资源定位器的简称，可以理解为网络中某一站点或者资源的访问地址。解析的过程是指用于获取URL对应的内容的过程，其解析结果可以包括文字信息、图像信息或者其他类型的信息。在URL中的特定字符串存储着关键词信息，可以将该字符串进行转码，还原成中文文本。

具体的，可以解析用户访问的URL，根据预先设定的品牌信息从该解析后的URL数据中提取关键词并存储在用户搜索行为表中。

更具体的，该关键词搜索可以基于平均互信息完成(即两个词之间的关联程度)。平均互信息是指I(xi；yi)互信息量在联合概率空间p(xy)上的统计平均值。

其中，I(xi；yi)可以通过如下算式计算：

实际操作过程中，通过p(xi|yi)/p(xi)得出x和y出现的概率比值，使用log公式可以使概率值变成整数，此时log的底数可以用忽略不计。同时通过p(xiyi)计算x和y的亲密度。然后将所有出现的概率值和亲密度进行连加，得出的值作为最终统计的平均值。上述通过平均互信息计算为现有常用的，从大量信息中搜索获取关键词的技术，为本领域技术人员所熟知，在此不作赘述。

S3：解析所述URL数据，并从解析结果中提取电商的商品编码。

与步骤S2相类似的，解析的过程是指用于获取URL对应的内容的过程，其内容也可以包括文字信息、图像信息或者其他类型的信息。解析用户访问的URL，在所述解析信息中提取电商的商品编码，获取与所述商品编码相对应的电商浏览数据并存储在用户电商浏览行为表中。所述电商商品编码一般是数字或者字母加数字组合，存在特殊的特定字符串之中，可以通过预定的规则直接识别提取。

S4：通过爬虫式数据库，获取与所述商品编码相对应的电商浏览数据并存储在用户电商浏览行为表中。

日常的互联网海量数据循环采集，通过爬虫技术提取商品ID与商品关联信息，用户互联网上位行为数据根据URL信息提取的商品ID与爬虫数据进行对比，从而直接匹配得出品牌识别偏好。

S5：对所述用户搜索行为表和用户电商浏览行为表中存储的数据通过文本智能分词和语义分析，删除与品牌信息不相符的数据，形成第一数据集合。所述品牌信息是指示出是什么商品品牌的信息。

上述智能分词和语义分析为了尽可能消除单纯关键词匹配导致的错误信息提取。用户通常的购物倾向中，对于某些品牌会存在着特别的偏好，可以首先将一些错误或者不可能的品牌信息的相关数据删除，形成第一数据集合从而更好的进行行为预测。具体的，采用Word2vec的语义相似度算法来进行语义纠正，具体算法模型如下：

如图3所示，为CBOW(连续性词袋模型，Continuous Bags-of-Words Model)模型的示意图--已知当前词w_t的上下文w_(t-2),w_(t-1),w_(t+1),w_(t+2)的前提下预测当前词w_t。

如图3和4所示，在该模型中：

输入层：包含Context(w)中2c个词的词向量v(Context(w)1)，v(Context(w)2)…,v(Context(w)2c)∈Rm.。这里，m的含义表示词向量长度。

投影层：将输入层的2c个向量做求和累加，即xw＝∑v(Context(w)i)∈Rm.

输出层：输出层对应一棵二叉树，它是以语料中出现过的词当叶子结点，以各词在语料中出现的次数当权值构造出来的Huffman树。在这课Huffman树中，叶子结点共N(＝|D|个)，分别对应词典D中的词，非叶子结点N-1个。

5：对所述第一数据集合进行聚类分析，获得用户对品牌信息的偏好程度，计算得到用户的品牌偏好。

在本实施例中，根据所述第一数据集合，通过统计分析，可以得到用户对某个产品/品牌的偏好程度，可以从这三个维度进行：行为权重αaction、平台权重αplatform、时间权重以及频率权重αt。其中，衡量行为权重可以包括：购买>加入购物车>收藏>搜索>浏览。衡量平台权重可以包括：电商平台>其他平台。衡量时间权重可以包括：偏好度随着时间衰减。衡量频率权重的可以包括：访问频次越高，偏好度越强。

相对应地，可以使用如下品牌偏好数据模型算式计算用户对某个品牌的偏好度值：：

其中，αplatformj:计算得出的平台权重；Ni就是在售i品牌的电商数量；αaction：计算得出的行为权重；αt：计算得出的时间权重和频率权重。在该模型中，通过将αplatform、αaction、αt这三个权重的进行连加，最终得出最终的品牌偏好最终值。t是时间，可以根据实际设定。

优选地，所述数据库为爬虫数据库，爬虫数据库中的数据为电商网站全量数据。

图5为本发明实施例提供的一种基于标签用户品牌偏好行为预测装置。如图5所示，该装置包括：URL数据获取模块100，用于获取用以反映用户上网行为的URL数据；关键词提取模块200，用于用于解析所述URL数据，从解析结果中提取搜索关键词并存储在用户搜索行为表中；商品编码提取模块300，用于从所述解析结果中提取电商的商品编码；电商浏览数据获取模块400，用于通过爬虫式数据库，获取与所述商品编码相对应的电商浏览数据并存储在用户电商浏览行为表中；第一数据集合生成模块500，用于对所述用户搜索行为表和用户电商浏览行为表中存储的数据通过文本智能分词和语义分析，删除与品牌信息不相符的数据，形成第一数据集合；品牌偏好度生成模块600，用于使用所述品牌偏好数据模型，获取用户的品牌偏好度。

该装置的功能模块100-600还可以执行上述方法实施例中相对应的步骤，实现相应的功能。装置实施例与方法实施例均基于相同的发明构思，为陈述简便，在此不作赘述。

以下详细说明该方法的应用实例：

获取到用户的上网行为URL数据，对上网行为URL数据进行解析，获得对应的解析结果；比如用户经常在网上搜索“豆浆机”“家电”“九阳”等，先根据需求，获取到用户这些上网记录，选取“九阳”这个关键词，将“九阳”存储到搜索行为表中，有可能还伴随着和“九阳”读音相同或者含有“九阳”的词语，此时就需要对搜索行为表中和用户电商浏览行为表中的全部数据进行文本分词和语义纠正，在剩余的词语中提取电商的商品编码，与数据库中相应商品编码进行匹配，匹配成功，则获取相应商品的用户电商浏览数据，将用户电商浏览数据存储在用户电商浏览行为表中；将搜索行为表中和用户电商浏览行为表中的全部数据进行处理，剔除一些明显不符合的品牌信息，获取供数据挖掘的基础数据；

根据基础数据，建立品牌偏好数据模型，获取最终品牌偏好度值，进而获得品牌偏好值。

通过以下方式提取关键词语：上网行为URL数据经过过滤之后获得搜索关键词数据，得到关键词的平均概率，计算公式如下：

I(x_i；y_i)互信息量在联合概率空间p(xy)上的统计平均值

I(x_i；y_i)表示计算x，y共同出现的概率，以得出两个词之间的关联度；

p(x_iy_i)表示计算x，y同时出现的概率；

p(x_i|y_i)表示计算y出现时出现x的概率；

p(x_i)表示计算x出现的概率。概率越高，出现的几率越大。

作为优选，所述建立品牌偏好数据模型是指，建立的品牌偏好数据模型如下：

αplatformj为计算得出的平台权重；Ni为在售i品牌的电商数量；αaction为计算得出的行为权重；αt为计算得出的时间权重和频率权重。

根据计算公式可知：其根据四个维度进行考虑，来确定品牌偏好度，行为权重：购买>加入购物车>收藏>搜索>浏览，比如，买“九阳”的次数多于其他品牌的次数；平台权重：电商平台>其他平台；时间权重：偏好度随着时间衰减；频率权重：访问频次越高，偏好度越强。

此外，需要说明的是，本说明书中所描述的具体实施例，其零、部件的形状、所取名称等可以不同。凡依本发明专利构思所述的构造、特征及原理所做的等效或简单变化，均包括于本发明专利的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：江有归;封雷;马嵩;徐焕根
技术所有人：杭州泰一指尚科技有限公司
我是此专利的发明人

上一篇：一种电力设备数据流故障识别方法与流程
上一篇：一种大开口度全自动控制的汇合夹送辊的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。