用于电商平台的基于主题相关的推荐方法

文档序号:10655398阅读:290来源:国知局
用于电商平台的基于主题相关的推荐方法
【专利摘要】本发明提出了一种用于电商平台的基于主题相关的推荐方法,包括:爬取网络上的多个文章,设置主题分类参数,训练生成主题分类模型;获取电商平台中的原始商品订单数据,生成主题?商品的倒排索引数据库;接收用户输入的搜索关键词,计算搜索关键词与分类主题的相关度,在主题?商品的倒排索引数据库中查找与选取分类主题相关的所有商品;计算所选商品的相关度,根据预设查询条件对剩余商品进行排序,生成查询推荐结果,反馈给用户。本发明为用户输入的关键词查找推荐最匹配的商品名称,可以帮助用户找到真正所需要产品,特别是在用户描述不精确的情况下,同样可以推荐给用户所需的产品,推荐产品与用户需求相关度高。
【专利说明】
用于电商平台的基于主题相关的推荐方法
技术领域
[0001] 本发明设及互联网技术领域,特别设及一种用于电商平台的基于主题相关的推荐 方法。
【背景技术】
[0002] 现有的针对电商平台的关键词匹配及筛选,主要采用W下两种方式:
[0003] (1)访客找回(Retargeting):基于关键字的精确匹配,只能找到用户直接相关的 产品。在用户描述不准确的情况下有时无法帮助用户找到最需要的产品。
[0004] (2)协同过滤(Collaborative Filtering):根据用户所在的用户群做推荐目标用 户可能关屯、产品。用户群很小的时候,或者用户数据不完备的时候,推荐的产品会让用户满 意度很低。被推荐的产品取决于其所在分类人群,不能反映用户自己真正的诉求。

【发明内容】

[0005] 本发明的目的旨在至少解决所述技术缺陷之一。
[0006] 为此,本发明的目的在于提出一种用于电商平台的基于主题相关的推荐方法,为 用户输入的关键词查找推荐最匹配的商品名称,可W帮助用户找到真正所需要产品,特别 是在用户描述不精确的情况下,同样可W推荐给用户所需的产品,推荐产品与用户需求相 关度局。
[0007] 为了实现上述目的,本发明的实施例提供一种用于电商平台的基于主题相关的推 荐方法,包括如下步骤:
[000引步骤SI,爬取网络上的多个文章,对所述文章进行词频统计并设置主题分类参数, 训练生成主题分类模型;
[0009] 步骤S2,获取电商平台中的原始商品订单数据,将所述原始商品订单数据加载至 所述主题分类模型中,生成主题-商品的倒排索引数据库;
[0010] 步骤S3,接收用户输入的捜索关键词,计算所述捜索关键词与分类主题的相关度, 选取相关度位于前N位的分类主题,在所述主题-商品的倒排索引数据库中查找与选取分类 主题相关的所有商品;
[0011] 步骤S4,计算所选商品的相关度,在过滤掉相关度低于阔值的商品后,根据预设查 询条件对剩余的商品进行排序,生成查询推荐结果,反馈给用户。
[0012] 进一步,在所述步骤Sl中,对爬取到的多个文章,采用正则表达式进行字符清理和 网页标签去除,将去除后的文章进行转码并打上序号。
[0013] 进一步,在所述步骤Sl中,设置主题参数包括:主题个数和最大迭代数,
[0014] 采用EM迭代算法,对转码后的文章的主题参数进行迭代训练,生成参数文件,对所 述参数文件进行标准化归一化,形成所述主题分类模型。
[0015] 进一步,在所述步骤S2中,
[0016] 将所述原始商品订单数据进行数据预处理,对预处理后的原始商品订单数据中的 产品名称,应用基于词典的正向最大匹配算法,进行切分,去除预设基本词典之外的词。 [0017] 进一步,在所述步骤S2中,
[0018] 将所述原始商品订单数据加载至所述主题分类度模型,应用EM迭代算法迭代计算 切分后的商品分词与各个分类主题的相关度;计算相关度相对阔值,对每个商品选取相关 度高分类主题的模型;
[0019] 遍历所有产品,将商品和主题模型进行倒排索引,形成主题-商品的倒排索引数据 库。
[0020] 进一步,在所述步骤S3中,采用EM迭代算法计算所述捜索关键词与分类主题的相 关度,
[0021] 根据所有主题的相关度的数值,计算其平均值和方差,过滤掉主题相关度数值低 于平均值减1.645倍的方差的主题,选取相关度位于前N位的主题。
[0022] 进一步,在所述步骤S4中,所述预设查询条件为:商品的价格、相关度、热度的查 询。
[0023] 根据本发明实施例的用于电商平台的基于主题相关的推荐方法,通过爬取网络上 的文章,训练生成主题分类模型,将电商平台的商品数据加载到该主题分类模型上,实现为 用户输入的关键词查找推荐最匹配的商品名称,可W帮助用户找到真正所需要产品,特别 是在用户描述不精确的情况下,同样可W推荐给用户所需的产品,推荐产品与用户需求相 关度高。本发明可W推荐基于主题相关的产品,帮助用户发现除直接需求之外的潜在需求, 充分发挥电商平台的长尾效应。
[0024] 本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。
【附图说明】
[0025] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得 明显和容易理解,其中:
[0026] 图1为根据本发明一个实施例的用于电商平台的基于主题相关的推荐方法的流程 图;
[0027] 图2为根据本发明另一个实施例的用于电商平台的基于主题相关的推荐方法的流 程图。
【具体实施方式】
[0028] 下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始至终相同 或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描 述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
[0029] 如图1和图2所示,本发明实施例的用于电商平台的基于主题相关的推荐方法,包 括如下步骤:
[0030] 步骤SI,爬取网络上的多个文章,对文章进行词频统计并设置主题分类参数,训练 生成主题分类模型。
[0031] 具体地,利用网络爬虫工具进行在线捜集各类文章,对爬取到的多个文章,采用正 则表达式进行字符清理和网页标签去除,例如<divXbr〉)和特殊字符(例如0⑥㈱@。% ), 将去除后的文章进行转码并打上序号。
[0032] 在本发明的一个实施例中,输入每行一篇文章,对文章转码并打上序号。
[0033] 此外,对每篇文章进行词频统计,计算每个词在文档中出现的总频率、每个词出现 在文档的数量,生成高频词列表。根据设定值判断是否加入词典,判断依据是TF(term frequency)和DF(document frequenc^y)。优选的,TF和DF的口限预设值是2。整理排序后生 成基本词典和共现词典。
[0034] 然后,设置主题参数包括:主题个数和最大迭代数。主题个数和最大迭代数都是根 据经验主观设定的。主题个数太小易欠拟合,太大易过拟合。所谓过拟合,是运样一种现象: 一个假设在训练数据上能够获得比其他假设更好的拟合,但是在测试数据集上却不能很好 的拟合。确定主题个数没有好的办法,只能用交叉验证。
[0035] 采用EM迭代算法,对转码后的文章的主题参数进行迭代训练,生成参数文件,对参 数文件进行标准化归一化,形成主题分类模型。
[0036] 具体地,采用EM算法迭代求解近似极大似然。E指的是在当前参数的情况下隐变量 的后验概率,M指的是计算的隐含变量的后验概率,得到新的参数值。两步迭代进行直到收 敛。EM迭代算法试图找到一系列的估计参数,使得训练数据的对数似然函数的期望是不断 增加的,并最后趋于稳定收敛。对迭代结果进行整理工作,将每个主题的支撑词按照P(w|z) 进行降序排列。其中,支撑词是指一个主题下面大量出现的词。根据生成参数文件,对其进 行标准化归一化,形成可用的主题分类模型。
[0037] 步骤S2,获取电商平台中的原始商品订单数据,将原始商品订单数据加载至主题 分类模型中,生成主题-商品的倒排索引数据库。
[0038] 将原始商品订单数据进行数据预处理,包括应用字符清理规则,去除特殊字符。然 后对预处理后的原始商品订单数据中的产品名称,应用基于词典的正向最大匹配算法,进 行切分,去除步骤Sl中的基本词典之外的词。
[0039] 在本发明的一个实施例中,切分的方法采用正向最大匹配算法,即从左到右将待 分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词,预设基本词典是在 训练主题模型时得出的。
[0040] 将原始商品订单数据加载至主题分类度模型,应用EM迭代算法迭代计算切分后的 商品分词与各个分类主题的相关度,计算相关度相对阔值,对每个商品选取相关度高分类 主题的模型。
[0041] 根据产品和主题的相关程度,进行降序排列,形成"商品-主题"数组放在内存或写 在临时文件。遍历所有产品,将商品和主题模型进行倒排索引,形成主题-商品的倒排索引 数据库。
[0042] 步骤S3,接收用户输入的捜索关键词,计算捜索关键词与分类主题的相关度,选取 相关度位于前N位的分类主题,在主题-商品的倒排索引数据库中查找与选取分类主题相关 的所有商品。
[0043] 具体地,根据用户输入的捜索关键词,应用加载训练好的主题分类度模型,用EM迭 代算法计算捜索关键词与分类主题的相关度,根据所有主题的相关度的数值,计算其平均 值和方差,过滤掉主题相关度数值低于平均值减1.645倍的方差的主题,选取相关度位于前 N位的主题。在主题-商品的倒排索引数据库中找到产品与选取的相关主题的所有商品。
[0044] 步骤S4,计算所选商品的相关度,在过滤掉相关度低于阔值的商品后,根据预设查 询条件对剩余的商品进行排序,生成查询推荐结果,反馈给用户。
[0045] 在本发明的一个实施例中,根据所有产品的相关度的数值,计算出平均值和方差, 过滤掉产品相关度数值低于平均值减1.645倍的方差的产品,经过排序后,选取用户要查询 的个数(例如:40个)。在得到过滤后的结果,根据预设查询条件进行排序,形成结果集返回 给查询用户。
[0046] 在本发明的一个实施例中,预设查询条件为:商品的价格、相关度、热度的查询。
[0047] 根据本发明实施例的用于电商平台的基于主题相关的推荐方法,通过爬取网络上 的文章,训练生成主题分类模型,将电商平台的商品数据加载到该主题分类模型上,实现为 用户输入的关键词查找推荐最匹配的商品名称,可W帮助用户找到真正所需要产品,特别 是在用户描述不精确的情况下,同样可W推荐给用户所需的产品的。本发明可W推荐基于 主题相关的产品,帮助用户发现除直接需求之外的潜在需求,充分发挥电商平台的长尾效 应。
[0048] 在本说明书的描述中,参考术语"一个实施例"、"一些实施例"、"示例"、"具体示 例"、或"一些示例"等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特 点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不 一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可W在任何 的一个或多个实施例或示例中W合适的方式结合。
[0049] 尽管上面已经示出和描述了本发明的实施例,可W理解的是,上述实施例是示例 性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨 的情况下在本发明的范围内可W对上述实施例进行变化、修改、替换和变型。本发明的范围 由所附权利要求极其等同限定。
【主权项】
1. 一种用于电商平台的基于主题相关的推荐方法,其特征在于,包括如下步骤: 步骤S1,爬取网络上的多个文章,对所述文章进行词频统计并设置主题分类参数,训练 生成主题分类模型; 步骤S2,获取电商平台中的原始商品订单数据,将所述原始商品订单数据加载至所述 主题分类模型中,生成主题-商品的倒排索引数据库; 步骤S3,接收用户输入的搜索关键词,计算所述搜索关键词与分类主题的相关度,选取 相关度位于前N位的分类主题,在所述主题-商品的倒排索引数据库中查找与选取分类主题 相关的所有商品; 步骤S4,计算所选商品的相关度,在过滤掉相关度低于阈值的商品后,根据预设查询条 件对剩余的商品进行排序,生成查询推荐结果,反馈给用户。2. 如权利要求1所述的用于电商平台的基于主题相关的推荐方法,其特征在于,在所述 步骤S1中, 对爬取到的多个文章,采用正则表达式进行字符清理和网页标签去除,将去除后的文 章进行转码并打上序号。3. 如权利要求1所述的用于电商平台的基于主题相关的推荐方法,其特征在于,在所述 步骤S1中,设置主题参数包括:主题个数和最大迭代数, 采用EM迭代算法,对转码后的文章的主题参数进行迭代训练,生成参数文件,对所述参 数文件进行标准化归一化,形成所述主题分类模型。4. 如权利要求1所述的用于电商平台的基于主题相关的推荐方法,其特征在于,在所述 步骤S2中, 将所述原始商品订单数据进行数据预处理,对预处理后的原始商品订单数据中的产品 名称,应用基于词典的正向最大匹配算法,进行切分,去除预设基本词典之外的词。5. 如权利要求4所述的用于电商平台的基于主题相关的推荐方法,其特征在于,在所述 步骤S2中, 将所述原始商品订单数据加载至所述主题分类度模型,应用EM迭代算法迭代计算切分 后的商品分词与各个分类主题的相关度;计算相关度相对阈值,对每个商品选取相关度高 分类主题的模型; 遍历所有产品,将商品和主题模型进行倒排索引,形成主题-商品的倒排索引数据库。6. 如权利要求1所述的用于电商平台的基于主题相关的推荐方法,其特征在于,在所述 步骤S3中,采用EM迭代算法计算所述搜索关键词与分类主题的相关度, 根据所有主题的相关度的数值,计算其平均值和方差,过滤掉主题相关度数值低于平 均值减1.645倍的方差的主题,选取相关度位于前N位的主题。7. 如权利要求1所述的用于电商平台的基于主题相关的推荐方法,其特征在于,在所述 步骤S4中,所述预设查询条件为:商品的价格、相关度、热度的查询。
【文档编号】G06F17/30GK106021562SQ201610374595
【公开日】2016年10月12日
【申请日】2016年5月31日
【发明人】杨振
【申请人】北京京拍档科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1