相似度挖掘方法及装置与流程

文档序号：11286329阅读：163来源：国知局

本发明属于信息处理
技术领域：
，更具体地，涉及一种相似度挖掘方法和装置。
背景技术：
：在这个经济快速发展的时代，人们对物质的需求也极大的提高了。由于品牌下的产品比较稳定的风格、功能、效果、口味等，人们往往会使用自己熟悉的品牌。这使得推荐系统中推荐其他品牌给用户的话，会造成一定的阻力；也使得新品牌公司难以推广本品牌的产品。所以发明一种自动化低成本的挖掘品牌相似度的方法，对于推荐系统中推荐类似风格、功能、效果、口味等品牌给用户，让用户更容易接受推荐的品牌；对于构建市场的品牌生态结构，让公司更有针对性的制定战略方案，都具有重大的意义。现有的品牌相似度挖掘方法有各方打分人工评估法和舆论热点聚类法。其中，如图1所示，各方打分人工评估法一般由人工收集品牌词；让各方，如社会人士、教育人士、政界人士、普通群众、企业精英等对各个品牌之间相似度打分；统筹各界人士打分，使用公式计算品牌相似度，给出排名。然而该方法需要大量的问卷调查，人力成本高；无论是纸质问卷还是网络问卷调查，被调查人往往会有敷衍了事的态度应对，导致结果不准确，计算结果比较主观；人工处理实时性较低，会有延迟反应。如图2所示，舆论热点聚类法一般是在社交网络上爬取包含品牌关键词的评论观点数据，使用聚类法，如lda主题聚类法，再加入公式来计算品牌网络热度。该方法在搜索引擎上或者微博等社交网络上爬取用户对品牌的评论数据，其中涉及到如何快速高效的爬取并且以方便读取的形式存储的技术；对用户评论的非结构化数据进行数据清洗，剔除垃圾数据、无用数据和干扰数据。再提纯后，以结构化的形式另外存储一份；读取需要的结构化数据，用lda主题聚类法聚类，得到每个品牌词的概率矩阵。使用公式计算品牌之间的相似度。但是，根据舆论计算网络热度比较容易因热点事件引起波动，只能代表一定的网络热度,并不能很好的代表相对稳定的品牌相似度。技术实现要素：本发明的目的在于提供一种相似度挖掘方法及装置。根据本发明的一方面，提供一种相似度挖掘方法，包括：获取用户行为数据以及品牌词数据，其中，所述用户行为数据包括用户搜索词数据和用户评论数据；根据所述用户搜索词数据以及预存的品牌词数据获取搜索品牌词；根据所述用户行为数据构建关于搜索品牌词的语料重要词汇库；将所述语料重要词汇库作为词向量工具的输入进行词向量模型训练获取所述搜索品牌词的词向量；根据所述搜索品牌词的词向量计算所述搜索品牌词之间的相似度。优选地，所述相似度挖掘方法还包括：在所述搜索品牌词与其他搜索品牌词之间的相似度都小于预设阈值时，补充所述搜索品牌词下的用户评论数据。优选地，在根据所述用户行为数据构建关于搜索品牌词的语料重要词汇库中，通过对所述用户行为数据进行过滤、合并、分词、去停用词以构建语料重要词汇库。优选地，在将所述语料重要词汇库作为词向量工具的输入进行词向量模型训练获取所述搜索品牌词的词向量中，采用word2vec作为词向量工具，并采用hs-cbow模型建立语料重要词汇库的词向量。优选地，所述相似度挖掘方法还包括：根据所述搜索品牌词之间的相似度将所述搜索品牌词进行分类，并根据所述分类结果展示各个类别的品牌相关性图。根据本发明的另一方面，提供一种相似度挖掘装置，包括：数据获取模块，用于获取用户行为数据以及品牌词数据，其中，所述用户行为数据包括用户搜索词数据和用户评论数据；搜索品牌词挖掘模块，用于根据所述用户搜索词数据以及预存的品牌词数据获取搜索品牌词；词汇库构建模块，用于根据所述用户行为数据构建关于搜索品牌词的语料重要词汇库；训练模块，用于将所述语料重要词汇库作为词向量工具的输入进行词向量模型训练获取所述搜索品牌词的词向量；相似度计算模块，用于根据所述搜索品牌词的词向量计算所述搜索品牌词之间的相似度。优选地，所述相似度挖掘装置还包括：数据补充模块，用于根据所述搜索品牌词之间的距离获取所述搜索品牌词之间的相似度。优选地，所述词汇库构建模块通过对所述用户行为数据进行过滤、合并、分词、去停用词以构建语料重要词汇库。优选地，所述训练模块采用word2vec作为词向量工具，并采用hs-cbow模型建立语料重要词汇库的词向量。优选地，所述相似度挖掘装置还包括：展示模块，用于根据所述搜索品牌词之间的相似度将所述搜索品牌词进行分类，并根据所述分类结果展示各个类别的品牌相关性图。本发明提供的相似度挖掘方法及装置根据用户的搜索词数据以及用户购买后的评论数据，使用聚类算法(如word2vector)计算品牌词的相似度，可以自动计算品牌间的相似度，降低人员成本，增加品牌召回率，提高推荐品牌转化率。附图说明通过以下参照附图对本发明实施例的描述，本发明的上述以及其他目的、特征和优点将更为清楚，在附图中：图1示出了现有技术中各方打分人工评估法的流程图；图2示出了现有技术中舆论热点聚类法的流程图；图3示出了根据本发明实施例的相似度挖掘方法的流程图；图4示出了根据本发明实施例的相似度挖掘装置的结构示意图；图5示出了根据本发明实施例的不同类别的品牌相关性图。图6a-6b示出了根据本发明实施例的母婴品牌相关性图。具体实施方式以下将参照附图更详细地描述本发明的各种实施例。在各个附图中，相同的元件采用相同或类似的附图标记来表示。为了清楚起见，附图中的各个部分没有按比例绘制。本发明可以各种形式呈现，以下将描述其中一些示例。图3示出了根据本发明实施例的相似度挖掘方法的流程图。如图3所示，所述相似度挖掘方法包括以下步骤。在步骤s01中，获取用户行为数据以及品牌词数据，其中，所述用户行为数据包括用户搜索词数据和用户评论数据。在本实施例中，通过hive查询语句从数据仓库获取用户购物后的评论文本数据、用户搜索词数据以及品牌词数据。通过观察大量的数据，了解数据后，制定过滤规则，过滤掉无效的垃圾数据。对用户购物后的评论文本数据分词与词性标注，建立专有词库提升分词与词性标注效果。在步骤s02中，根据所述用户搜索词数据以及所述品牌词数据获取搜索品牌词。在本实施例中，对用户搜索词数据进行过滤，过滤掉与品牌不相关的搜索词，得到与品牌相关的搜索词。根据品牌词数据从与品牌相关的搜索词中提取品牌词得到搜索品牌词。具体地，对用户行为数据过滤得到用户搜索词数据，其中，所述用户搜索词数据包含品牌词，以其中的一条用户搜索词数据为例，用户搜索词数据为：波司登、羽绒服、轻、薄，根据品牌词数据从该用户搜索词数据中获取其中的品牌词即搜索品牌词。我们可以得到搜索品牌词为：波司登。在步骤s03中，根据所述用户行为数据构建关于搜索品牌词的语料重要词汇库。在本实施例中，通过对所述用户行为数据进行过滤、合并、分词、去停用词以构建语料重要词汇库。在步骤s04中，将所述语料重要词汇库作为词向量工具的输入进行词向量模型训练获取所述搜索品牌词的词向量。在本实施例中，在词向量模型训练中，借助word2vec工具实现。所训练的语料重要词汇库中包含搜索品牌词的用户评论数据，每条数据包括搜索品牌词以及描述搜索品牌词的文字。为了减少造成数据对训练词向量的影响，首先对数据进行过滤及合并处理，经数据清洗处理后，得到有效的数据。另外，考虑训练速度和实现推荐的复杂度，选用训练较快且工程上相对容易实现的hs-cbow模型来建立语料重要词汇库的词向量。进一步地，在词向量维度的选择上，一般而言维度越高、文本窗口越大，词向量的特征表示效果相对会较好，但同时词向量训练耗时越长，训练结果存储占用空间越大。面对较大的数据集，维度设定为100维、文本窗口选为5能保持较快的计算效率，通过训练最后获得一定量词汇的词向量。word2vec是由google发布的神经网络工具包，主要采用的模型有cbow(contiuousbag-of-words)和skip-gram两种。可以将输入中的文本词汇转化为一系列词向量，这个工具集已经开始应用在自然语言处理的许多应用中。一种典型的word2vec算法实现是用训练文本数据构建词汇库，再通过学习得到词汇的向量表示。在s05中，根据所述搜索品牌词的词向量计算所述搜索品牌词之间的相似度。在本实施例中，通过词向量的数量积计算品牌a和b之间的距离，再根据公式sim(a,b)＝cosine(word2vec(a),word2vec(b))计算a和b之间的相似度。a和b之间的距离越大，a和b之间的相似度越高。在一个优选的实施方式中，所述相似度挖掘方法还包括步骤s06。在步骤s06中，在所述搜索品牌词与其他搜索品牌词之间的相似度都小于预设阈值时，补充所述搜索品牌词下的用户评论数据。由于用户评论纷繁复杂、数量庞大，我们不能一次性使用全部的评论数据来训练，而且并不是所有评论都对我们需要的搜索品牌词计算词向量有贡献。有贡献的数据的不充足很有可能导致我们的某个搜索品牌词找不到其相关的品牌。在此，我们根据计算出来的相似度来判断搜索品牌词是否找到相关的品牌，即当其中的一个搜索品牌词语其他搜索品牌词之间的相似度都小于预设阈值，表明该搜索品牌词未找到相关的品牌，根据未找到相似度的搜索品牌词，提取该搜索品牌词下的用户评论数据，重新从步骤s01开始，计算该搜索品牌词的词向量。该过程迭代多次，直到迭代次数大于设定的次数阈值时停止，以此来极大的提高品牌相似度距离的召回率。如下表1，举例几个品牌的相似度,更直观感受品牌相似度的度量。表1：品牌相似度品牌1品牌2相似度gxg杰克琼斯80％恒源祥南极人85％恒源祥杰克琼斯75％恒源祥麦当劳30％在一个优选的实施方式中，所述相似度挖掘方法还包括步骤s07。在步骤s07中，根据所述搜索品牌词之间的相似度将所述搜索品牌词进行分类，并根据所述分类结果展示各个类别的品牌相关性图。在本实施例，根据所述搜索品牌词之间的相似度将所述搜索品牌词进行分类，当搜索品牌词之间的相似度大于一定的阈值时，将它们归为一类，形成不同类别的结构，并展示各个类别的品牌相关性图。图5a-图5b展示了服装品牌中内衣的市场结构，如图6a-6b展示了母婴品牌中奶粉的市场结构，可以根据各个类别的品牌相关性图向用户推荐相似度高的品牌，优化品牌定位的策略。本发明提供的相似度挖掘方法根据用户的搜索词数据以及用户购买后的评论数据，使用聚类算法(如word2vector)计算品牌词的相似度，可以自动计算品牌间的相似度，降低人员成本，增加品牌召回率，提高推荐品牌转化率。图4示出了根据本发明实施例的相似度挖掘装置的结构示意图。如图4所示，所述相似度挖掘装置包括数据获取模块101、搜索品牌词挖掘模块102、词汇库构建模块103、训练模块104和相似度计算模块105。数据获取模块101用于获取用户行为数据以及品牌词数据，其中，所述用户行为数据包括用户搜索词数据和用户评论数据。在本实施例中，数据获取模块101通过hive查询语句从数据仓库获取用户购物后的评论文本数据、用户搜索词数据以及品牌词数据。通过观察大量的数据，了解数据后，制定过滤规则，过滤掉无效的垃圾数据。对用户购物后的评论文本数据分词与词性标注，建立专有词库提升分词与词性标注效果。搜索品牌词挖掘模块102用于根据所述用户搜索词数据以及预存的品牌词数据获取搜索品牌词。在本实施例中，搜索品牌词挖掘模块102对用户搜索词数据进行过滤，过滤掉与品牌不相关的搜索词，得到与品牌相关的搜索词。根据品牌词数据从与品牌相关的搜索词中提取品牌词得到搜索品牌词。具体地，搜索品牌词挖掘模块102对用户行为数据过滤得到用户搜索词数据，其中，所述用户搜索词数据包含品牌词，以其中的一条用户搜索词数据为例，用户搜索词数据为：波司登、羽绒服、轻、薄，根据品牌词数据从该用户搜索词数据中获取其中的品牌词即搜索品牌词。我们可以得到搜索品牌词为：波司登。词汇库构建模块103用于根据所述用户行为数据构建关于搜索品牌词的语料重要词汇库。在本实施例中，所述词汇库构建模块103通过对所述用户行为数据进行过滤、合并、分词、去停用词以构建语料重要词汇库。训练模块104用于将所述语料重要词汇库作为词向量工具的输入进行词向量模型训练获取所述搜索品牌词的词向量。在本实施例中，所述训练模块104借助word2vec工具实现。所训练的语料重要词汇库中包含搜索品牌词的用户评论数据，每条数据包括搜索品牌词以及描述搜索品牌词的文字。为了减少造成数据对训练词向量的影响，首先对数据进行过滤及合并处理，经数据清洗处理后，得到有效的数据。另外，考虑训练速度和实现推荐的复杂度，选用训练较快且工程上相对容易实现的hs-cbow模型来建立语料重要词汇库的词向量。采用word2vec作为词向量工具，并采用hs-cbow模型建立语料重要词汇库的词向量。所述词向量维度设定为100维，文本窗口设定为5。进一步地，在词向量维度的选择上，一般而言维度越高、文本窗口越大，词向量的特征表示效果相对会较好，但同时词向量训练耗时越长，训练结果存储占用空间越大。面对较大的数据集，维度设定为100维、文本窗口选为5能保持较快的计算效率，通过训练最后获得一定量词汇的词向量。相似度计算模块105用于根据所述搜索品牌词的词向量计算所述搜索品牌词之间的相似度。在本实施例中，相似度计算模块105通过词向量的数量积计算品牌a和b之间的距离，再根据公式sim(a,b)＝cosine(word2vec(a),word2vec(b))计算a和b之间的相似度。a和b之间的距离越大，a和b之间的相似度越高。在一个优选的实施例中，所述相似度挖掘装置还包括数据补充模块106，用于在所述搜索品牌词与其他搜索品牌词之间的相似度都小于预设阈值时，补充所述搜索品牌词下的用户评论数据。由于用户评论纷繁复杂、数量庞大，我们不能一次性使用全部的评论数据来训练，而且并不是所有评论都对我们需要的搜索品牌词计算词向量有贡献。有贡献的数据的不充足很有可能导致我们的某个搜索品牌词找不到其相关的品牌。在此，我们根据计算出来的相似度来判断搜索品牌词是否找到相关的品牌，即当其中的一个搜索品牌词语其他搜索品牌词之间的相似度都小于预设阈值，表明该搜索品牌词未找到相关的品牌，根据未找到相似度的搜索品牌词，提取该搜索品牌词下的用户评论数据，重新从步骤s01开始，计算该搜索品牌词的词向量。该过程迭代多次，直到迭代次数大于设定的次数阈值时停止，以此来极大的提高品牌相似度距离的召回率。在一个优选的实施例中，所述相似度挖掘装置还包括展示模块107，用于根据所述搜索品牌词之间的相似度将所述搜索品牌词进行分类，并根据所述分类结果展示各个类别的品牌相关性图。在本实施例，根据所述搜索品牌词之间的相似度将所述搜索品牌词进行分类，当搜索品牌词之间的相似度大于一定的阈值时，将它们归为一类，形成不同类别的结构，并展示各个类别的品牌相关性图。图5a-图5b展示了服装品牌中内衣的市场结构，如图6a-6b展示了母婴品牌中奶粉的市场结构，可以根据各个类别的品牌相关性图向用户推荐相似度高的品牌，优化品牌定位的策略。本发明提供的相似度挖掘装置根据用户的搜索词数据以及用户购买后的评论数据，使用聚类算法(如word2vector)计算品牌词的相似度，可以自动计算品牌间的相似度，降低人员成本，增加品牌召回率，提高推荐品牌转化率。依照本发明的实施例如上文所述，这些实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施例。显然，根据以上描述，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属
技术领域：
技术人员能很好地利用本发明以及在本发明基础上的修改使用。本发明的保护范围应当以本发明权利要求所界定的范围为准。当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄运杜;陈海勇
技术所有人：北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。