基于用户访问数据的用户画像形成方法与流程

文档序号:19366555发布日期:2019-12-10 20:54阅读:2311来源:国知局
基于用户访问数据的用户画像形成方法与流程

本发明涉及计算机技术领域,更具体地,涉及一种基于用户访问数据的用户画像形成方法。



背景技术:

大数据一般是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

用户画像是大数据时代下产生的重要的技术应用,其目标是在建立多维的针对用户的描述性标签属性,从而利用这些标签属性对用户多方面的真实个人特征进行勾勒,进而,可以利用用户画像发掘用户需求,分析用户偏好,并通过匹配用户画像提供给用户更高效和更有针对性的信息输送以及更贴近个人习惯的用户体验。

目前用户画像的形成一般应用于电子商务网站、新闻推荐系统等,旨在更准确地向用户推荐其感兴趣的商品或新闻,提高用户体验。

建立用户画像的数据一般有用户现实生活中的数据和网络行为数据。现实生活中的数据包括用户的基本信息如姓名、性别、年龄、运动爱好等数据,而网络行为数据包括用户在互联网世界里进行网页访问、游戏、听音乐、看电影、社交等行为记录。

协同过滤(英语:collaborativefiltering),作为用户画像与推荐系统的一种经典方法,简单来说是利用兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。

基于内容的推荐则是根据内容本身的属性(特征向量)所作的推荐。需要先对产品进行特征提取(向量化),根据用户的历史信息建立用户的偏好文档,这个偏好文档,可是看作用户画像。根据这个画像,可以找到适合用户的商品和服务进行推荐。

但是上述方法在具体实施的时候均需人工标注网页数据,其处理的效率较低。



技术实现要素:

本发明为解决以上现有技术的难题,提供了一种基于用户访问数据的用户画像形成方法,该方法在具体实施的过程中无需对网页数据进行标注,其处理效率高,且能够利用机器学习方法,学习出用户的特征,以表现出用户的生活、购物等行为偏好。

为实现以上发明目的,采用的技术方案是:

一种基于用户访问数据的用户画像形成方法,包括以下步骤:

s1.对用户的访问数据进行过滤,将访问数据中无关的请求链接过滤掉,得到相关的访问链接;

s2.使用爬虫工具抓取相关的访问链接对应的网页,然后使用提取算法将所抓取网页中的文本信息提取出来;

s3.使用中文分词方法对提取出来的文本信息进行分词处理,其中每个网页的文本信息经过分词处理后得到的词汇列表存储在一个文档中;

s4.对网络上公开的语料库进行分词处理,然后基于分词处理后的语料库使用词向量技术训练出词向量word2vec,得到中文词语的分布式表达;

s5.创建doc2vec模型,利用词向量word2vec对doc2vec模型进行初始化,然后将每个文档中的词汇列表分别输入至doc2vec模型中,文档中的词汇列表对doc2vec模型进行训练,doc2vec模型的输出为该文档对应的网页的分布式表达;

s6.对于每个标签,训练一个用于判断分布式表达中是否带有此标签的判断分类器;

s7.将步骤s5中的每个网页的分布式表达分别输入至各个标签的判断分类器中,若标签的判断分类器的输出为肯定,则说明用户的网页访问带有该标签的属性;若标签的判断分类器的输出为否定,则说明用户的网页访问不带有该标签的属性。

优选地,所述步骤s1中,过滤掉访问数据中的css请求链接、图片资源请求链接、js脚本资源请求链接。

优选地,所述步骤s1中通过正则表达式对无关的访问进行过滤。

优选地,所述步骤s2中,使用基于文本密度的提取算法将所抓取网页中的文本信息提取出来。

优选地,所述步骤s2中,建立一个哈希表来保存抓取的网页。

优选地,所述步骤s6中,所述判断分类器包括训练好的卷积神经网络和logistic回归二元分类器,卷积神经网络的输出端与logistic回归二元分类器的输入端连接,卷积神经网络用于对标签进行分类,logistic回归二元分类器用于输出卷积神经网络的分类结果。

与现有技术相比,本发明的有益效果是:

本发明提供的方法利用爬虫工具、提取算法、中文分词方法对网页中的内容进行获取和自动处理,其智能化、自动化程度较高,很好地解决了现有技术的缺陷。且本发明提供的方法利用机器学习方法,学习出用户的特征,以表现出用户的生活、购物等行为偏好。

附图说明

图1为测试结果一的示意图。

图2为测试结果二的示意图。

图3(a)、(b)为测试结果三的示意图和测试结果四的示意图。

图4为测试结果五的示意图。

图5为测试结果六的示意图。

图6为训练判断分类器的示意图。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制;

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

本发明所提供的方法主要有以下步骤:

第一步、过滤不必要链接并以用户为单位进行汇总整理。这一步将一些不必要的如开源的js库资源访问请求、外部图片资源访问请求的链接过滤掉,得到用户实质上想访问的链接。然后把每个用户的链接和访问时间按照时间排序保存。

第二步、编写网络爬虫工具,抓取用户的所有链接的网页标题和内容。由于用户访问的页面很多,为了避免重复抓取某个页面,因此需要建立一个哈希表来保存已经抓取了的页面链接,这样就可以避免重复抓取。

抓取过程中,为了避免一些网站的反爬虫机制,需要利用几个策略,分别是:伪装useragent,使用代理和避免对同一网站的连续访问等。

第三步、利用开源的网页正文提取算法如cx-extractor,从网页内容中提取出每个网页的文本内容。现如今的网页内容,一般都会包含一定数量的广告、网站的目录导航等与页面主题无关的内容,本实施例使用基于密度的正文提取算法,提取出页面的正文而不受那些不相关因素的影响,这样可以保证网页内容与网页的主题的相关性,减少噪声的污染。

第四步、对每个网页的正文和标题,使用中文分词技术,把每个文档(标题和正文)转换成一系列词汇组成的列表。

第五步、收集网络上的语料库,比如中文维基百科提供的语料库,先用第4步的方法进行分词,然后使用词向量技术,训练出词汇的词向量word2vec。在这里,训练出来的词汇的分布式表达,是采用无监督学习,利用skip-gram技术,得到的一个能在一定程度上表达了词语的词性、意义以及与其他词语的相关性的词向量word2vec。

如图1、图2所示,分别测试“可以”和“美女”两个词语词性和意义最相近的词。给出的“可以”最相似的词是“能够”、“可”、“能”,给出的“美女”的相近的词是“帅哥”、“正妹”。

再如图3(a)、图3(b)、图4所示,测试一个主题词汇与一系列相关或不相关词语的相似度,可以明显地看出,与主题词汇相关的词语得分明显比不相关词语得分高。

最后,如图5所示,词汇向量间的关系:

淘宝–中国=?-美国得出的得分最高的答案是ebay。

从上面这些例子可以看出word2vec的强大,不仅学习出了词汇相似性,还学习到了词汇之间的关系。所以可以使用训练好的word2vec。

第六步、由于(1)保存了每个链接的访问时间,所以可以根据这个信息,根据一定规则得到链接的访问顺序,对每个用户的网页访问文档,按照这个时间顺序进行排序。

第七步、用第五步得到的词向量word2vec初始化doc2vec模型,对每个文档得到的词汇列表用skipgram训练得到文本的分布式表达,类似于第五步词向量的学习,文档向量代表的是一系列单词组成的文档的信息,一般来说可以是某个主题,代表某种情感,代表某类商品等等。

第八步、通过对用户有偏好标记的数据,整合得到的doc2vec集合,得到训练集,训练用户的分布式表达。在这一步中,采用的训练方法是使用卷积神经网络cnn。假设用户u对应于n个不同doc2vec,分别表示为doc1,doc2…docn,用户标签向量为长度为ntag的0-1向量。对每一个标签,训练一个卷积神经网络用于对此标签进行分类。

例如:doc2vec是200维的向量,那么,网络的输入是n*200的。把一个卷积核设置为i*200,i代表的是卷积核每次对i个向量进行卷积。如果在输入层设置n个卷积核,那么总的卷积核为一个n*i*200的核;这样,输入层卷积后得到的输出是n*(n–i+1)的矩阵。然后用k-maxpooling,得到固定长度为k*n的向量。在这个向量后面添加一个全连接层,然后接1个logistic回归二元分类器。如图6所示。

这样,就得到一个标签的判断分类器。假设一共有m个标签,只需要用同样方法的训练m个分类器。

第九步、在使用阶段,对于单个用户,先得到该用户的所有文档向量,再用第8步得到的m个二元分类器,得到的输出为肯定的标签就是该用户的标签,并且按照最后分类器的得分,得分越高的说明此标签在该用户越明显。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1