基于用户访问数据的用户画像形成方法与流程

文档序号：19366555发布日期：2019-12-10 20:54阅读：来源：国知局

技术特征：

1.一种基于用户访问数据的用户画像形成方法，其特征在于：包括以下步骤：

s1.对用户的访问数据进行过滤，将访问数据中无关的请求链接过滤掉，得到相关的访问链接；

s2.使用爬虫工具抓取相关的访问链接对应的网页，然后使用提取算法将所抓取网页中的文本信息提取出来；

s3.使用中文分词方法对提取出来的文本信息进行分词处理，其中每个网页的文本信息经过分词处理后得到的词汇列表存储在一个文档中；

s4.对网络上公开的语料库进行分词处理，然后基于分词处理后的语料库使用词向量技术训练出词向量word2vec，得到中文词语的分布式表达；

s5.创建doc2vec模型，利用词向量word2vec对doc2vec模型进行初始化，然后将每个文档中的词汇列表分别输入至doc2vec模型中，文档中的词汇列表对doc2vec模型进行训练，doc2vec模型的输出为该文档对应的网页的分布式表达；

s6.对于每个标签，训练一个用于判断分布式表达中是否带有此标签的判断分类器；

s7.将步骤s5中的每个网页的分布式表达分别输入至各个标签的判断分类器中，若标签的判断分类器的输出为肯定，则说明用户的网页访问带有该标签的属性；若标签的判断分类器的输出为否定，则说明用户的网页访问不带有该标签的属性。

2.根据权利要求1所述的基于用户访问数据的用户画像形成方法，其特征在于：所述步骤s1中，过滤掉访问数据中的css请求链接、图片资源请求链接、js脚本资源请求链接。

3.根据权利要求2所述的基于用户访问数据的用户画像形成方法，其特征在于：所述步骤s1中通过正则表达式对无关的访问进行过滤。

4.根据权利要求1所述的基于用户访问数据的用户画像形成方法，其特征在于：所述步骤s2中，使用基于文本密度的提取算法将所抓取网页中的文本信息提取出来。

5.根据权利要求1所述的基于用户访问数据的用户画像形成方法，其特征在于：所述步骤s2中，建立一个哈希表来保存已经抓取了的页面链接。

6.根据权利要求1所述的基于用户访问数据的用户画像形成方法，其特征在于：所述步骤s6中，所述判断分类器包括训练好的卷积神经网络和logistic回归二元分类器，卷积神经网络的输出端与logistic回归二元分类器的输入端连接，卷积神经网络用于对标签进行分类，logistic回归二元分类器用于输出卷积神经网络的分类结果。

完整全部详细技术资料下载

当前第2页1 2 3