大数据环境下用户阅读行为分析与预测系统

文档序号:29742733发布日期:2022-04-21 19:51阅读:204来源:国知局
大数据环境下用户阅读行为分析与预测系统

1.本发明属于计算机及大数据应用分析技术领域,具体涉及一种用于分析和预测用户阅读行为的系统。


背景技术:

2.在大数据背景下,分析用户的行为有着很大的意义,用户画像、用户行为异常检测和用户行为预测是用户行为分析中比较重要的三个部分。通过数据的分析与预测,使数据的价值充分发挥,促进企业快速发展,为企业提供具有较高价值的数据信息。本发明的技术主体是在搜索应用中通过收集和分析用户的行为数据,构建一个用户行为分析与预测系统。该系统能够快速高效的发掘用户、行为、数据之间的关系,从而进一步构建用户,关键词以及数据画像。用户画像是对用户行为数据分析而得到的用户基本属性、行为特征、社交网络、心理特征和兴趣爱好等方面的标签模型。根据用户行为的这些特性,来建立较好的用户正常行为轮廓,检测用户实际活动与正常轮廓的背离程度,来判断是否属于异常行为。利用用户行为数据和画像数据预测用户行为,优化用户的使用体验,提供更好的个性化搜索服务。


技术实现要素:

3.本发明的目的在于用户行为的分析与预测,如附图1所示是本发明的功能图。
4.本发明采用的技术方案为大数据环境下用户阅读行为分析与预测系统,含有:文本数据相关分析单元、用户数据相关分析单元、数据异常分析单元和用户行为预测单元;其中:
5.大数据环境下用户阅读行为分析与预测系统可分为用户数据存储层、用户数据处理层、用户数据分析和建模层、服务层以及展示层。用户数据存储层是信息存储在mysql中。用户数据处理层包括源数据采集、源数据清洗、数据存储、数据管理和维护。用户数据分析和建模层包括文本数据相关分析、用户数据相关分析、数据异常分析和用户行为预测的代码。服务层包括数据服务、行为服务、用户服务、画像服务、预测服务。展示层主要负责统计分析的结果的展示在界面上。
6.文本数据相关分析单元是指对网站内的大量文本数据进行多维度的挖掘,对文本数据进行研究,从而更好的为用户提供服务。文本数据分析包括文本基本信息、文本画像和文本统计信息。
7.文本基本信息包括标题、作者、年份、简介、关键词、价格、标签、添加时间、文章分类。
8.文本画像包括搜索量、点击量、阅读量、评论量、点赞量、收藏量、曝光量。
9.文本统计信息包括文本搜索量排名分布、文本搜索转化率分布、文本点击量分布、文本阅读量排名分布、文本评论量排名分布、文本点赞量排名分布、文本收藏量排名分布、文本曝光量排名分布、文本阅读用户数分布、文本阅读时间分布、文本相关关键词分布、文
本标签分布、文本分类分布、关键词搜索量分布、关键词搜索转化率分布、关键词点击量分布、关键词点击量分布、关键词所属分类分布、关键词命中文章分布、搜索用户排名分布、文章分类分布。
10.用户数据相关分析单元是指通过对用户上网的日志信息进行初步的统计分析,然后结合项目的实际需要并且利用数据挖掘对用户的行为进行深入研究,从中发现用户访问网站的使用偏好和行为规律,并且把这些规律与网站营销的策略相结合以此为依据对网站存在的问题进行改进。
11.用户数据分析包括用户基本信息、用户画像和用户统计信息。
12.用户基本信息包括用户名、姓名、年龄、性别、联系方式、注册ip、登陆地点、运营商、添加时间、最近操作时间。
13.用户画像包括成功搜索量、失败搜索量、未点击的搜索量、总搜索量、总点击量、总阅读量、评论量、点赞量、收藏量。
14.用户统计信息包括用户搜索量排名分布、用户搜索转化率统计、用户点击量排名分布、用户阅读量排名分布、用户阅读时间段分布、用户评论量排名分布、用户点赞量排名分布、用户收藏量排名分布、用户注册时间分布、用户访问时间分布、用户访问时长分布、用户所属地区分布、用户使用运营商分布、用户使用时间间隔时长分布、用户浏览转化率统计、搜索点击率统计、用户标签分布。
15.数据异常分析单元是在用户正常行为轮廓下,总体上呈现一定规律性的同时,又具有局部偶然性。这部分偶然性由于偏离用户一般行为,被认为是异常数据。
16.数据异常分析包括数据异常基本信息、数据异常统计信息。
17.数据异常基本信息包括序号、名称、内容介绍、关键词、类型、异常时间、用户、地点、搜索ip。
18.数据异常统计信息包括违规命中关键字分布、用户ip异常分布、评论内容违规分布、用户搜索词汇异常分布、用户搜索量异常分布、用户点击量异常分布、用户阅读量异常分布、用户阅读时间段异常分布、用户评论量异常分布、用户点赞量异常分布、用户收藏量异常分布、用户访问时间段异常分布。
19.用户行为预测单元是对各种影响用户因素进行统计分析,并且根据分析的特征进行建模研究。最终选取用户行为特征构建用户行为预测模型。主要预测的指标是用户搜索词汇预测、用户搜索词汇异常预测、用户搜索行为次数异常预测、用户搜索文章预测、用户搜索文章异常预测、用户点击文章预测、用户点击文章异常预测、用户阅读文章预测、用户阅读文章异常预测。
20.现有的系统大部分用到的是java语言,而本发明用到的是php语言。laravel简洁、优雅的特性,使得在书写代码的过程中,系统的代码实现流程得以简化。与此同时,其对restful的良好支持对本系统前后端分离的实现有着很大的帮助。同时laravel的设计思想是当前所有主流的php框架中最先进的,非常适合应用各种开发模式。如ioc容器、依赖注入等。其对composer的良好支持使得项目依赖的管理更为简便,在整个系统开发的流程中,起到至关重要的作用。本系统采用的是模型-视图-控制器(model-view-controller)架构模式,模型-视图-控制器架构模式分为model,view和controller三个组件。其中,model层负责如何为数据建模。view层负责用户界面生成,如何向终端呈现从model层得到的数据以及
提供交互。controller层负责model层和view层的对接,对接主要是对应连个端:一端是向模型请求处理需要的数据来源,另一端则是把处理结果用某种方式传递给视图,中间的具体过程就是控制器负责的层面。使用这样的设计模式就是为了解耦,使3个组件相互之间不存在依赖,有利于代码可维护性、可读性、灵活性,有益于系统管理和维护。
附图说明
21.图1本发明的整体功能图。
22.图2本发明的系统架构图。
23.图3本发明的工作流程图。
24.图4本发明的k-means算法流程图。
25.图5本发明的协同过滤技术预测机制图。
具体实施方式
26.本发明的系统架构图如附图2所示,在用户操作系统时,收集、分析用户产生的行为日志,并对其进行分析后展示到界面。系统的整体结构如附图2所示。系统可分为用户数据存储层、用户数据处理层、用户数据分析和建模层、服务层以及展示层。
27.用户数据存储层是将文本信息、用户信息、用户的行为日志以及对文本和用户统计分析的结果保存在mysql和redis中。
28.用户数据处理层包括源数据采集、源数据清洗、数据存储、数据管理和维护。源数据主要来源于用户操作日志,通过代码埋点收集数据,针对每次的用户请求操作,并进行信息补充形成用户日志,然后通过php代码保存到mysql和redis中。也可以批量导入json格式的用户历史行为数据,对数据进行解析再写入用户日志。
29.用户数据分析和建模层包括文本数据相关分析、用户数据相关分析、数据异常分析和用户行为预测的代码。主要是通过laravel框架下的控制器中的php代码完成的。采用的是laravel 5.5框架。laravel的请求生命周期如附图3所示,在收到用户请求(request)后,请求会被laravel派给路由(route)处理,通过路由网址及方法,可以知道请求的数据要交给哪个控制器(controller)处理,但在交给控制器处理前,会经过中间件(middleware)处理过请求数据后,再交付给控制器处理。控制器接收到请求数据后,会通过验证器(validator)确认数据的正确性,通过工作事项(job)将数据发送到到待办工作笔记(redis)中,请队列(queue)秘书协助处理后台的工作,通过模型(eloquent model)取得数据库(mysql)的数据,通过模板(blade)输出数据界面给用户。通过k-means聚类算法确定异常数据。k-means聚类算法的流程图如附图3所示,算法步骤:
30.(1)为每个聚类选择一个初始聚类中心;
31.(2)将样本集按照最小距离原则分配到最邻近聚类;
32.(3)使用每个聚类的样本均值更新聚类中心;
33.(4)重复步骤(2)、(3),知道聚类中心不再发生变化;
34.(5)输出最终的聚类中心和k个簇划分;
35.将距离聚类中心比较远的值作为异常数据。
36.采用协同过滤算法进行预测。算法主要利用了异常行为与异常行为之间的相似程
度,当用户的异常行为与异常行为之间相似度很高,就可以预测用户可能的异常行为。该算法的预测机制图如附图5所示。用户a发生了异常行为a和c,用户b发生了异常行为a、b和c,而用户c只发生了异常行为a,可以看出异常行为a和c在用户异常行为中的相近程度比较高,而异常行为b与a、c在在用户异常行为中的相近程度比较低。用户c发生了异常行为c,而异常行为a和c相近程度比较高,就可以认为用户c也许会发生异常行为c,所以就可以预测用户c也许会发生异常行为c。该算法的主要流程与内容协同过滤技术上大体一致。
37.收集的用户信息的流程和用户协同过滤技术是一致的。此算法的最近临近搜索主要针对的是用户的异常行为,使用相关性的计算方法找到与用户异常行为最接近的一个行为。生成预测列表这一流程主要利用获取到的最相近的行为集合。
38.服务层包括数据服务、行为服务、用户服务、画像服务、预测服务。服务层的主要功能是向外界提供服务,所有请求都必须先定义好路由才能访问。通过指定的uri、http请求方法以及路由参数才能正确访问到路由定义的处理程序。例如,客户端通过以http get方式来请求uri时,laravel会把请求最终派发给对应类的index方法来进行处理,然后在index方法中返回响应给客户端。
39.展示层主要负责统计分析的结果的展示在界面上。展示层是用户和系统之间交流的桥梁,它一方面为用户提供了交互的工具,另一方面也为显示和提交数据实现了一定的逻辑,以便协调用户和系统的操作。前端采用的是html,css,js代码开发界面,使用jquery的ajax技术与控制器(controller)进行通讯,完成数据的读写操作。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1