基于大数据分析的内容呈现方法

文档序号:9750979阅读:639来源:国知局
基于大数据分析的内容呈现方法
【技术领域】
[0001]本发明涉及大数据,特别涉及一种基于大数据分析的内容呈现方法。
【背景技术】
[0002]随着信息技术和网络技术的高速发展,互联网己经表现为了去中心化,开放,共享的特点,这些特点影响并改变着人们的生活方式。互联网已经不再只是用户发布消息和获取消息的媒介,更多的是人与人之间的交流互动平台。随着社交网络的出现与发展,社交网络开始拥有庞大的用户群体,并且用户在社交网络上可以表达自己的观点,频繁地更新微博,将自己感兴趣的信息分享给好友,不断添加自己感兴趣的用户扩展自己的爱好群等。如此海量的数据让用户很容易迷失在信息的海洋中,要想更快、更准确地寻找到用户自己需要的数据变得更加的困难。基于传统的搜索获取信息的推送方式己经不适合。价值高、可靠性强的信息无法展示在它感兴趣的用户面前。目前没有有效方法对这些数据进行深度分析并挖掘深层次的有用信息,为用户提供个性化的推送服务。

【发明内容】

[0003]为解决上述现有技术所存在的问题,本发明提出了一种基于大数据分析的内容呈现方法,包括:
[0004]采集历史会话数据并进行预处理,由会话主题分布得到用户主题分布,根据每个用户的关注数和被关注数获取用户的特征行为以确定会话发起用户,将会话发起用户根据用户兴趣特征推送给会话参与用户。
[0005]优选地,所述采集历史会话数据并进行预处理,进一步包括:
[0006]通过数据清洗将无用数据清除,通过数据预处理和分词,将会话的内容信息转化为结构向量;收集缩写词和全称的映射表,对会话的内容进行替换处理;将无意义字符进行过滤处理;从用户会话中提取代表会话的主题以及目标用户信息;采用条件随机场算法进行中文分词;在分词系统中输入会话的内容,经过分词处理后,将输出的会话数据转换为词条序列。
[0007]优选地,所述根据每个用户的关注数和被关注数获取用户的特征行为,进一步包括:
[0008]通过会话用户的被关注数、关注人数和发布的会话数为标准来进行定量分析;针对不同的特征对用户进行群体分类;设定被关注数的阈值来增加和减少来计算用户的平均被关注数;通过决策树对会话发起用户和会话参与用户进行分类;
[0009]度量会话参与用户%和会话发起用户Ut之间的主题分布比值向量VdPVt的相似度sim(up,ut):
[0010]sim(up,ut) = (Vp.Vt)/|Vp.Vt
[0011 ]将相似度高于预定阈值的会话发起用户作为推送的候选集推送给会话参与用户;
[0012]根据每个会话发起用户的社交关系和所发起会话的主题比值,估计每个主题下的高影响力用户;若主题T下的会话发起用户Ut在该主题下会话发起用户总数为Nu,该用户发的会话总数Wu,包含主题T的会话数Nw,则会话发起用户的影响力计算为:
[0013]imp(ut) = (ut/Nu)*(Wu/Nw)
[0014]根据会话发起用户的推送列表,统计会话发起用户比值最多的主题,然后推送该主题下的会话发起用户。
[0015]本发明相比现有技术,具有以下优点:
[0016]本发明提出了一种基于大数据分析的内容呈现方法,从多角度分析用户的兴趣需求,准确刻画用户的兴趣爱好的前提下增加用户潜在兴趣的发掘,提高推送结果的多样性和准确性。
【附图说明】
[0017]图1是根据本发明实施例的基于大数据分析的内容呈现方法的流程图。
【具体实施方式】
[0018]下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明,但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定,并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。
[0019]本发明的一方面提供了一种基于大数据分析的内容呈现方法。图1是根据本发明实施例的基于大数据分析的内容呈现方法流程图。
[0020]本发明的方法基于会话数据采集、会话主题分类、会话发起用户提取和会话发起用户推送。会话数据采集架构通过API分布式抓取需要的数据,为会话发起用户推送提供资源。会话主题分类通过文本挖掘为每个会话确定一个主题,会话发起用户提取通过会话主题分布矩阵转换为用户主题分布矩阵,作为用户的兴趣特征,对用户的特征行为进行统计,结合用户的关注数和被关注数两个特征对用户进行分类,将用户分为会话参与用户和会话发起用户。通过会话发起用户的提取,为推送算法找到推送的主体;所述会话发起用户推送通过推送算法将会话参与用户感兴趣的会话发起用户推送给会话参与用户,本发明还结合高影响力用户和主题之间的关联关系,可以挖掘会话参与用户的潜在主题爱好。
[0021 ]为了快速准确获取会话数据,本发明搭建分布式并行数据抓取架构。系统架构由两部分组成,在一定的时间间隔上,采集服务器触发客户端抓取数据,将抓取的内容保存到分布式数据库中,并将会话ID和用户ID存储到ID数据库中。ID数据库提供两个功能,一个是存储ID,为后续的用户维度和会话维度作为ID缓存。第二个是为了实现重复控制,防止重复抓取相同的用户和会话,如果检测到已经抓取过的用户和会话就不会调用API接口去抓取,也不会将数据保存在分布式数据库,设置了事务分配服务器,每台抓取客户端向事务服务器申请ID事务,将信息抓取后存入分布式数据库后再向事务服务器申请ID。如果有抓取需求的改变,可以根据事务的需要适当增加或减少客户端,而不需要更改整个系统的架构。
[0022]为消除歧义性进一步挖掘潜在语义,所以在第一步的时候通过数据清洗将无用数据清除,提高会话数据的质量。分词和主题提取是会话内容分析的基础,通过数据预处理和分词,将会话的内容信息转化为结构向量。
[0023]抓取下来的数据是结构化的数据,必须对需要的信息进行会话文本信息的提取还有进行一些文本处理工作。具体的处理有以下几种。(I)通过收集缩写词和全称的映射表,对会话的内容进行替换处理;(2)将表情符号和无意义字符进行过滤处理;(3)从用户会话中提取代表会话的主题以及目标用户信息。
[0024]采用的是条件随机场算法进行中文分词。在分词系统中输入会话的内容,然后经过会话预处理、分词算法后,输出的会话数据就变成一条条的词条序列,词与词之间是用空格分割开来。
[0025]在每个领域上都有一些专门从事某个方向的用户,本发明称作会话发起用户。这些会话发起用户可能是信息传播的关键中介,也可能是热点信息的来源。会话发起用户在社交网络中起到消息传播的作用,他们能够制造关于某些主题的会话和转发某些主题的会话,大部
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1