一种网络语义收集分析及内容概括分析系统及方法与流程

文档序号:19787075发布日期:2020-01-24 13:43阅读:来源:国知局

技术特征:

1.一种网络语义收集分析及内容概括分析系统,其特征在于,其包括流媒体收集模块、流媒体处理引擎模块、储存引擎模块;所述流媒体收集模块用于获取相关日志,并将日志经过日志采集、聚合和传输系统导入高吞吐量消息系统,实现原始日志的收集聚合;所述流媒体处理引擎模块用于从所述高吞吐量消息系统中获取数据并对数据进行处理;所述储存引擎模块用于对经过流媒体处理引擎模块处理后的数据进行存储。

2.根据权利要求1所述的一种网络语义收集分析及内容概括分析系统,其特征在于,所述流媒体收集模块通过dsp(demand-sideplatform,需求方平台)、dmp(data-managementplatform,数据管理平台)、ssp(supply-sideplatform,供应方平台)渠道获取相关日志。

3.根据权利要求1所述的一种网络语义收集分析及内容概括分析系统,其特征在于,所述流媒体处理引擎模块对数据处理的方法为:流媒体处理引擎模块从高吞吐量消息系统中获取数据,并将数据输送到分布式实时计算系统,分布式实时计算系统查询数据是否存在;若已存在则直接取用原数据信息;若是新数据,则将完整文本抓取下来,然后通过文档主题生成模型对文本进行文档主题生成处理。

4.一种网络语义收集分析及内容概括分析系统的分析方法,其特征在于,其包括以下步骤:

s1、完整文本内容的收集聚合;

s2、完整文本内容的分类及留存;

s3、文本语义的归类;

s4、热点词语的新增与筛选;

s5、文本语义价值的判断。

5.根据权利要求4所述的一种网络语义收集分析及内容概括分析系统的分析方法,其特征在于,所述完整文本内容的收集聚合是通过多渠道数据收集得到相关日志,并通过日志中的url下载到网页内容,然后在其html格式下获取得到完整的文本内容。

6.根据权利要求4所述的一种网络语义收集分析及内容概括分析系统的分析方法,其特征在于,完整文本内容的分类及留存的方法为:系统根据获取到的完整文本内容,切分出与词库匹配的词,再根据词的热度及价值进行评分,最后将这些词语及它们的关联关系一起存入到数据库中。

7.根据权利要求4所述的一种网络语义收集分析及内容概括分析系统的分析方法,其特征在于,文本语义的归类的方法为:首先,随机初始化每个词的所属话题,并统计两个频率计数矩阵:文档-话题计数矩阵,描述每个文档中的主题频率分布;词-话题计数矩阵,表示每个主题下词的频率分布;第二步,开始遍历训练样本,按照概率公式重新采样每个词所对应的话题,更新两个计数矩阵的计数;最后重复遍历训练,直到主题模型收敛。

8.根据权利要求4所述的一种网络语义收集分析及内容概括分析系统的分析方法,其特征在于,热点词语的新增与筛选的方法为:后台获取新词,前端界面通过接口展示将新词展示在界面上,并对推荐词进行分类,一定周期后,再通过接口将新的热点词发布到词库模型中。

9.根据权利要求4所述的一种网络语义收集分析及内容概括分析系统的分析方法,其特征在于,文本语义价值的判断的方法为:首先,获取完整文本进行词的提取,形成词集;然后使用知识图谱对词集进行过滤,过滤掉一些没有意义的词;再对词集进行分析得到文本的主题分布情况及各自词的频次热度评分;最后再通过智能推荐及人工介入接口对文本语义进行分行业和应用的价值判断。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1