一种热门视频挖掘方法和装置的制造方法

文档序号:9304606阅读:1871来源:国知局
一种热门视频挖掘方法和装置的制造方法
【技术领域】
[0001] 本发明涉及软件技术领域,特别是涉及一种热门视频挖掘方法和一种热门视频挖 掘装置。
【背景技术】
[0002] 随着视频网站(包括资讯、娱乐、军事、原创频道等)的快速发展,用户从大量无关 的信息中发现感兴趣的视频越来越困难,这种情况下,用户往往需要视频网站从大量视频 中推荐一些相关热门视频到首页。
[0003] 现有技术中,常用的从大量视频中推荐相关热门视频的做法是,由首页编辑手工 标记高质量的或者跟时事热点密切相关的视频,并推送到首页。但是这种做法严重依赖人 工运营,成本高、效率低,对于一些热点视频的发现相对滞后,时效性差,因此越来越难以满 足用户对视频网站热门视频推荐的需求。
[0004] 因此,目前需要本领域技术人员迫切解决的一个技术问题就是:如何快速发现热 门事件以及相应的视频,以便于视频网站的首页更及时地推荐相关热门视频,满足用户需 求。

【发明内容】

[0005] 本发明实施例所要解决的技术问题是提供一种热门视频挖掘方法,能够实时预测 和发现热门视频,弥补首页人工运营(挖掘)的不足,具有更好的时效性。
[0006] 相应的,本发明实施例还提供了一种热门视频挖掘装置,用以保证上述方法的实 现及应用。
[0007] 为了解决上述问题,本发明公开了一种热门视频挖掘方法,包括以下步骤:将在预 设时间内从多个传感器上抓取的至少一个视频的文字信息和当前视频的文字信息,分别存 储至相应传感器对应的消息队列;所述多个传感器根据待挖掘热门视频的类型选取,所述 多个传感器与多个消息队列一一对应;根据所述当前视频的文字信息和其他所述消息队 列的所述视频的文字信息确定所述当前视频的热度指数;当所述当前视频的热度指数大于 预设热度阈值时,判断所述当前视频为热门视频。
[0008] 优选地,所述根据所述当前视频的文字信息和其他所述消息队列的所述视频的文 字信息确定所述当前视频的热度指数包括以下步骤:分别计算所述当前视频的文字信息与 其他所述消息队列中每个所述视频的文字信息的相似度;根据所述相似度和预设相似度 阈值判断所述当前视频与其他所述消息队列中对应的所述视频是否相似,并当所述相似度 大于所述预设相似度阈值时,判断所述当前视频与其他所述消息队列中对应的所述视频相 似;统计存在与所述当前视频相似视频的其他所述消息队列个数;将所述个数加一的结果 作为所述当前视频的热度指数。
[0009] 优选地,在所述分别计算所述当前视频的文字信息与其他所述消息队列中每个所 述视频的文字信息的相似度之前,还包括以下步骤:分别对所述当前视频的文字信息和其 他所述消息队列中每个所述视频的文字信息进行分词处理和实体识别处理,以获得所述当 前视频的文字信息和其他所述消息队列中每个所述视频的文字信息对应的实体集合和关 键词集合。
[0010] 优选地,所述分别计算所述当前视频的文字信息与其他所述消息队列中每个所述 视频的文字信息的相似度,具体包括以下步骤:根据所述当前视频的文字信息和其他所述 消息队列中每个所述视频的文字信息对应的所述实体集合和所述关键词集合构成相应视 频的文字信息的文本分词向量;通过余弦公式分别计算所述当前视频的文字信息的文本分 词向量与其他所述消息队列中每个所述视频的文字信息的文本分词向量之间的相似度。
[0011] 优选地,在所述判断所述当前视频为热门视频之后,还包括以下步骤:将所述当前 视频的文字信息发送至预设网站编辑,和/或添加至预设视频搜索索引。
[0012] 与现有技术相比,本发明实施例的热门视频挖掘方法包括以下优点:
[0013] 将在预设时间内从多个传感器上抓取的至少一个视频的文字信息和当前视频的 文字信息,分别存储至相应传感器对应的消息队列,进而根据当前视频的文字信息和其他 消息队列的视频的文字信息确定当前视频的热度指数,以及当当前视频的热度指数大于预 设热度阈值时,判断当前视频为热门视频,从而能够准确、实时的预测、发现热门视频,弥补 了首页人工挖掘的不足,提高了网站对热点视频的运营能力,极大节约了运营成本;
[0014] 发送热门视频的文字信息至预设网站编辑,和/或添加至预设视频搜索索引,提 高了网站编辑、视频搜索索引对热门事件视频的抓取实时性以及精准度,提高了热门视频 搜索结果的时效性,从而更好的满足了用户需求。
[0015] 为了解决上述问题,本发明还公开了一种热门视频挖掘装置,包括:多个传感器, 所述多个传感器根据待挖掘热门视频的类型选取;监视器,所述监视器包括:多个消息队 列,所述多个消息队列与所述多个传感器一一对应;消息处理模块,所述消息处理模块将在 预设时间内从多个传感器上抓取的至少一个视频的文字信息和当前视频的文字信息,分别 存储至相应传感器对应的消息队列,并根据所述当前视频的文字信息和其他所述消息队列 的所述视频的文字信息确定所述当前视频的热度指数,以及当所述当前视频的热度指数大 于预设热度阈值时,判断所述当前视频为热门视频。
[0016] 优选地,所述消息处理模块包括:相似度计算单元,分别计算所述当前视频的文字 信息与其他所述消息队列中每个所述视频的文字信息的相似度;判断单元,根据所述相似 度和预设相似度阈值判断所述当前视频与其他所述消息队列中对应的所述视频是否相似, 并当所述相似度大于所述预设相似度阈值时,判断所述当前视频与其他所述消息队列中对 应的所述视频相似;统计单元,统计存在与所述当前视频相似视频的其他所述消息队列个 数;热度指数确定单元,将所述个数加一的结果作为所述当前视频的热度指数。
[0017] 优选地,所述消息处理模块还包括:处理单元,在所述相似度计算单元分别计算所 述当前视频的文字信息与其他所述消息队列中每个所述视频的文字信息的相似度之前,所 述处理单元分别对所述当前视频的文字信息和其他所述消息队列中每个所述视频的文字 信息进行分词处理和实体识别处理,以获得所述当前视频的文字信息和其他所述消息队列 中每个所述视频的文字信息对应的实体集合和关键词集合。
[0018] 优选地,所述相似度计算单元具体用于:根据所述当前视频的文字信息和其他所 述消息队列中每个所述视频的文字信息对应的所述实体集合和所述关键词集合构成相应 视频的文字信息的文本分词向量;通过余弦公式分别计算所述当前视频的文字信息的文本 分词向量与其他所述消息队列中每个所述视频的文字信息的文本分词向量之间的相似度。
[0019]优选地,在判断所述当前视频为热门视频之后,所述消息处理模块将所述当前视 频的文字信息发送至预设网站编辑,和/或添加至预设视频搜索索引。
[0020] 与现有技术相比,本发明实施例的热门视频挖掘装置包括以下优点:
[0021] 通过监视器将在预设时间内从多个传感器上抓取的至少一个视频的文字信息和 当前视频的文字信息,分别存储至相应传感器对应的消息队列,进而根据当前视频的文字 信息和其他消息队列的视频的文字信息确定当前视频的热度指数,以及当当前视频的热度 指数大于预设热度阈值时,判断当前视频为热门视频,从而能够准确、实时的预测、发现热 门视频,弥补了首页人工挖掘的不足,提高了网站对热点视频的运营能力,极大节约了运营 成本;
[0022] 通过消息处理模块发送热门视频的文字信息至预设网站编辑,和/或添加至预设 视频搜索索引,提高了网站编辑、视频搜索索引对热门事件视频的抓取实时性以及精准度, 提高了热门视频搜索结果的时效性,从而更好的满足了用户需求。
【附图说明】
[0023]图1是本发明的一种热门视频挖掘方法实施例的步骤流程图;
[0024] 图2是本发明的一种热门视频挖掘方法具体实施例中视频1和视频2的文字信息 的权重表;
[0025]图3是本发明的一种热门视频挖掘方法具体实施例的步骤流程图;
[0026]图4是本发明的
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1