一种演职人员内容管理方法及系统与流程

文档序号:16668992发布日期:2019-01-18 23:27阅读:207来源:国知局
一种演职人员内容管理方法及系统与流程
本发明涉及机顶盒
技术领域
,具体提供一种演职人员内容管理方法及系统。
背景技术
:机顶盒展示的电视节目简介中会展示导演、演员、主持人、嘉宾等演职人员信息(含头像海报),展开明细页会显示演职人员简介、作品。演职人员信息需要在内容管理系统中维护,如果数以万计的演职员信息单纯依靠人工维护,既耗时又费力。技术实现要素:本发明的技术任务是针对上述存在的问题,提供一种智能的,能够自动维护演职人员资料库的演职人员内容管理方法。本发明进一步的技术任务是提供一种演职人员内容管理系统。为实现上述目的,本发明提供了如下技术方案:一种演职人员内容管理方法,所述方法通过爬虫技术爬取网络上的演职人员数据,其中演职人员数据包括演职人员基础数据和海报数据,通过人脸识别技术处理海报数据,通过智能算法编排演职人员基础数据,形成演职人员资料库,对外提供开源接口。作为优选,所述方法具体包括以下步骤:s1:通过爬虫技术爬取互联网中演职人员数据,并存入元数据仓库;s2:定期扫描更新元数据;s3:通过智能算法编排演职人员基础数据,生成完善的演职人员资料,形成演职人员资料库;s4:通过人脸识别技术进行海报数据加工;s5:基于演职人员资料库对外提供开源接口。作为优选,步骤s1中演职人员数据包括演职人员基础数据和海报数据,演职人员基础数据包括中文名、英文名、别名、生日、出生地、性别、国籍、职业、身高、血型、爱好、星座、个人简介,演职人员海报数据为头像海报文件。作为优选,通过爬虫技术爬取互联网中演职人员数据,记录基础数据的原始url地址,存入元数据仓库,并记录基础数据的md5值。作为优选,定期扫描元数据仓库中的url(uniformresourcelocator即统一资源定位符)地址,获取基础数据,并计算基础数据的md5值,与元数据仓库中md5值对比,若基础数据有更新,则触发合并入基础数据库。作为优选,通过人脸识别技术进行海报数据加工,将海报处理为指定尺寸300*300的海报。作为优选,爬虫技术先爬取当前热播电影、热播电视剧,从中获取导演、演员的姓名,根据导演、演员姓名爬取演职人员数据。一种演职人员内容管理系统,所述系统包括以下模块:元数据仓库:用于存储演职人员基础数据、海报数据、基础数据的md5值和基础数据的原始url地址;基础数据库:用于识别、合并入库演职人员基础数据;海报库:用于存储演职人员海报数据经过人脸识别、裁剪、压缩后的海报。作为优选,通过爬虫技术爬取演职人员基础数据和海报数据存储于元数据仓库中,并在元数据仓库中记录基础数据的原始url地址和基础数据的md5值,定期扫描元数据仓库中的url地址,获取基础数据,并计算md5值,与元数据仓库中md5值对比,若基础数据有更新,则触发合并入基础数据库。作为优选,通过人脸识别技术进行海报数据加工,将海报剪裁、压缩为指定尺寸300*300的海报,存储于海报库中。与现有技术相比,本发明的演职人员内容管理方法具有以下突出的有益效果:所述演职人员内容管理方法能够智能、自动的维护演职人员资料库,避免演职人员信息单纯依靠人工维护,耗时由费力的弊端,具有良好的推广应用价值。附图说明图1是本发明所述演职人员内容管理方法的流程图。具体实施方式下面将结合附图和实施例,对本发明的演职人员内容管理方法及系统作进一步详细说明。实施例如图1所示,本发明的演职人员内容管理方法通过爬虫技术爬取网络上的演职人员数据,其中演职人员数据包括演职人员基础数据和海报数据,通过人脸识别技术处理海报数据,通过智能算法编排演职人员基础数据,形成演职人员资料库,对外提供开源接口。该演职人员内容管理方法具体包括以下步骤:s1:通过爬虫技术爬取互联网中演职人员数据,并存入元数据仓库。爬虫技术先爬取当前热播电影、热播电视剧,从中获取导演、演员的姓名,根据导演、演员姓名爬取演职人员数据。演职人员数据包括演职人员基础数据和海报数据,演职人员基础数据包括中文名、英文名、别名、生日、出生地、性别、国籍、职业、身高、血型、爱好、星座、个人简介,演职人员海报数据为头像海报文件。通过爬虫技术爬取互联网中演职人员数据,记录基础数据的原始url地址,存入元数据仓库,并记录基础数据的md5值。记录基础数据的原始url地址,存入元数据仓库用于定期扫描原始资源。记录基础数据的md5值用于比对判断原始资源是否更新。s2:定期扫描更新元数据。如果原始资源有变化,演职人员库中的数据也应更新。故需定期扫描url地址库,重新抓取演职人员基础数据,对比基础数据的md5值,如果不同则判断有更新,如果相同则判断没有更新。s3:通过智能算法编排演职人员基础数据,生成完善的演职人员资料,形成演职人员资料库。有时候不确定两条数据是否描述的是同一个演职人员,需采用识别策略判断,如表1所示,选取几个识别字段,如中文名、英文名、别名,分别设置识别权重值,并计算相似度(匹配的字段对应的权重值求和)。当相似度>相似度阈值,则判断是同一人,否则判断为两个人。表1识别策略识别字段识别权重值是否匹配示例1示例2中文名20√张三张三英文名5√zhangsanzhangsan别名5三儿生日5201006032010出生地5√华盛顿华盛顿相似度30一条演职人员一般会收集到多条数据,需要将数据合并编排成一条相对完整的数据,可以事先制定简单的合并策略,比如优先选用b网络。如表2所示,合并后的数据入基础数据库。表2合并策略图:×代表没有数据s4:通过人脸识别技术进行海报数据加工。通过人脸识别技术进行海报数据加工,将海报处理为指定尺寸300*300的海报。抓取的演职人员海报数据尺寸各不相同,而机顶盒需要展示指定尺寸(300*300)的海报,所以需对演职人员海报裁剪处理。需要如下几个步骤:1、判断图片尺寸是否满足裁剪条件:长>300、宽>300。2、调用开源人脸识别接口,获取人脸区域a。3、将区域a范围扩大(一般高度扩大到2.5倍,宽度扩大到2倍即可),并调整得到正方形区域b。4、如果b区域超出图片尺寸则调整其位置,使包含在图片内。5、裁剪该区域b得到图片。6、将图片压缩,处理为300*300像素,存入海报库中。s5:基于演职人员资料库对外提供开源接口。以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1