业务信息处理方法、服务器及系统与流程

文档序号:11829233阅读:234来源:国知局
业务信息处理方法、服务器及系统与流程
本发明涉及互联网
技术领域
,尤其涉及一种业务信息处理方法、服务器及系统。
背景技术
:目前,效果广告系统(例如电商网站、社交平台)中投放的广告绝大部分是图片素材,广告的触发是以用户信息(特征)作为定向输入,匹配相关的广告展示给用户,这种广告系统是一种人群定向的精准广告系统。在现有技术方案中,用户信息(特征)的分析,依赖于用户画像系统;对于广告端的分析,一方面是采用离线方式为广告定向数据建立好索引,加载到线上触发系统;一方面是对广告端数据做语义分析后,将广告特征通过索引或其他策略通道带到线上,应用于策略中,与用户画像做匹配。但是,现有广告业务系统中,没有统一的广告端分析平台,很多业务或广告端的分析都是分散进行,存在较多的冗余和重复建设。另外,由于各模块策略的业务需求不同,往往导致广告端特征是异步并行推送到线上,始终存在特征的缺失。而随着特征挖掘的深入,特征数量的增长,维护代价会越来越大。同时,效果广告的特点是:广告更迭快,生命周期短,以图片广告为主。而现有业务系统中广告端的分析比较分散,且共有模块没有做到独立,存在比较多的重叠逻辑,导致不能快速感知广告更迭,自适应、可扩展能力差。技术实现要素:本发明实施例提供一种业务信息处理方法、服务器及系统,旨在提高业务系统的自适应、可扩展能力,降低系统成本。本发明实施例提出的一种业务信息处理方法,包括:服务器获取业务信息数据,将所述业务信息数据输入对应的业务组件,所述业务组件通过所述服务器上配置的组件接口接入所述服务器;通过所述对应的业务组件对所述业务信息数据进行语义特征抽取和/或语义特征分析;获取所述对应的业务组件输出的语义特征处理结果,将所述语义特征处理结果上报给上层业务应用。本发明实施例还提出一种业务信息处理服务器,包括:获取模块,用于获取业务信息数据,将所述业务信息数据输入对应的业务组件,所述业务组件通过所述服务器上配置的组件接口接入所述服务器;处理模块,用于通过所述对应的业务组件对所述业务信息数据进行语义特征抽取和/或语义特征分析;上报模块,用于获取所述对应的业务组件输出的语义特征处理结果,将所述语义特征处理结果上报给上层业务应用。本发明实施例还提出一种信息处理系统,包括如上所述的业务信息处理服务器。本发明实施例提出的一种业务信息处理方法、服务器及系统,通过获取业务信息数据,将所述业务信息数据输入对应的业务组件,业务组件通过服务器上配置的组件接口接入所述服务器;通过所述对应的业务组件对所述业务信息数据进行语义特征抽取和/或语义特征分析;获取所述对应的业务组件输出的语义特征处理结果,将所述语义特征处理结果上报给上层业务应用,由此将业务信息的语义特征抽取与分析抽象出来作为独立的服务模块,提供给所有上层业务应用,从而降低了整体业务系统的冗余与延迟;而且本系统支持数据的增量更新,可快速感知业务信息变化并及时输出信息语义特征;系统各模块 采用的动态可插拔的组件方式,可定制化与增量化部署、升级,以及定制化输出,从而提高了系统服务操作灵活性,提高了业务系统的自适应、可扩展能力,降低系统成本。附图说明图1是本发明实施例方案涉及的广告画像系统架构示意图;图2是本发明实施例方案涉及的广告画像系统平台架构示意图;图3是本发明实施例方案涉及的AdMinerSystem动态组件接入示意图;图4是本发明实施例方案涉及的AdMinerSystem应用示意图;图5是本发明实施例方案涉及的广告流增量系统的架构示意图;图6是本发明实施例方案涉及的广告语义分析服务器的硬件结构示意图;图7是本发明业务信息处理服务器第一实施例的功能模块示意图;图8是本发明业务信息处理服务器第二实施例的功能模块示意图;图9是本发明业务信息处理方法第一实施例的流程示意图;图10是本发明业务信息处理方法第二实施例的流程示意图;图11是本发明业务信息处理方法第三实施例的流程示意图;图12是本发明业务信息处理方法第四实施例的流程示意图。为了使本发明的技术方案更加清楚、明了,下面将结合附图作进一步详述。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。本发明实施例方案的主要思路是:将广告等业务信息的语义特征抽取与分析抽象出来作为独立的服务模块,提供给所有上层业务应 用,从而降低整体业务系统的冗余与延迟;而且该系统支持数据的增量更新,可快速感知业务信息变化并及时输出信息语义特征;系统各模块采用的动态可插拔的组件方式,可定制化与增量化部署、升级,以及定制化输出,从而提高系统服务操作灵活性,提高业务系统的自适应、可扩展能力,并降低系统成本。其中,本发明实施例方案所指的业务信息可以涉及广告推送、网络搜索(关键字检索)等需要进行语义特征抽取与分析的场景。本发明以下各实施例均以广告进行举例。本发明实施例考虑到,目前的广告业务系统中,没有统一的广告端分析平台,很多业务或广告端的分析都是分散进行,存在较多的冗余和重复建设。另外,由于各模块策略的业务需求不同,往往导致广告端特征是异步并行推送到线上,始终存在特征的缺失。而随着特征挖掘的深入,特征数量的增长,维护代价会越来越大。同时,由于效果广告具有广告更迭快、生命周期短、以图片广告为主的特点,而现有业务系统中广告端的分析比较分散,且共有模块没有做到独立,存在比较多的重叠逻辑,导致不能快速感知广告更迭,自适应、可扩展能力差。为此,本发明实施例方案将广告语义特征抽取与分析抽象出来作为独立的服务模块,各模块采用的动态可插拔的组件方式,可定制化与增量化部署、升级,以及定制化输出结果提供给所有上层业务应用,从而降低整体业务系统的冗余与延迟,提高业务系统的自适应、可扩展能力,并降低系统成本;另外,系统支持数据的增量更新,可快速感知业务信息变化并及时输出语义特征。具体地,以广告业务系统为例,本发明实施例方案涉及广告业务系统中的广告画像系统,其中,广告画像是指:基于广告的基础业务属性,通过对广告文本与图片素材的分析得到一系列质量特征,可用于广告端语义分析,将广告语义特征通过索引或其他策略通道带到线上,应用于策略中,与用户画像做匹配,保持与用户端“对齐”;并可为点击率预估、转化率预估等提供特征,本发明实施例方案中还指用于广告分析的服务环境。用户画像是指:从用户基础属性、用户标签以及用户兴趣三方面构建的全面、立体、统一的数据体系。该体系为三层架构,兼顾灵活性与可扩展性,覆盖了大量的细分兴趣,可有效支持产品线不同用户数据需求。本实施例上述广告画像系统的架构主要包括:上游数据系统、广告特征分析服务及输出通道服务三个部分。如图1所示,广告画像系统具体可以包括:广告流增量服务器(也可以称为广告流增量系统)101、广告语义分析服务器(也可以称为广告语义分析系统)102、集中式存储服务器(也可以称为集中式存储系统)103以及集中式输出服务器(也可以称为集中式输出系统)104。其中,广告流增量服务器101作为上游数据系统,广告语义分析服务器102作为广告特征分析服务,集中式存储服务器103以及集中式输出服务器104作为输出通道服务。广告语义分析服务器102是广告画像的核心服务系统,提供平台级的服务,作为广告业务系统中,所有上层广告端业务应用的底层支撑服务系统。广告语义分析服务器102集中对广告数据挖掘潜在语义特征,并基于特征集做分析与应用等操作。例如:利用特征计算广告相似度,计算广告质量度得分,自动优化广告素材等等;而所有的特征分析过程和特征应用过程都采用独立的组件完成,以实现系统平台与算法组件独立。广告语义分析服务器102上通过配置文件动态配置有统一的组件接口,用于接入各业务组件,每一业务组件内配置有若干语义特征挖掘算法以及用于控制算法逻辑流程的关键字。广告语义分析服务器102可以从广告流增量服务器101获取业务信息数据,将所述业务信息数据输入对应的业务组件,所述业务组件通过广告语义分析服务器102上配置的组件接口接入所述广告语义分析服务器102。作为另一种实施方式,广告语义分析服务器102也 可以通过第三方请求获取业务信息数据。之后,广告语义分析服务器102通过对应的业务组件对所述业务信息数据进行语义特征抽取和/或语义特征分析;获取所述对应的业务组件输出的语义特征处理结果,将所述语义特征处理结果上报给上层业务应用。其中:作为一种实现方式,广告语义分析服务器102可以将语义特征处理结果通过集中式输出服务器104上报给上层业务应用。或者,作为另一种实现方式,广告语义分析服务器102可以将语义特征处理结果发送给广告流增量服务器101,由广告流增量服务器101通过集中式输出服务器104上报给上层业务应用,以下实施例以此种实施方式进行举例。广告流增量服务器101,用于向所述广告语义分析服务器102发送业务信息数据;以及接收所述广告语义分析服务器102反馈的语义特征处理结果,并将所述语义特征处理结果反馈给所述集中式存储服务器103以及集中式输出服务器104。所述集中式存储服务器103,用于将所述广告语义分析服务器102抽取的语义特征存储入库。所述集中式输出服务器104,用于将所述语义特征处理结果上报给上层业务应用。其中,作为一种具体应用实例,广告画像系统整体设计平台架构可以如图2所示。其中1,2,3属于上游数据系统;4为广告特征分析服务;5,6属于输出通道服务。具体地,在图2中:1、CFS:全称为CloudFileSystem,是提供一种网络文件存储服务,不仅具有分布式存储的高可靠、高可用、高性能及灵活的扩展性,并且支持POSIX接口,使用方式跟本地存储几乎一致。在本实例中,CFS是从上游CFS中获取广告基本属性信息,可以理解为广告主投放广告的接口。通过订阅广告增量流水,广告画像可以快速获取到广 告最基本的id类信息(用于内部key/索引)及url类信息(图片url、landingpageurl,用于获取下载数据),触发特征分析。2、Ad_Flow:是一组实时数据传输和中转的服务集,负责将CFS广告数据以增量方式定时导出、落地,保证数据流正常透传;3、Mixer:是一组负载均衡的服务集,负责将广告数据以消息队列方式分发Ad_Miner_Server,并作特征合并和落地、入库等做统一特征或计算结果输出;Ad_Miner_Server:是一组挖掘广告潜在语义特征与分析海量特征的服务;包括:文本特征、图片特征、广告相似度、文本相似度,ad_quality(广告质量度得分)、图片优化等;集中式存储服务器103:负责将广告画像系统内部的临时或需要长期库存的特征做存储、落地入库;集中式输出服务器104:负责订制广告画像的对外输出,支持常见的各种存储形式:NoSql[10]、Key-Value[11]、明文文件、Storm(是分布式实时计算提供的一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库)、TDW(TencentDistributedDataWarehouse,分布式存储仓库)、HDFS[12]等等;箭头中pb是Protobuffer的简称,是google的一种数据交换的格式,它独立于语言,独立于平台。其中,AdFlow、Mixer共同构成:广告流增量系统(AdFlowSystem),也即本实施例所称广告流增量服务器101;AdMinerServer为:广告语义分析系统,也即本实施例所称广告语义分析服务器102。由此,通过上述系统架构,将广告语义特征抽取与分析抽象出来作为独立的服务模块,提供给所有上层业务应用,从而降低了整体业务系统的冗余与延迟;而且本系统支持数据的增量更新,可快速感知业务信息变化并及时输出信息语义特征;系统各模块采用的动态可插拔的组件方式,可定制化与增量化部署、升级,以及定制化输出,从而提高了系统服务操作灵活性,提高了业务系统的自适应、可扩展能力,降低系统成本。以下详细阐述本发明实施例中广告语义分析服务器102进行广告信息处理的过程:如前所述,广告语义分析服务器102是广告画像的核心服务系统,提供平台级的服务,作为广告业务系统中所有上层广告端业务应用的底层支撑服务系统。广告语义分析服务器102集中对广告数据挖掘潜在语义特征,并基于特征集做分析与应用等操作。例如:利用特征计算广告相似度,计算广告质量度得分,自动优化广告素材等等;而所有的特征分析过程和特征应用过程都采用独立的组件完成,以实现系统平台与算法组件独立。广告语义分析服务器102上通过配置文件动态配置有统一的组件接口,用于接入各业务组件,每一业务组件内配置有若干语义特征挖掘算法以及用于控制算法逻辑流程的关键字。在广告语义分析服务器102中,每个业务组件称为:业务流程(下文简称:process),process中每个独立的语义挖掘算法由函数来实现(下文检测:function)比如:抽取广告素材中的SFIT特征算法,抽取广告素材中人脸特征算法,计算文本公用子串算法等等;而控制算法逻辑流程的关键字称为:命令字(commandid下文件称:CMD),process与function都是动态可插拔的,且通过配置文件动态配置。系统通过process之间以及各process内function的交叉组合,实现模块与操作的叉乘组合。这样的方式使平台操作更加灵活,可自由构建出多种服务端操作。例如:process设定为计算两个广告之间的相似度,CMD设定为:抽取topic特征;那么二者叉乘的结果是:计算广告文本信息的topic相似度。具体到平台设计协议采用google的pb作为通信协议,其中Process通过pb中的特定字段:RequestMode来标识,CMD通过pb中定义cmd字段来做标识。如图3所示,图3描述了AdMinerSystem动态组件接入示意图,展示了AdMinerSystem与Process、functor、CMD的关系:AdMinerSystem提供统一的组件接入接口,开发人员根据业务需求,可通过开发Process(独立的或依赖其他Process)来实现接入系 统。如图4所示,作为一种社交广告系统应用中,广告画像系统中的AdMinerSystem接入的process、functor、CMD示例如下:在图4中,接入的五个process分别为:预处理过程(BeforehandProcess)、特征抽取过程(GeneratorFeaturesProcess)、特征聚合过程(FeatureAggregateProcess)、特征模型计算过程(Computeringprocess)、特征素材优化过程(OptimizeProcess)。其中,各个process功能与包含的Functor和cmd如下:预处理过程(BeforhandProcess):功能包括:数据清洗;图片数据下载;合法性验证;Functor:PrepareFunctor:命令字CMD:该process为必执行流程,所以没有CMD。特征抽取过程(GenFeatureProcess):功能包括:图片特征抽取:包括图形高维、低维,基本属性特征等的挖掘计算,涉及SIFT等23种特征。文本特征抽取:包括文本topic、分类信息、token抽取、词性标注等等;包括的Functor有:HighDimensionalFunctor:提取图片素材高维特征;LowDimensionalFunctor:提取图片素材基本维度特征;ColourFunctor:提取色彩类特征;TextAnalysisFunctor:广告文本类特征。命令字cmd(如下表1所示):表1特征聚合过程(FeaAggregateProcess):功能包括:对离散的图片特征做离散数合并;包括的Functor:FeatureAggregateFunctor:命令字CMD:该process为必执行流程,没有CMD。特征模型计算过程(ComputerProcess):功能包括:图片相似度计算、短串文本相似度计算、基于LR的模型预估(例如:广告质量度等);包括的Functor:LRFunctor:基于模型的LRRrediction操作;SimilarityFunctor:广告素材相似度计算(图片素材,广告文本相似度等)命令字CMD(如下表2):CMD功能说明IMG_ALGOR_MUTIL_SIMILITY_CMD拟合后的相似度计算TXT_ALGOR_LONGESTCOMMONSUBSTGRING_CMD最长公共子串TXT_ALGOR_LEVENSHTEINDISTANCE_CMD编辑距离TXT_ALGOR_COMMONWORDNUMBER_CMDCommonwordTXT_ALGOR_COSINESIMILARITY_CMD短串余弦相似度TXT_ALGOR_TANIMOTOCOEFFIENCY_CMDTanimoto相似度TXT_ALGOR_MUTIL_SIMILITY_CMD模型Term相似度TXT_ALGOR_TOPIC_SIMILITY_CMDtopic相似度TXT_ALGOR_CLASSIFY_SIMILITY_CMD类目相似度TXT_ALGOR_WORLDFIELD_SIMILITY_CMDwordfield相似度TXT_ALGOR_PLSA_SIMILITY_CMDplsa相似度表2素材优化过程(OptimizeProcess)功能:对广告素材做自动优化;包括的Functor:OptimizeFunctor;命令字CMD(如下表3):表3在图4中:“1”表示数据变化情况为:RequestMode,CMD命令字,存储;“2”表示数据变化情况为:Adinstance预处理结果;“3”表示数据变化情况为:Adinstance预处理结果,特征抽取结果;“4”表示数据变化情况为:Adinstance预处理结果,特征抽取/处理结果;“5”表示数据变化情况为:Adinstance预处理结果,特征抽取/处理结果,LR/相似度计算结果;“6”表示数据变化情况为:Adinstance预处理结果,特征抽取/处理结果,广告优化结果。本实施例通过上述方案,由广告语义分析服务器102获取广告数据,将广告数据输入对应的业务组件,业务组件通过广告语义分析服务器102上配置的组件接口接入该广告语义分析服务器102;通过业务组件对广告数据进行语义特征抽取和/或语义特征分析;获取对应的业务组件输出的语义特征处理结果,将所述语义特征处理结果上报给上层业务应用,由此将广告语义特征抽取与分析抽象出来作为独立的服务模块,提供给所有上层业务应用,从而降低了整体业务系统的冗余与延迟;系统各模块采用的动态可插拔的组件方式,可定制化与增量化部署、升级,以及定制化输出,从而提高了系统服务操作灵活性,提高了业务系统的自适应、可扩展能力,降低系统成本。进一步,本实施例广告画像系统支持数据的增量更新,可快速感知业务信息变化并及时输出语义特征。具体地,考虑到目前的社交广告系统中,广告数据的最大特点是:广告更迭快,生命周期短,大多在线时间不会超过一周;例如:2014年6月11日上午10点(高峰时段),10min内广告更新数为7140个,可估算平均每秒更新广告数约为:12个/S;如此,迅速感知广告更新,及时更新广告端特征以及相关应用就显得十分重要。为此,针对上述实际情况,本发明实施例设计出一种实时流式数据接入系统,即广告流增量系统(AdFlowSystem),作为AdMinerSystem的上游系统。参照图5,图5为本发明实施例中广告流增量系统(即广告语义增量服务器102)的架构示意图。如图5所示,AdFlowSystem包括两部分:Ad_Flow和Mixer;Ad_Flow的上游是广告发布系统,它直接连接广告主数据库,以秒级为单位,实时获取上游发布的广告更新数据,存储于分布式存储系统中(如:CFS,Strom,Hadoop(一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储)),Ad_Flow负责接入实时的分布式文件系统,以数据流方式透传数据(包括落地数据)。Mixer是一个负载均衡的分发系统,下游对接Ad_Miner_Server,上游对接Ad_Flow,实时的将上游缓存广告增量数据以消息队列方式分发至下游集群(采用CL5(CloudLoadBalancer,5代指Level5,即理想目标达到99.999%的可用性,是一套兼具负载均衡和过载保护的容错系统)集群管理与监控),对回包消息做对外输出或落地操作,对发包与回包的处理,Mixer都会做相应的数据/消息缓冲与负载均衡操作。综上可以看出,AdFlowSystem是整个广告画像平台的输出/入口;具有实时感知广告系统中广告的变化的能力;采用流式接入,负载均衡分发,流式落地,对外输出,从而可以实现迅速感知广告更新,及时更新广告端特征以及相关应用。经过测试,本发明实施例上述广告画像系统可以在效果广告平台上得到有效应用,其中,具体的应用场景包括:某广告所有广告端语义分析与keyword分析模块,语义模型分析准确率在89%以上;广告排序模块中用于计算相似图片,保证广告展示的多样性策略,算法准确率提升20%;应用于广告审核系统中的相似/相同图片素材审核,大大提升了人工审核效率同时降低后台广告系统压力,算法准确率在95%以上;应用于广告除筛选阶段的指纹洗脸策略,提升初选效率,性能提升一倍,准确率提升30%。所有广告端语义特征,利用机器学习方法,分析建模,给出广告的在线质量度分析,分析结果直接影响广告的排序,在保证收入略微提升的前提下,提示广告点击率(Ctr)2.8%;为用户与广告相关性模块提供广告端语义特征分析,保证在线广告与用户的匹配程度,在线提示广告点击率(Ctr)1%。此外,通过广告画像系统中广告语义分析系统的广告语义特征抽取和分析结果,可以对广告语义分析系统平台进行性能测试,其中涉及的性能指标比如包括:全量图片特征抽取QPS、图片相似度计算 QPS、图片指纹计算QPS、短串相似度计算QPS、关键词提取QPS等,由此,通过测试结果,可以提高系统的处理能力、吞吐量以及稳定性。在实际测试中,一种单机性能分析结果如下:全量图片特征抽取QPS:25左右/s(包括图片下载耗时);其中,QPS(QueryPerSecond,每秒查询率)是对一个特定的查询服务器在规定时间内所处理流量多少的衡量标准;全量文本特征抽取QPS:1700+/s;图片相似度计算QPS:20左右/s;图片指纹计算QPS:50左右/s;短串相似度计算QPS:2100+/s;关键词提取(KeywordExtractor)QPS:50个左右instance/s。进一步地,还可以通过广告画像系统中广告语义分析系统的广告语义特征抽取和分析结果,对广告画像数据监控,进而对广告画像成功率/覆盖率进行分析。在对广告画像数据监控时,可以定时(比如每天)对前一天的特征分析和抽取情况做一次统计分析,生成监控报表,通过监控报表统计平台的成功率和覆盖率等情况,比如,整体广告端特征分析成功率、特征抽取成功率、图片特征抽取比例、文本抽取比例、目标页(landingpage)特征抽取比例、每日广告增量流水等。相比现有技术,本发明实施例方案具有如下特点:1、充分利用数据源。提出广告画像概念,除提供广告端基础属性外(例如账户信息),还会针对广告的文本、图片素材、定向条件、目标页(landingpage)等做特征挖掘输出;2、特征抽取覆盖率高。整体广告端特征分析成功率98%+,且已实现广告数据流水的增量更新;3、开放式架构设计。可以随时增减新数据源,特征分析以插件式服务接入,系统自适应;4、模型一致理念。广告端特征保持与用户画像对齐,保证广告 系统线上定向触发匹配、相关性调优等模型一致;5、定制化输出。应用方无需关注数据通道、投放端、广告DB、数据流等细节,可通过服务、词表、特征文件等多种方式按需配置化输出,key可以为广告id或素材id。本发明实施例将业务信息的语义特征抽取与分析抽象出来作为独立的服务模块,提供给所有上层业务应用,从而降低了整体业务系统的冗余与延迟;而且本系统支持数据的增量更新,可快速感知业务信息变化并及时输出信息语义特征;系统各模块采用的动态可插拔的组件方式,可定制化与增量化部署、升级,以及定制化输出,从而提高了系统服务操作灵活性,提高了业务系统的自适应、可扩展能力,降低系统成本;此外还可以通过语义特征分析结果对语义分析系统平台进行性能测试和监控,提高了广告业务系统的可靠性。更进一步地,需要说明的是,上述实施例中广告语义分析服务器可以承载于PC端,也可以承载于手机、平板电脑、便携式手持设备等各种移动终端上,以PC端为例,上述语义分析服务器的硬件结构可以如图6所示。参照图6,该服务器可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现该服务器中各组成部件之间的连接通信。用户接口1003可以包括显示屏(Display),以及键盘(Keyboard)、鼠标等组件,用于接收用户输入的信息,并将接收的信息发送至处理器1005进行处理。显示屏可以为LCD显示屏、LED显示屏,还可以为触控屏等,用于实现服务器的显示功能,显示相应的数据。可选地,用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。如图6所示,作为一种计算机存储介质的存储器1005中 可以包括操作系统、网络通信模块、用户接口模块以及信息处理应用程序。这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施,这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施,在一些情况下,这样的实施方式可以在处理器1001中实施。对于软件实施,诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储器1005中并且由处理器1001执行。在图6所示的服务器中,网络接口1004主要用于连接广告增量服务器,与广告增量服务器进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信,接收客户端输入的操作指令;而处理器1001可以用于调用存储器1005中存储的信息处理应用程序,并执行以下操作:获取业务信息数据,将所述业务信息数据输入对应的业务组件,所述业务组件通过所述服务器上配置的组件接口接入所述服务器;通过所述对应的业务组件对所述业务信息数据进行语义特征抽取和/或语义特征分析;获取所述对应的业务组件输出的语义特征处理结果,将所述语义特征处理结果上报给上层业务应用。进一步地,在一个实施例中,处理器1001调用存储器1005中存储的信息处理应用程序,还可以执行以下操作:从信息流增量服务器获取业务信息数据;或者,所述服务器从第三方获取业务信息数据请求包。进一步地,在一个实施例中,处理器1001调用存储器1005中存储的信息处理应用程序,还可以执行以下操作:通过对应的业务组件对所述业务信息数据进行预处理;和/或通过对应的业务组件对所述业务信息数据进行特征抽取;和/或通过对应的业务组件对所述业务信息数据进行特征聚合;和/或通过对应的业务组件对所述业务信息数据进行特征模型计算;和/或通过对应的业务组件对所述业务信息数据进行特征素材优化。进一步地,在一个实施例中,处理器1001调用存储器1005中存储的信息处理应用程序,还可以执行以下操作:对各业务组件之间进行交叉组合,其中,包括对各业务组件内语义特征挖掘算法以及关键字的交叉组合。进一步地,在一个实施例中,处理器1001调用存储器1005中存储的信息处理应用程序,还可以执行以下操作:所述服务器通过配置文件动态配置所述组件接口。基于所述语义特征处理结果,对所述服务器的业务信息数据处理性能进行测试。基于所述语义特征处理结果,对所述服务器的业务信息数据处理状况进行监控。本实施例通过上述方案,将业务信息的语义特征抽取与分析抽象出来作为独立的服务模块,提供给所有上层业务应用,从而降低了整体业务系统的冗余与延迟;而且本系统支持数据的增量更新,可快速感知业务信息变化并及时输出信息语义特征;系统各模块采用的动态可插拔的组件方式,可定制化与增量化部署、升级,以及定制化输出,从而提高了系统服务操作灵活性,提高了业务系统的自适应、可扩展能力,降低系统成本。基于上述软件及硬件架构,提出本发明业务信息处理方法及业务信息处理服务器的功能模块实施例。如图7所示,本发明第一实施例提出一种业务信息处理服务器,包括:获取模块201、处理模块202以及上报模块203,其中:获取模块201,用于获取业务信息数据,将所述业务信息数据输入对应的业务组件,所述业务组件通过所述服务器上配置的组件接口接入所述服务器;处理模块202,用于通过所述对应的业务组件对所述业务信息数据进行语义特征抽取和/或语义特征分析;上报模块203,用于获取所述对应的业务组件输出的语义特征处理结果,将所述语义特征处理结果上报给上层业务应用。进一步地,所述获取模块201,还用于从信息流增量服务器获取业务信息数据;或者,所述服务器从第三方获取业务信息数据请求包。其中,本实施例业务信息处理服务器根据业务信息的不同可以采用相应的服务器,比如对于广告,可以为广告语义分析服务器,因此,本实施例中业务信息处理服务器的功能可以依照上述实施例中所述的广告语义分析服务器功能原理来设计。具体地,以广告为例,广告语义分析服务器提供平台级的服务,作为广告业务系统中所有上层广告端业务应用的底层支撑服务系统。广告语义分析服务器集中对广告数据挖掘潜在语义特征,并基于特征集做分析与应用等操作。例如:利用特征计算广告相似度,计算广告质量度得分,自动优化广告素材等等;而所有的特征分析过程和特征应用过程都采用独立的组件完成,以实现系统平台与算法组件独立。广告语义分析服务器上通过配置文件动态配置有统一的组件接口,用于接入各业务组件,每一业务组件内配置有若干语义特征挖掘算法以及用于控制算法逻辑流程的关键字。广告语义分析服务器可以从广告流增量服务器获取广告数据,其优点在于,可以实时获取广告数据,广告语义分析服务器将广告数据输入对应的业务组件,所述业务组件通过广告语义分析服务器上配置的组件接口接入所述广告语义分析服务器。作为另一种实施方式,广告语义分析服务器也可以通过第三方请求获取业务信息数据。之后,广告语义分析服务器通过对应的业务组件对所述业务信息数据进行语义特征抽取和/或语义特征分析;获取所述对应的业务组件输出的语义特征处理结果,将所述语义特征处理结果上报给上层业务应用。其中:作为一种实现方式,广告语义分析服务器可以将语义特征处理结果通过集中式输出服务器上报给上层业务应用。或者,作为另一种实现方式,广告语义分析服务器可以将语义特征处理结果发送给广告流增量服务器,由广告流增量服务器通过集中式输出服务器上报给上层业务应用,以下实施例以此种实施方式进行举例。基于图1及图2所示的系统架构,通过广告流增量服务器向广告语义分析服务器发送业务信息数据;广告流增量服务器接收广告语义分析服务器反馈的语义特征处理结果,并将语义特征处理结果反馈给所述集中式存储服务器以及集中式输出服务器。集中式输出服务器将所述语义特征处理结果上报给上层业务应用。基于不同的业务组件,在本实施例中,所述处理模块202,还用于通过对应的业务组件对所述业务信息数据进行预处理;和/或通过对应的业务组件对所述业务信息数据进行特征抽取;和/或通过对应的业务组件对所述业务信息数据进行特征聚合;和/或通过对应的业务组件对所述业务信息数据进行特征模型计算;和/或通过对应的业务组件对所述业务信息数据进行特征素材优化。进一步地,所述处理模块202,还用于对各业务组件之间进行交叉组合,其中,包括对各业务组件内语义特征挖掘算法以及关键字的交叉组合。本实施例通过上述方案,由广告语义分析服务器获取广告数据,将广告数据输入对应的业务组件,业务组件通过广告语义分析服务器上配置的组件接口接入该广告语义分析服务器;通过业务组件对广告数据进行语义特征抽取和/或语义特征分析;获取对应的业务组件输出的语义特征处理结果,将所述语义特征处理结果上报给上层业务应用,由此将广告语义特征抽取与分析抽象出来作为独立的服务模块, 提供给所有上层业务应用,从而降低了整体业务系统的冗余与延迟;系统各模块采用的动态可插拔的组件方式,可定制化与增量化部署、升级,以及定制化输出,从而提高了系统服务操作灵活性,提高了业务系统的自适应、可扩展能力,降低系统成本。如图8所示,本发明第二实施例提出一种业务信息处理服务器,基于上述图7所示的实施例,该服务器还包括:配置模块200,用于通过配置文件动态配置所述组件接口。测试模块204,用于基于所述语义特征处理结果,对所述服务器的业务信息数据处理性能进行测试。监控模块205,用于基于所述语义特征处理结果,对所述服务器的业务信息数据处理状况进行监控。具体地,以广告为例,通过广告画像系统中广告语义分析系统的广告语义特征抽取和分析结果,可以对广告语义分析系统平台进行性能测试,其中涉及的性能指标比如包括:全量图片特征抽取QPS、图片相似度计算QPS、图片指纹计算QPS、短串相似度计算QPS、关键词提取QPS等,由此,通过测试结果,可以提高系统的处理能力、吞吐量以及稳定性。进一步地,还可以通过广告画像系统中广告语义分析系统的广告语义特征抽取和分析结果,对广告画像数据监控,进而对广告画像成功率/覆盖率进行分析。在对广告画像数据监控时,可以定时(比如每天)对前一天的特征分析和抽取情况做一次统计分析,生成监控报表,通过监控报表统计平台的成功率和覆盖率等情况,比如,整体广告端特征分析成功率、特征抽取成功率、图片特征抽取比例、文本抽取比例、目标页(landingpage)特征抽取比例、每日广告增量流水等。相比现有技术,本发明实施例方案具有如下特点:1、充分利用数据源。提出广告画像概念,除提供广告端基础属性外(例如账户信息),还会针对广告的文本、图片素材、定向条件、 目标页(landingpage)等做特征挖掘输出;2、特征抽取覆盖率高。整体广告端特征分析成功率98%+,且已实现广告数据流水的增量更新;3、开放式架构设计。可以随时增减新数据源,特征分析以插件式服务接入,系统自适应;4、模型一致理念。广告端特征保持与用户画像对齐,保证广告系统线上定向触发匹配、相关性调优等模型一致;5、定制化输出。应用方无需关注数据通道、投放端、广告DB、数据流等细节,可通过服务、词表、特征文件等多种方式按需配置化输出,key可以为广告id或素材id。本发明实施例将业务信息的语义特征抽取与分析抽象出来作为独立的服务模块,提供给所有上层业务应用,从而降低了整体业务系统的冗余与延迟;而且本系统支持数据的增量更新,可快速感知业务信息变化并及时输出信息语义特征;系统各模块采用的动态可插拔的组件方式,可定制化与增量化部署、升级,以及定制化输出,从而提高了系统服务操作灵活性,提高了业务系统的自适应、可扩展能力,降低系统成本;此外还可以通过语义特征分析结果对语义分析系统平台进行性能测试和监控,提高了广告业务系统的可靠性。进一步地,本发明较佳实施例还提出一种信息处理系统,该信息处理系统可以包括上述各实施例所述的业务信息处理服务器。进一步,所述系统还可以包括:信息流增量服务器、集中式存储服务器以及集中式输出服务器;其中:所述业务信息处理服务器,还用于将所述语义特征处理结果发送给所述信息流增量服务器;所述信息流增量服务器,用于向所述业务信息处理服务器发送业务信息数据;以及接收所述业务信息处理服务器反馈的语义特征处理结果,并将所述语义特征处理结果反馈给所述集中式存储服务器以及集中式输出服务器;所述集中式存储服务器,用于将所述业务信息处理服务器抽取的语义特征存储入库;所述集中式输出服务器,用于将所述语义特征处理结果上报给上层业务应用。本实施例信息处理系统的架构及功能原理,请参照上述各实施例,在此不再赘述。对应地,提出本发明业务信息处理方法实施例。如图9所示,本发明第一实施例提出一种业务信息处理方法,包括:步骤S301,服务器获取业务信息数据,将所述业务信息数据输入对应的业务组件,所述业务组件通过所述服务器上配置的组件接口接入所述服务器;步骤S302,通过所述对应的业务组件对所述业务信息数据进行语义特征抽取和/或语义特征分析;步骤S303,获取所述对应的业务组件输出的语义特征处理结果,将所述语义特征处理结果上报给上层业务应用。具体地,本实施例方法涉及的系统架构可以参照图1及图2所示。本实施例中服务器具体可以为上述实施例所述的业务信息处理服务器,该业务信息处理服务器根据业务信息的不同可以采用相应的服务器,比如对于广告,可以为广告语义分析服务器,因此,本实施例中业务信息处理服务器的功能可以依照上述实施例中所述的广告语义分析服务器功能原理来设计。具体地,以广告语义分析服务器为例,广告语义分析服务器提供平台级的服务,作为广告业务系统中所有上层广告端业务应用的底层支撑服务系统。广告语义分析服务器集中对广告数据挖掘潜在语义特征,并基于特征集做分析与应用等操作。例如:利用特征计算广告相似度,计算广告质量度得分,自动优化广告素材等等;而所有的特征分析过程和特征应用过程都采用独立的组件完成,以实现系统平台与算法组件独 立。广告语义分析服务器上通过配置文件动态配置有统一的组件接口,用于接入各业务组件,每一业务组件内配置有若干语义特征挖掘算法以及用于控制算法逻辑流程的关键字。广告语义分析服务器可以从广告流增量服务器获取广告数据,其优点在于,可以实时获取广告数据,广告语义分析服务器将广告数据输入对应的业务组件,所述业务组件通过广告语义分析服务器上配置的组件接口接入所述广告语义分析服务器。作为另一种实施方式,广告语义分析服务器也可以通过第三方请求获取业务信息数据。之后,广告语义分析服务器通过对应的业务组件对所述业务信息数据进行语义特征抽取和/或语义特征分析;获取所述对应的业务组件输出的语义特征处理结果,将所述语义特征处理结果上报给上层业务应用。其中:作为一种实现方式,广告语义分析服务器可以将语义特征处理结果通过集中式输出服务器上报给上层业务应用。或者,作为另一种实现方式,广告语义分析服务器可以将语义特征处理结果发送给广告流增量服务器,由广告流增量服务器通过集中式输出服务器上报给上层业务应用,以下实施例以此种实施方式进行举例。基于图1及图2所示的系统架构,通过广告流增量服务器向广告语义分析服务器发送业务信息数据;广告流增量服务器接收广告语义分析服务器反馈的语义特征处理结果,并将语义特征处理结果反馈给所述集中式存储服务器以及集中式输出服务器。集中式输出服务器将所述语义特征处理结果上报给上层业务应用。基于不同的业务组件,在本实施例中,所述处理模块202,还用于通过对应的业务组件对所述业务信息数据进行预处理;和/或通过对应的业务组件对所述业务信息数据进行特征抽取;和/或通过对应的业务组件对所述业务信息数据进行特征聚合;和/或通过对应的业务组件对所述业务信息数据进行特征模型计算;和/或通过对应的业务组件对所述业务信息数据进行特征素材优化。进一步地,上述通过对应的业务组件对所述业务信息数据进行语义特征抽取和/或语义特征分析的过程中,还可以对各业务组件之间进行交叉组合,其中,包括对各业务组件内语义特征挖掘算法以及关键字的交叉组合。在广告语义分析服务器102中,每个业务组件称为:业务流程(下文简称:process),process中每个独立的语义挖掘算法由函数来实现(下文检测:function)比如:抽取广告素材中的SFIT特征算法,抽取广告素材中人脸特征算法,计算文本公用子串算法等等;而控制算法逻辑流程的关键字称为:命令字(commandid下文件称:CMD),process与function都是动态可插拔的,且通过配置文件动态配置。系统通过process之间以及各process内function的交叉组合,实现模块与操作的叉乘组合。这样的方式使平台操作更加灵活,可自由构建出多种服务端操作。例如:process设定为计算两个广告之间的相似度,CMD设定为:抽取topic特征;那么二者叉乘的结果是:计算广告文本信息的topic相似度。具体到平台设计协议采用google的pb作为通信协议,其中Process通过pb中的特定字段:RequestMode来标识,CMD通过pb中定义cmd字段来做标识。如图3所示,图3描述了AdMinerSystem动态组件接入示意图,展示了AdMinerSystem与Process、functor、CMD的关系:AdMinerSystem提供统一的组件接入接口,开发人员根据业务需求,可通过开发Process(独立的或依赖其他Process)来实现接入系统。如图4所示,作为一种社交广告系统应用中,广告画像系统中的AdMinerSystem接入的process、functor、CMD示例如下:在图4中,接入的五个process分别为:预处理过程(BeforehandProcess)、特征抽取过程(GeneratorFeaturesProcess)、特征聚合过程(FeatureAggregateProcess)、特征模型计算过程(Computeringprocess)、特征素材优化过程(OptimizeProcess)。其中,各个process功能与包含的Functor和cmd可以参照上述实施例,在此不再赘述。本实施例通过上述方案,由广告语义分析服务器获取广告数据,将广告数据输入对应的业务组件,业务组件通过广告语义分析服务器上配置的组件接口接入该广告语义分析服务器;通过业务组件对广告数据进行语义特征抽取和/或语义特征分析;获取对应的业务组件输出的语义特征处理结果,将所述语义特征处理结果上报给上层业务应用,由此将广告语义特征抽取与分析抽象出来作为独立的服务模块,提供给所有上层业务应用,从而降低了整体业务系统的冗余与延迟;系统各模块采用的动态可插拔的组件方式,可定制化与增量化部署、升级,以及定制化输出,从而提高了系统服务操作灵活性,提高了业务系统的自适应、可扩展能力,降低系统成本。如图10所示,本发明第二实施例提出一种业务信息处理方法,基于上述实施例,在步骤:服务器获取业务信息数据的步骤之前还包括:步骤S100,服务器通过配置文件动态配置所述组件接口。其中,服务器可以根据需要,通过相应的配置文件动态配置统一的组件接口,用于接入各业务组件,每一业务组件内配置有若干语义特征挖掘算法以及用于控制算法逻辑流程的关键字,其中,语义特征挖掘算法以函数(function)表示,其也可以通过配置文件动态配置,实现动态可插拔。由此,通过动态配置组件接口,使得系统各模块采用的动态可插拔的组件方式,可定制化与增量化部署、升级,以及定制化输出,从而提高了系统服务操作灵活性,提高了业务系统的自适应、可扩展能力,降低系统成本。如图11所示,本发明第三实施例提出一种业务信息处理方法,基于上述图10所示的实施例,所述方法还包括:步骤S104,基于所述语义特征处理结果,对所述服务器的业务信息数据处理性能进行测试。具体地,以广告为例,通过广告画像系统中广告语义分析系统的广告语义特征抽取和分析结果,可以对广告语义分析系统平台进行性 能测试,其中涉及的性能指标比如包括:全量图片特征抽取QPS、图片相似度计算QPS、图片指纹计算QPS、短串相似度计算QPS、关键词提取QPS等,由此,通过测试结果,可以提高系统的处理能力、吞吐量以及稳定性。如图12所示,本发明第四实施例提出一种业务信息处理方法,基于上述图10所示的实施例,所述方法还包括:步骤S105,基于所述语义特征处理结果,对所述服务器的业务信息数据处理状况进行监控。具体地,以广告为例,可以通过广告画像系统中广告语义分析系统的广告语义特征抽取和分析结果,对广告画像数据监控,进而对广告画像成功率/覆盖率进行分析。在对广告画像数据监控时,可以定时(比如每天)对前一天的特征分析和抽取情况做一次统计分析,生成监控报表,通过监控报表统计平台的成功率和覆盖率等情况,比如,整体广告端特征分析成功率、特征抽取成功率、图片特征抽取比例、文本抽取比例、目标页(landingpage)特征抽取比例、每日广告增量流水等。相比现有技术,本发明实施例方案具有如下特点:1、充分利用数据源。提出广告画像概念,除提供广告端基础属性外(例如账户信息),还会针对广告的文本、图片素材、定向条件、目标页(landingpage)等做特征挖掘输出;2、特征抽取覆盖率高。整体广告端特征分析成功率98%+,且已实现广告数据流水的增量更新;3、开放式架构设计。可以随时增减新数据源,特征分析以插件式服务接入,系统自适应;4、模型一致理念。广告端特征保持与用户画像对齐,保证广告系统线上定向触发匹配、相关性调优等模型一致;5、定制化输出。应用方无需关注数据通道、投放端、广告DB、数据流等细节,可通过服务、词表、特征文件等多种方式按需配置化 输出,key可以为广告id或素材id。本发明实施例将业务信息的语义特征抽取与分析抽象出来作为独立的服务模块,提供给所有上层业务应用,从而降低了整体业务系统的冗余与延迟;而且本系统支持数据的增量更新,可快速感知业务信息变化并及时输出信息语义特征;系统各模块采用的动态可插拔的组件方式,可定制化与增量化部署、升级,以及定制化输出,从而提高了系统服务操作灵活性,提高了业务系统的自适应、可扩展能力,降低系统成本;此外还可以通过语义特征分析结果对语义分析系统平台进行性能测试和监控,提高了广告业务系统的可靠性。还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或流程变 换,或直接或间接运用在其它相关的
技术领域
,均同理包括在本发明的专利保护范围内。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1