一种基于语义的大数据分析商业智能服务系统的制作方法

文档序号:6620875阅读:1071来源:国知局
一种基于语义的大数据分析商业智能服务系统的制作方法
【专利摘要】本发明提出了一种基于语义的大数据分析商业智能服务系统,实现了对互联网富含的商业信息地精准分析,可以方便快捷的为中小型企业提供商业智能服务,其包括:数据采集入库子系统、实时数据流处理子系统、存储子系统、底层支持子系统和业务输出子系统;其中,数据采集入库子系统,包括相互独立的分布式爬虫模块和数据源适配器,分布式爬虫模块和数据源适配器分别连接实时数据流处理子系统,分布式爬虫模块负责数据源头侦测、互联网数据采集和HTML预处理,数据源适配器用于将第三方数据资源接入工作;实时数据流处理子系统连接至存储子系统,并包括相连接的临时存储模块和数据流钩子,临时存储模块将实时采集到的数据临时存储起来。
【专利说明】一种基于语义的大数据分析商业智能服务系统

【技术领域】
[0001]本发明涉及商业智能【技术领域】,尤其涉及一种基于语义的大数据分析商业智能服务系统。

【背景技术】
[0002]在我国社会发展的新时期,中小型企业异军突起,遂成为中国市场上日益旺盛的力量。他们渴望发展壮大,需要信息服务,却没有资本雄厚的大型集团公司的实力和精力来自己组建信息机构。信息资源是企业最重要的资源之一,开发信息资源是企业信息化的出发点,又是企业信息化的“归宿”。
[0003]随着信息化程度不断加深,企业对“大数据”分析服务的渴求也日益强烈。互联网持续增长信息资源蕴含了巨量的具有商业价值的信息,成为重要的商业智能服务信息源头,但是,由于互联网数据量庞大、获取难度大、单位价值相对低、几乎全是文本等非结构数据等难点,其价值并没有被业界充分开发和利用。
[0004]对于企业来说,“效率就是生命,时间就是金钱”。互联网只有积极提供信息服务手段,利用现代化技术设备,实现资源共享,有组织、有计划、有目的地进行信息的收集和加工,才能为中小型企业提供更方便、快捷和全方位的参考咨询服务,加快企业领导决策速度,为企业在市场经济中赢得机遇。


【发明内容】

[0005]基于【背景技术】存在的问题,本发明提出了一种基于语义的大数据分析商业智能服务系统,实现了对互联网富含的商业信息地精准分析,可以方便快捷的为中小型企业提供商业智能服务。
[0006]本发明提出的一种基于语义的大数据分析商业智能服务系统,包括:数据采集入库子系统、实时数据流处理子系统、存储子系统、底层支持子系统和业务输出子系统;其中,
[0007]数据采集入库子系统,包括相互独立的分布式爬虫模块和数据源适配器,分布式爬虫模块和数据源适配器分别连接实时数据流处理子系统,分布式爬虫模块负责数据源头侦测、互联网数据采集和HTML预处理,数据源适配器用于将第三方数据资源接入工作;
[0008]实时数据流处理子系统连接至存储子系统,并包括相连接的临时存储模块和数据流钩子,临时存储模块以集群的内存作为缓存环境,将实时采集到的数据临时存储起来,供有实时性要求的模块读取;流数据钩子提供用于挂载的钩子,当有数据到达,钩子将数据的基本描述挂载起来,以便挂载到钩子的模块取阅;实时数据流处理子系统中设置有缓存阈值,超过缓存阈值,数据将被清空;
[0009]存储子系统连接至业务输出子系统,并包括相连接的Hadoop集群和mysql集群,Hadoop集群用于存储大量网页数据和没有随机读写需求的分析结果;mySql集群存储体积较小、需要经常随机读写的数据;
[0010]底层支持子系统,包括相连接的语义信息抽取模块和语义搜索引擎,语义信息抽取模块负责从文本中抽取语义信息,支持其他需要语义抽取、语义分析的模块,语义信息抽取模块分别连接实时数据处理子系统和业务输出子系统;语义搜索引擎集成了所有与语义搜索、文本处理相关的工具和API模块,其同时连接Hadoop集群和业务输出子系统;
[0011]业务输出子系统,用于具体业务的执行、调度和展现,包括并联的精准营销模块、数据业务模块、报告生成模块、商业情报分析模块和舆情分析模块;其中,精准营销模块用于为精准营销提供数据搜集、分析和营销手段的技术支持;数据业务模块用于为满足客户特定数据需求而开展的数据搜集和语义分析;报告生成模块为客户生成简短的、概要性的、图文结合的信息概要,支持定期自动生成、报告汇总和撰写;商业情报分析模块用于商机信息分析、竞争对手分析、产业上下游动态和数据分析;舆情分析模块用于话题跟踪分析、事件和人物的相关跟踪分析、网络舆情类数据搜集和集成分析。
[0012]分布式爬虫模块中,对不同信息来源设定可信度权值。
[0013]分布式爬虫模块采用了定点蹲守式和/或启发式和/或泛采集的采集策略。
[0014]实时数据流处理子系统的缓存阈值为0.1?100分钟。
[0015]Hadoop集群为永久性存储。
[0016]运营数据、数据挖掘结果、语义分析结果存储于mysql集群中。
[0017]语义信息抽取模块采用类自然语言的语义信息抽取技术,以极其类似自然语言的形式来描述和标记自然语言文本中的语义信息。
[0018]语义信息抽取模块采用语义聚类技术,记录每一话题的信息量,提醒用户关注重要事件。
[0019]本发明有效地解决了基于web的大数据分析问题,不但精准度高、提供语义信息丰富,而且极具实用性和可产业化等特点,以其作为数据挖掘等技术的输入数据,可充分释放文本信息的价值;通过分析互联网用户的商业行为,实现对企业产品的精准营销服务;帮助企业洞察行业内及上下游产业的动态趋势,把握商机和规避风险,帮助企业迅速做出科学的决策等方面的商业智能服务。本发明的产业化应用前景广阔。

【专利附图】

【附图说明】
[0020]图1为本发明提出的一种基于语义的大数据分析商业智能服务系统的结构图。

【具体实施方式】
[0021]参照图1,本发明提出的一种基于语义的大数据分析商业智能服务系统,包括:数据采集入库子系统、实时数据流处理子系统、存储子系统、底层支持子系统和业务输出子系统。
[0022]数据采集入库子系统,包括相互独立的分布式爬虫模块和数据源适配器,分布式爬虫模块和数据源适配器分别连接实时数据流处理子系统。分布式爬虫模块负责数据源头侦测、互联网数据采集和HTML(超文本标记语言)预处理。数据源适配器用于将第三方数据资源接入工作,例如客户指定的需要分析的数据,可通过数据源适配器介入到本系统的处理流程。
[0023]分布式爬虫模块中,对不同信息来源设定可信度权值,从而使用户确定信息价值,节约提取时间。例如本实施方式中,数据挖掘工具包采用抽象的数据挖掘常见算法工具包,结合开源社区的的工具和算法包,形成比较成熟的数据挖掘算法和工具包,实时采集各个网站、论坛、博客等网络上的数据,同时,采用中国网站排名网的排名数据,对每个网站信息设置可信度权值,并对新闻、博客、论坛等不同来源信息也有对应权值。分布式爬虫模块针对不同的主题采集数据,同时,本实施方式中,通过类似页面的网页结构分析,确定网页主体数据区块,并自动生成可执行模板来实现网页抽取。此外,网络数据的采集采用了定点蹲守式、启发式和泛采集等多种采集策略。本实施方式采集数据范围广、针对性强,而且效率闻、遗漏少。
[0024]实时数据流处理子系统连接至存储子系统,并包括相连接的临时存储模块和数据流钩子。临时存储模块以集群的内存作为缓存环境,将数据采集入库子系统实时采集到的数据临时存储起来,供有实时性要求的模块读取。流数据钩子提供用于挂载的钩子,基本机制为订阅-消费模型,当有数据到达,钩子将数据的基本描述挂载起来,以便挂载到钩子的模块取阅。实时数据流处理子系统通过钩子机制,将各类分析需求有机接入在数据采集入库子系统与存储子系统之间,即保证了处理的实时性,又可以将数据分布式存储,并通过可扩展的架构策略,避免了处理拥堵。实时数据流处理子系统中设置有缓存阈值,超过缓存阈值,数据将被清空,本实施方式中缓存阈值为5分钟,具体实施时,可另行设置,例如0.1?100分钟中的任意值。
[0025]存储子系统连接至业务输出子系统,并包括相连接的Hadoop集群(一个分布式系统基础架构)和mysql集群(一种关系型数据库)。Hadoop集群用于存储大量网页数据和没有随机读写需求的分析结果,Hadoop集群中的数据存储是永久性的,其存储的数据容量大,为实时数据流处理子系统的数据流钩子技术奠定基础。mysql集群存储体积较小、需要经常随机读写的数据,例如运营数据、数据挖掘结果、语义分析结果等。Hadoop集群和mysql集群,提高了数据调用的效率。
[0026]底层支持子系统,包括相连接的语义信息抽取模块和语义搜索引擎。语义信息抽取模块负责从文本中抽取语义信息,支持其他需要语义抽取、语义分析的模块,语义信息抽取模块分别连接实时数据处理子系统和业务输出子系统输送语义分析结果。语义搜索引擎集成了所有与语义搜索、文本处理相关的工具和API (Applicat1n ProgrammingInterface,应用程序编程接口 )模块,其同时连接Hadoop集群和业务输出子系统,可在Hadoop集群中搜索数据并向业务输出子系统输送结果。
[0027]本实施方式中,语义信息抽取模块采用以段落为分析对象,以提取人、物、事各个属性为目标的语义分析技术,将人、事、物涉及的各个常见侧面、属性提出来;同时,还采用语义聚类技术,记录每一话题的信息量,提醒用户关注这些重要事件。本实施方式中,以极其类似自然语言的形式,描述和标记自然语言文本中的语义信息,并不尝试构建严格的规贝1J,而是从具体的一个个表达相近意义或者包涵相近语义信息的语句着手,人工将所关心的语义元素标注;通过内置语义词典对语句中未标记部分进行分析,生成归纳规则;通过拣选符合自然语言表达习惯(又称“符合直觉”)的规则;对未被规则涵盖的语句进行新一轮迭代,从而形成一套可人工理解、可用于语义匹配和文本信息抽取的规则。以上文本语义处理方法,有效地解决了基于web的大数据分析问题,不但精准度高、提供语义信息丰富,而且极具实用性和可产业化等特点,以其作为数据挖掘等技术的输入数据,可充分释放文本信息的价值。同时,该种语义表达方式去重性优异,避免同一条信息的多次存储,节约存储空间。
[0028]业务输出子系统,用于具体业务的执行、调度和展现,包括并联的精准营销模块、数据业务模块、报告生成模块、商业情报分析模块和舆情分析模块。精准营销模块用于为精准营销提供数据搜集、分析和营销手段的技术支持;数据业务模块用于为满足客户特定数据需求而开展的数据搜集和语义分析;报告生成模块为客户生成简短的、概要性的、图文结合的信息概要,支持定期自动生成、报告汇总和撰写;商业情报分析模块用于商机信息分析、竞争对手分析、产业上下游动态和数据分析;舆情分析模块用于话题跟踪分析、事件和人物的相关跟踪分析、网络舆情类数据搜集和集成分析。业务输出子系统通过分析互联网用户的商业行为,实现对企业产品的精准营销服务;帮助企业洞察行业内及上下游产业的动态趋势,把握商机和规避风险,帮助企业迅速做出科学的决策等方面的商业智能服务。产业化应用前景广阔。
[0029]本系统通过对互联网的监控及对文本信息的语义分析,实现对上网人群的商业行为的分析,把适合商机的产品推荐给他,从而实现精准营销的功能。另一方面通过对企业外部商业环境的监测,提供包括市场环境、行业动态、产品及品牌监控、企业上下游环境监测等商业智能服务。
[0030]以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
【权利要求】
1.一种基于语义的大数据分析商业智能服务系统,其特征在于,包括:数据采集入库子系统、实时数据流处理子系统、存储子系统、底层支持子系统和业务输出子系统;其中, 数据采集入库子系统,包括相互独立的分布式爬虫模块和数据源适配器,分布式爬虫模块和数据源适配器分别连接实时数据流处理子系统,分布式爬虫模块负责数据源头侦测、互联网数据采集和HTML预处理,数据源适配器用于将第三方数据资源接入工作; 实时数据流处理子系统连接至存储子系统,并包括相连接的临时存储模块和数据流钩子,临时存储模块以集群的内存作为缓存环境,将实时采集到的数据临时存储起来,供有实时性要求的模块读取;流数据钩子提供用于挂载的钩子,当有数据到达,钩子将数据的基本描述挂载起来,以便挂载到钩子的模块取阅;实时数据流处理子系统中设置有缓存阈值,超过缓存阈值,数据将被清空; 存储子系统连接至业务输出子系统,并包括相连接的Hadoop集群和mysql集群,Hadoop集群用于存储大量网页数据和没有随机读写需求的分析结果;mySql集群存储体积较小、需要经常随机读写的数据; 底层支持子系统,包括相连接的语义信息抽取模块和语义搜索引擎,语义信息抽取模块负责从文本中抽取语义信息,支持其他需要语义抽取、语义分析的模块,语义信息抽取模块分别连接实时数据处理子系统和业务输出子系统;语义搜索引擎集成了所有与语义搜索、文本处理相关的工具和API模块,其同时连接Hadoop集群和业务输出子系统; 业务输出子系统,用于具体业务的执行、调度和展现,包括并联的精准营销模块、数据业务模块、报告生成模块、商业情报分析模块和舆情分析模块;其中,精准营销模块用于为精准营销提供数据搜集、分析和营销手段的技术支持;数据业务模块用于为满足客户特定数据需求而开展的数据搜集和语义分析;报告生成模块为客户生成简短的、概要性的、图文结合的信息概要,支持定期自动生成、报告汇总和撰写;商业情报分析模块用于商机信息分析、竞争对手分析、产业上下游动态和数据分析;舆情分析模块用于话题跟踪分析、事件和人物的相关跟踪分析、网络舆情类数据搜集和集成分析。
2.如权利要求1所述的基于语义的大数据分析商业智能服务系统,其特征在于,分布式爬虫模块中,对不同信息来源设定可信度权值。
3.如权利要求1所述的基于语义的大数据分析商业智能服务系统,其特征在于,分布式爬虫模块采用了定点蹲守式和/或启发式和/或泛采集的采集策略。
4.如权利要求1所述的基于语义的大数据分析商业智能服务系统,其特征在于,实时数据流处理子系统的缓存阈值为0.1?100分钟。
5.如权利要求1所述的基于语义的大数据分析商业智能服务系统,其特征在于,Hadoop集群为永久性存储。
6.如权利要求1所述的基于语义的大数据分析商业智能服务系统,其特征在于,运营数据、数据挖掘结果、语义分析结果存储于mysql集群中。
7.如权利要求1所述的基于语义的大数据分析商业智能服务系统,其特征在于,语义信息抽取模块采用类自然语言的语义信息抽取技术,以极其类似自然语言的形式来描述和标记自然语言文本中的语义信息。
8.如权利要求1所述的基于语义的大数据分析商业智能服务系统,其特征在于,语义信息抽取模块采用语义聚类技术,记录每一话题的信息量,提醒用户关注重要事件。
【文档编号】G06Q30/00GK104182389SQ201410348407
【公开日】2014年12月3日 申请日期:2014年7月21日 优先权日:2014年7月21日
【发明者】贾岩 申请人:安徽华贞信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1