数据处理方法及装置的制造方法

文档序号:10624944阅读:153来源:国知局
数据处理方法及装置的制造方法
【专利摘要】本发明公开了一种数据处理方法及装置,所述方法包括:接收用户输入的关键词、逻辑表达式;根据所述关键词和所述逻辑表达式,在第一类微博网站获取预设时间段内的微博数据,所述第一类微博网站为微博主注册量大于预设阈值的微博网站;采用预设的分析规则对所述微博数据进行分析,获取分析结果,并建立所述微博数据的全文检索索引,所述全文检索索引与所述分析结果关联;将所述分析结果和/或所述全文检索索引向所述用户展示。上述方法能够解决现有技术中仅通过关键词获取数据,受到微博客网站的限制,信息覆盖范围较小的问题。
【专利说明】
数据处理方法及装置
技术领域
[0001]本发明涉及计算机技术,具体涉及一种数据处理方法及装置。
【背景技术】
[0002]近几年微博客爆发式增长,据不完全统计,国内网民使用较多的几家微博客网站注册用户数已超3亿,每秒产生数千条微博信息,高峰期每秒更是会产生数万条信息,发布自由、信息量大,网状的人际关系使得微博内容病毒式传播,微博客异军突起成为备受追捧的舆论新阵地,其中的言论及话题井喷涌现,对社会舆论导向已产生重大影响。
[0003]随着海量的微博消息不断地被创造出来,如何有效监测微博客上有价值的言论及其传播轨迹,快速准确判别重点微博主的微影响力和人物关系,并从特定内容、微博主、话题等多角度挖掘和分析,是摆在微博客舆情监测和分析工作面前的一个新的难题。
[0004]目前,关于微博客监测和分析的方式主要是在某一微博网站中实现简单的关键词监测,无法实现微博主监测、话题跟踪等更深入的功能;仅通过关键词获取数据,受到微博客网站的限制,信息覆盖范围较小。

【发明内容】

[0005]针对现有技术中的缺陷,本发明提供了一种数据处理方法及装置,解决现有技术中仅通过关键词获取数据,受到微博客网站的限制,信息覆盖范围较小的问题。
[0006]第一方面,本发明提供一种数据处理方法,包括:
[0007]接收用户输入的关键词、逻辑表达式;
[0008]根据所述关键词和所述逻辑表达式,在第一类微博网站获取预设时间段内的微博数据,所述第一类微博网站为微博主注册量大于预设阈值的微博网站,所述微博数据包括:原创信息、转发信息和评论信息;
[0009]采用预设的分析规则对所述微博数据进行分析,获取分析结果,并建立所述微博数据的全文检索索引,所述全文检索索引与所述分析结果关联;
[0010]将所述分析结果和/或所述全文检索索引向所述用户展示。
[0011]可选地,所述接收用户输入的关键词、逻辑表达式,包括:
[0012]接收用户输入的关键词、逻辑表达式和微博主信息,所述微博主信息包括:微博主标识和/或微博主昵称;
[0013]相应地,根据所述关键词和所述逻辑表达式,在第一类微博网站获取微博数据;
[0014]根据所述关键词和所述逻辑表达式、所述微博主信息,在第一类微博网站获取预设时间段内的微博数据。
[0015]可选地,所述根据所述关键词和所述逻辑表达式、所述微博主信息,在第一类微博网站获取预设时间段内的微博数据,包括:
[0016]根据所述关键词和所述逻辑表达式、所述微博主信息,在第一类微博网站获取预设时间段内的第一微博数据,所述第一微博数据为与所述微博主信息相关的所有第一类微博网站中的数据;
[0017]根据所述第一微博数据,确定与所述关键词对应的衍生词/热词;
[0018]根据所述衍生词/热词及所述逻辑表达式,在第一类微博网站和第二类微博网站获取预设时间段内的第二微博数据,所述第二微博数据为与所述衍生词/热词对应的微博数据;
[0019]所述微博数据包括所述第一微博数据和所述第二微博数据;所述第一微博数据和第二微博数据包括原创信息、转发信息、评论信息、发布时间、类型、转发数量、评论数量和/或涉及的微博主标识。
[0020]可选地,所述采用预设的分析规则对所述微博数据进行分析之前,所述方法还包括:
[0021]采用预设的筛选分类规则,对所述微博数据进行筛选,并对筛选后的微博数据进行分类,获得分类后的微博数据;
[0022]和/ 或,
[0023]在各类别数据库中存储对应类别的分类后的微博数据。
[0024]相应地,采用预设的分析规则对所述微博数据进行分析,包括:
[0025]采用预设的分析规则对分类后的微博数据进行分析。
[0026]可选地,根据所述关键词和所述逻辑表达式,在第一类微博网站获取预设时间段内的微博数据,包括:
[0027]根据所述关键词和所述逻辑表达式,周期性的在第一类微博网站获取预设时间段内的微博数据。
[0028]可选地,所述分析结果包括下述的一项或多项:
[0029]与关键词对应的舆情的言论倾向、所述舆情的发展态势、关键词对应至少一个信息的传播轨迹、与关键词对应的大V微博主的数量和分布区域,以及所述大V微博主的粉丝增长区域和粉丝分布区域,所述大V微博主的层次分布拓扑结构。
[0030]可选地,所述第一类微博网站包括:
[0031 ] 新浪微博、腾讯微博、搜狐微博、网易微博和推特Twitter和微信。
[0032]第二方面,本发明提供一种数据处理装置,包括:
[0033]接收单元,用于接收用户输入的关键词、逻辑表达式;
[0034]微博数据获取单元,用于根据所述关键词和所述逻辑表达式,在第一类微博网站获取预设时间段内的微博数据,所述第一类微博网站为微博主注册量大于预设阈值的微博网站;
[0035]分析单元,用于采用预设的分析规则对所述微博数据进行分析,获取分析结果,并建立所述微博数据的全文检索索引,所述全文检索索引与所述分析结果关联;
[0036]展示单元,用于将所述分析结果和/或所述全文检索索引向所述用户展示。
[0037]可选地,所述接收单元,具体用于
[0038]接收用户输入的关键词、逻辑表达式和微博主信息,所述微博主信息包括:微博主标识和/或微博主昵称;
[0039]微博数据获取单元,具体用于
[0040]根据所述关键词和所述逻辑表达式、所述微博主信息,在第一类微博网站获取预设时间段内的微博数据。
[0041 ] 可选地,所述微博数据获取单元,具体用于
[0042]根据所述关键词和所述逻辑表达式、所述微博主信息,在第一类微博网站获取预设时间段内的第一微博数据,所述第一微博数据为与所述微博主信息相关的所有第一类微博网站中的数据;
[0043]根据所述第一微博数据,确定与所述关键词对应的衍生词/热词;
[0044]根据所述衍生词/热词及所述逻辑表达式,在第一类微博网站和第二类微博网站获取预设时间段内的第二微博数据,所述第二微博数据为与所述衍生词/热词对应的微博数据;
[0045]所述微博数据包括所述第一微博数据和所述第二微博数据;所述第一微博数据和第二微博数据包括原创信息、转发信息、评论信息、发布时间、类型、转发数量、评论数量和/或涉及的微博主标识。
[0046]由上述技术方案可知,本发明的数据处理方法及装置,通过接收用户输入的关键词和逻辑表达式,进而在微博网站中获取用户关注的微博数据,进而对微博数据分析获得分析结果,并将分析结果展示,可较好的解决现有技术中仅通过关键词获取数据,受到微博客网站的限制,信息覆盖范围较小的问题。
【附图说明】
[0047]图1为本发明一实施例提供的数据处理方法的流程示意图;
[0048]图2为本发明另一实施例提供的数据处理方法的流程示意图;
[0049]图3为本发明一实施例提供的数据处理装置的结构示意图;
[0050]图4为本发明一实施例提供的数据处理装置的结构示意图;
[0051]图5为本发明另一实施例提供的数据处理装置的结构示意图。
【具体实施方式】
[0052]下面结合附图,对发明的【具体实施方式】作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。本发明实施例中所使用的“第一”、“第二”仅为更清楚的说明本申请的内容,不具有特定含义,也不限定任何内容。
[0053]本发明实施例中较好的扩大了微博客舆情监测及分析的数据覆盖范围,将多种采集方式相结合,利用微博客网站的开放平台和网页抓取技术,实现对更多微博客数据的采集。
[0054]图1示出了一实施例提供的数据处理方法的流程示意图,如图1所示,本实施例的数据处理方法如下所述。
[0055]101、接收用户输入的关键词、逻辑表达式;
[0056]102、根据所述关键词和所述逻辑表达式,在第一类微博网站获取预设时间段内的微博数据。
[0057]举例来说,可采用网页抓取方式在第一类微博网站抓取符合预设时间段的微博数据。
[0058]在本实施例中,所述第一类微博网站为微博主注册量大于预设阈值的微博网站;例如,新浪微博、腾讯微博、搜狐微博、网易微博和推特Twitter等。
[0059]所述微博数据可包括原创信息、转发信息、评论信息、发布时间、类型、转发数量、评论数量和/或涉及的微博主标识等。本实施例不对其进行限定,均为举例说明。
[0060]在具体应用中,上述步骤可具体为:根据所述关键词和所述逻辑表达式,周期性的在第一类微博网站获取预设时间段内的微博数据。
[0061]103、采用预设的分析规则对所述微博数据进行分析,获取分析结果,并建立所述微博数据的全文检索索引,所述全文检索索引与所述分析结果关联。
[0062]例如,可采用自然数据处理算法对所述微博数据进行分析,获得分析结果。
[0063]104、将所述分析结果和/或所述全文检索索引向所述用户展示。
[0064]在实际应用中,由于获取分析结果的时间较长,由此,在获取到分析结果和/或所述全文检索索引之后,向用户发送提示有分析结果和/或全文检索索引的提示信息,以使用户根据提示信息查看分析结果和/或全文检索索引。
[0065]或者,在另一例子中,可在用户界面弹出获得分析结果和/或所述全文检索索引的提示信息,以便用户根据提示信息查看分析结果和/或全文检索索引。
[0066]或者,在第三种例子中,可在用户界面直接展示部分的分析结果以及全文检索索引的部分内容。
[0067]上述向用户展示分析结果和全文检索索引的内容仅为举例,本实施例不对其进行限定。
[0068]举例来说,分析结果可包括下述的一项或多项:
[0069]与关键词对应的舆情的言论倾向、所述舆情的发展态势、关键词对应至少一个信息的传播轨迹、与关键词对应的大V微博主的数量和分布区域,以及所述大V微博主的粉丝增长区域和粉丝分布区域,所述大V微博主的层次分布拓扑结构。
[0070]在一种具体的例子中,上述数据处理方法的步骤101还可为下述的图中未示出的步骤1la:
[0071]101a、接收用户输入的关键词、逻辑表达式和微博主信息,所述微博主信息包括:微博主标识和/或微博主昵称;
[0072]相应地,步骤102还可为下述的图中未示出的步骤102a:
[0073]102a、根据所述关键词和所述逻辑表达式、所述微博主信息,在第一类微博网站获取预设时间段内的微博数据。
[0074]本实施例的数据处理方法,通过接收用户输入的关键词和逻辑表达式,进而在微博网站中获取用户关注的微博数据,进而对微博数据分析获得分析结果,并将分析结果展示,可较好的解决现有技术中仅通过关键词获取数据,受到微博客网站的限制,信息覆盖范围较小的问题。
[0075]上述方法通过对用户所关心的微博主、微博和话题持续监控,定期分析其变化规律,为引领舆论导向,提供科学有效的依据。上述方法还可针对事务的发展趋势,及时制定解决方案,实现安全便捷的实时调控,可扩大微博客舆情监测及分析的数据覆盖范围,将多种采集方式相结合,利用微博客网站的开放平台和网页抓取技术,实现对更多微博客数据的采集。
[0076]图2示出了一实施例提供的数据处理方法的流程示意图,如图2所示,本实施例的数据处理方法如下所述。
[0077]201、接收用户输入的关键词、逻辑表达式和微博主信息。
[0078]本实施例中,微博主信息可包括:微博主标识和/或微博主昵称、是否属于认证微博主等等。
[0079]202、根据所述关键词和所述逻辑表达式、所述微博主信息,在第一类微博网站获取预设时间段内的第一微博数据,所述第一微博数据为与所述微博主信息相关的所有第一类微博网站中的数据;
[0080]在实际应用中,可定期如周期性的在第一类微博网站获取预设时间段内的微博数据。
[0081]也就是说,由于微博转发、舆情发展具有时间持续性,为此,获取微博数据可持续的获取微博网站中的微博数据。
[0082]203、根据所述第一微博数据,确定与所述关键词对应的衍生词/热词;
[0083]204、根据所述衍生词/热词及所述逻辑表达式,在第一类微博网站和第二类微博网站获取预设时间段内的第二微博数据,所述第二微博数据为与所述衍生词/热词对应的微博数据;
[0084]在本实施例中,微博数据可包括所述第一微博数据和所述第二微博数据;所述第一微博数据和第二微博数据包括原创信息、转发信息、评论信息、发布时间、类型、转发数量、评论数量和/或涉及的微博主标识。
[0085]通常,第一类微博网站可包括:新浪微博、腾讯微博、搜狐微博、网易微博和推特Twitter ;第二类微博网站可包括soopat微博等,本实施例仅为举例说明,不对其限定。
[0086]205、采用预设的筛选分类规则,对所述微博数据进行筛选,并对筛选后的微博数据进行分类,获得分类后的微博数据。
[0087]在具体应用中,可将重复的微博数据的信息筛选统计,以及对垃圾数据进行过滤,进而提尚后续分析的效率。
[0088]206、在各类别数据库中存储对应类别的分类后的微博数据。
[0089]207、采用预设的分析规则对分类后的微博数据进行分析,获取分析结果,并建立所述微博数据的全文检索索引,所述全文检索索引与所述分析结果关联。
[0090]208、将所述分析结果和/或所述全文检索索引向所述用户展示。
[0091]本实施例中的分析结果可包括下述的一项或多项:
[0092]与关键词对应的舆情的言论倾向、所述舆情的发展态势、关键词对应至少一个信息的传播轨迹、与关键词对应的大V微博主的数量和分布区域,以及所述大V微博主的粉丝增长区域和粉丝分布区域,所述大V微博主的层次分布拓扑结构。
[0093]本实施例的数据处理方法,可较好的解决现有技术中仅通过关键词获取数据,受至IJ微博客网站的限制,信息覆盖范围较小的问题。
[0094]图3示出了一实施例提供的数据处理装置的结构示意图,如图3所示,本实施例的数据处理装置包括:接收单元31、微博数据获取单元32、分析单元33和展示单元34 ;
[0095]接收单元31用于接收用户输入的关键词、逻辑表达式;
[0096]微博数据获取单元32用于根据所述关键词和所述逻辑表达式,在第一类微博网站获取预设时间段内的微博数据,所述第一类微博网站为微博主注册量大于预设阈值的微博网站,例如新浪微博、腾讯微博、搜狐微博、网易微博和Twitter等;
[0097]分析单元33用于采用预设的分析规则对所述微博数据进行分析,获取分析结果,并建立所述微博数据的全文检索索引,所述全文检索索引与所述分析结果关联;
[0098]展示单元34用于将所述分析结果和/或所述全文检索索引向所述用户展示。
[0099]本实施例中的分析结果可包括下述的一项或多项:
[0100]与关键词对应的舆情的言论倾向、所述舆情的发展态势、关键词对应至少一个信息的传播轨迹、与关键词对应的大V微博主的数量和分布区域,以及所述大V微博主的粉丝增长区域和粉丝分布区域,所述大V微博主的层次分布拓扑结构。
[0101]在一种具体的例子中,所述接收单元31可具体用于,接收用户输入的关键词、逻辑表达式和微博主信息,所述微博主信息包括:微博主标识和/或微博主昵称;
[0102]微博数据获取单元32可具体用于,根据所述关键词和所述逻辑表达式、所述微博主信息,在第一类微博网站获取预设时间段内的微博数据。
[0103]在具体应用中,所述微博数据获取单元32具体用于,根据所述关键词和所述逻辑表达式、所述微博主信息,在第一类微博网站获取预设时间段内的第一微博数据,所述第一微博数据为与所述微博主信息相关的所有第一类微博网站中的数据;
[0104]根据所述第一微博数据,确定与所述关键词对应的衍生词/热词;
[0105]根据所述衍生词/热词及所述逻辑表达式,在第一类微博网站和第二类微博网站获取预设时间段内的第二微博数据,所述第二微博数据为与所述衍生词/热词对应的微博数据;
[0106]所述微博数据包括所述第一微博数据和所述第二微博数据;所述第一微博数据和第二微博数据包括原创信息、转发信息、评论信息、发布时间、类型、转发数量、评论数量和/或涉及的微博主标识。
[0107]可选地,本实施例的数据处理装置还可包括图中未示出的筛选分类单元,该筛选分类单元,用于采用预设的筛选分类规则,对所述微博数据进行筛选,并对筛选后的微博数据进行分类,获得分类后的微博数据,相应地,分析单元33可采用预设的分析规则对分类后的微博数据进行分析,获取分析结果,并建立所述微博数据的全文检索索引,所述全文检索索引与所述分析结果关联。
[0108]本实施例的数据处理装置,能够实现微博客特定内容监测、重点微博主挖掘、热门话题追踪、人物关系绘制、传播轨迹分析和舆情数据展示等多角度的微博客监测及分析,可较好的解决现有技术中仅通过关键词获取数据,受到微博客网站的限制,信息覆盖范围较小的问题。
[0109]上述的数据处理装置可执行前述图1和图2所示的方法流程示意图,能够扩大微博客舆情监测及分析的数据覆盖范围,将多种采集方式相结合,利用微博客网站的开放平台和网页抓取技术,实现对更多微博数据的采集。
[0110]图4示出了本发明另一实施例提供的数据处理装置的结构示意图,如图4所示,本实施例的数据处理装置可包括数据采集模块41、海量数据存储和分析模块42、数据检索模块43、分析结果管理模块44、应用系统模块45、配置管理模块46。
[0111]其中,所述数据采集模块41可用于网页模拟登陆,如通过账号模拟真实用户登陆各微博网站,采集网站中相关的信息,例如关键词采集,如向各微博网站(如上所述的第一类微博网站)发送查询请求获取查询结果页面;又例如网页数据提取,提取网页中的各项微博信息的元数据,包括微博信息、微博主信息和图片;还可以API采集,如通过微博客的开放平台采集关注用户的微博;
[0112]在具体应用中所述数据采集模块41还包括:账户管理/轮询调度单元,该账户管理/轮询调度单元用于控制每个账号向开放平台发送请求的频率。
[0113]所述海量数据存储和分析模块42可用于分布式存储,例如对原始微博数据采用列存储的方式,对不变的元数据采用JSON格式封装并压缩;
[0114]所述海量数据存储和分析模块42还用于数据获取,如根据微博唯一标识快速批量获取微博原始数据;
[0115]所述海量数据存储和分析模块42还用于数据更新,如实时更新指定微博的转发数评论数;
[0116]所述海量数据存储和分析模块42还用于分布式挖掘,例如采用自然语言处理算法利用并行运算对微博数据进行分析和挖掘。
[0117]所述数据检索模块43可用于通过分布式全文检索技术实现对海量微博数据多域的检索,具体地,用于索引服务,如接收外部传入的数据,对各域建立索引,并和原有索引库进行合并;还用于检索服务,对外提供各属性项的复杂条件检索。也就是说,分布式索引控制服务接收需要建立索引的数据,利用负载均衡技术分发到不同的子集群中,子集群中的索引服务根据获取到的数据创建索引;检索服务,索引库数据在不同的服务器上进行副本备份,通过检索服务器将检索结果返回给检索控制服务,由分布式检索控制服务对结果进行归并处理后呈现给应用层,如图5所示,最终实现分布式检索。
[0118]所述分析结果管理模块44用于存储并管理各种分析方法所产生的结果,对结果较多的数据进行分区管理,并对历史数据定期淘汰。
[0119]所述应用系统模块45可用于特定内容监测,如通过给定特征词库,系统利用检索模块自动对采集到的微博客信息增量式筛选和分析,准确的发现信息中的关注内容,存入专用数据库,自动识别库中相同或相似的信息,通过界面把相关信息提供给用户,实现对特定内容的监测和处理;
[0120]所述应用系统模块45还用于重点博主挖掘,对重点关注微博主近期所发的微博进行分析,了解意见领袖的言论倾向,对微博主提供多维度的分析,包括微博发布规律、原发转发比、受众响应状态、粉丝增长趋势、粉丝地域分布、主要关注点、人物关系等;
[0121]所述应用系统模块45还用于热门话题追踪,结合微博自身特征及短文本分析的相关方法,利用海量数据存储和分析模块的功能提取出当前网民关注的热点话题,对重要度较高的话题自动追踪其演化趋势,包括信息溯源、评论变化等,对网站、时间、发布方式、地域、意见领袖等多角度进行分析;
[0122]所述应用系统模块45还用于人物关系绘制,根据微博主之间的关系,自动挖掘其中的人际网络,生成指定微博主的人物关系图,以图形化的方式进行展现;
[0123]所述应用系统模块45还用于传播轨迹分析,构建微博信息的传播路径,对微博的传播轨迹、人物对传播的影响进行分析,挖掘传播规律及信息传播过程中起放大作用的传播主体、传播时间上的轨迹、引发传播量突变的账户、时间节点等关键因素,通过图形化的方式直观呈现。
[0124]所属配置管理模块46可用于关注规则配置,管理用户所关心的特定内容对应的逻辑表达式规则;
[0125]所属配置管理模块46还用于关注用户配置,分类别管理用户关心的重点微博主;用户和权限管理,管理使用本系统的用户及权限。
[0126]上述的数据处理装置具体实现中,可通过配置管理模块46建立各使用用户,在用户登录数据处理装置之后,通过配置管理模块46配置该用户所关心的业务规则,包括关注规则和关注微博主;此时,数据采集模块41可采用用户配置的关注规则和关注微博主在境内外主流微博网站获取微博数据,数据采集模块41可采用多种采集方式相结合获取微博数据。
[0127]进一步地,通过海量数据存储和分析模块42对采集到的数据进行分布式存储管理和智能分析,并更新微博的最新转发数评论数。数据检索模块43对采集的数据建立索弓I,提供全文检索功能。分析结果管理模块44对智能分析的结果进行存储。应用系统模块实时分析数据处理装置中获取的数据,提取用户所关心的舆情信息,通过多种方式进行展不O
[0128]可选地,数据处理装置还可根据用户输入的热门话题的关键词自动获取关键词的衍生词/热词,进而进一步采用衍生词/热词获取相关的微博数据,以扩展获取的微博数据,进而可针对性的获取更多的有效微博数据,辅助用户判断微博热点的真实舆情价值。
[0129]举例来说,前述的关注规则可指用户用于发现特定内容的关键词逻辑表达式,关注微博可指用户重点关心的微博客的使用者。
[0130]本实施例中获取的微博数据可指微博的内容、发布时间、URL、类型、转发数、评论数、作者昵称、作者Id等。
[0131]前述的智能分析可包括提取关键词、自动分类、自动发现热点话题、垃圾信息过滤等。
[0132]分析结果管理模块44对智能分析的结果进行存储,具体地,分析结果管理模块44可充分利用数据库表空间,建立多个数据文件,部署到不同的物理磁盘或RAID盘阵,以提高对分析结果的读取和写入能力。
[0133]所述应用系统模块45可实时分析最新采集到的微博数据,再和原有的分析结果进行综合计算,最终得到基于全部数据的分析结果。
[0134]上述数据处理装置有效扩大监测范围,对热点话题、热点微博持续追踪,对重点博主深度分析,包括人物关系绘制、传播轨迹分析、热门话题趋势追踪等,以图文结合的方式展现给使用用户,从而辅助用户更好地实现对微博客的监测及分析。
[0135]本发明的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
[0136]类似地,应当理解,为了精简本发明公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释呈反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身都作为本发明的单独实施例。
[0137]此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0138]本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
[0139]最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。
【主权项】
1.一种数据处理方法,其特征在于,包括: 接收用户输入的关键词、逻辑表达式; 根据所述关键词和所述逻辑表达式,在第一类微博网站获取预设时间段内的微博数据,所述第一类微博网站为微博主注册量大于预设阈值的微博网站,所述微博数据包括:原创信息、转发信息和评论信息; 采用预设的分析规则对所述微博数据进行分析,获取分析结果,并建立所述微博数据的全文检索索引,所述全文检索索引与所述分析结果关联; 将所述分析结果和/或所述全文检索索引向所述用户展示。2.根据权利要求1所述的方法,其特征在于,所述接收用户输入的关键词、逻辑表达式,包括: 接收用户输入的关键词、逻辑表达式和微博主信息,所述微博主信息包括:微博主标识和/或微博主昵称; 相应地,根据所述关键词和所述逻辑表达式,在第一类微博网站获取微博数据; 根据所述关键词和所述逻辑表达式、所述微博主信息,在第一类微博网站获取预设时间段内的微博数据。3.根据权利要求2所述的方法,其特征在于,所述根据所述关键词和所述逻辑表达式、所述微博主信息,在第一类微博网站获取预设时间段内的微博数据,包括: 根据所述关键词和所述逻辑表达式、所述微博主信息,在第一类微博网站获取预设时间段内的第一微博数据,所述第一微博数据为与所述微博主信息相关的所有第一类微博网站中的数据; 根据所述第一微博数据,确定与所述关键词对应的衍生词/热词; 根据所述衍生词/热词及所述逻辑表达式,在第一类微博网站和第二类微博网站获取预设时间段内的第二微博数据,所述第二微博数据为与所述衍生词/热词对应的微博数据; 所述微博数据包括所述第一微博数据和所述第二微博数据;所述第一微博数据和第二微博数据包括原创信息、转发信息、评论信息、发布时间、类型、转发数量、评论数量和/或涉及的微博主标识。4.根据权利要求1所述的方法,其特征在于,所述采用预设的分析规则对所述微博数据进行分析之前,所述方法还包括: 采用预设的筛选分类规则,对所述微博数据进行筛选,并对筛选后的微博数据进行分类,获得分类后的微博数据; 和/或, 在各类别数据库中存储对应类别的分类后的微博数据。 相应地,采用预设的分析规则对所述微博数据进行分析,包括: 采用预设的分析规则对分类后的微博数据进行分析。5.根据权利要求1所述的方法,其特征在于,根据所述关键词和所述逻辑表达式,在第一类微博网站获取预设时间段内的微博数据,包括: 根据所述关键词和所述逻辑表达式,周期性的在第一类微博网站获取预设时间段内的微博数据。6.根据权利要求1所述的方法,其特征在于,所述分析结果包括下述的一项或多项: 与关键词对应的舆情的言论倾向、所述舆情的发展态势、关键词对应至少一个信息的传播轨迹、与关键词对应的大V微博主的数量和分布区域,以及所述大V微博主的粉丝增长区域和粉丝分布区域,所述大V微博主的层次分布拓扑结构。7.根据权利要求1所述的方法,其特征在于,所述第一类微博网站包括: 新浪微博、腾讯微博、搜狐微博、网易微博和推特Twitter。8.一种数据处理装置,其特征在于,包括: 接收单元,用于接收用户输入的关键词、逻辑表达式; 微博数据获取单元,用于根据所述关键词和所述逻辑表达式,在第一类微博网站获取预设时间段内的微博数据,所述第一类微博网站为微博主注册量大于预设阈值的微博网站; 分析单元,用于采用预设的分析规则对所述微博数据进行分析,获取分析结果,并建立所述微博数据的全文检索索引,所述全文检索索引与所述分析结果关联; 展示单元,用于将所述分析结果和/或所述全文检索索引向所述用户展示。9.根据权利要求8所述的装置,其特征在于,所述接收单元,具体用于 接收用户输入的关键词、逻辑表达式和微博主信息,所述微博主信息包括:微博主标识和/或微博主昵称; 微博数据获取单元,具体用于 根据所述关键词和所述逻辑表达式、所述微博主信息,在第一类微博网站获取预设时间段内的微博数据。10.根据权利要求9所述的装置,其特征在于,所述微博数据获取单元,具体用于 根据所述关键词和所述逻辑表达式、所述微博主信息,在第一类微博网站获取预设时间段内的第一微博数据,所述第一微博数据为与所述微博主信息相关的所有第一类微博网站中的数据; 根据所述第一微博数据,确定与所述关键词对应的衍生词/热词; 根据所述衍生词/热词及所述逻辑表达式,在第一类微博网站和第二类微博网站获取预设时间段内的第二微博数据,所述第二微博数据为与所述衍生词/热词对应的微博数据; 所述微博数据包括所述第一微博数据和所述第二微博数据;所述第一微博数据和第二微博数据包括原创信息、转发信息、评论信息、发布时间、类型、转发数量、评论数量和/或涉及的微博主标识。
【文档编号】G06F17/30GK105989176SQ201510098394
【公开日】2016年10月5日
【申请日】2015年3月5日
【发明人】张丹, 杨建武
【申请人】北大方正集团有限公司, 北京大学, 北京北大方正电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1