舆情数据存储方法和服务器的制造方法

文档序号:10665772阅读:690来源:国知局
舆情数据存储方法和服务器的制造方法
【专利摘要】本发明提供一种舆情数据存储方法和服务器,该方法包括:获取待存储舆情数据,确定并将待存储舆情数据对应的话题标识、数据标识、展示字段和排序字段关联存储在缓存中得到待处理缓存数据;确定不存在与待处理缓存数据的话题标识对应的专题标识时,将待处理缓存数据的话题标识、数据标识和排序字段关联存储在近期数据库中;将待存储舆情数据存入历史数据库中;以第一话题存储格式存储待处理缓存数据的话题标识、数据标识和创建时间到实时数据库中;以第二话题存储格式存储待处理缓存数据的话题标识和展示字段到实时数据库中。完成舆情数据不同信息在近期数据库、历史数据库和实时数据库的依次分级别存储。
【专利说明】
舆情数据存储方法和服务器
技术领域
[0001]本发明属于信息技术领域,尤其是涉及一种舆情数据存储方法和服务器。
【背景技术】
[0002]网络舆情是通过互联网传播的公众对某些焦点、热点问题所持有的倾向性观点和言论,主要通过论坛、博客、新闻跟帖、转帖等形式传播。由于互联网的虚拟性、隐蔽性、发散性和渗透性等特点,越来越多的人们愿意通过互联网这一平台表达个人对舆情事件的看法。
[0003]舆情数据信息反映了公众对各种热点事件或者说是舆情专题的观点,通过对各不同舆情专题的识别以及对每个舆情专题在不同时间段的舆情话题的识别,可以帮助比如相关政府部门、应用服务提供商等及时了解当前公众关注的热点和观点,以便通过对实时或一段时间的舆情数据的分析,根据分析结果进行相应的应用。但是,对舆情数据的分析前提是进行舆情数据的可靠、有效存储。
[0004]随着互联网应用的广泛普及,舆情数据的海量性越来越突出,人们在共享海量舆情数据信息的同时,也面临着海量舆情数据的存储等问题。以往人们在存储结构化数据时,往往采用将数据直接存入数据库中的方式,但是,在面对突发的海量的舆情数据时,直接进行入数据库存储将导致数据存储可靠性受到严重影响,因此,海量舆情数据的存储成为了系统设计的瓶颈问题。

【发明内容】

[0005]针对上述存在的问题,本发明提供一种舆情数据存储方法和服务器,以实现舆情数据的可靠性存储。
[0006]本发明提供了一种舆情数据存储方法,包括:
[0007]获取待存储舆情数据,为所述待存储舆情数据分配数据标识,并根据预设的各话题表达式确定所述待存储舆情数据对应的话题标识;
[0008]解析获得所述待存储舆情数据对应的展示字段和排序字段,将所述数据标识、所述话题标识、所述展示字段和所述排序字段关联存储在服务器的缓存中,得到待处理缓存数据;其中,所述展示字段包括所述待存储舆情数据的创建时间、创建者和数据内容,所述排序字段包括所述待存储舆情数据的转发次数和/或评论次数;
[0009]从所述缓存中获取所述待处理缓存数据,根据预设的专题话题对应关系,确定是否存在与所述待处理缓存数据的话题标识对应的专题标识;
[0010]若不存在所述专题标识,则将所述待处理缓存数据的所述话题标识、所述数据标识和所述排序字段关联存储在所述服务器的近期数据库中,所述近期数据库用于存储所述待处理缓存数据到第一生命时长;
[0011]将扩展后的待处理缓存数据存入所述服务器的历史数据库中,所述历史数据库用于存储所述扩展后的待处理缓存数据到第二生命时长,所述第二生命时长的长度大于所述第一生命时长的长度,所述扩展后的待处理缓存数据中包括所述待处理缓存数据和所述待存储舆情数据中除所述展示字段和所述排序字段之外的其他字段;
[0012]以预设第一话题存储格式存储所述待处理缓存数据的所述话题标识、所述数据标识和所述创建时间到所述服务器的实时数据库中;以预设第二话题存储格式存储所述待处理缓存数据的所述话题标识和所述展示字段到所述实时数据库中,所述实时数据库用于存储所述待处理缓存数据到第三生命时长,所述第三生命时长的长度小于所述第一生命时长的长度。
[0013]本发明提供了一种服务器,包括:
[0014]获取模块,用于获取待存储舆情数据,为所述待存储舆情数据分配数据标识,并根据预设的各话题表达式确定所述待存储舆情数据对应的话题标识;
[0015]缓存处理模块,用于解析获得所述待存储舆情数据对应的展示字段和排序字段,将所述数据标识、所述话题标识、所述展示字段和所述排序字段关联存储在服务器的缓存中,得到待处理缓存数据;其中,所述展示字段包括所述待存储舆情数据的创建时间、创建者和数据内容,所述排序字段包括所述待存储舆情数据的转发次数和/或评论次数;
[0016]确定模块,用于从所述缓存中获取所述待处理缓存数据,根据预设的专题话题对应关系,确定是否存在与所述待处理缓存数据的话题标识对应的专题标识;
[0017]近期存储处理模块,用于若所述确定模块确定不存在所述专题标识,则将所述待处理缓存数据的所述话题标识、所述数据标识和所述排序字段关联存储在所述服务器的近期数据库中,所述近期数据库用于存储所述待处理缓存数据到第一生命时长;
[0018]历史存储处理模块,用于将扩展后的待处理缓存数据存入所述服务器的历史数据库中,所述历史数据库用于存储所述扩展后的待处理缓存数据到第二生命时长,所述第二生命时长的长度大于所述第一生命时长的长度,所述扩展后的待处理缓存数据中包括所述待处理缓存数据和所述待存储舆情数据中除所述展示字段和所述排序字段之外的其他字段;
[0019]实时存储处理模块,用于以预设第一话题存储格式存储所述待处理缓存数据的所述话题标识、所述数据标识和所述创建时间到所述服务器的实时数据库中;以预设第二话题存储格式存储所述待处理缓存数据的所述话题标识和所述展示字段到所述实时数据库中,所述实时数据库用于存储所述待处理缓存数据到第三生命时长,所述第三生命时长的长度小于所述第一生命时长的长度。
[0020]本发明提供的舆情数据存储方法和服务器,对舆情数据进行解析,获得用于进行向用户展示时需要的展示字段,以及用于对舆情数据进行分析所需的排序字段,从而在对待存舆情数据进行话题识别后,首先仅将该舆情数据的话题标识、数据标识、展示字段和排序字段这些信息存储在服务器的缓存中,进而再将缓存中存储的舆情数据的话题标识、数据标识和排序字段存入近期数据库中,之后将该舆情数据的所有信息存入历史数据库中,再将该舆情数据的展示字段和排序字段分别都存入实时数据库中,完成舆情数据不同信息在近期数据库、历史数据库和实时数据库的依次存储。由于各个数据库具有不同的存储时长限制,实现对舆情数据的分级别存储,而且,先将获得的海量舆情数据进行缓存存储,进而进行到近期数据库、历史数据库和实时数据库的存储,保证了数据存储可靠性的同时,根据不同需求对舆情数据进行实时、近期和历史的分别存储,便于根据不同需求快速访问获得存储在不同数据库中的舆情数据以进行分析和应用。
【附图说明】
[0021]图1为本发明舆情数据存储方法实施例的流程图;
[0022]图2为本发明服务器实施例的结构示意图。
【具体实施方式】
[0023]图1为本发明舆情数据存储方法实施例的流程图,该方法可以由一个用于进行舆情数据存储以及分析管理的服务器来执行,如图1所示,该方法具体包括:
[0024]步骤101、获取待存储舆情数据,为所述待存储舆情数据分配数据标识,并根据预设的各话题表达式确定所述待存储舆情数据对应的话题标识。
[0025]本实施例中,待存储舆情数据为公众通过自己的用户终端设备在互联网络上进行各种舆情评论、转发等操作而产生的数据,服务器可以通过现有的抓取工具等方式来获得舆情数据。为了方便舆情数据的存储处理,服务器为每条舆情数据分配一个唯一的数据标识,该数据标识比如可以是通过对舆情数据进行分词处理后,对得到的各个分词进行预设算法的哈希运算得到的,不以此为限。
[0026]本实施例中,在服务器中预先存储有经验或统计获得的多个话题表达式,并且每个话题表达式唯一对应一个话题标识。从而,服务器可以通过对待存储舆情数据进行分词处理,得到各个分词,通过对存储的每个话题表达式中所包含的词进行匹配,能够得到该待存储舆情数据对应的话题表达式,即获得与该待存储舆情数据对应的话题标识。其中,所述匹配比如是完全匹配即包含某个话题表达式中全部的词,也可以是一定程度的匹配,即比如重合的词占有某话题表达式中全部的词的比例。
[0027]步骤102、解析获得所述待存储舆情数据对应的展示字段和排序字段,将所述数据标识、所述话题标识、所述展示字段和所述排序字段关联存储在服务器的缓存中,得到待处理缓存数据;其中,所述展示字段包括所述待存储舆情数据的创建时间、创建者和数据内容,所述排序字段包括所述待存储舆情数据的转发次数和/或评论次数。
[0028]步骤103、从所述缓存中获取所述待处理缓存数据,根据预设的专题话题对应关系,确定是否存在与所述待处理缓存数据的话题标识对应的专题标识,若存在所述专题标识,则执行步骤104-107 ;若不存在所述专题标识,则执行步骤105-107。
[0029]本实施例中,一条舆情数据中可能包含有很多信息,比如除了数据内容之外,还包含有该条舆情数据的创建者、创建时间、评论次数、转发次数、发布方式等等多种信息。而这些舆情数据的存储意义一般是,通过对实时的或一段时间的舆情数据的统计、分析,以得到当前公众所关注的热点事件或观点趋势,以便政府等机构进行合理的引导,避免造成严重社会影响,或者供互联网内容提供商等用户进行搜索引擎或消息推荐之用。因此,针对上述举例的不同应用场合,本实施例中,为了在完成海量舆情数据及时、高效、可靠存储的同时,也为了存储的舆情数据能够方便后续不同的分析需求,服务器在获得舆情数据之后,通过对舆情数据进行解析,从中获得展示字段和排序字段。其中,展示字段主要包括比如待存储舆情数据的创建时间、创建者和数据内容,排序字段包括待存储舆情数据的转发次数和/或评论次数。展示字段主要用于向用户展示实时或一段时间内的某一话题或某一专题的各公众的观点即舆情数据内容,排序字段主要用于热点分析。
[0030]在解析获得待存储舆情数据的展示字段和排序字段后,将该待存储舆情数据的数据标识、话题标识、展示字段和排序字段关联存储在服务器的缓存中,得到待处理缓存数据。由于在同一时间段内可能需要分析存储非常大量的舆情数据,并且在获取到待存储舆情数据到将该待存储舆情数据存储完毕,处理过程较长,为了减轻后续存储处理过程的处理压力,将舆情数据在后续存储处理前先存储在服务器的缓存中。这样还有一个好处就是当舆情数据后期存储处理成功后才将舆情数据从服务器缓存中删除,当舆情数据后期处理失败后,无需做任何操作,只需读取缓存中现存的舆情数据进行处理即可,这样既可大大简化处理流程,又保证了数据的完整性。
[0031]之后,对缓存中存在的待处理缓存数据,即关联存储在服务器的缓存中的待存储舆情数据的数据标识、话题标识、展示字段和排序字段,进行后续存储处理。
[0032]所述后续存储处理中,首先需要进行待处理缓存数据的专题入库处理。具体来说,根据服务器中存储的预设的专题话题对应关系,确定是否存在与所述待处理缓存数据的话题标识对应的专题标识。实际上,专题、话题和舆情数据之间存在着不确定的关系,即一个话题可能包含有多个舆情数据,一个专题可能对应着多个不同话题,本实施例中,可以根据预先统计获得的专题和话题的对应关系来确定当前待处理缓存数据的话题标识对应的专题标识是否存在。
[0033]步骤104、以预设第三专题存储格式存储所述待处理缓存数据的所述专题标识、所述数据标识和所述创建时间到所述实时数据库中;以预设第四专题存储格式存储所述待处理缓存数据的所述专题标识和所述展示字段到所述实时数据库中。
[0034]若存在与待处理缓存数据的话题标识对应的专题标识,则进行待处理缓存数据的专题入实时数据库的处理。值得说明的是,本实施例中,在服务器中设置了三种数据库:实时数据库、近期数据库和历史数据库,其中,所述实时数据库位于所述服务器的内存中;所述近期数据库为关系型数据库;所述历史数据库为非关系型NoSQL数据库。其中,实时数据库用于存储待处理缓存数据一定的生命时长,比如从某待处理缓存数据存入实时数据库中的时间起算,存储一周的时间,一周时间到达时自动删除该条数据。
[0035]具体地,在将待处理缓存数据进行专题入实时数据库存储的过程中,本实施例中提供了两种存储格式分别进行存储,分别为第三专题存储格式和第四专题存储格式。其中,以第三专题存储格式存储该待处理缓存数据的专题标识、数据标识和创建时间到实时数据库中,具体格式直观表示为:(专题标识-数据标识,创建时间);以第四专题存储格式存储该待处理缓存数据的专题标识和展示字段到实时数据库中,具体格式直观表示为:(专题标识,list (展示字段))。其中,list是列表的含义,其含义是指将同属于一个专题标识的若干待处理缓存数据的展示字段依次分别写入该list列表中。其中,这两种存储格式分别用于不同的用途,第三种专题存储格式用于判重和淘汰,即为了避免同一个待处理缓存数据重复处理,将重复处理的待处理缓存数据从缓存中删除;第四种专题存储格式用于展示实时专题情况,此时的实时是指具有一定时间段含义的实时。另外,数据专题信息只存储在实时数据库中,这部分信息是为了快速检索出某专题相关数据展示给用户。
[0036]在待处理缓存数据专题入实时数据库成功后,或者在确定不存在与其话题标识对应的专题标识后,执行下面的后续步骤,即进行待处理缓存数据的话题入库处理。
[0037]步骤105、将所述待处理缓存数据的所述话题标识、所述数据标识和所述排序字段关联存储在所述服务器的近期数据库中,所述近期数据库用于存储所述待处理缓存数据到第一生命时长。
[0038]本实施例中,采用先近期数据库,再历史数据库,再实时数据库的存储顺序依次存储待处理缓存数据的话题信息。
[0039]首先,将当前待处理缓存数据的话题标识、数据标识和排序字段关联存储在服务器的近期数据库中,其中,具体的存储格式可直观表示为:(话题标识-数据标识,排序字段)。该近期数据库用于存储待处理缓存数据到第一生命时长,比如I个月。其中,该近期数据库中存储的话题信息主要用于分析之用。近期数据库中只存储待处理缓存数据的一部分分析字段即排序字段,不存储数据的详情。
[0040]步骤106、将扩展后的待处理缓存数据存入所述服务器的历史数据库中,所述历史数据库用于存储所述扩展后的待处理缓存数据到第二生命时长,所述第二生命时长的长度大于所述第一生命时长的长度,所述扩展后的待处理缓存数据中包括所述待处理缓存数据和所述待存储舆情数据中除所述展示字段和所述排序字段之外的其他字段。
[0041]其次,将待存储舆情数据的上述排序字段、展示字段,以及除展示字段和排序字段之外的其他全部或部分字段,存入服务器的历史数据库中。其中,历史数据库用于存储上述舆情数据到第二生命时长,所述第二生命时长的长度大于所述第一生命时长的长度,比如是整个生命周期。
[0042]上述近期数据库和历史数据库中的数据只用于分析,分析问题的角度是以话题为中心的,对于某个话题属于哪个专题在分析中是没有用处的,当向用户展示分析成果时,对于专题的所属话题可直接从专题话题对应关系中获得。
[0043]步骤107、以预设第一话题存储格式存储所述待处理缓存数据的所述话题标识、所述数据标识和所述创建时间到所述服务器的实时数据库中;以预设第二话题存储格式存储所述待处理缓存数据的所述话题标识和所述展示字段到所述实时数据库中,所述实时数据库用于存储所述待处理缓存数据到第三生命时长,所述第三生命时长的长度小于所述第一生命时长的长度。
[0044]最后,进行话题数据信息入实时数据库的处理。具体来说,提供了两种存储格式进行话题处理:第一话题存储格式和第二话题存储格式。其中,以第一话题存储格式存储待处理缓存数据的话题标识、数据标识和创建时间到服务器的实时数据库中,具体格式直观表示为:(话题标识-数据标识,创建时间);以第二话题存储格式存储待处理缓存数据的话题标识和展示字段到实时数据库中,具体格式直观表示为:(话题标识,list (展示字段))。其中,list是列表的含义,其含义是指将同属于一个话题标识的若干待处理缓存数据的展示字段依次分别写入该list列表中。所述实时数据库用于存储所述待处理缓存数据到第三生命时长,所述第三生命时长的长度小于上述第一生命时长的长度,比如为一周。
[0045]其中,这两种话题存储格式分别用于不同的用途,第以种专题存储格式用于判重和淘汰,即为了避免同一个待处理缓存数据的话题信息重复处理,将重复处理的待处理缓存数据从缓存中删除;第二种专题存储格式用于展示实时话题情况,此时的实时是指具有一定时间段含义的实时。
[0046]本实施例中,对舆情数据进行解析,获得用于进行向用户展示时需要的展示字段,以及用于对舆情数据进行分析所需的排序字段,从而在对待存舆情数据进行话题识别后,首先仅将该舆情数据的话题标识、数据标识、展示字段和排序字段这些信息存储在服务器的缓存中,进而再将缓存中存储的舆情数据的话题标识、数据标识和排序字段存入近期数据库中,之后将该舆情数据的所有信息存入历史数据库中,再将该舆情数据的展示字段和排序字段分别都存入实时数据库中,完成舆情数据不同信息在近期数据库、历史数据库和实时数据库的依次存储。由于各个数据库具有不同的存储时长限制,实现对舆情数据的分级别存储,而且,先将获得的海量舆情数据进行缓存存储,进而进行到近期数据库、历史数据库和实时数据库的存储,保证了数据存储可靠性的同时,根据不同需求对舆情数据进行实时、近期和历史的分别存储,便于根据不同需求快速访问获得存储在不同数据库中的舆情数据以进行分析和应用。
[0047]可选的,在上述步骤103中从所述缓存中获取所述待处理缓存数据之后,还包括如下处理步骤:
[0048]确定所述实时数据库中是否存在与所述待处理缓存数据的所述数据标识和所述话题标识对应的表项;若存在,则删除所述待处理缓存数据。即上述第一话题存储格式存储的话题信息的用途体现。如果实时数据库中已经存在了某话题标识和某数据标识,说明该条数据已经被处理过,无需重复处理。
[0049]另外,在步骤107将话题入实时数据库处理完毕后,将缓存中的对应的待处理缓存数据删除,并进行下一条缓存数据的处理过程。
[0050]图2为本发明服务器实施例的结构示意图,如图2所示,该服务器包括:
[0051]获取模块11,用于获取待存储舆情数据,为所述待存储舆情数据分配数据标识,并根据预设的各话题表达式确定所述待存储舆情数据对应的话题标识;
[0052]缓存处理模块12,用于解析获得所述待存储舆情数据对应的展示字段和排序字段,将所述数据标识、所述话题标识、所述展示字段和所述排序字段关联存储在服务器的缓存中,得到待处理缓存数据;其中,所述展示字段包括所述待存储舆情数据的创建时间、创建者和数据内容,所述排序字段包括所述待存储舆情数据的转发次数和/或评论次数;
[0053]确定模块13,用于从所述缓存中获取所述待处理缓存数据,根据预设的专题话题对应关系,确定是否存在与所述待处理缓存数据的话题标识对应的专题标识;
[0054]近期存储处理模块14,用于若所述确定模块13确定不存在所述专题标识,则将所述待处理缓存数据的所述话题标识、所述数据标识和所述排序字段关联存储在所述服务器的近期数据库中,所述近期数据库用于存储所述待处理缓存数据到第一生命时长;
[0055]历史存储处理模块15,用于将扩展后的待处理缓存数据存入所述服务器的历史数据库中,所述历史数据库用于存储所述扩展后的待处理缓存数据到第二生命时长,所述第二生命时长的长度大于所述第一生命时长的长度,所述扩展后的待处理缓存数据中包括所述待处理缓存数据和所述待存储舆情数据中除所述展示字段和所述排序字段之外的其他字段;
[0056]实时存储处理模块16,用于以预设第一话题存储格式存储所述待处理缓存数据的所述话题标识、所述数据标识和所述创建时间到所述服务器的实时数据库中;以预设第二话题存储格式存储所述待处理缓存数据的所述话题标识和所述展示字段到所述实时数据库中,所述实时数据库用于存储所述待处理缓存数据到第三生命时长,所述第三生命时长的长度小于所述第一生命时长的长度。
[0057]可选的,所述确定模块13还用于:
[0058]确定所述实时数据库中是否存在与所述待处理缓存数据的所述数据标识和所述话题标识对应的表项;
[0059]所述服务器还包括:
[0060]删除模块17,用于若所述确定模块13确定存在所述表项,则删除所述待处理缓存数据。
[0061]进一步地,所述实时存储处理模块16还用于:
[0062]若所述确定模块确定存在所述专题标识,则以预设第三专题存储格式存储所述待处理缓存数据的所述专题标识、所述数据标识和所述创建时间到所述实时数据库中;以预设第四专题存储格式存储所述待处理缓存数据的所述专题标识和所述展示字段到所述实时数据库中。
[0063]进一步地,所述删除模块17还用于:
[0064]从所述缓存中删除所述待处理缓存数据。
[0065]其中,所述实时数据库位于所述服务器的内存中;所述近期数据库为关系型数据库;所述历史数据库为非关系型NoSQL数据库。
[0066]本实施例的装置可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
[0067]本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:R0M、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
[0068]最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
【主权项】
1.一种舆情数据存储方法,其特征在于,包括: 获取待存储舆情数据,为所述待存储舆情数据分配数据标识,并根据预设的各话题表达式确定所述待存储舆情数据对应的话题标识; 解析获得所述待存储舆情数据对应的展示字段和排序字段,将所述数据标识、所述话题标识、所述展示字段和所述排序字段关联存储在服务器的缓存中,得到待处理缓存数据;其中,所述展示字段包括所述待存储舆情数据的创建时间、创建者和数据内容,所述排序字段包括所述待存储舆情数据的转发次数和/或评论次数; 从所述缓存中获取所述待处理缓存数据,根据预设的专题话题对应关系,确定是否存在与所述待处理缓存数据的话题标识对应的专题标识; 若不存在所述专题标识,则将所述待处理缓存数据的所述话题标识、所述数据标识和所述排序字段关联存储在所述服务器的近期数据库中,所述近期数据库用于存储所述待处理缓存数据到第一生命时长; 将扩展后的待处理缓存数据存入所述服务器的历史数据库中,所述历史数据库用于存储所述扩展后的待处理缓存数据到第二生命时长,所述第二生命时长的长度大于所述第一生命时长的长度,所述扩展后的待处理缓存数据中包括所述待处理缓存数据和所述待存储舆情数据中除所述展示字段和所述排序字段之外的其他字段; 以预设第一话题存储格式存储所述待处理缓存数据的所述话题标识、所述数据标识和所述创建时间到所述服务器的实时数据库中;以预设第二话题存储格式存储所述待处理缓存数据的所述话题标识和所述展示字段到所述实时数据库中,所述实时数据库用于存储所述待处理缓存数据到第三生命时长,所述第三生命时长的长度小于所述第一生命时长的长度。2.根据权利要求1所述的方法,其特征在于,所述从所述缓存中获取所述待处理缓存数据之后,还包括: 确定所述实时数据库中是否存在与所述待处理缓存数据的所述数据标识和所述话题标识对应的表项; 若存在,则删除所述待处理缓存数据。3.根据权利要求1所述的方法,其特征在于,所述确定是否存在与所述待处理缓存数据的话题标识对应的专题标识之后,还包括: 若存在所述专题标识,则以预设第三专题存储格式存储所述待处理缓存数据的所述专题标识、所述数据标识和所述创建时间到所述实时数据库中;以预设第四专题存储格式存储所述待处理缓存数据的所述专题标识和所述展示字段到所述实时数据库中。4.根据权利要求1所述的方法,其特征在于,所述以预设第一话题存储格式存储所述待处理缓存数据的所述话题标识、所述数据标识和所述创建时间到所述服务器的实时数据库中;以预设第二话题存储格式存储所述待处理缓存数据的所述话题标识和所述展示字段到所述实时数据库中之后,还包括: 从所述缓存中删除所述待处理缓存数据。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述实时数据库位于所述服务器的内存中;所述近期数据库为关系型数据库;所述历史数据库为非关系型NoSQL数据库。6.一种服务器,其特征在于,包括: 获取模块,用于获取待存储舆情数据,为所述待存储舆情数据分配数据标识,并根据预设的各话题表达式确定所述待存储舆情数据对应的话题标识; 缓存处理模块,用于解析获得所述待存储舆情数据对应的展示字段和排序字段,将所述数据标识、所述话题标识、所述展示字段和所述排序字段关联存储在服务器的缓存中,得到待处理缓存数据;其中,所述展示字段包括所述待存储舆情数据的创建时间、创建者和数据内容,所述排序字段包括所述待存储舆情数据的转发次数和/或评论次数; 确定模块,用于从所述缓存中获取所述待处理缓存数据,根据预设的专题话题对应关系,确定是否存在与所述待处理缓存数据的话题标识对应的专题标识; 近期存储处理模块,用于若所述确定模块确定不存在所述专题标识,则将所述待处理缓存数据的所述话题标识、所述数据标识和所述排序字段关联存储在所述服务器的近期数据库中,所述近期数据库用于存储所述待处理缓存数据到第一生命时长; 历史存储处理模块,用于将扩展后的待处理缓存数据存入所述服务器的历史数据库中,所述历史数据库用于存储所述扩展后的待处理缓存数据到第二生命时长,所述第二生命时长的长度大于所述第一生命时长的长度,所述扩展后的待处理缓存数据中包括所述待处理缓存数据和所述待存储舆情数据中除所述展示字段和所述排序字段之外的其他字段; 实时存储处理模块,用于以预设第一话题存储格式存储所述待处理缓存数据的所述话题标识、所述数据标识和所述创建时间到所述服务器的实时数据库中;以预设第二话题存储格式存储所述待处理缓存数据的所述话题标识和所述展示字段到所述实时数据库中,所述实时数据库用于存储所述待处理缓存数据到第三生命时长,所述第三生命时长的长度小于所述第一生命时长的长度。7.根据权利要求6所述的服务器,其特征在于,所述确定模块还用于: 确定所述实时数据库中是否存在与所述待处理缓存数据的所述数据标识和所述话题标识对应的表项; 还包括: 删除模块,用于若所述确定模块确定存在所述表项,则删除所述待处理缓存数据。8.根据权利要求6所述的服务器,其特征在于,所述实时存储处理模块还用于: 若所述确定模块确定存在所述专题标识,则以预设第三专题存储格式存储所述待处理缓存数据的所述专题标识、所述数据标识和所述创建时间到所述实时数据库中;以预设第四专题存储格式存储所述待处理缓存数据的所述专题标识和所述展示字段到所述实时数据库中。9.根据权利要求6所述的服务器,其特征在于,所述删除模块还用于: 从所述缓存中删除所述待处理缓存数据。10.根据权利要求6至9中任一项所述的服务器,其特征在于,所述实时数据库位于所述服务器的内存中;所述近期数据库为关系型数据库;所述历史数据库为非关系型NoSQL数据库。
【文档编号】G06F17/30GK106033438SQ201510111930
【公开日】2016年10月19日
【申请日】2015年3月13日
【发明人】荆艳影, 张丹, 杨建武
【申请人】北大方正集团有限公司, 北京大学, 北京北大方正电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1