热点信息分析方法及设备的制作方法

文档序号:6550550阅读:237来源:国知局
热点信息分析方法及设备的制作方法
【专利摘要】本发明提供一种热点信息分析方法及设备。热点信息分析方法包括:从互联网数据中提取描述热点事件的热点数据;对整个业务市场中与业务交易有关的业务数据与热点数据进行关联分析,获得候选热点数据与候选业务数据的对应关系,候选热点数据是指热点数据中与业务交易有关的热点数据,候选业务数据是指业务数据中与热点事件有关的业务数据;根据候选热点数据与候选业务数据的对应关系,对候选热点数据进行合并处理,获得目标热点数据和目标热点数据对应的目标业务数据。本发明技术方案可以进行热点信息的分析,提高分析出的热点信息的准确度。
【专利说明】热点信息分析方法及设备 【【技术领域】】
[0001] 本发明涉及互联网【技术领域】,尤其涉及一种热点信息分析方法及设备。 【【背景技术】】
[0002] 随着业务市场的发展,越来越多的业务行业需要进行热点信息挖掘,以便进行行 业分析或者获取有用的信息。以证券市场为例,证券市场中的热点行情是此起彼伏。现阶 段,股民用户主要是基于自己了解到的股票的市场交易数据和消息面数据,凭借业务经验 进行判断和分析,以获得证券市场中的热点信息。目前这种分析热点信息的方法一方面依 赖于用户的业务经验,另一方面使用用户所能了解到的数据,数据量相对较少,导致分析出 的热点信息的准确度较低。 【
【发明内容】

[0003] 本发明的多个方面提供一种热点信息分析方法及设备,用以进行热点信息的分 析,提高分析出的热点信息的准确度。
[0004] 本发明的一方面,提供一种热点信息分析方法,包括:
[0005] 从互联网数据中提取描述热点事件的热点数据;
[0006] 对整个业务市场中与业务交易有关的业务数据与所述热点数据进行关联分析,获 得候选热点数据与候选业务数据的对应关系,所述候选热点数据是指所述热点数据中与业 务交易有关的热点数据,所述候选业务数据是指所述业务数据中与热点事件有关的业务数 据;
[0007] 根据所述候选热点数据与候选业务数据的对应关系,对所述候选热点数据进行合 并处理,获得目标热点数据和所述目标热点数据对应的目标业务数据。
[0008] 作为本发明的进一步改进,所述从互联网数据中提取描述当天热点事件的热点数 据,包括:
[0009] 从所述互联网数据中确定用户访问数据;
[0010] 从所述用户访问数据中确定均值突变率大于第一突变率门限且短期突变率大于 第二突变率门限的候选用户访问数据;
[0011] 对所述候选用户访问数据的真实性进行验证,将通过真实性验证的所述候选用户 访问数据作为描述热点事件的所述热点数据;
[0012] 其中,所述均值突变率用于表征所述用户访问数据从第一时间点到当前一段时间 内的访问量的变化趋势;所述短期突变率用于表征所述用户访问数据自第二时间点到当前 一段时间内的访问量的变化趋势,所述第一时间点早于所述第二时间点。
[0013] 作为本发明的进一步改进,所述从所述用户访问数据中确定均值突变率大于第一 突变率门限且短期突变率大于第二突变率门限的候选用户访问数据之前,还包括:
[0014] 获取所述用户访问数据自所述第一时间点到当前的第一平均访问量、所述用户访 问数据自所述第二时间点到当前的第二平均访问量、以及所述用户访问数据当前的访问 量;
[0015] 用所述用户访问数据当前的访问量除以所述第一平均访问量,获得所述均值突变 率;
[0016] 用所述用户访问数据当前的访问量除以所述第二平均访问量,获得短期突变率。
[0017] 作为本发明的进一步改进,所述对所述候选用户访问数据的真实性进行验证,包 括:
[0018] 判断所述候选用户访问数据是否出现在新闻标题的切词片段中;
[0019] 如果判断结果为是,确定所述候选用户访问数据通过真实性验证;如果判断结果 为否,确定所述候选用户访问数据未通过真实性验证。
[0020] 作为本发明的进一步改进,所述对整个业务市场中与业务交易有关的业务数据与 所述热点数据进行关联分析,获得候选热点数据与候选业务数据的对应关系,包括:
[0021] 对于每种所述业务数据,确定所述业务数据对应的价格走势和每个所述热点数据 对应的访问量走势之间的相似度,并确定所述业务数据对应的关键词在每个所述热点数据 所属的用户访问数据中的共现次数,如果存在相似度满足预设的相似度条件、且共现次数 大于预设的共现量门限的热点数据,则建立所述业务数据和所述存在的热点数据之间的对 应关系,并确定所述业务数据和所述存在的热点数据分别作为所述候选业务数据和所述候 选热点数据。
[0022] 作为本发明的进一步改进,所述根据所述候选热点数据与候选业务数据的对应关 系,对所述候选热点数据进行合并处理,获得目标热点数据和所述目标热点数据对应的目 标业务数据,包括:
[0023] 根据所述候选热点数据与候选业务数据的对应关系,确定每个所述候选热点数据 对应的候选业务数据;
[0024] 将所述候选热点数据两两进行比较,以判断每两个所述候选热点数据对应的候选 业务数据中是否存在相同的候选业务数据且所述相同的候选业务数据的数量满足预设的 重置条件;
[0025] 如果判断结果为是,则将所述两个候选热点数据进行合并作为新的候选热点数 据,并将所述两个候选热点数据对应的候选业务数据进行合并作为所述新的候选热点数据 对应的候选业务数据,并返回执行将所述候选热点数据两两进行比较,以判断每两个所述 候选热点数据对应的候选业务数据中是否存在相同的候选业务数据且所述相同的候选业 务数据的数量满足预设的重叠条件的操作,直到所有判断结果均为否,获得所述目标热点 数据和所述目标热点数据对应的目标业务数据。
[0026] 作为本发明的进一步改进,在获得目标热点数据和所述目标热点数据对应的目标 业务数据之后,还包括:
[0027] 计算所述目标热点数据的热度值;
[0028] 输出所述目标热点数据、所述目标热点数据对应的目标业务数据以及所述目标热 点数据的热度值。
[0029] 本发明的另一方面,提供一种热点信息分析设备,包括:
[0030] 提取模块,用于从互联网数据中提取描述热点事件的热点数据;
[0031] 分析模块,用于对整个业务市场中与业务交易有关的业务数据与所述热点数据进 行关联分析,获得候选热点数据与候选业务数据的对应关系,所述候选热点数据是指所述 热点数据中与业务交易有关的热点数据,所述候选业务数据是指所述业务数据中与热点事 件有关的业务数据;
[0032] 合并模块,用于根据所述候选热点数据与候选业务数据的对应关系,对所述候选 热点数据进行合并处理,获得目标热点数据和所述目标热点数据对应的目标业务数据。
[0033] 作为本发明的进一步改进,所述提取模块包括:
[0034] 第一确定单元,用于从所述互联网数据中确定用户访问数据;
[0035] 第二确定单元,用于从所述用户访问数据中确定均值突变率大于第一突变率门限 且短期突变率大于第二突变率门限的候选用户访问数据;
[0036] 验证单元,用于对所述候选用户访问数据的真实性进行验证;
[0037] 提取单元,用于将通过真实性验证的所述候选用户访问数据作为描述热点事件的 所述热点数据;
[0038] 其中,所述均值突变率用于表征所述用户访问数据从第一时间点到当前一段时间 内的访问量的变化趋势;所述短期突变率用于表征所述用户访问数据自第二时间点到当前 一段时间内的访问量的变化趋势,所述第一时间点早于所述第二时间点。
[0039] 作为本发明的进一步改进,所述设备还包括:获取模块,用于获取所述用户访问数 据自所述第一时间点到当前的第一平均访问量、所述用户访问数据自所述第二时间点到当 前的第二平均访问量、以及所述用户访问数据当前的访问量;
[0040] 第一计算模块,用于用所述用户访问数据当前的访问量除以所述第一平均访问 量,获得所述均值突变率,并用所述用户访问数据当前的访问量除以所述第二平均访问量, 获得短期突变率。
[0041] 作为本发明的进一步改进,所述验证单元具体用于判断所述候选用户访问数据是 否出现在新闻标题的切词片段中;如果判断结果为是,确定所述候选用户访问数据通过真 实性验证;如果判断结果为否,确定所述候选用户访问数据未通过真实性验证。
[0042] 作为本发明的进一步改进,所述分析模块具体用于对于每种所述业务数据,确定 所述业务数据对应的价格走势和每个所述热点数据对应的访问量走势之间的相似度,并确 定所述业务数据对应的关键词在每个所述热点数据所属的用户访问数据中的共现次数,如 果存在相似度满足预设的相似度条件、且共现次数大于预设的共现量门限的热点数据,则 建立所述业务数据和所述存在的热点数据之间的对应关系,并确定所述业务数据和所述存 在的热点数据分别作为所述候选业务数据和所述候选热点数据。
[0043] 作为本发明的进一步改进,所述合并模块包括:
[0044] 第三确定单元,用于根据所述候选热点数据与候选业务数据的对应关系,确定每 个所述候选热点数据对应的候选业务数据;
[0045] 比较单元,用于将所述候选热点数据两两进行比较,以判断每两个所述候选热点 数据对应的候选业务数据中是否存在相同的候选业务数据且所述相同的候选业务数据的 数量满足预设的重叠条件;
[0046] 合并单元,用于在所述比较单元的判断结果为是时,将所述两个候选热点数据进 行合并作为新的候选热点数据,并将所述两个候选热点数据对应的候选业务数据进行合并 作为所述新的候选热点数据对应的候选业务数据,并触发所述比较单元继续执行将所述候 选热点数据两两进行比较,以判断每两个所述候选热点数据对应的候选业务数据中是否存 在相同的候选业务数据且所述相同的候选业务数据的数量满足预设的重叠条件的操作; [0047] 获得单元,用于在所述比较单元的所有判断结果均为否时,获得所述目标热点数 据和所述目标热点数据对应的目标业务数据。
[0048] 作为本发明的进一步改进,所述设备还包括:
[0049] 第二计算模块,用于计算所述目标热点数据的热度值;
[0050] 输出模块,用于输出所述目标热点数据、所述目标热点数据对应的目标业务数据 以及所述目标热点数据的热度值。
[0051] 本发明提供的热点信息分析方法及设备,从互联网数据中提取描述热点事件的热 点数据,对整个业务市场中与业务交易有关的业务数据和上述热点数据进行关联分析,获 得热点数据中与业务交易有关的候选热点数据与业务数据中与热点事件有关的候选业务 数据之间的对应关系,再根据所获得的对应关系,对候选热点数据进行合并处理,最终获得 目标热点数据与目标热点数据对应的目标业务数据,作为业务市场中的热点信息。本发明 技术方案不再依赖用户的业务经验,而且采用的是互联网数据及整个业务市场中与业务交 易相关的业务数据,数据量较大,因此与现有技术相比,提高了分析出的热点信息的准确 度。 【【专利附图】

【附图说明】】
[0052] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述 中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实 施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附 图获得其他的附图。
[0053] 图1为本发明一实施例提供的热点信息分析方法的流程示意图;
[0054] 图2为本发明一实施例提供的步骤101的实施方式的流程示意图;
[0055] 图3为本发明一实施例提供的候选热点数据合并结果的示意图;
[0056] 图4为本发明另一实施例提供的热点信息分析方法的流程示意图;
[0057] 图5为本发明一实施例提供的热点信息分析设备的结构示意图;
[0058] 图6为本发明另一实施例提供的热点信息分析设备的结构示意图。 【【具体实施方式】】
[0059] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员 在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0060] 图1为本发明一实施例提供的热点信息分析方法的流程示意图。如图1所示,该 方法包括:
[0061] 101、从互联网数据中提取描述热点事件的热点数据。
[0062] 本实施例提供了一种将互联网数据与业务市场中的业务数据有机结合用以分析 业务市场中热点信息的方法。本实施例使用的互联网数据可以是搜索引擎使用的数据(例 如搜索词)或者可以是互联网全网数据。互联网全网数据可以是微博数据、页面访问数据 等。
[0063] 具体的,热点信息分析设备从海量互联网数据中提取出描述热点事件的数据。为 便于描述,本实施例将描述热点事件的数据称为热点数据。相应的,业务市场中与热点事件 相关的业务数据被认为是业务市场中的热点信息。
[0064] 进一步,为了保证分析出的热点信息的实时性,热点信息分析设备可以从海量互 联网数据中提取描述当天热点事件的热点数据,并通过后续步骤基于描述当天热点事件的 热点数据确定出的业务市场中的热点信息。
[0065] 步骤101的一种可选实施方式如图2所示,包括:
[0066] 1011、热点信息分析设备从互联网数据中确定用户访问数据。
[0067] 这里的用户访问数据是指用户访问互联网页面使用的数据,例如可以是输入搜索 引擎使用的数据,例如查询词,或者是用户访问微博过程中使用的搜索词等等。
[0068] 值得说明的是,上述用户访问数据通常会有多个。
[0069] 1012、热点信息分析设备从上述用户访问数据中确定均值突变率大于第一突变率 门限且短期突变率大于第二突变率门限的候选用户访问数据。
[0070] 具体的,对每个用户访问数据,热点信息分析设备确定该用户访问数据的均值突 变率和短期突变率,然后判断用户访问数据的均值突变率是否大于第一突变率门限,并判 断用户访问数据的短期突变率是否大于第二突变率门限,如果用户访问数据的均值突变率 大于第一突变率门限,且短期突变率大于第二突变率门限,则确定该用户访问数据为候选 用户访问数据。
[0071] 关于第一突变率门限和第二突变率门限的取值,本实施例不做限定。举例说明,第 一突变率门限可以是3. 0。第二突变率门限可以是5. 0。
[0072] 上述用户访问数据的均值突变率用于表征用户访问数据从第一时间点到当前一 段时间内的访问量的变化趋势;相应的,用户访问数据的短期突变率用于表征该用户访问 数据从第二时间点到当前一段时间内的访问量的变化趋势。其中,第一时间点早于第二时 间点,也就是说,均值突变率反应的是用户访问数据在较长一段时间内的访问量的变化趋 势;而短期突变率反应的是用户访问数据在近期一段时间内的访问量的变化趋势。
[0073] 基于上述,热点信息分析设备在执行上述步骤1012之前,还需要获取用户访问数 据自第一时间点到当前时间的第一平均访问量、用户访问数据自第二时间点到当前时间的 第二平均访问量、以及用户访问数据的当前访问量;利用用户访问数据的当前访问量除以 第一平均访问量作为该用户访问数据的均值突变率,利用用户访问数据的当前访问量除以 第二平均访问量作为该用户访问数据的短期突变率。
[0074] 在此说明,上述第一平均访问量是自第一时间点到当前时间用户访问数据的平均 访问量;第二平均访问量是自第二时间点到当前用户访问数据的平均访问量。
[0075] 举例说明,假设本实施例是以"天"为单位统计用户访问数据的访问量,则上述当 前即为当天,假设第一时间点到当天一段时间是当天之前五天时间;第二时间点到当天一 段时间是当天的前一天。则第一平均访问量是指当天之前五天内用户访问数据的访问量的 平均值,第二平均访问量是当天的前一天用户访问数据的访问量;用户访问数据的当前访 问量是用户访问数据的当天访问量。
[0076] 1013、热点信息分析设备对上述候选用户访问数据的真实性进行验证,将通过真 实性验证的候选用户访问数据作为描述热点事件的热点数据。
[0077] 考虑到互联网数据中有些数据的真实性无法保证,本实施例的热点信息分析设备 通过对候选用户访问数据的真实性进行验证,选择通过真实性验证的候选用户访问数据作 为热点数据,这样有利于保证基于热点数据分析出的业务市场中与热点数据相关的业务数 据的准确性。
[0078] 可选的,考虑到新闻一般会对热点事件进行报道,因此热点信息分析设备可以判 断上述候选用户访问数据是否出现在新闻标题的切词片段中;如果判断结果为是,则确定 候选用户访问数据通过真实性验证,如果判断结果为否,确定候选用户访问数据未通过真 实性验证。
[0079] 值得说明的是,上述新闻标题可以从互联网数据中的新闻搜索中获得,但不限于 此。例如,上述新闻标题还可以通过报纸或电视等方式获得并存储起来。
[0080] 102、对整个业务市场中与业务交易有关的业务数据与上述热点数据进行关联分 析,获得候选热点数据与候选业务数据的对应关系;其中,候选热点数据是指上述热点数据 中与业务交易有关的热点数据,候选业务数据是指上述业务数据中与热点事件有关的业务 数据。
[0081] 首先说明,上述获得的热点数据中有些与本实施例要分析的业务市场中的业务交 易有关,有些可能与本实施例所要分析的业务市场中的业务交易无关。同理,本实施例要分 析的业务市场中与业务交易有关的业务数据也不是全部都与热点事件有关。因此,在获得 热点数据之后,热点信息分析设备对整个业务市场中与业务交易有关的业务数据与上述热 点数据进行关联分析,获得热点数据中与业务交易有关的候选热点数据以及业务数据中与 热点事件有关的候选业务数据,并建立候选热点数据与候选业务数据之间的对应关系。
[0082] 在此说明,业务市场中的业务交易可能有好多种,例如证券市场中通常会分股票 类交易、债券类交易,股票类交易根据股票类型又可分为多种业务交易,债券类交易也会根 据债券类型分为多种业务交易,所以本实施例中的业务数据可以有多种,一种业务交易对 应一种业务数据。例如,在证券市场中,A股股票的交易是一种业务交易,与A股股票的交 易有关的数据是一种业务数据;B股股票的交易也是一种业务交易,与B股股票的交易有关 的数据是一种业务数据;国债的交易也是一种业务交易,与国债交易有关的数据是一种业 务数据;企业债的交易也是一种业务交易,与企业债的交易有关的数据是一种业务数据。
[0083] 在一可选实施方式中,步骤102的实施方式包括:对于每种业务数据,热点信息分 析设备先确定该业务数据对应的价格走势和每个热点数据对应的访问量走势之间的相似 度,并确定该业务数据对应的关键词在每个热点数据所属的用户访问数据中的共现次数, 如果存在相似度满足预设的相似度条件、且共现次数大于预设的共现量的热点数据,则建 立该业务数据与上述存在的热点数据之间的对应关系,并确定该业务数据与上述存在的热 点数据分别作为候选业务数据和候选热点数据。需要说明的是,热点数据所属的用户访问 数据是指包括该热点数据的用户访问数据,热点数据所属的用户访问数据可以是多个。 [0084] 对于上述相似度条件和共现量门限的取值,本实施例不做限定。例如,上述相似度 条件可以是一个数值范围,即要求业务数据对应的价格走势和热点数据对应的访问量走势 之间的相似度在该数值范围内,例如该数值范围可以是〇. 4-1。上述共现量门限可以是大于 10的自然数。
[0085] 在此说明,上述业务数据对应的价格走势可以预先获得并存储在热点信息分析设 备本地,或者可由热点信息分析设备从业务数据中获取价格并分析出价格走势。同理,上述 热点数据对应的访问量走势可以预先获得并存储在热点信息分析设备本地,或者可由热点 信息分析设备统计热点数据的访问量并分析其访问量走势。值得说明的是,确定业务数据 对应的价格走势和热点数据对应的访问量走势之间的相似度,需要使用对应于同一时间段 范围的价格走势和访问量走势。
[0086] 上述业务数据对应的关键字可以是与该业务数据对应的业务相关的信息,例如可 以是业务名称、业务代码、业务名称的缩写等。该关键字可以预先存储到热点信息分析设备 本地。
[0087] 在此说明,经过步骤102, 一方面建立了候选热点数据与候选业务数据之间的对应 关系,另一方面也对热点数据和业务数据进行了筛选,既剔除了热点数据中与本实施例要 分析的业务市场中的业务交易无关的热点数据,又剔除了业务数据中与热点事件无关的业 务数据。
[0088] 103、根据候选热点数据与候选业务数据的对应关系,对候选热点数据进行合并处 理,获得目标热点数据和目标热点数据对应的目标业务数据。
[0089] 经过步骤102获得的候选热点数据可能属于同一题材,但却是分散的,即作为独 立的候选热点数据,也就是说此时获得的候选热点数据以及其对应的候选业务数据还不能 准确的表示业务市场中的热点信息,因此需要对候选热点数据进行归纳合并。
[0090] 基于此,热点信息分析设备根据上述候选热点数据与候选业务数据的对应关系, 确定每个候选热点数据对应的候选业务数据;将候选热点数据两两进行比较,以判断每两 个候选热点数据对应的候选业务数据中是否存在相同的候选业务数据且所述相同的候选 业务数据的数量是否满足预设的重叠条件;如果判断结果为是,则将这两个候选热点数据 (这两个候选热点数据是指对应的候选业务数据中存在相同的候选业务数据且相同的候选 业务数据的数量满足预设的重叠条件的候选热点数据)进行合并作为新的候选热点数据, 并将这两个候选热点数据对应的候选业务数据进行合并作为该新的候选热点数据对应的 候选业务数据,之后返回执行将候选热点数据两两进行比较,以判断每两个候选热点数据 对应的候选业务数据中是否存在相同的候选业务数据且相同的候选业务数据的数量满足 预设的重叠条件的操作,直到所有判断结果均为否,获得所述目标热点数据和所述目标热 点数据对应的目标业务数据。
[0091] 即当每两个候选热点数据对应的候选业务数据均不包括相同的候选业务数据,或 者包括相同的候选业务数据但相同的候选业务数据的数量不满足预设的重叠条件时,获取 此时的候选热点数据作为目标热点数据,并将此时候选热点数据对应的候选业务数据作为 目标热点数据对应的目标业务数据。
[0092] 上述重叠条件可以是一个数值范围,即要求两个候选热点数据对应的候选业务数 据中相同候选业务数据的数量应该在该数值范围内。或者,上述重叠条件也可以是一个下 限数值,即要求两个候选热点数据对应的候选业务数据中相同候选业务数据的数量应该大 于该下限数值。
[0093] 以证券市场为例进行说明,如图3所示中的"Nest"、"智能家居概念股"和"谷歌 (Google)收购"分别是不同的候选热点数据,假设"Nest"对应的候选业务数据有四川长虹 的业务数据(图3中简称为四川长虹)、安居宝的业务数据(图3中简称为安居宝)、英唐 智控的业务数据(图3中简称为英唐智控)和九阳股份的业务数据(图3中简称为九阳股 份),"智能家居概念股"对应的候选业务数据有四川长虹的业务数据、东软载波的业务数据 (图3中简称为东软载波)、英唐智控的业务数据和九阳股份的业务数据,"Google收购"对 应的候选业务数据有四川长虹的业务数据、安居宝的业务数据、英唐智控的业务数据以及 和晶科技的业务数据(图3中简称为和晶科技)。
[0094] 按照上述方法进行分析可以得出:"Nest"、"智能家居概念股"和"Google收购"虽 然字面意思不同但实际上属于同一主题(即属于描述同一热点事件)的热点数据,于是将 三个候选热点数据进行合并处理,得到目标热点数据,即"智能家居概念股",并将"Nest"、 "智能家居概念股"和"Google收购"对应的候选业务数据进行合并,得到四川长虹的业务 数据、安居宝的业务数据、英唐智控的业务数据、九阳股份的业务数据、东软载波的业务数 据以及和晶科技的业务数据,作为"智能家居概念股"对应的目标业务数据。
[0095] 经过上述分析可知,本实施例提供的方法不再依赖用户的业务经验,而是由热点 信息分析设备将互联网数据和业务市场中与业务交易有关的业务数据相结合从而分析出 业务市场中的热点信息,克服了用户的主观因素对分析过程的影响,另外,本实施例提供的 方法采用的是互联网数据及整个业务市场中与业务交易相关的业务数据,数据量较大,因 此与现有技术相比,本实施例提高了分析出的热点信息的准确度。
[0096] 图4为本发明另一实施例提供的热点信息分析方法的流程示意图。该实施例可基 于图1所示实施例实现,如图4所示,该方法在步骤103之后,还包括:
[0097] 104、计算目标热点数据的热度值。
[0098] 105、输出目标热点数据、目标热点数据对应的目标业务数据以及目标热点数据的 热度值。
[0099] 其中,热度值反映了目标热点数据的受关注度,便于用户更加直观的了解目标热 点数据及目标业务数据的受关注度,为用户做决策提供更加直观的判断依据。
[0100] 在一可选实施方式中,热点信息分析设备确定目标热点数据的当前访问量、目标 热点数据的均值突变率和短期突变率;对目标热点数据的当前访问量、均值突变率和短期 突变率进行数值拟合或回归分析,获得目标热点数据的热度值。
[0101] 对于目标热点数据,如果是由多个候选热点数据合并而成,则将合并成该目标热 点数据的多个候选热点数据的当前访问量中最大的作为目标热点数据的当前访问量,并将 访问量最大的候选热点数据的均值突变率和短期突变率作为目标热点数据的均值突变率 和短期突变率。
[0102] 如图3所示,"智能家居概念股"的热度值是五颗星,表示受关注度极高。热点信息 分析设备计算目标热点数据的热度值,并输出目标热点数据、其对应的目标业务数据及其 热度值,有利于用户了解不同热点数据及其对应的目标业务数据的受关注度,便于用户做 决策。
[0103] 需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列 的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为 依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知 悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明 所必须的。
[0104] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部 分,可以参见其他实施例的相关描述。
[0105] 图5为本发明一实施例提供的热点信息分析设备的结构示意图。如图5所示,该 设备包括:提取模块51、分析模块52和合并模块53。
[0106] 提取模块51,用于从互联网数据中提取描述热点事件的热点数据。
[0107] 分析模块52,与提取模块51连接,用于对整个业务市场中与业务交易有关的业务 数据与提取模块51提取的热点数据进行关联分析,获得候选热点数据与候选业务数据的 对应关系,所述候选热点数据是指所述热点数据中与业务交易有关的热点数据,所述候选 业务数据是指所述业务数据中与热点事件有关的业务数据。
[0108] 合并模块53,与分析模块52连接,用于根据分析模块52获得的候选热点数据与候 选业务数据的对应关系,对候选热点数据进行合并处理,获得目标热点数据和目标热点数 据对应的目标业务数据。
[0109] 在一可选实施方式中,如图6所示,提取模块51的实现结构包括:第一确定单元 511、第二确定单元512、验证单元513和提取单元514。
[0110] 第一确定单元511,用于从互联网数据中确定用户访问数据。
[0111] 第二确定单元512,与第一确定单元511连接,用于从第一确定单元511所确定的 用户访问数据中确定均值突变率大于第一突变率门限且短期突变率大于第二突变率门限 的候选用户访问数据。
[0112] 验证单元513,与第二确定单元512连接,用于对第二确定单元512所确定的候选 用户访问数据的真实性进行验证。
[0113] 提取单元514,与验证单元513连接,用于将通过验证单元513的真实性验证的候 选用户访问数据作为描述热点事件的热点数据。
[0114] 其中,上述均值突变率用于表征用户访问数据从第一时间点到当前一段时间内的 访问量的变化趋势;上述短期突变率用于表征所述用户访问数据自第二时间点到当前一段 时间内的访问量的变化趋势,第一时间点早于第二时间点。
[0115] 在一可选实施方式中,如图6所示,该设备还可以包括:获取模块61和第一计算模 块62。
[0116] 获取模块61,用于在第二确定单元512从用户访问数据中确定均值突变率大于第 一突变率门限且短期突变率大于第二突变率门限的候选用户访问数据之前,获取用户访问 数据自第一时间点到当前的第一平均访问量、用户访问数据自第二时间点到当前的第二平 均访问量、以及用户访问数据当前的访问量。
[0117] 第一计算模块62,与获取模块61连接,用于用获取模块61获取的用户访问数据当 前的访问量除以获取模块61获取的第一平均访问量,获得均值突变率,并用获取模块61获 取的用户访问数据当前的访问量除以获取模块61获取的第二平均访问量,获得短期突变 率。
[0118] 第一计算模块62还与第二确定单元512连接,用于向第二确定单元512提供均值 突变率和短期突变率。
[0119] 在一可选实施方式中,验证单元513具体可用于判断候选用户访问数据是否出现 在新闻标题的切词片段中;如果判断结果为是,确定候选用户访问数据通过真实性验证; 如果判断结果为否,确定候选用户访问数据未通过真实性验证。
[0120] 在一可选实施方式中,分析模块具体可用于对于每种业务数据,确定该业务数据 对应的价格走势和每个热点数据对应的访问量走势之间的相似度,并确定该业务数据对应 的关键词在每个热点数据所属的用户访问数据中的共现次数,如果存在相似度满足预设的 相似度条件、且共现次数大于预设的共现量门限的热点数据,则建立该业务数据和所述存 在的热点数据之间的对应关系,并确定该业务数据和所述存在的热点数据分别作为候选业 务数据和候选热点数据。
[0121] 在一可选实施方式中,如图6所示,合并模块53的实现结构包括:第三确定单元 531、比较单元532、合并单元533和获得单元534。
[0122] 第三确定单元531,与分析模块52连接,用于根据分析模块52获得的候选热点数 据与候选业务数据的对应关系,确定每个候选热点数据对应的候选业务数据。
[0123] 比较单元532,与第三确定单元531连接,用于将候选热点数据两两进行比较,以 判断每两个候选热点数据对应的候选业务数据中是否存在相同的候选业务数据且相同的 候选业务数据的数量满足预设的重叠条件。
[0124] 合并单元533,与比较单元532连接,用于在比较单元532的判断结果为是时,将两 个候选热点数据进行合并作为新的候选热点数据,并将两个候选热点数据对应的候选业务 数据进行合并作为新的候选热点数据对应的候选业务数据,并触发比较单元532继续执行 将候选热点数据两两进行比较,以判断每两个候选热点数据对应的候选业务数据中是否存 在相同的候选业务数据且相同的候选业务数据的数量满足预设的重叠条件的操作。
[0125] 获得单元534,与比较单元532连接,用于在比较单元532的所有判断结果均为否 时,获得目标热点数据和目标热点数据对应的目标业务数据。
[0126] 在一可选实施方式中,如图6所示,该设备还可以包括:第二计算模块63和输出模 块64。
[0127] 第二计算模块63,与获得单元534连接,用于在获得单元534获得目标热点数据 和目标热点数据对应的目标业务数据之后,计算获得单元534获得的目标热点数据的热度 值。
[0128] 输出模块64,与获得单元534和第二计算模块63连接,用于输出获得单元534获 得的目标热点数据、获得单元634获得的目标热点数据对应的目标业务数据以及第二计算 模块63计算出的目标热点数据的热度值。
[0129] 本实施例提供的热点信息分析设备,将互联网数据与业务市场中的业务数据有机 结合用以分析业务市场中热点信息,不再依赖用户的业务经验,而且采用的是互联网数据 及整个业务市场中与业务交易相关的业务数据,数据量较大,因此与现有技术相比,提高了 分析出的热点信息的准确度。
[0130] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统, 装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0131] 在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以 通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的 划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件 可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或 讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦 合或通信连接,可以是电性,机械或其它的形式。
[0132] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显 示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个 网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目 的。
[0133] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以 是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单 元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
[0134] 上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存 储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算 机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发 明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器 (Read-Only Memory, ROM)、随机存取存储器(Random Access Memory, RAM)、磁碟或者光盘 等各种可以存储程序代码的介质。
[0135] 最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽 管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然 可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替 换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精 神和范围。
【权利要求】
1. 一种热点信息分析方法,其特征在于,包括: 从互联网数据中提取描述热点事件的热点数据; 对整个业务市场中与业务交易有关的业务数据与所述热点数据进行关联分析,获得候 选热点数据与候选业务数据的对应关系,所述候选热点数据是指所述热点数据中与业务交 易有关的热点数据,所述候选业务数据是指所述业务数据中与热点事件有关的业务数据; 根据所述候选热点数据与候选业务数据的对应关系,对所述候选热点数据进行合并处 理,获得目标热点数据和所述目标热点数据对应的目标业务数据。
2. 根据权利要求1所述的方法,其特征在于,所述从互联网数据中提取描述当天热点 事件的热点数据,包括: 从所述互联网数据中确定用户访问数据; 从所述用户访问数据中确定均值突变率大于第一突变率门限且短期突变率大于第二 突变率门限的候选用户访问数据; 对所述候选用户访问数据的真实性进行验证,将通过真实性验证的所述候选用户访问 数据作为描述热点事件的所述热点数据; 其中,所述均值突变率用于表征所述用户访问数据从第一时间点到当前一段时间内的 访问量的变化趋势;所述短期突变率用于表征所述用户访问数据自第二时间点到当前一段 时间内的访问量的变化趋势,所述第一时间点早于所述第二时间点。
3. 根据权利要求2所述的方法,其特征在于,所述从所述用户访问数据中确定均值突 变率大于第一突变率门限且短期突变率大于第二突变率门限的候选用户访问数据之前,还 包括: 获取所述用户访问数据自所述第一时间点到当前的第一平均访问量、所述用户访问数 据自所述第二时间点到当前的第二平均访问量、以及所述用户访问数据当前的访问量; 用所述用户访问数据当前的访问量除以所述第一平均访问量,获得所述均值突变率; 用所述用户访问数据当前的访问量除以所述第二平均访问量,获得短期突变率。
4. 根据权利要求2或3所述的方法,其特征在于,所述对所述候选用户访问数据的真实 性进行验证,包括: 判断所述候选用户访问数据是否出现在新闻标题的切词片段中; 如果判断结果为是,确定所述候选用户访问数据通过真实性验证;如果判断结果为否, 确定所述候选用户访问数据未通过真实性验证。
5. 根据权利要求1所述的方法,其特征在于,所述对整个业务市场中与业务交易有关 的业务数据与所述热点数据进行关联分析,获得候选热点数据与候选业务数据的对应关 系,包括: 对于每种所述业务数据,确定所述业务数据对应的价格走势和每个所述热点数据对应 的访问量走势之间的相似度,并确定所述业务数据对应的关键词在每个所述热点数据所属 的用户访问数据中的共现次数,如果存在相似度满足预设的相似度条件、且共现次数大于 预设的共现量门限的热点数据,则建立所述业务数据和所述存在的热点数据之间的对应关 系,并确定所述业务数据和所述存在的热点数据分别作为所述候选业务数据和所述候选热 点数据。
6. 根据权利要求1所述的方法,其特征在于,所述根据所述候选热点数据与候选业务 数据的对应关系,对所述候选热点数据进行合并处理,获得目标热点数据和所述目标热点 数据对应的目标业务数据,包括: 根据所述候选热点数据与候选业务数据的对应关系,确定每个所述候选热点数据对应 的候选业务数据; 将所述候选热点数据两两进行比较,以判断每两个所述候选热点数据对应的候选业务 数据中是否存在相同的候选业务数据且所述相同的候选业务数据的数量满足预设的重叠 条件; 如果判断结果为是,则将所述两个候选热点数据进行合并作为新的候选热点数据,并 将所述两个候选热点数据对应的候选业务数据进行合并作为所述新的候选热点数据对应 的候选业务数据,并返回执行将所述候选热点数据两两进行比较,以判断每两个所述候选 热点数据对应的候选业务数据中是否存在相同的候选业务数据且所述相同的候选业务数 据的数量满足预设的重叠条件的操作,直到所有判断结果均为否,获得所述目标热点数据 和所述目标热点数据对应的目标业务数据。
7. 根据权利要求1、2、3、5或6所述的方法,其特征在于,在获得目标热点数据和所述目 标热点数据对应的目标业务数据之后,还包括: 计算所述目标热点数据的热度值; 输出所述目标热点数据、所述目标热点数据对应的目标业务数据以及所述目标热点数 据的热度值。
8. -种热点信息分析设备,其特征在于,包括: 提取模块,用于从互联网数据中提取描述热点事件的热点数据; 分析模块,用于对整个业务市场中与业务交易有关的业务数据与所述热点数据进行关 联分析,获得候选热点数据与候选业务数据的对应关系,所述候选热点数据是指所述热点 数据中与业务交易有关的热点数据,所述候选业务数据是指所述业务数据中与热点事件有 关的业务数据; 合并模块,用于根据所述候选热点数据与候选业务数据的对应关系,对所述候选热点 数据进行合并处理,获得目标热点数据和所述目标热点数据对应的目标业务数据。
9. 根据权利要求8所述的设备,其特征在于,所述提取模块包括: 第一确定单元,用于从所述互联网数据中确定用户访问数据; 第二确定单元,用于从所述用户访问数据中确定均值突变率大于第一突变率门限且短 期突变率大于第二突变率门限的候选用户访问数据; 验证单元,用于对所述候选用户访问数据的真实性进行验证; 提取单元,用于将通过真实性验证的所述候选用户访问数据作为描述热点事件的所述 热点数据; 其中,所述均值突变率用于表征所述用户访问数据从第一时间点到当前一段时间内的 访问量的变化趋势;所述短期突变率用于表征所述用户访问数据自第二时间点到当前一段 时间内的访问量的变化趋势,所述第一时间点早于所述第二时间点。
10. 根据权利要求9所述的设备,其特征在于,还包括: 获取模块,用于获取所述用户访问数据自所述第一时间点到当前的第一平均访问量、 所述用户访问数据自所述第二时间点到当前的第二平均访问量、以及所述用户访问数据当 前的访问量; 第一计算模块,用于用所述用户访问数据当前的访问量除以所述第一平均访问量,获 得所述均值突变率,并用所述用户访问数据当前的访问量除以所述第二平均访问量,获得 短期突变率。
11. 根据权利要求9或10所述的设备,其特征在于,所述验证单元具体用于判断所述候 选用户访问数据是否出现在新闻标题的切词片段中;如果判断结果为是,确定所述候选用 户访问数据通过真实性验证;如果判断结果为否,确定所述候选用户访问数据未通过真实 性验证。
12. 根据权利要求8所述的设备,其特征在于,所述分析模块具体用于对于每种所述业 务数据,确定所述业务数据对应的价格走势和每个所述热点数据对应的访问量走势之间的 相似度,并确定所述业务数据对应的关键词在每个所述热点数据所属的用户访问数据中的 共现次数,如果存在相似度满足预设的相似度条件、且共现次数大于预设的共现量门限的 热点数据,则建立所述业务数据和所述存在的热点数据之间的对应关系,并确定所述业务 数据和所述存在的热点数据分别作为所述候选业务数据和所述候选热点数据。
13. 根据权利要求8所述的设备,其特征在于,所述合并模块包括: 第三确定单元,用于根据所述候选热点数据与候选业务数据的对应关系,确定每个所 述候选热点数据对应的候选业务数据; 比较单元,用于将所述候选热点数据两两进行比较,以判断每两个所述候选热点数据 对应的候选业务数据中是否存在相同的候选业务数据且所述相同的候选业务数据的数量 满足预设的重叠条件; 合并单元,用于在所述比较单元的判断结果为是时,将所述两个候选热点数据进行合 并作为新的候选热点数据,并将所述两个候选热点数据对应的候选业务数据进行合并作为 所述新的候选热点数据对应的候选业务数据,并触发所述比较单元继续执行将所述候选热 点数据两两进行比较,以判断每两个所述候选热点数据对应的候选业务数据中是否存在相 同的候选业务数据且所述相同的候选业务数据的数量满足预设的重叠条件的操作; 获得单元,用于在所述比较单元的所有判断结果均为否时,获得所述目标热点数据和 所述目标热点数据对应的目标业务数据。
14. 根据权利要求8、9、10、12或13所述的设备,其特征在于,还包括: 第二计算模块,用于计算所述目标热点数据的热度值; 输出模块,用于输出所述目标热点数据、所述目标热点数据对应的目标业务数据以及 所述目标热点数据的热度值。
【文档编号】G06F17/30GK104063450SQ201410283286
【公开日】2014年9月24日 申请日期:2014年6月23日 优先权日:2014年6月23日
【发明者】王晓元, 陈承泽, 裘皓萍, 王杨, 汤金华 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1