一种用于体育赛事的网络数据获取方法和系统与流程

文档序号:11230588阅读:355来源:国知局
一种用于体育赛事的网络数据获取方法和系统与流程

本发明涉及网络数据处理技术领域,更具体地,涉及一种用于体育赛事的网络数据获取方法和系统。



背景技术:

在互联网的大数据时代,人们逐渐摆脱了传统的信息获取方式,形成了通过互联网来获取信息的新的数据获取形式。虽然互联网使得信息采集和传播的速度以及规模都达到了空前的水平,但是它同样给人们的认知带来了困惑,当通过人工的方式从互联网上筛选数据并进行处理时,首先需要消耗大量的时间以及成本,其次人们很难在信息海洋中准确地获取自己所需的信息,因此人们对数据收集和处理的准确性得不到保证。为了获取有用的数据信息,已有一些公司和组织开发出搜索引擎等工具试图帮助人们尽量容易的获取所需要的数据,但是均存在数据获取准确度低等问题。

现有体育赛事网络数据获取也存在同样的问题,体育赛事网络数据被上传至各个站点,可能存在着大量的冗余数据,当用户进行数据搜索时,这些数据在进入系统后会占用大量的系统资源,增加系统的处理负担,而且有可能是无用的数据信息。

因此,提供一种用于体育赛事的网络数据获取方法和系统,解决现有技术中数据采集成本高,且准确性低的问题,是本领域亟待解决的问题。



技术实现要素:

有鉴于此,本发明提供了一种用于体育赛事的网络数据获取方法和系统,解决了现有技术中数据采集成本高,且准确性低的问题。

为了解决上述技术问题,本发明提出一种用于体育赛事的网络数据获取方法,包括:

接收网络数据获取请求,网络数据获取请求包括目标参数,目标参数包括体育赛事主题、关键词列表及目标主题相关度;

将目标参数与存储器中的历史数据中的相应参数进行匹配,并计算网络数据获取请求与历史数据之间的第一主题相关度;

若存储器中的所有历史数据的第一主题相关度均小于目标主题相关度,则从存储器中提取至少一个历史站点的统一资源定位符;

根据被提取的历史站点向指定的网络数据获取器指定获取任务;其中,指定的网络数据获取器对历史站点的利用率大于利用率阈值,其中,利用率为网络数据获取器对历史站点的爬取次数与历史站点的总爬取次数的比值;

接收指定的网络数据获取器的获取结果;

根据目标参数解析获取结果,获得解析参数,解析参数包括获取结果主题和获取结果关键词列表;

将解析参数与目标参数进行匹配,计算获取结果与网络数据获取请求之间的第二主题相关度;

将第二主题相关度与目标主题相关度进行比较;

若第二主题相关度大于或等于目标主题相关度,该获取结果形成第一获取结果,则将第一获取结果发送至与网络数据获取请求相应的第一业务存储器,其中存储器包括第一业务存储器;若第二主题相关度小于目标主题相关度,该获取结果形成第二获取结果,则将其中两个第二获取结果的解析参数进行匹配,形成两个第二获取结果之间的第三主题相关度;

将第三主题相关度与第一相关度阈值进行比较;

若第三主题相关度大于或等于第一相关度阈值,则将两个第二获取结果发送至与第二获取结果相应的第二业务存储器,其中存储器包括第二业务存储器。

进一步地,第一主题相关度、第二主题相关度以及第三主题相关度均采用simhash算法;

其中,网络数据获取方法还包括:

采用simhash算法获得获取结果之后,计算存储器中的所有历史数据的哈希值;

采用simhash算法获得获取结果的哈希值;

计算获取结果的哈希值与历史数据的哈希值差值的绝对值,获得获取结果与历史数据之间的第四主题相关度;

将第四主题相关度与第二相关度阈值进行比较;

若第四主题相关度大于第二相关度阈值,则清除获取结果;其中,第二相关度阈值大于第一相关度阈值。

进一步地,获取任务包括获取停止程序;

其中,网络数据获取方法还包括:

接收输入站点及其站点描述;

将输入站点的站点描述与历史站点的站点描述进行比较;

若输入站点的站点描述与历史站点的站点描述不同,则将输入站点发送至存储器;

若未接收到指定的网络数据获取器的停止信息,则从存储器中提取输入站点的统一资源定位符;

向指定的网络数据获取器发送输入站点的统一资源定位符。

进一步地,获取任务包括获取停止程序;

其中,网络数据获取方法还包括:

接收输入站点及其站点描述;

将输入站点的站点描述与历史站点的站点描述进行比较;

若输入站点的站点描述与历史站点的站点描述不同,则将输入站点发送至存储器;

若所有的获取结果的第二主题相关度均小于目标主题相关度,则从存储器中提取输入站点的统一资源定位符;

向指定的网络数据获取器发送输入站点的统一资源定位符。

进一步地,还包括:

若至少一个获取结果的第二主题相关度大于或等于目标主题相关度,则返回获取成功结论;若所有的获取结果的第二主题相关度均小于目标主题相关度,则返回获取失败结论;

计算预定时间间隔内每个历史站点的获取成功结论与获取失败结论的比值,形成历史站点的成功率;

将历史站点的成功率与历史站点的成功率阈值进行比较;

若历史站点的成功率小于历史站点的成功率阈值,则返回故障信息;

接收历史站点的修改后的站点描述;

将修改后的站点描述发送至存储器。

本发明还提出了一种用于体育赛事的网络数据获取系统,包括请求接收模块、历史数据匹配模块、历史站点提取模块、任务指定模块以及结果接收模块、解析模块、解析参数匹配模块、相关度比较模块、获取结果发送模块,其中:

请求接收模块,用于接收网络数据获取请求,网络数据获取请求包括目标参数,目标参数包括体育赛事主题、关键词列表及目标主题相关度;

历史数据匹配模块,用于将目标参数与存储器中的历史数据中的相应参数进行匹配,并计算网络数据获取请求与历史数据之间的第一主题相关度;

历史站点提取模块,用于:若存储器中所有历史数据的第一主题相关度均小于目标主题相关度,则从存储器中提取至少一个历史站点的统一资源定位符;

任务指定模块,用于根据被提取的历史站点向指定的网络数据获取器指定获取任务;其中,指定的网络数据获取器对历史站点的利用率大于利用率阈值,其中,利用率为网络数据获取器对历史站点的爬取次数与历史站点的总爬取次数的比值;

结果接收模块,用于接收指定的网络数据获取器的获取结果;

解析模块,用于根据目标参数解析获取结果,获得解析参数,解析参数包括获取结果主题和获取结果关键词列表;

解析参数匹配模块,用于将解析参数与目标参数进行匹配,并计算获取结果与网络数据获取请求之间的第二主题相关度;并且,若第二主题相关度小于目标主题相关度,该获取结果形成第二获取结果,则将其中两个第二获取结果的解析参数进行匹配,形成两个第二获取结果之间的第三主题相关度;

相关度比较模块,用于将第二主题相关度与目标主题相关度进行比较;并且,将第三主题相关度与第一相关度阈值进行比较;

获取结果发送模块,用于:若第二主题相关度大于或等于目标主题相关度,该获取结果形成第一获取结果,则将第一获取结果发送至与网络数据获取请求相应的第一业务存储器,其中存储器包括第一业务存储器;并且,若第三主题相关度大于或等于第一相关度阈值,则将两个第二获取结果发送至与第二获取结果相应的第二业务存储器,其中存储器包括第二业务存储器。

进一步地,还包括哈希值计算模块、哈希值比较模块以及结果清除模块;其中,

哈希值计算模块,用于采用simhash算法获得获取结果之后,计算存储器中的所有历史数据的哈希值;采用simhash算法获得获取结果的哈希值;

哈希值比较模块,用于计算获取结果的哈希值与历史数据的哈希值差值的绝对值,获得获取结果与历史数据之间的第四主题相关度;

结果清除模块,用于:若第四主题相关度大于第二相关度阈值,则清除获取结果;其中,第二相关度阈值大于第一相关度阈值;

其中,相关度比较模块还用于将第四主题相关度与第二相关度阈值进行比较。

进一步地,获取任务包括获取停止程序;

其中,网络数据获取系统还包括输入站点接收模块、站点描述比较模块、输入站点发送模块、输入站点提取模块;其中,

输入站点接收模块,用于接收输入站点及其站点描述;

站点描述比较模块,用于将输入站点的站点描述与历史站点的站点描述进行比较;

输入站点发送模块,用于:若输入站点的站点描述与历史站点的站点描述不同,则将输入站点发送至存储器;

输入站点提取模块,用于:若未接收到指定的网络数据获取器的停止信息,则从存储器中提取输入站点的统一资源定位符;

其中,任务指定模块还用于向指定的网络数据获取器发送输入站点的统一资源定位符。

进一步地,获取任务包括获取停止程序;

其中,网络数据获取系统还包括输入站点接收模块、站点描述比较模块、输入站点发送模块、输入站点提取模块;其中,

输入站点接收模块,用于接收输入站点及其站点描述;

站点描述比较模块,用于将输入站点的站点描述与历史站点的站点描述进行比较;

输入站点发送模块,用于:若输入站点的站点描述与历史站点的站点描述不同,则将输入站点发送至存储器;

输入站点提取模块,用于:若所有的获取结果的第二主题相关度均小于目标主题相关度,则从存储器中提取输入站点的统一资源定位符;

其中,任务指定模块还用于向指定的网络数据获取器发送输入站点的统一资源定位符。

进一步地,还包括获取结论返回模块、成功率计算模块、成功率比较模块、故障信息返回模块、站点描述接收模块以及站点描述发送模块;其中,

获取结论返回模块,用于:若至少一个获取结果的第二主题相关度大于或等于目标主题相关度,则返回获取成功结论;若所有的获取结果的第二主题相关度均小于目标主题相关度,则返回获取失败结论;

成功率计算模块,用于计算预定时间间隔内每个历史站点的获取成功结论与获取失败结论的比值,形成历史站点的成功率;

成功率比较模块,用于将历史站点的成功率与历史站点的成功率阈值进行比较;

故障信息返回模块,用于:若历史站点的成功率小于历史站点的成功率阈值,则返回故障信息;

站点描述接收模块,用于接收历史站点的修改后的站点描述;

站点描述发送模块,用于将修改后的站点描述发送至存储器。

与现有技术相比,本发明的一种用于体育赛事的网络数据获取方法和系统,实现了如下的有益效果:

(1)本发明所述的用于体育赛事的网络数据获取方法和系统,首先判断历史数据中是否存在与网络数据获取请求匹配的数据,避免了有效数据的重复获取,提高数据采集的效率;并且实时监控网络数据获取器所获取的获取结果,并判定获取结果是否达到目标主题相关度,以获取理想的获取结果,并存储于相应的业务存储器中,方便用户的随时搜索和使用。

(2)本发明所述的用于体育赛事的网络数据获取方法和系统,实时监控存储器中获取数据之间的相关度,当获取结果与历史数据的相关度高于第二相关度阈值时,则将该获取结果清除,避免占用存储器的有限空间,达到去重的效果。

(3)本发明所述的用于体育赛事的网络数据获取方法和系统,引入输入站点的设计,在对历史站点进行数据获取时,同时可对新的输入站点进行判断,经过相应的站点分析后,如果为有效站点,则将其纳入相应存储器中,可扩大存储器对应站点的数据获取范围,提高数据获取的成功率。

(4)本发明所述的用于体育赛事的网络数据获取方法和系统,实时监控各站点获取结果的成功率,当历史站点的成功率低于其成功率阈值时,系统自动解析该站点和修改站点描述,避免站点的更新导致的获取失败,以提高其获取结果的成功率,有利于后续数据获取的工作快捷有效的进行。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。

图1为本发明实施例1提供的一种用于体育赛事的网络数据获取方法的流程示意图;

图2为本发明实施例1提供的获取结果筛选方法的流程示意图;

图3为本发明实施例1提供的修改站点描述的流程示意图;

图4为本发明实施例1提供的输入站点提取的流程示意图;

图5为本发明实施例2提供的用于体育赛事的网络数据获取系统的构成示意图;

图6为本发明实施例3提供的用于体育赛事的网络数据获取系统的构成示意图;

图7为本发明实施例4提供的用于体育赛事的网络数据获取系统的构成示意图;

图8为本发明实施例5提供的用于体育赛事的网络数据获取系统的构成示意图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。

实施例1

图1为本发明实施例1提供的一种用于体育赛事的网络数据获取方法的流程示意图,该方法包括如下步骤:

步骤101、接收网络数据获取请求,网络数据获取请求包括目标参数,目标参数包括体育赛事主题、关键词列表及目标主题相关度。其中,关键词列表如球队名称、球员姓名等。

步骤102、将目标参数与存储器中的历史数据中的相应参数进行匹配,并计算网络数据获取请求与历史数据之间的第一主题相关度。

获取网络数据后均储存于存储器中,便于后期的随时快速搜索使用。

步骤103、若存储器中的所有历史数据的第一主题相关度均小于目标主题相关度,则从存储器中提取至少一个历史站点的统一资源定位符。

当存储器中的一个历史数据的第一主题相关度大于或等于目标主题相关度时,则说明该历史数据为与目标主题相匹配的数据,则无需执行该网络数据获取任务。

当存储器中的所有历史数据的第一主题相关度均小于目标主题相关度时,则说明存储器的历史数据中不存在与目标主题相匹配的历史数据,则需要执行该网络数据获取任务。为了提高网络数据获取效率,可以优先选择曾经获得到该类网络数据的历史站点来获取数据,因此从存储器中提取至少一个历史站点的统一资源定位符。

步骤104、根据被提取的历史站点向指定的网络数据获取器指定获取任务;其中,指定的网络数据获取器对历史站点的利用率大于利用率阈值,其中,利用率为网络数据获取器对历史站点的爬取次数与历史站点的总爬取次数的比值。

当网络数据获取器对历史站点的利用率大于利用率阈值时,说明该网络获取器的获取参数与对历史站点的匹配度较高,获取效率较高,数据获取的成功率较高。

步骤105、接收指定的网络数据获取器的获取结果。

步骤106、根据目标参数解析获取结果,获得解析参数,解析参数包括获取结果主题和获取结果关键词列表。

对网络数据获取器的获取结果进行解析,便于将解析参数与目标参数进行匹配。

步骤107、将解析参数与目标参数进行匹配,计算获取结果与网络数据获取请求之间的第二主题相关度。

将获取结果的解析参数(结果主题和结果关键词列表)与目标参数(体育赛事主题、关键词列表及目标主题相关度)进行匹配,计算获取结果与网络数据获取请求之间的第二主题相关度。

步骤108、将第二主题相关度与目标主题相关度进行比较。

步骤109、若第二主题相关度大于或等于目标主题相关度,该获取结果形成第一获取结果,则将第一获取结果发送至与网络数据获取请求相应的第一业务存储器,其中存储器包括第一业务存储器。

若第二主题相关度小于目标主题相关度,该获取结果形成第二获取结果,则将其中两个第二获取结果的解析参数进行匹配,形成两个第二获取结果之间的第三主题相关度。

当第二主题相关度大于或等于目标主题相关度,说明该获取结果满足目标参数的条件,可被获取使用,因此将获取结果形成第一获取结果,同时将第一获取结果发送至与网络数据获取请求相应的存储器中的第一业务存储器,可随时被使用。

当第二主题相关度小于目标主题相关度,说明该获取结果不满足目标参数的条件,在此次网络数据获取中不可被使用,但是为了以后与之相关的数据进行获取时,可以快速匹配,在这里将该获取结果形成第二获取结果,并将不同的第二获取结果的解析参数进行匹配,形成两个第二获取结果之间的第三主题相关度。

步骤110、将第三主题相关度与第一相关度阈值进行比较。

步骤111、若第三主题相关度大于或等于第一相关度阈值,则将两个第二获取结果发送至与第二获取结果相应的第二业务存储器,其中存储器包括第二业务存储器。

若第三主题相关度大于或等于第一相关度阈值,说明这两个第二获取结果是相关数据,可归为一类,为了便于后期数据匹配,将这两个第二获取结果发送至与第二获取结果相应的存储器中的第二业务存储器。

通过实时监控网络数据获取器所获取的获取结果,并判定该获取结果是否与目标参数匹配,以获取理想的获取结果,并存储于相应的业务存储器中,方便用户的随时搜索和使用。

在一些可选的实施例中,本实施例所示的第一主题相关度、第二主题相关度以及第三主题相关度均可采用simhash算法。

在一些可选的实施例中,当网络数据获取器获取到相应获取结果后,需要对获取结果进行筛选处理,避免相似度较高的数据同时存储在存储器中。该实施例中,第一主题相关度、第二主题相关度以及第三主题相关度均采用simhash算法。

具体操作参见图2提供的获取结果筛选方法流程示意图:

步骤112、采用simhash算法获得获取结果(第一获取结果、第二获取结果)之后,计算相应存储器中的所有历史数据的哈希值。

步骤113、采用simhash算法获得获取结果的哈希值。

步骤114、计算获取结果的哈希值与历史数据的哈希值差值的绝对值,获得获取结果与历史数据之间的第四主题相关度。

步骤115、将第四主题相关度与第二相关度阈值进行比较。

步骤116、若第四主题相关度大于第二相关度阈值,则清除获取结果;其中,第二相关度阈值大于第一相关度阈值。

通过实时监控存储器中获取数据之间的相关度,当获取结果与历史数据的相关度高于第二相关度阈值时,说明该获取结果与历史数据的相似度较高,则将该获取结果清除,避免占用存储器的有限空间,同时避免了后期有效数据的重复获取,提高数据采集的效率。

在一些可选的实施例中,网络数据获取系统实时对各个站点的获取成功率进行监控,以防站点更新。具体操作参见图3提供的修改站点描述的流程示意图:

步骤117、若至少一个获取结果的第二主题相关度大于或等于目标主题相关度,则返回获取成功结论;若所有的获取结果的第二主题相关度均小于目标主题相关度,则返回获取失败结论。

步骤118、计算预定时间间隔内每个历史站点的获取成功结论与获取失败结论的比值,形成历史站点的成功率。

步骤119、将历史站点的成功率与历史站点的成功率阈值进行比较。

步骤120、若历史站点的成功率小于历史站点的成功率阈值,则返回故障信息。

接收到故障信息说明该站点发生了变化,需要对该站点进行解析,获得新的站点描述信息,对站点描述进行相应的修改,及时更新相应的获取参数,以提高其获取成功结论的成功率。

步骤121、接收历史站点的修改后的站点描述。

步骤122、将修改后的站点描述发送至存储器。

及时更新站点的描述信息和相应的网络获取器的获取参数,避免站点更新带来的网络获取失败。

在一些可选的实施例中,网络数据获取方法还包括获取停止程序。

在一些可选的实施例中,网络获取系统可随时更新存储器中的站点,以收集新的站点,提高网络获取的选择。

具体步骤参见图4提供的输入站点提取的流程示意图:

步骤401、接收输入站点及其站点描述。

步骤402、将输入站点的站点描述与历史站点的站点描述进行比较。

步骤403、若输入站点的站点描述与历史站点的站点描述不同,则将输入站点发送至存储器。

若输入站点的站点描述与历史站点的站点描述不同,则说明输入站点不属于历史站点。

步骤404、作为一个实施例,若未接收到指定的网络数据获取器的停止信息,则从存储器中提取输入站点的统一资源定位符。

如果网络数据获取器处于工作状态(未反馈停止信息),则可以将该输入站点发送给网络获取器进行网络数据获取。

步骤404、、作为另一个实施例,若所有的获取结果的第二主题相关度均小于目标主题相关度,则从存储器中提取输入站点的统一资源定位符。

如果从存储器的历史站点中获取的所有获取结果的第二主题相关度均小于目标主题相关度,说明现有存储器中的历史站点中均获取不到所需的获取结果。此时,则从存储器中提取输入站点的统一资源定位符。

步骤405、向指定的网络数据获取器发送输入站点的统一资源定位符。

将输入站点的统一资源定位符传送给指定的网络数据获取器,以供其连接输入站点,从输入站点中继续获取数据。

在对历史站点进行数据获取时,同时可将新的输入站点作为获取对象,可扩大数据获取范围,提高数据获取的成功率。

实施例2

图5为本发明实施例2提供的用于体育赛事的网络数据获取系统的构成图;该网络数据获取系统50包括:请求接收模块501、历史数据匹配模块502、历史站点提取模块503、任务指定模块504、结果接收模块505、解析模块506、解析参数匹配模块507、相关度比较模块508以及获取结果发送模块509。

请求接收模块501,用于接收网络数据获取请求,网络数据获取请求包括目标参数,目标参数包括体育赛事主题、关键词列表及目标主题相关度,其中,关键词列表如球队名称、球员姓名等;并将目标参数传输至历史数据匹配模块502。

历史数据匹配模块502与请求接收模块501相连接,当接收到请求接收模块501传送的目标参数后,历史数据匹配模块502将目标参数与存储器中的历史数据中的相应参数进行匹配,并计算网络数据获取请求与历史数据之间的第一主题相关度,并将计算得到的第一主题相关度结果发送至历史站点提取模块503。

历史站点提取模块503与历史数据匹配模块502相连接,接收到历史数据匹配模块502传输的第一主题相关度结果后,跟系统设定的目标主题相关度进行比较。

当存储器中的一个历史数据的第一主题相关度大于或等于目标主题相关度时,则说明该历史数据为与目标主题相匹配的数据,则无需执行该网络数据获取任务;

当存储器中所有历史数据的第一主题相关度均小于目标主题相关度,则说明该存储器中不存在与目标主题相匹配的历史数据,则需要执行该网络数据获取任务。为了提高网络数据获取效率,可以优先选择曾经获得到该类网络数据的历史站点来获取数据,因此历史站点提取模块503从存储器中提取至少一个历史站点的统一资源定位符,并将该历史站点数据传输至任务指定模块504。

任务指定模块504与历史站点提取模块503和请求接收模块501相连接,用于根据被提取的历史站点向指定的网络数据获取器指定获取任务;并将该任务分配情况传输至结果接收模块505。

其中,指定的网络数据获取器对历史站点的利用率大于利用率阈值,说明该网络获取器的获取参数与对历史站点的匹配度较高,获取效率较高,数据获取的成功率较高。

其中,利用率为网络数据获取器对历史站点的爬取次数与历史站点的总爬取次数的比值。

结果接收模块505与网络获取器相连接,用于接收指定的网络数据获取器的获取结果将获取到的获取结果传输至解析模块506。

解析模块506与结果接收模块505相连接,当接收到结果接收模块505传送的获取结果后,解析模块506对网络数据获取器的获取结果进行相应的解析,获得解析参数,解析参数包括获取结果主题和获取结果关键词列表,便于将解析参数与目标参数进行匹配;将该解析参数传输至解析参数匹配模块507。

解析参数匹配模块507与解析模块506相连接,当接收到解析模块506传输的解析参数后,解析参数匹配模块507将解析参数与目标参数进行匹配,并计算获取结果与网络数据获取请求之间的第二主题相关度;并且,若第二主题相关度小于目标主题相关度,说明该获取结果不满足目标参数的条件,在此次网络数据获取中不可被使用,但是为了以后与之相关的数据进行获取时,可以快速匹配,在这里将该获取结果形成第二获取结果,则将其中两个第二获取结果的解析参数进行匹配,形成两个第二获取结果之间的第三主题相关度。系统将第二主题相关度和第三主题相关度的计算结果传输至相关度比较模块508。

相关度比较模块508与解析参数匹配模块507相连接,当接收到解析参数匹配模块507传送的第二主题相关度和第三主题相关度的计算结果后,相关度比较模块508将第二主题相关度与目标主题相关度进行比较;同时,将第三主题相关度与第一相关度阈值进行比较,并将比较结果传输至获取结果发送模块509。

获取结果发送模块509与相关度比较模块508相连接,当接收到相关度比较模块508传送的第二主题相关度与目标主题相关度的比较结果以及第三主题相关度与第一相关度阈值的比较结果后,获取结果发送模块509对该结果进行分析。

若第二主题相关度大于或等于目标主题相关度,该获取结果形成第一获取结果,则将第一获取结果发送至与网络数据获取请求相应的存储器中的第一业务存储器,可随时被使用。

同时,若第三主题相关度大于或等于第一相关度阈值,则说明两个第二获取结果是相关数据,可归为一类,为了便于后期数据匹配,将这两个第二获取结果发送至与第二获取结果相应的存储器中的第二业务存储器。

实施例3

图6为本发明实施例3提供的用于体育赛事的网络数据获取系统的构成示意图;该网络数据获取系统50包括图5所对应实施例中的请求接收模块501、历史数据匹配模块502、历史站点提取模块503、任务指定模块504、结果接收模块505、解析模块506、解析参数匹配模块507、相关度比较模块508以及获取结果发送模块509,进一步的,该网络数据获取系统50可以包括:哈希值计算模块510、哈希值比较模块511以及结果清除模块512。

哈希值计算模块510与存储器中的各个业务存储器(如第一业务存储器、第二业务存储器)相连接,获取结果发送模块509将第一获取结果和第二获取结果分别发送至对应的第一业务存储器和第二业务存储器后,哈希值计算模块510用于采用simhash算法获得相应获取结果之后,分别计算对应存储器中的历史数据的哈希值;采用simhash算法获得对应获取结果的哈希值;系统将哈希值的计算结果传输至哈希值比较模块511。

哈希值比较模块511与哈希值计算模块510相连接,当接收到哈希值计算模块510传送的哈希值计算结果后,哈希值比较模块511分别计算相应获取结果的哈希值与相应历史数据的哈希值差值的绝对值,获得获取结果与历史数据之间的第四主题相关度;系统将第四主题相关度传输至结果清除模块512。

结果清除模块512与哈希值比较模块511相连接,当接收到哈希值比较模块511传送的第四主题相关度后,结果清除模块512将第四主题相关度与第二相关度阈值进行比较,若第四主题相关度大于第二相关度阈值,则说明获取结果与该历史数据的相似度很高,为了避免占用存储器的有限空间,则清除相应存储器中的获取结果;其中,第二相关度阈值大于第一相关度阈值。

实施例4

图7为本发明实施例4提供的用于体育赛事的网络数据获取系统的构成示意图;该网络数据获取系统50包括图5所对应实施例中的请求接收模块501、历史数据匹配模块502、历史站点提取模块503、任务指定模块504、结果接收模块505、解析模块506、解析参数匹配模块507、相关度比较模块508、获取结果发送模块509。进一步的,该网络数据获取系统50可以包括:结论返回模块513、成功率计算模块514、成功率比较模块515、故障信息返回模块516、站点描述接收模块517以及站点描述发送模块518。

结论返回模块513与相关度比较模块508相连接,若至少一个获取结果的第二主题相关度大于或等于目标主题相关度,则返回获取成功结论;若所有的获取结果的第二主题相关度均小于目标主题相关度,则返回获取失败结论;系统获取的相应结论传输至成功率计算模块514。

成功率计算模块514与结论返回模块513相连接,当接收到结论返回模块513传送的相应获取结论后,成功率计算模块514计算预定时间间隔内每个历史站点的获取成功结论与获取失败结论的比值,形成历史站点的成功率;并将历史站点的成功率传输至成功率比较模块515。

成功率比较模块515与成功率计算模块514相连接,当接收到成功率计算模块514传送的历史站点的成功率数据后,成功率比较模块515将历史站点的成功率与历史站点的成功率阈值进行比较;并将该比较结果传输至故障信息返回模块516。

故障信息返回模块516与成功率比较模块515相连接,用于:历史站点的成功率小于历史站点的成功率阈值,则返回故障信息,说明该站点发生了变化,需要对该站点进行解析,获得新的站点描述信息,对站点描述进行相应的修改,及时更新相应的获取参数,以提高其获取成功结论的成功率;并将该故障信息传输至站点描述接收模块517。

站点描述接收模块517与故障信息返回模块516相连接,当接收到故障信息返回模块516反馈的故障信息后,系统对相应的站点进行解析,获得站点的解析参数,更新系统对该站点的描述,以提高其获取成功结论的成功率,站点描述接收模块517对同时接收历史站点的修改后的站点描述;并将修改后的站点描述传输至站点描述发送模块518。

站点描述发送模块518与站点描述接收模块517相连接,当接收到站点描述接收模块517传送的修改后的站点描述后,站点描述发送模块518及时更新站点的描述信息和相应的网络获取器的获取参数,避免站点更新带来的网络获取失败,并将修改后的站点描述发送至该站点对应的存储器中,以供后期正常使用。

实施例5

在一些可选的实施例中,网络数据获取方法还可以包括获取停止程序。

在一些可选的实施例中,网络获取系统可随时更新存储器中的站点,以收集新的站点,提高网络获取的选择。图8为本发明实施例5提供的用于体育赛事的网络数据获取系统的构成示意图;该网络数据获取系统50包括图5所对应实施例中的请求接收模块501、历史数据匹配模块502、历史站点提取模块503、任务指定模块504、结果接收模块505、解析模块506、解析参数匹配模块507、相关度比较模块508、获取结果发送模块509。进一步的,该网络数据获取系统50可以包括:输入站点接收模块519、站点描述比较模块520、输入站点发送模块521以及输入站点提取模块522。

输入站点接收模块519与存储历史站点的存储器相连接。输入站点接收模块519接收输入站点及其站点描述;并将该输入站点及站点描述传输至站点描述比较模块520。

站点描述比较模块520与输入站点接收模块519相连接,当接收到输入站点接收模块519传送的输入站点及站点描述后,站点描述比较模块520将输入站点的站点描述与历史站点的站点描述进行比较;并将比较结果传输至输入站点发送模块521。

输入站点发送模块521与站点描述比较模块520相连接,当接收到站点描述比较模块520传送的输入站点的站点描述与历史站点的站点描述比较数据后,若输入站点的站点描述与历史站点的站点描述不同,则说明输入站点不属于历史站点。输入站点发送模块521则将输入站点发送至存储站点的存储器;同时将信息传输至输入站点提取模块522。

输入站点提取模块522与存储站点的存储器相连接,当输入站点发送模块521将输入站点发送至存储器后,若未接收到指定的网络数据获取器的停止信息或若所有的获取结果的第二主题相关度均小于目标主题相关度,则输入站点提取模块522从存储器中提取输入站点的统一资源定位符;并将信息传输至任务指定模块504。

任务指定模块504接收到输入站点提取模块522提取到的输入站点的统一资源定位符后,将输入站点的统一资源定位符传送给指定的网络数据获取器,以供其连接输入站点,从输入站点中继续获取数据。

通过上述实施例可知,本发明的用于体育赛事的网络数据获取方法和系统,达到了如下的有益效果:

(1)本发明所述的用于体育赛事的网络数据获取方法和系统,首先判断历史数据中是否存在与网络数据获取请求匹配的数据,避免了有效数据的重复获取,提高数据采集的效率;并且实时监控网络数据获取器所获取的获取结果,并判定获取结果是否达到目标主题相关度,以获取理想的获取结果,并存储于相应的业务存储器中,方便用户的随时搜索和使用。

(2)本发明所述的用于体育赛事的网络数据获取方法和系统,实时监控存储器中获取数据之间的相关度,当获取结果与历史数据的相关度高于第二相关度阈值时,则将该获取结果清除,避免占用存储器的有限空间,达到去重的效果。

(3)本发明所述的用于体育赛事的网络数据获取方法和系统,引入输入站点的设计,在对历史站点进行数据获取时,同时可对新的输入站点进行判断,经过相应的站点分析后,如果为有效站点,则将其纳入相应存储器中,可扩大存储器对应站点的数据获取范围,提高数据获取的成功率。

(4)本发明所述的用于体育赛事的网络数据获取方法和系统,实时监控各站点获取结果的成功率,当历史站点的成功率低于其成功率阈值时,系统自动解析该站点和修改站点描述,避免站点的更新导致的获取失败,以提高其获取结果的成功率,有利于后续数据获取的工作快捷有效的进行。

虽然已经通过例子对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上例子仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员应该理解,可在不脱离本发明的范围和精神的情况下,对以上实施例进行修改。本发明的范围由所附权利要求来限定。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1