分组式数据查找抓取算法

文档序号:6550892阅读:214来源:国知局
分组式数据查找抓取算法
【专利摘要】本发明涉及一种分组式数据查找抓取算法,属于数据查找领域。所述方法包括制作数据查找模板,准备需要进行查找的数据源,从数据源的第一行开始提取与模板相同行数的数据,依次提取,循环从数据源中查找模板中需要查找的内容直至最后一行。利用本发明所述算法,可以将很多需要人为参与分析查找的数据实现自动化处理查找,只需要定义好相关的模板。最终可以减少相应的人力成本,同时提高数据查找工作效率。
【专利说明】分组式数据查找抓取算法
【技术领域】
[0001]本发明涉及一种分组式数据查找抓取算法,属于数据查找领域。
【背景技术】
[0002]目前我们在进行各种数据查找时,通常是通过一个或多个关键字来逐个进行查找,不能同时根据多个条件进行查找,且同时一次也只能查找到一个关键字。如果同时需要一次按两个或多个条件查找多个数据时,则只能由专门人员参与经人工分析后才可以查找到对应的数据信息。

【发明内容】

[0003]本发明的目的在于提供一种分组式数据查找抓取算法,所述算法的运用,可以解决数据信息查找中,同时根据多个条件,查找出多个指定的值。
[0004]本发明是通过以下技术方案实现的:
[0005]一种分组式数据查找抓取算法,包括以下步骤:
[0006]步骤一:根据查找条件,制作数据查找模板;
[0007]所述模板保留所述查找条件中定量数据的位置,所述查找条件的变量数据位置空出;
[0008]步骤二:准备需要进行查找的数据源;
[0009]步骤三:判断所述数据源中数据的行数是否大于等于所述模板中数据的行数,若否,则执行步骤十一;若是,执行步骤四;
[0010]步骤四:从所述数据源的第一行开始提取与所述模板相同行数的数据;
[0011]步骤五:在与所述模板中对应的各行数据中查找符合所述查找条件的数据;
[0012]步骤六:判断从提取到的数据中是否可以查找到所有与所述模板对应的数据;若否,执行步骤七;若是,执行步骤九;
[0013]步骤七:从所述数据源的上次提取数据的开始位置的下一行开始,重新提取与模板相同行数的数据;
[0014]步骤八:循环从所述数据源中查找所述模板中需要查找的数据直至最后一行;
[0015]步骤九:从上次提取数据的后行再取出一组和所述模板相同行数的数据;
[0016]步骤十:循环从所述数据源中查找所述模板中需要查找的数据直至最后一行;
[0017]步骤^^一:查找结束。
[0018]本发明的有益效果为:
[0019]所述算法是将数据按行分组,以每组的总行数据,及数据所处的行数为依据,精确定位到所有查找的数据。以此方法在数据信息中循环查找,直至到数据结尾,重点解决一些复杂的数据查找抓取情况。
[0020]利用本发明所述算法,可以将很多需要人为参与分析查找的数据实现自动化处理查找,只需要定义好相关的模板。最终可以减少相应的人力成本,同时提高数据查找工作效率。
【专利附图】

【附图说明】
[0021]图1为本发明所述算法的流程示意图。
【具体实施方式】
[0022]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0023]一种分组式数据查找抓取算法,包括以下步骤:
[0024]步骤一:根据查找条件,制作数据查找模板;
[0025]所述模板保留所述查找条件中定量数据的位置,所述查找条件的变量数据位置空出;
[0026]所述数据查找模板示例如下:
[0027]第一行:台式机资产情况一:
[0028]第二行:资产编号:(获取此处多个非空字符)使用人:(获取此处多个非空字符)
[0029]第三行:借出人:(获取此处多个非空字符)价值:(获取此处多个数值字符)元
[0030]步骤二:准备需要进行查找的数据源;
[0031]数据源样例如下:
[0032]台式机资产情况一:
[0033]资产编号:台式机一使用人:张文
[0034]借出人:王风价值:1000元
[0035]台式机资产情况二:
[0036]资产编号:台式机二 使用人:张风
[0037]借出人:王古 价值:10000元
[0038]台式机资产情况三:
[0039]资产编号:台式机三使用人:张心
[0040]借出人:王叶价值:880元
[0041]步骤三:判断所述数据源中数据的行数是否大于等于所述模板中数据的行数,若否,则查找结束;若是,执行步骤四;
[0042]步骤四:从所述数据源的第一行开始提取与所述模板相同行数的数据;
[0043]说明:模板中有三行数据,从数据源中取前三行如下:
[0044]台式机资产情况一:
[0045]资产编号:台式机一使用人:张文
[0046]借出人:王风 价值:1000元
[0047]步骤五:在与所述模板中对应的各行数据中查找符合所述查找条件的数据;
[0048]说明:依据模板,在提取的前三行数据在进行查找,结果如下:
[0049]第一个结果为:台式机一第二个结果为:张文[0050]第三个结果为:王风第四个结果为:1000
[0051]步骤六:判断从提取到的数据中是否可以查找到所有与所述模板对应的数据;若否,执行步骤七;若是,执行步骤九;
[0052]说明:模板中标记有四处数据需要查找,均查到结果,则跳过步骤七、步骤八,执行步骤九;其中,
[0053]步骤七为从所述数据源的上次提取数据的开始位置的下一行开始,重新提取与模板相同行数的数据;
[0054]步骤八为循环从所述数据源中查找所述模板中需要查找的数据直至最后一行;
[0055]步骤九:从上次提取数据的后行再取出一组和所述模板相同行数的数据;
[0056]说明:从数据源中提取接着上次结束位置,继续向下取三行如下:
[0057]台式机资产情况二:
[0058]资产编号:台式机二使用人:张风
[0059]借出人:王古价值:10000元
[0060]步骤十:循环从所述数据源中查找所述模板中需要查找的数据直至最后一行;
[0061]步骤^^一:查到所有结果如下:
[0062]
【权利要求】
1.一种分组式数据查找抓取算法,其特征在于,包括以下步骤: 步骤一:根据查找条件,制作数据查找模板; 所述模板保留所述查找条件中定量数据的位置,所述查找条件的变量数据位置空出; 步骤二:准备需要进行查找的数据源; 步骤三:判断所述数据源中数据的行数是否大于等于所述模板中数据的行数,若否,则执行步骤十一;若是,执行步骤四; 步骤四:从所述数据源的第一行开始提取与所述模板相同行数的数据; 步骤五:在与所述模板中对应的各行数据中查找符合所述查找条件的数据; 步骤六:判断从提取到的数据中是否可以查找到所有与所述模板对应的数据;若否,执行步骤七;若是,执行步骤九; 步骤七:从所述数据源的上次提取数据的开始位置的下一行开始,重新提取与模板相同行数的数据; 步骤八:循环从所述数据源中查找所述模板中需要查找的数据直至最后一行; 步骤九:从上次提取数据的后行再取出一组和所述模板相同行数的数据; 步骤十:循环从所述数据源中查找所述模板中需要查找的数据直至最后一行; 步骤十一:查找结束。
【文档编号】G06F17/30GK104021225SQ201410290983
【公开日】2014年9月3日 申请日期:2014年6月25日 优先权日:2014年6月25日
【发明者】李伟, 张雨 申请人:郑州向心力通信技术股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1