一种网络信息垂直搜索与挖掘处理方法

文档序号：6598986阅读：144来源：国知局

专利名称：一种网络信息垂直搜索与挖掘处理方法
技术领域：
本发明涉及一种网络资源获取方法，尤其是涉及一种网络信息垂直搜索与挖掘处理方法。
背景技术：
普通的网页搜索比如google是一种泛型搜索，整个结构的最小单位为网页，并不会对网页当中的内容做数据结构化分析和语义分析。前的部分房地产行业垂直技术虽然可以做到一定程度的网页内容分析和数据结构化处理，但仍然缺乏足够深入的信息挖掘，面对需要和地产行业知识紧密相关且需要一定逻辑推理和公式计算的信息提取仍然有很多待解决的问题。而本专利提供的方法旨在解决这一系列问题，诸如新房网络信息中通过复杂公式计算交易相关信息等。

发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种成本低、效率高、计算功能强大、灵活性好的网络信息垂直搜索与挖掘处理方法。本发明的目的可以通过以下技术方案来实现一种网络信息垂直搜索与挖掘处理方法，其特征在于，该方法包括以下步骤1)获取网页信息；2)对获取的网页信息进行结构化处理；3)对经处理后的数据进行逻辑推理和计算。所述的步骤1)获取网页信息步骤如下11)下载并保存任务起始页面信息；12)分析页面信息、分配并保存相关任务；13)启动任务处理单元，获取任务；14)各单元执行各自任务，下载并保存相关页面；15)分析页面信息、分配并保存其他相关任务；16)循环执行13)-15)步骤，直到所有任务处理结束后任务处理单元逐个结束工作，获得Html文件并将其保存。所述的步骤2)对获取的网页信息进行结构化处理步骤如下21)读取下载的Html文件信息；22)将Html文件转为Dom对象，供分析；23)将Dom对象转为XML数据结构，保存到数据库中；24)批量分解XML数据到数据库表格中。所述的步骤3)对经处理后的数据进行逻辑推理和计算步骤如下31)系统第一次运行将所有历史数据下载并结构化分析处理，所有状态相关数据保存到数据库中；
32)下载所有步骤2)处理后的数据；33)设定任务驱动规则，判断步骤2)处理后的数据的关键指标和历史状态是否一致，若为否，将步骤2)处理后的数据与历史状态对比，得出变化过程。与现有技术相比，本发明具有以下优点1)成本低、效率高、计算功能强大、灵活性好，并采用分布式多线程方式，具有良好的扩展性；2)稍作调整后，能很快应用于多种行业的不同垂直搜索领域。

图1为本发明的流程图；图2为本发明的硬件结构示意图。
具体实施例方式下面结合附图和具体实施例对本发明进行详细说明。实施例如图1所示，一种网络信息垂直搜索与挖掘处理方法，该方法包括以下步骤1)获取网页信息；2)对获取的网页信息进行结构化处理；3)对经处理后的数据进行逻辑推理和计算。1、信息提取本发明适用于绝大多数网站前端应用，并不会直接访问对方后台数据库系统。主要技术规范和提取方式包括a)标准http协议方式访问；b)可控制多线程下载网页数据；c)根据预设定访问路径规则决定子页面是否下载，减少网络负载和目标服务器压力；d)应用服务器分布式协同下载，增强工作效率。主要工作流程为11)下载并保存任务起始页面信息；12)分析页面信息、分配并保存相关任务；13)启动任务处理单元，获取任务；14)各单元执行各自任务，下载并保存相关页面；15)分析页面信息、分配并保存其他相关任务；16)循环执行13)-15)步骤，直到所有任务处理结束后任务处理单元逐个结束工作，获得Html文件并将其保存。2、结构化处理结构化处理是指把软件下载的页面信息根据房地产专业角度来分析解释，把页面信息转为专业数据表格的过程。转换后的数据表格待做进一步的挖掘和分析使用，一般都保存在数据库系统中。
本产品通过Dom对象转Xml的方法，将结构化数据分解为xml节点保存在数据库中作为原始数据使用，可以在下载扫描中降低分解复杂度和数据库端读写压力，而在后期应用中再将xml数据转换为相应的数据库表格。这样可以最大限度的使分析单元适用于所有网站数据。工作流程如下21)读取下载的Html文件信息；22)将Html文件转为Dom对象，供分析；23)将Dom对象转为XML数据结构，保存到数据库中；24)批量分解XML数据到数据库表格中。3、逻辑推理和计算垂直搜索技术中很多数据需要和历史状态比较来得出行业中产业链上某事物的变化过程。这不但是普通搜索引擎无法完成的任务，在大多数行业垂直搜索中也很少应用。这里以新房的交易状态应用为例说明计算方法和计算过程。一般的新房数据结构中包含项目(可查看累计成交面积、价格等)、楼栋(可查看已售套数等)、房间(可查看面积、是否可售)等。而且单城市房间数据量大多在几十万到百万级别不等。要根据记录每套房间的状态变化情况得出交易记录，并能够根据其他信息计算出交易价格，这就需要一套完善的业务驱动机制和计算公式。整个逻辑推理和计算的过程如下31)系统第一次运行将所有历史数据下载并结构化分析，所有状态相关数据保存到数据库中。32)下载所有项目信息和楼栋信息数据。33)设定任务驱动规则，检查项目信息和楼栋信息的关键指标和历史状态是否一致，如果不一致则进入该项目房间列表逐个检查房间状态。这样可以避免大量的历史信息被反复检索浪费资源。34)下载房间信息、结构化分析并和历史状态对比，得出变化过程。35)再配合项目的其他变化指标，比如累计成交面积、价格等计算当前状态发生的交易价格等关键信息。如图2所示，本发明所涉及的硬件设备主要包括数据库服务器1、应用服务器2、防火墙3、互联网4，所述的数据库服务器1、应用服务器2、防火墙3、互联网4依次连接。
权利要求
一种网络信息垂直搜索与挖掘处理方法，其特征在于，该方法包括以下步骤1)获取网页信息；2)对获取的网页信息进行结构化处理；3)对经处理后的数据进行逻辑推理和计算。
2.根据权利要求1所述的一种网络信息垂直搜索与挖掘处理方法，其特征在于，所述的步骤1)获取网页信息步骤如下11)下载并保存任务起始页面信息；12)分析页面信息、分配并保存相关任务；13)启动任务处理单元，获取任务；14)各单元执行各自任务，下载并保存相关页面；15)分析页面信息、分配并保存其他相关任务；16)循环执行13)-15)步骤，直到所有任务处理结束后任务处理单元逐个结束工作，获得Html文件并将其保存。
3.根据权利要求1所述的一种网络信息垂直搜索与挖掘处理方法，其特征在于，所述的步骤2)对获取的网页信息进行结构化处理步骤如下21)读取下载的Html文件信息；22)将Html文件转为Dom对象，供分析；23)将Dom对象转为XML数据结构，保存到数据库中；24)批量分解XML数据到数据库表格中。
4.根据权利要求1所述的一种网络信息垂直搜索与挖掘处理方法，其特征在于，所述的步骤3)对经处理后的数据进行逻辑推理和计算步骤如下31)系统第一次运行将所有历史数据下载并结构化分析处理，所有状态相关数据保存到数据库中；32)下载所有步骤2)处理后的数据；33)设定任务驱动规则，判断步骤2)处理后的数据的关键指标和历史状态是否一致，若为否，将步骤2)处理后的数据与历史状态对比，得出变化过程。
全文摘要
本发明涉及一种网络信息垂直搜索与挖掘处理方法，该方法包括以下步骤1)获取网页信息；2)对获取的网页信息进行结构化处理；3)对经处理后的数据进行逻辑推理和计算。与现有技术相比，本发明具有成本低、效率高、计算功能强大、灵活性好等优点。
文档编号G06F17/30GK101807206SQ20101012144
公开日2010年8月18日申请日期2010年3月10日优先权日2010年3月10日
发明者张瑞黎, 贾涛, 金仲敏申请人:上海克而瑞信息技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金仲敏;张瑞黎;贾涛
技术所有人：上海克而瑞信息技术有限公司
我是此专利的发明人

上一篇：图像显示方法及图像显示装置的制作方法
上一篇：在三维空间内实现带电弧悬线设计的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。