本发明设计数据提取技术领域,特别涉及一种从实际应用数据中提取潜在可用知识的方法。
背景技术:
internet在世界范围内普及的同时,人们在互联网上各个方面的需求也越来越大,基于web的商业交易成为电子商务迅猛发展的重要因素,海量的web页面也蕴含了大量反映用户需求的知识,而web数据挖掘也将大有用武之地,web数据挖掘技术在电子商务中的应用将极大地提高电商企业的竞争能力,数以亿计的web页面及其链接和服务器日志中蕴藏着有意义的用户访问模式和相关的潜在用户群知识,充分运作挖掘到的这些知识,从中提取商业决策支持的关键性数据,改进web站点设计,能够更好地开展电子商务活动。
技术实现要素:
获取竞争对手和客户信息。web不仅由页面组成,而且还包含了从一个页面指向另一个页面的超链接。一个web页面的作者建立指向另一个页面的指针,就可以看作是作者对另一页面的认可。把另一页面的来自不同作者的注解收集起来,就可以用来反映该页面的重要性,并可以很自然地用于权威页面的发现。另外一种重要的web页面是一个或多个web页面,它提供了指向权威页面的链接集合,称为hub。hub页面本身可能并不突出,或者说可能没有几个链接指向它们,但是hub页面却提供了指向就某个话题而言最为突出的站点的链接。通过分析这类信息,企业可以获得零售商、中间商、合作商以及竞争对手的信息。
发现用户访问模式。通过分析和探究web日志记录中的规律,可以识别电子商务的潜在客户,提高对最终用户的服务质量,并改进web服务器系统的性能。web日志记录数据库提供了有关web动态的,基于url、时间、ip地址和web页面内容的丰富信息,对它们进行分析,有助于发现潜在客户、用户和市场,有助于聚类用户并将用户分门别类,以实现个性化的市场服务。
反竞争情报活动。反竞争情报是企业竞争情报活动的重要组成部分。忽视竞争对手的竞争情报活动、低估竞争对手搜集竞争情报的能力势必导致企业失去已有的竞争优势。web站点是企业与外界进行交流的窗口,同时也是竞争对手获取竞争情报的一个重要信息源。在竞争情报计算机系统中,可以充分利用web挖掘技术,通过运用分析访问者的ip地址、客户端所属域、信息访问路径,统计敏感信息访问率等方法识别竞争对手,保护企业敏感性信息。