一种域名网址活跃度统计方法及系统的制作方法

文档序号:9887786阅读:477来源:国知局
一种域名网址活跃度统计方法及系统的制作方法
【技术领域】
[0001] 本发明涉及计算机网络技术领域,尤其涉及一种域名网址活跃度统计方法及系 统。
【背景技术】
[0002] 现如今,销售预测在提高企业经济效益及决策支持水平的方面占有重要的地位。 随着企业信息化技术水平的提高,企业销售数据日益丰富,管理者对其中隐藏的销售预测 信息的渴求愈来愈强烈。用传统的方法来分析这些海量数据中的销售信息相当困难,已不 适应时代需求。如何寻找更好的方法去挖掘销售数据中隐藏的销售预测信息日趋重要。
[0003] 目前习惯了这样一种称谓:前端行为数据和后端商业数据。前端数据指访问量、浏 览量、点击流及站内搜索等反应用户行为的数据,而后端数据更侧重商业数据,比如交易 量、R〇I(转化率)、LTV(Life time Value终身价值)。目前有些人关心行为数据,也有些人关 心商业数据,但较少人把行为数据和商业数据联系起来看。大家往往只单纯看某一端数据。 国内小有名气的网站CE0,每天也只看一个结果数据:网站今天的成交量是多少,卖了多少 件产品。但是看数据走火入魔的人会明白,每个数据,就像散布在黑夜里的星星,它们彼此 之间布满了关系网,只要轻轻按一下其中一个数据,就会驱动另外一些数据的变化。
[0004] 目前的活跃度统计方法一般为,通过相关特征的属性来定义项目或对象,基于用 户评价对象的特征学习用户的兴趣,依据用户资料与待预测项目的匹配程度进行推荐,努 力向客户推荐与其以前喜欢的产品相似的产品。
[0005] 以使用者为基础,相似统计的方法得到具有相似爱好或者兴趣的相邻使用者。方 法步骤:1.收集可以代表使用者兴趣的资讯。一般的网站系统使用评分的方式或是给予评 价,这种方式被称为"主动评分"。另外一种是"被动评分",是根据使用者的行为模式由系统 代替使用者完成评价,不需要使用者直接打分或输入评价资料。2.最近邻搜索(Nearest neighbor search,NNS)以使用者为基础(User-based)的协同过滤的出发点是与使用者兴 趣爱好相同的另一组使用者,就是计算两个使用者的相似度。3.产生推荐结果,有了最近邻 集合,就可以对目标使用者的兴趣进行预测,产生推荐结果。依据推荐目的的不同进行不同 形式的推荐,较常见的推荐结果有Top-N推荐和关联推荐。Top-N推荐是针对个体使用者产 生,对每个人产生不一样的结果,例如:透过对A使用者的最近邻使用者进行统计,选择出现 频率高且在A使用者的评分项目中不存在的,作为推荐结果。关联推荐是对最近邻使用者的 记录进行关联规则(association rules)挖掘。
[0006] 自学习系统就是系统具有能够按照自己运行过程中的经验来改进控制算法的能 力,它是自适应系统的一个延伸和发展。自学习系统理论也是用于工程控制的理论,它有 "定式"和"非定式"两个方面。前者是根据已有的答案对系统工作状态做出判断来改进系统 的控制,使之不断趋近于理想的算法。后者是通过各种试探、统计决策和模式识别等工作来 对系统进行控制,使之趋近于理想的算法。又称逆推学习算法,简称BP算法,是1986年鲁梅 哈特(D.E.Rumelhart)和麦克莱朗德(J.L.McClelland)提出来的。用样本数据训练人工神 经网络(一种模仿人脑的信息处理系统),它自动地将实际输出值和期望值进行比较,得到 误差信号,再根据误差信号从后(输出层)向前(输入层)逐层反传,调节各神经层神经元之 间的连接权重,直至误差减至满足要求为止。反向传播算法的主要特征是中间层能对输出 层反传过来的误差进行学习。这种算法不能保证训练期间实现全局误差最小,但可以实现 局部误差最小。BP算法在图像处理、语音处理、优化等领域得到广泛应用。遗传算法是通过 模拟生物在自然界中的进化过程而形成的一种全局优化算法。理论上已经证明:遗传算法 能从概率的意义上以随机的方式寻找到问题的最优解。但是在实际应用中,由于问题的复 杂性和海量的数据,因此出现了一些不尽人意的情况,主要表现在计算后期解的多样性差, 即容易造成早熟、收敛速度慢等缺点。为了克服上述缺点,提高算法性能,人们提出了相应 的改进方法,如小种群遗传算法、正交遗传算法、多智能体遗传算法、快速进化规划、饲养遗 传算法、自适应演化算法、组织进化算法、模式迀移策略的并行遗传算法等。

【发明内容】

[0007] 本发明基于最近邻集合提出了一种子域名破解的方法来获取邻搜索。本发明采用 传统的字典破解方法和改进字典的更新机制。并且本发明采取一种自学习的方式来自动更 新以便补充和加强字典。
[0008] 根据本发明一方面,提供了一种域名网址活跃度统计方法,其包括:
[0009] 步骤1:从域名网址中破解得到各个子域名;
[0010] 步骤2:从每个所述子域名中抽取特征码;
[0011] 步骤3:用特征码将所有所述子域名逐个索引起来构成一个检索系统;
[0012] 步骤4:将每个所述子域名的特征码逐个投入检索系统,将当前所述子域名检索到 的全部子域名聚成一类;
[0013] 步骤5:根据当前所述子域名检索到的聚为一类的全部子域名的大小确定当前子 域名的活跃度。
[0014] 根据本发明另一方面,提供了一种域名网址活跃度统计系统,其包括:
[0015] 破解模块,用于从域名网址中破解得到子域名;
[0016] 特征码提取模块,用于从每个子域名中抽取特征码;
[0017] 索引模块,利用特征码将子域名逐个索引起来构成一个检索系统;
[0018] 聚类模块,用于将每个所述子域名的特征码逐个投入检索系统,将当前所述子域 名检索到的全部子域名聚成一类;
[0019]统计模块,根据当前所述子域名检索到的聚为一类的全部子域名的大小确定当前 子域名的活跃度。
[0020] 本发明在统计破解结果时采取快速聚合去重,去除重复子域名的问题可以看成是 一个特殊的聚类问题。因此可以采用一般的聚类方法来处理,我们可以用6763个汉字做成 一个向量,将各个汉字在子域名正文中出现的个数填入向量中,以该向量为这个子域名的 一个特征,通过计算子域名向量与聚类中心向量的夹角余弦值,两向量的模的大小关系,来 判断这个子域名是否应该归为该类。由于只有两个子域名完全相同才归属于一类,因此子 域名向量与聚类中心向量的夹角应该非常小,而且向量的模应该基本相同。
[0021] 但由于一般的聚类问题是把在某些特征上相似的元素聚为一类,而且聚类后总的 类别数不会很多,且一般都有一定的限制。而这个问题的特殊性在于不是要把相似的元素 聚成一类,而是把完全相同的元素才聚成一类。另外,由于不同的子域名占有很大的比例, 它们都各自成为一类,聚类后总的类别数会特别大,且没有具体的限制。因为一般的聚类方 法会比较每个元素到各个聚类中心的距离,当类别较少时,这种计算是可行的,但当类别数 很大的时候,比较的次数就会大大增加,当要处理的数据很大时,这种算法的所消耗的时间 将会很长,从而导致在计算效率上是比较低的。可以计算这种方法的计算复杂度是0U 2) 的,当数据量较大时(比如几十万子域名),这种方法是不可行的。另外,在计算子域名相似 度时很难取得合适的阈值使得能够保证子域名内容的完全相同。
[0022]去除重复子域名的问题与检索问题也有相似的地方。本发明中假定将所有要处理 的子域名信息建立好索引,作为一个检索系统,再把每一个子域名变成一个查询请求,到这 个检索系统中去查询,找出所有与该子域名完全相同的子域名。
[0023]与一般的检索系统不同的是,在一般的检索系统中需要检索出所有与该子域名相 关的子域名,而不是完全相同的子域名。而本发明所要解决的问题是检索出与该子域名完 全相同的子域名,相关的子域名不需要被检索出来。为了实现这一点本发明对一般的检索 方法进行了改进。在一般的检索系统中,需要对关键词进行索引以便查询,而关键词可能在 多篇相关的子域名中出现,因此检索时会把所有相关的子域名检索出来。为了只检索出完 全相同的子域名,本发明对子域名的特征建立索引,这个特征可以保证对于不同的子域名 是完全不同的,本发明中称这个特征为子域名的特征码。把所有的特征码索引起来建立的 检索系统,就能够使检索的结果是完全相同的子域名。可见子域名特征码的确定是解决问 题的关键。子域名特征码必须能把完全相同的子域名和不同或相似的子域名区分开,一般 的关键词技术是不能做到这点的。因此本发明在子域名中取一个固定长为L的词串作为子 域名的特征码。但由于正文相同的子域名中导航信息、版权信息可能不同,由于这些信息的 干扰很难从子域名的开始或中间的某个固定的位置来抽取特征码。通过对子域名的分析发 现在导航信息中较少的出现标点符号,尤其是句号几乎不会出现,另外导航信息多出现在 HTML语言中的超链接标记中。
[0024]利用这两个特点,本发明在提取特征码时尽量把导航信息等干扰信息去除掉,再 把句号作为一个提取的位置,分别在句号两边提
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1