一种搜索引擎热点词分析算法

文档序号:6619700阅读:234来源:国知局
一种搜索引擎热点词分析算法
【专利摘要】本发明申请公开一种搜索引擎热点词分析算法,由横向和纵向两部分组成,横向部分对词语自身在相邻的两个周期内被搜索的次数进行处理,表示为其中,x1是词语在较近周期中出现的次数,x2是词语在较早周期中出现的次数,a是大于0的基数;纵向部分选取具有单调递增性质且在大于0区间的函数值大于0的函数对平衡因子M进行处理,M可以是搜索过词语的互联网用户的不重复IP个数、不重复radius个数或用户身份证个数;将横向部分和纵向部分的结果相乘即可得到最终的热点词分析结果;利用本发明申请所述方法,能够显著提高搜索引擎热点词得分算法的有效性和可靠性,提高算法的抗干扰能力,从而得到理性的、可用性强的结果。
【专利说明】一种搜索引擎热点词分析算法

【技术领域】
[0001] 本申请属于信息【技术领域】,涉及一种搜索引擎热点词分析算法。

【背景技术】
[0002] 热点词,是指一定时间内被大量互联网用户通过搜索引擎搜索过的词语,相对于 非热点词,热点词有搜索次数高的特点。一般的,通过一系列的方法处理词语在相邻的两个 周期内出现的次数,将处理的结果筛选,就可以得到热点词。经过处理的结果叫做关键词得 分,处理的方法叫做关键词得分算法。
[0003] 现有的关键词得分算法是将词语在较近周期中被搜索次数减去词语在较早周期 中被搜索的次数,然后再除以一个基数,基数可以是词语在较近周期中被搜索的次数,可 以是词语在较早周期中被搜索的次数,也可以是同一词语在两个周期被搜索次数的和或者 差,等等。下面是一个关键词得分算法的例子:
[0004]

【权利要求】
1. 一种搜索引擎热点词分析算法,其特征在于:由横向和纵向两部分组成,横向部分
对词语自身在相邻的两个周期内被搜索的次数进行处理,表示为 '其中,X1是词 ? 语在较近周期中出现的次数,X2是词语在较早周期中出现的次数,a是大于0的基数; 纵向部分选取具有单调递增性质且在大于〇区间的函数值为正数的函数对平衡因子Μ 进行处理,平衡因子Μ可以是搜索过词语的互联网用户的不重复IP个数、不重复radius个 数或用户身份证个数; 将横向部分和纵向部分的结果相乘即可得到最终的热点词得分计算结果。
2. 如权利要求1所述的一种搜索引擎热点词分析算法,其特征在于:较佳的,基数a设 定为词语在较近周期被搜索次数的平均值。
3. 如权利要求1所述的一种搜索引擎热点词分析算法,其特征在于:较佳的,选取
作为纵向部分的函数,其中,η是大于1的正整数。
4. 如权利要求3所述的一种搜索引擎热点词分析算法,其特征在于:较佳的,η = 3时 函数结果的区分程度能够满足一般性需求。
【文档编号】G06F17/30GK104111999SQ201410326496
【公开日】2014年10月22日 申请日期:2014年7月2日 优先权日:2014年7月2日
【发明者】沈晓龙, 王峥, 李翔, 丁飞达 申请人:烽火通信科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1