一种基于互联语料的热门话题自动挖掘系统的制作方法

文档序号:9727472阅读:278来源:国知局
一种基于互联语料的热门话题自动挖掘系统的制作方法
【技术领域】
[0001] 本发明涉及一种基于互联语料的热门话题自动挖掘系统。
【背景技术】
[0002] 现有的热词挖掘系统主要有三种方法:基于规则匹配的方法,基于站点统计信息 的方法和基于事件侦测的方法。基于规则匹配的方法需要大量的领域知识,利用手工建立 的热词匹配模板挖掘热词。基于站点统计信息的方法主要利用站点流量的统计数据,例如 门户网站的新闻访问日志、搜索引擎的查询日志等,并从高频访问内容中挖掘热词。基于事 件侦测的方法首先利用命名实体识别、高频串统计等方法,挖掘出候选热词,再此基础上, 利用时间序列分析的相关方法,在候选集合中选取热度趋势明显的词作为最终结果。
[0003] 基于规则匹配的方法需要大量的先验知识,虽然准确性较高,但是可扩展性较差, 不同领域的匹配模板不能复用;基于站点统计信息的方法需要基于大量的用户群体,收集 大量日志,这些数据是中小公司或科研单位无法获得的;基于事件侦测的方法首先需要生 成高质量的候选词,由于互联网上的信息日新月异,新词层出不穷,未登录词问题对于这种 方法是一个挑战。
[0004] 因此,如何解决上述问题成为本领域技术人员亟需解决的技术问题。

【发明内容】

[0005] 针对【背景技术】中存在的问题,本发明的目的在于提供一种基于互联语料的热门话 题自动挖掘系统,该系统不仅能够实时挖掘当下热点事件,并且在生成热门话题的同时,还 会自动挖掘该话题的相关命名实体。
[0006] 本发明的目的是通过以下技术方案来实现的:
[0007] -种基于互联语料的热门话题自动挖掘系统,所述系统由两种路线组成:
[0008] 1)爬取现有热词统计站点的热词,通过聚类、实体抽取、关键字挖掘的步骤,生成 一系列的热门话题;
[0009] 2)在大量新闻文档中抽取n-gram,通过计算n-gram的互信息和条件熵的值,在大 量新闻文档中挖掘高频热词,并利用基于时间序列的事件侦测方法,识别新生话题。
[0010]进一步,所述路线1)具体为:
[0011] (1)热词爬取:通过网络爬虫程序爬取众多热词站点,抽取其中的热词并存储;
[0012] (2)热词检索:使用商用搜索引擎,检索话题标题,并将返回页面中的前N个结果存 储起来;存储的内容包括检索页面每个结果的标题、摘要和链接URL;
[0013] (3)热词聚类:利用话题的标题、所述步骤(2)中检索结果的标题和摘要计算不同 话题之间的距离,并使用WQT方法聚类;每个话题由3部分信息组成:话题标题、检索结果中 前N个标题、检索结果中前N个摘要;通过分析这3种信息生成描述话题的4个向量;系统首先 对这3种文本进行分词,抽取其中的实体;将N个标题、N个摘要看做两个整体进行分析,分别 统计话题标题、检索结果标题、检索结果摘要中不同词出现的频率,进而计算每个词的tf- idf值;这样每个话题会得到3个词频向量;另外,统计所有抽取出的实体的频率,得到1个实 体向量;通过加权4个向量的余弦相似性得到两个话题的相似性。
[0014]进一步,所述步骤(3)中加权4个向量的余弦相似性的计算公式为:
[0016] 其中,集合C包括4种类型,分别是话题标题tf-idf·、检索结果标题tf-idf·、检索结 果摘要tf-idf、实体频率;
表示话题ti的k类型向量,wk表示k类型的权重,2kecwk=l。
[0017] 进一步,所述路线2)具体为:
[0018] a)n-gram生成:利用Nagao串频统计方法,统计所有n-gram(n < N)出现的频率及左 右邻;
[0019] b)去常见词:利用分词字典去掉所有n-gram中的常见词;
[0020] C)n-gram成词度计算:统计每个n-gram出现的频率,并利用公式计算其互信息、左 邻熵和右邻熵;最终经公式计算出一个n-gram的成词度;
[0021 ] d)n-gram热度趋势计算:通过公式计算每个n-gram的热度趋势,将n-gram的成词 度计算公式与每个n-gram的热度趋势计算公式相乘得到一个n-gram的总得分;
[0022] e)n_gram 聚类。
[0023] 进一步,所述步骤c)中每个n-gram互信息的计算公式为:
[0025] 进一步,所述步骤c)中每个n-gram左邻熵的计算公式为:
[0027] 进一步,所述步骤c)中每个n-gram右邻熵的计算公式为:
[0029] 进一步,所述步骤c)中每个n-gram成词度的计算公式为:
[0031 ](其中k是对词X的切分位置)。
[0032]进一步,所述步骤d)中每个n-gram的热度趋势的计算公式为:
[0034] 本发明具有以下积极的技术效果:
[0035] 本发明不仅能够实时挖掘当下热点事件,并且在生成热门话题的同时,还会自动 挖掘该话题的相关命名实体。
【具体实施方式】
[0036]下面结合【具体实施方式】对本发明做进一步的说明。
[0037] 首先对本发明涉及到的一些相关概念做如下说明:
[0038] 命名实体:人名、机构名、地名以及其他所有以名称为标识的实体。
[0039] 命名实体识别:命名实体识别是信息抽取的一个子任务,目的在于定位并标识文 本中出现的命名实体,命名实体识别的主要难点在于歧义问题。
[0040] Tf-idf:Tf-idf是用于评估一个词对于一篇文档重要性的模型。Tf是词频,指单词 W在文档中d出现的频率,i df是逆向文档频率:
指包含单词W的文档个数的 倒数与总文档个数的乘积。
[0041] 余弦相似度:两个维数相同的向量存在于同一空间,如果使用欧氏距离计算,会存 在向量量级不同的问题。通过计算两个向量的余弦相似度可以很好的解决这个问题。
[0042] WQT聚类算法:WQT算法是对QT算法的改进,是基于贪心策略的聚类算法,待聚类 的数据是按照重要性排序的,每次聚类过程,会首先将重要性高的节点加入到当前类中,之 后每次选取距离当前类最近的点加入,直到所有数据点到当前类的距离都大于阈值,则该 类聚类完成,开始对下一个类的聚类过程。
[0043] n-gram:n-gram是一种语言模型,在这种概率模型下,一个单词的出现的概率只与 前面的n-1个词有关。
[0044] Nagao串频统计法:Nagao算法是快速统计文本子串的方法,该方法会建立三个表, 分别是后缀表、前缀表和ITable,后缀表经过排序后,所有相同的子串都是相邻的,这样对 词频的统计结果可以及时输出,而不需要在内存中驻留。
[0045]互信息:互信息是信息论里的一种信息度量,互信息的计算见公式[2.1],随机变 量Χ,γ的互信息可以理解为对Χ(γ)减少Υ(χ)的不确定性的度量,互信息是对随机变量相互 性的度量。
[0046] 熵:熵是信息论中的重要概念,熵用来衡量随机变量的不确定性,或者信息量的。 熵越大的随机变量随机性越大,也因而包含更多的信息。其计算公式为Η(Χ)=Σ χβ-ρ(χ)Χ l〇g(p(x))〇
[0047] 事件侦测:事件侦测指的是从周期性收集的数据中挖掘出有用的但却是较为异 常、不常发生的事件,如疾病爆发检测等。
[0048]本发明能够实时挖掘当下热点事件,如"黄晓明Angelababy大婚"等,在生成热门 话题的同时,还会自动挖掘该话题的相关命名实体(如、"美国"、"奥巴马"、"黄晓明","上 海"等)、关键字("出访","大国","婚礼"等)。
[0051]上述内容是一个完整的热门事件,其中:
[0052] · title:热门事件的标题
[0053] · score:对事件热度的度量
[0054] · alias:同一热门事件的不同标题,方便服务调用方进行检索
[0055] · keywords:热门事件的关键词,可以用来对新闻文档打标签
[0056] · entities:热门事件涉及的命名实体,方便服务调用方全面了解事件发生的地 点、人物和机构
[0057] 同时,每个alia、keyword、entity都附带一个得分,这个得分衡量该项的重要性, 对于基于本系统进行后续研发系统来说,可以利用该得分计算相应指标。
[0058]本发明的方案由两种路线组成:
[0059] (1)爬取现有热词统计站点的热词,通过聚类、实体抽取、关键字挖掘等步骤,生成 一系列的热门话题。本申请这种方法为基于热词爬取的方法。
[0060] (2)在大量新闻文档中抽取n-gram,通过计算n-gram的互信息,条件熵等值,在大 量新闻文档中挖掘高频热词,并利用基于时间序列的事件侦测方法,识别新生话题。本申请 称这种方法为基于热词生成的方法。
[0061] 一、基于热词爬取的方法
[0062] 首先爬取现有的热词统计站点的热词
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1