一种基于互联语料的热门话题自动挖掘系统的制作方法

文档序号：9727472阅读：278来源：国知局

一种基于互联语料的热门话题自动挖掘系统的制作方法
【技术领域】
[0001] 本发明涉及一种基于互联语料的热门话题自动挖掘系统。
【背景技术】
[0002] 现有的热词挖掘系统主要有三种方法:基于规则匹配的方法，基于站点统计信息的方法和基于事件侦测的方法。基于规则匹配的方法需要大量的领域知识，利用手工建立的热词匹配模板挖掘热词。基于站点统计信息的方法主要利用站点流量的统计数据，例如门户网站的新闻访问日志、搜索引擎的查询日志等，并从高频访问内容中挖掘热词。基于事件侦测的方法首先利用命名实体识别、高频串统计等方法，挖掘出候选热词，再此基础上，利用时间序列分析的相关方法，在候选集合中选取热度趋势明显的词作为最终结果。
[0003] 基于规则匹配的方法需要大量的先验知识，虽然准确性较高，但是可扩展性较差，不同领域的匹配模板不能复用;基于站点统计信息的方法需要基于大量的用户群体，收集大量日志，这些数据是中小公司或科研单位无法获得的；基于事件侦测的方法首先需要生成高质量的候选词，由于互联网上的信息日新月异，新词层出不穷，未登录词问题对于这种方法是一个挑战。
[0004] 因此，如何解决上述问题成为本领域技术人员亟需解决的技术问题。

【发明内容】

[0005] 针对【背景技术】中存在的问题，本发明的目的在于提供一种基于互联语料的热门话题自动挖掘系统，该系统不仅能够实时挖掘当下热点事件，并且在生成热门话题的同时，还会自动挖掘该话题的相关命名实体。
[0006] 本发明的目的是通过以下技术方案来实现的：
[0007] -种基于互联语料的热门话题自动挖掘系统，所述系统由两种路线组成：
[0008] 1)爬取现有热词统计站点的热词，通过聚类、实体抽取、关键字挖掘的步骤，生成一系列的热门话题；
[0009] 2)在大量新闻文档中抽取n-gram，通过计算n-gram的互信息和条件熵的值，在大量新闻文档中挖掘高频热词，并利用基于时间序列的事件侦测方法，识别新生话题。
[0010]进一步，所述路线1)具体为：
[0011] (1)热词爬取:通过网络爬虫程序爬取众多热词站点，抽取其中的热词并存储；
[0012] (2)热词检索:使用商用搜索引擎，检索话题标题，并将返回页面中的前N个结果存储起来;存储的内容包括检索页面每个结果的标题、摘要和链接URL;
[0013] (3)热词聚类:利用话题的标题、所述步骤(2)中检索结果的标题和摘要计算不同话题之间的距离，并使用WQT方法聚类;每个话题由3部分信息组成:话题标题、检索结果中前N个标题、检索结果中前N个摘要;通过分析这3种信息生成描述话题的4个向量;系统首先对这3种文本进行分词，抽取其中的实体;将N个标题、N个摘要看做两个整体进行分析，分别统计话题标题、检索结果标题、检索结果摘要中不同词出现的频率，进而计算每个词的tf- idf值;这样每个话题会得到3个词频向量;另外，统计所有抽取出的实体的频率，得到1个实体向量;通过加权4个向量的余弦相似性得到两个话题的相似性。
[0014]进一步，所述步骤(3)中加权4个向量的余弦相似性的计算公式为：
[0016] 其中，集合C包括4种类型，分别是话题标题tf-idf·、检索结果标题tf-idf·、检索结果摘要tf-idf、实体频率；
表示话题ti的k类型向量，wk表示k类型的权重，2kecwk=l。
[0017] 进一步，所述路线2)具体为：
[0018] a)n-gram生成:利用Nagao串频统计方法，统计所有n-gram(n < N)出现的频率及左右邻；
[0019] b)去常见词:利用分词字典去掉所有n-gram中的常见词；
[0020] C)n-gram成词度计算:统计每个n-gram出现的频率，并利用公式计算其互信息、左邻熵和右邻熵;最终经公式计算出一个n-gram的成词度；
[0021 ] d)n-gram热度趋势计算:通过公式计算每个n-gram的热度趋势，将n-gram的成词度计算公式与每个n-gram的热度趋势计算公式相乘得到一个n-gram的总得分；
[0022] e)n_gram 聚类。
[0023] 进一步，所述步骤c)中每个n-gram互信息的计算公式为：
[0025] 进一步，所述步骤c)中每个n-gram左邻熵的计算公式为：
[0027] 进一步，所述步骤c)中每个n-gram右邻熵的计算公式为：
[0029] 进一步，所述步骤c)中每个n-gram成词度的计算公式为：
[0031 ](其中k是对词X的切分位置）。
[0032]进一步，所述步骤d)中每个n-gram的热度趋势的计算公式为：
[0034] 本发明具有以下积极的技术效果：
[0035] 本发明不仅能够实时挖掘当下热点事件，并且在生成热门话题的同时，还会自动挖掘该话题的相关命名实体。
【具体实施方式】
[0036]下面结合【具体实施方式】对本发明做进一步的说明。
[0037] 首先对本发明涉及到的一些相关概念做如下说明：
[0038] 命名实体:人名、机构名、地名以及其他所有以名称为标识的实体。
[0039] 命名实体识别：命名实体识别是信息抽取的一个子任务，目的在于定位并标识文本中出现的命名实体，命名实体识别的主要难点在于歧义问题。
[0040] Tf-idf:Tf-idf是用于评估一个词对于一篇文档重要性的模型。Tf是词频，指单词 W在文档中d出现的频率，i df是逆向文档频率：
指包含单词W的文档个数的倒数与总文档个数的乘积。
[0041] 余弦相似度:两个维数相同的向量存在于同一空间，如果使用欧氏距离计算，会存在向量量级不同的问题。通过计算两个向量的余弦相似度可以很好的解决这个问题。
[0042] WQT聚类算法:WQT算法是对QT算法的改进，是基于贪心策略的聚类算法，待聚类的数据是按照重要性排序的，每次聚类过程，会首先将重要性高的节点加入到当前类中，之后每次选取距离当前类最近的点加入，直到所有数据点到当前类的距离都大于阈值，则该类聚类完成，开始对下一个类的聚类过程。
[0043] n-gram:n-gram是一种语言模型，在这种概率模型下，一个单词的出现的概率只与前面的n-1个词有关。
[0044] Nagao串频统计法:Nagao算法是快速统计文本子串的方法，该方法会建立三个表，分别是后缀表、前缀表和ITable，后缀表经过排序后，所有相同的子串都是相邻的，这样对词频的统计结果可以及时输出，而不需要在内存中驻留。
[0045]互信息：互信息是信息论里的一种信息度量，互信息的计算见公式[2.1]，随机变量Χ，γ的互信息可以理解为对Χ(γ)减少Υ(χ)的不确定性的度量，互信息是对随机变量相互性的度量。
[0046] 熵:熵是信息论中的重要概念，熵用来衡量随机变量的不确定性，或者信息量的。熵越大的随机变量随机性越大，也因而包含更多的信息。其计算公式为Η(Χ)=Σ χβ-ρ(χ)Χ l〇g(p(x))〇
[0047] 事件侦测：事件侦测指的是从周期性收集的数据中挖掘出有用的但却是较为异常、不常发生的事件，如疾病爆发检测等。
[0048]本发明能够实时挖掘当下热点事件，如"黄晓明Angelababy大婚"等，在生成热门话题的同时，还会自动挖掘该话题的相关命名实体(如、"美国"、"奥巴马"、"黄晓明"，"上海"等）、关键字（"出访"，"大国"，"婚礼"等）。
[0051]上述内容是一个完整的热门事件，其中：
[0052] · title:热门事件的标题
[0053] · score:对事件热度的度量
[0054] · alias:同一热门事件的不同标题，方便服务调用方进行检索
[0055] · keywords:热门事件的关键词，可以用来对新闻文档打标签
[0056] · entities:热门事件涉及的命名实体，方便服务调用方全面了解事件发生的地点、人物和机构
[0057] 同时，每个alia、keyword、entity都附带一个得分，这个得分衡量该项的重要性，对于基于本系统进行后续研发系统来说，可以利用该得分计算相应指标。
[0058]本发明的方案由两种路线组成：
[0059] (1)爬取现有热词统计站点的热词，通过聚类、实体抽取、关键字挖掘等步骤，生成一系列的热门话题。本申请这种方法为基于热词爬取的方法。
[0060] (2)在大量新闻文档中抽取n-gram，通过计算n-gram的互信息，条件熵等值，在大量新闻文档中挖掘高频热词，并利用基于时间序列的事件侦测方法，识别新生话题。本申请称这种方法为基于热词生成的方法。
[0061] 一、基于热词爬取的方法
[0062] 首先爬取现有的热词统计站点的热词

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：窦志成;文继荣;江政宝;
技术所有人：中国人民大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。