一种新闻热点的发现方法与流程

文档序号:11829965阅读:来源:国知局

技术特征:

1.一种新闻热点的发现方法,其特征在于,包括:

a、采集互联网中与新闻相关且已知是否为热点的原始数据,所述原始数据的条数大于一百万,设置迭代次数n为1,对关键指标库进行初始化;

b、从所述原始数据中筛选出具有中立性且无偏向的数据;对所筛选出的数据进行结构化和去噪处理,并按照预设的分组比例对所述处理后的数据进行分组,得到一组样本数据和一组测试数据;

c、根据所述样本数据、所述关键指标库和第n-1次迭代时确定出的最优混合聚类模型,确定本次迭代的混合聚类模型并进行评分;

d、利用所述测试数据,对所述混合聚类模型进行验证,如果验证通过,则将所述混合聚类模型作为用于发现热点的混合聚类模型,否则,从前n次迭代中获得的所有混合聚类模型中选择出分值最高的模型,作为当前的最优混合聚类模型,利用在所述评分过程中确定出的热点数据的属性,更新当前的所述关键指标库;并将迭代次数n加1,执行步骤c;

e、采集新的新闻数据,并利用所述用于发现热点的混合聚类模型,从中识别出热点新闻数据。

2.根据权利要求1所述的方法,其特征在于,步骤a中根据预先获取的专家经验数据对关键指标库进行初始化。

3.根据权利要求1所述的方法,其特征在于,步骤b中所述筛选包括:

根据预设的属性对所述原始数据进行分类,将所述分类后的数据与预设的校对数据进行比较,确定出所述具有中立性且无偏向的数据。

4.根据权利要求1所述的方法,其特征在于,步骤b中所述结构化和去噪处理包括:

按照预设的聚合模型,对所述筛选出的数据进行清洗转换处理,得到相应的聚合数据;

对所述聚合数据进行去噪处理,并按照所述分组比例对所述去噪处理后的数据进行分组,得到所述样本数据组和测试数据组。

5.根据权利要求1所述的方法,其特征在于,所述关键指标库中的信息包括:热点指标以及每个热点指标的取值。

6.根据权利要求1所述的方法,其特征在于,所述分组比例为样本数据与测试数据的比值,所述分组比例大于1。

7.根据权利要求1所述的方法,其特征在于,步骤c中所述确定本次迭代的混合聚类模型并进行评分包括:

根据所述关键指标库,对所述样本数据进行Canopy聚类,并对所述Canopy聚类结果进行K均值KMeans精细化聚类,得到相应的聚类模型;

根据所述关键指标库,利用迭代二叉树3代ID3算法和决策树C4.5算法C45对所述样本数据进行处理,得到相应的预测模型;

根据所述关键指标库,对所述样本数据进行打标签和切词后,利用支持向量机SVM算法,生成相应的情感分析模型;

对于每个所述模型,利用所述样本数据对该模型进行验证,并根据该验证结果确定第n次迭代中该模型的混合得分值;

按照wn=xn·a+yn·b+zn·c,确定第n次迭代的混合聚类模型Wn和该混合聚类模型的得分值wn,其中,xn为所述聚类模型在第n次迭代的所述混合得分值,a为预设的聚类模型的混合权重,yn为所述预测模型在第n次迭代的所述混合得分值,b为预设的预测模型的混合权重,zn为所述情感分析模型在第n次迭代的所述混合得分值,c为预设的情感分析模型的混合权重,a+b+c=1。

8.根据权利要求7所述的方法,其特征在于,步骤c中所述对于每个所述模型,利用所述样本数据对该模型进行验证,并根据该验证结果确定第n次迭代中该模型的混合得分值包括:

对于每个所述模型,利用该模型判断每条所述测试数据是否为热点数据,并确定该判断的正确性,根据该模型对所有所述测试数据进行判断的准确率,确定第n次迭代中该模型的混合得分值。

9.根据权利要求7所述的方法,其特征在于,步骤d中所述验证包括:

对于每条所述测试数据,利用本次迭代得到的所述混合聚类模型,判断该测试数据是否为热点数据;并确定该判断结果是否正确;

如果所有所述测试数据对应的所述判断结果均正确,则确定所述验证通过,否则,确定所述验证不通过。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1