一种新闻主题分类方法

文档序号:6518465阅读:1071来源:国知局
一种新闻主题分类方法
【专利摘要】本发明公开了一种新闻主题分类方法,其特征在于,包括如下步骤:步骤一:根据新闻的主题类别建立种子词典;步骤二:对新闻的标题进行分词处理,提取标题关键词;步骤三:通过多个基于互联网的搜索引擎服务器对所述标题关键词进行元搜索;步骤四:在元搜索的结果中对所述种子关键词进行频次统计;步骤五:根据元搜索的结果中种子关键词出现的频次判定新闻最终的主题类别。本发明的一种新闻主题分类方法可以大大缩短分类时间,有效降低人工成本,且对历史数据不产生依赖性,整个分类过程所用的时间更短,分类结果也更加可靠,可以对新闻进行多类分类,在实际情形中更具通用性。
【专利说明】一种新闻主题分类方法
【技术领域】
[0001]本发明涉及一种新闻主题分类方法,具体涉及一种利用计算机技术对互联网上的新闻进行主题分类的方法,本发明属于计算机【技术领域】。
【背景技术】
[0002]随着现代科学技术的进步以及互联网技术的高速发展,互联网上的信息资源在不断地呈爆炸性增长。如何从这些海量的资源中快速精准地获取所需要的信息已成为互联网用户所关心的一个亟待解决的问题。同时,该问题也成为信息处理领域的一大挑战性课题。为了能够有效地组织和管理海量电子信息,使用户能够快速方便地获取所需要的资源,研究者提出了文本检索、文本分类、主题概念识别等多种信息组织和处理技术。在上述技术中,人工智能领域中的文本自动分类技术已经在多个领域得到了广泛应用,并取得了显著的成果。
[0003]文本自动分类是人工智能和自然语言处理领域中的一个重要研究方向,其主要思想是在指定的分类体系下,计算机根据文本的内容来自动判定所属类别。该技术可以弥补传统搜索引擎技术的不足,过滤用户不需要的信息,方便用户快速精确地查找所需要的内容。本发明涉及一种新的文本自动分类方法,主要目标是对互联网上发表的新闻进行快速精确地主题分类。
[0004]新闻主题分类是根据所设定的主题类别对新闻进行文本自动分类的过程。新闻的主题即是最终分类的类别。新闻主题分类在互联网诸多的门户网站上得到了广泛地应用,例如,大型新闻门户网站新浪网上的新闻被划分为社会、军事、体育、娱乐等主题类别。
[0005]目前,已有的主题分类技术主要集中于人工标注和机器学习两种方法。人工标注方法主要是借助于人工的分类经验对新闻进行手动主题类别标注。该类方法的优点是可以获得较高的分类准确率,缺点是时间代价和人工成本太高。机器学习方法是利用人工智能领域中的机器学习算法对已标注主题类别的新闻内容进行学习和训练,建立相应的分类模型,进而利用模型实现计算机自动主题分类。该类方法可以有效地降低时间代价和人工成本,但精确性往往受限于所选择的机器学习算法的适用性和所使用的历史数据的质量。此夕卜,该类方法需要计算机从历史数据中进行知识学习和训练,如果所使用的历史数据规模较大,则需要花费很高的时间代价进行学习和训练,而如果所使用的历史数据规模较小,则所建立的分类模型的精确性会大打折扣。如何在分类时间和分类准确率之间进行有效权衡,是现有技术亟需解决的技术问题。

【发明内容】

[0006]为解决现有技术的不足,本发明的目的在于提供一种新闻主题分类方法。
[0007]为了实现上述目标,本发明采用如下的技术方案:
[0008]一种新闻主题分类方法,其特征在于,包括如下步骤:
[0009]步骤一:根据新闻的主题类别建立种子词典,所述种子词典中包括主题类别和种子关键词,一个种子关键词对应一个主题类别,每个主题类别对应有多个种子关键词;
[0010]步骤二:对新闻的标题进行分词处理,提取标题关键词;
[0011]步骤三:通过多个基于互联网的搜索引擎服务器对所述标题关键词进行元搜索;
[0012]步骤四:在元搜索的结果中对所述种子关键词进行频次统计;
[0013]步骤五:根据元搜索的结果中种子关键词出现的频次判定新闻最终的主题类别。
[0014]前述的一种新闻主题分类方法,其特征在于,所述步骤二包括:提取新闻标题中字符个数大于I的词元作为标题关键词。
[0015]前述的一种新闻主题分类方法,其特征在于,所述步骤三包括:
[0016]步骤3a:根据搜索引擎的字符编码对查询关键词进行编码处理;
[0017]步骤3b:拼接向搜索引擎服务器提交的请求URL ;
[0018]步骤3c:向搜索引擎服务器提交URL请求并返回搜索结果;
[0019]步骤3d:合并多个搜索引擎返回的搜索结果,以作为元搜索的结果。
[0020]前述的一种新闻主题分类方法,其特征在于,所述步骤3c包括:利用编程语言提供的网络通讯工具包向搜索引擎服务器提交URL请求并返回搜索结果。
[0021]前述的一种新闻主题分类方法,其特征在于,所述步骤五包括:
[0022]步骤5a:对于任意一个主题类别,先计算所述主题类别对应的每个种子关键词在元搜索的结果中出现的频次,然后统计所述主题类别对应的所有种子关键词在元搜索的结果中出现的总频次,将所述主题类别对应的所有种子关键词在元搜索的结果中出现的总频次作为所述主题类别在元搜索的结果中出现的频次;
[0023]步骤5b:重复步骤5a,直到得到每一个主题类别在元搜索的结果中出现的频次;
[0024]步骤5c:如果所述元搜索的结果中存在一个出现频次最多的主题类别,则判定所述出现频次最多的主题类别作为新闻最终的主题类别;如果所述元搜索的结果中存在多个频次并列最多的主题类别,则将所述频次并列最多的主题类别均作为新闻最终的主题类别。
[0025]本发明的有益之处在于:本发明的一种新闻主题分类方法可以大大缩短分类时间,有效降低人工成本,且对历史数据不产生依赖性,整个分类过程所用的时间更短,分类结果也更加可靠,可以对新闻进行多类分类,在实际情形中更具通用性。
【专利附图】

【附图说明】
[0026]图1是本发明一种新闻主题分类方法的优选流程示意图;
[0027]图2是本发明一种新闻主题分类方法中对新闻标题进行元搜索的流程图。
【具体实施方式】
[0028]以下结合附图和具体实施例对本发明作具体的介绍。
[0029]参照图1所示,本发明一种新闻主题分类方法,包括如下步骤:
[0030]步骤一:根据新闻的主题类别建立种子词典,种子词典中包括主题类别和种子关键词,一个种子关键词对应一个主题类别,每个主题类别对应有多个种子关键词;
[0031]步骤二:对新闻的标题进行分词处理,提取标题关键词;
[0032]步骤三:通过多个基于互联网的搜索引擎服务器对标题关键词进行元搜索;[0033]步骤四:在元搜索的结果中对种子关键词进行频次统计;
[0034]步骤五:根据元搜索的结果中种子关键词出现的频次判定新闻最终的主题类别。
[0035]如图1所示,本发明首先根据新闻的主题类别筛选一些能代表主题类别的种子关键词,并根据种子关键词与主题类别之间的对应关系建立种子词典。接着,读取新闻标题,并对其进行中文分词,优选提取新闻标题中字符个数大于I的词元作为标题关键词。将标题关键词作为查询关键词并利用计算机自动采集技术从多个搜索引擎进行信息搜索,返回合并各搜索引擎的搜索结果。对于每个主题类别分别统计其对应种子关键词在搜索结果中出现的频次,选择种子关键词出现总频次最高的主题类别为新闻最终的主题类别。
[0036]本发明中,筛选种子关键词遵循的主要原则是筛选的种子关键词既需要有代表性又需要有很好的区分能力,例如,“社会”主题的种子关键词可以是:民生、民情、案件、城管、拖欠、农民工、干旱、贪污、拆迁、上访、罢工...;“财经”主题的种子关键词可以是:投资、理财、银行、基金、股市、财富、商业、贸易...;“体育”主题的种子关键词可以是:英超、意甲、运动员、国家队、中锋、后卫、世界杯...,其它主题类别的种子关键词的筛选与此类似,可以根据人工分类经验进行有效设定。在筛选出种子关键词之后,可以建立起关键词与主题类别之间的对应关系(种子词典),一个种子关键词对应一个主题类别,每个主题类别对应有多个种子关键词。
[0037]本发明中,对新闻的标题进行中文分词处理是将新闻的标题中连续的字序列按照一定的规范重新组合成词序列的过程,例如,对“南京城管沉默执法逼退小摊贩引网友热议”这个标题进行中文分词处理,可以得到如下词元列表:南京、城管、沉默、执法、逼退、小摊贩、引、网友、热议。取所含字符个数大于I的词元作为标题关键词以用于后续的元搜索。形式如下表一的一种种子词典所不:
[0038]表一:一种种子词典
·[0039]
【权利要求】
1.一种新闻主题分类方法,其特征在于,包括如下步骤: 步骤一:根据新闻的主题类别建立种子词典,所述种子词典中包括主题类别和种子关键词,一个种子关键词对应一个主题类别,每个主题类别对应有多个种子关键词; 步骤二:对新闻的标题进行分词处理,提取标题关键词; 步骤三:通过多个基于互联网的搜索引擎服务器对所述标题关键词进行元搜索; 步骤四:在元搜索的结果中对所述种子关键词进行频次统计; 步骤五:根据元搜索的结果中种子关键词出现的频次判定新闻最终的主题类别。
2.根据权利要求1所述的一种新闻主题分类方法,其特征在于,所述步骤二包括:提取新闻标题中字符个数大于I的词元作为标题关键词。
3.根据权利要求2所述的一种新闻主题分类方法,其特征在于,所述步骤三包括: 步骤3a:根据搜索引擎的字符编码对查询关键词进行编码处理; 步骤3b:拼接向搜索引擎服务器提交的请求URL ; 步骤3c:向搜索引擎服务器提交URL请求并返回搜索结果; 步骤3d:合并多个搜索引擎返回的搜索结果,以作为元搜索的结果。
4.根据权利要求3所述的一种新闻主题分类方法,其特征在于,所述步骤3c包括:利用编程语言提供的网络通讯工具包向搜索引擎服务器提交URL请求并返回搜索结果。
5.根据权利要求4所述的一种新闻主题分类方法,其特征在于,所述步骤五包括: 步骤5a:对于任意一个主题类别,先计算所述主题类别对应的每个种子关键词在元搜索的结果中出现的频次,然后统计所述主题类别对应的所有种子关键词在元搜索的结果中出现的总频次,将所述主题类别对应的所有种子关键词在元搜索的结果中出现的总频次作为所述主题类别在元搜索的结果中出现的频次; 步骤5b:重复步骤5a,直到得到每一个主题类别在元搜索的结果中出现的频次; 步骤5c:如果所述元搜索的结果中存在一个出现频次最多的主题类别,则判定所述出现频次最多的主题类别作为新闻最终的主题类别;如果所述元搜索的结果中存在多个频次并列最多的主题类别,则将所述频次并列最多的主题类别均作为新闻最终的主题类别。
【文档编号】G06F17/30GK103577587SQ201310554729
【公开日】2014年2月12日 申请日期:2013年11月8日 优先权日:2013年11月8日
【发明者】欧吉顺, 周楚新, 张伟 申请人:南京绿色科技研究院有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1