一种基于网站的中文新闻信息多维度分类制作方法与流程

文档序号:12863914阅读:523来源:国知局

本发明涉及基于网站的信息分类方法,具体涉及一种基于网站的中文新闻信息多维度分类制作方法。



背景技术:

新闻是“对新近发生的事实的报道”。新闻使用简练的文字概括了丰富的信息并频繁更新,且通过公开媒体传播时代,丰富了新闻的来源,加速了新闻的传播。但面对爆炸式增长且杂乱无序的新闻,用户获取所需信息的难度增加,因此,迫切地需要对新闻进行有效的信息组织。

在2017年4月19日上午在京召开网络安全和信息化工作座谈会,强调按照创新、协调、绿色、开放、共享的发展理念推动我国经济社会发展,是当前和今后一个时期我国发展的总要求和大趋势,我国网信事业发展要适应这个大趋势,在践行新发展理念上先行一步,推进网络强国建设,推动我国网信事业发展,让互联网更好造福国家和人民。

加强网络信息引导和管理,规范公众舆论参与,是提升政府网络执政能力的必要措施。新媒体时代政府信息公开具有两种方式:一是公告,二是根据申请要求实行信息公开。同时,应从创新舆情引导机制,提升政府舆论监督能力;加强网络执政能力,有效进行网络舆情引导;提升舆情危机的应急处理能力等三个方面着手,不断强化网络舆情的正面引导,才能形成系统、科学、有效的网络舆情引导机制。

信息是市场经济的一大支撑。现今社会离不开新闻。但是现今政府新媒体,社会商业媒体的中文新闻信息存在以下的缺陷和不足:

1、缺乏通用的标准语料和评价方法:国内没有统一的新闻分类标准。现有的一些中文新闻语料库,如搜狗的中文新闻语料库、中国科学院自动化研究所的中文新闻分类语料库,所采用的分类体系都过于简单,不利于新闻自动分类的研究。而且在新闻重要性的评价方法上,也还需要探索适用于中文的评价方法。

2、新闻噪声影响新闻分类质量:网络新闻的真实性不足,常有新闻标题与正文不一、正文前后表述不一、标题娱乐媚俗、夸张报道。对失真的新闻做文本分类,文本表示环节会明显受到干扰,进而导致分类结果不具有实际意义,如一些新闻文不对题,在分类过程中会由于标题权重较高导致分类结果受影响,还于一些报道过于夸张,使得情感特征词的情感倾向被夸大,进而影响情感分类的结果。

3、分类体系过于简单,不利于深度分析:当前网络新闻分类研究中的分类体系过于简单,多采取人为选定类别的方法,选定的分类体系类目少、层次少、类目间区分度大,趋于理想化。这与复杂的实际应用环境相背离。现实中,随着待分类新闻的数量增加,新闻的相似度增加,粗分类已不能满足用户需求,需要依赖更为科学的分类体系。

4、分类维度太过单一:当前网络新闻的分类多是从主题维度进行的。对于海量的新闻内容,应该提供多人口,实现分类的多维化。目前,已有从时间维度进行话题跟踪、从情感维度进行情感倾向性分析、从地理位置维度进行分类的研究,但综合多个维度的研究仍少之又少,这是未来的一个研究方向。

5、新闻专题平面化,缺乏深度:用户对于主题或事件的全方位认知需求推动了网络新闻专题的发展。新闻专题应该是一种深度报道,但是当前较多专题质量不高,通常只是相关信息的简单罗列堆积,虽然实现了信息的集成,却忽视了信息间的层次关系,缺少条理性和逻辑性,也缺乏系统性的梳理、归纳和总结,给用户冗余、杂乱的感觉。

6、没有进行组合分析:一个新闻不一定仅仅涉及到单一的方面,有可能涉及多方面。

情感包括喜爱,敬佩,高兴,欣喜,惊讶,同情,反思,忧伤,哀痛,痛恨,悲伤,反省,恐惧,厌恶,愤怒等情感。情感是人最难控制的,分析的东西,需要用别的东西去形象化它。



技术实现要素:

本发明的目的是针对上述问题,提供一种基于网站的中文新闻信息多维度分类制作方法,从多维度将新闻信息进行细化的分类,归类清晰,便于新闻信息后续的查找和深入分析。

本发明的技术方案是这样实现的,一种基于网站的中文新闻信息多维度分类方法,其特征在于,其方法步骤为:

a.分析新闻分类;

b.定义五个分类级别:

(1)第一分类级别为事件涉及的地域范围:国际范围,国家范围,省份范围,市区范围,群体范围,个人范围;

(2)第二分类级别为新闻信息的来源涉及的人群职业:百姓,学生,父母,明星,工人,务工人员,商家,军人,官员,老师,农民,黑社会,闲散人员;

(3)第三分类级别为事件涉及的大范围的客观分类,具体为:

政治

法律、司法

对外关系、国际关系

军事

社会、劳动、民生

灾难、事故

经济

财政、金融

金钱

基本建设、建筑业、房地产

农村、农业

矿业、工业

能源、水务、水利

电子信息产业

交通运输、邮政、物流

商业、外贸、海关

服务业、旅游业

环境、气象

伦理、情感

教育

科学技术

文化、休闲娱乐

文学、艺术

传媒

医药、卫生

体育;

(4)第四分类级别为受众情感分析分类:喜爱,敬佩,高兴,欣喜,惊讶,同情,反思,忧伤,哀痛,痛恨,悲伤,反省,恐惧,厌恶,愤怒;

(5)第五分类级别为事件的阶段分类:开始事件,进行事件,结果事件,特殊事件;

c.根据上述的需求用html和css设计出结构的相应的页面,使用javascript增加页面的动态效果;

d.设计相应的数据库的表,把新闻的信息、关联、上述五个分类存在表中;

e.使用java编写函数来处理业务;

f.使用jsp让html&css、数据库、java产生关联,并呈现在客户端;

g.编辑者根据以上五种分类级别分类;

h.分类完成,在管理端发布新闻。

本发明的有益效果是:本发明从多维度将新闻信息进行细化的分类,归类清晰,便于新闻信息后续的查找和深入分析,便于进一步进行大数据收集,并进行基础分配完善,可以更形象直接的表示一个新闻的重要性、矛盾性。

具体实施方式

下面结合实施例对本发明做进一步描述:

本发明共将新闻分成了五类:

第一级按地域分,对应编码如下表所示(单选):

第二级按职业分,且每个类都是第一类的子类,对应编码如下表所示:

第三级按客观分,且每个类都是第二类的子类,对应编码如下表所示:(单选)

第四级按情感分,且每个类都是第三类的子类,对应编码如下表所示:(单选)

每一种情感都是不可描述的,惊讶也有普通的惊讶,十分的惊讶。

高兴也有普通的替别人感到高兴,普通的替自己高兴。

第五级按事件的阶段分,对应编码如下表所示:(单选)

因此,一个新闻按照上述的分类,可以得出该新闻的分类代码。举例如下:

一个新闻为“我国领导人开展一带一路,各国领导人积极参与”,这个事件已经有结果,分类为:

国际-领导人-政治-(十分)高兴,对应的编码为000.001.001.00a.003。

再如某市幼奸案,被微博曝光的时候,是个市级事件,涉及官员幼奸(法律),孩子被幼奸(灾害),黑社会协助官员幼奸(金钱),学校确查管理正在进行阶段(教育),父母受到了伤害,悲痛欲绝(伦理,情感)。

涉及官员幼奸(法律):对应的编码为003.009.002.02a.001;

孩子或者学生,被幼奸:对应的编码为003.002.006.02a.001;

黑社会因为钱而协助犯罪:对应的编码为003.012.009.02a.001;

学校确查管理正在进行阶段(教育):对应的编码为003.000.020.02c.001;

父母受到了伤害,悲痛欲绝(伦理,情感):003.003.006.02a.001。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1