一种文本内容敏感性分析方法和装置的制造方法

文档序号:9616248阅读:450来源:国知局
一种文本内容敏感性分析方法和装置的制造方法
【技术领域】
[0001] 本发明涉及文本信息处理技术领域,更具体地说,涉及一种文本内容敏感性分析 方法和装置。
【背景技术】
[0002] 通过新闻门户网站获取网络新闻信息已成为人们日常获取信息的主要方式。新闻 门户网站上发表的每一条新闻主要通过原创发表、转载等方式进行发布。
[0003] 为保证新闻门户网站发出的新闻稿件质量,在新闻稿件被发布前,需要编辑者对 待发布的新闻稿件的敏感度进行审核。如果审核的新闻稿件的敏感度较低,即可直接发布, 如果审核的新闻稿件的敏感度较高,则需要编辑者重新编辑后再进行发布。
[0004] 而在信息发展如此迅速的今天,通过人工审核待发布的新闻稿件的敏感度来决定 新闻稿件是否能够发布,无疑增加了大量的人力资源,且效率低下。

【发明内容】

[0005] 有鉴于此,本发明提供一种文本内容敏感性分析方法和装置,以解决现有技术中 需要人工审核待发布的新闻稿件的敏感度导致的增加了大量的人力资源,效率低下的问 题。技术方案如下:
[0006] 基于本发明的一方面,本发明提供一种文本内容敏感性分析方法,预先对每个敏 感词进行敏感度标注;所述方法包括:
[0007] 获取当前待审核的文本内容;
[0008] 对所述文本内容进行分词处理,得到一字词组,所述字词组包括至少一个字词;
[0009] 从所述得到的字词组中查找敏感词;
[0010] 当查找到敏感词时,将所述查找到的敏感词进行标记,记录所述敏感词的首字在 字词组长度中的位置;所述字词组长度为所述字词组中所有文字的个数;
[0011] 依据所述文本内容允许的最高敏感度等级X,将所述字词组长度划分为N个分区 间,N= 2x;N、X均为正整数;
[0012] 利用公式
,计算每一分区间的敏感度p1;其中i为小于等于 N的正整整,用于表示第i个分区间,es_th为熵的平滑系数,es_th大于0,用于避免当分区 间中没有敏感词时Pl等于〇,Μ为分区间中敏感词的个数,为敏感词的首字在第i个 分区间中的敏感词的敏感度;
[0013] 利用公另
b计算所述文本内容的敏感度E。
[0014] 优选地,所述对所述文本内容进行分词处理,得到一字词组后,所述方法还包括:
[0015] 去除分词处理后得到的字词组中的停用词。
[0016] 优选地,所述从所述得到的字词组中查找敏感词包括:
[0017] 将所述字词组中的字词逐个与敏感词词典中的字词进行比对;所述敏感词词典用 于存储敏感词。
[0018] 优选地,所述文本内容允许的最高敏感度等级X等于5。
[0019] 基于本发明的另一方面,本发明还提供一种文本内容敏感性分析装置,包括:
[0020] 敏感度标注单元,用于对每个敏感词进行敏感度标注;
[0021] 获取单元,用于获取当前待审核的文本内容;
[0022] 分词处理单元,用于对所述文本内容进行分词处理,得到一字词组,所述字词组包 括至少一个字词;
[0023] 查找单元,用于从所述得到的字词组中查找敏感词;
[0024] 标记记录单元,用于当所述查找单元查找到敏感词时,将所述查找到的敏感词进 行标记,记录所述敏感词的首字在字词组长度中的位置;所述字词组长度为所述字词组中 所有文字的个数;
[0025] 分区间划分单元,用于依据所述文本内容允许的最高敏感度等级X,将所述字词组 长度划分为N个分区间,N= 2X;N、X均为正整数;
[0026] 第一计算单元,用于利用公3
汁算每一分区间的敏感度 p1;其中i为小于等于N的正整整,用于表示第i个分区间,es_th为熵的平滑系数,es_th 大于〇,用于避免当分区间中没有敏感词时Pl等于〇,Μ为分区间中敏感词的个数,为 敏感词的首字在第i个分区间中的敏感词的敏感度;
[0027] 第二计算单元,用于利用公¥
^计算所述文 本内容的敏感度E。
[0028] 优选地,还包括:
[0029] 停用词处理单元,用于去除分词处理后得到的字词组中的停用词。
[0030] 优选地,所述查找单元具体用于,将所述字词组中的字词逐个与敏感词词典中的 字词进行比对;所述敏感词词典用于存储敏感词。
[0031] 优选地,所述文本内容允许的最高敏感度等级X等于5。
[0032] 应用本发明的上述技术方案,本发明提供的文本内容敏感性分析方法中,预先对 每个敏感词进行敏感度标注,方法具体包括:获取当前待审核的文本内容;对所述文本内 容进行分词处理,得到一字词组,所述字词组包括至少一个字词;从所述得到的字词组中查 找敏感词;当查找到敏感词时,将所述查找到的敏感词进行标记,记录所述敏感词的首字在 字词组长度中的位置;所述字词组长度为所述字词组中所有汉字的个数;
[0033] 依据所述文本内容允许的最高敏感度等级X,将所述字词组长度划分为N个分区 间,N= 2x;N、X均为正整数;
[0034] 利用公¥
:计算每一分区间的敏感度p1;其中i为小于等于 N的正整整,用于表示第i个分区间,es_th为熵的平滑系数,es_th大于0,用于避免当分区 间中没有敏感词时Pl等于〇,Μ为分区间中敏感词的个数,为敏感词的首字在第i个 分区间中的敏感词的敏感度;
[0035] 最后利用公¥
Η十算文本内容的敏感度E。
[0036] 因此,本发明实现了发稿系统自动分析文本内容的敏感度的功能,当发稿系统分 析得到待发布的文本内容的敏感度较低时,则直接发布该文本内容,当发稿系统分析得到 待发布的文本内容的敏感度较高时,则将其转发至编辑者的处理处或标注出来,由编辑者 做进一步审核编辑工作。因此本发明无需编辑者对所有待发布的文本内容进行敏感性分 析,大大减少了编辑者的工作量,减少了大量的人力资源,且发稿系统自动化的处理功能 大大提高了稿件的发布效率。
【附图说明】
[0037] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 提供的附图获得其他的附图。
[0038] 图1为本发明提供的一种文本内容敏感性分析方法的流程图;
[0039] 图2为本发明提供的一种文本内容敏感性分析方法的另一流程图;
[0040] 图3为本发明提供的一种文本内容敏感性分析装置的结构示意图;
[0041] 图4为本发明提供的一种文本内容敏感性分析装置的另一结构示意图。
【具体实施方式】
[0042] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1