一种文本内容敏感性分析方法和装置的制造方法

文档序号：9616248阅读：450来源：国知局

一种文本内容敏感性分析方法和装置的制造方法
【技术领域】
[0001] 本发明涉及文本信息处理技术领域，更具体地说，涉及一种文本内容敏感性分析方法和装置。
【背景技术】
[0002] 通过新闻门户网站获取网络新闻信息已成为人们日常获取信息的主要方式。新闻门户网站上发表的每一条新闻主要通过原创发表、转载等方式进行发布。
[0003] 为保证新闻门户网站发出的新闻稿件质量，在新闻稿件被发布前，需要编辑者对待发布的新闻稿件的敏感度进行审核。如果审核的新闻稿件的敏感度较低，即可直接发布，如果审核的新闻稿件的敏感度较高，则需要编辑者重新编辑后再进行发布。
[0004] 而在信息发展如此迅速的今天，通过人工审核待发布的新闻稿件的敏感度来决定新闻稿件是否能够发布，无疑增加了大量的人力资源，且效率低下。

【发明内容】

[0005] 有鉴于此，本发明提供一种文本内容敏感性分析方法和装置，以解决现有技术中需要人工审核待发布的新闻稿件的敏感度导致的增加了大量的人力资源，效率低下的问题。技术方案如下：
[0006] 基于本发明的一方面，本发明提供一种文本内容敏感性分析方法，预先对每个敏感词进行敏感度标注；所述方法包括：
[0007] 获取当前待审核的文本内容；
[0008] 对所述文本内容进行分词处理，得到一字词组，所述字词组包括至少一个字词；
[0009] 从所述得到的字词组中查找敏感词；
[0010] 当查找到敏感词时，将所述查找到的敏感词进行标记，记录所述敏感词的首字在字词组长度中的位置；所述字词组长度为所述字词组中所有文字的个数；
[0011] 依据所述文本内容允许的最高敏感度等级X，将所述字词组长度划分为N个分区间，N= 2x;N、X均为正整数；
[0012] 利用公式
，计算每一分区间的敏感度p1;其中i为小于等于 N的正整整，用于表示第i个分区间，es_th为熵的平滑系数，es_th大于0,用于避免当分区间中没有敏感词时Pl等于〇,Μ为分区间中敏感词的个数，为敏感词的首字在第i个分区间中的敏感词的敏感度；
[0013] 利用公另
b计算所述文本内容的敏感度E。
[0014] 优选地，所述对所述文本内容进行分词处理，得到一字词组后，所述方法还包括：
[0015] 去除分词处理后得到的字词组中的停用词。
[0016] 优选地，所述从所述得到的字词组中查找敏感词包括：
[0017] 将所述字词组中的字词逐个与敏感词词典中的字词进行比对；所述敏感词词典用于存储敏感词。
[0018] 优选地，所述文本内容允许的最高敏感度等级X等于5。
[0019] 基于本发明的另一方面，本发明还提供一种文本内容敏感性分析装置，包括：
[0020] 敏感度标注单元，用于对每个敏感词进行敏感度标注；
[0021] 获取单元，用于获取当前待审核的文本内容；
[0022] 分词处理单元，用于对所述文本内容进行分词处理，得到一字词组，所述字词组包括至少一个字词；
[0023] 查找单元，用于从所述得到的字词组中查找敏感词；
[0024] 标记记录单元，用于当所述查找单元查找到敏感词时，将所述查找到的敏感词进行标记，记录所述敏感词的首字在字词组长度中的位置；所述字词组长度为所述字词组中所有文字的个数；
[0025] 分区间划分单元，用于依据所述文本内容允许的最高敏感度等级X，将所述字词组长度划分为N个分区间，N= 2X;N、X均为正整数；
[0026] 第一计算单元，用于利用公3
汁算每一分区间的敏感度 p1;其中i为小于等于N的正整整，用于表示第i个分区间，es_th为熵的平滑系数，es_th 大于〇,用于避免当分区间中没有敏感词时Pl等于〇,Μ为分区间中敏感词的个数，为敏感词的首字在第i个分区间中的敏感词的敏感度；
[0027] 第二计算单元，用于利用公￥
^计算所述文本内容的敏感度E。
[0028] 优选地，还包括：
[0029] 停用词处理单元，用于去除分词处理后得到的字词组中的停用词。
[0030] 优选地，所述查找单元具体用于，将所述字词组中的字词逐个与敏感词词典中的字词进行比对；所述敏感词词典用于存储敏感词。
[0031] 优选地，所述文本内容允许的最高敏感度等级X等于5。
[0032] 应用本发明的上述技术方案，本发明提供的文本内容敏感性分析方法中，预先对每个敏感词进行敏感度标注，方法具体包括：获取当前待审核的文本内容；对所述文本内容进行分词处理，得到一字词组，所述字词组包括至少一个字词；从所述得到的字词组中查找敏感词；当查找到敏感词时，将所述查找到的敏感词进行标记，记录所述敏感词的首字在字词组长度中的位置；所述字词组长度为所述字词组中所有汉字的个数；
[0033] 依据所述文本内容允许的最高敏感度等级X，将所述字词组长度划分为N个分区间，N= 2x;N、X均为正整数；
[0034] 利用公￥
:计算每一分区间的敏感度p1;其中i为小于等于 N的正整整，用于表示第i个分区间，es_th为熵的平滑系数，es_th大于0,用于避免当分区间中没有敏感词时Pl等于〇,Μ为分区间中敏感词的个数，为敏感词的首字在第i个分区间中的敏感词的敏感度；
[0035] 最后利用公￥
Η十算文本内容的敏感度E。
[0036] 因此，本发明实现了发稿系统自动分析文本内容的敏感度的功能，当发稿系统分析得到待发布的文本内容的敏感度较低时，则直接发布该文本内容，当发稿系统分析得到待发布的文本内容的敏感度较高时，则将其转发至编辑者的处理处或标注出来，由编辑者做进一步审核编辑工作。因此本发明无需编辑者对所有待发布的文本内容进行敏感性分析，大大减少了编辑者的工作量，减少了大量的人力资源，且发稿系统自动化的处理功能大大提高了稿件的发布效率。
【附图说明】
[0037] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
[0038] 图1为本发明提供的一种文本内容敏感性分析方法的流程图；
[0039] 图2为本发明提供的一种文本内容敏感性分析方法的另一流程图；
[0040] 图3为本发明提供的一种文本内容敏感性分析装置的结构示意图；
[0041] 图4为本发明提供的一种文本内容敏感性分析装置的另一结构示意图。
【具体实施方式】
[0042] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：秦玉芳;
技术所有人：新华网股份有限公司;
我是此专利的发明人

上一篇：中文姓名的识别方法和装置的制造方法
上一篇：一种省略恢复方法及问答系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。