维吾尔语敏感词过滤系统的制作方法

文档序号:6640250阅读:316来源:国知局
维吾尔语敏感词过滤系统的制作方法
【专利摘要】本发明提供一种维吾尔语敏感词过滤系统,包括:维吾尔语敏感词数据库、维吾尔语文本动态采集系统、维吾尔语敏感词校对系统、阈值判断模块、维吾尔语敏感词过滤系统、维吾尔语敏感词替换系统、后台显示模块、人工审核模块和推送显示模块。本发明提供的维吾尔语敏感词过滤系统,实现了通信及移动互联网终端平台以及企业级应用中维吾尔语敏感词过滤,从而高效率的防止非法内容散播,减轻系统管理员负担,减少敏感词过滤遗漏,增加系统的健壮性和可靠性。
【专利说明】维吾尔语敏感词过滤系统

【技术领域】
[0001] 本发明属于通信及移动互联网【技术领域】,具体设及一种维吾尔语敏感词过滤系 统。

【背景技术】
[0002] 随着互联网的飞速发展,各个社交网站由于具有内容丰富、互动性强、实时性强等 优点,已成为人们沟通的主要交流方式之一。对于维吾尔语社交网站,其影响也影响范围越 来越大。
[0003] 然而,维吾尔语社交网站在为人们带来便利的同时,由于不具备敏感词过滤功能, 因此,不可避免地会传播一些不良内容,由此损害公众利益。


【发明内容】

[0004] 针对现有技术存在的缺陷,本发明提供一种维吾尔语敏感词过滤系统,支持对维 吾尔语社交网站进行内容过滤,从而有效解决上述问题。
[0005] 本发明采用的技术方案如下:
[0006] 本发明提供一种维吾尔语敏感词过滤系统,包括:
[0007] 维吾尔语敏感词数据库,用于收集和汇编维吾尔语敏感词,同时,对于存储的每个 所述维吾尔语敏感词,均绑定存储所述维吾尔语敏感词的维吾尔语替换词W及中文译词; [000引维吾尔语文本动态采集系统,用于实时动态采集监测对象的维吾尔语文本;
[0009] 维吾尔语敏感词校对系统,用于对所述维吾尔语文本动态采集系统采集到的所述 维吾尔语文本进行内容校对,基于匹配算法判断所述维吾尔语文本是否包含与所述维吾尔 语敏感词数据库中所存储的维吾尔语敏感词相同或相似的维吾尔语敏感词;如果包含,贝U 直接获取所述维吾尔语文本中包含的维吾尔语敏感词,同时获取与所述维吾尔语文本中包 含的维吾尔语敏感词对应的维吾尔语替换词与中文译词;
[0010] 阔值判断模块,用于对所述维吾尔语敏感词校对系统所得到的所述维吾尔语敏感 词数量进行统计,得到所述维吾尔语敏感词的数量,记为N ; W及,对当前被处理的所述维 吾尔语文本的文本大小进行计算,得到当前被处理的所述维吾尔语文本的文本信息容量 值,记为M ;然后,判断N/M是否大于设定阔值,如果大于,则执行维吾尔语敏感词过滤系统; 如果小于,则执行维吾尔语敏感词替换系统;
[0011] 维吾尔语敏感词过滤系统,用于直接屏蔽过滤掉所述维吾尔语文本;
[0012] 维吾尔语敏感词替换系统,用于在所述维吾尔语文本中,对所述维吾尔语敏感词 校对系统所得到的每个所述维吾尔语敏感词进行替换操作,替换为与所述维吾尔语敏感词 对应的维吾尔语替换词,同时,W替换框的方式突出显示每个所述维吾尔语替换词对应的 维吾尔语敏感词W及中文译词,得到第一次处理后的维吾尔语文本;
[0013] 后台显示模块,用于在后台显示所述第一次处理后的维吾尔语文本;
[0014] 人工审核模块,用于对所述后台显示模块显示的所述第一次处理后的维吾尔语文 本进行人工审核,进一步确认所替换的是否为敏感词,如果是,则接受所述维吾尔语敏感词 替换系统对该维吾尔语敏感词的替换操作,同时,从所述第一次处理后的维吾尔语文本中 取消对应的替换框;如果不是,则拒绝所述维吾尔语敏感词替换系统对该维吾尔语敏感词 的替换操作,依据对应的替换框,还原显示原来的维吾尔语词,同时,从所述第一次处理后 的维吾尔语文本中取消对应的替换框;由此得到第二次处理后的维吾尔语文本;
[0015] 推送显示模块,用于将所述人工审核模块审核后的所述第二次处理后的维吾尔语 文本显示到监测对象的对应位置。
[0016] 优选的,所述维吾尔语敏感词校对系统具体用于:
[0017] 根据所述维吾尔语文本动态采集系统采集到的所述维吾尔语文本的信息容量的 大小,所述维吾尔语敏感词校对系统将所述维吾尔语文本划分为n个单元;
[0018] 然后,所述维吾尔语敏感词校对系统并行启动n个内容校对器,所述n个内容校对 器并行对所述维吾尔语文本的n个单元进行内容校对。
[0019] 优选的,所述维吾尔语敏感词校对系统所采用的所述匹配算法包括;核算法、找算 法或对照拼写校对算法;
[0020] 对于仅支持汉语的匹配算法,在所述仅支持汉语的匹配算法的算法代码中加载维 吾尔文字符U nicode编码组件并声明维吾尔文字符U nicode编码规范;然后,将所述维吾 尔文字符U nicode编码组件与所述维吾尔语敏感词数据库进行对接,实现将所述仅支持汉 语的匹配算法转化为支持维吾尔文的匹配算法。
[0021] 优选的,还包括:
[0022] 数据库管理模块,用于对所述维吾尔语敏感词数据库进行管理维护,包括:
[0023] 备份管理单元,用于对所述维吾尔语敏感词数据库进行定期或非定期备份管理, 包括自动备份和手动备份模式;
[0024] 恢复管理单元,用于当所述维吾尔语敏感词数据库出现故障时,对所述维吾尔语 敏感词数据库进行故障恢复管理操作;
[0025] 版本管理单元,用于对所述维吾尔语敏感词数据库进行版本升级操作。
[0026] 优选的,还包括:
[0027] 敏感词管理模块,用于对所述维吾尔语敏感词数据库中所存储的维吾尔语敏感词 进行管理,包括:
[002引敏感词添加单元,用于向所述维吾尔语敏感词数据库中增加新的维吾尔语敏感 词,其工作流程为:
[0029] 读取需添加的维吾尔语敏感词,同时,还读取与所述维吾尔语敏感词对应的维吾 尔语替换词W及中文译意;
[0030] 捜索所述维吾尔语敏感词数据库,判断所述维吾尔语敏感词数据库是否存储与所 述需添加的维吾尔语敏感词相同的维吾尔语敏感词,如果相同,则忽略本次添加操作,继续 读取并处理下一个需添加的维吾尔语敏感词;如果不相同,则将所述维吾尔语敏感词、维吾 尔语替换词W及中文译意添加到所述维吾尔语敏感词数据库;
[0031] 敏感词编辑单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏 感词、维吾尔语替换词W及中文译意进行编辑操作;
[0032] 敏感词捜索单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏 感词、维吾尔语替换词w及中文译意进行捜索操作;
[0033] 敏感词查看单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏 感词按首字母进行排序,进而查看排序后的所述维吾尔语敏感词。
[0034] 优选的,还包括;管理员管理模块;所述管理员管理模块包括;管理员个人信息修 改单元、管理员权限设置单元W及管理员访问密码设置单元。
[0035] 优选的,还包括;统计管理模块,包括;操作记录统计单元、管理员行为统计单元 W及敏感词统计单元;其中,所述敏感词统计单元用于统计匹配成功的敏感词数量。
[0036] 本发明的有益效果如下;
[0037] 本发明提供的维吾尔语敏感词过滤系统,实现了通信及移动互联网终端平台W及 企业级应用中维吾尔语敏感词过滤,从而高效率的防止非法内容散播,减轻系统管理员负 担,减少敏感词过滤遗漏,增加系统的健壮性和可靠性。

【专利附图】

【附图说明】
[003引图1为本发明提供的维吾尔语敏感词过滤系统的原理结构示意图;
[0039] 图2为本发明提供的维吾尔语敏感词过滤系统的体系架构示意图;
[0040] 图3为敏感词添加单元的工作流程图;
[0041] 图4为敏感词捜索单元的工作流程图。

【具体实施方式】
[0042] W下结合附图对本发明进行详细说明:
[0043] 本发明提供一种维吾尔语敏感词过滤系统,可将其应用于通信及移动互联网环境 中,可高效过滤维吾尔语敏感词,从而防止设及暴力、恐怖、色情、邪教等影响民族团结、国 家统一的非法维吾尔语敏感词的散播。
[0044] 如图1所示,为本发明提供的维吾尔语敏感词过滤系统的原理结构示意图,如图2 所示,为本发明提供的维吾尔语敏感词过滤系统的体系架构示意图,包括:
[0045] 维吾尔语敏感词数据库,用于收集和汇编维吾尔语敏感词,同时,对于存储的每个 所述维吾尔语敏感词,均绑定存储所述维吾尔语敏感词的维吾尔语替换词W及中文译词;
[0046] 维吾尔语文本动态采集系统,用于实时动态采集监测对象的维吾尔语文本;
[0047] 维吾尔语敏感词校对系统,用于对所述维吾尔语文本动态采集系统采集到的所述 维吾尔语文本进行内容校对,基于匹配算法判断所述维吾尔语文本是否包含与所述维吾尔 语敏感词数据库中所存储的维吾尔语敏感词相同或相似的维吾尔语敏感词;如果包含,贝U 直接获取所述维吾尔语文本中包含的维吾尔语敏感词,同时获取与所述维吾尔语文本中包 含的维吾尔语敏感词对应的维吾尔语替换词与中文译词;
[0048] 此处,为提高校对效率,参考图2,可采用多线程并行的运行方式,具体为:
[0049] 根据所述维吾尔语文本动态采集系统采集到的所述维吾尔语文本的信息容量的 大小,所述维吾尔语敏感词校对系统将所述维吾尔语文本划分为n个单元;
[0化0] 然后,所述维吾尔语敏感词校对系统并行启动n个内容校对器,所述n个内容校对 器并行对所述维吾尔语文本的n个单元进行内容校对。
[0化1] 另外,维吾尔语敏感词校对系统所采用的所述匹配算法包括;核算法、找算法或对 照拼写校对算法;
[0052] 对于仅支持汉语的匹配算法,在所述仅支持汉语的匹配算法的算法代码中加载维 吾尔文字符U nicode编码组件并声明维吾尔文字符U nicode编码规范;然后,将所述维吾 尔文字符U nicode编码组件与所述维吾尔语敏感词数据库进行对接,实现将所述仅支持汉 语的匹配算法转化为支持维吾尔文的匹配算法。
[0053] 阔值判断模块,用于对所述维吾尔语敏感词校对系统所得到的所述维吾尔语敏感 词数量进行统计,得到所述维吾尔语敏感词的数量,记为N ; W及,对当前被处理的所述维 吾尔语文本的文本大小进行计算,得到当前被处理的所述维吾尔语文本的文本信息容量 值,记为M ;然后,判断N/M是否大于设定阔值,如果大于,则执行维吾尔语敏感词过滤系统; 如果小于,则执行维吾尔语敏感词替换系统;
[0化4] 维吾尔语敏感词过滤系统,用于直接屏蔽过滤掉所述维吾尔语文本;
[0055] 维吾尔语敏感词替换系统,用于在所述维吾尔语文本中,对所述维吾尔语敏感词 校对系统所得到的每个所述维吾尔语敏感词进行替换操作,替换为与所述维吾尔语敏感词 对应的维吾尔语替换词,同时,W替换框的方式突出显示每个所述维吾尔语替换词对应的 维吾尔语敏感词W及中文译词,得到第一次处理后的维吾尔语文本;
[0056] 后台显示模块,用于在后台显示所述第一次处理后的维吾尔语文本;
[0化7] 人工审核模块,用于对所述后台显示模块显示的所述第一次处理后的维吾尔语文 本进行人工审核,进一步确认所替换的是否为敏感词,如果是,则接受所述维吾尔语敏感词 替换系统对该维吾尔语敏感词的替换操作,同时,从所述第一次处理后的维吾尔语文本中 取消对应的替换框;如果不是,则拒绝所述维吾尔语敏感词替换系统对该维吾尔语敏感词 的替换操作,依据对应的替换框,还原显示原来的维吾尔语词,同时,从所述第一次处理后 的维吾尔语文本中取消对应的替换框;由此得到第二次处理后的维吾尔语文本;
[0化引推送显示模块,用于将所述人工审核模块审核后的所述第二次处理后的维吾尔语 文本显示到监测对象的对应位置。
[0化9] 还包括数据库管理模块、敏感词管理模块、管理员管理模块和统计管理模块:
[0060] (一)数据库管理模块
[0061] 数据库管理模块,用于对所述维吾尔语敏感词数据库进行管理维护,包括:
[0062] 备份管理单元,用于对所述维吾尔语敏感词数据库进行定期或非定期备份管理, 包括自动备份和手动备份模式;
[0063] 通过对维吾尔语敏感词数据库定期自动备份或手动备份,便于数据跟踪和维护, 实现实时性,大大节省时间。
[0064] 恢复管理单元,用于当所述维吾尔语敏感词数据库出现故障时,对所述维吾尔语 敏感词数据库进行故障恢复管理操作;
[00化]版本管理单元,用于对所述维吾尔语敏感词数据库进行版本升级操作。
[0066] (二)敏感词管理模块
[0067] 敏感词管理模块,用于对所述维吾尔语敏感词数据库中所存储的维吾尔语敏感词 进行管理,包括:
[0068] 敏感词添加单元,用于向所述维吾尔语敏感词数据库中增加新的维吾尔语敏感 词,如图3所示,为敏感词添加单元的工作流程图,包括:
[0069] 读取需添加的维吾尔语敏感词,同时,还读取与所述维吾尔语敏感词对应的维吾 尔语替换词W及中文译意;
[0070] 捜索所述维吾尔语敏感词数据库,判断所述维吾尔语敏感词数据库是否存储与所 述需添加的维吾尔语敏感词相同的维吾尔语敏感词,如果相同,则忽略本次添加操作,继续 读取并处理下一个需添加的维吾尔语敏感词;如果不相同,则将所述维吾尔语敏感词、维吾 尔语替换词W及中文译意添加到所述维吾尔语敏感词数据库;
[0071] 敏感词编辑单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏 感词、维吾尔语替换词W及中文译意进行编辑操作;
[0072] 敏感词捜索单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏 感词、维吾尔语替换词W及中文译意进行捜索操作;如图4所示,为敏感词捜索单元的工作 流程图,步骤为:在输入捜索词后,系统开始在敏感词数据库中捜索,如果没有捜索结果,贝U 直接提示无捜索结果,并结束流程;如果有捜索结果,则对捜索结果集进行整理后,呈现捜 索结果,然后结束流程。
[0073] 敏感词查看单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏 感词按首字母进行排序,进而查看排序后的所述维吾尔语敏感词。
[0074] (S)管理员管理模块
[0075] 管理员管理模块包括;管理员个人信息修改单元、管理员权限设置单元W及管理 员访问密码设置单元。
[0076] (四)统计管理模块
[0077] 统计管理模块,包括;操作记录统计单元、管理员行为统计单元W及敏感词统计单 元;其中,所述敏感词统计单元用于统计匹配成功的敏感词数量。
[007引由此可见,本发明提供的维吾尔语敏感词过滤系统,其系统架构采用多层次、多模 块架构,具有层次分明、模块边界清晰,系统架构满足低松散、高禪合的要求的优点。
[0079] 维吾尔语敏感词过滤系统的安装过程为:
[0080] 本系统是基于web技术的B/S结构系统,本系统的安装运行需有一台或若干台服 务器并搭建相关环境W及发布本系统,具体流程如下表1所记载。
[0081] 表一维吾尔语敏感词过滤系统的安装指南
[0082]

【权利要求】
1. 一种维吾尔语敏感词过滤系统,其特征在于,包括: 维吾尔语敏感词数据库,用于收集和汇编维吾尔语敏感词,同时,对于存储的每个所述 维吾尔语敏感词,均绑定存储所述维吾尔语敏感词的维吾尔语替换词以及中文译词; 维吾尔语文本动态采集系统,用于实时动态采集监测对象的维吾尔语文本; 维吾尔语敏感词校对系统,用于对所述维吾尔语文本动态采集系统采集到的所述维吾 尔语文本进行内容校对,基于匹配算法判断所述维吾尔语文本是否包含与所述维吾尔语敏 感词数据库中所存储的维吾尔语敏感词相同或相似的维吾尔语敏感词;如果包含,则直接 获取所述维吾尔语文本中包含的维吾尔语敏感词,同时获取与所述维吾尔语文本中包含的 维吾尔语敏感词对应的维吾尔语替换词与中文译词; 阈值判断模块,用于对所述维吾尔语敏感词校对系统所得到的所述维吾尔语敏感词数 量进行统计,得到所述维吾尔语敏感词的数量,记为N ;以及,对当前被处理的所述维吾尔 语文本的文本大小进行计算,得到当前被处理的所述维吾尔语文本的文本信息容量值,记 为M ;然后,判断N/M是否大于设定阈值,如果大于,则执行维吾尔语敏感词过滤系统;如果 小于,则执行维吾尔语敏感词替换系统; 维吾尔语敏感词过滤系统,用于直接屏蔽过滤掉所述维吾尔语文本; 维吾尔语敏感词替换系统,用于在所述维吾尔语文本中,对所述维吾尔语敏感词校对 系统所得到的每个所述维吾尔语敏感词进行替换操作,替换为与所述维吾尔语敏感词对应 的维吾尔语替换词,同时,以替换框的方式突出显示每个所述维吾尔语替换词对应的维吾 尔语敏感词以及中文译词,得到第一次处理后的维吾尔语文本; 后台显示模块,用于在后台显示所述第一次处理后的维吾尔语文本; 人工审核模块,用于对所述后台显示模块显示的所述第一次处理后的维吾尔语文本进 行人工审核,进一步确认所替换的是否为敏感词,如果是,则接受所述维吾尔语敏感词替换 系统对该维吾尔语敏感词的替换操作,同时,从所述第一次处理后的维吾尔语文本中取消 对应的替换框;如果不是,则拒绝所述维吾尔语敏感词替换系统对该维吾尔语敏感词的替 换操作,依据对应的替换框,还原显示原来的维吾尔语词,同时,从所述第一次处理后的维 吾尔语文本中取消对应的替换框;由此得到第二次处理后的维吾尔语文本; 推送显示模块,用于将所述人工审核模块审核后的所述第二次处理后的维吾尔语文本 显示到监测对象的对应位置。
2. 根据权利要求1所述的维吾尔语敏感词过滤系统,其特征在于,所述维吾尔语敏感 词校对系统具体用于: 根据所述维吾尔语文本动态采集系统采集到的所述维吾尔语文本的信息容量的大小, 所述维吾尔语敏感词校对系统将所述维吾尔语文本划分为n个单元; 然后,所述维吾尔语敏感词校对系统并行启动n个内容校对器,所述n个内容校对器并 行对所述维吾尔语文本的n个单元进行内容校对。
3. 根据权利要求1所述的维吾尔语敏感词过滤系统,其特征在于,所述维吾尔语敏感 词校对系统所采用的所述匹配算法包括:核算法、栈算法或对照拼写校对算法; 对于仅支持汉语的匹配算法,在所述仅支持汉语的匹配算法的算法代码中加载维吾尔 文字符Unicode编码组件并声明维吾尔文字符U nicode编码规范;然后,将所述维吾尔文 字符U nicode编码组件与所述维吾尔语敏感词数据库进行对接,实现将所述仅支持汉语的 匹配算法转化为支持维吾尔文的匹配算法。
4. 根据权利要求1所述的维吾尔语敏感词过滤系统,其特征在于,还包括: 数据库管理模块,用于对所述维吾尔语敏感词数据库进行管理维护,包括: 备份管理单元,用于对所述维吾尔语敏感词数据库进行定期或非定期备份管理,包括 自动备份和手动备份模式; 恢复管理单元,用于当所述维吾尔语敏感词数据库出现故障时,对所述维吾尔语敏感 词数据库进行故障恢复管理操作; 版本管理单元,用于对所述维吾尔语敏感词数据库进行版本升级操作。
5. 根据权利要求1所述的维吾尔语敏感词过滤系统,其特征在于,还包括: 敏感词管理模块,用于对所述维吾尔语敏感词数据库中所存储的维吾尔语敏感词进行 管理,包括: 敏感词添加单元,用于向所述维吾尔语敏感词数据库中增加新的维吾尔语敏感词,其 工作流程为: 读取需添加的维吾尔语敏感词,同时,还读取与所述维吾尔语敏感词对应的维吾尔语 替换词以及中文译意; 搜索所述维吾尔语敏感词数据库,判断所述维吾尔语敏感词数据库是否存储与所述需 添加的维吾尔语敏感词相同的维吾尔语敏感词,如果相同,则忽略本次添加操作,继续读取 并处理下一个需添加的维吾尔语敏感词;如果不相同,则将所述维吾尔语敏感词、维吾尔语 替换词以及中文译意添加到所述维吾尔语敏感词数据库; 敏感词编辑单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏感 词、维吾尔语替换词以及中文译意进行编辑操作; 敏感词搜索单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏感 词、维吾尔语替换词以及中文译意进行搜索操作; 敏感词查看单元,用于对所述维吾尔语敏感词数据库中所存储的所述维吾尔语敏感词 按首字母进行排序,进而查看排序后的所述维吾尔语敏感词。
6. 根据权利要求1所述的维吾尔语敏感词过滤系统,其特征在于,还包括:管理员管理 模块;所述管理员管理模块包括:管理员个人信息修改单元、管理员权限设置单元以及管 理员访问密码设置单元。
7. 根据权利要求1所述的维吾尔语敏感词过滤系统,其特征在于,还包括:统计管理模 块,包括:操作记录统计单元、管理员行为统计单元以及敏感词统计单元;其中,所述敏感 词统计单元用于统计匹配成功的敏感词数量。
【文档编号】G06F17/30GK104504091SQ201410830265
【公开日】2015年4月8日 申请日期:2014年12月26日 优先权日:2014年12月26日
【发明者】帕哈尔丁·西日甫 申请人:新疆卡尔罗媒体科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1