一种多语种互联网信息分析方法

文档序号:9217213阅读:194来源:国知局
一种多语种互联网信息分析方法
【技术领域】
[0001]本发明涉及语义分析及机器翻译领域,具体涉及一种多语种互联网信息分析方法。
【背景技术】
[0002]互联网的信息繁杂多样,良莠不齐,需要进行适当的监管。但同时互联网虚拟社会也同现实社会一样,呈现出语言形式多样化的趋势。这些语言在语素、语法和语境都大不相同,对互联网管控而言带来了巨大压力,影响着管理者对互联网的监管。

【发明内容】

[0003]本发明的目的在于提供一种多语种互联网信息分析方法,结合互联网信息分析技术和多语言互译技术,实现针对互联网海量舆情信息中涉及多种语言的自动实时监测分析。
[0004]本发明的技术方案如下:
[0005]一种多语种互联网信息分析方法,其特征在于:
[0006](I)数据采集:确定数据采集的数据源,对数据源进行搜索;采用搜索引擎,对各种不同格式/类型的文档进行文本解析与索引;依托搜索引擎,统一确定数据格式,并按照字符Unicode码进行第一级索引,同时建立词对应表,表中建立检索到的词所在原始地址,同时在数据库中对原始地址建立索引表;
[0007](2)数据统计:通过收集海量数据,建立各语种的大语料库,并建立各语种的原子特征库,原子特征库由各语种特定类型的词汇组成,成行排列,作为调取脚本,用于后续统计工作,其构成为:敏感词原子特征库、混编词原子特征库、常用词原子特征库;对语种数据库中的收集数据进行分词处理,通过各语种的字典获取语义词汇,对词汇进行数据标注,标明词汇的各种语义,并保存为数据格式,用于词汇的分类、相似性分析、聚类分析;以概念的语义为核心,构建统一的多语言语义知识库;对分词后的词汇进行统计,获取每个词在数据库中出现的频率,并通过原子特征库进行比对,对词汇进行加权处理;建立相似度计算模型,通过对各分词相似度加权计算,建立数据空间向量值;
[0008](3)数据分析:采用人工智能技术,对海量数据进行自动处理,然后经过分析,得出准确的监控内容,并提出预警信息;
[0009](4)语种转换:对不同语种翻译,翻译的内容为词的翻译,主要是对数据库和获取的查询结果进行翻译;翻译方法为两种,一为依托现有翻译软件公共API接口进行直接翻译,二为根据解析结果,对外语进行词级替换式翻译。
[0010]本发明通过结合互联网信息分析技术和多语言互译技术,实现了针对互联网海量舆情信息中涉及多种语言的自动实时监测分析,有效地解决了互联网信息监测分析的难题,对于促进加强互联网信息监管,组织力量展开信息整理和深入分析,应对网络突发的公共事件,全面掌握社情民意都起到了一定的推动作用。
【具体实施方式】
[0011]多语种互联网信息分析方法通过对获取的各类语言字符进行解析、判读、统计、分析、评估等一系列人工智能处理,实现对互联网信息监控功能。
[0012]本发明的【具体实施方式】如下:
[0013]1、数据采集:
[0014]首先确定数据采集的数据源;然后对数据源进行搜索。
[0015]数据源搜索采用网络爬虫设计,采用采用广度优先搜索和改进PageRank网页分析算法相结合的方式进行设计。
[0016]数据解析与搜索引擎。采用LIUS搜索引擎,对各种不同格式/类型的文档(包括MS WorcUMS Excel、MS PowerPoing、RTF、PDF、XML、HTML、TXT、Open Office 及 JavaBeans等)进行文本解析与索引,增加了索引更新和混和索引功能。
[0017]基础数据建库。依托搜索引擎,统一确定数据格式,并按照字符Unicode码进行第一级索引,同时建立词对应表,表中建立检索到的词所在原始地址,同时在数据库中对原始地址建立索引表,以便进行跟踪。
[0018]2、数据统计:
[0019]建立大词汇量的语种语料库和原子特征库。通过收集海量数据,建立各语种的大语料库,并根据职能部门提供的经验数据及网络统计的常用数据,建立各语种的原子特征库,原子特征库由各语种特定类型的词汇组成,成行排列,作为调取脚本,用于后续统计工作,其构成为:敏感词原子特征库、混编词原子特征库、常用词原子特征库等。
[0020]分词、语义词汇、标注。对语种数据库中的收集数据进行分词处理。语义词汇主要是通过各语种的字典获取。语义标注主要是通过对词汇进行数据标注,标明词汇的各种语义,并保存为数据格式,用于词汇的分类、相似性分析、聚类分析。标注的方法是制作标注软件,进行人工标注。
[0021]形成多语种语义词汇知识库。由于各语言间存在着一些共性的概念,因此多语种语义词汇知识库需要保存各语言在语法和语义上的共性信息。因此以概念的语义为核心,构建统一的多语言语义知识库。
[0022]统计词频。对分词后的词汇进行统计,获取每个词在数据库中出现的频率。并通过原子特征库进行比对,对词汇进行加权处理。
[0023]利用向量空间模型(VSM)模型,建立数据空间向量。收集到的数据分词后建立相似度计算模型,通过对各分词相似度加权计算,建立数据空间向量值。
[0024]3、数据分析
[0025]数据分析包含了大量人工智能设计,以便对海量数据进行自动处理,然后经过分析,得出准确的监控内容,并提出预警信息,以便人工干预,同时系统添加了自学习功能,对错误的特征提取与判断进行修订。
[0026]数据分析作为核心部分,由一些算法模块、规则模块组成。采用的算法和规则为:算法包括用于分类、训练、识别的人工智能领域算法,对文本数据分类识别采用贝叶斯网络模型设计、对数据训练和学习采用隐马科夫(HMM)模型设计。规则模块包括预警模型、词类型(敏感词、混编词)判断脚本。
[0027]预警模型主要参考专家依据经验和相关知识设计及具体参数,其技术设计分为五
I K
少:
[0028]确定对象集和因素集U;
[0029]建立评判集V,评判集V= (vl,v2,v3,v4,v5) = {安全,较安全,临界,较危险,危险}={5,4,3,2,1};
[0030]确定权重集W。权重是以某种数量形式对比、权衡被评价事物总体中诸因素相对重要程度的量值,反映了各因素在评估中对最终的评估目标所起作用的大小程度,体现了单项指标在整个评估指标体系中的重要性;
[0031]对每个因素做出单因素评判,得到单因素评判向量(ril,ri2,…,rim);从而建立模糊隶属度矩阵R = (rij)nXm, R实质上是U与V之间的模糊关系,即R:UXV — I ;
[0032]模糊综合评判,采用计算模糊关系矩阵的合成值B=W ο R,ο为合成算子,即为综合判定结果。
[0033]脚本由词汇表组成,通过专家判定,以列表的形式保存到文件中,用于调用比对,同时在监控软件自动分析及人工判定之后,对脚本进行自动更新。其中内容为经验总结的相关词汇,权重为词汇的重要性,有无相关性异议即是否存在词汇上的切分错误导致判断错误或者前后语境相关联导致判断错误,如果存在异议,则需要进行语境和前后词切分判断。
[0034]4、语种转换
[0035]语种转换主要用于安全人员进行人工判读,以便快速的理解不同语种的语言内容。其主要功能是对不同语种翻译,翻译的内容为词的翻译,主要是对数据库和获取的查询结果进行翻译。翻译方法为两种:一为依托现有翻译软件公共API接口进行直接翻译。二为根据解析结果,对外语进行词级替换式翻译。
【主权项】
1.一种多语种互联网信息分析方法,其特征在于: (1)数据采集:确定数据采集的数据源,对数据源进行搜索;采用搜索引擎,对各种不同格式/类型的文档进行文本解析与索引;依托搜索引擎,统一确定数据格式,并按照字符Unicode码进行第一级索引,同时建立词对应表,表中建立检索到的词所在原始地址,同时在数据库中对原始地址建立索引表; (2)数据统计:通过收集海量数据,建立各语种的大语料库,并建立各语种的原子特征库,原子特征库由各语种特定类型的词汇组成,成行排列,作为调取脚本,用于后续统计工作,其构成为:敏感词原子特征库、混编词原子特征库、常用词原子特征库;对语种数据库中的收集数据进行分词处理,通过各语种的字典获取语义词汇,对词汇进行数据标注,标明词汇的各种语义,并保存为数据格式,用于词汇的分类、相似性分析、聚类分析;以概念的语义为核心,构建统一的多语言语义知识库;对分词后的词汇进行统计,获取每个词在数据库中出现的频率,并通过原子特征库进行比对,对词汇进行加权处理;建立相似度计算模型,通过对各分词相似度加权计算,建立数据空间向量值; (3)数据分析:采用人工智能技术,对海量数据进行自动处理,然后经过分析,得出准确的监控内容,并提出预警信息; (4)语种转换:对不同语种翻译,翻译的内容为词的翻译,主要是对数据库和获取的查询结果进行翻译;翻译方法为两种,一为依托现有翻译软件公共API接口进行直接翻译,二为根据解析结果,对外语进行词级替换式翻译。
【专利摘要】一种多语种互联网信息分析方法,包括:(1)数据采集:确定数据采集的数据源,对数据源进行搜索;(2)数据统计:通过收集海量数据,建立各语种的大语料库,并建立各语种的原子特征库;(3)数据分析:采用人工智能技术,对海量数据进行自动处理,然后经过分析,得出准确的监控内容,并提出预警信息;(4)语种转换:对不同语种翻译,翻译的内容为词的翻译,主要是对数据库和获取的查询结果进行翻译。
【IPC分类】G06F17/30
【公开号】CN104933072
【申请号】CN201410104136
【发明人】罗克刚, 陈加
【申请人】北京航天长峰科技工业集团有限公司
【公开日】2015年9月23日
【申请日】2014年3月19日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1