一种以矩阵计算为基础进行舆论信息抽取的方法及系统的制作方法_2

文档序号:9396851阅读:来源:国知局
信息源;
[0048]所述基础属性信息是对信息源各种相关基础属性进行维护,在基础属性信息中包括属性类型信息、属性信息、信息源类型信息;增加信息源分类规则时无需再开发或修改数据结构,直接在基础属性管理中添加即可。
[0049]所述文章字段信息是对抓取文章可用字段的定义,配置信息库数据结构时可从文章字段表中选取可用字段。
[0050]步骤102,如图2所示,建立分词矩阵,其中将关键词可能所在的行业(也可以为地域,即包含所述关键词的上位词汇)作为所述分词矩阵的元素,用户在输入关键词时,通过选择所述关键词的所属彳丁业,缩小检索范围,提尚效率;
[0051]步骤103,如图3所示,建立规则矩阵,其中查找最能体现文章内容的关键词,站点中的文章进行关键词标注,例如文章“北京局部地区有雷阵雨”,其中“北京”、“雷阵雨”为该文章的标注关键词;
[0052]步骤104,用户输入关键词,通过分词矩阵选择所述用户关键词所属行业,并计算信息源矩阵中各网站的权重与候选级别、分词矩阵各行业的候选级别、规则矩阵中关键词标注的候选级别,其中权重符合:企业网站28%、行业网站22%、中央机构网站35%、财经网站27%、地方新闻2%;候选级别:转发0.5、收藏0.4、点赞0.3、阅读20次以上0.2、阅读20次以下0.1,根据以上数据计算综合评分,所述综合评分最高的文章或词语,为要查找的结果,计算综合评分的公式为:
[0053]a^bj= M
[0054]其中a为权重,b为候选级别,i为第i个权重,j为第j个候选级别,M为综合评分。
[0055]本发明还提出一种以矩阵计算为基础进行舆论信息抽取的系统,包括
[0056]建立信息源矩阵模块,用于抓取互联网的网站信息,建立信息源矩阵,其中信息源矩阵包括信息库类型信息、信息库信息、站点信息、子站点信息、信息源统计信息、信息库权限信息、基础属性信息、文章字段信息八部分;
[0057]建立分词矩阵、规则矩阵模块,用于建立分词矩阵、规则矩阵,分别获取所述信息源矩阵与所述分词矩阵与所述规则矩阵的权重与候选级别,用户输入用户关键词,通过分词矩阵选择所述用户关键词的所属行业,并根据所述权重与所述候选级别计算综合评分,以完成舆情分析。
[0058]所述分词矩阵将所述用户关键词可能的所属行业作为所述分词矩阵的元素,所述用户在输入所述用户关键词时,通过选择所属行业,缩小检索范围,提高效率。
[0059]所述规则矩阵包括查找网站中最能体现文章内容的关键词,进行关键词标注。
[0060]通过以下公式获取所述权重:
[0061]信息源权重计算公式:q*w*e = r
[0062]其中,q为信息源类型评分,w为信息源网站重要性分级,e为是否置顶。
[0063]比如,q为新闻网站,设为10分.’w为全国性重点门户网站(新浪),为10分;e为网站头条,置顶,10分。
[0064]分词权重计算公式:x*y = u
[0065]其中,X为关键词的行业特征表达度,y为关键词的敏感度。
[0066]比如,核辐射在环保行业的特征表达度为5,汽油在环保行业的特征表达度为1,核辐射的敏感度会很高,汽油则比较低。
[0067]规则权重计算公式:g*h = k
[0068]其中,g为规则的行业特征表达度,h为规则的情感倾向程度。
[0069]计算所述综合评分的公式为:
[0070]Bi^bj= M
[0071]其中a为权重,b为候选级别,i为第i个权重,j为第j个候选级别,M为综合评分。
【主权项】
1.一种以矩阵计算为基础进行舆论信息抽取的方法,其特征在于,包括 步骤1,抓取互联网的网站信息,建立信息源矩阵,其中信息源矩阵包括信息库类型信息、信息库信息、站点信息、子站点信息、信息源统计信息、信息库权限信息、基础属性信息、文章字段信息八部分; 步骤2,建立分词矩阵、规则矩阵,分别获取所述信息源矩阵与所述分词矩阵与所述规则矩阵中各元素的权重与候选级别,用户输入用户关键词,通过分词矩阵选择所述用户关键词的所属行业,并根据所述权重与所述候选级别计算综合评分,以完成舆情分析。2.如权利要求1的以矩阵计算为基础进行舆论信息抽取的方法,其特征在于,所述分词矩阵将所述用户关键词可能的所属行业作为所述分词矩阵的元素,所述用户在输入所述用户关键词时,通过选择所属行业,缩小检索范围,提高效率。3.如权利要求1的以矩阵计算为基础进行舆论信息抽取的方法,其特征在于,所述规则矩阵包括查找网站中最能体现文章内容的关键词,进行关键词标注。4.如权利要求1的以矩阵计算为基础进行舆论信息抽取的方法,其特征在于,所述信息源矩阵中元素为信息源,所述分词矩阵中元素为分词,所述规则矩阵中元素为规则,通过以下公式获取所述权重: 信息源权重计算公式:q*w*e = r,中,q为信息源类型评分,w为信息源网站重要性分级,e为是否置顶,r为信息源权重; 分词权重计算公式:x*y = u,中,X为关键词的行业特征表达度,y为关键词的敏感度,u为分词权重; 规则权重计算公式:g*h = k,中,g为规则的行业特征表达度,h为规则的情感倾向程度,k为规则权重。5.如权利要求1的以矩阵计算为基础进行舆论信息抽取的方法,其特征在于,计算所述综合评分的公式为: 其中a为权重,b为候选级别,i为第i个权重,j为第j个候选级别,M为综合评分。6.一种以矩阵计算为基础进行舆论信息抽取的系统,其特征在于,包括 建立信息源矩阵模块,用于抓取互联网的网站信息,建立信息源矩阵,其中信息源矩阵包括信息库类型信息、信息库信息、站点信息、子站点信息、信息源统计信息、信息库权限信息、基础属性信息、文章字段信息八部分; 建立分词矩阵、规则矩阵模块,用于建立分词矩阵、规则矩阵,分别获取所述信息源矩阵与所述分词矩阵与所述规则矩阵中各元素的权重与候选级别,用户输入用户关键词,通过分词矩阵选择所述用户关键词的所属行业,并根据所述权重与所述候选级别计算综合评分,以完成舆情分析。7.如权利要求6的以矩阵计算为基础进行舆论信息抽取的系统,其特征在于,所述分词矩阵将所述用户关键词可能的所属行业作为所述分词矩阵的元素,所述用户在输入所述用户关键词时,通过选择所属行业,缩小检索范围,提高效率。8.如权利要求6的以矩阵计算为基础进行舆论信息抽取的系统,其特征在于,所述规则矩阵包括查找网站中最能体现文章内容的关键词,进行关键词标注。9.如权利要求6的以矩阵计算为基础进行舆论信息抽取的系统,其特征在于,所述信息源矩阵中元素为信息源,所述分词矩阵中元素为分词,所述规则矩阵中元素为规则,通过以下公式获取所述权重: 信息源权重计算公式:q*w*e = r,中,q为信息源类型评分,w为信息源网站重要性分级,e为是否置顶,r为信息源权重; 分词权重计算公式:x*y = u,中,X为关键词的行业特征表达度,y为关键词的敏感度,u为分词权重; 规则权重计算公式:g*h = k,中,g为规则的行业特征表达度,h为规则的情感倾向程度,k为规则权重。10.如权利要求1的以矩阵计算为基础进行舆论信息抽取的系统,其特征在于,计算所述综合评分的公式为: 其中a为权重,b为候选级别,i为第i个权重,j为第j个候选级别,M为综合评分。
【专利摘要】本发明提出一种以矩阵计算为基础进行舆论信息抽取的方法及系统,该方法包括:抓取互联网的网站信息,建立信息源矩阵,其中信息源矩阵包括信息库类型信息、信息库信息、站点信息、子站点信息、信息源统计信息、信息库权限信息、基础属性信息、文章字段信息八部分;建立分词矩阵、规则矩阵,分别获取所述信息源矩阵与所述分词矩阵与所述规则矩阵的权重与候选级别,用户输入用户关键词,通过分词矩阵选择所述用户关键词的所属行业,根据所述权重与所述候选级别计算综合评分,以完成舆情分析。本发明无需建立情感词库,实时多维度抓取数据,建立信息源矩阵、分词矩阵、规则矩阵,三个矩阵进行关联达到动态平衡,精确查找用户查询的词,准确率95%以上。
【IPC分类】G06F17/27
【公开号】CN105117385
【申请号】CN201510569894
【发明人】杜登斌, 杜璞
【申请人】北京中润普达信息技术有限公司
【公开日】2015年12月2日
【申请日】2015年9月9日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1