信息有效性分析的方法和装置的制作方法

文档序号:6585124阅读:131来源:国知局
专利名称:信息有效性分析的方法和装置的制作方法
技术领域
本发明涉及信息检测技术领域,尤其涉及一种信息有效性分析的方法和装置。
背景技术
随着网络信息发布的成本和代价不断降低,大量网络信息,尤其是用户评论的发 布,使得无关、无用等垃圾信息充斥着网络。这既影响了网络用户对有用信息的获取,也在 计算机进行自动化处理过程中产生了很多噪音信息,因此,对于网络信息有效性的分析逐 渐成为人们关注的焦点。通过对网络信息的有效性进行分析,能够实现有效信息抽取、垃圾 信息过滤等后续工作。而在现阶段,对于信息有效性的判断仅局限于基于分类器进行划分等简单技术, 还没有专门对信息的有效性进行分析的相关工作,使得有些后续工作处理效果较差。

发明内容
本发明的实施例提供一种信息有效性分析的方法和装置,能够对信息的有效性进 行较准确地分析。为达到上述目的,本发明的实施例采用如下技术方案一种信息有效性分析的方法,包括由获取装置获取所要分析的信息的特征向量;根据预先建立的信息质量评估模型对所述信息的特征向量进行分析,获取质量分 数;根据所述质量分数分析信息的有效性。一种信息有效性分析的装置,包括第一获取单元,用于获取所要分析的信息的特征向量;第一分析单元,用于根据预先建立的信息质量评估模型对由所述第一获取单元获 取的信息的特征向量进行分析,获取质量分数;第二分析单元,用于根据由所述第一分析单元获取的质量分数分析信息的有效信 肩、ο本发明实施例提供的信息有效性分析的方法和装置,通过获取所要分析的信息的 特征向量,提取了信息多方面的特征,将复杂、随机的信息转化成为数学模型;并根据预先 建立的信息质量评估模型对所述信息的特征向量进行分析,获取质量分数,根据所述质量 分数来分析信息的有效性,解决了由于现有阶段还没有专门的对信息有效性进行分析的技 术,使得有些后续工作处理效果较差的问题。本发明的实施例提供的信息有效性分析的方 法和装置,能够对信息的有效性进行较准确地分析。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 这些附图获得其他的附图。图1为本发明实施例提供的信息有效性分析的方法流程图;图2为本发明另一个实施例提供的信息有效性分析的方法流程图;图3为本发明实施例提供的提取所要分析的信息与预先设定的信息的相关性特 征的方法流程图;图4为本发明实施例提供的信息有效性分析的装置的结构示意图一;图5为本发明实施例提供的信息有效性分析的装置中第一获取单元401的结构示 意图;图6为图5中所示的第一获取单元401中的提取单元4011的结构示意图;图7为图6中所示的提取单元4011中第二提取子单元502的结构示意图;图8为本发明实施例提供的信息有效性分析的装置的结构示意图二。
具体实施例方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例 中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是 本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员 在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。为了解决现有阶段还没有专门的对信息进行有效性分析的技术,使得有些后续工 作处理效果较差的问题,本发明实施例提供一种信息有效性分析的方法和装置。如图1所示,本发明实施例提供的信息有效性分析的方法,包括步骤101,由获取装置获取所要分析的信息的特征向量;在本实施例中,所述信息的特征向量是由信息的特征经过数学建模后获得的。信 息的特征包括信息自身的特征和该信息与其它信息的相关性特征,信息自身的特征可以包 括信息的长度特征、句式特征、情感特征和上下文特征等。将这些特征用一个数学向量来 表示,将复杂的信息数字化。步骤102,根据预先建立的信息质量评估模型对所述信息的特征向量进行分析,获 取质量分数;在本实施例中,所述信息质量评估模型是对现有的规约模型进行训练获得的。通 过获取已经进行过质量标注的训练语料的特征向量,使用已有的规约模型对所述训练语料 的特征向量进行计算,将获得的质量分数与标注的质量分数进行比较,从而调整训练语料 特征向量中各个元素的权值,直到所获得的质量分数与标注的质量分数基本一致,这样可 以建立一个比较准确的信息质量评估模型。步骤103,根据所述质量分数分析信息的有效性。在本实施例中,将所获得的质量分数作为分析信息有效性的标准,并且分布在 0 1之间;得分越高,表明所分析的信息越有效。 本发明实施例提供的信息有效性分析的方法,通过获取所要分析的信息的特征向 量,提取了信息多方面的特征,将复杂、随机的信息转化成为数学模型;并根据预先建立的信息质量评估模型对所述信息的特征向量进行分析,获取质量分数,根据所述质量分数来 分析信息的有效性,解决了由于现有阶段还没有专门的对信息有效性进行分析的技术,使 得有些后续工作处理效果较差的问题。为了使本领域技术人员能够更清楚地理解本发明实施例提供的技术方案,下面通 过具体的实施例,对本发明另一个实施例提供的信息有效性分析的方法进行详细说明。以下实 施例中,所要分析的信息为对网络新闻发表的评论信息。如图2所示,本发明另一个实施例提供的信息有效性分析的方法,包括步骤201,提取所要分析的信息的自身特征;本实施例中,所要分析的信息为对网络新闻发表的评论信息。提取评论信息的自 身特征包括评论的长度、句式、语义、所表达的情感以及该评论与其它评论的相关性等特 征。具体的提取评论自身特征的方法为首先对一条评论进行预处理,即将该条评论按照标 点符号划分为句子,得到句子集合;利用分词工具将句子集合中的每一条句子划分成词语, 得到词语集合;再利用词性标注工具将词语集合中的每一个词语都标注词性,并进行词性 分类,可得到名词集合、动词集合、形容词集合等。附加地,为了使分析的结果更准确,可利 用命名实体识别工具将句子集合中的命名实体都识别出来,例如,北京市公安局、最高人民 法院、国家图书馆等专有名词,并与普通名词一样进行分类,得到命名实体集合。将评论进 行上述的预处理后,就可以提取该评论自身的特征了,下面对于评论自身各方面的特征进 行详细说明长度特征在评论中,长度特征占据较大的作用。长度比较长的评论往往信息含量 较多,反之,比较短的评论往往所包含的有效信息量较少。本实施例中,所获取的评论的长 度特征包括,评论的字数、评论的句子数和该评论平均句子的长度。句式特征在评论中,句式也能传达很多的信息。例如,感叹句表示强烈的感情,而 疑问句表示困惑;再例如,如果一条评论的标点符号所占比例较大,表示该评论本身的文本 内容不多,即所包含的信息量不多;同时,标点符号的含量也能体现一条评论的规范性。在 本实施例中,所获取的评论的句式特征包括,该评论中问号的个数、感叹号的个数、省略号 的个数、引号的个数、引号内的文本内容占该评论内容的比例、以及所有标点符号的个数占 该评论总字符的比例等。语义特征在评论中,有些词能表明评论人的心态,是认真参与了评论还是敷衍了 事;有些词能够区分评论人的态度,是疑问、不确定,还是肯定等。在本实施例中,所获取的 评论的语义特征包括,该评论中假设类词语(例如,若、如果、比如等)的个数占该评论总文 本的比例、该评论中不确定类词语(例如,可能、大概、也许等)的个数占该评论总文本的比 例、该评论中拟声词(例如,嘿嘿、哈哈、呵呵等)的个数占该评论总文本的比例。情感特征在评论中,情感类词汇的使用,往往能够表达出一条评论的观点倾向, 而包含有明显观点的评论往往会是较有效的评论。在本实施例中,所获取的评论的情感特 征包括,该评论中正面情感倾向类词语(例如,好、聪明、高端等)的个数占该评论总文本的 比例、该评论中负面情感倾向类词语(例如,差、糟粕、乏味等)的个数占该评论总文本的比 例、该评论中观点声明类词语(例如,感觉、听说、认为等)的个数占该评论总文本的比例。 其中,观点声明类词语由知网的情感词典来辨别,正面和负面情感倾向类词语由知网词典、 同义词词林来辨别。
上下文特征在评论中,一条较有效的评论,往往会有很多类似的评论进行支持, 即具有较高相似性的评论往往谈论的内容是与主题相关的。而与其它评论都无关的评论, 往往谈论的内容与主题不相关。在本实施例中,所获取的评论的上下文特征包括,与该评论 相似的评论的个数、该评论是否是第一条评论、该评论是否是唯一的评论、该评论是否是重 复评论等。其中,与该评论相似的评论的个数的获取,首先要设置一个相似度数值,达到这 个数值说明两个评论是相似的,反之,两个评论不相似。求取两条评论之间的相似度的具体 方法,可以参见步骤202所述的一条评论与该评论对应的新闻主题之间的相似度的求解方 法,此处不再赘述。步骤202,提取所要分析的信息与预先设定的信息的相关性特征;在本实施例中,所述预先设定的信息为新闻本身,即要提取一条评论与所评论的 新闻主题的相关性。具体的提取方法如图3所示,包括以下步骤

步骤301,获取所述所要分析的信息的关键词列表;在本实施例中,对于一条评论的主题起关键作用的是该评论中的实词,即名词和 动词。按照步骤201中所述的方法对该评论进行预处理后,可以获得该评论中名词集合和 动词集合,对于每一个词,按照以下公式计算该词的重要性I = tfXidf 公式(1)其中,I表示该词的重要性分数,tf表示该词在所述评论中出现的次数,idf表示 该词的区分度,在本实施例中,所述区分度是一个已知的常数。此区分度的获取可以采用以 下公式idf = Iog2(NdMf)其中,Nd表示文本的个数,df表示出现过某一词语的文本的个数。例如,以1000个 文本为例来计算词语“专利”的区分度,其中“专利”这个词在500个文本中出现过,则“专 利”这个词语的区分度为idf = Iog2 (1000/500) = 1。按照公式(1)计算所要分析的评论中所有动词和名词的重要性分数,并将所述重 要性分数按照从高到低排序。在实际排序过程中,可以将动词与名词分别排序,也可以将动 词与名词混合排序,并取排在前面的几个词,例如,可以取前5个词,也可以取其它数量的 词,视具体情况而定,此处不再一一列举。通过上述方法取出的动词和名词即为所述评论的 关键词。步骤302,获取所述预先设定的信息的关键词列表;在本实施例中,所述预先设定的信息为评论所对应的新闻主题,即要获取一个新 闻主题的关键词列表。本实施例中,采用新闻与其对应的若干条评论相结合的方法来获取 该新闻主题的关键词列表,以避免新闻中未出现或出现较少的关键词被忽略的情况。具体 地,首先按照步骤301所述的方法获取所述新闻的关键词列表;再按照步骤301所述的方法 获取所述新闻对应的每一条评论的关键词列表;将所有评论的关键词列表组合在一起,再 次按照每个词所对应的重要性分数排序,在实际排序的过程中,可以将动词与名词分别排 序,也可以将动词与名词混合排序,并取排在前面的几个词,从而可以获得所述新闻对应的 所有评论的关键词列表。将所述新闻的关键词列表与所述新闻对应的所有评论的关键词列 表按照一定的权重相组合,再取重要性较高的部分,即可得到该新闻主题的关键词列表。例 如,所述新闻的关键词列表为a,b,c,它们的重要性分数分别为8.8,7.1,6.0;所述新闻对应的所有评论的关键词列表为X,y, Z, S,它们的重要性分数分别为10,7. 8,5. 9,5. 3,则将 新闻的关键词的权重设为1,而将所有评论的关键词的权重设为0. 8,那么,a,b,c,x,y,z,s 这些词的重要性分数乘以权重后,对应的分数分别为8. 8,7. 1,6. 0,8. 0,6. 24,4. 72,4. 24, 将上述分数对应的词语按照从高到低排列为a,χ, b,y,c,z, s,并取前5个词a,χ, b,y,c, 这样即得到该新闻主题的关键词列表。步骤303,计算所述所要分析的信息的关键词列表与所述预先设定的信息的关键 词列表之间的相似度;在本实施例中,关键词列表之间的相似度是通过将关键词列表转化成一个数学向 量、求解两个向量之间的相似度来获得的。例如,将所有的动词和名词组成一个集合,可获 得该集合的维数。将上述两个关键词列表中的词所对应的向量元素置1,其它位置0,这样 可以得到元素均为0和1的两个向量,再求这两个向量的相似度。为了便于理解,假设所有 的动词和名词组成的集合为{a,b,c, d,χ, y,ζ, s, ρ, q},则其维数是10 (实际上远远大于 10)。假设在步骤301中获得的所要分析的评论的关键词列表为b,c,s,则按照上述方法求 得其对应的向量应为Ii1= (0,1,1,0,0,0,0,1,0,0);假设在步骤302中获得的新闻主题的 关键词列表为a,χ, b,y,c,则按照上述方法求得其对应的向量应为h2 = (1,1,1,0,1,1,0,
h . Ji
0,0,0),再按照公式
权利要求
1.一种信息有效性分析的方法,其特征在于,包括 由获取装置获取所要分析的信息的特征向量;根据预先建立的信息质量评估模型对所述信息的特征向量进行分析,获取质量分数; 根据所述质量分数分析信息的有效性。
2.根据权利要求1所述的信息有效性分析的方法,其特征在于,所述由获取装置获取 所要分析的信息的特征向量包括提取所要分析的信息的特征;将所述信息的特征数字化成所述所要分析的信息的特征向量。
3.根据权利要求2所述的信息有效性分析的方法,其特征在于,所述提取所要分析的 信息的特征包括提取所要分析的信息的自身特征;提取所要分析的信息与预先设定的信息的相关性特征。
4.根据权利要求3所述的信息有效性分析的方法,其特征在于,所述信息的自身特征 包括信息的长度特征、信息的句式特征、信息的语义特征、信息的情感特征和信息的上下文 特征中的至少一种特征。
5.根据权利要求3所述的信息有效性分析的方法,其特征在于,所述提取所要分析的 信息与预先设定的信息的相关性特征包括获取所述所要分析的信息的关键词列表; 获取所述预先设定的信息的关键词列表;计算所述所要分析的信息的关键词列表与所述预先设定的信息的关键词列表之间的 相似度;根据所述相似度获取所述所要分析的信息与预先设定的信息的相关性特征。
6.根据权利要求1所述的信息有效性分析的方法,其特征在于,所述建立信息质量评 估模型的步骤包括获取预先设置的训练语料的特征向量,所述训练语料进行过质量标注; 根据所述训练语料的特征向量对预先设置的规约模型进行训练,获取所述信息质量评 估模型。
7.一种信息有效性分析的装置,其特征在于,包括 第一获取单元,用于获取所要分析的信息的特征向量;第一分析单元,用于根据预先建立的信息质量评估模型对由所述第一获取单元获取的 信息的特征向量进行分析,获取质量分数;第二分析单元,用于根据由所述第一分析单元获取的质量分数分析信息的有效性。
8.根据权利要求7所述的信息有效性分析的装置,其特征在于,所述第一获取单元包括提取单元,用于提取所要分析的信息的特征;生成单元,用于将由所述提取单元提取的信息的特征数字化成所述所要分析的信息的 特征向量。
9.根据权利要求8所述的信息有效性分析的装置,其特征在于,所述提取单元包括第一提取子单元,用于提取所要分析的信息的自身特征; 第二提取子单元,用于提取所要分析的信息与预先设定的信息的相关性特征。
10.根据权利要求9所述的信息有效性分析的装置,其特征在于,所述第二提取子单元 包括第二获取单元,用于获取所述所要分析的信息的关键词列表; 第三获取单元,用于获取所述预先设定的信息的关键词列表; 计算单元,用于计算由所述第二获取单元获取的所要分析的信息的关键词列表与由所 述第三获取单元获取的预先设定的信息的关键词列表之间的相似度;第四获取单元,用于根据由所述计算单元计算的相似度获取所述所要分析的信息与预 先设定的信息的相关性特征。
11.根据权利要求7所述的信息有效性分析的装置,其特征在于,所述装置还包括第五获取单元,用于获取预先设置的训练语料的特征向量,所述训练语料进行过质量 标注;训练单元,用于根据由所述第五获取单元获取的训练语料的特征向量对预先设置的规 约模型进行训练,获取所述信息质量评估模型。
全文摘要
本发明实施例公开一种信息有效性分析的方法和装置,涉及信息检测技术领域。为解决现有阶段还没有专门的对信息进行有效性分析的技术而发明。本发明提供的技术方案包括由获取装置获取所要分析的信息的特征向量;根据预先建立的信息质量评估模型对所述信息的特征向量进行分析,获取质量分数;根据所述质量分数分析信息的有效性。本发明适用于博客、论坛、新闻站点等网站的评估系统中,也适用于对于评论进行进一步处理的系统中,如情感分析、话题统计与分析、评论话题演化、有效评论抽取、垃圾评论过滤等技术领域中。
文档编号G06F17/27GK102096680SQ200910242508
公开日2011年6月15日 申请日期2009年12月15日 优先权日2009年12月15日
发明者万小军, 杨建武, 王晨峰 申请人:北京北大方正电子有限公司, 北京大学, 北京方正电子政务信息科技有限公司, 北大方正集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1