倾向性分析的蚁群文本组合的处理方法

文档序号:6604219阅读:161来源:国知局
专利名称:倾向性分析的蚁群文本组合的处理方法
技术领域
本发明涉及的是一种互联网技术领域的信息处理方法,具体是一种倾向性分析的 蚁群文本组合的处理方法。
背景技术
随着网络信息技术的飞速发展,互联网成为最重要的大众传播媒体之一,正在全 方位、深层次地改变人们的生活方式,同时也为社会舆论和大众文化的传播带来了潜在的 安全问题,如在新疆乌鲁木齐“7. 5”打砸抢烧严重暴力犯罪事件中,境内境外不法分子正是 利用互联网进行虚假信息传播,颠倒是非,使不明真相者误信其说,从而引起大规模群众聚 集游行,导致严重社会后果,因此互联网舆情信息处理技术逐渐成为专家学者研究的热点。 在众多的信息媒介之中,文本信息占据着最重要的地位,文本舆情信息分析研究取得了一 定的进展。倾向性分析是舆情分析的内容之一,文本倾向性分析可以把文本信息分为正面、 负面和中立面三个方面。在已有的舆情分析方法中,一般是将网络上获取的文本先进行内 容上的区别归并,而后再单独进行倾向性分析。现有技术通过支持向量机对文本向量构造超平面,利用最小二乘法对得到的分类 超平面进行拟合,找出最优分类超平面,实现文本分类,这种方法需要构建超平面和找到最 优分类超平面,对待分类文本特征要求较高。经过对现有技术的文献检索发现,进一步检索发现,中国专利文献号CN1936887A, 记载了一种“基于类别概念空间的自动文本分类方法”,该技术将文本分类分为训练和分类 两个阶段,分别建立训练集类别概念空间的词语向量表示和待分类文档向量数据,依据待 分类文档向量中各分量的大小直接获得待分类文档的所属类别,此方法中用了大部分精力 构造类别概念空间的词语向量表示,但是并没有充分挖掘类别概念空间的词语向量表示的 处理文本信息的能力,不涉及倾向性分析,不能直接适用于舆情信息的分析和处理。由上述可以看出,针对舆情信息分析,现有技术中有以下可以改进第一就是将文 本内容进行智能分类和倾向性分析作为整体处理,这对于处理具有突发性极强特点的海量 舆情信息而言是有必要的,整体处理的优势是效率高;第二是提高文本内容组合方法的精 确度和效率,已经被应用的文本分类方法有基于决策树、基于统计、基于粗糙集、基于距离、 基于神经网络、基于遗传算法等诸多分类方法,但这些方法或者仅针对固定特征的文本,或 者本身尚存在不足。

发明内容
本发明针对现有技术存在的上述不足,提供一种倾向性分析的蚁群文本组合的处 理方法,本发明将倾向性分析放在文本组合的处理过程之中,同时对文本进行组合处理,在 完成文本类别智能归并的同时也做到了倾向性分析,提高文本舆情分析效率和组合的精确度。本发明是通过以下技术方案实现的,本发明包括以下步骤
4
第一步,对标准库作倾向性分析对标准库的特征词集作倾向性分析,每一类别均 分为正面、负面和中立面三个特征子类,即将原A类别的特征词集分为A+、A-和Ao三个子 类,原B类别的特征词集分为B+、B-和Bo三个子类,以此论推。所述的标准库,是用来训练蚂蚁的特征词库,里面包含了用来判断话题种类的特 征词。所述的特征词集,是由能表征文本内容的特征词构成的集合。所述的特征子类是指正面、负面和中立面,是指特征词的肯定、否定和中立或者 褒扬、贬损和中立的特性。所述的倾向性分析,即对主观性特征词所表示的倾向性意见做出肯定/否定/中 立或者褒扬/贬损/中立的判断,利用已有的褒贬义词典判定词典中已有的特征词的倾向 性,利用同义词词库判定与褒贬义词典中同义词的倾向性,利用语义分析技术判定其他未 知词及呈现多倾向性特征词的倾向性。所述的特征子类,包括倾向性特征词和原类别主题词,即除了包括观点性的倾向 性特征词外,还包括每类的主题相关特征词。第二步,初始化参数并将信息装入蚂蚁初始化文本处理方法中用到的阈值参数, 并将A+、A-和Ao以及B+、B-和Bo等特征子类分别装入蚂蚁,每只蚂蚁只携带一个子类的 特征词,蚂蚁个数大于标准库中子类别个数。所述蚂蚁装入的信息,包括本蚂蚁所携带的子类别号和子类别特征词集。第三步,应用蚁群算法进行处理1)将待处理文本经过分词、特征选择与提取等预处理后散置在平面上,让蚂蚁在 这些节点上爬行;2)计算蚂蚁当前所在文本特征词向量与其携带特征词向量的相似度。每只蚂蚁对 当前节点的处理是,若相似度大于阈值a,则对该节点做出类别标记;若相似度不大于阈 值a,则进入选择下一个爬行节点。3)蚂蚁在选择下一个爬行节点时,先计算周围未爬行节点的相似度,遇到第一个 相似度大于阈值a的节点则转步骤4)。若与所有未爬行的节点的相似度均不大于阈值a, 则此只蚂蚁对所有结节已遍历完,结束迭代;4)标记类别,并更新信息素,即和上一个爬行节点通道路;5)转入3)进入选择下一个节点。所述的相似度,是指文本间相似程度的一个统计量,如果两个文本间相似度为1, 则说明两文本对象完全相同,如果相似度为0,则说明两文本没有相似之处。在内容判别方 法中,相似度是衡量两文本所属类别的相关度。相似度计算公式为 其中,Di=(知,知,知,......),Di= (dli,d2i,d3i,......)为需要计算的文本,
dki、dkJ表示关键词k发生在文本中的频率权重;所述的类别标记,即每一只蚂蚁对当前所在节点标上它所携带的子类别信息,对 其他蚂蚁已经做过类别标记的节点的处理方法是对属于不同类(A、B、C类等)的节点要 做类别标记和更新信息素,属于不同子类(A+、A-*Ao,B+、B-和Bo等)而属于同一类的节点则直接跳过。第四步,处理结果此时可以得到内容属别结果,装有A+、A_和Ao类特征词集的所 有蚂蚁所连通的文本节点均为A类舆情信息,并且这些信息分别为正面的、负面的和中立 面的,对B、C、D等其他类别的结果同理可得。所述方法中的文本节点,以特征词向量表示, 同时节点在蚂蚁遍历的过程中储存蚂蚁对其已作的类别标志和连通信息,在所有蚂蚁迭代 结束后将具有同类别的节点链聚合即得到处理结果,由此得到的结果既具有类别区分度, 又具有倾向性区分度。与现有技术相比,本发明效果在于1)将文本组合和倾向性分析两步处理合二为一,提高处理效率。2)组合标准库的特征词相比于更新速度快、突发性强的舆情信息而言是相对稳 定的,因此对组合标准库的特征词进行倾向性分析比对舆情信息文本做倾向性分析更为高 效,只需在每次标准库更新后进行。3)由于同类特征库的特征词间具有一定的相关性,可以用语义分析判定可能呈现 多倾向性的特征词的倾向性,并且在组合过程中度量的尺度是文本特征向量的相似度,这 样就避免了运用词语判定文本倾向性的片面性。利用蚁群算法的优势,同时由于组合处理前将特征词集分为子类,允许相对高的 特征词维数,因此做到了兼顾精确度和效率。


图1为本发明流程示意图。
具体实施例方式下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行 实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施 例。如图1所示,本实施例包括以下步骤第一步将用于组合处理的标准库中的特征词集作倾向性分析,利用褒贬义词典 判定词典中已有的特征词的倾向性,利用同义词词库判定与褒贬义词典中同义词的倾向 性,利用语义分析技术判定其他未知词及呈现多倾向性特征词的倾向性。这样就把每个类 别的特征词集分为正面、负面和中立面三个特征子类,分别用A+、A-和Ao,B+、B-和Bo等表不。所述组合,是指在无人工监督的条件下,应用人工智能,计算机通过学习,自动将 自然语言根据内容上的区别进行主题合并,形成一类,即其他文献中的“文本分类”概念。所述标准库,是用来训练蚂蚁的特征词库,里面包含了用来组合的特征词;所述特征词集,是由能表征文本内容的特征词构成的集合;所述正面、负面和中立面,是指特征词的肯定、否定和中立或者褒扬、贬损和中立 的特性;所述褒贬义词典,具体为辽宁人民出版社的《现代汉语褒贬用法词典》、华语教学 出版社的《汉语褒贬义词语用法词典》和中国大百科全书出版社的《学生褒贬义词典》等已有的褒贬义词典;所述利用语义分析技术判定其他未知词及呈现多倾向性特征词的倾向性,具体 为用S0-PMI方法计算未知词及呈现多倾向性特征词的倾向性。互信息计算公式为PMI (word” word2) = log [P (word” word2) /P (word》P (word2)]其中,POrorc^worcQ表示特征词word:,word2同时出现的概率,P (word》表示特 征词wordi出现的概率。以此为基础从而得到word的倾向性为SO-PMI (word) = ^ PMI (word, wordi) - ^ PMI [word, wordj)
wordjS posword jSneg其中,pos表示褒义词集合,neg表示贬义词集合。若S0-PMI (word)为正值,则 word的倾向性为褒义,若SO-PMI (word)为负值,则word的倾向性为贬义。所述特征子类,包括倾向性特征词和原类别主题词,如未做倾向性分析之前A类 别主题是“2009国庆阅兵”,标准库中主观性特征词有“威武”、“文明”、“活力”、“朝气”、“信 息化”、“整齐”、“强盛”、“耗力”、“浪费”等,则经过倾向性分析后A+特征子类包含与主题 “2009国庆阅兵”相关词和“威武”、“文明”、“活力”、“朝气”、“整齐”、“强盛”等肯定词,A-特 征子类包含与主题“2009国庆阅兵”相关词和“耗力”、“浪费”等否定词,Ao特征子类包含 与主题“2009国庆阅兵”相关词和“信息化”等中立词。即每类特征子类除了包含代表观点 的倾向性词外,还要包括形如“三军仪仗队”、“女民兵方阵”、“检阅”、“彩车”这样的主题相 关词。第二步设定组合方法中要用到的阈值参数a,在具体实施过程中可以根据组合 结果对a进行调整,如果需要精确度高,则将阈值调高,反之同理。第三步将A+、A-和Ao以及B+、B-和Bo等特征子类信息分别装入蚂蚁,每只蚂 蚁只携带某一类的带有特定倾向的子类特征词,蚂蚁个数大于标准库中子类别个数。所述蚂蚁装入的信息,包括本蚂蚁所携带的子类别号和子类别特征词集。第四步将待处理文本进行分词、特征选择与提取等预处理,形成蚂蚁将要遍历的 节点,文本节点以特征词和特征词在文本中相应权重向量的形式表示,即,节点中同时设定 用于保存类别标记和连通信息的存储空间。第五步初始化蚂蚁位置,将蚂蚁散置于文本节点上,准备计算。第六步蚂蚁开始遍历,所有蚂蚁可以并行进行。以携带A+类特征词向量的一只 蚂蚁为例,首先计算遍历到的第一个节点的文本特征词向量与其所携带的A+类特征词向 量的相似度,若相似度大于预先设定的阈值a,则将该节点标记为A+的类别标记存储到节 点预留的空间;若相似度不大于阈值a,则不作标记并选择下一个爬行节点。蚂蚁每访问 一个节点都将在其禁忌表中记下该节点号,保证不重复遍历。所述相似度,是指文本间相似程度的一个统计量,如果两个文本间相似度为1,则 说明两文本对象完全相同,如果相似度为0,则说明两文本没有相似之处。在组合方法中,相 似度是衡量两文本所属类别的相关度。相似度计算公式为
/\ ( I-、
/、 m) m o 肌 osim(Di,Dj)= E+W
u=l J {\k=l k=l其中,Di=(知,知,知,......),Di= (dli,d2i,d3i,......)为需要计算的文本,
dki、dkJ表示关键词k发生在文本中的频率权重;
7
所述类别标记,即每一只蚂蚁对当前所在节点标上它所携带的子类别信息,对其 他蚂蚁已经做过类别标记的节点的处理方法是对属于不同类(A、B、C类等)的节点要做 类别标记和更新信息素,属于不同子类(A+、A-和Ao,B+、B-和Bo)而属于同一类的节点则 直接跳过。第七步计算下一个节点与蚂蚁所携带信息的相似度,若此节点相似度大于阈值 a的节点则蚂蚁跳转到该节点并进行类别标记,同时将此节点与上一个相似度大于阈值 a的节点进行连通,形成类别链表;否则重复此步骤进行迭代,若所有节点已遍历完毕仍 未遇到相似度大于阈值a的节点则此蚂蚁结束迭代。第八步所有蚂蚁均遍历完毕后进行结果处理,每个标记A+、A-和Ao以及B+、 B-和Bo等类别信息的文本都归属于各自的节点链表,所有装有A+、A_和Ao类特征词集的 蚂蚁所连通的文本节点链表均为A类舆情信息,并且这些信息已经分别被分成正面的、负 面的和中立面的,对B、C、D等其他类别的结果同理可得,由此则完成文本组合的同时也对 文本作出了倾向性分析,提高舆情信息分析的效率。
权利要求
一种倾向性分析的蚁群文本组合的处理方法,其特征在于,包括以下步骤第一步,对标准库作倾向性分析对标准库的特征词集作倾向性分析,每一类别均分为正面、负面和中立面三个特征子类,即将原A类别的特征词集分为A+、A-和Ao三个子类,原B类别的特征词集分为B+、B-和Bo三个子类,以此论推,第二步,初始化参数并将信息装入蚂蚁初始化文本处理方法中用到的阈值参数,并将A+、A-和Ao以及B+、B-和Bo等特征子类分别装入蚂蚁,每只蚂蚁只携带一个子类的特征词,蚂蚁个数大于标准库中子类别个数,第三步,应用蚁群算法进行处理步骤1)将待处理文本经过分词、特征选择与提取等预处理后散置在平面上,让蚂蚁在这些节点上爬行;步骤2)计算蚂蚁当前所在文本特征词向量与其携带特征词向量的相似度;步骤3)每只蚂蚁对当前节点的处理是,若相似度大于阈值α,则对该节点做出类别标记;步骤4)若相似度不大于阈值α,则进入选择下一个爬行节点;步骤5)蚂蚁在选择下一个爬行节点时,先计算周围未爬行节点的相似度,遇到第一个相似度大于阈值α的节点则转步骤4);步骤6)若与所有未爬行的节点的相似度均不大于阈值α,则此只蚂蚁对所有结节已遍历完,结束迭代;步骤7)标记类别,并更新信息素,即和上一个爬行节点通道路;步骤8)转入步骤3)进入选择下一个节点;第四步,处理结果此时可以得到内容属别结果,装有A+、A-和Ao类特征词集的所有蚂蚁所连通的文本节点均为A类舆情信息,并且这些信息分别为正面的、负面的和中立面的,对B、C、D等其他类别的结果同理可得,所述方法中的文本节点,以特征词向量表示,同时节点在蚂蚁遍历的过程中储存蚂蚁对其已作的类别标志和连通信息,在所有蚂蚁迭代结束后将具有同类别的节点链聚合即得到处理结果,由此得到的结果既具有类别区分度,又具有倾向性区分度。
2.根据权利要求1所述的倾向性分析的蚁群文本组合的处理方法,其特征是,所述的 标准库,是用来训练蚂蚁的特征词库,里面包含了用来判断话题种类的特征词。
3.根据权利要求1所述的倾向性分析的蚁群文本组合的处理方法,其特征是,所述的 特征词集,是由能表征文本内容的特征词构成的集合。
4.根据权利要求1所述的倾向性分析的蚁群文本组合的处理方法,其特征是,所述的 特征子类是指正面、负面和中立面,是指特征词的肯定、否定和中立或者褒扬、贬损和中立 的特性。
5.根据权利要求1所述的倾向性分析的蚁群文本组合的处理方法,其特征是,所述的 倾向性分析,即对主观性特征词所表示的倾向性意见做出肯定/否定/中立或者褒扬/贬 损/中立的判断,利用已有的褒贬义词典判定词典中已有的特征词的倾向性,利用同义词 词库判定与褒贬义词典中同义词的倾向性,利用语义分析技术判定其他未知词及呈现多倾 向性特征词的倾向性。
6.根据权利要求1所述的倾向性分析的蚁群文本组合的处理方法,其特征是,所述的特征子类,包括倾向性特征词和原类别主题词,即除了包括观点性的倾向性特征词外,还包 括每类的主题相关特征词。
7.根据权利要求1所述的倾向性分析的蚁群文本组合的处理方法,其特征是,所述蚂 蚁装入的信息,包括本蚂蚁所携带的子类别号和子类别特征词集。
8.根据权利要求1所述的倾向性分析的蚁群文本组合的处理方法,其特征是,所述的 相似度,是指文本间相似程度的一个统计量,如果两个文本间相似度为1,则说明两文本对 象完全相同,如果相似度为0,则说明两文本没有相似之处,在内容判别方法中,相似度是衡 量两文本所属类别的相关度,相似度计算公式为/\ ( I-、/、 m) m o 肌 o sHDi ’叫=^dHdkj + Jea^EA/、/c—丄)^ V k—Y k—L 乂其中Di =(知,d2i,d3i,......),Di =(知,d2i,d3i,......)为需要计算的文本,dki、dkJ表示关键词k发生在文本中的频率权重。
9.根据权利要求1所述的倾向性分析的蚁群文本组合的处理方法,其特征是,所述的 类别标记,即每一只蚂蚁对当前所在节点标上它所携带的子类别信息,对其他蚂蚁已经做 过类别标记的节点的处理方法是对属于不同类(A、B、C类等)的节点要做类别标记和更 新信息素,属于不同子类(A+、A-和Ao,B+、B-和Bo等)而属于同一类的节点则直接跳过。
全文摘要
一种互联网技术领域的倾向性分析的蚁群文本组合的处理方法,通过将倾向性分析放在文本组合的处理过程之中,同时应用蚁群算法对文本进行类别组合,即引入倾向性分析的蚁群文本组合处理方法,在完成文本类别智能归并的同时也做到了倾向性分析,以达到提高文本舆情分析效率和组合精确率的目的。
文档编号G06F17/30GK101859327SQ20101020072
公开日2010年10月13日 申请日期2010年6月13日 优先权日2010年6月13日
发明者张月国, 李建华, 李海燕, 李燕, 李生红 申请人:上海交通大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1