一种在线讨论区话题检测与跟踪方法

文档序号:7928628阅读:214来源:国知局
专利名称:一种在线讨论区话题检测与跟踪方法
技术领域
本发明涉及计算机网络技术领域,特别涉及在线讨论区信息检索技术。
背景技术
随着互联网(the Internet)的飞速发展,它已经逐渐成为人们生活中一个重要的 部分。在Web2. 0时代,网络的使用者已经从以前的信息接受者转变成了信息的发布者,网 络的交互性越来越强,而在线讨论区就是目前互联网上最流行的交互性应用之一,网上各 种论坛、BBS等是在线讨论区的典型实例。通常,用户们可以在在线讨论区中畅所欲言,发表 自己的看法,因而讨论区中的信息从语义上看是处于一种各类内容混杂而无序的状态,给 信息处理和检索带来了很大的挑战一方面,传统的信息检索应用(例如传统的搜索引擎) 只能在帖子或线索的层次以基于关键词的方式上对信息进行处理,效果很差;另一方面,这 种复杂性对于讨论区管理者和相关部门的监管来说造成了巨大的困难。对讨论区信息进 行话题检测与跟踪之后,可以自动的对讨论内容进行分类规整,便于查找和编制索引,大大 方便了讨论区用户和管理人员;更进一步,在各个话题之间进一步进行挖掘的话,还可以分 析出每个话题的发展趋势以及话题之间的互动关系,进而实现对网络舆情趋势的估计和预 测。近年来,由于其广泛的需求和巨大的实用市场,在线讨论区信息检索技术已经成为一项 研究热点。 —个典型的在线讨论区的结构如下整个讨论区分为若干个"版面"(board),每个 版面讨论某一个领域的内容,常见的版块例如体育、音乐、计算机技术等。 一般来说,各版 面之间是相对独立的,里面的帖子、线索都是没有交叉的。每个版面由许多"帖子"(post) 构成, 一个用户发表一次内容就是一个帖子,它是讨论区的最小结构单位, 一般包括发帖时 间、发帖时间、标题、发帖人、内容四种属性以及所属线索的结构信息。帖子之间可以存在 "回复"的关系,一个帖子可能是回复之前的某一个帖子。由回复关系联系在一起的一组帖 子构成一个"线索",或某些讨论区中成为"主题",一个线索中的帖子共享一个标题。线索 中的第一个帖子(它不回复任何帖子)称为"入口" (entry),其它的帖子称为"回复"。帖 子和线索构成了讨论区的物理结构,如图1(a)和(b)所示。而更高层的,不同的线索之间 则可能具有语义联系,例如,不同的帖子可能是讨论了同一个事件的各个组成部分,或是针 对同一个问题发表了不同的看法。这些由语义关系联系起来的线索构成了一个"话题"。相 对于讨论区的物理结构,话题结构无法直接获得而必须通过对帖子进行语义分析,因而话 题构成了讨论区的语义结构,如图1(c)所示。 在话题跟踪与监测技术研究领域,针对新闻报道的相关技术已经发展了多年并已 比较成熟。针对新闻报道的话题检测与跟踪的基本框架是对于每一个新发布的新闻,计算 它与新闻库中每一个已知的新闻的文本相似度,如果它与所有的已知新闻的相似度都小于 某预先指定的阈值e ^,则认为该新闻属于一个新的话题,否则判断它与具有最大相似度 的那个已知新闻属于同一个话题。和新闻报道这种由专业机构发布的内容相比,讨论区内 容由各类网民发表,因而识别难度大的多。具体表现在首先,新闻中所使用的语言总是正
4帖子所使用的语言则往往比较口语化和随意,甚至有很多错别字; 第二,新闻中对事件的描述是完整的,所有要素都会出现,而讨论区帖子中很多内容都是隐 含的,需要结合合适的上下文才能理解;第三,新闻的内容是集中的,而讨论区内容则充斥 了很多没有信息度的闲聊和"跑题"。 目前为止还没有研究针对讨论区的话题检测与跟踪提出比较有效的解决算法,而 基于以上的分析和实验证明,现有的针对新闻报道的话题检测与跟踪方法无法在讨论区内 容上取得好的效果。同时,由于讨论区的内容广泛而复杂,对算法实时性的要求也很高。

发明内容
为了解决现有技术的问题,本发明目的在于提出一种适用于在线讨论区(包括论 坛、电子公告牌系统等)的话题检测与跟踪方法。 为实现上述目的,结合内容文本与用户行为的在线讨论区话题检测与跟踪方法, 其包括步骤 步骤1 :采用HTML解析模块对讨论区帖子进行预处理及线索重构; 步骤2 :利用帖子和线索的信息度测量模块对新输入的帖子和相关线索进行信息
度检查,并对线索特征向量进行更新; 步骤3 :对线索数据库中的线索的内容文本进行分析;
步骤4 :对线索数据库中的线索的用户行为进行分析; 步骤5 :将线索的内容文本和用户行为的分析结果进行融合,判断线索的话题分类。 本发明提出了一种新型的讨论区信息检索技术,在在线讨论区上实现了自动的话 题检测与跟踪。本发明的方法中提出的帖子和线索的信息度测量可以在很大程度上减少在 线讨论区环境下非正式的语言带来的噪声;针对讨论区线索的特点,本发明的方法在进行 内容文本分析的过程中提出了词汇按位置加权的方法,使得内容文本分析可以专注在线索 中最重要的部分;除使用内容文本分析之外,本发明的方法还提出对讨论区的用户行为进 行分析,进一步减轻讨论区环境中非正式的语言带来的影响;本发明的方法提出的两层融 合判断框架可以很好的将内容文本和用户行为的分析结果融合起来,以形成对讨论区线索 的话题关系的综合判断。本方法克服了以前只能依赖人工手动的方法实现该目标的缺点, 具有广阔的应用前景。


图1 (a)、图1 (b)和图1 (c)是现有技术中讨论区物理结构和语义(话题)结构的 示意图;图l(a)原始(底层)结构,图l(b)线索结构,图l(c)话题结构;
图2是本发明方案的整体框架; 图3是本发明结合内容文本与用户行为的话题判断示意图; 图4本发明帖子和线索的信息度测量及特征向量更新模块的流程图。
具体实施例方式
下面详细给出该发明技术方案中所涉及的各个细节问题的说明。
5
本发明的主要特点在于 1)使用了帖子信息度分类器过滤掉无效帖子。讨论区中充斥的大量没有信息度的 帖子会给话题检测与跟踪带来很多噪声,而信息度分类器可以在很大程度上过滤掉这类帖 子,提高系统的运行效果; 2)分析用户行为。本发明方法除使用传统的内容文本分析外,结合讨论区的特点 同时对讨论区用户的行为特征进行分析; 3)使用两层融合框架进行内容文本和用户行为分析的结果。针对内容文本分析和 用户行为分析的不同点,本发明方法使用了两层的框架对它们进行融合从而形成最终的判 断结果。 本发明方案实施的整体框架见附图2,本发明的方法具体运行的硬件和编程语言 并不限制,用任何语言编写都可以完成,为此其他工作模式不再赘述,下面仅举一实例,采 用一台具有2. 8G赫兹中央处理器和1G字节内存的奔腾4计算机并用C++语言编制了在线 讨论区话题检测与跟踪的工作程序,实现了本发明的方法,包括新帖子、预处理模块、帖子 和线索的信息度测量及特征向量更新模块、内容文本分析模块、用户行为分析模块、融合判 断模块,具体实施如下讨论区的帖子首先经过HTML解析器和预处理模块,以提取出帖子 的各要素和重构出线索结构;接下用帖子和线索的信息度测量及特征向量更新模块来进行 帖子和线索的信息度检查,对检查为"有效"的线索更新其特征向量而忽略"无效"的特征 向量;接下用内容文本分析模块和用户行为分析模块来对线索的内容文本和用户行为分别 进行分析;最后用融合判断模块对内容文本和用户行为的分析结果使用两层融合判断框架 进行融合,判断出线索的话题关系。
(1)讨论区帖子预处理及线索(线索也称为主题)重构 原始的在线讨论区帖子被输入后,经过HTML语法解析和帖子结构分析可以提取 出帖子的发帖时间、发帖时间、标题、发帖人、内容四种属性以及所属线索的结构信息。基于 线索结构信息可以重构出讨论区的线索结构。接下来对帖子的标题和内容分别进行中文分 词和删除停词(stopiords);根据帖子的线索结构信息重构出讨论区线索的集合。
(2)帖子及线索的信息度检查和线索特征向量更新 如图4所示,对于经过预处理的每一个帖子,用帖子信息度分类器对其进行信息 度检查;对于新输入系统的每一个帖子所对应的线索进行信息度判定;统计其内容中各单 词出现的词频以形成"词袋"(bag-ofiord)向量x :x G Rn,其中,Rn表示n维实数特征空 间,n是词汇表中词汇的数量,"词袋"向量x中每个元素表示该词汇在帖子内容中出现的次 数。用一个预先训练好的one-class SVM帖子信息度分类器对"词袋"向量x进行信息度 检查,根据其信息度结果将帖子标记为"有效"(有足够的信息度)和"无效"(没有足够的 信息度)两类。本步骤中所使用的one-class SVM分类器按如下方法构造
首先由构建一个仅由"无效"的帖子组成的训练集,因为"有效"的帖子范围十分 广泛,理论上不可能构建出全面的"有效"帖子训练集。训练集的构建需要对一些预先采集 来的帖子进行人工标注,一般来说训练集中的帖子数量越多,构造出来的分类器效果越好。 构造的训练集即由"词袋"向量Xi构成的集合,记做
Xi G Rn, i = 1, . , 1 其中1是训练集中样本的数量。选定核函数k,令①是k对应的将特征空间Rn映射到内积空间F的特征映射,即
①Rn — F,
k(Xi, Xj)=(①(Xi) ①()
其中,Xi和Xj分别表示训练集中第i个和第j个词袋向量;本方法中选用k为高 斯核函数 <formula>formula see original document page 7</formula> 其中,c是高斯核参数,可以根据运行效果进行调节。要构建需要的one-class SVM
分类器,只需解下面的二次规划问题
m <formula>formula see original document page 7</formula> 其中v G (0, 1]是一个平衡分类精度和过学习的变量,I i是一系列非零的松弛变 量。设以上二次规划问题的解是^和P*(L已在优化目标中惩罚限定),则构造出的分类 函数f(x)为: <formula>formula see original document page 7</formula> 如果分类函数f (x)输出为负值表示目标帖子是"无效"的,否则是"有效"的。
对于新输入的每一个帖子所对应的线索di,如果该线索仅包含一个帖子且为无 效,则标记该线索为"无效",否则标记为"有效"。 对于所有受影响的线索(其有新帖子被输入),使用位置加权(posieighting)方
法更新其词汇频率(term frequency, TF)向量。位置加权的公式是
标题中的词汇
入口贴中前40个词汇(如果有效) 前16个有效的回复贴中各前15个词汇
1, 1, o,
其它 Wp。s定义了出现在每个词汇的位置权值,则TF向量中每个元素对应词汇表中的一 个词汇,元素值就是该线索中出现的该词汇位置权值的和。同时更新全局的文档频率(DF) 向量,其每个元素对应词汇表中的一个词汇,元素值就是所有出现该词汇的线索的数量。
对于所有受影响的线索(其有新帖子被输入系统),更新其用户频率向量(user frequency, UF), —个帖子的UF向量中每个元素对应一个讨论区用户,元素值就是该线索中对应 用户发帖的数量。同时更新全局的线索用户频率(TUF)向量,其每个元素对应一个讨论区 用户,元素值就是所有出现该用户发帖的线索的数量。
(3)线索的内容文本分析 对于所有已重构出的线索di,使用"词汇频率对倒排文档频率(TF-IDF)"模型计算 两两之间的内容文本相似度csim(di, dj):
式中wttf'idf(d,w)称为当前时刻t线索d中词汇w的TF-IDF权值,定义如下
1 … 、,<formula>formula see original document page 8</formula> 其中,tft(d,w)表示时刻t线索d的TF向量中词汇w对应的元素的值,Nt是当前 所有已经输入的线索数量,Zt(d)是一个归一化因子 Z,W)=》/'((外10§:777^ 浙O) 在计算内容文本相似度的过程中,对于任意两个线索,仅当它们中的任一个在本
轮受影响(其有新帖子被输入系统)才需要重新计算相似度,否则系统中已经保存了它们
的相似度值,无需更新;对于任意的两个线索,如果它们的创建时间(线索中的第一个帖子
的发帖时间)相差超过2天,则不计算它们的内容文本相似度,直接计为0 ; 接下来,对于每一个已知的线索di,在所有比该线索&创建时间早的线索中搜索
与该线索&的内容文本相似度最大的那个线索,记为d^,相应的内容文本相似度的值为
csim(dci*, di); C = argmaxc"m"《,d') [OO57] (4)线索的用户行为分析 对于所有已重构出的线索di,使用"用户频率对倒排线索用户频率(UF-ITUF)"模 型计算所有已知的线索两两之间的用户行为相似度usim(di, dj):
<formula>formula see original document page 8</formula> 上式中wuf'ituf (d, u)称为线索d中讨论区用户u的UF-ITUF权值,定义如下 <formula>formula see original document page 8</formula>
<formula>formula see original document page 8</formula>
其中,Z(u) (d)是一个归一化因子,uf (d, u)是线索d的UF向量中用户u对应的元 素值,tuf (u)是TUF向量中用户u对应的元素值。在计算用户行为相似度的过程中,对于 任意两个线索,仅当它们中的任一个在本轮受影响(其有新帖子被输入系统)才需要重新 计算相似度,如果它们的创建时间(线索中的第一个帖子的发帖时间)相差超过2天,否则 系统中已经保存了它们的相似度值,无需更新;对于任意的两个线索,则不计算它们的用户 行为相似度,直接计为O; 接下来对于系统中每一个已知的线索di,在所有比该线索&创建时间早的线索中 搜索与该线索&的用户行为相似度最大的那个线索,记为dui*,它们之间的内容文本相似度 的值为usim(dui*, ;
《=arg max "^附,W,",, 其中,d' G win2d表示在一个2天的窗口中取出所有的线索d'进行搜索。
(5)结合内容文本与用户行为的分析结果进行融合,判断线索的话题分类
在判断讨论区线索的话题关系时,本发明使用两层的融合判断框架来融合前述的 内容文本分析与用户行为分析的结果,如图3所示。 第一层对于系统中某一个已知的线索di,将前面算出的csim(d。A d》值与
预先设定的阈值eel比较,如果cw'm(4人4)^&p则进入第二层继续判断;反之,如果
W/W",*,《■) > ^,则判断线索&是与线索d了属于同一个话题,结束判断;
第二层将(3)中算出的csim(d/,di)值与预先设定的阈值9 。2 ( 9 。2与前述e cl 之间需满足关系0< e。2< ej比较,并且将前面计算出的usim(duA d》与预先设定的 阈值9u比较,如果满足pc2 S cw'叫, ^,且,'w(《!.,《.)> 6 则判断线索&是与线索dj属于同一个话题,否则判断线索&描述了一个之前没 有见到过的新话题。 使用上述两层融合判断框架对所有已知线索的话题关系做出判断。注意到话题关 系是可以传递的,即如果线索&与线索dj属于同一个话题,并且线索dj和线索dk属于同 一个话题,则线索&和线索dk也属于同一个话题;进一步可以推出线索di、dj、dk都属于同 一个话题。将所有属于同一个话题的线索放到一起可以形成一个话题线索组,则系统中的 话题形成了若干个话题线索组,将所有的话题线索组作为系统输出。 以上所述,仅为本发明中的具体实施方式
,但本发明的保护范围并不局限于此,任 何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在 本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
9
权利要求
一种在线讨论区话题检测与跟踪方法,包括步骤步骤1采用HTML解析模块对讨论区帖子进行预处理及线索重构;步骤2利用帖子和线索的信息度测量模块对新输入的帖子和相关线索进行信息度检查,并对线索特征向量进行更新;步骤3对线索数据库中的线索的内容文本进行分析;步骤4对线索数据库中的线索的用户行为进行分析;步骤5将线索的内容文本和用户行为的分析结果进行融合,判断线索的话题分类。
2. 按照权利要求1所述的方法,其特征在于,讨论区帖子预处理及线索重构,包括步骤步骤11 :对新输入的讨论区帖子网页进行HTML解析;步骤12 :对HTML解析后的帖子分析其各项属性,包括发帖时间、标题、发帖人、内容和 线索结构信息;步骤13 :对帖子标题和内容进行词法分析,以分解成单词序列,删除停词; 步骤14 :根据帖子的线索结构信息重构出讨论区线索的集合。
3. 按照权利要求1所述的方法,其特征在于,利用帖子和线索的信息度测量模块对新 输入的帖子和相关线索进行信息度检查,包括步骤步骤211 :对于经过预处理的新输入的每一个帖子,用帖子信息度测量器对其进行信 息度检查,输出为有效线索或无效线索;步骤212 :在帖子信息度测量的基础上,对于所有具有新帖子被输入的线索进行信息 度测量,输出为有效线索或无效线索;步骤213 :对于判定为无效的线索,因其当前不包含足够的有用信息,则将暂时忽略无 效的线索。
4. 按照权利要求1所述的方法,其特征在于,对线索特征向量进行更新,包括步骤 步骤221 :对于所有具有新帖子被输入系统的线索,如果被信息度测量判定为有效,则使用位置加权方法更新该线索的词汇频率向量,同时更新全局的文档频率向量;词汇频率 向量和文档频率向量总称为线索的内容文本特征向量;步骤222 :对于所有具有新帖子被输入系统的线索,如果被信息度测量判定为有效,则 更新该线索的用户频率向量,同时更新全局的线索用户频率向量;用户频率向量和线索用 户频率向量总称为线索的用户行为特征向量。
5. 按照权利要求1所述的方法,其特征在于,线索的内容文本分析,包括步骤步骤31 :对于所有已重构出的线索,使用词汇频率对倒排文档频率模型计算线索两两 之间的内容文本相似度;步骤32:对于每一个已重构出的线索,在所有比该线索创建时间早的线索中搜索出与 该线索内容文本相似度最大的那个线索,并记录这个最大的内容文本相似度的值。
6. 按照权利要求1所述的方法,其特征在于,线索的用户行为分析,包括步骤 步骤41 :对于所有已重构出的线索,使用用户频率对倒排线索用户频率模型计算所有已知的线索两两之间的用户行为相似度;步骤42 :对于每一个已重构出的线索,在所有比该线索创建时间早的线索中搜索出与 该线索用户行为相似度最大的那个线索,并记录这个最大的用户行为相似度的值。
7.按照权利要求1所述的方法,其特征在于,将线索的内容文本和用户行为的分析结 果进行融合,判断线索的话题分类,步骤是步骤51 :对于所有已重构出的线索使用两层融合判断框架判断出该线索是否与该线 索之前的某线索属于同一个话题、还是描述了一个新的话题;步骤52:根据步骤51的结果显示的话题关系,将系统中的线索形成若干个话题线索 组,并作为运行结果输出。
全文摘要
本发明涉及计算机网络技术领域,一种在线讨论区话题检测与跟踪方法,包括步骤采用HTML解析模块对讨论区帖子进行预处理及线索重构;利用帖子和线索的信息度测量模块对新输入的帖子和相关线索进行信息度检查,并对线索特征向量进行更新;对线索数据库中的线索的内容文本进行分析;对线索数据库中的线索的用户行为进行分析;将线索的内容文本和用户行为的分析结果进行融合,判断线索的话题分类。本发明鉴于在线讨论区的复杂性,本发明通过结合内容和用户行为的方法较好的解决了在线讨论区话题检测与跟踪问题,具有很好的应用前景。
文档编号H04L12/18GK101751424SQ200810239328
公开日2010年6月23日 申请日期2008年12月10日 优先权日2008年12月10日
发明者吴偶, 朱明亮, 胡卫明 申请人:中国科学院自动化研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1