一种面向微博检索的基于时间的微博文档扩展方法与流程

文档序号:13083682阅读:124来源:国知局
技术领域本发明涉及一种微博文档扩展方法,涉及微博检索技术领域。

背景技术:
随着社交媒体和移动互联网的迅速发展,以微博为代表的短文本信息流的处理技术变得越来越重要。面对海量微博和众多用户及其多样性的信息需求,短文本社交媒体的检索已经成为互联网应用不可或缺的重要组成部分。短文本检索的主要问题在于内容过少,例如一般情况下,一条微博由140个字符组成。这使得与查询相关的微博难以仅仅通过原始微博中的词与查询词的匹配被检索到。如何将与微博相关的词加入到原始微博中,丰富微博文档模型,减轻词不匹配的问题,是提升微博检索性能的一个基础手段。在传统的文本检索和Web搜索中,待检索文档比较长,所以文档建模一般不是检索研究中的主要问题。而微博与传统的网页相比,长度非常短,140个字符/汉字的长度限制使得待检索微博本身直接影响了传统检索的性能。首先,文档过短使得文档只在少数索引词上具有权重,这使得查询词不出现在相关文档中的可能性变得更大,词的不匹配问题更加严重。其次,由于在微博中大多数词只出现了一次,因此作为估计文档模型重要依据的词频信息严重失效,使得文档模型难以被准确地估计。此外,微博中用词随意,拼写错误等进一步加剧了上述两种问题。在现有信息检索研究中,文档建模的一个主要研究问题是文档扩展,通过扩展更多的索引词,提供更丰富的信息来更准确地估计一个文档,更好地与查询词匹配,从而提升文本检索的性能。在各种文档扩展方法中,基于文本内容扩展文档是主要方法。其基本思路是,应用与待扩展的文档相似的文档集合估计文档模型。这些用于文档扩展的相似文档可能来自文档的内容近邻、文档集上的聚类或是主题模型构建的主题等。然而在微博文档的扩展中,由于微博很短,使得相似性计算并不十分准确,这对基于内容的文档扩展产生了不利的影响,削弱了文档扩展对估计微博文档模型的作用,从而限制了检索性能的提升。此外,在微博环境下,新话题层出不穷,离线的聚类或主题难以准确表示新话题,在线的聚类或主题的生成代价较高,较难在微博环境下实现,也制约了这类方法在微博检索中的应用。近期研究表明,由于微博快速分享、传播信息的特点,相关微博往往在较短时间内集中发布的特性有助于改善微博检索的性能。然而,这些研究主要集中在查询与微博的相关度计算或查询扩展上,据我们所知,还没有将时间特性引入到文档扩展的相关研究。

技术实现要素:
本发明为了解决微博短给文档扩展带来的不利影响,会削弱文档扩展对估计微博文档模型的作用,从而限制微博检索性能的提升的问题,进而提供了一种面向微博检索的基于时间的微博文档扩展方法。本发明为解决上述技术问题采取的技术方案是:所述面向微博检索的基于时间的微博文档扩展方法是利用相关微博的爆发性和近邻性这两个时间特性来实现文档扩展,其过程为:步骤一、基于时间的文档扩展模型的构建给定一条微博d,设利用时间爆发性获得的文档扩展模型为利用时间近邻性获得的文档扩展模型为基于和定义基于时间的文档扩展模型如公式(3-5)所示:P(w|θde)=ηP(w|θt-bd)+(1-η)P(w|θt-nd)---(3-5)]]>其中η用于控制基于时间爆发性的文档扩展与基于时间近邻性的文档扩展对最终文档扩展模型的影响程度;和分别使用爆发期内的微博或时间近邻微博的语言模型θt来估计,其形式为:P(w|θtd)=1z∫tγ(t,d)*P(w|θt)dt---(3-6)]]>其中,θt为t时刻发布的微博的语言模型,γ(t,d)表示θt对d的近邻语言模型估计的影响程度;用以保证使用时间片段上的语言模型对做近似估计,设微博集合为C,将C中的微博按照发布时间划分为若干个微博子集Ct,将Ct内全体微博建立的语言模型标记为利用时间片段上的语言模型,公式(3-6)可以近似估计为:P(w|θtd)=1zΣtγ(t,d)*P(w|θts)---(3-7)]]>其中t指的是一个时间片段,的估计形式上利用了每个时间片段上的微博语言模型通过γ(t,d)可决定哪些微博对的估计产生影响以及产生多大的影响;根据上述基于时间的文档扩展并应用公式(3-4),则基于时间的微博文档模型可估计为:P(w|θd)=(1-λ)[(1-δ)Pml(w|d)+δ(ηP(w|θt-bd)+(1-η)P(w|θt-nd))]+λP(w|C)---(3-8)]]>其中,和分别为使用爆发期内的微博或时间近邻微博的语言模型θt来估计;步骤二、利用词在爆发期内的微博上的分布获得文档扩展词的权重,实现基于时间爆发性的文档扩展在公式(3-7)中,通过估计γ(t,d)使爆发期内的微博在文档扩展中占有更重要的地位;从概率的角度估计γ(t,d),定义γ(t,d)=P(t|d);给定一条微博,P(t|d)表示每个时间段t对d的重要程度,描述人们在不同时间段使用文档d中的词的频繁程度,反映d的内容在不同时间段的热门程度;根据贝叶斯定理:γ(t,d)=P(t|d)=P(d|t)P(t)P(d)---(3-9)]]>假定时间段相互独立且每个时间段的先验概率P(ti)相同,由全概率公式:P(d)=Σti∈TP(d|ti)P(ti)=P(t)Σti∈TP(d|ti)---(3-10)]]>则:P(t|d)=P(d|t)Σti∈TP(d|ti)---(3-11)]]>通过公式(3-11),估计P(t|d)被转化为估计P(d|t);P(d|t)表示从时间段t内发布的微博所含的全部词的集合中生成d的概率,P(d|t)度量了d的内容在某一时间t内的热门程度,即时间段t上d的词被使用的条件概率可应用这段时间内发布的全体微博的语言模型来度量;设文档中的词彼此独立,采用最大似然估计的语言模型,P(d|t)表示为:P(d|t)=P(d|θts)=Πw⋐dP(w|θts)c(w,d)---(3-12)]]>将公式(3-10)、(3-11)、(3-12)代入(3-7),则基于时间爆发性的文档扩展模型估计为:P(w|θt-bd)=1z′ΣtP(t|d)*P(w|θts)=1z′ΣtP(d|θts)*P(w|θts)=1z′ΣtP(w|θts)*Πw′⋐dP(w′|θts)c(w′,d)---(3-13)]]>其中c(w,d)表示w在文档中出现的次数,z’是归一化因子,保证基于时间爆发性的文档扩展模型利用的是扩展词w和待扩展文档d在每个时间段上共现的概率和在爆发期的时间片段上使用较多的词会对文档模型的估计产生较大的影响;步骤三、利用词在时间近邻的微博上的分布获得文档扩展词的权重,从而实现基于时间近邻性的文档扩展基于一条微博周围的相关微博数量与时间之间呈现正态分布,据此将γ(t,d)定义为:γ(t,d)=12πe-(td-t)22---(3-14)]]>其中td为d的发布时间;由公式(3-14),则可以估计为:P(w|θt-nd)=1zΣt12πe-(td-t)22P(w|θts)---(3-15)]]>公式(3-15)利用时间的近邻性,离微博d的发布时间越近的时间段的语言模型在估计文档模型时将具有更高的权重,受到与文档d邻近的时间片段语言模型的影响;步骤四、基于机器学习的方法选择查询扩展词。在步骤四中,基于机器学习的方法选择查询扩展词的具体过程为:选择含有URL的微博作为训练数据的来源,将微博d所包含的URL的网页中出现的词wURL标记为d“好”的扩展词,构成一个正例样本将不出现在URL网页中的词wn标记为d的“不好”的扩展词,构成一个反例样本其中x为微博中的词w对应的特征向量;基于上述训练用例,将扩展词的选择看作一个分类问题,目标是学习一个分类器选择扩展词;使用逻辑回归(LogisticRegression,LR)模型作为分类器;逻辑回归函数表示为:H(w,d)=fv,b(xw,d)=11+e-(vTxw,d+b)---(3-16)]]>其中,v为特征向量x的权重,b是偏移量;H(w,d)表示w是文档d的“好”的扩展词的概率;当H(w,d)>0.5时,则将w作为扩展词,否则过滤掉这个词;将损失函数定义为:L(v,b)=-1nΣi=1ncost(fv,b(xw,d(i)),y(i))---(3-17)]]>其中在每个训练样本上的损失为:cost(fv,b(xw,d),y)=-ylog(fv,b(xw,d))-(1-y)log(1-fv,b(xw,d))(3-18)在参数训练的时候,使用了随机梯度下降法来最小化损失函数L(v,b)以估计参数v和b;对于每一个训练样例(x(i),y(i)),v和b将按照下面的公式更新:v=v+α*(1-δ)*(y(i)-fv,b(xw,d))*x(i)(3-19)b=w+α*(1-δ)*(y(i)-fv,b(xw,d))*b(3-20)其中α为学习速率。在步骤一中,所述时间片段可按固定时间间隔1分钟,15分钟,30分钟,1小时,12小时,1天或2天来划分的时间段。本发明的有益效果是:本发明利用相关微博的时间特性扩展文档,据此提出了基于时间的微博文档模型。该模型综合考虑了相关微博整体在时间上呈现的爆发性和个体在时间上呈现的近邻性特点,利用词在爆发期内的微博和时间近邻的微博上的分布获得文档扩展词的权重,并提出了基于机器学习的方法选择查询扩展词,进而估计更准确的文档模型。此外,为降低文档扩展的时间开销,使基于时间的文档模型更具实用性,本发明给出了两个时间文档模型的简化估计方法。本发明方法能更好地避免了微博短给文档扩展带来的影响。本发明关注微博的文档建模,在微博检索环境下利用相关文档在时间上的分布特点对文档扩展,估计更准确的文档模型,降低微博内容短为微博检索带来的不利影响,提升微博检索的性能。本发明提出的基于时间的文档扩展模型与传统文档扩展模型相比,主要区别在于:(1)根据时间特性估计扩展词的权重,权重由时间爆发期的文档和待扩展文档的时间近邻文档的分布来估计,而不是根据词在文档所属聚类或文档的内容近邻上的分布来估计。(2)扩展词依靠机器学习方法选择,而不是根据词在文档的聚类或内容近邻上的分布排序,设定前n个词作为扩展词。本发明提出的基于时间的文档模型在TREC2011和TREC2012微博检索评测数据上进行了实验。TREC2011和TREC2012共有110个查询,编号是从1到110。实验结果展示,本发明提出的方法优于同类其他文档扩展方法。附图说明图1是相关微博的时间爆发性曲线图,图1以4个查询(查询1、4、14、20)为例,以自然天为单位,描述了每一天相关微博数量的变化。4个查询是上述110个查询中的4个查询,查询输入的内容分别是:查询1:bbcworldservicestaffcut查询4:mexicodrugwar查询14:releaserite查询20:tacobellfilllawsuit;图2是对图1所示的4个查询的相关微博的发布时间间隔进行了统计,其中,x轴以天为单位,y轴对应了时间间隔等于x天的相关微博的数量。例如:图2查询1中圆圈标注的点(1,275)表示相关微博之间的时间间隔是1天的数目为275对。图3是本发明所述方法的整体框架图(原理示意图)。具体实施方式具体实施方式一:如图1至3所示,本实施方式针对所述的面向微博检索的基于时间的微博文档扩展方法进行详细描述如下:本实施方式在第1部分分析了相关微博的时间特性。在第2部分提出了基于时间的文档扩展模型,给出了基于时间爆发性的文档扩展和基于时间近邻性的文档扩展,并给出了基于机器学习的文档扩展词选择方法。本实施方式还给出了两个优化时间开销的时间文档语言模型以及介绍了实验数据、评价指标、基线方法和模型的训练,给出了实验结果及分析。1、相关微博的时间特性分析本节以TREC微博评测的110个查询的9251条相关微博为例,分析每个查询下相关微博的时间分布特性。1.1相关微博的时间爆发性首先分析时间的爆发性。图1以4个查询(查询1、4、14、20)为例,以自然天为单位,描述了每一天相关微博数量的变化。观察图1可以发现,对于一个查询而言,大多数的相关微博集中在一个或几个时间片段内发布,本发明将这种现象称为相关微博的时间爆发性,将相关微博集中发布的时间片段称为爆发期。时间爆发性是相关微博整体在时间上呈现的性质。显然,爆发期内的相关微博在数量上远大于非爆发期,因此与该查询相关词在该查询爆发期内出现的概率会明显高于在非爆发期内出现的概率。1.2相关微博的时间近邻性下面分析时间的近邻性。图2对图1所示的4个查询的相关微博的发布时间间隔进行了统计,其中,x轴以天为单位,y轴对应了时间间隔等于x天的相关微博的数量。例如:图2查询1中圆圈标注的点(1,275)表示相关微博之间的时间间隔是1天的数目为275对。时间近邻性是从微博个体角度观察到的时间性质。从图2中可以看出,一条与查询相关的微博的附近存在较多该查询的其他相关微博,相关微博间的时间距离往往很短,一般集中在几天,即绝大部分相关微博在时间上是邻近的。本发明将这种现象称为相关微博的时间近邻性(timeneighborhood)。时间近邻性意味着给定一条微博,与该微博查询相关的词在其邻近的时间段内的概率会高于在与它较远的时间段内的概率。表1展示了时间爆发性和近邻性在TREC给出的9251条相关微博上的统计结果。表中每行的行标题所示的百分比为相关微博数目占全部相关微博数目的百分比,每列的标题为相关微博集中发布的天数。例如,表中第三行第四列的数字89(斜体加黑)表示有89个查询在爆发期最高的3天内的相关微博数超过了相关微博总数的40%。第三行第九列的104(斜体加黑)表示有104个查询,相关微博之间的时间间隔小于3天的数量占总数量的30%以上。表1TREC微博检索评测数据的时间特性统计Table3-1StatisticoftemporalprofileonTRECmicroblogretrievaldata-set从表1中可以看出,时间爆发性和近邻性在微博检索中并非偶然现象,大部分相关微博都具有这两种性质。为了进一步考察时间特性,本发明对查询的时间特性进行了人工标注。我们将相关微博在时间上分布的图像展示给5个标注员。如果他认为检索结果明显集中在一个或者多个时间段内,则标记为具有时间特性或不具备时间特性。5个标注员分别对109个查询进行了标注。通过对5组标注结果的统计显示,标注结果完全一致的查询数目为88,标注为具有时间特性的查询数目为69,不具有时间特性的查询为19。接着,对每个查询的相关微博分别计算均值及方差。细节上,以天为单位,统计每天发布的相关微博数量,以每一天上相关微博数目与该查询全部相关微博的比值来表示这个相关微博的时间分布。进而,我们根据相关微博的时间分布,应用统计指标“均值”和“方差”,来计算每个查询的相关微博的时间分布的变化差异性。统计结果如表2所示:表2TREC微博评测数据的相关微博的时间分布的统计信息通常情况下,如果一个分布的波动较大,那么其方差便会较大。对于一个查询的相关微博而言,如果相关微博在时间上的分布的方差越接近于0,则该查询的相关微博的时间分布越趋向于均匀分布。也就是说,该查询对应的相关微博在时间上的分布不随时间而变化。反之,如果相关微博在时间上的分布的方差越大,则表明在不同时段上,相关微博的数目差异较大。从表2中可以看出,具有时间特性和不具有时间特性的查询的相关微博在时间分布概率的均值上比较接近,但具有时间特性的查询明显具有较大的方差。这个方差表示了相关微博数量在时间上的波动幅度较大,时间特性明显。上述观察到的现象可以总结如下:大部分相关微博集中在较短的时间内发布,即相关微博在不同时刻出现的概率是不同的,这体现为相关微博的时间爆发性。这意味着,在一条微博的爆发期内,与该微博相关的词出现的概率比较高。彼此相关的微博在发布时间上比较接近,这体现为相关微博的时间近邻性。这意味着,在一条微博的时间近邻的微博中,与该微博相关的词出现的概率比较高。上述统计数据说明对于一条微博,与它相关的微博具有较强的时间特性。然而,在传统的文档扩展方法中,只关注了内容相关的特性,这种相关微博的时间特性并没有得到关注。2、基于时间的微博文档模型的构建根据1节的分析可以看出,相关的微博在时间上具有两个特点:爆发性和近邻性。时间爆发性从整体上展现了相关微博在时间上的分布特点,时间近邻性则展现了文档个体之间在时间上的关系。这意味着,相关微博出现在爆发期内的概率要高于非爆发期,同时,在一条微博发布时间附近发布的微博是当前微博的相关微博的概率也高于其他时间上发布的微博是相关微博的概率。因此,本发明尝试利用相关微博的时间特性实现文档扩展,通过词在爆发期内微博和近邻微博上的分布扩展文档,进而估计更准确的文档模型。首先介绍文档语言模型,然后提出了基于时间的微博文档模型,最后给出基于时间爆发性的文档语言模型的估计和基于时间近邻性的文档语言模型的估计。2.1文档语言模型框架在信息检索的语言模型框架下,通常根据查询在文档语言模型上的似然来排序文档,即查询Q和文档d的相似度用查询生成文档的概率P(d|Q)估计。在P(d|Q)上使用贝叶斯法则,根据词的独立性假设并略去对文档排序不造成影响的因素,P(d|Q)的估计如下:P(d|Q)∝P(Q|d)P(d)=P(d)P(q1,q2,....qn|θd)=P(d)Πi=1nP(qi|θd)---(3-1)]]>其中,d为文档,Q为查询,qi为查询Q的第i个查询词,θd为d的文档语言模型,n是查询词个数。这一检索模型被称为查询似然模型(QueryLikelihoodModel)。查询似然模型的基本任务是估计一个文档模型。Zhai和Lafferty指出,准确的估计文档模型对于提高信息检索的性能而言十分重要。在查询似然模型中,文档模型P(w|θd)的估计一般采用最大似然方法,并应用全局集合的信息来平滑文档。这些方法通常应用最大似然估计的模型和使用全局集合的语言模型的线性插值来估计文档模型,例如使用JM(Jelinek-Mercer)平滑方法:P(w|θd)=(1-λ)Pml(w|d)+λPml(w|C)(3-2)其中Pml(w|d)是模型的最大似然估计,C代表整个文档集合,Pml(w|C)是集合的语言模型,因子λ用来控制每个模型的影响。平滑技术利用词在整个文档集合的分布信息来解决数据稀疏问题,Pml(w|d)和Pml(w|C)分别代表应用最大似然估计的w在d和C中的概率,即:Pml(w|d)=count(w,d)|d|,Pml(w|C)=count(w,C)|C|---(3-3)]]>其中|D|和|C|分别是文档和文档集合所包含的词项的数目,count(w,d)和count(w,C)分别是w在文档d和文档集合C中出现的次数。在微博检索中,检索对象为微博,微博d很短,对于大部分微博,公式(3-3)中count(w,d)要么是0,要么是1。这使得文档语言模型的估计主要依赖于词是否在文档上出现,这给文档语言模型的估计带来了极大的偶然性,甚至变得不再可靠。另一方面,对于文档集合C,C独立于文档d,无法提供与d相关的信息。为此,通常对公式(3-2)的前一项加以扩展,通过为与d密切相关文档建立的扩展的文档模型估计更准确的d的文档模型,其一般形式为:P(w|θd)=(1-λ)[(1-δ)Pml(w|d)+δP(w|θde)]+λP(w|C)---(3-4)]]>其中,称为文档扩展模型。本发明研究将在公式(3-4)提出的框架下开展,重点关注的是如何利用时间特性来建立文档扩展模型。在语言模型框架下,相关研究通过估计来获得更准确的文档模型θd。在各种对的不同估计方法中,基于内容的文档扩展是估计的主要方法。在基于内容的文档扩展方法中,应用与待扩展的文档相似的文档集合估计是常用的方法。这些相似文档可能来自文档的内容近邻、文档集上聚类或是主题模型构建的主题等。然而在微博环境下,过短的微博导致的相似性计算的不准确性使这些方法受到了显著的影响。为获得更准确的文档扩展模型的估计,避免基于内容的方法在微博文档扩展中受到的短文本的限制,本发明尝试利用时间特性估计其整体框架如图3所示。2.2基于时间的文档扩展模型基于第1部分的分析说明,给定一条微博d,与之相关的微博主要集中在爆发期或其临近的时间上。本发明尝试利用相关微博的这些时间特性来重估文档模型。设利用时间爆发性获得的文档扩展模型为利用时间近邻性获得的文档扩展模型为基于和定义基于时间的文档扩展模型如公式(3-5)所示:P(w|θde)=ηP(w|θt-bd)+(1-η)P(w|θt-nd)---(3-5)]]>其中η用于控制基于时间爆发性的文档扩展与基于时间近邻性的文档扩展对最终文档扩展模型的影响程度。和分别使用爆发期内的微博或时间近邻微博的语言模型θt来估计,其一般形式为:P(w|θtd)=1z∫tγ(t,d)*P(w|θt)dt---(3-6)]]>其中,θt为t时刻发布的微博的语言模型,γ(t,d)表示θt对d的近邻语言模型估计的影响程度。用以保证直接使用每个时刻发布的微博的语言模型θt估计存在两个问题:一是每个时刻上发布的微博数量较少,据此建立的语言模型不够精确;二是计算成本太高。为了解决这两个问题,本发明提出使用时间片段上的语言模型对做近似估计。设微博集合为C,将C中的微博按照发布时间划分为若干个微博子集Ct,将Ct内全体微博建立的语言模型标记为利用时间片段上的语言模型,公式(3-6)可以近似估计为:P(w|θtd)=1zΣtγ(t,d)*P(w|θts)---(3-7)]]>其中t指的是一个时间片段,比如按固定时间间隔(例如1天)划分的时间段。在不引起歧义的情况下,本发明随后部分的t均指时间片段。从公式(3-7)中可以看出,的估计形式上利用了每个时间片段上的微博语言模型但通过γ(t,d),可以决定哪些微博对的估计产生影响以及产生多大的影响。根据上述基于时间的文档扩展,应用公式(3-4),则基于时间的微博文档模型可以估计为:P(w|θd)=(1-λ)[(1-δ)Pml(w|d)+δ(ηP(w|θt-bd)+(1-η)P(w|θt-nd))]+λP(w|C)---(3-8)]]>其中,和分别为使用爆发期内的微博或时间近邻微博的语言模型θt来估计。2.3基于时间爆发性的文档扩展时间爆发性表明,处在爆发期的微博是相关微博的概率更大,因此,应该给予处在爆发期的微博更高的权重。在公式(3-7)中,可以通过γ(t,d)使爆发期内的微博在文档扩展中占有更重要的地位。本发明从概率的角度估计γ(t,d),定义γ(t,d)=P(t|d)。给定一条微博,P(t|d)表示每个时间段t对d的重要程度,描述了人们在不同时间段使用文档d中的词的频繁程度,反映了d的内容在不同时间段的热门程度。直接估计文档的时间分布P(t|d)比较困难,根据贝叶斯定理:γ(t,d)=P(t|d)=P(d|t)P(t)P(d)---(3-9)]]>假定时间段相互独立且每个时间段的先验概率P(ti)相同,由全概率公式:P(d)=Σti∈TP(d|ti)P(ti)=P(t)Σti∈TP(d|ti)---(3-10)]]>则显然:P(t|d)=P(d|t)Σti∈TP(d|ti)---(3-11)]]>通过公式(3-11),估计P(t|d)被转化为估计P(d|t)。P(d|t)表示从时间段t内发布的微博所含的全部词的集合中生成d的概率。P(d|t)越大,表示在时间段t上d中的词被使用的越频繁。换言之,P(d|t)度量了d的内容在某一时间t内的热门程度,既时间段t上d的词被使用的条件概率,可以应用这段时间内发布的全体微博的语言模型来度量。设文档中的词彼此独立,采用最大似然估计的语言模型,P(d|t)可以表示为:P(d|t)=P(d|θts)=Πw⋐dP(w|θts)c(w,d)---(3-12)]]>将公式(3-10)、(3-11)、(3-12)代入(3-7),则基于时间爆发性的文档扩展模型可以估计为:P(w|θt-bd)=1z′ΣtP(t|d)*P(w|θts)=1z′ΣtP(d|θts)*P(w|θts)=1z′ΣtP(w|θts)*Πw′⋐dP(w′|θts)c(w′,d)---(3-13)]]>其中c(w,d)表示w在文档中出现的次数,z’是归一化因子,保证从公式(3-13)中可以看出,基于时间爆发性的文档扩展模型本质上利用的是扩展词w和待扩展文档d在每个时间段上共现的概率和那些在爆发期的时间片段上使用较多的词将会对文档模型的估计产生较大的影响。2.4基于时间近邻性的文档扩展时间近邻性意味着一条相关微博发布时间的周围聚集着较多的相关微博,应该给予文档d邻近的时间段更高的权重。由图2可以看出,一条微博周围的相关微博数量与时间之间呈现出一种近似的正态分布关系,据此将γ(t,d)定义为:γ(t,d)=12πe-(td-t)22---(3-14)]]>其中td为d的发布时间。由公式(3-14),则可以估计为:P(w|θt-nd)=1zΣt12πe-(td-t)22P(w|θts)---(3-15)]]>公式(3-15)利用了时间的近邻性,离微博d的发布时间越近的时间段的语言模型在估计文档模型时将具有更高的权重。这意味着,主要受到与文档d邻近的时间片段语言模型的影响。2.5扩展词的选择在传统的文档扩展中,词的概率为扩展词的选择提供依据,扩展词一般选择前n个概率最高的词。然而,在本发明的方法中,由于在同一时间段发布的微博既可能含有d的相关微博也可能含有d的不相关微博,爆发期或近邻的时间段中的词很多是与待扩展文档无关的词,概率高的词未必就是与d相关的词。为最小化d的不相关微博所含词项对d的文档扩展模型的估计产生的不利影响,本发明进一步提出了基于机器学习的扩展词选择方法,过滤与d话题无关的词,在文档扩展中选择与d相关的“好”的扩展词。在这里描述训练数据的标注、基于机器学习的分类算法以及所使用的特征。对于给定的一条微博,哪些扩展词可能是“好”扩展词?本发明注意到大约有20%的微博包含URL链接。这些URL的网页信息绝大部分是与微博内容相关的信息。研究表明,利用URL链接信息进行文档扩展有利于改善微博检索的性能[44]。URL链接的网页信息是对当前微博内容的补充和进一步说明,可视为当前微博的一个理想的扩展模型。基于此,本发明选择含有URL的微博作为训练数据的来源。将微博d所包含的URL的网页中出现的词wURL标记为d“好”的扩展词,构成一个正例样本将不出现在URL网页中的词wn标记为d的“不好”的扩展词,构成一个反例样本其中x为微博中的词w对应的特征向量。基于上述训练用例,本发明将扩展词的选择看作一个分类问题,目标是学习一个分类器选择扩展词。以往研究表明,逻辑回归(LogisticRegression,LR)模型是有效的分类模型。鉴于微博数量巨大,而逻辑回归模型的时间和空间复杂度都较低,本发明使用该模型作为分类器。逻辑回归函数可以表示为:H(w,d)=fv,b(xw,d)=11+e-(vTxw,d+b)---(3-16)]]>其中,v为特征向量x的权重,b是偏移量。H(w,d)表示w是文档d的“好”的扩展词的概率。当H(w,d)>0.5时,则将w作为扩展词,否则过滤掉这个词。将损失函数定义为:L(v,b)=-1nΣi=1ncost(fv,b(xw,d(i)),y(i))---(3-17)]]>其中在每个训练样本上的损失为:cost(fv,b(xw,d),y)=-ylog(fv,b(xw,d))-(1-y)log(1-fv,b(xw,d))(3-18)在参数训练的时候,使用了随机梯度下降法来最小化损失函数L(v,b)以估计参数v和b。对于每一个训练样例(x(i),y(i)),v和b将按照下面的公式更新:v=v+α*(1-δ)*(y(i)-fv,b(xw,d))*x(i)(3-19)b=w+α*(1-δ)*(y(i)-fv,b(xw,d))*b(3-20)其中α为学习速率。表3描述了分类器所用的特征。表3分类特征以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1