一种时间序列关联的信息检索方法

文档序号:8258760阅读:441来源:国知局
一种时间序列关联的信息检索方法【
技术领域
】[0001]本发明涉及数据库、数据挖掘、信息检索等领域,尤其涉及时间序列数据分析和挖掘。【
背景技术
】[0002]对于时间序列在文本数据库中的主题信息检索问题,目前还没有公开的解决方法。尽管如此,工业界已经提出了针对时间序列与文本数据的联合分析方法。比如,通过提取文本表达式概括时间序列,可以有效利用时间序列的结构化特征实现时间序列的相似性检索;基于单词动态时间变化性质的相似性分析,能够在较大程度上改进语义相关词汇的查找方法;另外,最新提出的方法通过使用基于词汇时间动态性质计算的权重,可以很好地改进文本检索的质量。但是,以上方法的缺陷在于它们无法实现词汇的动态选择,而导致查询结果对不同时间序列查询的针对性不强。[0003]另外一类最新的联合分析方法是因果主题挖掘方法。该类方法基于概率主题模式,对与输入时间序列有因果关系的文本主题自动建模。然而,该类方法具有复杂的参数评价过程,需要用户具备一定的专家知识,这在实际应用中难以保证。[0004]在金融领域,基于文本数据(如新闻)的股票价格预测方法也被提出。该类方法的主要目标是从文本数据中查找具有预测意义的词汇,并根据它们在出现最频繁的时间段内对股票价格的影响进行标记,进而实现金融时间序列的预测。这类方法大多基于回归和分类的初始化,难以用于解决时间序列在文本数据库的相关主题查询问题。【
发明内容】[0005]本发明要解决的问题是如何以时间序列作为输入,从文本数据库查询出与其相关的文本主题信息。为了解决该问题,本发明提出了时间序列关联的信息检索方法。[0006]本发明的目的是通过以下技术方案实现的:一种时间序列关联的信息检索方法,包括以下步骤:[0007](1)数据预处理,具体包括以下子步骤:[0008](1.1)依次读取文本数据库的每个文本文件d;[0009](1.2)除去文本文件d中所有停用词,并以d的发布时间作为时间戳t对其标记;[0010](1.3)以时间戳t作为索引项,对文本数据库构建B+-树索引I;[0011](2)词汇相关性度量,具体包括以下子步骤:[0012](2.1)按照查询时间序列Q的时间戳顺序,依次从索引I中查询时间戳为&的文本集合Q,构造Q的相关文本集合C;[0013](2.2)对每个文本子集Ci统计词频分布,分别为各词汇termj构造词频时间序列TF-Seque』;[0014](2.3)基于动态时间弯曲距离,分别计算各词频时间序列TF_SeqUej与查询时间序列Q的相似度,作为相应词汇ternij与Q的相关度term_corrj,并构造词汇相关度表table;[0015](3)文本主题相关性度量,具体包括以下子步骤:[0016](3.1)查询词汇相关度表table,获取屯中各词汇与Q的相关度;根据词汇相关度,对屯的所有词汇按照由大到小的顺序排列,保留前N个词汇作为主题词汇集S;计算S中所有词汇相关度的平均值作为文本屯的主题相关度。[0017](3.2)根据文本主题相关度,对C的所有文本文件按照由大到小的顺序排列,保留前k个文本作为查询结果予以返回。[0018]进一步地,所述步骤2.2包括以下子步骤:[0019](2.2.1)分别计算(^中各词汇tern^的出现次数,并作为tern^在时间戳、的词频;[0020](2.2.2)将词汇tern^在所有时间戳的词频依次相连,为其构造词频时间序列。[0021]进一步地,所述步骤2.3包括以下子步骤:[0022](2.3.1)初始化词汇相关度表table,对查询时间序列Q做z-规范化处理,得到Q'{(X1,ti),(X2,tg),???,(Xi,,???,(Xn,tn)};[0023](2.3.2)依次读取相关文本集合C的每条词频时间序列TF_Sequej,并作z-规范化处理,得到TF_Seque'』={(TF,wt),(TF,2j,t2),???,(TF,nj,tn)};[0024](2.3.3)创建动态规划表Tab并对其进行初始化;[0025](2.3.4)依次计算Q'的第1个元素值与TF_SeqUe'』的n个元素值之间的差的绝对值,并存入Tab第1行;[0026](2.3.5)依次计算TF_SeqUe'」的第1个元素值与Q'的n个元素值之间的差的绝对值,并存入Tab第1列;[0027](2.3.6)利用动态规划方法,依次扫描Q'的第2到第n个元素值和TF_Seque'#勺第2到第n个元素值,计算Tab(2:n,2:n)的每个单元值,包括以下子步骤;[0028](2.3.6.1)顺序扫描Q',依次计算其第i个元素值与TF_SeqUe'」的各元素值之差的绝对值;[0029](2.3.6.2)根据先行后列的顺序扫描1&13(2:11,2:11),在每个单元1&匕(1,1)中,首先比较Tab(i-1,1)、Tab(i,1-1)和Tab(i-1,1-1)的大小,选择最小值记为min,然后计算X'i_TF'u|+min的值赋予Table(i,1);[0030](2.3.7)对Tab(n,n)的值取倒数,作为term」的词汇相关度,加入词汇相关度表table〇[0031]本发明的有益效果是:[0032]1、有效解决了时序数据与文本数据的交互查询问题,基于文本主题信息为时间序列波动模式提供了合理的解释,在时序数据与文本数据的联合分析与挖掘任务中具有重要作用。[0033]2、在词汇相关性度量步骤中,基于动态时间弯曲距离的度量方法,可有效克服词频时间序列与查询时间序列在时间轴上的局部伸缩和相位偏移,从而充分考虑了时间序列波动模式与影响因素的因果关系。[0034]3、在文本主题相关度计算步骤中,只基于最相关的若干词汇进行计算,保证了本发明对文本主题信息的敏感性及相关度判断的准确性。【附图说明】[0035]图1为时间序列关联的信息检索方法流程图;[0036]图2基于动态时间弯曲距离计算词汇相关度流程图。【具体实施方式】[0037]下面结合附图对本发明作进一步详细说明。[0038]如图1所示,本发明一种时间序列关联的信息检索方法,包括以下步骤:当前第1页1 2 
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1