文本文件推荐方法及系统的制作方法

文档序号:6400533阅读:227来源:国知局
专利名称:文本文件推荐方法及系统的制作方法
技术领域
本发明涉及互联网领域,尤其涉及一种文本文件推荐方法及系统。
背景技术
互联网技术迅猛发展,网上信息爆炸式增长,用户为了找到自己需要的信息,可能需要花费大量的时间浏览并过滤大量无关信息。为解决这种因信息过载而导致的信息利用率下降的问题,推荐系统在互联网领域得到广泛应用。推荐系统就是,通过建立用户与信息产品之间的二元关系,利用已有的选择过程或相似性关系挖掘每位用户潜在感兴趣的对象,进而进行个性化的推荐,其本质就是信息过滤。目前互联网上基于文本文件内容的推荐系统,是根据用户当前搜索浏览的文本文件,得出当前文本文件的词语特征向量,并与系统中其它待推荐文本文件的词语特征向量计算两者间的相似度,按照计算出的相似度将若干个待推荐文本文件推荐给用户;具体过程如

图1所示,通常包括以下步骤:SlOl:对当前文本文件进行预处理。具体地,在用户搜索、并浏览一个文本文件时,推荐系统将该文本文件作为当前文本文件进行预处理,为后续提取该当前文本文件的词语特征向量做准备。对当前文本文件进行预处理的过程中,包括:对该当前文本文件进行分词、去除停用词后得到当前文本文件的词语集合。分词就是将文本文件中连续的字序列划分为一个个词语的过程;经分词后划分出的词语,再去除停用词,删除如“的”、“呀”等对于文件没有实际意义的词,从而构成该文本文件的词语集合。S102:提取当前文本文件的词语特征向量。具体地,对文本文件预处理后得到的是词语集合;词语集合还不能简洁准确地表示该文本文件的内容信息,还需要通过一定的算法来提取该文本文件的内容特征;当前的文本文件推荐系统,通常采用向量空间模型表征文本文件的内容特征,即词语特征向量。计算文本文件的词语特征向量主要采用的方法可以有TF-1DF (termfrequency-1nverse document frequency,词步页-逆向文件步页率),TextRank 等方法。以下以TF-1DF方法为例,简介相关算法。TF-1DF是一种统计方法,用以评估一个词语对于一个文件集或一个语料库中的一份文件的重要程度。字词的重要性随着它在文件中出现的频数,即TF (Term Frequency,词频)值,成正比增加,但同时会随着它在语料库中出现的频率,即IDF (Inverse DocumentFrequency,逆向文件频率)值,成反比下降。比如,对于某一文本文件R的词语集合中的词语ti;它在该文本文件中重要性可表示为如下公式1: tfl = max{m|k = (L2,...,T)}(公式 1)其中,分子Iii是文本文件R中的第i个词语\出现的频数;
分母maX{nk,j|k= (1,2,…,T) }是文本文件R中所有词语出现的最大次数,T是文本文件R的总词语数。某一特定词语\的IDF值,可以由语料库中总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到,即如下公式2:
权利要求
1.一种文本文件推荐方法,包括: 确定出当前文本文件的词语集合后,确定该词语集合中的每个词语的词频TF值或词频-逆向文件频率TF-1DF值; 根据所述词语集合中的每个词语的TF值或TF-1DF值,确定出所述当前文本文件的隐含主题特征向量,该隐含主题特征向量中的各元素分别为隐含主题集合中各隐含主题在所述当前文本文件中的出现概率; 分别计算所述当前文本文件的隐含主题特征向量与各待推荐文本文件的隐含主题特征向量之间的相似度; 选择隐含主题特征向量与所述当前文本文件的隐含主题特征向量的相似度符合预设的筛选条件的待推荐文本文件进行推荐。
2.如权利要求1所述的方法,其中,所述根据所述词语集合中的每个词语的TF值或TF-1DF值,确定出所述当前文本文件的隐含主题特征向量,具体包括: 将所述词语集合中的各词语的TF值分别作为向量P中的各元素,或者将所述词语集合中的各词语的TF-1DF值分别作为向量P中的各元素后,根据如下公式6确定所述当前文本文件的隐含主题特征向量: Q=PXff (公式 6) 其中,Q为所述当前文本文件的隐含主题特征向量,W是由所述语料库的词语集合中各词语对所述隐含主题集合中各隐含主题变量的出现概率作为元素所构成的矩阵,是预先根据所述语料库中各文本文件进行训练后得到的。
3.如权利要求1所述的方法,其中,所述根据所述词语集合中的每个词语的TF值或TF-1DF值,确定出所述当前文本文件的隐含主题特征向量,具体包括: 在原语料库的基础上,增加所述当前文本文件,形成包括所述当前文本文件、以及各待推荐文本文件的新语料库; 根据所述新语料库中各文本文件的词语集合中的每个词语的TF值或TF-1DF值,运用概率潜在语义分析PLSA模型进行训练,得到Z矩阵;所述Z矩阵是由所述新语料库的各文本文件中各隐含主题变量的出现概率作为元素所构成的矩阵; 根据所述Z矩阵中,所述当前文本文件中各隐含主题变量的出现概率,得到所述当前文本文件的隐含主题特征向量;并根据所述Z矩阵中,各待推荐文本文件中各隐含主题变量的出现概率,分别得到各待推荐文本文件的隐含主题特征向量。
4.如权利要求1-3任一所述的方法,其中,所述分别计算所述当前文本文件的隐含主题特征向量,与各待推荐文本文件的隐含主题特征向量之间的相似度,具体包括: 对于各待推荐文本文件中的一个待推荐文本文件,根据所述当前文本文件的隐含主题特征向量与该待推荐文本文件的隐含主题特征向量之间的夹角,确定所述当前文本文件的隐含主题特征向量与该待推荐文本文件的隐含主题特征向量之间相似度。
5.如权利要4所述的方法,其中,所述根据所述当前文本文件的隐含主题特征向量与该待推荐文本文件的隐含主题特征向量之间的夹角,确定所述当前文本文件的隐含主题特征向量与该待推荐文本文件的隐含主题特征向量之间相似度,具体包括: 根据如下公式5确定所述当前文本文件的隐含主题特征向量与该待推荐文本文件的隐含主题特征向量之间相似度:
6.如权利要求1-3任一所述的方法,其中,所述选择隐含主题特征向量与所述当前文本文件的隐含主题特征向量的相似度符合预设的筛选条件的待推荐文本文件进行推荐,具体为: 将计算出的相似度进行大小排序,选择出排序在前的设定个数的相似度作为符合所述筛选条件的相似度,将符合所述筛选条件的相似度所对应的待推荐文本文件进行推荐;或者 选择出大于或等于设定阈值的相似度作为符合所述筛选条件的相似度,将符合所述筛选条件的相似度所对应的待推荐文本文件进行推荐。
7.一种文本文件推荐系统,包括: 词语集合确定模块,用于确定当前文本文件的词语集合; 特征值确定模块,用于确定所述词语集合中的每个词语的TF值或TF-1DF值; 隐含主题特征向量确定模块,用于根据所述特征值确定模块确定的TF值或TF-1DF值,确定出所述当前文本文件的隐含主题特征向量,该隐含主题特征向量中的各元素分别为隐含主题集合中各隐含主题在所述当前文本文件中的出现概率; 相似度计算模块,用于分别计算所述当前文本文件的隐含主题特征向量与各待推荐文本文件的隐含主题特征向量之间的相似度; 推荐模块,用于选择隐含主题特征向量与所述当前文本文件的隐含主题特征向量的相似度符合预设的筛选条件的待推荐文本文件进行推荐。
8.如权利要求7所述的系统,其中,所述隐含主题特征向量确定模块具体包括: 赋值单元,用于将所述词语集合中的各词语的TF值分别作为向量P中的各元素,或者将所述词语集合中的各词语的TF-1DF值分别作为向量P中的各元素; 隐含主题特征向量计算单元,用于根据所述向量P以及如下公式确定所述当前文本文件的隐含主题特征向量:Q=PXW;其中,Q为所述当前文本文件的隐含主题特征向量,W是由所述语料库的词语集合中各词语对所述隐含主题集合中各隐含主题变量的出现概率作为元素所构成的矩阵,是预先根据所述语料库中各文本文件进行训练后得到的。
9.如权利要求7所述的系统,其中,所述隐含主题特征向量确定模块具体包括: 语料库更新单元,用于在原语料库的基础上,增加所述当前文本文件,形成包括所述当前文本文件、以及各待推荐文本文件的更新后的新语料库; 训练单元,用于根据所述新语料库中各文本文件的词语集合中的每个词语的TF值或TF-1DF值,运用PLSA模型进行训练,得到Z矩阵;其中,所述Z矩阵是由所述新语料库的各文本文件中各隐含主题变量的出现概率作为元素所构成的矩阵;隐含主题特征向量确定单元,用于根据所述Z矩阵中,所述当前文本文件中各隐含主题变量的出现概率,得到所述当前文本文件的隐含主题特征向量;并根据所述Z矩阵中,各待推荐文本文件中各隐含主题变量在的出现概率,分别得到各待推荐文本文件的隐含主题特征向量。
10.如权利要求7所述的系统,其中,所述推荐模块具体包括: 排序单元,用于将计算出的相似度进行大小排序; 选择单元,用于选择出排序在前的设定个数的相似度作为符合所述筛选条件的相似度,将符合所述筛选条件的相似度所对应的待推荐文本文件进行推荐;或者选择出大于设定阈值的相似度作为符合所述筛选条件的相似度,将符合所述筛选条件的相似度所对应的待推荐文本文件进行推荐。
全文摘要
本发明公开了一种文本文件推荐方法及系统,所述方法包括确定出当前文本文件的词语集合后,确定该词语集合中的每个词语的TF值或TF-IDF值,确定出当前文本文件的隐含主题特征向量,分别计算所述当前文本文件的隐含主题特征向量与各待推荐文本文件的隐含主题特征向量之间的相似度,选择隐含主题特征向量与所述当前文本文件的隐含主题特征向量的相似度符合预设的筛选条件的待推荐文本文件进行推荐。由于隐含主题特征向量来计算文本文件之间相似度,从而使得文本文件推荐系统的推荐方法更加准确。
文档编号G06F17/27GK103207899SQ20131008857
公开日2013年7月17日 申请日期2013年3月19日 优先权日2013年3月19日
发明者刘洋 申请人:新浪网技术(中国)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1