本发明涉及信息推荐领域,更具体地,涉及一种文献投递对象选择系统。
背景技术:
由于网络信息的巨大增长和复杂度的日益增加,用户很难从海量数据中准确地查找到他们想要的信息,尤其是对于研究者们来说,想要及时了解所研究领域的动态,有时并非易事。如今,世界上许多新知识主要以数字形式表现并存储在数字图书馆(digitallibraries)系统中,所以数字图书馆正在进入一个黄金时代。这样的数据图书馆,在科技领域中,有如acmlibrary、ieeelibrary等。然而随着科技的发展和信息的不断增长,这些趋势的产生导致了一个不可避免的问题——信息过载。例如,研究者们想要选择合适的出版物发表论文时,发现大量的出版物与他们的查询查询匹配,但是在很大程度上与它们的实际需求无关,这种情况让他们在选择上无所适从。故研究者们急需一个论文推荐系统,帮助他们选择合适的出版物。
技术实现要素:
有鉴于此,本发明提供了一种文献投递对象选择系统,其特征在于,包括信息提取模块、信息管理模块、信息分析模块和信息整理反馈模块;
信息提取模块包括信息交换路径下载单元、查询方案单元、页面信息提取单元、分析储存单元四个单元,各个单元独立,顺序执行;
信息交换路径下载单元包括提取装置、筛选装置、标准化装置和去重装置;
提取装置用elfhash函数对html页面的代码进行信息交换路径提取;
筛选装置将不需要的信息交换路径直接删除,将需要的信息交换路径进行保存;
标准化装置将所有信息交换路径转化为绝对地址;
去重装置通过创建hash表和hash函数进行网址去重;
信息交换路径下载单元负责对html页面中的所有信息交换路径进行提取、整理,作为查询方案单元的输入;
查询方案单元对信息交换路径提取单元提取的网址进行下载,获得网址的页面上的信息交换路径;对网址进行下载时,使用宽度优先方案;
页面信息提取单元负责提取网址的页面上的关键信息,包括文章的题目、摘要和作者;
信息分类单元负责将网址的页面上的关键信息按出版物的类别分类存储,并对摘要进行预处理后,形成倒排索引表;
信息提取模块将提取的信息存入信息管理模块;
信息管理模块负责定义信息管理标准,选定适合的信息存储方式,并根据信息管理标准和信息存储方式定义信息访问通道;
用户通过信息访问通道访问信息管理模块,通过图形界面进行处理流程定义,产生的处理流程定义通过信息访问通道保存在信息管理模块中;
信息管理模块根据处理流程定义,产生信息处理执行计划;
信息分析模块,按照信息处理执行计划,对信息管理模块中的信息进行预处理,预处理包含了大小写转换、分词、停用词过滤和词干提取四个步骤;
对信息进行大小写转换处理,将信息中的所有的字母转换为小写字母;
对信息进行分词处理,以空格、标点符号、段落为分割符,将信息分隔成独立的单词;
对信息进行提取词干过滤处理,过滤掉拥有相同词根但是时态不同的单词的过去式形态;
对信息进行停用词过滤处理,过滤掉信息中的助动词、介词、连接词和感叹词;
信息整理模块,将信息向量化,每一个网址的页面上的关键信息的信息对应一个特征向量;
信息反馈模块,比较用户给出的文章摘要的信息信息和倒排索引表中的摘要的信息信息,通过公式一计算两者的相似度:
公式一:
其中,β代表用户给出的文章摘要的信息信息和倒排索引表中的摘要的信息信息之间的相似度,w1j、w2j分别表示用户给出的文章摘要的信息信息对应的特征向量和倒排索引表中的摘要的信息信息对应的特征向量中,第j个维度项的数值,j和n均为正整数,j≤n;
根据相似度,由高到低来排列倒排索引表中的摘要,获取对应摘要所在的网址的页面上的关键信息。
本发明的有益成果为:本发明提供了一种文献投递对象选择系统,能帮助用户选择合适的投稿的期刊,避免投递一个错误的期刊引起的拒稿、延期或者出版后读者很少的情况,具有广阔的市场前景和应用价值。
附图说明
图1在mi特征选择模型下,推荐三类选取不同数量的特征后,在训练集和测试集上的准确率的变化情况图;
图2在ig特征选择模型下,推荐三类选取不同数量的特征后,在训练集和测试集上的准确率的变化情况图;
图3在chi特征选择模型下,推荐三类选取不同数量的特征后,在训练集和测试集上的准确率的变化情况图;
图4在分别mi、ig和chi特征选择模型下,推荐一类的macro-averagedroc曲线图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,能实现同样功能的产品属于等同替换和改进,均包含在本发明的保护范围之内。具体方法如下:
实施例1:利用本发明进行实验,训练集和测试集的摘要数量分布情况如表1所示,本发明的数据爬虫一共收集到了14012个包含题目、摘要、作者的文章信息。其中三分之二的摘要被用于作为训练集,三分之一的摘要用于测试集。在实验中,数据选取的是在ccf上已发布的a类的期刊和会议的文章,这些文章发表于2013年和2014年。但对于那些在2014年和2013年出版文章过少的期刊和会议,本发明也收集了它们其他年份的出版文章。为了验证数据集的正确性,本发明手动验证了每个期刊和会议中的百分之二十的摘要。
表1训练集和测试集摘要数量分布情况
本发明的推荐系统提供了两种推荐结果:推荐一类和推荐三类。推荐一类(top1)的版本只推荐一个期刊或会议,并且在评估结果时也非常严格。推荐三类(top3)的版本会给出三个候选的期刊或者会议。推荐三类的版本就是选出了分类得分最高的前三个类别作为推荐结果。换句话说,如果给出的推荐结果中有一个命中了正确的期刊或者会议,就可以认为这次推荐是成功的。推荐三类的版本也给用户提供了更多的选择,因为有的时候某一领域发表的文章其实也对于其他相关领域有一定的影,也可以说一篇文章不单单对某一特定领域有价值而已,可以对多个领域有很大的影响。另外,不同的会议或者期刊也经常会出版相似的领域的论文,例如:iccv、cvpr、tip等,并且也有很多期刊的文章是会议文章的延伸。
为了生成一个较好的特征空间,本发明在为每个类别选取特征数量上做了很多的实验。本发明用mi、ig和chi三种方法在特征选择上做了比较,用得分最高的前m个单词作为第i个类别的特征向量fvi。
本发明使用准确率(公式1)、f-measure(公式2)和roc曲线来评估系统的效果。因为本发明的系统使用了多分类模型,所以本发明用macro-averagedroc(公式3和4)曲线。
其中,pi指的是被预测为第i个类别的测试样本集合,gi指的是真实类别为i的测试样本集合。tpi,fni,fpi,和tni,分别是第i个类别的真阳率、假阴率、假阳率和真阴率的数量。
图1、2、3分别给出了在mi、ig、chi三种特征选择模型下,每个类别选取不同数量(即m)的特征后,在训练集和测试集上的准确率的变化情况。其中,图1、2、3中的结果是使用推荐三类(top3)的版本结果而得,换句话说,如果系统给出的三个推荐结果中有一个是正确的,则认为这次推荐是成功的。图4和表1给出了三种特征选择模型的比较结果。
从图1、2、3中可以看出:
(1)当使用ig和chi特征选择模型时,在每个类别的特征数量达到30时,准确率会随着特征数目的增加而提高。然而,mi的模型则是从特征数量为30开始到70为止,准确率下降了16.60%。在每个类的特征数量为70时准确率最小,之后,随着每个类别的特征数目的增加准确率才开始提高。但是直到特征数目为400时,基于mi的模型的准确率也只有55.7%,比ig和chi分别低了7.9%和9.3%。
(2)基于chi特征选择模型的准确率通常都优于mi和ig。举例来说,在测试准确率曲线的开端,chi模型的准确率就分别比mi和ig高出了78.7%和1.2%;在曲线尾端,也就是每个类的特征数量为400时,chi模型的准确率比mi和ig分别高出了12.2%和2.8%。
从图4中,本发明可以看出:基于chi和ig模型的曲线下面积比基于mi的模型高出较多。其中,chi的曲线下面积值为0.9404,ig的曲线下面积值为0.9415,mi的曲线下面积值为0.8273,chi和ig比mi高了大约13%。从曲线下面积的比较中,可以发现,在论文推荐系统中,mi模型对于特征选择上并不是一个好的选择。因此,chi和ig模型较为合适。
表2三个特征选择模型在top1和top3下的准确率和f-measure
从表2中,可以看出:
(1)top3的结果远高于top1。举例来讲,在top3下,基于chi模型的分类准确率达到了61.37%,比在top1下高出了75.2%,原因是top3给出了更大的推荐空间。事实上,不同的会议或者期刊经常给出相似的出版范畴,而且某种意义上来讲,top1给出一个推荐结果过于严苛。
(2)chi模型取得了最高的准确率和f-measure。举例来说,chi模型在top3下的准确率达到了61.37%,比mi高出了49.6%,比ig高出了1.4%。对于f-measure,chi模型达到了0.23,比mi高出了27.7%,比ig高出了9.5%。这是因为chi模型在每个类别中选取特征时增加了与其他类别的相关性。ig的准确率比mi高出了47.5%,f-measure值比mi高出了16.7%。同时,对于相对严格的top1来说,chi模型的准确率和f-measure值分别为35.03%和0.18,准确率比mi和ig高出了70.5%和2.8%,而f-measure值比mi和ig高出了38.2%和13.1%。从实验结果比较来看,也可以发现对于论文推荐系统来说,chi模型和ig模型更适用于特征选择。
在推荐系统中实际使用时,考虑到准确率和效率之间的均衡,根据图1、2、3显示的实验结果,将m值设为200。然后,将所有的特征向量