搜索特定专家的装置和方法

文档序号:6585045阅读:205来源:国知局

专利名称::搜索特定专家的装置和方法
技术领域
:本发明涉及网络搜索
技术领域
,尤其涉及一种针对特定专家的搜索装置和方法。
背景技术
:计算机和网络的普及,极大的改变了人们获取资讯的方式。但是如何从浩如烟海的万维网资讯中快速获得使用者所需的资料成为重要的研究课题。在万维网中,对于人的搜索引起了广泛的关注。其中最为重要的问题就是专家搜索。专家搜索是指通过搜索,希望找到在特定领域中权威的学者。在过去的研究中,语言模型、话题模型、随机游走模型等被相继提出。但是已有的大部分研究主要是关注于通用的专家搜索任务,而没有深入研究过不同目的下的专家搜索问题。例如,一个正在申请研究生学校的本科生希望找到能够给出权威建议的专家作为他的导师。通用的专家搜索方法对于不同目的下特定的专家搜索并不适合。因此希望在现有系统的基础上能够细化不同目的的专家搜索,使得不同需求的用户有更好的查询体验。
发明内容针对现有技术中存在的缺陷和不足,本发明的目的是提供一种特定专家的搜索装置和方法,能够针对特定专家进行细化搜索。为达到上述目的,本发明提出了一种针对特定专家的搜索装置,其特征在于,包括参数收集模块,所述参数收集模块从万维网中收集专家的学术数据,并存储收集到的数据;通用专家搜索模块,所述通用专家搜索模块为排序支持向量机;特定专家搜索模块,所述特定专家搜索模块对于特定专家搜索进行特征提取,计算所述通用专家搜索模块和所述特定专家搜索模块的公共特征隐空间,并利用公共特征以及提取的特征及训练数据对所述特定专家搜索模块进行训练。其中,所述通用专家搜索模块包括训练数据模块,所述训练数据模块给定有标注的通用专家搜索训练数据集<formula>formulaseeoriginaldocumentpage5</formula>,其中Xi表示训练数据实例,而yi表示对应的等级标号1表示标注数据实例总数和未标注数据集<formula>formulaseeoriginaldocumentpage5</formula>,其中x'i表示训练数据实例,u表示未标注数据实例总数;训练实例模块,所述训练实例模块对于通用专家搜索每个查询关键词中两个不同排序等级(yAy"的实例,X",创建一个实例(Xia_Xib,Zi),其中Zi的取值为如果X>乂那么Zi=+1,否则Zi=-I;学习模块,所述学习模块根据训练实例模块获得的新的训练集<formula>formulaseeoriginaldocumentpage5</formula>,通过优化学习得到<formula>formulaseeoriginaldocumentpage5</formula><formula>formulaseeoriginaldocumentpage6</formula><formula>formulaseeoriginaldocumentpage6</formula>其中w表示线性排序函数的特征权重向量,Ii表示松弛变量,Zi表示实例对(Xia,Xib)对应的等级标号,C表示平衡正则化因子和松弛因子的常数;排序模块,所述排序模块对所述学习模块利用SVM算法求解,得到通用专家搜索的排序函数f=〈w*,x'>。其中,所述特定专家搜索模块包括训练数据模块,所述训练数据模块给定有标注的通用专家搜索训练数据集L={(、,:0}^,其中Xi表示训练数据实例,而yi表示对应的等级标号和未标注数据集S=,其中x'i表示训练数据实例;训练实例模块,所述训练实例模块对于通用专家搜索每个查询关键词中两个不同排序等级(yA的实例(Xia,x",创建一个实例(Xia_Xib,Zi),其中Zi的取值为如果,〉乂那么Zi=+1,否则&=-1;公共隐空间计算及排序函数训练模块,所述公共隐空间计算模块计算通用专家搜索和特定专家搜索的公共特征隐空间U:<formula>formulaseeoriginaldocumentpage6</formula><formula>formulaseeoriginaldocumentpage6</formula>其中W表示通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,其中对应于通用专家搜索特征集S和特定专家搜索T特征的元素为wt,z,'表示实例对(x"《)对应的等级标号,而上标"+"表示伪逆,I|w|L/是正则化因子,保证了在两个任务之间学到公用的隐空间;&和CT分别是两个任务的代价敏感因子,且(V^为常数;A为平衡经验损失和正则化因子;U表示公共特征隐空间的映射矩阵,正交归一约束使得投影矩阵U唯上式中的公共特征隐空间U等价表述为<formula>formulaseeoriginaldocumentpage6</formula>其中M=[as,aT]=UW,£)=t/Diagl罔'u表示公共特征隐空间的映射矩阵,w表示在各自特征空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,进而M表示在公共特征隐空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,分别用^和aT表示其中对应于通用专家搜索特征集S和特定专家搜索T排序函数的权向量,其中的每一特征对应为at,z,表示实例对(《,x:)对应的等级标号,G和&分别是两个任务的代价敏感因子,且&/(;为常数;A为平衡经验损失和正则化因子,而上标"+"表示伪逆;对于pXq矩阵X,range(X)={x|Xz=x,forsomezGRq};排序模块,所述排序模块利用公共隐空间计算和排序函数训练模块中得到的在公共特征隐空间上特定专家搜索排序权向量aT,得到通用专家搜索的排序函数f=〈aT,x>。—种特定专家的搜索方法,包括步骤1、从万维网中搜索专家的学术数据并存储;步骤2、利用排序支持向量机建立通用专家搜索模型;步骤3、对于特定专家搜索进行特征提取,计算通用专家搜索和特定专家搜索的公共特征;根据公共特征以及提取的特征及训练数据对特定专家搜索进行训练。其中,所述步骤2具体为步骤21、建立给定有标注的专家搜索训练数据集L-{(^X)}",其中Xi表示训练数据实例,而yi表示对应的等级标号和未标注数据集S=,其中x'i表示训练数据实例;步骤22、排序支持向量机对于专家搜索每个查询关键词中两个不同排序等级(yAy"的实例(xAxib),创建一个实例(Xia-Xib,Zi),其中Zi的取值为如果少r〉乂那么Zi=+1,否则Zi=-1;步骤23、排序支持向量机模型可以从新的训练集1/={(<-x,,z,)KU中通过优化学习得到argmi.^||w||2十C力《s.t.〈w,Jcf-《〉21-《《i>0,i=1,…,n;其中w表示线性排序函数的特征权重向量,li表示松弛变量,Zi表示实例对(Xia,Xib)对应的等级标号,C表示平衡正则化因子和松弛因子的常数;步骤24、对步骤23利用SVM算法求解,得到通用专家搜索的排序函数f=〈w*,x'>。其中,所述步骤3具体为步骤31、建立给定有标注的专家搜索训练数据集L={(x,,_y,)}!=1,其中Xi表示训练数据实例,而yi表示对应的等级标号和未标注数据集S=,其中x'i表示训练数据实例;步骤32、排序支持向量机对于专家搜索每个查询关键词中两个不同排序等级(yAy"的实例(Xia,Xib),创建一个实例(Xia-Xib,Zi),其中Zi的取值为如果X>乂那么Zi=+1,否则Zi=-1;步骤33、计算通用专家搜索和特定专家搜索的公共特征隐空间U:<formula>formulaseeoriginaldocumentpage7</formula>其中W表示通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,其中对应于通用专家搜索特征集S和特定专家搜索T特征的元素为wt,^表示实例对(《,《)对应的等级标号,而上标"+"表示伪逆,I|W|L,/是正则化因子,保证了在两个的任务之间学到公用的隐空间;(;和&分别是两个任务的代价敏感因子,且&/(;为常数;入为平衡经验损失和正则化因子;U表示公共特征隐空间的映射矩阵,正交归一约束使得投影矩阵U唯一;上式中的公共特征隐空间U等价表述为<formula>formulaseeoriginaldocumentpage8</formula>'U表示公共特征隐空间的映射矩阵,W表示在各自特征空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,进而M表示在公共特征隐空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,分别用^和aT表示其中对应于通用专家搜索特征集S和特定专家搜索T排序函数的权向量,其中的每一特征对应为、,2,,表示实例对(《^)对应的等级标号,G和&分别是两个任务的代价敏感因子,且&/(;为常数;A为平衡经验损失和正则化因子,而上标"+"表示伪逆,对于pXq矩阵X,range(X)={x|Xz=x,forsomezGRq};步骤34、根据获得的公共特征,以及给定的特征及训练数据对特定专家搜索进行训练。上述技术方案具有如下优点本发明通过排序支持向量机对通用专家搜索和特定专家搜索建模,并计算通用专家搜索和特定专家搜索的公共特征隐空间,从而利用公共特征隐空间,对并且其中所有的序关系予以保持。这样使得本发明能够通过公共特征隐空间,对特定专家搜索进行训练。图1为本发明提出的针对特定专家的搜索的流程图。具体实施例方式下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。实施例1本发明提出的特定专家的搜索装置,其优选实施例包括参数收集模块,所述参数收集模块从万维网中收集专家的学术数据,并将收集到的数据存储;通用专家搜索模块,所述通用专家搜索模块为排序支持向量机;特定专家搜索模块,所述特定专家搜索模块对于特定专家搜索进行特征提取,计算所述通用专家搜索模块和所述特定专家搜索模块的公共特征隐空间,并利用公共特征以及提取的特征及训练数据对所述特定专家搜索模块进行训练。其中,所述通用专家搜索模块包括训练数据模块,所述训练数据模块给定有标注的通用专家搜索训练数据集L-{(X,^,)}^,其中Xi表示训练数据实例,而yi表示对应的等级标号,1表示标注数据实例总数和未标注数据集S-{X,'}^,其中x'i表示训练数据实例,U表示未标注数据实例总数;训练实例模块,所述训练实例模块对于通用专家搜索每个查询关键词中两个不同排序等级(yA的实例,X",创建一个实例(Xia_Xib,Zi),其中Zi的取值为如果,>乂那么Zi=+1,否则&=-I;学习模块,所述学习模块根据训练实例模块获得的新的训练集L'^or-《,z,)d,通过优化学习得到argminw.^||h卩+C力《s.t.z,〈w,x,。-《〉21-《《i>0,i=1,…,n;其中w表示线性排序函数的特征权重向量,Ii表示松弛变量,Zi表示实例对(Xia,Xib)对应的等级标号,C表示平衡正则化因子和松弛因子的常数。排序模块,所述排序模块对所述学习模块利用SVM算法求解,得到通用专家搜索的排序函数f=〈w*,x'>。其中,所述特定专家搜索训练模块包括训练数据模块,所述训练数据模块给定有标注的通用专家搜索训练数据集L^((x,,X))",其中Xi表示训练数据实例,而yi表示对应的等级标号和未标注数据集s="';ku,其中x'i表示训练数据实例;训练实例模块,所述训练实例模块对于通用专家搜索每个查询关键词中两个不同排序等级(yA的实例,X",创建一个实例(Xia_Xib,Zi),其中Zi的取值为如果《>乂那么Zi=+1,否则24=-1;公共隐空间计算及排序函数训练模块,所述公共隐空间计算模块计算通用专家搜索和特定专家搜索的公共特征隐空间U:minZtc,[l-^〈W,,C/r(《—《)〉]++;11,1w,'=is.t.UTU=I其中W表示通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,其中对应于通用专家搜索特征集S和特定专家搜索T特征的元素为wt,z,表示实例对(《,x:)对应的等级标号,而上标"+"表示伪逆。i|w|L/是正则化因子,保证了在两个任务之间学到公用的隐空间;(;和&分别是两个任务的代价敏感因子,且&/(;为常数;入为平衡经验损失和正则化因子;U表示公共特征隐空间的映射矩阵,正交归一约束使得投影矩阵U唯上式中的公共特征隐空间U等价表述为9mm£C,[1-〈",A〈",,〉,'=1'.s.t.D>=0,trace(D)《1,range(M)^range(D)其中M二[as,aT]=UW,D=L/Diag.V1f/、u表示公共特征隐空间的映射矩阵,w表示在各自特征空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,进而M表示在公共特征隐空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,分别用^和aT表示其中对应于通用专家搜索特征集S和特定专家搜索T排序函数的权向量,其中的每一特征对应为at,^表示实例对(x"《)对应的等级标号,G和&分别是两个任务的代价敏感因子,且&/(;为常数;A为平衡经验损失和正则化因子,而上标"+"表示伪逆;对于pXq矩阵X,range(X)={x|Xz=x,forsomezGRq};排序模块,所述排序模块利用公共隐空间计算和排序函数训练模块中得到的在公共特征隐空间上特定专家搜索排序权向量aT,得到通用专家搜索的排序函数f=〈aT,x>。对于特定专家搜索训练模块中,给定的特征及训练数据将在下面的实施例2中进行解释。实施例2本发明提出的特定专家搜索方法,其优选实施例包括步骤1、数据准备为了搜索和进一步挖掘学术网络,该方法首先需要从万维网中搜集专家的学术数据。有些数据可以从结构化的数据源,例如DBLP(http:〃dblp.uni-trier.de/)得到论文信息,而其它的信息需要从非结构化网页中抽取,例如研究者的个人主页。该方法包含从专家的个人主页中抽取研究者的个人档案信息,并和在线数据源中的论文数据一起进行整合。抽取并整合的数据储存在学术网络数据库中。基于训练数据集,该方法使用学习排序为通用专家排序学习排序函数。步骤2、利用排序支持向量机建立通用专家搜索模型,利用排序支持向量机预测实例间相互关系x,—^/"■)>/(^)的排序函数fGF,并进行通用专家进行排序。具体为步骤21、给定有标注的专家搜索训练数据集1^={(、,乂.)};=1和未标注数据集S=,排序支持向量机学习得到一个可以预测实例间相互关系x,—x,./(X,)>的排序函数fGF,其中Xi表示训练数据实例,X'i表示训练数据实例;步骤22、排序支持向量机对于专家搜索每个查询关键词中两个不同排序等级(yA的实例(xAX",创建一个实例(Xia_Xib,Zi),其中Zi的取值为如果,>乂那么Zi=+1,否则Zi=-1;步骤23、排序支持向量机模型从新的训练集1/={(<-《,z,)L中通过优化学习得到argmin10s.t.Z,.〈W,X'。-《〉21-《;i>0,i=1,…,n;其中w表示线性排序函数的特征权重向量,Ii表示松弛变量,Zi表示实例对(XiaXib)对应的等级标号,C表示平衡正则化因子和松弛因子的常数。步骤24、对步骤23利用SVM算法求解,得到通用专家搜索的排序函数f=〈w*步骤3、计算通用专家搜索和特定专家搜索的公共特征;根据公共特征以及给定的特征及训练数据对特定专家搜索进行训练。具体为步骤31和步骤32分别和步骤2中的S21和S22类似;步骤33、计算通用专家搜索和特定专家搜索的公共特征隐空间U:minZz,〈w,,"K)〉]++;i|lH『'"(e(S,n''=1s.t.UTU=I其中I|w|L,/是正则化因子,保证了在通用专家搜索和特定专家搜索这两个任务之间学到公用的隐空间;c;和CT分别是两个任务的代价敏感因子,且(V(;为常数;A为平衡经验损失和正则化因子;投影函数矩阵U表示隐空间,正交归一约束使得投影矩阵U唯上式中的公共特征隐空间U等价表述为mmJC,[1-〈a,,x,:—《〉]++义","+a,〉s.t.D>=0,trace(D)《1,range(m)grange(D)其中M二[as,aT]=UW,"=f/Diag,而上标"+"表示伪逆;对于pXq、同b矩阵X,range(X)={x|Xz=x,forsomezGRq};步骤34、根据获得的公共特征,以及给定的特征及训练数据对特定专家搜索进行训练。其中,对于特征定义为在通用专家搜索和特定专家搜索中定义了21个特征(如表1所示)。特征L1-L10以及Hl-H3是用基于单词的语言模型计算得到的分值,而特征Sl-S8从各个角度反映了该专家的权威度。另外,为特定专家搜索定义了32个独有特征。特征SumCol-SumCo8表示一个专家的所有合作者的权威性特征值的和。将SumCol-SumCo8的值除以他的合作者总数得到了平均值,记为AvgCol-AvgCo8。类似的,通过特征SumStul-SumStu8以及AvgStul-AvgStu8还考虑他的学生的总体权威性水平和平均权威性水平。表l11特征解释LI-L10低层次内容特征HI-H3高层次内容特征SI该专家发表他的第一篇文章距今的年数S2该专家发表的文章总数S3该专家在近2年发表的文章总数S4该专家在近5年发表的文章总数S5该专家的文章被引用的总次数S6该专家的文章被引用在5次以上的数目S7该专家的文章被引用在10次以上的数目S8该专家的PageRank得分SumCol-8该专家全部合作者的Sl-S8得分的和AvgCol-8该专家全部合作者的Sl-S8得分的平均SumStul-8该专家全部学生的Sl-S8得分的和AvgStul-8该专家全部学生的Sl-S8得分的平均对于特征S咖Stul-S咖Stu8以及特征AvgStul-AvgStu8,该方法需要识别研究者之间的师生关系。该方法中使用了一个启发式的方法,该方法主要通过研究者之间的论文合作情况进行推断,如果两个研究者没有论文合作,认为他们之间不是师生关系。而对于发生合作的情形,可以如表2所示的四个主要特征。其中记号&表示作者i发表的论文总数,而ne。表示合作的论文数,ti是作者i的第一篇论文的年份,而te。是合作者之间首次合作的年份。常数N描述了通常情况下学生和老师之间论文数目之差的平均值,而T是师生发表各自第一篇论文的年份差。该应用中取N二IO以及T二10。如果-1<x<1,g(x)是恒等函数,否则是符号函数。对于两个研究者i和j,该方法计算师生关系得分^-Z人A0',7'),其中特征的权预先给定。最后,如果Sij〉r,认为作者i是作者j的老师;如果Sij<-r,认为作者i是作者j的学生,其中r是一个预先确定的阈值,通常情况下取2.5-3.5。实验显示关系发现的准确率可以达到67.0%。表212<table>tableseeoriginaldocumentpage13</column></row><table>其中,对于训练数据的定义为由于一个研究者是不是特定专家其实并不容易判断,仅仅通过我们所了解到的信息很难全面客观地进行特定专家排序等级的标注。因此我们试图通过学术界广泛的研究者,尽他们的了解,共同帮助我们得到该标注数据。特定专家搜索的标注数据集由9个最高频的查询关键词构成。对于每一个查询关键词,我们从专家数据库中选择专家搜索中排名前50的研究者,同时我们再选择50个在近年(例如晚于2003年)才开始发表论文且排名靠前的学术新秀,通过在数据库和网上查找他们的联系方法并得到他们的个人资料,统计发现这些学术新秀中91.6%现在是研究生或博士后研究员。我们给每一个专家或新秀发电子邮件,在电子邮件中我们根据该专家或新秀所属的查询关键词,列出了该查询关键词对应的50个专家,请求他们帮助我们对这些候选集中的专家是否为特定专家给出自己的意见,参与者可以回答"是"(+l),"否"(-l)或者"不确定"。从专家的反馈意见中,我们可以看到他们对于自己和同行是否为特定专家的评判意见,而从新秀的反馈意见中,我们往往可以看出他对于专家,甚至是自己的导师是否为特定专家的评价。在邮件中,基于我们对于"特定专家"的定义,提供了若干判断一个研究者是不是特定专家的线索,例如他培养的学生的总体水平,他培养的学生的平均水平等等,尽管他们的出发点可能并不只是局限于我们给出的若干提示。当然,每一个参与者也可以在回复中添加自己熟悉的其他特定专家。基于参与者的回复,我们得到了82个有效反馈。基于这些参与者的反馈意见,我们综合得到了一个较为公认的特定专家任务的标注数据。具体来讲,我们从得到的有效反馈中统计计算每个候选人的"是"(+1)和"否"(-1)的连加得分,再除以确定性回复("是"或"否")的数目,得到平均特定专家程度得分,再按照该得分排序得到特定专家任务的标注数据。为了评估本发明,我们使用均值平均查准率(即MAP)和归一化的折扣累积增益(即NDCG)评估实验结果。MAP表示每个查询关键词对应的准确率的平均值。具体来说,对于一个给定的查询关键词,根据前k个结果的查准率,首先计算平均查准率2P@A:Ap.—t是相关的_相关文档数目13其中Ptk表示系统对于查询关键词返回的前k个结果的查准率,定义为前6个结果中相关文档的数目P@"-^-和MAP不同的是,NDCG对于排序中认为最相关的文档给予更高的权重,而在MAP中所有相关的文档有相同的权重。在位置n上的NDCG定义为,"-Z"Z<formula>formulaseeoriginaldocumentpage14</formula>其中,r(j)是第j个文档的排序,Zn是归一化因子。1)基线方法将本发明提出的方法和三种基线方法进行比较,这三种基线方法如表3所示。排序支持向量机(RSVM)在信息检索中是一种经典的排序算法。但是该方法的设计初衷是为了在同构数据的单一域中进行排序训练。为了比较的公平,我们用RSVM进行两组实验,在其中一组中,我们只在目标域LT上训练排序模型,而另外一组中(称为RSVMt)我们将源域和目标域组合在一起进行训练。第三种比较方法是使用铰链损失的多任务特征学习方法(称为MTRSVM)。表3<table>tableseeoriginaldocumentpage14</column></row><table>2)实验设置上述实验在WindowsXP系统,双核AMD双核速龙处理器(2GHz)以及2G内存上进行。我们使用SVMlight的线性核以及默认参数实现RSVM、RSVMt以及MTRSVM的偏好学习步骤。我们将最大迭代次数I设置50。并且除了特别说明外,我们使用格点搜寻法从{2—5,2—4,2—3,2—2,2—、1,2,22,23,24,251中选择参数C。后面小节中涉及的实验结果均为10次重复实验的平均。3)实验结果在本实验中,我们选取了两个查询关键词以及与其相关的文档组成标注训练数据,其余部分作为测试数据。表4中显示了特定专家搜索的性能比较。从中可以看出我们的方法胜过其他使用RSVM、RSVMt、MTRSVM以及语言模型方法的基线方法。从表4中可以看出,全部的有监督学习排序方法都超过无监督学习的语言模型方法。表4<table>tableseeoriginaldocumentpage15</column></row><table>[OH5]表5中展示了用两个查询关键词在异构的任务中搜索得到的5个排在最前面的特定专家和专家的对比。我们可以看出传统的专家搜索任务并不十分适用于特定专家搜索。表5<table>tableseeoriginaldocumentpage15</column></row><table>从实验结果可以看出,通用的专家搜索并不能替代本发明提出的特定专家搜索,而本发明中使用的方法可以实现特定专家搜索,包括特定专家搜索任务,结果优于基线方法。以上所述仅是本发明的优选实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。权利要求一种针对特定专家的搜索装置,其特征在于,包括参数收集模块,所述参数收集模块从万维网中收集专家的学术数据,并存储收集到的数据;通用专家搜索模块,所述通用专家搜索模块为排序支持向量机;特定专家搜索模块,所述特定专家搜索模块对于特定专家搜索进行特征提取,计算所述通用专家搜索模块和所述特定专家搜索模块的公共特征隐空间,并利用公共特征以及提取的特征及训练数据对所述特定专家搜索模块进行训练。2.根据权利要求1所述的特定专家的搜索装置,其特征在于,所述通用专家搜索模块包括训练数据模块,所述训练数据模块给定有标注的通用专家搜索训练数据集L=,其中Xi表示训练数据实例,而yi表示对应的等级标号,1表示标注数据实例总数和未标注数据集S=b,'KU,X'i表示标注数据实例,U表示未标注数据实例总数;训练实例模块,所述训练实例模块对于通用专家搜索每个查询关键词中两个不同排序等级,的实例(xAX",创建一个实例(Xia_Xib,Zi),其中Zi的取值为如果少r〉乂那么Zi=+1,否则24=-I;学习模±央,所述学习模块根据训练实例模块获得的新的训练集^={(<-xf,z,)L,通过优化学习得到<formula>formulaseeoriginaldocumentpage2</formula>其中w表示线性排序函数的特征权重向量,Ii表示松弛变量,Zi表示实例对(Xia,Xib)对应的等级标号,C表示平衡正则化因子和松弛因子的常数;排序模块,所述排序模块对所述学习模块利用SVM算法求解,得到通用专家搜索的排序函数f二〈wx'>。3.根据权利要求1或2所述的特定专家的搜索装置,其特征在于,所述特定专家搜索模块包括训练数据模块,所述训练数据模块给定有标注的通用专家搜索训练数据集L={(x,,X)}U,其中Xi表示训练数据实例,而yi表示对应的等级标号和未标注数据集S=,其中x'i表示训练数据实例;训练实例模块,所述训练实例模块对于通用专家搜索每个查询关键词中两个不同排序等级(yA的实例(xAx",创建一个实例(Xia-Xib,z》,其中Zi的取值为如果乂〉乂那么Zi=+1,否则24=-I;公共隐空间计算及排序函数训练模块,所述公共隐空间计算模块计算通用专家搜索和特定专家搜索的公共特征隐空间U:K,e{S,7'},'=1<formula>formulaseeoriginaldocumentpage2</formula>其中W表示通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,其中对应于通用专家搜索特征集S和特定专家搜索T特征的元素为wt,^表示实例对(《,《)对应的等级标号,而上标"+"表示伪逆,IIw|L,/是正则化因子,保证了在两个任务之间学到公用的隐空间;(;和&分别是两个任务的代价敏感因子,且&/(;为常数;入为平衡经验损失和正则化因子;U表示公共特征隐空间的映射矩阵,正交归一约束使得投影矩阵U唯一;上式中的公共特征隐空间u等价表述为<formula>formulaseeoriginaldocumentpage3</formula>其中<formula>formulaseeoriginaldocumentpage3</formula>t/、u表示公共特征隐空间的映射矩阵,w表示在各自特征空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,进而M表示在公共特征隐空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,分别用^和aT表示其中对应于通用专家搜索特征集S和特定专家搜索T排序函数的权向量,其中的每一特征对应为at,^表示实例对(x,,《)对应的等级标号,c;和CT分别是两个任务的代价敏感因子,且CT/CS为常数;A为平衡经验损失和正则化因子,而上标"+"表示伪逆;对于pXq矩阵X,range(X)={x|Xz=x,forsomezG;排序模块,所述排序模块利用公共隐空间计算和排序函数训练模块中得到的在公共特征隐空间上特定专家搜索排序权向量aT,得到通用专家搜索的排序函数f=〈aT,x>。4.一种特定专家的搜索方法,包括步骤1、从万维网中搜索专家的学术数据并存储;步骤2、利用排序支持向量机建立通用专家搜索模型;步骤3、对于特定专家搜索进行特征提取,计算通用专家搜索和特定专家搜索的公共特征;根据公共特征以及提取的特征及训练数据对特定专家搜索进行训练。5.根据权利要求4所述的特定专家的搜索方法,其特征在于,所述步骤2具体为步骤21、建立给定有标注的专家搜索训练数据集L={(一>0}!=1,其中Xi表示训练数据实例,而yi表示对应的等级标号和未标注数据集S=,其中x'i表示训练数据实例;步骤22、排序支持向量机对于专家搜索每个查询关键词中两个不同排序等级(yia,y"的实例(Xia,Xib),创建一个实例(Xia_Xib,Zi),其中Zi的取值为如果乂>乂那么Zi=+1,否则Zi=-1;步骤23、排序支持向量机模型可以从新的训练集L'-(0,"-x,,z,.)^中通过优化学习得到<formula>formulaseeoriginaldocumentpage3</formula>Ii>0,i=1,…,n;其中w表示线性排序函数的特征权重向量,Ii表示松弛变量,Zi表示实例对(Xia,Xib)对应的等级标号,C表示平衡正则化因子和松弛因子的常数;步骤24、对步骤23利用SVM算法求解,得到通用专家搜索的排序函数f=〈w*,x'>。6.根据权利要求4或5所述的特定专家的搜索方法,其特征在于,所述步骤3具体为步骤31、建立给定有标注的专家搜索训练数据集L={Oc,,_y,)t,,其中Xi表示训练数据实例,而yi表示对应的等级标号和未标注数据集S=,其中x'i表示训练数据实例;步骤32、排序支持向量机对于专家搜索每个查询关键词中两个不同排序等级(yia,的实例(Xia,xib),创建一个实例(Xia_Xib,Zi),其中Zi的取值为如果《>乂那么Zi=+1,否则Zi=-1;步骤33、计算通用专家搜索和特定专家搜索的公共特征隐空间U:<formula>formulaseeoriginaldocumentpage4</formula>其中W表示通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,其中对应于通用专家搜索特征集S和特定专家搜索T特征的元素为wt,2,,表示实例对(《^)对应的等级标号,而上标"+"表示伪逆,IIW|L,/是正则化因子,保证了在两个的任务之间学到公用的隐空间;(;和&分别是两个任务的代价敏感因子,且&/(;为常数;入为平衡经验损失和正则化因子;U表示公共特征隐空间的映射矩阵,正交归一约束使得投影矩阵U唯一;上式中的公共特征隐空间u等价表述为<formula>formulaseeoriginaldocumentpage4</formula>U表示公共特征隐空间的映射矩阵,W表示在各自特征空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,进而M表示在公共特征隐空间上通用专家搜索和特定专家搜索任务对应的排序函数的权向量的组合,分别用^和aT表示其中对应于通用专家搜索特征集S和特定专家搜索T排序函数的权向量,其中的每一特征对应为a1,2,,表示实例对(《,《)对应的等级标号,(;和CT分别是两个任务的代价敏感因子,且CT/CS为常数;A为平衡经验损失和正则化因子,而上标"+"表示伪逆,对于pXq矩阵X,range(X)={x|Xz=x,forsomezGRq};步骤34、根据获得的公共特征,以及给定的特征及训练数据对特定专家搜索进行训练。全文摘要本发明一种特定专家的搜索装置和方法,针对现有通用专家搜索无法找到特定专家的问题而发明。本发明的装置包括参数收集模块、通用专家搜索模块、特定专家搜索模块、特定专家搜索训练模块。本发明的方法包括从万维网中搜索专家的学术数据并存储;利用排序支持向量机建立通用专家搜索模型;计算通用专家搜索和特定专家搜索的公共特征;根据公共特征以及给定的特征及训练数据对特定专家搜索进行训练。本发明主要应用于专家搜索领域,能够根据通用专家搜索和特定专家搜索之间的联系——公共特征隐空间,并利用公共特征隐空间学习得到特定专家搜索的排序函数。文档编号G06F17/30GK101719152SQ20091024189公开日2010年6月2日申请日期2009年12月14日优先权日2009年12月14日发明者唐杰,杨子,王波申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1