个人主页的查找方法_2

文档序号:9375786阅读:来源:国知局
h-CN&rsz = large&q =
[0039] 专利中使用的关键搜索词组有三个:
[0040] 研究者姓名+空格+研究者单位
[0041] 研究者姓名+空格+ "Horn印age"
[0042] 研究者姓名+空格+ " emai 1 "
[0043] 对每一个关键词组,抓取Google搜索引擎以该词组作为关键词搜索的第一页内 容(最多10条结果),每一条结果包含三项内容,即题目、网页链接及网页摘要(Title, URL,Snippet)〇
[0044] 在本专利中所使用的数据集选自国家自然科学基金委的14万专家,总共1000人, 并且涵盖医药、计算机、自然科学等多学科。
[0045] 二、数据标注
[0046] 将抓取的数据存入文本文件中,每一条结果占一行。标注人员经过对比对每一行 数据进行判定是否为该研究者的个人主页,是则标为1,不是标为-1。
[0047] 三、数据集切分
[0048] 在用SVM建模的过程中需要对数据进行切分。由于建模过程中需要正例负例数目 相等,而标注的数据里负例远大于正例。因此取数据集中所有正例,然后随机抽取与正例数 目相等的负例,组合成SVM建模需要的数据集。
[0049] 实验分为训练过程和测试过程,我们采用十折交叉验证的方式,将标注好的数据 集随机分为十等份,每次取9份作为训练集,1份作为测试集。
[0050] 四、特征抽取
[0051] 特征选择好坏的对于分类算法的结果有着直接的影响。本专利中除了利用每个词 的TFIDF值作为特征之外,还加入了包括词性,URL等其他关键特征。
[0052] TFIDF 特征:
[0053] TFIDF是一种用于资讯检索与文本挖掘的常用加权技术,用以评估一字词对于一 个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现 的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TFIDF的计算公式 为:
[0054] tfidf(t,d, D) = tf (t, d) *idf (t, D)
[0055] 其中t为某个词,d代表这个词出现的文章,D为所有文章的总和即整个语料库。 tf 代表词频(Term Frequency),IDF 代表逆向文件频率(Inverse Document Frequency)。
[0056]
[0057]
[0058] 对于任一篇文档j中的词i,i的词频tf为该词在文档j中出现的次数Ii1,,除以 文档中的总词数。i的idf值为语料库的文档数除以包含该词的文档数的log值。在本专 利中将搜索结果的Title和Snippet部分作为两个互不影响的语料库,分别在各自的词空 间内进行TFIDF值的计算。对于中文内容则使用了 ICTCLAS进行分词。ICTCLAS是中科院 研究十余年推出的分词工具,多次获奖,用户众多。最新版本可在如下网址找到,http:// ictclas. nlpir. org/〇
[0059] 词性特征:
[0060] 在文本分析中,词性特征对分类也具有重要的影响。在本专利中使用ICTCLAS对 每一条搜索结果的Title进行词性分析,统计各种词性出现的次数,每种词性出现的次数 作为一种特征。
[0061] 其他特征:
[0062] URL中是否包含敏感关键字,出现该项特征值为1,不出现为0。敏感关键字包括 如 pdf, xls, doc 这类格式不符的结果,baidu, weibo. com, 163. com, qq. com, sohu. com 这类 新闻类网站,以及360doc, renren, sina, download, news这些频繁出现干扰正确结果的关 键字符。
[0063] Title中是否出现研究者姓名,出现该项特征值为1,不出现为0。
[0064] Snippet中出现的研究者姓名,其位置在Snippet前半部分还是后半部分。出现在 前半部分(包括正中间)该项特征值为1,后半部分特征值为〇。
[0065] 五、SVM训练与测试
[0066] 在本专利中使用SVM-Iight进行训练测试。SVM-Iight是Joachim开发的基于SVM 的开源工具,由于其速度快,准确率高等特点被广泛应用到研究和实际应用中。SVM-Iight 的具体描述和使用方法可以在网址 http://www. cs. Cornell. edu/People/tj/svm_light/ 中找到。
[0067] 实验中先根据训练集生成的特征文件利用svm_learn命令学习出模型,再用svm_ classify命令利用前面跑出的模型在测试集上测试得出结果。
[0068] 六、SVM预测结果与规则结合筛选个人主页
[0069] 在不断训练学习的过程中,我们获得了结果比较好的模型。用该模型对测试数据 进行预测,每一条搜索结果都会获得一个数值。如果该值越接近于1则说明它是正例的可 能性越大,如果该值越接近于-1则说明它使负例的可能性越大。由于人工标注的过程中可 能存在偏差以及Google搜索结果反映网页内容的局限性,分类结果并不尽如人意。为了解 决这个问题,在本专利中,引入了若干规则辅助筛选个人主页。
[0070] I) Snippet中包含详细的年月日(时分)信息
[0071] 2)姓名在snippet中出现三次以上
[0072] 3)姓名出现在snippet后半部分并且仅出现在论文合作者中
[0073] 对于预测正例,如果出现以上任意一种情况,则将该例预测分值减0. 3。这样处理 后对分类结果的所有分值进行排序,同时设定某个阈值(如〇. 6),那么分值大于该阈值的 网页则被认为是研究者的个人主页。
[0074] 另外,本发明实施例的个人主页的查找方法的其它构成以及作用对于本领域的技 术人员而言都是已知的,为了减少冗余,不做赘述。
[0075] 在本说明书的描述中,参考术语"一个实施例"、"一些实施例"、"示例"、"具体示 例"、或"一些示例"等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特 点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不 一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何 的一个或多个实施例或示例中以合适的方式结合。
[0076] 尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不 脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本 发明的范围由权利要求及其等同限定。
【主权项】
1. 一种个人主页的查找方法,其特征在于,包括以下步骤: A:在搜索引擎中输入关键信息获得搜索结果,采用所述搜索结果中最接近所述关键信 息的第一预设数量的搜索结果作为数据集; B:从所述数据集中抽取部分数据文本进行人工标注,用于区分是否为目标人物的个人 主页; C:对已经标注过的所述数据文本分为第二预设数量的训练集和第三预设数量的测试 集; D:对所述训练集抽取训练集特征信息; E:利用SVM对所述训练集特征信息进行建模,得到第一模型; F:对所述测试集抽取测试集特征信息; G:利用所述第一模型对所述测试集特征信息进行分析,得到预测结果; H:根据预设的个人主页判断规则对所述预测结果进行判断; I:采用十折交叉验证方法对步骤C至步骤H进行迭代,选取最优模型; J:采用所述最优模型判断所述搜索结果是否为目标人物的个人主页。2. 根据权利要求1所述的个人主页的查找方法,其特征在于,在步骤A中,所述关键信 息包括: 第一搜索词组,所述第一搜索词组包括目标人物姓名和目标人物所在单位; 第二搜索词组;所述第二搜索词组包括所述目标人物姓名和主页;以及 第三搜索词组,所述第三搜索词组包括所述目标人物姓名和邮箱。3. 根据权利要求1所述的个人主页的查找方法,其特征在于,在步骤D中,所述训练集 特征信息包括所述训练集中每个词的TFIDF值,其中所述TFIDF的计算公式为: tfidf(t,d,D) =tf(t,d)*idf(t,D) 其中t为词,d代表所述词出现的文章,D为整个语料库,tf代表词频,IDF代表逆向文 件频率;其中,对于任一篇文档j中的词i,所述词i的词频tf为所述词i在所述文档j中出现 的次数& ,除以所述文档中的总词数;所述词i的idf值为所述语料库的文档数除以包含 该词的文档数的log值;将所述搜索结果的标题和网页摘要作为两个互不影响的语料库, 分别在各自的词空间内进行TFIDF值的计算。4. 根据权利要求3所述的个人主页的查找方法,其特征在于,所述训练集特征信息还 包括词性,使用汉语词法分析系统对每条所述搜索结果的标题进行词性分析,统计各种词 性出现的次数。5. 根据权利要求3或4所述的个人主页的查找方法,其特征在于,所述训练集特征信息 还包括其它特征,所述其它特征包括: URL中是否包含干扰词; 标题中是否出现所述目标人物姓名;以及 网页摘要中出现所述目标人物姓名的位置。6. 根据权利要求1所述的个人主页的查找方法,其特征在于,在步骤E,采用SVM-light 建立所述第一模型,在步骤G中,采用所述SVM-light和所述第一模型对所述测试集特征信 息进行分析。7. 根据权利要求3所述的个人主页的查找方法,其特征在于,在步骤H中,所述个人主 页判断规则是:若出现以下任意一种情形,则所述预测结果的权重减少, H1 :所述网页摘要中包含年、月和日信息; H2 :所述目标人物姓名在所述网页摘要中出现三次以上; H3 :所述目标人物姓名出现在所述网页摘要的后半部分,并且仅出现在论文合作者中。
【专利摘要】本发明公开了一种个人主页的查找方法,包括以下步骤:在搜索引擎中输入关键信息获得搜索结果,采用最接近关键信息的搜索结果作为数据集;从数据集中抽取部分数据文本进行标注;对已经标注过的数据文本分为训练集和测试集;对训练集抽取训练集特征信息;对训练集特征信息进行建模,得到第一模型;对测试集抽取测试集特征信息;利用第一模型对测试集特征信息进行分析,得到预测结果;对预测结果进行判断;通过十折交叉验证进行迭代,选取最优模型;采用最优模型判断搜索结果是否为目标人物的个人主页。本发明具有如下优点:适应性较强,可通过在实际应用过程中收集整理训练样本,更新及扩充训练集,进而提高本方法的适用性及查找准确率。
【IPC分类】G06F17/30
【公开号】CN105095400
【申请号】CN201510394587
【发明人】唐杰, 刘德兵, 杨宏, 袁慧
【申请人】清华大学
【公开日】2015年11月25日
【申请日】2015年7月7日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1