个人主页的查找方法

文档序号:9375786阅读:1356来源:国知局
个人主页的查找方法
【技术领域】
[0001] 本发明涉及计算机网络信息技术领域,具体涉及一种个人主页的查找方法。
【背景技术】
[0002] 专家发现是信息检索领域一个非常重要的方面[1]。从国家自然基金委的专家库到 国际会议的审稿人推荐系统,以及普通人都能接触到的医疗网站医生推荐功能等很多应用 都需要庞大的专家库支持。特别是近期政府又出台了《科技部办公厅关于完善补充国家科 技专家库专家信息的通知》,可以看出完善专家信息,构建专家库具有重要的意义。然而专 家库建设,尤其对一些超过万人的大型专家库,专家个人信息维护更新是一个非常耗时耗 力却又非常重要的任务。专家个人信息的准确性及完备性对专家库的服务质量有着重要的 影响。随着互联网的普及与发展,很多研究者都建立了个人主页并保持个人信息实时更新, 这是快速获取专家个人信息的重要渠道。在本专利中,我们提出了一种高准确率且适应性 强的个人主页自动查找方法。该方法结合信息自动抽取技术及人工标注工作,可以大大提 高专家库中专家个人信息更新效率,进而提高专家库的服务质量。个人主页查找。
[0003] 个人主页查找,即对于一个给定姓名和工作单位的人,从互联网的海量信息中找 到包含其个人信息的页面,该页面可以是其自己建立的web页面,也可以是所在工作机构 建立的介绍页面。目前已存在一些类似研究,如左南等人在研究中提到利用SVM查找对构 建社会网络有用的页面 [2]。虽然方法类似,但其个人主页相比于有用页面更加具体化,更 难发掘;唐杰等人[3' 4]的研究虽然具体到个人主页层面,但仅仅止步于页面分类,然而由于 Google摘要字数的限制性以及人工标注可能存在失误,抽取结果仍有待提高。
[0004] 在本专利中,针对个人主页的特点以及以往工作的不足,我们提出了一种规则结 合机器学习的个人主页查找方法。该方法首先利用Google搜索引擎获得可能包含个人主 页的高质量数据源,之后人工标注部分数据。因为对任一个网页来说都有可能是期望的个 人主页,也有可能不是,所以个人主页的查找可以看做是一个二分类问题。专利中采用分类 算法中比较经典的支持向量机SVM对标注的数据进行训练学习得到较理想的模型,最后结 合预先定义的规则过滤,从而找出期望的个人主页。该方法有效的解决了由于Google搜索 结果反映网页内容的局限性而导致的分类准确率不够高的问题。
[0005] 参考文献:
[0006] [1]刘健,李绮,刘宝宏,张云基于话题模型的专家发现方法国防科技大学学报 Vol 35, No. 22013
[0007] [2]左南,李娟子,唐杰基于SVM的肖像照片抽取第三届全国信息检索与内容安全 学术会议2007
[0008] [3] J. Tang, L Yaoj D. Zhang, and J. Zhang. A combination approach to web user profiling. ACM TKDDj 5 (I) : I - 44, 2010.
[0009] [4] J. Tang, J. Zhang, L. Yaoj J. Li, L. Zhang, and Z. Su. Arnetminer:Extraction and mining of academic social networks. KDDj pages 990 - 998,2008

【发明内容】

[0010] 本发明旨在至少解决上述技术问题之一。
[0011] 为此,本发明的目的在于提出一种个人主页的查找方法。
[0012] 为了实现上述目的,本发明的第一方面的实施例公开了一种个人主页的查找方 法,包括以下步骤:A :在搜索引擎中输入关键信息获得搜索结果,采用所述搜索结果中最 接近所述关键信息的第一预设数量的搜索结果作为数据集;B :从所述数据集中抽取部分 数据文本进行人工标注,用于区分是否为目标人物的个人主页;C :对已经标注过的所述数 据文本分为第二预设数量的训练集和第三预设数量的测试集;D :对所述训练集抽取训练 集特征信息;E :利用SVM对所述训练集特征信息进行建模,得到第一模型;F :对所述测试 集抽取测试集特征信息;G :利用所述第一模型对所述测试集特征信息进行分析,得到预测 结果;H :根据预设的个人主页判断规则对所述预测结果进行判断;I :采用十折交叉验证方 法对步骤C至步骤H进行迭代,选取最优模型;J :采用所述最优模型判断所述搜索结果是 否为目标人物的个人主页。
[0013] 根据本发明实施例的个人主页的查找方法,能够快速、准确的根据给定的简单信 息找到某人的个人主页,进而可以通过自动算法或人工标注方法提取此人的详细信息包括 联系方式(邮箱,电话,地址等),个人简介,研究兴趣,承担项目,论文列表等。这些详细信 息是建立如专家智库,评审专家库等人才库的重要条件,同时这些信息的完备程度对于如 专家推荐,审稿人推荐等应用服务的效果有重要影响。现在有很多大型的人才库如自然科 学基金评审专家库有超过14万人,这些专家的信息更新维护是一个非常耗时耗力却又非 常重要的工程。应用本发明实施例的个人主页查找方法,结合自动信息提取算法,可以大大 提高人才库人员信息的更新效率,对于保持人才库信息的实时性,提高人才库服务质量具 有重要意义。
[0014] 另外,根据本发明上述实施例的个人主页的查找方法,还可以具有如下附加的技 术特征:
[0015] 进一步地,在步骤A中,所述关键信息包括:第一搜索词组,所述第一搜索词组包 括目标人物姓名和目标人物所在单位;第二搜索词组;所述第二搜索词组包括所述目标人 物姓名和主页;以及第三搜索词组,所述第三搜索词组包括所述目标人物姓名和邮箱。
[0016] 进一步地,在步骤D中,所述训练集特征信息包括所述训练集中每个词的TFIDF 值,其中所述TFIDF的计算公式为:
[0017] tfidf(t,d, D) = tf (t, d) *idf (t, D)
[0018] 其中t为词,d代表所述词出现的文章,D为整个语料库,tf代表词频,IDF代表逆 向文件频率:
[0019]
[0020]
[0021] 其中,对于任一篇文档j中的词i,所述词i的词频tf为所述词i在所述文档j中 出现的次数Ii1,,除以所述文档中的总词数;所述词i的idf值为所述语料库的文档数除以 包含该词的文档数的log值;将所述搜索结果的标题和网页摘要作为两个互不影响的语料 库,分别在各自的词空间内进行TFIDF值的计算。
[0022] 进一步地,所述训练集特征信息还包括词性,使用汉语词法分析系统对每条所述 搜索结果的标题进行词性分析,统计各种词性出现的次数。
[0023] 进一步地,所述训练集特征信息还包括其它特征,所述其它特征包括:URL中是否 包含干扰词;标题中是否出现所述目标人物姓名;以及网页摘要中出现所述目标人物姓名 的位置。
[0024] 进一步地,在步骤E,采用SVM-Iight建立所述第一模型,在步骤G中,采用所述 SVM-Iight和所述第一模型对所述测试集特征信息进行分析。
[0025] 进一步地,在步骤H中,所述个人主页判断规则是:若出现以下任意一种情形,则 所述预测结果的权重减少,Hl :所述网页摘要中包含年、月和日信息;H2 :所述目标人物姓 名在所述网页摘要中出现三次以上;H3 :所述目标人物姓名出现在所述网页摘要的后半部 分,并且仅出现在论文合作者中。
[0026] 本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变 得明显,或通过本发明的实践了解到。
【附图说明】
[0027] 本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变 得明显和容易理解,其中:
[0028] 图1是本发明一个实施例的主页抽取流程图。
【具体实施方式】
[0029] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0030] 在本发明的描述中,需要理解的是,术语"中心"、"纵向"、"横向"、"上"、"下"、"前"、 "后"、"左"、"右"、"竖直"、"水平"、"顶"、"底"、"内"、"外"等指示的方位或位置关系为基于 附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所 指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发 明的限制。此外,术语"第一"、"第二"仅用于描述目的,而不能理解为指示或暗示相对重要 性。
[0031] 在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语"安装"、"相 连"、"连接"应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可 以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是 两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本 发明中的具体含义。
[0032] 参照下面的描述和附图,将清楚本发明的实施例的这些和其他方面。在这些描述 和附图中,具体公开了本发明的实施例中的一些特定实施方式,来表示实施本发明的实施 例的原理的一些方式,但是应当理解,本发明的实施例的范围不受此限制。相反,本发明的 实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
[0033] 以下结合附图描述根据本发明实施例的个人主页的查找方法。
[0034] 图1是本发明一个实施例的主页抽取流程图,请参考图1。
[0035] -、获得高质量的数据集
[0036] 随着互联网的发展,越来越多的信息足不出户便可以从网上获取。统计发现,相当 一部分研究者在网上都有自己的个人主页,而个人主页上所列出的研究者相关信息是构建 专家智库,评审专家库等人才库的重要条件,同时这些信息的完备程度对于如专家推荐,审 稿人推荐等应用服务的效果有重要影响,因此如何获得个人主页数据极为关键。得益于搜 索引擎的发展,通过合理的关键词检索,便可以获得这些数据。目前比较流行的搜索引擎有 Baidu、Bing、Google三种,考虑到研究者的国际化,在本专利中使用全球最大的Google搜 索引擎作为获得数据集的工具。通过使用Google Search API,以特定词组作为搜索关键 词,获得可能包含研究者主页的搜索结果。
[0037] Google Search API 的接 口地址如下:
[0038] http://ajax.googleapis.com/ajax/services/search/web ? v = 1.0 &hl = z
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1