文献归一方法、文献搜索方法及对应装置的制造方法

文档序号:9687630阅读:423来源:国知局
文献归一方法、文献搜索方法及对应装置的制造方法
【专利说明】
【技术领域】
[0001]本发明涉及计算机应用技术领域,尤其涉及一种文献归一方法、文献搜索方法及对应装置。
【【背景技术】】
[0002]科研工作者在进行科学研究的时候,需要查找科研文献做调查。通常在查找科研文献时,需要精确查找到某篇具体的文章,并且尽可能多地找到该文章的电子来源渠道。但在实际检索的时候会遇到一些不便。
[0003]由于科研人员众多,发表的科研文献也非常多,存在一些作者相同、标题相同的文献,用户需要甄别哪些是同一篇文献,哪些不是,最后确定自己真正所需要的。这个过程比较繁琐,增加了用户的查找成本。
[0004]如图1所示,当用户搜索文献时,某篇文献可能会有多种电子来源渠道,并且每个电子来源渠道的数据质量不一,用户无法获取同一篇文献的所有电子来源,只能检索看到某条来源就查看某条来源,不利于筛选优质和有权限的资源,降低了用户体验。

【发明内容】

[0005]本发明提供了一种文献归一方法、文献搜索方法及对应装置,以便于实现相同文献的归一化,为提高文献搜索的效果提供基础。
[0006]具体技术方案如下:
[0007]—种文献归一方法,包括:
[0008]获取一个以上网站来源的文献;
[0009]对所获取的文献进行标准化;
[0010]根据标准化后的文献的标题的相似度,将相似标题的文献进行聚类得到多个文献集合;
[0011]在每个文献集合中计算文献的相似度,根据所计算的文献的相似度筛选出符合条件的文献集合;
[0012]对筛选出的符合条件的文献集合,进行相同文献的聚类,并将相同的文献的发表来源进行汇总。
[0013]根据本发明一优选实施例,所述文献的标题的相似度采用以下方式中的至少一种确定:
[0014]针对文献的标题计算签名,计算文献的标题签名之间的相似度;
[0015]计算文献的标题之间的海明距离,依据海明距离确定文献标题之间的相似度。
[0016]根据本发明一优选实施例,在所述在每个文献集合中计算文献的相似度之前,该方法还包括:
[0017]根据标准化后的文献的作者,发表来源和发表年份中至少一种属性的相似度,将相似的文献进行聚类得到多个文献集合。
[0018]根据本发明一优选实施例,所述根据标准化后的文献的作者,发表来源和发表年份中至少一种属性的相似度采用以下方式中的至少一种确定:
[0019]将标准化后的文献的作者,发表来源及发表年份合并为字符串,计算合并后的字符串的签名,计算文献的合并后的字符串的签名之间的相似度;
[0020]将标准化后的文献的作者,发表来源及发表年份合并为字符串,计算合并后的字符串之间的海明距离,依据海明距离确定文献的作者,发表来源及发表年份的相似度。
[0021]根据本发明一优选实施例,在得到多个文献集合之后,且在每个文献集合中计算文献的相似度之前,该方法还包括:
[0022]基于文献集合中文献间的海明距离,筛选出海明距离小于或等于预设阈值的文献隹A
口 O
[0023]根据本发明一优选实施例,所述根据所计算的文献的相似度筛选出符合条件的文献集合,包括:
[0024]在每一个文献集合中,根据预先设置的各文献属性所对应的权重,计算每个文献集合中各文献间的相似度,将各文献间的相似度大于预设总分的文献集合确定为符合条件的文献集合。
[0025]根据本发明一优选实施例,所述对筛选出的符合条件的文献集合,进行相同文献的聚类,包括:
[0026]分别针对筛选出的每个符合条件的文献集合执行键值对形成过程,所述键值对形成过程包括:分别将各文献作为key,其他文献作为该key对应的value,从而形成至少两个key-value对;
[0027]依据得到的所有key-value对,将key相同的key-value对聚类到一个集合;
[0028]分别针对得到的集合转至执行所述键值对形成过程,直至达到预设的迭代次数。
[0029]根据本发明一优选实施例,所述标准化包括:
[0030]对文献的第一作者的全名进行分词处理,提取每个单词的首字母,将提取的首字母组合作为标准化后的文献作者;或者,
[0031]提取文献摘要的主体部分中最长的句子,计算该最长句子的签名;或者,
[0032]统一文献来源的格式;或者,
[0033]统一文献发表时间的格式,或者仅提取文献发表时间的年份。
[0034]根据本发明一优选实施例,所述针对文献的标题计算签名,包括:
[0035]将文献的标题切分成多个子标题,计算每个子标题的长度,提取子标题的长度大于预设长度的子标题;
[0036]确定所提取的子标题的n-gram特征,所述η的取值为从I到N的正整数,所述N为预设的正整数;
[0037]依据所确定的n-gram特征,计算文献的标题的签名。
[0038]一种文献搜索方法,该方法包括:
[0039]接收用户输入的关键词;
[0040]根据所述关键词,搜索与所述关键词相关联的文献;
[0041]在搜索结果中,将相同文献进行聚合展现,并展现各文献的发表来源;
[0042]其中相同文献采用所述文献归一的方法进行归一化。
[0043]—种文献归一装置,包括:
[0044]获取单元,用于获取一个以上网站来源的文献;
[0045]标准化单元,用于对所获取的文献进行标准化;
[0046]第一聚类单元,用于根据标准化后的文献的标题的相似度,将相似标题的文献进行聚类得到多个文献集合;
[0047]第一筛选单元,用于在每个文献集合中计算文献的相似度,根据所计算的文献的相似度筛选出符合条件的文献集合;
[0048]第二聚类单元,用于对筛选出的符合条件的文献集合,进行相同文献的聚类,并将相同的文献的发表来源进行汇总。
[0049]根据本发明一优选实施例,所述第一聚类单元采用以下方式中的至少一种确定文献的标题的相似度:
[0050]针对文献的标题计算签名,计算文献的标题签名之间的相似度;
[0051]计算文献的标题之间的海明距离,依据海明距离确定文献标题之间的相似度。
[0052]根据本发明一优选实施例,所述第一聚类单元,还用于在所述在每个文献集合中计算文献的相似度之前,根据标准化后的文献的作者,发表来源和发表年份中至少一种属性的相似度,将相似的文献进行聚类得到多个文献集合。
[0053]根据本发明一优选实施例,所述第一聚类单元采用以下方式中的至少一种确定所述至少一种属性的相似度:
[0054]将标准化后的文献的作者,发表来源及发表年份合并为字符串,计算合并后的字符串的签名,计算文献的合并后的字符串的签名之间的相似度;
[0055]将标准化后的文献的作者,发表来源及发表年份合并为字符串,计算合并后的字符串之间的海明距离,依据海明距离确定文献的作者,发表来源及发表年份的相似度。
[0056]根据本发明一优选实施例,还包括:
[0057]第二筛选单元,用于在得到多个文献集合之后,且在每个文献集合中计算文献的相似度之前,基于文献集合中文献间的海明距离,筛选出海明距离小于或等于预设阈值的文献集合。
[0058]根据本发明一优选实施例,所述第一筛选单元具体用于,在每一个文献集合中,根据预先设置的各文献属性所对应的权重,计算每个文献集合中各文献间的相似度,将各文献间的相似度大于预设总分的文献集合确定为符合条件的文献集合。
[0059]根据本发明一优选实施例,所述第二聚类单元在对筛选出的符合条件的文献集合,进行相同文献的聚类时,具体执行:
[0060]分别针对筛选出的每个符合条件的文献集合执行键值对形成过程,所述键值对形成过程包括:分别将各文献作为key,其他文献作为该key对应的value,从而形成至少两个key-value对;
[0061 ] 依据得到的所有key-value对,将key相同的key-value对聚类到一个集合;
[0062]分别针对得到的集合转至执行所述键值对形成过程,直至达到预设的迭代次数。
[0063]根据本发明一优选实施例,所述标准化单元,具体用于:
[0064]对文献的第一作者的全名进行分词处理,提取每个单词的首字母,将提取的首字母组合作为标准化后的文献作者;或者,
[0065]提取文献摘要的主体部分中最长的句子,计算该最长句子的签名;或者,
[0066]统一文献来源的格式;或者,
[0067 ]统一文献发表时间的格式,或者仅提取文献发表时间的年份。
[0068]根据本发明一优选实施例,所述第一聚类单元在针对文献的标题计算签名时,具体执行:
[0069]将文献的标题切分成多个子标题,计算每个子标题的长度,提取子标题的长度大于预设长度的子标题;
[0070]确定所提取子标题的n-gram特征,所述η的取值为从I到N的正整数,所述N为预设的正整数
[007? ]依据所确定的n-gram特征,计算文献的标题的签名。
[0072]一种文献搜索装置,该装置包括:
[0073]接收单元,用于接收用户输入的关键词;
[0074]匹配单元,用于根据所述关键词,搜索出与所述关键词相关联的文献;
[0075]展现单元,用于在搜索结果中,将相同文献进行聚合展现,并展现各文献的发表来源,其中相同文献采用所述文献归一的装置进行归一化。
[0076]由以上技术方案可以看出,本发明能精确地将相同的文献聚合在一起,并清晰地提供文献来源,当用户搜索文献时,能够将同一篇文献的不同发表来源汇聚到一起呈现给用户,提升了用户体验。
【【附图说明】】
[0077]图1是现有技术中搜索文献的示意图。
[0078]图2是本发明实施例提供的文献归一方法的流程图。
[0079]图3是本发明实施例中对作者进行标准化的示意图。
[0080]图4是本发明实施例提供的对相同的文献进行聚类的示意图。
[0081 ]图5是本发明实施例提供的一个搜索结果展现的示意图。
[0082]图6是本发明实施例中在reduce阶段对两个标题的签名处理的示意图。
[0083]图7是本发明实施例提供的另一个文献归一的方法流程图。
[0084]图8是本发明实施例提供的装置结构示意图。
[0085]图9是图8中第一聚类单元的一个实施例的结构示意图。
[0086]图10是图8中签名计算单元的一个实施例的结构示意图。
[0087]图11是利用文献归一方法进行搜索的装置的结构示意图。
【【具体实施方式】】
[0088]为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
[0089]图2是本发明文献归一方法的实施例一的流程图。如图2所示,该文献归一方法包括:
[0090]SlO,获取所有网站来源的文献。
[0091]具体地,通过网络爬虫的方式从所有网站获取文献。
[0092]Sll,对所获取的文献进行标准化。
[0093]在本发明的实施例中,所述标准化是对文件的属性进行标准化,所述文献的属性包括,标题、作者、摘要、发表来源、发表时间等。
[0094]具体地,对标题的标准化包括,对标题的切分、半角全角的统一化、去掉标题的标点等。例如,某篇文献的标题为re:Coagulat1n and--Flocculat1n,经过标题的标准化后为re Coagulat1n and—Flocculat1n。
[0095]由于站点的作者可能缩写是不同的,需要对文献的作者进行标准化。对作者的标准化的原理是提取文献的第一作者的全名,将第一作者的全名切分成多个单词,提取每个单词的首字母,最后将提取的所有首字母排序进行排序作为文献所对应的作
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1