文献搜索方法和装置与流程

文档序号:11519658阅读:169来源:国知局
文献搜索方法和装置与流程

本发明涉及计算机应用技术领域,尤其涉及一种文献搜索方法和装置。



背景技术:

科研人员在进行科学研究时,通常需要查找相关领域的科研文献来进行参考。目前,科研人员在查找科研文献时,主要通过输入文献的标题或doi(digitalobjectuniqueidentifier,数字对象唯一标识符)进行查询。但是,由于文献数量众多,因此很难对需求的科研文献进行精确定位。



技术实现要素:

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的第一个目的在于提出一种文献搜索方法,该方法通过文献的doi获取对应的具有单篇标记的文献,并以特型样式展现文献,从而实现了精确定位目标文献并详细展现目标文献信息。

本发明的第二个目的在于提出一种文献搜索装置。

为了实现上述目的,本发明第一方面实施例提出了一种文献搜索方法,包括:接收用户输入的查询语句;判断查询语句中是否包含数字对象唯一标识符doi;如果包含doi,则提取doi,并根据doi获取包含doi的具有单篇标记的文献;以特型样式展现文献。

本发明实施例的文献搜索方法,通过文献的doi获取对应的具有单篇标记的文献,并以特型样式展现文献,从而实现了精确定位目标文献并详细展现目标文献信息。

为达上述目的,本发明第二方面实施例提出了一种文献搜索装置,包括:接收模块,用于接收用户输入的查询语句;判断模块,用于判断查询语句中是否包含数字对象唯一标识符doi;提取模块,用于如果包含doi,则提取doi,并根据doi获取包含doi的具有单篇标记的文献;展现模块,用于以特型样式展现文献。

本发明实施例的文献搜索装置,通过文献的doi获取对应的具有单篇标记的文献,并以特型样式展现文献,从而实现了精确定位目标文献并详细展现目标文献信息。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

图1是在现有搜索引擎中输入doi查找文献的效果示意图;

图2是根据本发明一个实施例的文献搜索方法的流程图;

图3是根据本发明一个实施例的建立doi倒排索引数据库的流程图;

图4是根据本发明一个实施例的特型样式展现文献的效果示意图;

图5是根据本发明一个具体实施例的文献搜索方法的流程图;

图6是根据本发明一个实施例的文献搜索装置的结构示意图;

图7是根据本发明一个具体实施例的文献搜索装置的结构示意图;

图8是根据本发明另一个具体实施例的文献搜索装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

科研工作者通常在查找科研文献时,需要精确查找到某篇具体的文献。目前,主要通过在搜索引擎中输入标题精确查找文献。但是由于科研人员众多,标题相同的文献也较多,通过标题很难对要查找的文献进行精确定位。因而,可以通过能够表示文献唯一性的doi查找文献。

但是,在现有的搜索引擎中输入包含文献的doi的查询语句,无法精确查找到对应的文献,即现有的搜索引擎不支持doi检索。如图1所示,在360学术搜索引擎中输入doi“10.1016/0735-1097(96)82380-1”后,点击“搜索一下”,在搜索结果列表中有两篇文献,未能精确定位doi为“10.1016/0735-1097(96)82380-1”的文献,并且从搜索结果列表中不能获取文献的详细信息,如摘要、网络来源等。

下面参考附图描述本发明实施例的文献搜索方法和装置。

图2是根据本发明一个实施例的文献搜索方法的流程图。

如图2所示,该文献搜索方法包括:

s201,接收用户输入的查询语句。

例如,某科研人员在搜索引擎中输入查询语句查找文献,从而搜索引擎接收用户输入的查询语句。

s202,判断查询语句中是否包含doi。

具体地,在获取用户输入的查询语句后,判断查询语句中是否包含doi。其中,doi是表明文献唯一性的标识符。

例如,在接收到用户输入的查询语句“doi:10.1056/nejmoa062462论文”后,判断查询语句“doi:10.1056/nejmoa062462论文”中是否包含doi。

s203,如果包含doi,则提取doi,并根据doi获取包含doi的具有单篇标记的文献。

具体地,如果查询语句中包含doi,则去掉查询语句中除doi以外的其他字符,以提取doi,并根据提取的doi获取包含该doi的具有单篇标记的文献。

更具体地,在提取查询语句中包含的doi后,将提取的doi与doi倒排索引数据库中的数据进行相关性计算,从而从doi倒排索引数据库中获取所有包含提取的doi的待选文献。其中,待选文献可包括包含该doi的参考文献,或者题录信息中包含该doi的文献等。

由于待选文献中可能包含参考文献,因此在获取待选文献后,提取待选文献的题录信息中的doi号,将提取的待选文献的题录信息中的doi号与查询语句中的doi进行匹配。对与查询语句中包含的doi匹配一致的待选文献进行单篇标记,也就是说,将待选文献中文献的doi号与查询语句中的doi一致的文献进行单篇标记,并可通过doi倒排索引数据库获取具有单篇标记的文献。

具体示例如下:用户输入查询语句“doi:10.1056/nejmoa062462论文”,搜索引擎接收到查询语句后,经过判断获知查询语句中包含doi。

通过判断获知查询语句“doi:10.1056/nejmoa062462论文”中包含doi后,去掉查询语句中除doi以外的字符“doi:”和“论文”,提取doi为:10.1056/nejmoa062462。在提取doi后,将提取的doi与doi倒排索引数据库中的数据进行相关性计算,从而从doi倒排索引数据库中获取包含该doi的待选文献。获取待选文献后,提取待选文献的题录信息中的doi号,将待选文献的题录信息中的doi号与“10.1056/nejmoa062462”进行匹配。如果某待选文献的题录信息中的doi号与“10.1056/nejmoa062462”匹配一致,则对该待选文献进行单篇标记,并从doi倒排索引数据库中获取具有单篇标记的文献。

此外,在根据查询语句中的doi查询doi倒排索引数据库,以获取包含doi的待选文献之前,可预先建立doi倒排索引数据库。建立doi倒排索引数据库的具体步骤,如图3所示,可包括:

s301,获取网络中的文献样本。

具体地,从网络或者文献数据库,如知网、万方等文献数据库中,获取文献样本。

s302,提取文献样本中的结构化数据。

在获取文献样本后,可利用机器学习模型、ocr(opticalcharacterrecognition,光学字符识别)技术、最大熵模型等,从文献样本中提取结构化数据,如标题、作者、期刊、年份、期号、卷号、网络来源、doi号、参考文献等等。

s303,根据结构化数据建立doi倒排索引数据库。

根据提取的结构化数据,利用倒排索引技术,建立文献doi与对应文献的对应关系,从而得到doi倒排索引数据库。

s204,以特型样式展现文献。

具体地,根据查询语句中的doi获取具有单篇标记的文献即目标文献后,可提取单篇标记的文献的结构化数据,如标题、作者、期刊、年份、期号、卷号、网络来源、doi号、参考文献等,并调用特型样式模板,将结构化数据插入特型样式模板中以展现文献。当然,也可以对单篇标记文献的结构化数据进行处理,生成如图4所示的,具有一定格式的结构化信息。

图4是输入查询语句“10.3778/j.issn.1002-8331.2012.01.001”后,页面中展现与doi“10.3778/j.issn.1002-8331.2012.01.001”对应的文献。由图4可以看出,页面中展现了与doi“10.3778/j.issn.1002-8331.2012.01.001”对应的文献的标题、作者、摘要、期刊、年份、卷号、关键词、引用量、网络来源、免费下载链接等信息。

比较图4与图1可知,与现有搜索方法相比,本发明实现了通过doi精确查找到文献,并且在页面中详细的展现文献信息,从而可以方便用户获取文献信息,并且用户可通过页面中的下载链接下载文献。

综上所述,本发明实施例的文献搜索方法,通过文献的doi获取对应的具有单篇标记的文献,并以特型样式展现文献,从而实现了精确定位目标文献并详细展现目标文献信息。

图5是根据本发明一个具体实施例的文献搜索方法的流程图。

如图5所示,该文献搜索方法包括:

s501,获取网络中的文献样本。

具体地,从网络或者文献数据库,如知网、万方等文献数据库中,获取文献样本。

s502,提取文献样本中的结构化数据。

在获取文献样本后,可利用机器学习模型、ocr技术、最大熵模型等,从文献样本中提取结构化数据,如标题、作者、期刊、年份、期号、卷号、网络来源、doi号、参考文献等等。

s503,根据结构化数据建立doi倒排索引数据库。

根据提取的结构化数据,利用倒排索引技术,建立文献doi与对应文献的对应关系,从而得到doi倒排索引数据库。

s504,用户输入查询语句“doi:10.1056/nejmoa062462论文”。

用户在搜索引擎中输入查询语句“doi:10.1056/nejmoa062462论文”,从而搜索引擎接收用户输入的查询语句。

s505,查询语句中是否包含doi。

在接收用户输入的查询语句“doi:10.1056/nejmoa062462论文”后,判断查询语句中是否包含doi。

s506,提取查询语句中的doi。

如果查询语句中包含doi,则去掉查询语句中除doi以外的其他字符,提取doi。经过判断查询语句“doi:10.1056/nejmoa062462论文”中包含doi,提取doi为“doi:10.1056/nejmoa062462”。

s507,常规检索。

如果查询语句中不包含doi,则根据查询语句进行常规检索。

s508,计算提取的doi与doi倒排索引数据库中的数据的相关性,获取待选文献。

具体地,在提取查询语句中的doi“10.1056/nejmoa062462”后,计算提取的doi“10.1056/nejmoa062462”与doi倒排索引数据中的数据的相关性,从而从doi倒排索引数据库中获取待选文献。

s509,将待选文献的题录信息中的doi号与“10.1056/nejmoa062462”进行匹配。

由于待选文献中可能包含参考文献,因此提取待选文献的题录信息中的doi号,将提取的待选文献的题录信息中的doi号与“10.1056/nejmoa062462”进行匹配。

s510,是否匹配一致。

判断待选文献的题录信息中的doi号与“10.1056/nejmoa062462”是否匹配一致。

s511,对与“10.1056/nejmoa062462”匹配一致的待选文献进行单篇标记,并获取单篇标记的文献。

如果某待选文献的题录信息中的doi号与“10.1056/nejmoa062462”匹配一致,则对与“10.1056/nejmoa062462”匹配一致的doi号对应的待选文献进行单篇标记,并获取单篇标记的文献。

s512,不作处理

如果所有待选文献的题录信息中的doi号与“10.1056/nejmoa062462”均不匹配,则不作处理。

s513,展现获取的单篇标记的文献。

在获取与“10.1056/nejmoa062462”匹配一致的doi号对应的单篇标记的文献后,可提取单篇标记的文献的结构化数据,如标题、作者、期刊、年份、期号、卷号、网络来源、doi号、参考文献等,并调用特型样式模板,将结构化数据插入特型样式模板中以展现文献。当然,可以对单篇标记文献的结构化数据进行处理,生成具有一定格式的结构化信息。

下面结合图6对本发明实施例提出的文献搜索装置进行详细描述。图6是根据本发明一个实施例的文献搜索装置的结构示意图。

如图6所示,该文献搜索装置可包括:接收模块610、判断模块620、提取模块630、展现模块640。

其中,接收模块610用于接收用户输入的查询语句。

例如,某科研人员在搜索引擎中输入查询语句查找文献,从而接收模块610接收用户输入的查询语句。

判断模块620用于判断查询语句中是否包含doi。

具体地,在接收模块610获取用户输入的查询语句后,判断模块620判断查询语句中是否包含doi。其中,doi是表明文献唯一性的标识符。

例如,在接收模块610接收到用户输入的查询语句“doi:10.1056/nejmoa062462论文”后,判断模块620判断查询语句“doi:10.1056/nejmoa062462论文”中是否包含doi。

提取模块630用于如果包含doi,则提取doi,并根据doi获取包含doi的具有单篇标记的文献。

如图7所示,在图6的基础上,提取模块630包括:获取单元631、匹配单元632、标记单元633。其中,获取单元631用于根据doi查询doi倒排索引数据库,以获取包含doi的待选文献;匹配单元632用于将待选文献的题录信息中的doi号与doi进行匹配;标记单元633用于对与doi匹配一致的待选文献进行单篇标记,并获取具有单篇标记的文献。

具体地,如果查询语句中包含doi,则提取模块630去掉查询语句中除doi以外的其他字符,提取doi,并根据提取的doi获取包含该doi的具有单篇标记的文献。

更具体地,在提取查询语句中包含的doi后,获取单元631将提取的doi与doi倒排索引数据库中的数据进行相关性计算,从而从doi倒排索引数据库中获取所有包含提取的doi的待选文献。其中,待选文献可包括包含该doi的参考文献,或者题录信息中包含该doi的文献等。

由于参考文献中可能包含参考文献,因此在获取待选文献后,匹配单元632提取待选文献的题录信息中的doi号,将提取的待选文献的题录信息中的doi号与查询语句中的doi进行匹配。标记单元633对与查询语句中包含的doi匹配一致的待选文献进行单篇标记,即从待选文献中选出文献的doi与查询语句中的doi一致的文献进行单篇标记,并可通过doi倒排索引数据库获取具有单篇标记的文献。

具体示例如下:用户输入查询语句“doi:10.1056/nejmoa062462论文”,接收模块610接收到查询语句后,经过判断模块420判断获知查询语句中包含doi。

判断模块620判断获知查询语句“doi:10.1056/nejmoa062462论文”中包含doi后,提取模块630去掉查询语句中除doi以外的字符“doi:”和“论文”,提取doi为:10.1056/nejmoa062462。在提取doi后,获取单元631将提取的doi与doi倒排索引数据库中的数据进行相关性计算,从而从doi倒排索引数据库中获取包含该doi的待选文献。获取待选文献后,提取待选文献的题录信息中的doi号,匹配单元632计算待选文献的题录信息中的doi号与“10.1056/nejmoa062462”进行匹配。如果某待选文献的题录信息中的doi号与“10.1056/nejmoa062462”匹配一致,则标记单元633对该待选文献进行单篇标记,并从doi倒排索引数据库中获取具有单篇标记的文献。

此外,如图8所示,在图7的基础上,提取模块630还包括建立单元634。

建立单元634用于在根据doi查询doi倒排索引数据库,以获取包含doi的待选文献之前,预先建立doi倒排索引数据库。

在根据查询语句中的doi查询doi倒排索引数据库,以获取包含doi的待选文献之前,可预先建立doi倒排索引数据库。在建立doi倒排索引数据库后,可根据预先建立的doi倒排索引数据库和查询语句中的doi获取具有单篇标记的文献。具体示例如下:

首先,建立单元634从网络或者文献数据库,如知网、万方等文献数据库中,获取文献样本。在获取文献样本后,可利用机器学习模型、ocr技术、最大熵模型等,从文献样本中提取结构化数据,如标题、作者、期刊、年份、期号、卷号、网络来源、doi号、参考文献中等等。

然后,根据提取的结构化数据,利用倒排索引技术,建立文献doi与对应文献的对应关系,从而得到doi倒排索引数据库。

进而,在某用户在搜索引擎中输入查询语句“doi:10.1056/nejmoa062462论文”后,获取单元631将提取的查询语句中的doi“10.1056/nejmoa062462”与预先的建立doi倒排索引数据库中的数据进行相关性计算,从而获取doi倒排索引数据库中所有包含doi“10.1056/nejmoa062462”的文献作为待选文献。在获取单元631获取待选文献后,匹配单元632提取待选文献的题录信息中的doi号,将提取的doi号与查询语句中的doi进行匹配。如果某待选文献的题录信息中的doi号与查询语句中的doi匹配一致,则标记单元633对该待选文献进行单篇标记,从而可以获取具有单篇标记的文献。

展现模块640用于以特型样式展现文献。

具体地,根据查询语句中的doi获取具有单篇标记的文献即目标文献后,展现模块640可提取单篇标记的文献的结构化数据,如标题、作者、期刊、年份、期号、卷号、网络来源、doi号、参考文献等,并调用特型样式模板,将结构化数据插入特型样式模板中以展现文献。当然,也可以对单篇标记文献的结构化数据进行处理,生成如图4所示的,具有一定格式的结构化信息。

图4是输入查询语句“10.3778/j.issn.1002-8331.2012.01.001”后,页面中展现与doi“10.3778/j.issn.1002-8331.2012.01.001”对应的文献。由图4可以看出,页面中展现了与doi“10.3778/j.issn.1002-8331.2012.01.001”对应的文献的标题、作者、摘要、期刊、年份、卷号、关键词、引用量、网络来源、免费下载链接等信息。

比较图4与图1可知,与现有搜索方法相比,本发明实现了通过doi精确查找到文献,并且可在页面中详细的展现文献的结构化信息,从而可以方便用户获取文献信息,并且用户可通过页面中的下载链接下载文献。

综上所述,本发明实施例的文献搜索装置,通过文献的doi获取对应的具有单篇标记的文献,并以特型样式展现文献,从而实现了精确定位目标文献并详细展现目标文献信息。

在本说明书的描述中,参考术语:“一个实施例”、“具体实施例”“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1