一种文献数据处理、检索方法和装置与流程

文档序号：29924127发布日期：2022-05-07 10:28阅读：60来源：国知局

1.本发明属于数据处理领域，具体涉及一种文献数据处理、检索方法和装置。

背景技术：

2.随着科学技术的不断发展，各种专利文献、学术文献或技术文献越来越多，尤其是，代表先进技术的专利文献也是越来越多，现在已经有多个检索平台，能够提供多个检索手段对数据库内的专利文献、非专利文献进行检索。
3.但是目前的检索手段以（排名不分先后）“索意互动(北京)信息技术有限公司”、
“ꢀ
天启黑马信息科技(北京)有限公司”为代表的智能检索或语义检索，其基本是对文献本身的关键词、分类号、著录项目等基础的数据格式的加工与处理，以及索引词的加工、算法的优化，但该方式存在一个客观的瓶颈，即所谓的智能检索或语义检索，所依据的数据库并不是深加工的数据库，而是最基础的数据格式的加工，或者说数据库的在深加工层面上几乎为零，正是这个客观瓶颈的存在，导致无论如何通过ai技术不断优化算法，也都会存在短板的根本客观原因。
4.以数据深加工为代表的“derwent information limited（德温特公司）”，是基于对文献标题、摘要、创新点等数据的深加工。申请人为：derwent information limited，专利标题为：patent classification displaying method and apparatus，公开号为：ep1213665a2的专利文件，提供了一种提高专利检索效率的方式和显示专利文献分类的方法，该方法利用f-terms (file forming terms) 将专利从多种角度进行分类，可以在不阅读说明书的情况下，能够准确迅速地掌握多于“摘要”的专利文献的内容。
5.但说明书是包含有关理解、实现专利所需的技术内容，在专利数据深加工方面，对专利说明书的加工以及更深层次的挖掘一直是项空白。

技术实现要素：

6.鉴于上述问题，本发明提供一种文献数据处理、检索方法和装置，本方法可适用于专利文献、学术文献和技术文献等，本方法通过在文献中取多类主题，将所述的多类主题进行数据深加工处理。使得人们可以在不阅读整篇文献的情况下，能够迅速掌握和理解所述的文献内容，快速地准确地确定是否是目标专利文献、学术文献或技术文献。
7.本发明提供一种文献数据处理、检索方法和装置，所述的主题分别为：第一主题：文献要解决的技术问题；第二主题：解决所述技术问题所采用的技术方案；第三主题：解决所述技术问题所产生的技术效果；第四主题：文献要解决的技术问题的技术领域；根据所述的第一主题，从文献中提取为第一组第一视点文本；根据所述的第二主题，从文献中提取为第二组第一视点文本；
根据所述的第三主题，从文献中提取为第三组第一视点文本；根据所述的第四主题，从文献中提取为第四组第一视点文本；存储从文献中提取的第一组第一视点文本；存储从文献中提取的第二组第一视点文本；存储从文献中提取的第三组第一视点文本；存储从文献中提取的第四组第一视点文本；根据第一组第一视点文本、第二组第一视点文本、第三组第一视点文本或第四组第一视点文本，或其任意两项或两项以上的组合，对文献进行检索。
8.进一步的，编辑提取的第一组第一视点文本，生成第一组第二视点文本；编辑提取的第二组第一视点文本，生成第二组第二视点文本；编辑提取的第三组第一视点文本，生成第三组第二视点文本；编辑提取的第四组第一视点文本，生成第四组第二视点文本；存储编辑后的第一组第二视点文本；存储编辑后的第二组第二视点文本；存储编辑后的第三组第二视点文本；存储编辑后的第四组第二视点文本；根据第一组第二视点文本、第二组第二视点文本、第三组第二视点文本或第四组第二视点文本，或其任意两项或两项以上的组合，对文献进行检索。
9.更进一步的，标引编辑后的第一组第二视点文本，生成第一组第三视点文本；标引编辑后的第二组第二视点文本，生成第二组第三视点文本；标引编辑后的第三组第二视点文本，生成第三组第三视点文本；标引编辑后的第四组第二视点文本，生成第四组第三视点文本；存储标引后的第一组第三视点文本；存储标引后的第二组第三视点文本；存储标引后的第三组第三视点文本；存储标引后的第四组第三视点文本；根据第一组第三视点文本、第二组第三视点文本、第三组第三视点文本或第四组第三视点文本，或其任意两项或两项以上的组合，对文献进行检索。
10.本发明提供一种文献数据处理方法，包括：待处理文献101；将上述待处理文献101输入到视点提取模型201中；经视点提取模型201，提取得到第一组第一视点文本、第二组第一视点文本、第三组第一视点文本和第四组第一视点文本；所述的第一组第一视点文本、第二组第一视点文本、第三组第一视点文本和第四组第一视点文本分别存储到对应的存储装置102a、存储装置102b、存储装置102c和存储装置102d中；将存储于存储装置102a、存储装置102b、存储装置102c和存储装置102d中的所述第一
组第一视点文本、第二组第一视点文本、第三组第一视点文本和第四组第一视点文本分别输入到对应的视点编辑模型202a、视点编辑模型202b、视点编辑模型202c和视点编辑模型202d中进行编辑，得到第一组第二视点文本、第二组第二视点文本、第三组第二视点文本和第四组第二视点文本；所述的第一组第二视点文本、第二组第二视点文本、第三组第二视点文本和第四组第二视点文本分别存储到对应的存储装置103a、存储装置103b、存储装置103c和存储装置103d中;将存储于存储装置103b、存储装置103c和存储装置103d中的所述第一组第二视点文本、第二组第二视点文本、第三组第二视点文本和第四组第二视点文本分别输入到对应的视点标引模型203a、视点标引模型203b、视点标引模型203c和视点标引模型203d中进行标引，得到第一组第三视点文本、第二组第三视点文本、第三组第三视点文本和第四组第三视点文本；所述第一组第三视点文本、第二组第三视点文本、第三组第三视点文本和第四组第三视点文本分别存储到对应的存储装置104a、存储装置104b、存储装置104c和存储装置104d中。
11.本发明提供一种文献数据处理装置，包括：第一处理单元、第二处理单元和第三处理单元；所述的第一处理单元包括：待处理文献101、视点提取模型201、处理器10、存储器11、存储装置102a、存储装置102b、存储装置102c、存储装置102d；所述的第二处理单元包括：视点编辑模型202a、视点编辑模型202b、视点编辑模型202c、视点编辑模型202d、处理器10、存储器11、存储装置103a、存储装置103b、存储装置103c、存储装置103d；所述的第三处理单元包括：视点标引模型203a、视点标引模型203b、视点标引模型203c、视点标引模型203d、处理器10、存储器11、存储装置104a、存储装置104b、存储装置104c和存储装置104d。
12.第一处理单元用于，根据所述的第一主题，从文献中提取第一组第一视点文本；根据所述的第二主题，从文献中提取第二组第一视点文本；根据所述的第三主题，从文献中提取第三组第一视点文本；根据所述的第四主题，从文献中提取第四组第一视点文本；存储装置102a、存储装置102b、存储装置102c、存储装置102d，分别存储对应的第一组第一视点文本、第二组第一视点文本、第三组第一视点文本和第四组第一视点文本。
13.第二处理单元用于，编辑提取的第一组第一视点文本，生成第一组第二视点文本；编辑提取的第二组第一视点文本，生成第二组第二视点文本；编辑提取的第三组第一视点文本，生成第三组第二视点文本；编辑提取的第四组第一视点文本，生成第四组第二视点文本；存储装置103a、存储装置103b、存储装置103c、存储装置103d，分别存储对应的第一组第二视点文本、第二组第二视点文本、第三组第二视点文本和第四组第二视点文本。
14.第三处理单元用于，标引编辑后的第一组第二视点文本，生成第一组第三视点文本；标引编辑后的第二组第二视点文本，生成第二组第三视点文本；标引编辑后的第三组第二视点文本，生成第三组第三视点文本；标引编辑后的第四组第二视点文本，生成第四组第三视点文本；存储装置104a、存储装置104b、存储装置104c和存储装置104d，分别存储对应的第一组第三视点文本、第二组第三视点文本、第三组第三视点文本和第四组第三视点文本。
15.处理器10和所述的存储器11、待处理文献101、视点提取模型201、存储装置102a、存储装置102b、存储装置102c、存储装置102d、视点编辑模型202a、视点编辑模型202b、视点编辑模型202c、视点编辑模型202d、存储装置103a、存储装置103b、存储装置103c、存储装置103d、视点标引模型203a、视点标引模型203b、视点标引模型203c、视点标引模型203d、存储装置104a、存储装置104b、存储装置104c和存储装置104d相互通信连接，所述存储器11为计算机可读存储介质，所述存储器11中存储有用于控制或操作处理器10的计算机指令，根据存储在存储器11上的计算机指令执行上述方法。
附图说明
16.图1是根据本发明提出的文献数据处理方法的流程图。
17.图2是根据本发明提出的文献数据处理装置的结构框图。
具体实施例
18.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。
19.本发明提供一种文献数据处理、检索方法和装置，如图1和图2所示，该方法包括：s1. 确定待处理文献的主题，所述文献的主题包括，第一主题：文献要解决的技术问题；第二主题：解决所述技术问题所采用的技术方案；第三主题：解决所述技术问题所产生的技术效果；第四主题：文献要解决的技术问题的技术领域；s2. 根据所述的主题提取文献中的视点文本，生成一阶视点文本，存储一阶视点文本，所述一阶视点文本包括，第一组第一视点文本、第二组第一视点文本、第三组第一视点文本和第四组第一视点文本；根据步骤s1所述的第一主题，从文献中提取生成第一组第一视点文本；根据步骤s1所述的第二主题，从文献中提取生成第二组第一视点文本；根据步骤s1所述的第三主题，从文献中提取生成第三组第一视点文本；根据步骤s1所述的第四主题，从文献中提取生成第四组第一视点文本；存储装置102a、存储装置102b、存储装置102c、存储装置102d，分别存储对应的第一组第一视点文本、第二组第一视点文本、第三组第一视点文本和第四组第一视点文本；根据第一组第一视点文本、第二组第一视点文本、第三组第一视点文本或第四组第一
视点文本，或其任意两项或两项以上的组合，对文献进行检索。
20.s3. 编辑所提取的一阶视点文本，生成二阶视点文本，存储二阶视点文本，所述二阶视点文本包括，第一组第二视点文本、第二组第二视点文本、第三组第二视点文本和第四组第二视点文本；编辑步骤s2提取的第一组第一视点文本，生成第一组第二视点文本；编辑步骤s2提取的第二组第一视点文本，生成第二组第二视点文本；编辑步骤s2提取的第三组第一视点文本，生成第三组第二视点文本；编辑步骤s2提取的第四组第一视点文本，生成第四组第二视点文本；存储装置103a、存储装置103b、存储装置103c、存储装置103d，分别存储对应的第一组第二视点文本、第二组第二视点文本、第三组第二视点文本和第四组第二视点文本；根据第一组第二视点文本、第二组第二视点文本、第三组第二视点文本或第四组第二视点文本，或其任意两项或两项以上的组合，对文献进行检索。
21.s4. 标引所编辑后的二阶视点文本，生成三阶视点文本，存储三阶视点文本，所述三阶视点文本包括，第一组第三视点文本、第二组第三视点文本、第三组第三视点文本和第四组第三视点文本；标引编辑后的第一组第二视点文本，生成第一组第三视点文本；标引编辑后的第二组第二视点文本，生成第二组第三视点文本；标引编辑后的第三组第二视点文本，生成第三组第三视点文本；标引编辑后的第四组第二视点文本，生成第四组第三视点文本；存储装置104a、存储装置104b、存储装置104c和存储装置104d，分别存储对应的第一组第三视点文本、第二组第三视点文本、第三组第三视点文本和第四组第三视点文本；根据第一组第三视点文本、第二组第三视点文本、第三组第三视点文本或第四组第三视点文本，或其任意两项或两项以上的组合，对文献进行检索。
22.本发明提供一种文献数据处理、检索方法和装置，如图1和图2所示，该装置包括：第一处理单元、第二处理单元和第三处理单元；所述的第一处理单元包括：待处理文献101、视点提取模型201、处理器10、存储器11、存储装置102a、存储装置102b、存储装置102c、存储装置102d；所述的第二处理单元包括：视点编辑模型202a、视点编辑模型202b、视点编辑模型202c、视点编辑模型202d、处理器10、存储器11、存储装置103a、存储装置103b、存储装置103c、存储装置103d；所述的第三处理单元包括：视点标引模型203a、视点标引模型203b、视点标引模型203c、视点标引模型203d、处理器10、存储器11、存储装置104a、存储装置104b、存储装置104c和存储装置104d。
23.第一处理单元用于，根据所述的第一主题，从文献中提取第一组第一视点文本；根据所述的第二主题，从文献中提取第二组第一视点文本；根据所述的第三主题，从文献中提取第三组第一视点文本；根据所述的第四主题，从文献中提取第四组第一视点文本；存储装置102a、存储装置102b、存储装置102c、存储装置102d，分别存储对应的第一组
第一视点文本、第二组第一视点文本、第三组第一视点文本和第四组第一视点文本。
24.第二处理单元用于，编辑提取的第一组第一视点文本，生成第一组第二视点文本；编辑提取的第二组第一视点文本，生成第二组第二视点文本；编辑提取的第三组第一视点文本，生成第三组第二视点文本；编辑提取的第四组第一视点文本，生成第四组第二视点文本；存储装置103a、存储装置103b、存储装置103c、存储装置103d，分别存储对应的第一组第二视点文本、第二组第二视点文本、第三组第二视点文本和第四组第二视点文本。
25.第三处理单元用于，标引编辑后的第一组第二视点文本，生成第一组第三视点文本；标引编辑后的第二组第二视点文本，生成第二组第三视点文本；标引编辑后的第三组第二视点文本，生成第三组第三视点文本；标引编辑后的第四组第二视点文本，生成第四组第三视点文本；存储装置104a、存储装置104b、存储装置104c和存储装置104d，分别存储对应的第一组第三视点文本、第二组第三视点文本、第三组第三视点文本和第四组第三视点文本。
26.处理器10和所述的存储器11、待处理文献101、视点提取模型201、存储装置102a、存储装置102b、存储装置102c、存储装置102d、视点编辑模型202a、视点编辑模型202b、视点编辑模型202c、视点编辑模型202d、存储装置103a、存储装置103b、存储装置103c、存储装置103d、视点标引模型203a、视点标引模型203b、视点标引模型203c、视点标引模型203d、存储装置104a、存储装置104b、存储装置104c和存储装置104d相互通信连接，所述存储器11为计算机可读存储介质，所述存储器11中存储有用于控制或操作处理器10的计算机指令，根据存储在存储器11上的计算机指令执行上述方法。
27.本发明所述的视点文本，其含义为：从某个视角得到或看到或获取或发现的信息点。
28.本发明所述的视点提取模型201、视点编辑模型202a、视点编辑模型202b、视点编辑模型202c、视点编辑模型202d、视点标引模型203a、视点标引模型203b、视点标引模型203c和视点标引模型203d，是由目标、变量和关系组成，该组成由本发明外的可读的计算机指令执行，所述的组成可以是自由多变的，不包括在本发明内。
29.虽然结合附图描述了本发明的实施例，但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王毅龙
技术所有人：王毅龙
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。