数据搜索方法、装置、电子设备、存储介质及产品与流程

文档序号:31053697发布日期:2022-08-06 09:47阅读:85来源:国知局
数据搜索方法、装置、电子设备、存储介质及产品与流程

1.本发明涉及智慧金融领域,尤其涉及一种数据搜索方法、装置、电子设备、存储介质及产品。


背景技术:

2.为加强制度管理,可以在整合商业银行所有规章制度和外部监管规则的同时,着手搭建制度库it系统,实现企业级制度的全流程管理,提供包括制度分类登记、智能检索、重检修订、建议反馈和统计分析等功能,该系统引进搜索引擎,支持对规章制度的全文进行检索,再结合规章制度的相关标签信息、发文机构、发文部门,发文日期,效力状态等结构化信息进行高级查询,引进相关办公软件,将规章制度文件转换为pdf格式,采用开源pdf.js开源js技术,实现规章制度的在线阅读。
3.然而,对于上述存储历史公文电子版的档案管理信息系统,虽然可在线存储制度文档,但是,它不能满足现有制度管理全文检索的需求,无法进行规章制度数据的快速定位,造成检索效率低下的问题;且档案管理系统不支持对于规章制度的在线阅读,企业人员需要将规章下载到本地,通过office进行浏览,此种做法容易造成行内规章制度的外流,且缺乏对制度的检索和分类,制度数据查询便利性不足,制度数量庞杂凌乱时,检索效率更是低下。
4.公开内容
5.有鉴于此,本发明提供一种数据搜索方法、装置、电子设备、存储介质及产品,能够有效减少制度重检不够及时,制度数量庞杂凌乱等情况,便于检索和查阅相关制度数据,从而提升数据检索效率。
6.根据本发明的一方面,本发明实施例提供了一种数据搜索方法,该方法包括:
7.响应于对原始索引词的输入操作,对所述原始索引词进行预处理,得到对应的至少一个目标索引词;
8.按照预先选择的检索方式和所述目标索引词对预先创建的目标es搜索引擎进行检索,得到对应的目标检索结果。
9.根据本发明的另一方面,本发明实施例还提供了一种数据搜索装置,该装置包括:
10.预处理模块,用于响应于对原始索引词的输入操作,对所述原始索引词进行预处理,得到对应的至少一个目标索引词;
11.检索模块,用于按照预先选择的检索方式和所述目标索引词对预先创建的目标es搜索引擎进行检索,得到对应的目标检索结果。
12.根据本发明的另一方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
13.至少一个处理器;以及
14.与所述至少一个处理器通信连接的存储器;其中,
15.所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序
被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的数据搜索方法。
16.根据本发明的另一方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的数据搜索方法。
17.根据本发明的另一方面,本发明实施例还提供了一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时实现本发明任一实施例所述的数据搜索方法。
18.本发明实施例的技术方案,通过响应于对原始索引词的输入操作,对原始索引词进行预处理,得到对应的至少一个目标索引词,按照预先选择的检索方式和目标索引词对预先创建的目标es搜索引擎进行检索,得到对应的目标检索结果。本发明实施例,通过对原始索引词进行预处理,得到对应的至少一个目标索引词,按照预先选择的检索方式和目标索引词对预先创建的目标es搜索引擎进行检索,得到对应的目标检索结果,能够有效减少制度重检不够及时,制度数量庞杂凌乱等情况,便于检索和查阅相关制度数据,从而提升了数据检索效率。
19.应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
20.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
21.图1为本发明一实施例提供的一种数据搜索方法的流程图;
22.图2为本发明一实施例提供的一种数据搜索方法的流程图;
23.图3为本发明一实施例提供的一种数据搜索方法的流程图;
24.图4为本发明一实施例提供的一种企业级制度管理系统的示意图;
25.图5是本发明一实施例提供的一种数据搜索装置的结构框图;
26.图6示出了可以用来实施本发明的实施例的电子设备的结构示意图。
具体实施方式
27.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
28.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“目标”、“第一”以及“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在
这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
29.本技术所涉及技术方案中对数据的获取存储和/或处理,符合国家法律法规的相关规定。
30.现有技术中,通常采用的检索技术有全文搜索引擎(比如,lucence)和企业级搜索应用服务器(比如,solr检索)。lucence是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎,它采用的是一种称为反向索引(invertedindex)的机制,反向索引简单理解就是维护一个词/短语表,对于这个表中的每个词/短语,都有一个相关信息描述了有哪些文档包含了这个词/短语。这样在用户输入查询条件的时候,就能非常快的得到搜索结果。solr它是一种开放源码的、基于lucence java的搜索服务器,易于加入到前端网页应用程序中。solr提供了层面搜索(就是统计)、命中醒目显示并且支持多种输出格式(包括xml/xslt和json等格式)。它易于安装和配置,而且附带了一个基于超文本传输协议的管理界面。可以使用solr的表现优异的基本搜索功能,也可以对它进行扩展从而满足企业的需要。
31.然而,lucence是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,需要进行较多的二次开发,且对于数据索引无备份存储,有单点风险。制度管理系统支持在线补录规章制度,当实时建立索引时,solr会产生io阻塞,查询性能较差,且随着数据量的增加,solr的搜索效率会变得更低。
32.有鉴于此,本技术提出了一种数据搜索方法、装置、电子设备、存储介质及产品,能够有效减少制度重检不够及时,制度数量庞杂凌乱等情况,便于检索和查阅相关制度数据,提升数据搜索的效率。
33.在一实施例中,图1为本发明一实施例提供的一种数据搜索方法的流程图,本实施例可适用于对数据进行快速搜索的情况,该方法可以由数据搜索装置来执行,该数据搜索装置可以采用硬件和/或软件的形式实现,该数据搜索装置可配置于电子设备中。如图1所示,该方法包括:
34.s110、响应于对原始索引词的输入操作,对原始索引词进行预处理,得到对应的至少一个目标索引词。
35.其中,原始索引词可以理解为用户在搜索框中输入的未经任何处理的索引词。目标索引词可以理解为对原始索引词进行预处理,并与相应的停用词列表进行匹配,将匹配成功的词语过滤之后所得到的索引词。当然,目标索引词至少为一个。需要说明的是,目标索引词具有一定的标签,例如可以是所属部门,也可以是所属文号,还可以为所属业务类别,本实施例在此不做限制。示例性的,原始索引词为某业务工作管理方法,目标索引词可以为某业务,所属标签记为所属业务类别。
36.在本实施例中,预处理可以理解为对输入的原始索引词进行相应的拆词处理,通过对原始索引词的拆词处理,可以判断出,拆词之后的索引词中是否含有停用词,在含有停用词的情况下,可以直接进行过滤掉停用词。其中,停用词可以理解为在信息检索中,为节
省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。需要说明的是,停用词是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。示例性的,对于金融制度的搜索来说,停用词可以设置为公司、制度、试行、暂行以及规则等等,本实施例在此不做限制。
37.在本实施例中,当用户在检索框中输入检索词后,可以对用户输入的原始索引词进行相应的预处理操作,例如可以进行拆词处理,以得到与原始索引词相对应的至少一个目标索引词。具体的,可以对输入的原始检索词进行拆词处理,得到至少两个拆词之后的索引词,将得到的至少两个索引词与停用词列表进行相应的匹配,过滤掉无用的检索词,以得到至少一个目标检索词。
38.s120、按照预先选择的检索方式和目标索引词对预先创建的目标es搜索引擎进行检索,得到对应的目标检索结果。
39.其中,预先创建的目标es搜索引擎可以理解为预先创建的elastic search搜索引擎,是一种分布式、高扩展、高实时的搜索与数据分析引擎。目标es搜索引擎提供了一个分布式多用户能力的全文搜索引擎,目标es搜索引擎能够达到实时搜索,稳定,可靠,快速,安装使用方便的特点。目标检索结果可以理解为采用目标es搜索引擎,根据得到的至少一个目标索引词进行相应的检索,所得到检索结果。当然,所得到的目标检索结果可能会对应多个检索结果,可以依据检索到的文档与目标索引词的相关性对文档进行相应的排序。
40.在本实施例中,预先选择的检索方式可以为模糊检索,也可以为精确检索,本实施例在此不做限制,由于目标检索词具有一定的标签,在进行检索时,检索涵盖了目标索引词的全文、标题和文号检索等等。其中,模糊检索可以理解为采用制度标题、正文、附件中的目标索引词查询等进行检索的方式;精确检索可以理解为按照规章层级、管理类别、适用范围等制度标签分类查询等进行检索的方式。
41.在本实施例中,可以按照预先选择的检索方式,以及得到的目标索引词对预先创建的目标es搜索引擎进行检索,得到相对应的目标检索结果。具体的,可以依据预先选择的检索方式,并按照目标索引词对预先创建的目标es搜索引擎进行检索,由于目标索引词具有一定的标签设置,可以对目标索引词所属标签的权重进行相应的设置,以对搜索到的文档结果进行相应的相关性分值分析,并进行相应的排序,以根据排序得到相对应的目标检索结果。
42.在一实施例中,目标索引词所属标签至少包括下述之一:标题、业务类别、类属性、归属部门、文号和文件内容。
43.在本实施例中,目标索引词所属标签可以包括标题、业务类别、类属性、归属部门、文号和文件内容。示例性的,标题可以为标题1、标题3以及标题3,业务类别可以为外汇、基金以及汇率等等,归属部门可以为财富管理部或业务托管部等等,文号可以为2021第321号等等。
44.本发明实施例的技术方案,通过对原始索引词进行预处理,得到对应的至少一个目标索引词,按照预先选择的检索方式和目标索引词对预先创建的目标es搜索引擎进行检索,得到对应的目标检索结果,能够有效减少制度重检不够及时,制度数量庞杂凌乱等情况,便于检索和查阅相关制度数据,从而提升了数据检索效率。
45.在一实施例中,图2为本发明一实施例提供的一种数据搜索方法的流程图,本实施
例在上述各实施例地基础上,进行了进一步的细化,如图2所示,本实施例中的数据搜索方法具体可以包含如下步骤:
46.s210、将通过办公自动化oa系统接入或前端补录的原始制度数据存储至预先创建的目标es搜索引擎,以通过目标es搜索引擎对原始制度数据建立对应的索引信息。
47.其中,办公自动化oa系统指的是为企业实现对管理和运营各环节的掌控、调配和协作,将企业的应用、内容、人员及流程个性化统一交互的协作环境的系统,可实现对管理和运营各个环节的掌控。原始制度数据可以理解为原始规章制度管理系统中的相关制度数据,可以包含制度登记的相关数据以及制度重检与修订的相关数据等等,需要说明的是,原始制度数据均有相对应的制度索引信息。索引信息可以理解为各个索引词所归属的标签信息,例如可以是按照题目和文号进行相应的拆分的标签信息。
48.在本实施例中,办公自动化oa系统每天均会定时将从oa接入或从前端补录的制度数据,存储至预先创建的目标es搜索引擎中,并建立原始制度数据所对应的索引信息。需要说明的是,预先创建的目标es搜索引擎是面向文档型数据库,一条数据即为一个文档,可以用json作为文档序列化的格式。一个预先创建的目标es搜索引擎集群包含多个索引,即其中包含很多类型,这些类型中包含很多的文档,每个文档均包含多个字段。
49.s220、响应于对原始索引词的输入操作,对原始索引词进行预处理,得到对应的至少一个目标索引词。
50.s230、按照预先选择的检索方式和目标索引词对预先创建的目标es搜索引擎进行检索,得到对应的目标检索结果。
51.s240、按照预设显示策略对目标检索结果进行显示。
52.其中,预设显示策略可以理解为预先设置的对目标检索结果进行相应显示的相关策略,包括到不限于对目标检索结果中的目标索引词进行加粗或颜色高亮显示策略。
53.在本实施例中,可以按照预先设置的显示策略,对进行搜索得到的目标检索结果进行相应的显示。当然,预设显示策略可以为通过列表视图进行显示,也可以为通过标签视图进行显示,还可以通过摘要视图进行相应的显示,本实施例在此不做限制,可以通过不同的显示策略,以满足不同用户进行查询时的需求。查询的用户可以包括各级管理层、各级业务和管理部门、各级金融行业内控合规部和基层经营机构等等。
54.在一实施例中,预设显示策略包括下述之一:列表视图、摘要视图、预览视图和标签视图。
55.在本实施例中,预设显示策略可以包括列表视图、摘要视图、预览视图和标签视图。需要说明的是,不同的显示策略,可以满足不同人的查看需求。可以理解为,不同的显示策略,所展示的内容是不同的。比如,预览视图,可以理解为,在用户点击目标检索结果中的其中一个文档时,可以通过弹出一个浮层对该文档的摘要内容进行查看。标签视图,可以理解为,目标检索结果中的文档按照标签进行排序,比如,目标检索结果中包括规范性文件的数量为100,转发文件的数量为30,规章制度的数量为40,则在用户点击规范性文件时,则对规范性文件进行展示,而其它标签的不进行展示。
56.在一实施例中,按照预设显示策略对目标检索结果进行显示,包括:
57.对目标检索结果中的目标索引词进行高亮显示。
58.在本实施例中,对目标检索结果中的目标索引词可以进行高亮显示,包括但不限
于对目标索引词进行加粗或进行颜色标注等等,从而可以使用户更直观地且快速地对目标检索结果进行查看
59.示例性的,目标搜索结果中包含有文档1、文档2以及文档3,对文档1、文档2以及文档3中目标索引词进行高亮显示。
60.s250、获取目标es搜索引擎对应的历史搜索记录。
61.在本实施例中,可以从目标es搜索引擎中获取相应的历史搜索记录。其中,历史搜索记录可以理解为以进行搜索过的相关索引记录。
62.s260、根据历史搜索记录确定每个原始索引词的使用频率。
63.在本实施例中,可以由相关历史索引记录,以确定原始索引记录的相应的使用频率,然后由使用频率对预先创建的停用词列表和/或扩展词列表进行相应的更新操作。
64.s270、根据每个原始索引词的使用频率对预先创建的停用词列表和/或扩展词列表进行更新。
65.其中,预先创建的停用词列表可以理解为预先创建的由各种停用词所组成的列表,停用词是人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。示例性的,预先创建的停用词列表可以如表1所示。扩展词列表也可以通过对每个原始索引词的使用频率进行相应的更新,示例性的,预先创建的扩展词列表可以如表二所示。
66.在本实施例中,可以依据每个原始索引词的使用频率与预设使用频率阈值之间的比对结果,对预先创建的停用词列表和/或扩展词列表进行更新,由此优化检索质量,可以定期分析用户检索习惯,以根据用户使用习惯,重新梳理停用词,新增扩展词功能,以更新词库。示例性的,在每个原始索引词的使用频率高于预设使用频率阈值的情况下,可以将预先创建的停用词列表进行相应的更新操作;在原始索引词的使用频率达到预设使用频率的情况下,可以对达到预设使用频率的至少两个原始索引词进行组合,得到对应的扩展词,并依据扩展词对预先创建的扩展词列表进行相应的更新操作,本实施例在此不做限制。
67.表一停用词列表
68.指引政策通知明确规定管理但当仍以的是则规范方案制度公司规章规程行与从使就被还规则暂行试行办法公告手册的于却又对让在细则关于等及把比而着
ꢀꢀꢀꢀꢀ
69.表二扩展词列表
[0070][0071][0072]
在一实施例中,根据每个原始索引词的使用频率对预先创建的停用词列表进行更
新,包括:
[0073]
确定每个原始索引词的使用频率与预设使用频率阈值之间的比对结果;
[0074]
将达到预设使用频率阈值的原始索引词作为高频词汇;
[0075]
按照高频词汇对预先创建的停用词列表进行更新。
[0076]
其中,预设使用频率阈值可以理解为预先设置的原始索引词使用频率阈值。
[0077]
在本实施例中,可以将每个原始索引词的使用频率与预设使用频率阈值之间进行比较,在每个原始索引词的使用频率达到预设使用频率阈值时,将达到预设使用频率阈值的原始索引词作为高频词汇,并依据得到的高频词汇对预先创建的停用词列表进行相应的更新操作。其中,高频词汇可以理解为对检索结果的影响较小的词汇。示例性地,针对金融制度的搜索,若es搜索引擎中包括1万个文档,并且多个用户将“银行”这个词语作为原始索引词,进行文档搜索时,发现目标检索结果中的文档数量几乎不变,则可以认为“银行”这个词语可以作为高频词汇,并增加至停用词列表中。
[0078]
在一实施例中,根据每个原始索引词的使用频率对预先创建的扩展词列表进行更新,包括:
[0079]
确定每个原始索引词的使用频率与预设使用频率阈值之间的比对结果;
[0080]
对达到预设使用频率的至少两个原始索引词进行组合,得到对应的扩展词;
[0081]
按照扩展词对预先创建的扩展词列表进行更新。
[0082]
在本实施例中,在每个原始索引词的使用频率达到预设使用频率阈值时,可以对达到预设使用频率的至少两个原始索引词进行组合,得到对应的扩展词,以根据扩展词对预先创建的扩展词列表进行相应的更新操作。在实施例中,扩展词可以理解为将多个原始索引词进行组合得到的词语。示例性地,假设两个原始索引词为“员工”、“行为”,则扩展词可以为“员工行为”。
[0083]
本发明实施例的上述技术方案,通过办公自动化oa系统接入或前端补录的原始制度数据存储至预先创建的目标es搜索引擎,以通过目标es搜索引擎对原始制度数据建立对应的索引信息,增强了制度数据查询的便利性,更加完善了对制度数据的搜索;通过对原始索引词进行预处理,得到对应的至少一个目标索引词,按照预先选择的检索方式和目标索引词对预先创建的目标es搜索引擎进行检索,得到对应的目标检索结果,能够有效减少制度重检不够及时,制度数量庞杂凌乱等情况,便于检索和查阅相关制度数据,从而提升了数据检索效率;通过获取目标es搜索引擎对应的历史搜索记录,根据历史搜索记录确定每个原始索引词的使用频率,根据每个原始索引词的使用频率对预先创建的停用词列表和/或扩展词列表进行更新,从而可以过滤无实际业务含义的关键字,从而减少无关搜索结果,提高检索准确性,进一步提升数据检索的效率。
[0084]
在一实施例中,图3为本发明一实施例提供的一种数据搜索方法的流程图,本实施例在上述各实施例地基础上,对原始索引词进行预处理,得到对应的至少一个目标索引词,以及按照预先选择的检索方式和目标索引词对预先创建的目标es搜索引擎进行检索,得到对应的目标检索结果,进行了进一步的细化,如图3所示,本实施例中的数据搜索方法具体可以包含如下步骤:
[0085]
s310、响应于对原始索引词的输入操作,对原始索引词进行拆词处理,得到至少两个中间索引词。
[0086]
其中,拆词处理可以理解为将原始索引词进行拆分的操作。中间索引词可以理解为对原始索引词进行拆词处理之后,所得到的的索引词,此时,所得到的索引词至少为两个。
[0087]
s320、自动过滤与停用词列表中的其中一个词语相匹配的中间索引词,得到对应的至少一个目标索引词。
[0088]
在本实施例中,对原始索引词进行拆词处理之后,需要将得到的至少两个中间索引词与停用词表的词进行相应的匹配操作,并将匹配成功的中间索引词自动过滤掉,最终得到与原始索引词相对应的至少一个目标索引词。
[0089]
s330、在检索方式为模糊检索的情况下,按照目标索引词对预先创建的目标es搜索引擎进行检索,得到对应的一个或多个检索文档。
[0090]
在本实施例中,检索涵盖了目标索引词的全文、标题和文号检索等等,在检索方式为模糊检索的情况下,可以按照目标索引词,对预先创建的目标es搜索引擎进行检索,以得到与目标索引词相对应的一个或多个检索文档。需要说明的是,目标es搜索引擎是面向文档型数据库,一条数据就是一个文档,可以用json作为文档序列化的格式。
[0091]
s340、按照目标索引词所属标签的预设权重确定目标索引词与每个检索文档之间的相关性分值。
[0092]
其中,预设权重可以理解为预先设置的目标索引词检索权重,具体可以包括:目标索引词的标题、业务类别、类属性、归属部门、文号和文件内容等。相关性分值可以理解为目标索引词与检索得到的每个检索文档之间的相关性分值,目标索引词所属标签的预设权重越高,其相关性分值就越高,在搜索排行中,其排序就越靠前。需要说明的是,权重值设置越大的目标索引词所属标签,对最终评分影响也越大。
[0093]
在本实施例中,可以依据预先设置的目标索引词的所属权重,以确定目标索引词与每个索引文档之间的相关性分析,并将相关性较高的文档排在前面。需要说明的是,在进行检索时,若字典中没有对配置目标索引词所属标签的预设权重的权重策略进行相应的说明,则此时可采用默认策略。检索结果会根据目标索引词所属标签的预设权重,对搜索到的文档进行记分,用于对检索结果进行排序。其中,评分为es查询关键字与文档相关性的评价,评分越高代表相关性分值越高,权重值设置越大的属性,对最终评分影响越大。
[0094]
示例性的,目标索引词所属标签的预设权重配置如表三所示,从表三可以看出,标题所占的权重比例为10,业务类别所占的权重比例为2,类属性所占的权重比例为2、归属部门所占的权重比例为3、文号所占的权重比例为10和文件内容所占的权重比例为0.001。可以看出,标题和文号所占的权重比例较高,文件内容所占的比例最低,可以通过es查询权重设置,对搜索结果文档进行打分,权重越大,分数越高,在搜索结果中,排序越靠前。
[0095]
表三目标索引词所属标签的预设权重配置
[0096][0097]
s350、按照相关性分值对检索文档进行降序排序,得到对应的目标检索结果。
[0098]
在本实施例中,可以根据相关性分值,对检索到的文档进行排序,相关性分值越高,检索的文档越靠前。示例性的,文档1、文档2以及文档3的相关性分值依次分别为:文档1大于文档2,文档2大于文档3,则可知,文档1的排名在最前面,其次依次是文档2与文档3。
[0099]
s360、按照相关性分值和目标用户对检索文档的访问权限对检索文档进行二次排序,得到新的目标检索结果。
[0100]
其中,目标用户可以包括各级管理层人员、各级业务和管理部门人员、各级内控合规部和基层经营机构人员等。访问权限可以为所有的目标用户均有检索文档的访问权限,也可以不同的部门之间具有不同的访问权限,本实施例在此不做限制。新的目标检索结果可以理解为相关性分值和目标用户对检索文档的访问权限进行文档的二次排序时,所得到的检索结果。
[0101]
在本实施例中,可以依据目标索引词与每个检索文档之间的相关性分值,以及目标用户对检索文档的访问权限,对检索文档进行二次排序,以得到进行二次排序的目标检索结果。
[0102]
本发明实施例的上述技术方案,对原始索引词进行拆词处理,得到至少两个中间索引词,自动过滤与停用词列表中的其中一个词语相匹配的中间索引词,得到对应的至少一个目标索引词,在检索方式为模糊检索的情况下,按照目标索引词对预先创建的目标es搜索引擎进行检索,得到对应的一个或多个检索文档,按照目标索引词所属标签的预设权重确定目标索引词与每个检索文档之间的相关性分值,按照相关性分值对检索文档进行降序排序,得到对应的目标检索结果,通过检索方式提供的不同方法,满足用户不同的搜索场景需求,进一步有效减少制度重检不够及时,制度数量庞杂凌乱等情况,便于检索和查阅相关制度,从而提升了数据检索效率,满足金融行业员工对规章制度的检索与学习,强化了信息应用。且通过按照相关性分值和目标用户对检索文档的访问权限对检索文档进行二次排序,得到新的目标检索结果,平衡权重评分结果和机构权限控制,提升用户使用体验。
[0103]
在一实施例中,为便于更好的理解数据搜索方法,可将本实施例作为优选实施例对制度数据搜索方法进行进一步的说明。本实施例中,从企业制度管理系统的建立,制度的登记、制度智能检索方法、制度的重修与修订、制度意见反馈以及制度的流程管控进行详细说明。图4为本发明实施例提供的一种企业级制度管理系统的示意图,如图4所示,企业级制度管理系统主要包括:制度登记,用于搭建分层分类的制度体系;制度智能检索,用于提供制度智能检索功能;制度重检与修订,用于问题导向和追踪管理;制度意见反馈,用于制度意见收集,反馈与评价。
[0104]
在本实施例中,制度登记是搭建分层分类的制度体系,录入内部规章制度和外部监管规则,按“效力分层内容分类”构建纵横结合的制度体系,为业务和管理部门搭建规章制度库。建立内外结合的关联关系,与行内oa系统对接,实现自动抓取制度、提升制度登记的及时性。
[0105]
在本实施例中,在制度智能检索方式上:提供多种检索方式,检索涵盖关键字的全文、标题和文号检索,包括模糊查询和精确查询。其中,模糊查询指用制度标题、正文、附件中的关键字查询;精确查询指按照规章层级、管理类别、适用范围等制度标签分类查询。根据用户的兴趣和特点推送符合用户需求的制度,通过历史检索和关键词联想功能,提供个性化检索。
[0106]
需要说明的是,智能检索结果的展示上:结合列表视图、摘要视图、预览视图和标签视图,满足不同用户查询需求。查询用户包括各级行管理层、各级行业务和管理部门、各级行内控合规部和基层经营机构。
[0107]
在本实施例中,重检触发:系统自动查找符合重检要求的制度,触发重检提示,然后对重检修订流程的每个节点设置不同层级的信息提示,加强追踪管理及内控监督。追踪管理:编制金融行业年度规章制度制定与修订计划,系统跟踪规章制度重检与修订情况。
[0108]
在本实施例中,系统提供制度意见和反馈功能,在发现制度设计存在缺陷、可操作性不足、与其他规章存在矛盾等情况时,可以提出度修订意见。
[0109]
在本实施例中,目前金融行业收录的有效的行业内规和外规8万多条,制度要点近200万条,系统每天定时将从oa接入的,前端补录的制度数据,然后将制度数据装入elastic search搜索引擎,建立索引信息拆,elastic search是面向文档型数据库,一条数据就是一个文档,用json作为文档序列化的格式。一个elastic search集群包含多个索引,即其中包含很多类型;然后这些类型中包含很多的文档,每个文档包含多个字段。
[0110]
需要说明的是,在进行制度模糊查询时,使用elastic search提供的query_string()接口实现。检索时,可设置检索权重,具体信息包括文号、标题、类属性、业务类别、归属部门和子文档内容等,提供默认权重。
[0111]
具体的,默认weight(权重)策略为:
[0112]
weight={catadeptname=3,typeno=6,caption=5,content=0.01}
[0113]
其中,typeno表示文号,content表示内容,caption表示标题等。检索时,若字典没有配置key=es_search_weight的权重策略,则此时可采用默认策略。检索结果会根据权重,对文档进行记分,用于对检索结果进行排序。其中评分为es查询关键字与文档相关性的评价,评分越高代表相关性越高,权重值设置越大的属性,对最终评分影响越大。
[0114]
在本实施例中,在进行制度搜索时,需要进行禁用词配置,通过设置检索停用词,过滤掉无实际业务含义的关键字,提高检索准确性。例如,将“业务”、“管理”等无实际业务含义的词配置成关键字,那么elastic search在对关键词进行拆词时,会自动过滤停用词,可以提高制度检索的相关性和准确性。
[0115]
在本实施例中,规章制度系统实现合规审查工作的全流程管控,可对新制度进行线上合规性审查。业务需求部门经办人员提交审查材料,发起任务,对提交的审查内容进行条目拆分和确认、业务标签的建立归集,系统根据整体标签情况进行外规和内规的匹配和比对,经办人员对比对结果进行甄别、修正和确认,经需求部门审批后提交内控合规部。内
控合规性审查人员对照外规和内规审查要点,核验后作出合规性审查结论,同时并实现送审项目的查询、跟踪、统计,流程设计如下步骤所示:
[0116]
a1、审查项目信息登记。
[0117]
在本实施例中,业务经办人员输入送审文件标签信息,上传送审文件。
[0118]
a2、审查项目内容拆分。
[0119]
在本实施例中,系统自动将送审文件拆分成若干个条目,提取条目关键词,条目结构可临时存储于系统任务中。
[0120]
a3、合规审查依据选择。
[0121]
在本实施例中,系统根据送审项目条目标签进行自动匹配,根据关联程度列出关联上的外部监管规则与存量规章,分成遵循性条款和禁止性条款列表展示。经办人员对关联度进行甄别,勾选确定合规性审查依据。如列示不全,操作人员可通过查询,进行补充。
[0122]
a4、合规审查要点生成。
[0123]
在本实施例中,系统根据人工勾选的制度依据自动生成现行制度体系下合规性审查要点,如外规内规存在关联,在一行中显示,可能出现一个送审项目切片对应多个审查要点的情况。
[0124]
a5、审查要点符合性确认。
[0125]
在本实施例中,系统经过自动比对,将送审项目内容切片标识为“符合”或“不符合”,经办人员对标识为“不符合”的送审项目切片进行逐条甄别和分析,此步骤可对切片内容进行修改并再次确认符合性。系统未找到匹配审查要点的切片应进行人工输入比对(可手工上传审查要点切片),无制度规定的特殊情况应进行详细解释说明。二次确认完成后,业务部门经办人员对送审项目作出初步审查结论,生成合规审查初审意见。
[0126]
a6、业务需求部门审核。
[0127]
在本实施例中,经办人员将合规审查初审意见提交科室负责人审核、部门主管业务负责人审批后,提交内控合规部门(金融创新业务应同时提交创新委员会)。内控合规部门根据内部分工转合规审查人员。
[0128]
a7、内控合规部门审查。
[0129]
在本实施例中,合规审查人员“待办事项”页面提示出现该审查任务,显示该送审项目的基本信息,点击“开始审查”,系统自动列示送审项目内容切片、外规审查要点、内规审查要点和“符合性”确认情况,选定的外规内规合规性审查要点,对二次确认符合和其他不符合情况进行标识。合规审查人员对系统作出标识的切片内容应进行重点审查,在每条外规审查要点、内规审查要点后选择“符合”或“不符合”(系统默认“请选择”),选择“不符合”后,系统自动弹出“审查意见”,简要录入原因说明。审查意见将在审查结论中进行自动归集。
[0130]
a8、作出合规审查结论。
[0131]
在本实施例中,合规审查人员对整个送审项目作出合规审查结论(包括“同意”、“同意并附修改意见”和“不同意”),提交内控合规部门审核、审批。
[0132]
审查结论为“同意”的,合规审查流程结束。经办人可进行“切片重建”,可直接获得修改后的送审项目。审查结论为“不同意”的,退回业务需求部门,审查流程结束。
[0133]
在一实施例中,图5是本发明一实施例提供的一种数据搜索装置的结构框图,该装
置适用于对数据进行搜索时的情况,该装置可以由硬件/软件实现。可配置于电子设备中来实现本发明实施例中的一种数据搜索方法。如图5所示,该装置包括:预处理模块510以及检索模块520。
[0134]
其中,预处理模块510,用于响应于对原始索引词的输入操作,对所述原始索引词进行预处理,得到对应的至少一个目标索引词。
[0135]
检索模块520,用于按照预先选择的检索方式和所述目标索引词对预先创建的目标es搜索引擎进行检索,得到对应的目标检索结果。
[0136]
本发明实施例,通过预处理模块,对原始索引词进行预处理,得到对应的至少一个目标索引词,检索模块,按照预先选择的检索方式和目标索引词对预先创建的目标es搜索引擎进行检索,得到对应的目标检索结果,能够有效减少制度重检不够及时,制度数量庞杂凌乱等情况,便于检索和查阅相关制度数据,从而提升了数据检索效率,满足金融行业员工对规章制度的检索与学习,强化了信息应用。
[0137]
在一实施例中,所述数据搜索装置,还包括:
[0138]
索引信息建立模块,用于在所述响应于对原始索引词的输入操作,对所述原始索引词进行预处理,得到对应的至少一个目标索引词之前,将通过办公自动化oa系统接入或前端补录的原始制度数据存储至预先创建的目标es搜索引擎,以通过所述目标es搜索引擎对所述原始制度数据建立对应的索引信息。
[0139]
在一实施例中,所述数据搜索装置,还包括:
[0140]
显示模块,用于在所述按照预先选择的检索方式和所述目标索引词对预先创建的目标es搜索引擎进行检索,得到对应的目标检索结果之后,按照预设显示策略对所述目标检索结果进行显示。
[0141]
在一实施例中,所述数据搜索装置,还包括:
[0142]
历史记录获取模块,用于获取所述目标es搜索引擎对应的历史搜索记录。
[0143]
使用频率确定模块,用于根据所述历史搜索记录确定每个原始索引词的使用频率。
[0144]
更新模块,用于根据每个原始索引词的使用频率对预先创建的停用词列表和/或扩展词列表进行更新。
[0145]
在一实施例中,更新模块,包括:
[0146]
第一结果确定单元,用于确定每个原始索引词的使用频率与预设使用频率阈值之间的比对结果。
[0147]
词汇确定单元,用于将达到所述预设使用频率阈值的原始索引词作为高频词汇。
[0148]
第一更新单元,用于按照所述高频词汇对预先创建的停用词列表进行更新。
[0149]
在一实施例中,更新模块,还包括:
[0150]
第二结果确定单元,用于确定每个原始索引词的使用频率与预设使用频率阈值之间的比对结果。
[0151]
扩展词确定单元,用于对达到所述预设使用频率的至少两个原始索引词进行组合,得到对应的扩展词。
[0152]
第二更新单元,用于按照所述扩展词对预先创建的扩展词列表进行更新。
[0153]
在一实施例中,预处理模块510,包括:
[0154]
中间索引词确定单元,用于对所述原始索引词进行拆词处理,得到至少两个中间索引词。
[0155]
目标索引词确定单元,用于自动过滤与所述停用词列表中的其中一个词语相匹配的中间索引词,得到对应的至少一个目标索引词。
[0156]
在一实施例中,检索模块520,包括:
[0157]
检索文档确定单元,用于文档按照所述目标索引词对预先创建的目标es搜索引擎进行检索,得到对应的一个或多个检索文档。
[0158]
相关性分值确定单元,用于按照所述目标索引词所属标签的预设权重确定所述目标索引词与每个所述检索文档之间的相关性分值。
[0159]
第一检索结果获取单元,用于按照所述相关性分值对所述检索文档进行降序排序,得到对应的目标检索结果。
[0160]
在一实施例中,所述目标索引词所属标签至少包括下述之一:标题、业务类别、类属性、归属部门、文号和文件内容。
[0161]
在一实施例中,检索模块520,还包括:
[0162]
第二检索结果获取单元,用于按照所述相关性分值和目标用户对所述检索文档的访问权限对所述检索文档进行二次排序,得到新的目标检索结果。
[0163]
在一实施例中,所述预设显示策略包括下述之一:列表视图、摘要视图、预览视图和标签视图。
[0164]
在一实施例中,显示模块,包括:
[0165]
显示单元,用于对所述目标检索结果中的目标索引词进行高亮显示。
[0166]
本发明实施例所提供的数据搜索装置可执行本发明任意实施例所提供的数据搜索方法,具备执行方法相应的功能模块和有益效果。
[0167]
在一实施例中,图6示出了可以用来实施本发明的实施例的电子设备的结构示意图。电子设备10旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
[0168]
如图6所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(rom)12、随机访问存储器(ram)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(rom)12中的计算机程序或者从存储单元18加载到随机访问存储器(ram)13中的计算机程序,来执行各种适当的动作和处理。在ram 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、rom 12以及ram 13通过总线14彼此相连。输入/输出(i/o)接口15也连接至总线14。
[0169]
电子设备10中的多个部件连接至i/o接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0170]
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11
的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如数据搜索方法。
[0171]
在一些实施例中,数据搜索方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由rom 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到ram 13并由处理器11执行时,可以执行上文描述的数据搜索方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据搜索方法。
[0172]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0173]
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0174]
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0175]
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0176]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算
系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)、区块链网络和互联网。
[0177]
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务中,存在的管理难度大,业务扩展性弱的缺陷。
[0178]
在一实施例中,本发明实施例还包括一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序在被处理器执行时实现本发明任一实施例所述的数据搜索方法。
[0179]
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
[0180]
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1