本发明涉及文档识别,尤其涉及一种文档区域识别方法、装置、设备及介质。
背景技术:
1、随着大数据、物联网、云计算和人工智能等数字科技的发展和成熟,越来越多的公司开始进行数字化转型,进而使得大量的公司文档也需要进行数字化转变,通过文档识别技术可以将纸质文档转换为电子文档。
2、然而,现有的文档识别技术一般仅能对文档中指定的关键词进行识别,或将文档中指定的部分整体提取识别,识别出的文本可能无法精准符合用户的期望。
技术实现思路
1、本发明提供了一种文档区域识别方法、装置、设备及介质,能够基于预先设定的关键词信息以及文档中的关键词密集度,在目标文档中精准识别用户期望的命中区域,使得命中区域满足用户需求,并且能够提高命中区域的识别准确度。
2、根据本发明的一方面,提供了一种文档区域识别方法,包括:
3、根据目标文档生成多个文本块,并当确定文本块中存在至少一个预先选取的关键词时,确定与所述文本块相匹配的目标桶,并将所述文本块置入目标桶内;
4、将编号相邻的非空桶中各文本块合并至同一文本块列表中,并获取各文本块列表的列表权重;
5、当确定列表权重大于预设的权重阈值时,根据文本块列表中各文本块的坐标值,在目标文档中确定命中区域。
6、根据本发明的另一方面,提供了一种文档区域识别装置,包括:
7、文本块分配模块,用于根据目标文档生成多个文本块,并当确定文本块中存在至少一个预先选取的关键词时,确定与所述文本块相匹配的目标桶,并将所述文本块置入目标桶内;
8、列表权重计算模块,用于将编号相邻的非空桶中各文本块合并至同一文本块列表中,并获取各文本块列表的列表权重;
9、命中区域确定模块,用于当确定列表权重大于预设的权重阈值时,根据文本块列表中各文本块的坐标值,在目标文档中确定命中区域。
10、根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
11、至少一个处理器;以及
12、与所述至少一个处理器通信连接的存储器;其中,
13、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的文档区域识别方法。
14、根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的文档区域识别方法。
15、本发明实施例的技术方案,通过根据目标文档生成多个文本块,当确定文本块中存在至少一个预先选取的关键词时,确定与文本块相匹配的目标桶,并将文本块置入目标桶内,将编号相邻的非空桶中各文本块合并至同一文本块列表中,并获取各文本块列表的列表权重,当确定列表权重大于预设的权重阈值时,根据文本块列表中各文本块的坐标值,在目标文档中确定命中区域的方式,能够根据预先选取的关键词以及文档中的关键词密集度,精准确定满足用户需求的文本片段,解决了现有技术中对单一关键词识别所导致的识别准确度低的问题,能够准确的将关键词密集的区域进行提取。
16、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
1.一种文档区域识别方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在根据目标文档生成多个文本块之前,还包括:
3.根据权利要求2所述的方法,其特征在于,当确定文本块中存在至少一个预先选取的关键词时,确定与所述文本块相匹配的目标桶,包括:
4.根据权利要求1所述的方法,其特征在于,将编号相邻的非空桶中各文本块合并至同一文本块列表中,并获取各文本块列表的列表权重,包括:
5.根据权利要求1所述的方法,其特征在于,根据文本块列表中各文本块的坐标值,在目标文档中确定命中区域,包括:
6.根据权利要求5所述的方法,其特征在于,根据文本块列表中各文本块的坐标值,在目标文档中确定命中区域,还包括:
7.根据权利要求5所述的方法,其特征在于,根据文本块列表中各文本块的坐标值,在目标文档中确定命中区域,还包括:
8.一种文档区域识别装置,其特征在于,包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的文档区域识别方法。