1.一种文件识别方法,其包括:
对文件进行初步识别,得到所述文件包含的文字和段落信息;
针对每一个段落,对段落内文字进行解析,得到段落内文字的样式以及样式差异信息;
根据段落内文字的样式差异信息,对段落内文字进行样式统一处理。
2.根据权利要求1所述的方法,其中,所述对段落内文字进行解析,得到段落内文字的样式以及样式差异信息进一步包括:对段落内文字进行解析,得到段落内文字的字号以及字号差异度;
所述根据段落内文字的样式差异信息,对段落内文字进行样式统一处理进一步包括:
判断段落内文字的字号差异度是否小于或等于预设字号阈值;
若是,则根据段落内文字的字号确定设定字号,将段落内文字的字号统一处理为设定字号。
3.根据权利要求1所述的方法,其中,所述方法还包括:预先设置多个字体集,每个字体集内的字体差异度在预设范围内;
所述对段落内文字进行解析,得到段落内文字的样式以及样式差异信息进一步包括:对段落内文字进行解析,得到段落内文字的字体以及段落内文字的字体所形成的字体集合;
所述根据段落内文字的样式差异信息,对段落内文字进行样式统一处理进一步包括:
判断段落内文字的字体所形成的字体集合是否为预先设置的任意一个字体集的子集;
若是,则根据段落内文字的字体确定设定字体,将段落内文字的字体统一处理为设定字体。
4.根据权利要求2所述的方法,其中,所述根据段落内文字的字号确定设定字号进一步包括:
判断段落内文字的字号与其它段落的设定字号的字号差异度是否小于或等于预设字号阈值,若是,则确定该段落的设定字号与其它段落的设定字号相同。
5.根据权利要求3所述的方法,其中,所述根据段落内文字的字体确定设定字体进一步包括:
判断段落内文字的字体所形成的字体集合与其它段落的设定字体是否为预先设置的任意一个字体集的子集,若是,则确定该段落的设定字体与其它段落的设定字体相同。
6.根据权利要求3所述的方法,其中,在所述根据段落内文字的样式差异信息,对段落内文字进行样式统一处理之前,所述方法还包括:判断段落内文字的字体数量是否大于或等于预设值;
所述根据段落内文字的样式差异信息,对段落内文字进行样式统一处理具体为:若段落内文字的字体数量大于或等于预设值,则根据段落内文字的样式差异信息,对段落内文字进行样式统一处理。
7.根据权利要求1-6中任一项所述的方法,其中,所述对段落内文字进行解析具体为:对段落内除了角标以外的文字进行解析。
8.一种文件识别装置,其包括:
识别模块,适于对文件进行初步识别,得到所述文件包含的文字和段落信息;
解析模块,适于针对每一个段落,对段落内文字进行解析,得到段落内文字的样式以及样式差异信息;
处理模块,适于根据段落内文字的样式差异信息,对段落内文字进行样式统一处理。
9.一种服务器,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的文件识别方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的文件识别方法对应的操作。