版式文档的处理方法及装置的制造方法_3

文档序号:8223470阅读:来源:国知局
选标题与所述第二候选标题中对应的标题字符处理完毕为止。
[0085]在具体的应用过程中,确定对应的标题字符是否一致之前,还可以进一步分别对对应的标题字符进行分词处理,以获得分词结果。在此,分词处理技术已经是本领域较成熟的技术,对于英文来说,由于英文本身是以词为单位的,词与词之间靠空格分开,因此可以很容易地实现分词。中文是以字为单位的,可以采用已有的诸如:基于字符串匹配的分词方法、基于理解的分词方法或者基于统计的分词方法等对中文进行分词处理,较常用的例如基于字符串匹配的分词方法中的最大正向匹配算法,详细描述可以参见现有技术中的相关内容,此处不再赘述。
[0086]在对对应的标题字符进行分词处理后,为了提高后续处理的效率和减小噪音,对分词处理后得到的各词语进行过滤处理,包括但不限于以下所列过滤处理:过滤掉预设的停用词表所包含的词语;其中,通用词表是预先基于词频统计出的虚词、助词、代词、冠词、副词、语气词等,这些词语通常不具备独立表意能力。具体可以通过对已有资源中出现频率达到预设的高频条件的词语进行收集得到,例如,助词“的”具有很高的出现频率,但其通常具有很低的表意能力,因此,将其收集到停用词表中。
[0087]具体地,在获得对应的标题字符的分词结果之后,确定对应的标题字符的内容是否一致的具体操作,还可以有多种方式,例如,在获得对应的标题字符的分词结果之后,还可以采用现有技术中的文本相似度算法,计算所获取的每个标题字符之间的相似度,以确定对应的标题字符的内容是否一致。例如,最长公共子串法、最长公共子序列法、最少编辑距离法、汉明距离法、余弦值法等,详细描述可以参见现有技术中的相关内容,此处不再赘述。本实施例其他的具体操作不进行特别限定。
[0088]可选地,在本实施例的一个可能的实现方式中,在102中,具体可以根据所述版本文档的元数据,提取所述版式文档的结构化数据,进而则可以根据所述版式文档的结构化数据,获得所述版式文档的标题。
[0089]在一个具体的实现过程中,若所获取的版式文档的元数据为版本文档的目录页面的元数据,在102中,具体可以根据版本文档的目录页面的元数据,提取所述版式文档的结构化数据。例如,“第MM章(节)YYYY..................XX”,其中,MM为阿拉伯数字、英文数字、
罗马数字等等级字符;YYYY表示汉字、英文等内容字符;ΧΧ表示阿拉伯数字、英文数字等页码字符。
[0090]在另一个具体的实现过程中,若所获取的版式文档的元数据为版本文档的正文页面的元数据,在102中,具体可以根据版本文档的正文页面的元数据,提取所述版式文档的结构化数据。例如,“第丽章(节)ΥΥΥΥ”和“-XX-”,其中,丽为阿拉伯数字、英文数字、罗马数字等等级字符'Tm表示汉字、英文等内容字符;χχ表示阿拉伯数字、英文数字等页码字符。
[0091]在另一个具体的实现过程中,若所获取的版式文档的元数据为版本文档的目录页面的元数据和版本文档的正文页面的元数据,在102中,具体可以根据版本文档的目录页面的元数据和版本文档的正文页面的元数据,提取二者中的标题字符匹配一致的元数据,
以作为所述版式文档的结构化数据。例如,“第MM章(节)YYYY..................XX”,以及“第
MM章(节)ΥΥΥΥ”和“-XX-”,其中,MM为阿拉伯数字、英文数字、罗马数字等等级字符'Tm表示汉字、英文等内容字符;ΧΧ表示阿拉伯数字、英文数字等页码字符。
[0092]在具体的应用过程中,确定二者中的标题字符匹配是否一致之前,还可以进一步分别对二者中的标题字符即版本文档的目录页面的元数据中的标题字符和版本文档的正文页面的元数据的标题字符进行分词处理,以获得分词结果。在此,分词处理技术已经是本领域较成熟的技术,对于英文来说,由于英文本身是以词为单位的,词与词之间靠空格分开,因此可以很容易地实现分词。中文是以字为单位的,可以采用已有的诸如:基于字符串匹配的分词方法、基于理解的分词方法或者基于统计的分词方法等对中文进行分词处理,较常用的例如基于字符串匹配的分词方法中的最大正向匹配算法,详细描述可以参见现有技术中的相关内容,此处不再赘述。
[0093]在对二者中的标题字符进行分词处理后,为了提高后续处理的效率和减小噪音,对分词处理后得到的各词语进行过滤处理,包括但不限于以下所列过滤处理:过滤掉预设的停用词表所包含的词语;其中,通用词表是预先基于词频统计出的虚词、助词、代词、冠词、副词、语气词等,这些词语通常不具备独立表意能力。具体可以通过对已有资源中出现频率达到预设的高频条件的词语进行收集得到,例如,助词“的”具有很高的出现频率,但其通常具有很低的表意能力,因此,将其收集到停用词表中。
[0094]具体地,在获得二者中的标题字符的分词结果之后,确定二者中的标题字符匹配一致的操作,可以有多种方式,例如,在获得对应的标题字符的分词结果之后,还可以采用现有技术中的文本相似度算法,计算所获取的每个标题字符之间的相似度,根据计算得到的相似度,例如,以相似度大于或等于预先设置的相似度阈值作为一致依据等,确定对应的标题字符的内容是否一致。例如,最长公共子串法、最长公共子序列法、最少编辑距离法、汉明距离法、余弦值法等,详细描述可以参见现有技术中的相关内容,此处不再赘述。本实施例其他的具体操作不进行特别限定。
[0095]可选地,在本实施例的一个可能的实现方式中,在102之前,还可以进一步获取所述版式文档的参考目录数据,所述参考目录数据为与所述版式文档的内容相同或相似的其他文档的目录数据。具体地,具体可以获取名称与版式文档的名称相同的其他文档的目录数据,以作为所述版式文档的参考目录数据。
[0096]其中,所述参考目录数据,可以为从当前网站直接获取,或者还可以为从不同于当前网站的其他网站获取,本实施例对此不进行特别限定。
[0097]相应地,在102中,具体可以根据所述版式文档的元数据和所述版式文档的参考目录数据,获得所述版式文档的标题。这样,通过将与版式文档的内容相同或相似的其他文档的目录数据,与所述版式文档的元数据,共同作为依据获得版式文档的标题,能够有效提高版式文档处理的可靠性
[0098]可选地,在本实施例的一个可能的实现方式中,在103中,具体可以根据所述版式文档的标题的内容和所述版式文档的标题的特征数据中的至少一项,获得所述版式文档的目标目录数据。具体地,所述版式文档的目标目录数据可以包括但不限于如下:
[0099]版式文档的各等级目录所对应的标题数据;或者
[0100]版式文档的各等级目录所对应的标题数据和每个标题数据所在的页码。
[0101]其中,所述版式文档的标题的特征数据,是指每个标题数据的布局特点数据,可以包括但不限于每个标题数据的字体、尺寸、颜色、样式和排版格式中的至少一项,本实施例对此不进行特别限定。
[0102]在一个具体的实现过程中,标题中一般都会包含表示章节或部分的标识,具体可以根据标题中所包含的这些标识,确定版式文档的各等级目录所对应的标题数据。
[0103]在另一个具体的实现过程中,各等级目录所对应的标题数据的特征数据一般都是不相同的,具体可以根据标题中所具有的这些特征数据,确定版式文档的各等级目录所对应的标题数据。
[0104]本实施例中,通过获取版式文档的元数据,进而根据所述版式文档的元数据,获得所述版式文档的标题,使得能够根据所述版式文档的标题,获得所述版式文档的目标目录数据,无需人工参与,操作简单,而且正确率高,从而提高了版式文档处理的效率和可靠性。
[0105]另外,采用本发明提供的技术方案,由于根据版本文档的目录页面的元数据和版本文档的正文页面的元数据,共同获得所述版式文档的标题,因此,能够有效提高版式文档处理的可靠性。
[0106]另外,采用本发明提供的技术方案,由于根据版本文档的元数据,以及与该版式文档的内容相同或相似的其他文档的目录数据,共同获得所述版式文档的标题,因此,能够有效提高版式文档处理的可靠性。
[0107]需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
[0108]在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0109]图2为本发明另一实施例提供的版式文档的处理装置的结构示意图,如图2所示。本实施例的版式文档的处理装置可以包括元数据获取单元21、标题获得单元22和目录获得单元23。其中,元数据获取单元21,用于获取版式文档的元数据;标题获得单元22,用于根据所述版式文档的元数据,获得所述版式文档的标题;目录获得单元23,用于根据所述版式文档的标题,获得所述版式文档的目标目录数据。
[0110]需要说明的是,本实施例所提供的版式文档的处理装置可以为位于本地终端的应用,或者还可以为位于本地终端的应用中的插件或软件开发工具包(SoftwareDevelopment Kit,SDK)等功能单元,或者还可以为位于网络侧的服务器中的处理引擎,或者还可以为
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1