一种文档结构化组织方法及装置制造方法

文档序号:6488336阅读:161来源:国知局
一种文档结构化组织方法及装置制造方法
【专利摘要】本发明公开了一种文档结构化组织方法及装置。一种文档结构化组织方法,包括:获得具有层次化结构的主题框架;利用所述主题框架中的主题文本构成搜索条件;利用所述搜索条件在预置的文档集合内进行搜索;根据搜索结果与搜索条件的匹配情况,将文档添加到所述主题框架中的相应主题文档集合中。与现有技术相比,本发明技术方案可以针对不同的知识领域,自动建立适当的分类体系。另一方面,主题框架是利用比较成熟的专家知识构建,因此能够较好地体现各个分类的内在联系,方便用户系统化地对海量的文本进行阅读。
【专利说明】一种文档结构化组织方法及装置
【技术领域】
[0001]本发明涉及计算机应用【技术领域】,特别是涉及一种文档结构化组织方法及装置。【背景技术】
[0002]随着互联网技术的发展,互联网上的信息量呈爆炸式增长。为了更好地应用这些信息,需要对这些信息数据进行有效的管理。其中,文档分类(document classification)是目前应用较为广泛的一种管理技术。文档分类是指按照根据文档的内容或某种属性,对文档集合中的每一个文档确定一个类别。这样,用户不但能够方便地在特定的类别浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。
[0003]然而,对于海量的文档资源,即便是经过一定的分类处理,在每个分类下仍然会存在着大量的文档。一方面,这些文档可能依然对应着不同的子类,通过进一步建立各个分类的子分类,可以在一定程度上解决这个问题,但是分类体系不可能无限制地细化,而且不同的知识主题对细化的要求也是不尽相同的,难以统一管理。
[0004]另一方面,从文档的实际内容考虑,每个分类下的文档之间可能存在一些更为复杂的内在联系,例如,文档B是接续文档A内容的、文档C是对文档Cl、C2内容的总结或概括,等等。也就是说,文档内容之间可能彼此存在顺序或者层次化的关系,而仅凭现有的文档分类体系,无法体现出这些关系。对于用户而言,只能在某个分类下盲目地阅读每篇文档,造成理解上的困难。

【发明内容】

[0005]为解决上述技术问题,本发明实施例提供一种文档结构化组织方法及装置,从而实现对海量文档的有序组织,技术方案如下:
[0006]一种文档结构化组织方法,包括:
[0007]获得具有层次化结构的主题框架;
[0008]利用所述主题框架中的主题文本构成搜索条件;
[0009]利用所述搜索条件在预置的文档集合内进行搜索;
[0010]根据搜索结果与搜索条件的匹配情况,将文档添加到所述主题框架中的相应主题文档集合中。
[0011]根据本发明的一种【具体实施方式】,所述获得具有层次化结构的主题框架,包括:
[0012]从已知的网站或图书中,提取目录内容,形成具有层次化结构的主题框架。
[0013]根据本发明的一种【具体实施方式】,所述获得具有层次化结构的主题框架,包括:
[0014]以目录特征词构成搜索条件,通过搜索发现包含目录内容的资源;
[0015]从所发现的资源中,提取目录内容,形成具有层次化结构的主题框架。
[0016]根据本发明的一种【具体实施方式】,所述利用所述主题框架中的主题文本构成搜索条件,包括:
[0017]去除所述主题文本中的目录特征词,以剩余内容构成搜索条件。[0018]根据本发明的一种【具体实施方式】,所述利用所述主题框架中的主题文本构成搜索条件,包括:
[0019]利用所述层次化结构中每个节点的内容分别构成单一搜索条件。
[0020]根据本发明的一种【具体实施方式】,所述利用所述搜索条件在预置的文档集合内进行搜索,包括:
[0021]利用节点A内容所构成的搜索条件,在预置的文档集合内进行搜索,得到第一搜索结果;
[0022]利用节点A的父节点内容所构成的搜索条件,在所述第一搜索结果中进行搜索,得到第二搜索结果。
[0023]根据本发明的一种【具体实施方式】,所述根据搜索结果与搜索条件的匹配情况,将文档添加到所述主题框架中的相应主题文档集合中,包括:
[0024]将第二搜索结果中的文档,添加到节点A对应的主题文档集合中。
[0025]根据本发明的一种【具体实施方式】,所述根据搜索结果与搜索条件的匹配情况,将文档添加到所述主题框架中的相应主题文档集合中,包括:
[0026]在所述第二搜索结果的数量不满足预设需求的情况下,将第一搜索结果中的文档,添加到节点A对应的主题文档集合中。
[0027]根据本发明的一种【具体实施方式】,所述利用所述主题框架中的主题文本构成搜索条件,包括:
[0028]利用所述层次化结构中具有继承关系的至少两级节点的文本内容构成复合搜索条件。
[0029]根据本发明的一种【具体实施方式】,所述根据搜索结果与搜索条件的匹配情况,将文档添加到所述主题框架中的相应主题文档集合中,包括:
[0030]将符合所述复合搜索条件的文档,添加到所述至少两级节点中最低级节点对应的主题文档集合中。
[0031]根据本发明的一种【具体实施方式】,所述根据搜索结果与搜索条件的匹配情况,将文档添加到所述主题框架中的相应主题文档集合中,包括:
[0032]计算所述搜索结果与所述搜索条件的文本相似度,将相似度满足预设要求的搜索结果添加到所述主题框架中的相应主题文档集合中。
[0033]一种文档结构化组织装置,其特征在于,包括:
[0034]主题框架获得单元,用于获得具有层次化结构的主题框架;
[0035]搜索条件构成单元,用于利用所述主题框架中的主题文本构成搜索条件;
[0036]搜索单元,用于利用所述搜索条件在预置的文档集合内进行搜索;
[0037]组织单元,用于根据搜索结果与搜索条件的匹配情况,将文档添加到所述主题框架中的相应主题文档集合中。
[0038]根据本发明的一种【具体实施方式】,所述主题框架获得单元,具体用于:
[0039]从已知的网站或图书中,提取目录内容,形成具有层次化结构的主题框架。
[0040]根据本发明的一种【具体实施方式】,所述主题框架获得单元,具体用于:
[0041]以目录特征词构成搜索条件,通过搜索发现包含目录内容的资源;
[0042]从所发现的资源中,提取目录内容,形成具有层次化结构的主题框架。[0043]根据本发明的一种【具体实施方式】,所述搜索条件构成单元,具体用于:
[0044]去除所述主题文本中的目录特征词,以剩余内容构成搜索条件。
[0045]根据本发明的一种【具体实施方式】,所述搜索条件构成单元,具体用于:
[0046]利用所述层次化结构中每个节点的内容分别构成单一搜索条件。
[0047]根据本发明的一种【具体实施方式】,所述搜索单元,具体用于:
[0048]利用节点A内容所构成的搜索条件,在预置的文档集合内进行搜索,得到第一搜索结果;
[0049]利用节点A的父节点内容所构成的搜索条件,在所述第一搜索结果中进行搜索,得到第二搜索结果。
[0050]根据本发明的一种【具体实施方式】,所述所述组织单元,具体用于:
[0051]将第二搜索结果中的文档,添加到节点A对应的主题文档集合中。
[0052]根据本发明的一种【具体实施方式】,所述组织单元,具体用于:
[0053]在所述第二搜索结果的数量不满足预设需求的情况下,将第一搜索结果中的文档,添加到节点A对应的主题文档集合中。
[0054]根据本发明的一种【具体实施方式】,所述搜索条件构成单元,具体用于:
[0055]利用所述层次化结构中具有继承关系的至少两级节点的文本内容构成复合搜索条件。
[0056]根据本发明的一种【具体实施方式】,所述组织单元,具体用于:
[0057]将符合所述复合搜索条件的文档,添加到所述至少两级节点中最低级节点对应的主题文档集合中。
[0058]根据本发明的一种【具体实施方式】,所述组织单元,具体用于:
[0059]计算所述搜索结果与所述搜索条件的文本相似度,将相似度满足预设要求的搜索结果添加到所述主题框架中的相应主题文档集合中。
[0060]本发明实施例所提供的方案,首先在通过获取专家知识的方式构建主题框架,进一步利用检索技术,根据文档与主题的相关性,将文档分别添加至相应的主题之下,实现文档资源的自动组织。与现有技术相比,本发明技术方案可以针对不同的知识领域,自动建立适当的分类体系。另一方面,主题框架是利用比较成熟的专家知识构建,因此能够较好地体现各个分类的内在联系,方便用户系统化地对海量的文本进行阅读。
【专利附图】

【附图说明】
[0061]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0062]图1为本发明实施例文档结构化组织方法的一种流程图;
[0063]图2为本发明实施例文档结构化组织装置的一种结构示意图。
【具体实施方式】
[0064]理想的文档组织方式,应该具有较为清晰的层次划分,以《专利审查指南》为例,其文档组织结构如下:
[0065]第一部分初步审查
[0066]第一章发明专利的初步审查
[0067]1.引言
[0068]2.审查原则
[0069]3.审查程序
[0070]3.1初步审查合格
[0071]3.2申请文件的补正
[0072]3.3明显实质性缺陷的处理
[0073]......[0074]4.申请文件的形式审查
[0075]......[0076]第二章实用新型专利的初步审查
[0077]......[0078]第二部分实质审查
[0079]......[0080]第三部分进入国家阶段的国际申请的审查
[0081]......[0082]在一些UGC平台中,用户经常会上传一些自有的文档资料,供所有用户分享,然而受到各种主观或者客观条件的限制,单一用户上传的内容可能是非常零散且没有规律的,例如,用户A上传了完整第一部分,用户B上传第二部分的第一章、用户C上传了第三部分的第二章……等等。为了对用户上传的内容进行管理,系统一般会对用户上传的文档进行分类,分类操作可以在系统侧以人工或自动的方式进行,也可以请上传用户协助处理。但是,分类的功能十分有限,例如用户上传的《专利审查指南》中各章节的内容,在实际中可能会被分类至“知识产权”、“专利法”之类的分类栏目下,但是这样的分类方式,显然难以满足用户的阅读需要:一方面,用户很难在这种粗略的分类体系下找到自己感兴趣的内容;另一方面,按照实际的阅读习惯,很多文档之间应该存着一定的阅读顺序,例如“第一部分初步审查”和“第二部分实质审查”。对于系统侧而言,建立过于细致复杂的分类体系实现成本很高,即便在某些重要领域实现,也无法在某个分类中体现出文档之间的内在联系。
[0083]为解决上述问题,本发明实施例提供的一种文档结构化组织方法,该方法可以包括以下步骤:
[0084]获得具有层次化结构的主题框架;
[0085]利用所述主题框架中的主题文本构成搜索条件;
[0086]利用所述搜索条件在预置的文档集合内进行搜索;
[0087]根据搜索结果与搜索条件的匹配情况,将文档添加到所述主题框架中的相应主题文档集合中。
[0088]本发明实施例中的文档,可以表现为多种形式,例如可以是TXT、DOC、PDF等文件形式的文档,也可以是网页形式的文档,这些并不影响本发明方案的实现。
[0089]本发明所提供的文档组织方法,是在一定的文档范围内进行,也就是说,根据不同的应用环境,都存在一个预置的文档集合。其中,该集合中的文档,可以是预先处于无序无组织状态的,例如一些UGC (User Generated Content,用户生成内容)平台的用户上传文档文件、词条文本、用户提问等等。当然这些文档也可以是预先经过分类处理、已经处于一定的分类体系中的文档。本发明的目的,是对文档集合中的文档按照一种新的方式进行组织,因此文档是否预先具有分类信息,并不会影响本发明的实现。
[0090]应用本发明所提供的技术方案,可以对特定范围内的文档进行组织,例如:在网络文库内进行组织,则文库中所有的用户上传文件构成预置的文档集合;在知识平台进行组织,则该平台中所有的知识主题构成预置的文档集合;在百科平台进行组织,则该台中所有的百科词条构成预置的文档集合。当然,根据实际的应用需要,可以灵活设置需要进行组织的文档范围大小,小至某个具体的文档主题类别,大至全互联网范围,本发明对此并不需要进行限定。
[0091]本发明实施例所提供的方案,首先通过获取专家知识的方式构建主题框架,其中,专家知识可以人工构建,也可以从已有的资源中提取目录的方式获得。进一步利用检索技术,在预置的文档集合中找到与每个主题相关的文档,然后将文档分别添加至主题框架的相应主题之下,实现文档资源的自动组织。与现有技术相比,本发明技术方案可以针对不同的知识领域,自动建立适当的分类体系。另一方面,主题框架是利用比较成熟的专家知识构建,因此能够较好地体现各个分类的内在联系,方便用户系统化地对海量的文本进行阅读。
[0092]为了使本领域技术人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本发明保护的范围。
[0093]图1所示为本发明实施例所提供的一种文档结构化组织流程图,该方法可以包括以下步骤:
[0094]S101,得具有层次化结构的主题框架;
[0095]理想的文档组织方式,应该具有较为清晰的层次划分,例如,对于“知识产权”类的文档,如果能够按照《专利审查指南》或者其他书籍的结构,将散乱无序的文档组织成类似以下的形式:
[0096]第一部分
[0097]第一章
[0098]第二章
[0099]......[0100]第二部分
[0101]......[0102]那么,这种组织方式既可以让用户更方便地找到自己感兴趣的内容,又可以指导用户在一个相对合理完善的体系下,按照一定的顺序,有针对性地阅读。本发明的目的,就是在一定的文档集合范围内,对其中散乱无序的单个文档进行组织,使其具有一定的层次化结构,方便用户阅读。
[0103]为实现上述目的,首先要建立具有层次化结构的主题框架。该主题框架可以是完全人工构建,也可以通过从已有资源中提取目录的方式获得。[0104]例如,可以从一些经典的书籍中,直接提取其目录内容作为主题框架。本方法尤其适合应用在一些收费的资料平台。在互联网中,存在一些需要付费才能看到图书内容的平台,但是允许用户在不付费的情况下浏览图书的摘要以及目录,其中,目录的内容可以直接用于本发明的方案。
[0105]另外,在一些知识网站或教育网站中,也存在着类似的知识架构,如果预先已知这样的网站,也可以从这些网站中提取出相应的主题框架。
[0106]上述方案,是在已知确定的图书资源或网站资源的前提下实施的,如果预先并不清楚哪里存在这样的资源,则需要先进行目录挖掘工作,【具体实施方式】是:利用目录特征词构成搜索条件,然后将特征词发送至搜索引擎,在整个互联网范围或某个特定范围内搜索到包含目录内容的资源。其中,目录特征词是目录中经常会出现的内容,除了“目录”二字之外,还包括一些用于标识章节的特征词,例如:“第X部分”、“第X章”、“第X节”、“ 1.1 % 1.2”等等,利用这些关键词构成单一形式或复合形式的搜索条件,可以有效地从网络中发现包含目录内容的资源,进一步就可以从发现的资源中提取目录内容,形成具有层次化结构的主题框架。 [0107]S102,用所述主题框架中的主题文本构成搜索条件;
[0108]搜索引擎的基本功能,就是根据给定的搜索条件,找出与该搜索条件内容相匹配的其他网络资源。根据搜索引擎的基本功能,在本发明中,可以利用主题文本的内容内容构成搜索条件输入搜索引擎,在一定的文档集合范围内进行搜索,然后根据搜索结果对文档集合中的文档进行组织。
[0109]在本发明中,建立主题框架之后,利用主题文本内容构成搜索条件,以便后续利用这些搜索条件进行搜索。
[0110]例如,从《电力系统》中,经获得目录的主题框架内容如下:
[0111]第一章电能转换技术
[0112]第1.1节直流电机
[0113]第1.2节变压器
[0114]第二章......[0115]......[0116]可知,该主题框架共有两层结构,第一层为“章”,第二层为“节”,如果把该结构理解为树,那么《电力系统》构成根节点,“节”构成叶子节点。
[0117]在本发明的一种实施方式中,可以利用模板匹配的方式,先将各主题文本中的目录特征词“第X张”、“第X节”去掉,则剩余的内容“电能转换技术”、“直流电机”、“变压器”构成三个关键词。
[0118]在实际应用过程中,每个关键词可以单独构成搜索条件分别进行搜索,也可以彼此结合构成复合搜索条件,【具体实施方式】将在后面详细描述。
[0119]S 103,用所述搜索条件在预置的文档集合内进行搜索;
[0120]构成搜索条件之后,将搜索条件发送至搜索引擎,并且得到搜索引擎所返回的一个或多个搜索结果。
[0121]本发明方案,是直接利用已有的搜索引擎进行搜索,本身不需要对搜索引擎进行改动。根据实际的应用需求,一般会将搜索限定在特殊的范围内。例如需要对文库平台中的内容进行组织,则应该将搜索条件直接输入直接输入该文库平台的搜索引擎。得到的搜索结果以文件为单位,每条搜索结果对应该文库平台中的一个文档文件(例如TXT、DOC、PDF等格式);对于问答平台,将搜索条件直接输入该问答平台的搜索引擎,得到的搜索结果以“问答对”为单位返回,每条搜索结果对应该问答平台中的一个问答对;等等。
[0122]如果平台本身已经具有一定的分类体系,那么为了保证搜索结果和主题框架的相关性,还可以进一步将搜索范围限制在特定的分类,例如,对于已构建的《电力系统》的主题框架,如果需要对文库中的文档进行组织,则可以将搜索范围限制在“电力”、“电气”特定领域。
[0123]S 104,据搜索结果与搜索条件的匹配情况,将文档添加到所述主题框架中的相应主题文档集合中。
[0124]最基本的一种方式,是分别以每个主题的内容构成单一的搜索关键词分别进行搜索后,将满足每个搜索条件的搜索结果,分别归入相应的主题之下。
[0125]对于搜索引擎而言,由于搜索策略的不同,可能会返回大量的搜索结果,但是在实际应用中,有些搜索引擎可能更注重召回率而不是搜索结果的准确性,因此,对于所得到的搜索结果,可以通过计算相似度的方式做进一步的筛选。[0126]对于文本相似度的计算方法,从大的方面分类,可以分为字面相似与语义相似。字面相似,最基本的方法是利用“公共字串长度/当前文本总长度”的公式计算,当然也可以引入欧式距离等其他更复杂的算法计算。。语义相似,则需要在字面相似的基础上,引入一些同义资源,对同义词进行替换归一,然后再计算,如“电能转换”与“电能转化”归一为“电能转化”,然后再进行字面相似度计算。字面相似在很多情况下,可以近似估计出语义相似,且不需要额外资源;语义相似则需要额外资源,但也会带来比字面相似更准确的效果。根据实际应用需求,本领域技术人员可以灵活选择各种文本相似的具体计算方法,本发明对此并不需要进行限定。
[0127]此外,在进行相似度计算的过程中,可以分别计算搜索关键词与每条搜索结果文档标题的文本相似度,也可以分别计算搜索关键词与文档内容的文本相似度,本发明对此同样不需要进行限定。
[0128]计算得到文本相似度之后,根据预设的条件,将文本相似度满足要求的搜索结果添加到主题框架中的相应主题文档集合中。例如,将相似度满足预设阈值的所有搜索结果添加到相应的主题文档集合中;或者对所有搜索结果的相似度进行排序,将排名前N位(N为预设的正整数,例如N=5、N=10、N=20等等)的搜索结果添加到相应的主题文档集合中;等
坐寸ο
[0129]另外,如果搜索引擎本身比较注重搜索结果质量而不是召回率,而且搜索结果一般也都会根据与关键词的相关(相似)程度进行排序,那么也可以直接对搜索结果做适当的截断处理,例如:仅选取排名前N位的搜索结果,并将这些搜索结果添加至相应的主题文档
^ 由:? 口卞 O
[0130]例如,分别以“电能转换技术”、“直流电机”、“变压器”三个关键词进行检索,并且分别选取与关键词的文本相似度排名前5位的搜索结果,加入相应的主题中,最终结果如下:
[0131]第一章电能转换技术[0132](一)第3章电能转换技术
[0133]( 二)供用电常识及电能转换技术
[0134](H)第七章电能传输及转换技术
[0135](四)三相不断电系统之电能转换及并联技术
[0136](五)光伏发电系统的并联功率转换技术
[0137]第1.1节直流电机
[0138](一)第9章肓流电动机
[0139](二)第9章肓流电动机
[0140](三)第3章肓流电动机
[0141](四)肓流电机
[0142](五)官流电机4
[0143]第1.2节:变压器
[0144]( 一 )变压器
[0145]( 二)变压器
[0146](三)变压器
[0147](四)变压器
[0148](五)变压器
[0149]需要说明的是,上述下划线标出的部分为文档的标题,有些标题尽管名称相同,但是对应着不同的文档。
[0150]应用上述方案,已经可以实现最基本的文档结构化组织功能,但是在实际应用中,可能会遇到以下问题:
[0151]在相同或不同的主题框架中,可能存在多个名称相同的子主题,例如:在“第一章发明专利申请的初步审查”中,存在“审查原则”、“审查程序”等子主题,而在“第二章实用新型专利申请的初步审查”中,同样存在“审查原则”、“审查程序”等同名子主题。如果应用上述的方法,可能会导致实际文档的分类错误或者重复分类的情况发生。
[0152]另外,对于同一份文档X,其内容可能同时与多层主题匹配,例如某个文档《变压器》,可能其内容既能与高级主题“电能转换技术”匹配,也能与低级主题“变压器”匹配,从而导致同一文档分别被归入不同层级的主题下,而这种组织方式仍然存在不合理之处。
[0153]为进一步解决上述问题,本发明提供的一种改进的方案如下:
[0154]将层次化主题框架结构中的每一个主题看做是一个节点,对于任一个节点A(除根节点之外),首先利用节点A内容所构成的搜索条件,在预置的文档集合内进行搜索,得到第一搜索结果;
[0155]然后利用节点A的父节点(假设为Al)内容所构成的搜索条件,在第一搜索结果中进行搜索,得到第二搜索结果。
[0156]上述方案,相当于在以A为条件的搜索结果中,利用Al为条件进行二次搜索。因此,第二搜索结果的数量不会大于第一搜索结果的数量。
[0157]例如,对于“发明专利申请的初步审查——审查原则”这一主题分支,第一次搜索用“审查原则”做关键词,搜索结果为10篇文档,这10篇文档都与“审查原则”相关,但是却无法确认是“发明专利审查原则”还是“实用新型专利审查原则”,因此采用“审查原则”的上一级主题,即父节点“发明专利申请的初步审查”作为关键词进行二次搜索,对第一搜索结果进行限缩,就可以有效地筛选出与“发明专利”相关的“审查原则”文档。假设二次检索后,发现搜索结果包含有3篇文档,那么可以将这3篇文档加入“发明专利申请的初步审查一审查原则”的主题文档集合中。
[0158]在实际应用过程中,如果两次搜索结果的数量差距并不大,则认为二次搜索并不能实现有效的限缩,这种情况下,可以直接将第一搜索结果加入到相应的主题文档集合中。另外,如果一次搜索存在结果,经过二次搜索后,发现无法命中有效的搜索结果,这种情况下,为了保证召回率,也可以直接将第一搜索结果加入到相应的主题文档集合中。
[0159]可以理解的是,上述方案并不仅限于利用两级节点做二次搜索,根据具体的应用需求,可以利用具有层级关系的多级节点进行检索。例如,对于“初步审查——发明专利申请的初步审查——审查原则”这一主题分支,可以分别利用“审查原则”、“发明专利申请的初步审查”、“初步审查”进行三次检索,在检索过程中,如果发现某级别的检索结果数量不满足预设需求,则可以停止继续利用更高级的节点主题节点进行检索。
[0160]在本发明的另一种实施方式中,还可以利用具有继承关系的多级两级节点的文本内容构成复合搜索条件,然后进行检索。将得到的检索结果直接加入较低节点的对应的主题文档集合中。
[0161]例如,对于“发明专利申请的初步审查——审查原则”这一主题分支,直接利用“审查原则”和“发明专利申请的初步审查”构成复合搜索条件进行检索,可以直接搜到3篇文档,那么可以将这3篇文档加入“发明专利申请的初步审查一审查原则”的主题文档集合中。
[0162]如果发现使用复合条件没有命中结果,那么可以将搜索条件改为由低级节点构成的单一搜索条件,从而提闻召回率
[0163]类似地,上述方案并不仅限于利用两级节点构成复合搜索条件,根据具体的应用需求,可以利用具有层级关系的多级节点构成复合搜索条件。例如,对于“初步审查——发明专利申请的初步审查——审查原则”这一主题分支,可以利用“审查原则”、“发明专利申请的初步审查”、“初步审查”构成复合搜索条件。在检索过程中,如果发现无法命中搜索结果,则按照层级的高低,逐步减少搜索条件中的限制内容。
[0164]上述两种方案,都可以有效解决名称相同的子主题导致实际文档的分类错误或者重复分类的情况。在本发明的一种优选实施方式中,可以按照主题级别由低向高的顺序进行检索以及文档组织,对于已经加入低级主题文档集合的文档,不允许其加入同一分支中的更高级的主题文档集合,从而有效避免同一文档分别被归入不同层级的主题下这种不合理情况的出现。
[0165]另外,可以理解的是,根据具体的应用需求,在上述两种方案中,也可以利用计算文本相似度的方式、或者直接截取搜索结果前N位的方式,将满足条件的搜索结果加入相应的主题文档集,这里不再重复描述。
[0166]相应于上面的方法实施例,本发明还提供一种文档结构化组织装置,参见图2所示,该装置可以包括:
[0167]主题框架获得单元210,用于获得具有层次化结构的主题框架;
[0168]理想的文档组织方式,应该具有较为清晰的层次划分,例如,对于“知识产权”类的文档,如果能够按照《专利审查指南》或者其他书籍的结构,将散乱无序的文档组织成类似以下的形式:
[0169]第一部分
[0170]第一章
[0171]第二章
[0172]......[0173]第二部分
[0174]......[0175]那么,这种组织方式既可以让用户更方便地找到自己感兴趣的内容,又可以指导用户在一个相对合理完善的体系下,按照一定的顺序,有针对性地阅读。本发明的目的,就是在一定的文档集合范围内,对其中散乱无序的单个文档进行组织,使其具有一定的层次化结构,方便用户阅读。
[0176]为实现上述目的,首先要建立具有层次化结构的主题框架。该主题框架可以是完全人工构建,也可以通过从已有资源中提取目录的方式获得。
[0177]例如,可以从一些经典的书籍中,直接提取其目录内容作为主题框架。本方法尤其适合应用在一些收费的资料平台。在互联网中,存在一些需要付费才能看到图书内容的平台,但是允许用户在不付费的情况下浏览图书的摘要以及目录,其中,目录的内容可以直接用于本发明的方案。
[0178]另外,在一些知识网站或教育网站中,也存在着类似的知识架构,如果预先已知这样的网站,也可以从这些网站中提取出相应的主题框架。
[0179]上述方案,是在已知确定的图书资源或网站资源的前提下实施的,如果预先并不清楚哪里存在这样的资源,则需要先进行目录挖掘工作,【具体实施方式】是:利用目录特征词构成搜索条件,然后将特征词发送至搜索引擎,在整个互联网范围或某个特定范围内搜索到包含目录内容的资源。其中,目录特征词是目录中经常会出现的内容,除了“目录”二字之夕卜,还包括一些用于标识章节的特征词,例如:“第X部分”、“第X章”、“第X节”、“ 1.1 % 1.2”等等,利用这些关键词构成单一形式或复合形式的搜索条件,可以有效地从网络中发现包含目录内容的资源,进一步就可以从发现的资源中提取目录内容,形成具有层次化结构的主题框架。
[0180]搜索条件构成单元220,用于利用所述主题框架中的主题文本构成搜索条件;
[0181]搜索引擎的基本功能,就是根据给定的搜索条件,找出与该搜索条件内容相匹配的其他网络资源。根据搜索弓I擎的基本功能,在本发明中,可以利用主题文本的内容内容构成搜索条件输入搜索引擎,在一定的文档集合范围内进行搜索,然后根据搜索结果对文档集合中的文档进行组织。
[0182]在本发明中,建立主题框架之后,利用主题文本内容构成搜索条件,以便后续利用这些搜索条件进行搜索。
[0183]例如,从《电力系统》中,经获得目录的主题框架内容如下:
[0184]第一章电能转换技术
[0185]第1.1节直流电机
[0186]第1.2节变压器[0187]第二章......[0188]......[0189]可知,该主题框架共有两层结构,第一层为“章”,第二层为“节”,如果把该结构理解为树,那么《电力系统》构成根节点,“节”构成叶子节点。
[0190]在本发明的一种实施方式中,可以利用模板匹配的方式,先将各主题文本中的目录特征词“第X张”、“第X节”去掉,则剩余的内容“电能转换技术”、“直流电机”、“变压器”构成三个关键词。
[0191]在实际应用过程中,每个关键词可以单独构成搜索条件分别进行搜索,也可以彼此结合构成复合搜索条件,【具体实施方式】将在后面详细描述。
[0192]搜索单元230,用于利用所述搜索条件在预置的文档集合内进行搜索;
[0193]构成搜索条件之后,将搜索条件发送至搜索引擎,并且得到搜索引擎所返回的一个或多个搜索结果。
[0194]本发明方案,是直接利用已有的搜索引擎进行搜索,本身不需要对搜索引擎进行改动。根据实际的应用需求,一般会将搜索限定在特殊的范围内。例如需要对文库平台中的内容进行组织,则应该将搜索条件直接输入直接输入该文库平台的搜索引擎。得到的搜索结果以文件为单位,每条搜索结果对应该文库平台中的一个文档文件(例如TXT、D0C、roF等格式);对于问答平台,将搜索条件直接输入该问答平台的搜索引擎,得到的搜索结果以“问答对”为单位返回,每条搜索结果对应该问答平台中的一个问答对;等等。
[0195]如果平台本身已经具有一定的分类体系,那么为了保证搜索结果和主题框架的相关性,还可以进一步将搜索范围限制在特定的分类,例如,对于已构建的《电力系统》的主题框架,如果需要对文库中的文档进行组织,则可以将搜索范围限制在“电力”、“电气”特定领域。
[0196]组织单元240,`用于根据搜索结果与搜索条件的匹配情况,将文档添加到所述主题框架中的相应主题文档集合中。
[0197]最基本的一种方式,是分别以每个主题的内容构成单一的搜索关键词分别进行搜索后,将满足每个搜索条件的搜索结果,分别归入相应的主题之下。
[0198]对于搜索引擎而言,由于搜索策略的不同,可能会返回大量的搜索结果,但是在实际应用中,有些搜索引擎可能更注重召回率而不是搜索结果的准确性,因此,对于所得到的搜索结果,可以通过计算相似度的方式做进一步的筛选。
[0199]对于文本相似度的计算方法,从大的方面分类,可以分为字面相似与语义相似。字面相似,最基本的方法是利用“公共字串长度/当前文本总长度”的公式计算,当然也可以引入欧式距离等其他更复杂的算法计算。。语义相似,则需要在字面相似的基础上,引入一些同义资源,对同义词进行替换归一,然后再计算,如“电能转换”与“电能转化”归一为“电能转化”,然后再进行字面相似度计算。字面相似在很多情况下,可以近似估计出语义相似,且不需要额外资源;语义相似则需要额外资源,但也会带来比字面相似更准确的效果。根据实际应用需求,本领域技术人员可以灵活选择各种文本相似的具体计算方法,本发明对此并不需要进行限定。
[0200]此外,在进行相似度计算的过程中,可以分别计算搜索关键词与每条搜索结果文档标题的文本相似度,也可以分别计算搜索关键词与文档内容的文本相似度,本发明对此同样不需要进行限定。
[0201]计算得到文本相似度之后,根据预设的条件,将文本相似度满足要求的搜索结果添加到主题框架中的相应主题文档集合中。例如,将相似度满足预设阈值的所有搜索结果添加到相应的主题文档集合中;或者对所有搜索结果的相似度进行排序,将排名前N位(N为预设的正整数,例如N=5、N=10、N=20等等)的搜索结果添加到相应的主题文档集合中;等
坐寸ο
[0202]另外,如果搜索引擎本身比较注重搜索结果质量而不是召回率,而且搜索结果一般也都会根据与关键词的相关(相似)程度进行排序,那么也可以直接对搜索结果做适当的截断处理,例如:仅选取排名前N位的搜索结果,并将这些搜索结果添加至相应的主题文档
^ 由:? 口卞 O
[0203]例如,分别以“电能转换技术”、“直流电机”、“变压器”三个关键词进行检索,并且分别选取与关键词的文本相似度排名前5位的搜索结果,加入相应的主题中,最终结果如下:
[0204]第一章电能转换技术
[0205](一)第3章电能转换技术
[0206](二)供用电常识及电能转换技术
[0207](H)第七章电能传输及转换技术
[0208](四)三相不断电系统之电能转换及并联技术
[0209](五)光伏发电系统的并联功率转换技术
[0210]第1.1节直流电机
[0211](一)第9章肓流电动机
[0212](二)第9章肓流电动机
[0213](三)第3章肓流电动机
[0214](四)肓流电机
[0215](五)官流电机4
[0216]第1.2节:变压器
[0217]( 一 )变压器
[0218]( 二)变压器
[0219](三)变压器
[0220](四)变压器
[0221](五)变压器
[0222]需要说明的是,上述下划线标出的部分为文档的标题,有些标题尽管名称相同,但是对应着不同的文档。
[0223]应用上述方案,已经可以实现最基本的文档结构化组织功能,但是在实际应用中,可能会遇到以下问题:`
[0224]在相同或不同的主题框架中,可能存在多个名称相同的子主题,例如:在“第一章发明专利申请的初步审查”中,存在“审查原则”、“审查程序”等子主题,而在“第二章实用新型专利申请的初步审查”中,同样存在“审查原则”、“审查程序”等同名子主题。如果应用上述的方法,可能会导致实际文档的分类错误或者重复分类的情况发生。[0225]另外,对于同一份文档X,其内容可能同时与多层主题匹配,例如某个文档《变压器》,可能其内容既能与高级主题“电能转换技术”匹配,也能与低级主题“变压器”匹配,从而导致同一文档分别被归入不同层级的主题下,而这种组织方式仍然存在不合理之处。
[0226]为进一步解决上述问题,本发明提供的一种改进的方案如下:
[0227]将层次化主题框架结构中的每一个主题看做是一个节点,对于任一个节点A(除根节点之外),首先利用节点A内容所构成的搜索条件,在预置的文档集合内进行搜索,得到第一搜索结果;
[0228]然后利用节点A的父节点(假设为Al)内容所构成的搜索条件,在第一搜索结果中进行搜索,得到第二搜索结果。
[0229]上述方案,相当于在以A为条件的搜索结果中,利用Al为条件进行二次搜索。因此,第二搜索结果的数量不会大于第一搜索结果的数量。
[0230]例如,对于“发明专利申请的初步审查——审查原则”这一主题分支,第一次搜索用“审查原则”做关键词,搜索结果为10篇文档,这10篇文档都与“审查原则”相关,但是却无法确认是“发明专利审查原则”还是“实用新型专利审查原则”,因此采用“审查原则”的上一级主题,即父节点“发明专利申请的初步审查”作为关键词进行二次搜索,对第一搜索结果进行限缩,就可以有效地筛选出与“发明专利”相关的“审查原则”文档。假设二次检索后,发现搜索结果包含有3篇文档,那么可以将这3篇文档加入“发明专利申请的初步审查一审查原则”的主题文档集合中。
[0231]在实际应用过程中,如果两次搜索结果的数量差距并不大,则认为二次搜索并不能实现有效的限缩,这种情况下,可以直接将第一搜索结果加入到相应的主题文档集合中。另外,如果一次搜索存在结果,经过二次搜索后,发现无法命中有效的搜索结果,这种情况下,为了保证召回率,也可以直接将第一搜索结果加入到相应的主题文档集合中。
[0232]可以理解的是,上述方案并不仅限于利用两级节点做二次搜索,根据具体的应用需求,可以利用具有层级关系的多级节点进行检索。例如,对于“初步审查——发明专利申请的初步审查——审查原则”这一主题分支,可以分别利用“审查原则”、“发明专利申请的初步审查”、“初步审查”进行三次检索,在检索过程中,如果发现某级别的检索结果数量不满足预设需求,则可以停止继续利用更高级的节点主题节点进行检索。
[0233]在本发明的另一种实施方式中,还可以利用具有继承关系的多级两级节点的文本内容构成复合搜索条件,然后进行检索。将得到的检索结果直接加入较低节点的对应的主题文档集合中。
[0234]例如,对于“发明专利申请的初步审查——审查原则”这一主题分支,直接利用“审查原则”和“发明专利申请的初步审查”构成复合搜索条件进行检索,可以直接搜到3篇文档,那么可以将这3篇文档加入“发明专利申请的初步审查一审查原则”的主题文档集合中。
[0235]如果发现使用复合条件没有命中结果,那么可以将搜索条件改为由低级节点构成的单一搜索条件,从而提闻召回率
[0236]类似地,上述方案并不仅限于利用两级节点构成复合搜索条件,根据具体的应用需求,可以利用具有层级关系的多级节点构成复合搜索条件。例如,对于“初步审查——发明专利申请的初步审查——审查原则”这一主题分支,可以利用“审查原则”、“发明专利申请的初步审查”、“初步审查”构成复合搜索条件。在检索过程中,如果发现无法命中搜索结果,则按照层级的高低,逐步减少搜索条件中的限制内容。
[0237]上述两种方案,都可以有效解决名称相同的子主题导致实际文档的分类错误或者重复分类的情况。在本发明的一种优选实施方式中,可以按照主题级别由低向高的顺序进行检索以及文档组织,对于已经加入低级主题文档集合的文档,不允许其加入同一分支中的更高级的主题文档集合,从而有效避免同一文档分别被归入不同层级的主题下这种不合理情况的出现。
[0238]另外,可以理解的是,根据具体的应用需求,在上述两种方案中,也可以利用计算文本相似度的方式、或者直接截取搜索结果前N位的方式,将满足条件的搜索结果加入相应的主题文档集,这里不再重复描述。
[0239]为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本发明时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
[0240]通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如R0M/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
[0241]本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0242]本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0243]以上所述仅是本发明的【具体实施方式】,应当指出,对于本【技术领域】的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
【权利要求】
1.一种文档结构化组织方法,其特征在于,包括: 获得具有层次化结构的主题框架; 利用所述主题框架中的主题文本构成搜索条件; 利用所述搜索条件在预置的文档集合内进行搜索; 根据搜索结果与搜索条件的匹配情况,将文档添加到所述主题框架中的相应主题文档集合中 O
2.根据权利要求1所述的方法,其特征在于,所述获得具有层次化结构的主题框架,包括: 从已知的网站或图书中,提取目录内容,形成具有层次化结构的主题框架。
3.根据权利要求1所述的方法,其特征在于,所述获得具有层次化结构的主题框架,包括: 以目录特征词构成搜索条件,通过搜索发现包含目录内容的资源; 从所发现的资源中,提取目录内容,形成具有层次化结构的主题框架。
4.根据权利要求1所述的方法,其特征在于,所述利用所述主题框架中的主题文本构成搜索条件,包括: 去除所述主题文本中的目录特征词,以剩余内容构成搜索条件。
5.根据权利要求1所述的方法,其特征在于,所述利用所述主题框架中的主题文本构成搜索条件,包括: 利用所述层次化结构中每个节点的内容分别构成单一搜索条件。
6.根据权利要求5所述的方法,其特征在于,所述利用所述搜索条件在预置的文档集合内进行搜索,包括: 利用节点A内容所构成的搜索条件,在预置的文档集合内进行搜索,得到第一搜索结果; 利用节点A的父节点内容所构成的搜索条件,在所述第一搜索结果中进行搜索,得到第二搜索结果。
7.根据权利要求6所述的方法,其特征在于,所述根据搜索结果与搜索条件的匹配情况,将文档添加到所述主题框架中的相应主题文档集合中,包括: 将第二搜索结果中的文档,添加到节点A对应的主题文档集合中; 或者 在所述第二搜索结果的数量不满足预设需求的情况下,将第一搜索结果中的文档,添加到节点A对应的主题文档集合中。
8.根据权利要求1所述的方法,其特征在于,所述利用所述主题框架中的主题文本构成搜索条件,包括: 利用所述层次化结构中具有继承关系的至少两级节点的文本内容构成复合搜索条件。
9.根据权利要求8所述的方法,其特征在于,所述根据搜索结果与搜索条件的匹配情况,将文档添加到所述主题框架中的相应主题文档集合中,包括: 将符合所述复合搜索条件的文档,添加到所述至少两级节点中最低级节点对应的主题文档集合中。
10.根据权利要求1所述的方法,其特征在于,所述根据搜索结果与搜索条件的匹配情况,将文档添加到所述主题框架中的相应主题文档集合中,包括: 计算所述搜索结果与所述搜索条件的文本相似度,将相似度满足预设要求的搜索结果添加到所述主题框架中的相应主题文档集合中。
11.一种文档结构化组织装置,其特征在于,包括: 主题框架获得单元, 用于获得具有层次化结构的主题框架; 搜索条件构成单元,用于利用所述主题框架中的主题文本构成搜索条件; 搜索单元,用于利用所述搜索条件在预置的文档集合内进行搜索; 组织单元,用于根据搜索结果与搜索条件的匹配情况,将文档添加到所述主题框架中的相应主题文档集合中。
12.根据权利要求11所述的装置,其特征在于,所述主题框架获得单元,具体用于: 从已知的网站或图书中,提取目录内容,形成具有层次化结构的主题框架。
13.根据权利要求1所述的装置,其特征在于,所述主题框架获得单元,具体用于: 以目录特征词构成搜索条件,通过搜索发现包含目录内容的资源; 从所发现的资源中,提取目录内容,形成具有层次化结构的主题框架。
14.根据权利要求11所述的装置,其特征在于,所述搜索条件构成单元,具体用于: 去除所述主题文本中的目录特征词,以剩余内容构成搜索条件。
15.根据权利要求1所述的装置,其特征在于,所述搜索条件构成单元,具体用于: 利用所述层次化结构中每个节点的内容分别构成单一搜索条件。
16.根据权利要求15所述的装置,其特征在于,所述搜索单元,具体用于: 利用节点A内容所构成的搜索条件,在预置的文档集合内进行搜索,得到第一搜索结果; 利用节点A的父节点内容所构成的搜索条件,在所述第一搜索结果中进行搜索,得到第二搜索结果。
17.根据权利要求16所述的装置,其特征在于,所述所述组织单元,具体用于: 将第二搜索结果中的文档,添加到节点A对应的主题文档集合中; 或者 在所述第二搜索结果的数量不满足预设需求的情况下,将第一搜索结果中的文档,添加到节点A对应的主题文档集合中。
18.根据权利要求11所述的装置,其特征在于,所述搜索条件构成单元,具体用于: 利用所述层次化结构中具有继承关系的至少两级节点的文本内容构成复合搜索条件。
19.根据权利要求18所述的装置,其特征在于,所述组织单元,具体用于: 将符合所述复合搜索条件的文档,添加到所述至少两级节点中最低级节点对应的主题文档集合中。
20.根据权利要求11所述的方法,其特征在于,所述组织单元,具体用于: 计算所述搜索结果与所述搜索条件的文本相似度,将相似度满足预设要求的搜索结果添加到所述主题框架中的相应主题文档集合中。
【文档编号】G06F17/30GK103678302SQ201210317017
【公开日】2014年3月26日 申请日期:2012年8月30日 优先权日:2012年8月30日
【发明者】徐兴军 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1