具有明显类别划分的非结构化电子文档的检索方法和系统的制作方法

文档序号:6576098阅读:209来源:国知局
专利名称:具有明显类别划分的非结构化电子文档的检索方法和系统的制作方法
具有明显类别划分的非结构化电子文档的检索方法和系统
技术领域
本发明涉及一种具有明显类别划分的非结构化电子文档的检索方法和系统。背景技术
数字资产是企业中最具价值的无形资产之一。数字资产通常可以分为结构化数据和非结构化数据,所谓结构化数据是指具有良好定义的结构,能够被方便解析,并可以在关系数据库中存储的数据;非结构化数据是相对于结构化数据而言不便于采用二维表结构表示的数据类型。大型企业的各业务应用系统中,非结构化文档格式多样化、文档内容多样化、相关流程多样化的非结构化数据文档全面覆盖了公司经营管理的方方面面,但其具有 明显类别划分的特点。通常,非结构化数据通常是由若干具有业务相关性的非结构化数据按照国家相关标准进行封装后而形成,是由企业在长时间、耗费了大量的人力、物力、财力的基础上形成的,含有大量可挖掘的、有助于提升企业经营效益的重要信息。随着企业信息化程度的逐渐深化,非结构化数据文档的数量呈不断上升的趋势。根据相关统计数据,在现代大型企业中,非结构化数据占比达80%以上,而其中最有价值的、可被进行二次加工的非结构化数据是以电子文档。作为电子文档使用的入口,电子文档检索系统在企业非结构化数据管理中扮演了重要的角色。通过检索,才能在海量的企业电子文档中定位到目标电子文档,从而使得非结构化数据能够真正被全面使用。然而,电子文档的搜索质量保证是工业界普遍面临的难题,一方面是因为电子文档的数目通常是巨大的,从几千万乃至上亿的文档中识别出用户想要找到的文档从概率上看就不是一件容易的事,另一方面还因为不同于网页之间存在的“超链接”关联,电子文档的分布是以个体形式、孤立存在的,所以难以通过类似Google的Page-Rank算法类似的“民主投票法”得到电子文档的“质量”,从而完善搜索相关性。在工业界,目前有几下几种主流的电子文档检索方法1.基于关键词检索关键词是指由文档作者提供的一种限定性描述文档所属领域的“关键词”,例如提交学术文献时(如学术论文),文献发表机构通常会让作者在提交文献时同时给出该文献的若干关键词,以用于后续检索需要。以本发明为例,关键词会包含“电子文档”、“检索”、“大型企业”、“电子文档检索”等。基于关键词的搜索,一般是指系统根据用户输入的文字,对所管理的电子文档的关键词进行一一匹配,如果关键词和输入文字匹配,那么该文档就会出现在搜索结果中。
公开日为2005. 04. 27,公开号为CN1609848的中国发明即采用关键词的搜索方法,其揭示了一种预先定义关键词的电子文档搜索方法,预先定义关键词的电子文档搜索方法,利用文档提供者预先定义电子文档Al的关键词BI,由软件程序D将此关键词及电子文档的保存地址bl作为链接存储到关键词及电子文档地址集合B.文档的搜索人利用集合B的用户界面一关键词列表C,通过选择关键词BI及自由输入关键词查询到电子文档的存储地址bl,实现快速搜索的目的。该发明方法有较大缺陷,所以目前除了专业的学术文献信息检索系统外,已经较少使用。它的主要缺点之一是关键词难以精确限定文档的涉及范围。例如本文的关键词一“检索”,几乎会出现在所有和检索方法、系统有关的所有文献中,这样就导致搜索范围太广,搜索匹配结果巨大。然而,如果关键词修改为较为精确的细节描述,虽然能够精确表达文档所涉及的一个具体范围,但确另用户的输入检索词很难和关键词匹配上,造成文档无法通过搜索定位到。另外,由于关键词的选取没有标准,不同作者对同一类文档给出的关键词也很不一样,这就更降低了关键词搜索方法的搜索准确率。2.基于全文检索基于全文的检索方法,是指系统根据用户输入的文字,对所管理的电子文档的全文所有词组进行一一匹配,如果电子文档中含有和输入文字相匹配的文字,那么该文档就会出现在搜索结果中。这种方法的一个关键技术是文章的分词,即将全文中的所有文字,按照最合理的方法,拆分成“词”的组合。在中文领域,特别要解决中文中存在的“多义词组”问题,如“南京市长江大桥”可以被分解为“南京市+长江大桥”或“南京市长+江大桥”。
公开日为2009. 04. 15,公开号为CN101408876,申请号为200710140688. 3的中国发明即采用基于全文的检索方法,其揭示了一种电子文档全文检索的方法及系统,所述方法,包括以下步骤(1)根据用户配置的数据源、索引创建与更新的策略,对该数据源的文本信息进行抽取,并为其中每个词分别建立索引,构建与该数据源对应的全文检索索引库;
(2)接收用户输入的查询内容,并根据其确定查询条件,在所述全文检索索引库中对该索引文档进行查找,得到匹配的文档信息;(3)对所述匹配的文档信息进行调整,提取该文档信息中与用户搜索相关的摘要信息,并将其返回给用户。其所述的系统和方法,便于用户快速检索不同类型的电子文档提供的信息,得到准确的或者是全面的搜索文档搜索结果,使得用户可迅速定位所需要的文档信息。该发明即使非常好地解决了中文多义词组的分词问题,但还是具有较大的缺陷,特别是在大型企业中使用。这是因为大型企业中的历史电子文档的容量很可能在PB级别(1PB=1, OOOTB=I, 000, 000GB),相应的电子文档的个数也在千万以上,由于全文检索命中检索词的文档通常会非常多,用户很难在检索结果中找到自己需要的那个电子文档,导致搜索结果不可用。要使得全文检索的结果有意义,需要对返回的结果进行文档相关性和重要性排序,使得和检索词最相关、最重要的文档出现在返回结果的最前面。这就是下一个方法要解决的问题。3.基于带权重的全文检索通过在全文检索过程中,加入不同词的权重(词的权重是指,一个词对于文档或者文档集合的重要程度),可以优化检索的返回结果。这类方法中,最基础的算法是TF-1DF算法。TF-1DF (term frequency -1nverse document frequency)算法由两个算法组成,分别是TF算法和IDF算法。TF算法是通过判断一个词在一个文档中出现的频率来度量该词对于该文档的重要程度一出现的频率越高,则该词对于该文档的重要性越大,权重也越大;IDF算法是通过判断一个词在多个文档中出现的频率来度量改词在文档集中的重要程度一出现在文档集的越多文档中,则该词对于该文档集的重要性越低。TF-1DF的公式如下上述公式中的符号N代表一共输入了 N个检索词,Tw是一个检索词在该文档中出现的次数,Ta是该文档的总词数(Tw和Ta的计算,一般会扣除虚词、语气词等,以提高计算精度),Dw代表该检索词在搜索文档集合中的多少个文档中出现过,D是文档的个数。利用该公式,可以计算出一个文档对于一组搜索词的重要程度(或称为相关性)。从算法原理可知,该算法是通过以下判断来确定文档对于一组搜索词的重要程度如果一个词在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为该词具有很好的类别区分能力,也适用于充当该文档的“关键词”,权重也越高;反之也是一样的。并且搜索词匹配越多,那么文档的“重要性”越高。这和我们的直觉认知也是一致的。所以,基于该方法的搜索结果就不再是所有无序的、和任何搜索词有匹配的文档的集合,而是按照重要程度排列的文档集合。理想情况下,用户在搜索结果的前面几项就可以定位到和其需要一致的文档。TF-1DF算法在互联网搜索引擎中得到了广泛地使用,算法的质量也很高。然而,当将该算法用以大型企业的电子文档的搜索中,发现存在一些问题,导致搜索结果不如预期,主要有以下两个方面I)计算归属于非同类的联合关键词时IDF失效问题大型企业的电子文档集由不同信息系统贡献,不同类别的电子文档数目是非常不一样的,意味着统一搜索所面对的电子文档集合中不同类别的电子文档数目也是不一样。例如某大型央企的ERP系统一年能产生几十TB的电子文档数据,但资产管理系统只会产生几GB的数据。由于不同类别的文档数目存在数量级上的差距,会较为严重地影响TF-1DF中的IDF算法的权重计算结果。这是因为该算法是以总的文档作为搜索权重判断基数,当文档的类别数目分布不均衡时,类别较小的文档中的关键词的重要性会不合理地变低。举例而言,假设文档集共有10000个文档,其中“财务”类文档共100个。执行搜索“资产负债+统计”。做一个合理假设,“财务”的100个文档中有50个文档出现“资产负债”这个词,而所有的10000个文档中也有50个文档出现“统计”词,但分布在各个类别文档中,那么“资产负债”和“统计”二者的IDF指是一样的,均为log(10000/50),这个结论和我们的直观认识不符——“资产负债”的区分度应该比“统计”强得多,这个结果导致搜索结果完全依赖于TF,IDF失效,即搜索出的目标文档的排序完全取决于“词频” TF。相对于大型企业,在互联网搜索中,该问题会小一些,因为互联网环境中的类别分布问题没有企业严重,且互联网搜索引擎通常结合其它算法(如Google的Page-Rank算法)来对重要性再进行判断,所以总体搜索结果受影响很小。2)同类关键词IDF值的区分度被弱化的问题TF-1DF中的IDF算法将整个电子文档集合作为整体来考虑(公式中的D变量),如上所述,大型企业中不同的电子文档由不同系统产生,类别差异明显。如果两个搜索词针对的是同一个文档数比较小的类,那么这两个搜索词的IDF的值的区分度将会被弱化,即,两个IDF值会过于接近从而没有区分度。再次使用上述例子中的文档集,搜索“资产负债+财务状况”,这两个搜索词都是偏向财务类的关键词。合理假设“资产负债”关键词在50财务类文档中出现,“财务状况”关键词在10个财务类文档中出现,那么可以想见“财务状况”由于在更少的文档中出现(二者差4倍),IDF值应该同等程度地增大。然而,由于采用所有文档作为计算基数IDF (资产负债)=Iog (10000/50) =2. 3IDF (财务状况)=Iog (10000/10) =3. O计算结果如上,二者仅差距1. 3倍,IDF的区分度较差,失去应有作用。且,类别的差距越明显,这个问题越突出。和上述问题I)的原因类似,这个问题在互联网搜索引擎中影响相对小,但对于企业级电子文档的搜索还是比较大的。综上所述,针对电子文档的搜索方法,存在上述三种方式,相对而言,“带权重的全文检索”虽然在大型企业环境电子文档搜索的环境中使用存在一些偏差,但总体上搜索结果的质量仍然是最好的。本发明提出的具有明显类别划分的电子文档搜索方法,也是基于TF-1DF算法的,较好地解决了上述两个问题而导致的TF-1DF算法对于大型企业中的电子文档搜索的不适用;同时,基于该方法,本发明提出了一个具体的大型企业电子文档统一搜索系统的实现方式。

发明内容本发明要解决的技术问题之一,在于提供一种具有明显类别划分的非结构化电子文档的检索方法,优化了 TF-1DF算法,很大程度上解决了上述提到的两个TF-1DF用于大型企业电子文档搜索时存在的两个问题,使之适用于大型企业电子文档全文搜索。本发明解决上述技术问题所采用的技术方案是具有明显类别划分的非结构化电子文档的检索方法,其特征在于包括文档分类和类型关键词识别阶段文档分类是将特定集合的文档,按照各文档内容之间存在的关系进行分类;类型关键词识别是将所有类型的关键词识别出来;实时搜索阶段根据用户输入的搜索词,查询符合搜索结果的文档,并按照文档相关性从高到低返回搜索结果,该阶段所采用的实时搜索相关性算法公式如下
权利要求
1.具有明显类别划分的非结构化电子文档的检索方法,其特征在于包括 文档分类和类型关键词识别阶段文档分类是将特定集合的文档,按照各文档内容之间存在的关系进行分类;类型关键词识别是将所有类型的关键词识别出来; 实时搜索阶段根据用户输入的搜索词,查询符合搜索结果的文档,并按照文档相关性从高到低返回搜索结果,该阶段所采用的实时搜索相关性算法公式如下
2.根据权利要求1所述的具有明显类别划分的非结构化电子文档的检索方法,其特征在于所述文档分类采用“特征向量比较法”,其具体包括如下步骤 步骤11、根据文档内容,计算文档的特征向量准备一个字典库,通过分析文档中是否包含字典库的某个词,以及词出现的频率,得到文档的特征向量,特征向量的维数和字典库中词的个数一致; 步骤12、通过余弦定理,计算两两文档之间的余弦夹角,判断文档的类型相关性采用数学中的余弦定理计算每两个文档对应的特征向量之间的夹角,夹角用弧度表示,数值越小,代表文档内容越接近,越有可能被归为同一类; 步骤13、通过“自底向上、不断合并”的方法,将余弦夹角小的文档归为同一类本步骤是一个迭代的计算过程,在每一次迭代确定一个“阈值”数,将余弦夹角小于该“阈值”的两个文档归为同一类,而后进入下一次迭代;后面执行的迭代的“阈值”大于之前迭代的“阈值”,通过这个步骤,可以使得文档分别被归类,且类别越来越少,而每一个类的文档越来越大,当类别的数目到达一个预设值时,迭代终止。
3.根据权利要求2所述的具有明显类别划分的非结构化电子文档的检索方法,其特征在于所述类型关键词识别采用“特征向量比较法”,其是将字典库中的词和类别的平均特征向量进行余弦比较,如果和某个类别的夹角数值小于一个特定阈值,则就可以认为该关键词属于该类别,是该类别的关键词。
4.具有明显类别划分的非结构化电子文档的检索系统,其特征在于包括 文档分类模块将特定集合的文档,按照各文档内容之间存在的关系进行分类; 类型关键词识别模块将所有类型的关键词识别出来; 文档全文索引模块用于计算电子文档的全文索引; 索引库用于存储文档全文索引的数据库; 文档内容读取模块用于读取电子文档的内容,主要职责包括对不同格式文件内容的读取以及对不同来源的文件内容的读取; 实时搜索模块根据用户输入的搜索词,查询符合搜索结果的文档,并按照文档相关性从高到低返回搜索结果,该阶段所采用的实时搜索相关性算法公式如下
5.根据权利要求4所述的具有明显类别划分的非结构化电子文档的检索系统,其特征在于所述文档分类模块采用“特征向量比较法”进行文档分类,其具体包括如下步骤步骤11、根据文档内容,计算文档的特征向量准备一个字典库,通过分析文档中是否包含字典库的某个词,以及词出现的频率,得到文档的特征向量,特征向量的维数和字典库中词的个数一致;步骤12、通过余弦定理,计算两两文档之间的余弦夹角,判断文档的类型相关性采用数学中的余弦定理计算每两个文档对应的特征向量之间的夹角,夹角用弧度表示,数值越小,代表文档内容越接近,越有可能被归为同一类;步骤13、通过“自底向上、不断合并”的方法,将余弦夹角小的文档归为同一类本步骤是一个迭代的计算过程,在每一次迭代确定一个“阈值”数,将余弦夹角小于该“阈值”的两个文档归为同一类,而后进入下一次迭代;后面执行的迭代的“阈值”大于之前迭代的“阈值”,通过这个步骤,可以使得文档分别被归类,且类别越来越少,而每一个类的文档越来越大,当类别的数目到达一个预设值时,迭代终止。
6.根据权利要求5所述的具有明显类别划分的非结构化电子文档的检索系统,其特征在于所述类型关键词识别模块采用“特征向量比较法”进行识别,其是将字典库中的词和类别的平均特征向量进行余弦比较,如果和某个类别的夹角数值小于一个特定阈值,则就可以认为该关键词属于该类别,是该类别的关键词。
全文摘要
本发明提供一种有明显类别划分的非结构化电子文档的检索方法和系统,其方法包括文档分类和类型关键词识别阶段文档分类是将特定集合的文档,按照各文档内容之间存在的关系进行分类;类型关键词识别是将所有类型的关键词识别出来;实时搜索阶段根据用户输入的搜索词,查询符合搜索结果的文档,并按照文档相关性从高到低返回搜索结果,该阶段提供了一实时搜索相关性算法公式,公式中引入了搜索词与文档类别的关系,优化了TF-IDF算法,很大程度上解决了上述提到的两个TF-IDF用于大型企业电子文档搜索时存在的两个问题,使之适用于大型企业电子文档全文搜索。
文档编号G06F17/30GK103020213SQ201210525908
公开日2013年4月3日 申请日期2012年12月7日 优先权日2012年12月7日
发明者倪时龙, 宋立华, 余深田, 郑映, 洪顺淋 申请人:福建亿榕信息技术有限公司, 国家电网公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1