一种基于维基语义匹配的文档分类方法及系统与流程

文档序号:14136653阅读:177来源:国知局
一种基于维基语义匹配的文档分类方法及系统与流程

本发明属于互联网技术领域,更具体地,涉及一种基于维基语义匹配的文档分类方法及系统。



背景技术:

随着万维网技术的发展,在线文本文档数量的爆炸式增长急需高效文本分类算法,以方便用户实现对在线文本文档的快速导航和浏览。传统的文本文档分类方法采用的通常是“关键词文本匹配技术”,其基本思想是:首先,将文本文档表示成关键词的加权出现频度向量,然后,以关键词向量相关度作为文本文档之间的相似性度量;即文本文档之间的相似度通过分析文本文档之间的共同关键字进行度量。然而,关键词文本匹配技术由于仅仅考虑了文本文档关键词的表面文本信息,而没有考虑关键词的背后语义信息,导致了诸多问题,如多义词引发语义混淆、同义词引发的内容失配等,从而严重制约了该项技术的有效性。为此,学者们提出了“维基语义匹配技术”,其基本思想是:利用维基百科丰富的语义概念作为中间参考空间,将文本文档从关键字空间中的一个关键词向量映射为维基参考空间中的一个概念向量(每个元素对应一个维基概念),以获取文本文档背后所隐藏的语义信息。维基百科相比于其它知识本体具有以下优点:(1)宽广的知识概念覆盖范围,易于为文本文档确定相关的参考概念;(2)维基概念能够及时有效更新,使得知识始终保持最新;(3)包含许多其它知识库所没有的最新词汇。正是这些优点使得维基语义匹配技术能有效地解决关键字文本匹配技术所遇到的语义失配问题,从而提高了文本文档相似度量的准确性。以下,我们通过一个具体例子来展示维基语义匹配相比于关键词匹配的优越性。给定三个短文本文档:

文本文档一:“Puma,an American Feline Resembling a Lion(美洲豹,一种类似狮子的美洲猫科动物)”

文本文档二:“Puma,a Famous Sports Brand from German(彪马,来自于德国的一个著名运动品牌)”

文本文档三:“Zoo,the Animal World(动物园,动物世界)”

由于多义词引发的语义混淆问题,关键字匹配技术会认为文本文档一和文本文档二间的相似性要高于文本文档一和文本文档三间的相似性,因为文本文档一和文本文档三均蕴含同一关键词Puma。在维基匹配技术中,利用关键词匹配技术,三个文本文档首先会被映射为维基参考空间中三个概念向量。由于文本文档一中存在Feline和Lion等关键词,因此与动物相关的维基概念将在文本文档一的概念向量中拥有较高的相应元素值。而这些维基概念在文本文档三的概念向量中也将同样拥有较高的元素值,但在文本文档二向量中却拥有较低的元素值,因为文本文档二不包含动物相关词。所以,基于概念向量进行文本文档相似性度量的维基语义匹配技术得出结论:相比于文本文档二,文本文档三与文本文档一拥有更高的相似性。可以看出,维基匹配技术利用维基语义知识来分析文本文档文本背后所蕴含的语义信息,较好地解决了关键字匹配技术所遇到的语义失配问题,从而提高了文本文档相似性度量的准确性,进而提高了文本文档分类性能。此外,许多研究成果也验证了维基语义匹配的有效性。

然而,由于维基百科包含非常多概念文章,数量在千万级别,因而在文本文档的概念向量映射时,需要进行大量的全文关键词匹配操作,极大地影响了维基语义匹配技术的执行性能,从而严重制约了它在在线文本文档分类应用环境中的实际效用。为了提高计算效率,一种直接的做法是从维基百科中挑选出一小部分概念组建一个小规模的维基参考空间,以减少全文关键词匹配操作的次数。例如,文献提出使用1000个覆盖各种主题的“特征概念”组建维基参考空间。然而,这种策略会极大地制约参考空间的知识语义覆盖范围,使得许多待分类文本文档难以在参考空间里找到相关参考概念,导致文本文档概念向量的元素值均为零,从而降低了文本文档相似度量的准确性。实际上,如果仅使用维基百科的部分知识概念,那么维基百科的许多优点尤其是拥有宽广的知识覆盖范围,也将不复存在。总而言之,维基语义匹配技术存在以下矛盾:一方面,若为了提高计算效率,而如果挑选较少的维基概念组建参考空间,则又难以保证语义知识覆盖范围,从而影响文本文档相似性度量的准确性;另一方面,若为了确保知识覆盖范围,以提高相似度量性能,而挑选较多的维基概念组建参考空间,则又将严重降低文本文档分类的执行效率。



技术实现要素:

为了克服维基语义匹配方法所面临的有效性和高效性之间的矛盾,本发明提供了一种基于维基语义匹配的文档分类方法及系统,其目的在于通过结合关键词和维基语义匹配,高效地计算文档之间的相似性从而对文档进行分类,由此解决现有文档分类技术效率低或者不准确的技术问题。

为实现上述目的,按照本发明的一个方面,提供了一种基于维基语义匹配的文档分类方法,其包括以下步骤:

(1)对于待分类的多个文本文档形成的文档集对于其中每一个文本文档利用关键词匹配获得所述文本文档的关键词集合,并利用匹配规则从预先设置的维基语义参考空间中匹配得到所述文本文档的相关的参考概念集合;

(2)根据步骤(1)中获得的所述文本文档的关键词集合生成其关键词向量,根据所述关键词向量以及步骤(1)中获得的所述文本文档的参考概念集合生成其概念向量;

(3)根据步骤(2)中获得的概念向量和关键词向量,计算所述待分类的多个文本文档集中任意两个文本文档之间的综合相似性;

(4)根据步骤(3)中任意两个文本文档之间的综合相似性,将综合相似性超过预设的综合相似性阈值的文本文档分作一类,从而对所述待分类的文本文档集进行分类。

优选地,所述基于维基语义匹配的文档分类方法,其所述维基语义参考空间按照如下方法构建:

从维基百科数据库中抽取出概念实体,记作:对于其中每一个概念实体,按照以下步骤处理,以构建维基语义参考空间。

A、单词分割:将其中所述概念表示成一个独立单词集合;

对于英文,由于一般以空格作为单词分隔符,因此可使用NLTK分词器完成单词分割,此外,忽略每个单词的大小写。

B、去停用词:将步骤A获得的每个概念对应的单词集合去除停用词,所述停用词为单独使用不携带实体信息,仅起到语法作用的词汇,例如介词、代词、和冠词等。为了避免停用词对维基语义判断的干扰,需要过滤掉停用词。可利用NLTK所列出的停用词表,对单词分割后的概念单词集进行停用词过滤,从而将每个概念表示成一个独立具有含义的单词集合。

C、词干化:将步骤B获得的每个概念对应的独立具有含义的单词集合中的每个单词转化为其词干,从而将每个概念表示为一个关键词集合,可记作:

词干化可以极大地集中语言信息,从而减少后续相关计算的规模。有许多成熟的算法可进行词干化操作,优选采用著名的Snowball框架。

D、映射:根据步骤C中获得的每个概念对应的关键词集合,将所述概念映射为一个关键词向量,记作:其中为所述维基概念各个关键词k的TF-IDF值,按照如下方法计算:

其中表示关键词k在维基概念中的出现次数;idf(k)表示概念集中包含关键词k的维基概念数,即:

优选地,所述基于维基语义匹配的文档分类方法,其步骤(1)包括子步骤(1-1)关键词匹配:所述对于每一个文本文档其关键词集合按照如下步骤构建:

(1-1-1)单词分割:将所述文本文档表示为一个独立的单词集合;

对于英文,由于一般以空格作为单词分隔符,可使用NLTK分词器完成,并且对于单个词忽略大小写。

(1-1-2)去停用词:对于步骤(1-1-1)获得的所述文本文档对应的单词集合去除停用词,将所述文本文档表示成一个独立具有含义的单词集合;

(1-1-3)词干化:将步骤(1-1-2)获得的所诉文本文档对应的独立具有含义的单词集合中的每个单词转化为其词干,从而将所述文本文档表示为一个关键词集合,记作:

优选地,所述基于维基语义匹配的文档分类方法,其步骤(1)包括子步骤:(1-2)参考概念匹配:对于每一个文本文档其参考概念按照如下步骤匹配:

将所述文本文档映射为超高维度的维基语义参考空间中的一个概念向量,所述向量中的每个元素对应一个参考概念使得所述元素的值表示文本文档与概念之间的内容相关度;优选地,所述元素的值利用全文关键词匹配进行度量。

优选地,所述基于维基语义匹配的文档分类方法,其步骤(2)所述关键词向量按照如下方法获取:

根据步骤(1)获得的所述文本文档对应的关键词集合,将所述文本文档映射为一个关键词向量,记作:其中为所述文本文档各个关键词k的TF-IDF值,按照如下方法计算:

其中表示关键词k在文档中的出现次数;idf(k)表示文档集中包含关键词k的文本文档数,即:

优选地,所述基于维基语义匹配的文档分类方法,其步骤(2)所述概念向量按照如下方法获取:

对于给定的文本文档基于所述维基语义参考空间将其映射为一个概念向量记作:其中表示文本文档与概念相关性。

所述文本文档与概念相关性按照如下方法计算:

其中,为所述文本文档各个关键词k的TF-IDF值,为维基概念各个关键词k的TF-IDF值。

优选地,所述基于维基语义匹配的文档分类方法,其步骤(3)所述对于两个文本文档和其综合相似性计算公式如下:

其中,α(0≤α≤1)为平衡权重参数:其值越大表示文档语义相似性的权重越大;反之,表示文档文本相似性的权重越大,为两个文本文档和的语义相似性,为两个文本文档和的文本相似性。

所述两个文本文档和的语义相似性,计算公式如下:

其中,和为两个文本文档和其分别在维基参考空间中的概念向量。

所述两个文本文档和的文本相似性,计算公式如下:

其中,和为两个文本文档和其分别的关键词向量。

按照本发明的另一个方面,提供了一种基于维基语义匹配的文档分类系统,包括:

第一模块,内置有所述维基语义参考空间,用于获取待分类文本文档形成的文本文档集并对于其中每一个文本文档利用关键词匹配获得所述文本文档的关键词集合,并利用匹配规则从所述维基语义参考空间中匹配得到所述文本文档的相关的参考概念集合;将所述每一个文本文档对应的关键词集合和参考概念集合提交给第二模块;

所述第二模块,用于根据文本文档对应的关键词集合生成其关键词向量,根据所述关键词向量以及所述文本文档的参考概念集合生成其概念向量,并将所述文本文档的关键词向量合参考概念向量提交给第三模块;

所述第三模块,用于根据文本文档的概念向量和关键词向量,计算所述待分类的多个文本文档集中任意两个文本文档之间的综合相似性,并提交给第四模块;

所述第四模块,用于根据任意两个文本文档之间的综合相似性,将相似性超过预设的综合相似性阈值的文本文档分作一类,从而对所述待分类的文本文档集进行分类。

优选地,所述基于维基语义匹配的文档分类系统,其所述第一模块包括关键词匹配子模块和参考概念匹配子模块;

所述关键词匹配子模块,用于对给定的文本文档获取其关键词集合,包括:

单词分割组件,用于将给定的文本文档表示为独立的单词集合,提交给去停用词组件;

所述去停用词组件,用于将给定的文本文档对应的单词集合去掉停用词,从而将所述文本文档表示成一个独立具有含义的单词集合;提交给词干化组件;

所述词干化组件,用于将给定的文本文档对应的独立具有含义的单词集合中的每个单词转化为其词干,从而将所述文本文档表示为一个关键词集合记作:

所述参考概念匹配子模块,用于对于给定的文本文档根据匹配规则,获取其参考概念集合。

优选地,所述基于维基语义匹配的文档分类系统,其所述第二模块包括关键词向量子模块,按照如下方法获取所述文本文档对应的关键词向量:

根据所述文本文档对应的关键词集合,将所述文本文档映射为一个关键词向量,记作:其中为所述文本文档各个关键词k的TF-IDF值,按照如下方法计算:

其中表示关键词k在文档中的出现次数;idf(k)表示文档集中包含关键词k的文本文档数,即:

所述第二模块还包括概念向量子模块,按照如下方法获取所述文本文档对应的概念向量

对于给定的文本文档基于所述维基语义参考空间将其映射为一个概念向量记作:其中表示文本文档与概念相关性;

所述文本文档与概念相关性按照如下方法计算:

其中,为所述文本文档各个关键词k的TF-IDF值,为维基概念各个关键词k的TF-IDF值。

总体而言,本发明综合关键词匹配技术和维基语义匹配技术,给出了一种有效的在线文本分类方法,它通过定义选择规则,从大规模维基参考空间里快速地挑选出与文档相关的参考概念,使得使用维基语义匹配技术为文档构造概念向量时,无需匹配参考空间里的所有概念,从而提高文档文类性能。相比于已有的技术,本发明具有以下优势。

一、方法定义的概念选择规则能有效地减少参与全文关键词匹配的参考概念数量,有效地改善文档概念向量的生成效率;

二、方法定义的概念选择规则能准确地为文档挑选出相关概念,有效地确保文档概念向量的生成质量;

三、本发明提出的文档分类方法能在不牺牲维基语义匹配准确性的前提下,有效地提高维基语义匹配的执行效率。因此,我们方法能很好地满足在线文本文档分类在高效性和准确性两个方面的需求。

附图说明

图1是本发明提供的基于维基语义匹配的文档分类方法流程示意图;

图2是本发明提供的基于维基语义匹配的文档分类系统结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供的基于维基语义匹配的文档分类方法,包括以下步骤:

(1)对于待分类的多个文本文档形成的文档集对于其中每一个文本文档利用关键词匹配获得所述文本文档的关键词集合,并利用匹配规则从预先设置的维基语义参考空间中匹配得到所述文本文档的相关的参考概念集合;

所述维基语义参考空间按照如下方法构建:

从维基百科数据库中抽取出概念实体,记作:对于其中每一个概念实体,按照以下步骤处理,以构建维基语义参考空间。

A、单词分割:将其中所述概念表示成一个独立单词集合;

对于英文,由于一般以空格作为单词分隔符,因此可使用NLTK分词器完成单词分割,此外,忽略每个单词的大小写。

B、去停用词:将步骤A获得的每个概念对应的单词集合去除停用词,所述停用词为单独使用不携带实体信息,仅起到语法作用的词汇,例如介词、代词、和冠词等。为了避免停用词对维基语义判断的干扰,需要过滤掉停用词。可利用NLTK所列出的停用词表,对单词分割后的概念单词集进行停用词过滤,从而将每个概念表示成一个独立具有含义的单词集合。

C、词干化:将步骤B获得的每个概念对应的独立具有含义的单词集合中的每个单词转化为其词干,从而将每个概念表示为一个关键词集合,可记作:

词干化可以极大地集中语言信息,从而减少后续相关计算的规模。有许多成熟的算法可进行词干化操作,优选采用著名的Snowball框架。

D、映射:根据步骤C中获得的每个概念对应的关键词集合,将所述概念映射为一个关键词向量,记作:其中为所述维基概念各个关键词k的TF-IDF值,按照如下方法计算:

其中表示关键词k在维基概念中的出现次数;idf(k)表示概念集中包含关键词k的维基概念数,即:

维基百科是世界最大的人类知识库之一,它由数量庞大的知识概念组成,其数量在百万级别近千万级别,并且还在快速增加中,这使得它拥有非常宽广的知识概念覆盖范围。每个维基概念由一篇文章进行描述,并且每个概念拥有若干个标题。维基百科由来自世界各地的自愿者编辑完成,使得它的知识概念能够及时得到有效更新。以上所述的针对维基参考概念的数据处理过程,均离线预先完成,因此,不会影响后续的在线文本文档分类效率。

(1-1)关键词匹配:对于每一个文本文档其关键词集合按照如下步骤构建:

(1-1-1)单词分割:将所述文本文档表示为一个独立的单词集合;

对于英文,由于一般以空格作为单词分隔符,可使用NLTK分词器完成,并且对于单个词忽略大小写。

(1-1-2)去停用词:对于步骤(1-1-1)获得的所述文本文档对应的单词集合去除停用词,将所述文本文档表示成一个独立具有含义的单词集合;

(1-1-3)词干化:将步骤(1-1-2)获得的所诉文本文档对应的独立具有含义的单词集合中的每个单词转化为其词干,从而将所述文本文档表示为一个关键词集合,记作:

(1-2)参考概念匹配:对于每一个文本文档其参考概念按照如下步骤匹配:

将所述文本文档映射为超高维度的维基语义参考空间中的一个概念向量,所述向量中的每个元素对应一个参考概念使得所述元素的值表示文本文档与概念之间的内容相关度;优选地,所述元素的值利用全文关键词匹配进行度量。

对于所述文本文档和所述参考概念符合以下匹配规则之一即认为匹配:

匹配规则1:所述文本文档与所述参考概念之间的完全标题相关性大于预设的完全标题相关性阈值θ1,即非负实数。

所述完全标题相关性Re,可通过维基概念的标题在文档中完整出现的频度进行计算,公式如下:

其中,表示概念标题在文档中完整出现的次数,表文档的大小(即包含的关键词数量),表示概念标题的大小。

按照所述规则,所述文本文档D对应的相关参考概念集合为:

匹配规则2:所述文本文档与所述参考概念之间的完全标题词相关性大于预设的完全标题词相关性阈值θ2,即非负实数。

所述完全标题词相关性Re(2),可通过概念各个标题的关键词在文档中的完整出现频度进行计算,公式如下:

其中,表示概念的标题包含的关键词k在文档中的出现次数。

按照所述规则,所述文本文档对应的相关参考概念集合为:

匹配规则3:所述文本文档与所述参考概念之间的任意标题词相关性大于预设的任意标题词相关性阈值θ3,即非负实数。

所述任意标题词相关性Re(3),可通过维基概念的标题关键词在文档中的部分出现频度进行,公式如下:

按照所述规则,所述文本文档对应的相关参考概念集合为:

利用规则1、规则2或规则3,得到文本文档的参考概念集合,记作

(2)根据步骤(1)中获得的所述文本文档的关键词集合生成其关键词向量,根据所述关键词向量以及步骤(1)中获得的所述文本文档的参考概念集合生成其概念向量;

所述关键词向量按照如下方法获取:

根据步骤(1)获得的所述文本文档对应的关键词集合,将所述文本文档映射为一个关键词向量,记作:其中为所述文本文档各个关键词k的TF-IDF值,按照如下方法计算:

其中表示关键词k在文档中的出现次数;idf(k)表示文档集中包含关键词k的文本文档数,即:

所述概念向量按照如下方法获取:

对于给定的文本文档基于所述维基语义参考空间将其映射为一个概念向量记作:其中表示文本文档与概念相关性。

所述文本文档与概念相关性按照如下方法计算:

其中,为所述文本文档各个关键词k的TF-IDF值,为维基概念各个关键词k的TF-IDF值。

可以看出,在文档概念相关性计算过程中,关键词空间的较高维度使得文档与概念间的关键词向量相关度计算操作(即全文关键词匹配操作)相对较为耗时。更重要的是,为了生成文档的概念向量,我们还需要为维基参考空间的所有概念上进行这样的全文关键词匹配操作。由于维基参考空间规模极为庞大(千万级别),这将导致极差的概念向量生成效率。为了改善性能,对于维基参考空间中不属于文档参考概念集合的其余概念即将被认为与文档较少相关或不相关,因此,它与文档的相关性统一设定为零。这使得我们只需要在参考概念集合上进行全文关键词匹配操作,从而极大地提高了文档概念向量的生成效率(因为远小于)。

(3)根据步骤(2)中获得的概念向量和关键词向量,计算所述待分类的多个文本文档集中任意两个文本文档之间的综合相似性。

对于两个文本文档和其综合相似性计算公式如下:

其中,α(0≤α≤1)为平衡权重参数:其值越大表示文档语义相似性的权重越大;反之,表示文档文本相似性的权重越大,为两个文本文档和的语义相似性,为两个文本文档和的文本相似性。

所述两个文本文档和的语义相似性,计算公式如下:

其中,和为两个文本文档和其分别在维基参考空间中的概念向量。

所述两个文本文档和的文本相似性,计算公式如下:

其中,和为两个文本文档和其分别的关键词向量。

(4)根据步骤(3)中任意两个文本文档之间的综合相似性,将综合相似性超过预设的综合相似性阈值的文本文档分作一类,从而对所述待分类的文本文档集进行分类。

本发明提供的基于维基语义匹配的文档分类系统,包括:

第一模块,用于获取待分类文本文档形成的文本文档集并对于其中每一个文本文档利用关键词匹配获得所述文本文档的关键词集合,并利用匹配规则从预先设置的维基语义参考空间中匹配得到所述文本文档的相关的参考概念集合;将所述每一个文本文档对应的关键词集合和参考概念集合提交给第二模块。

所述第一模块包括关键词匹配子模块和参考概念匹配子模块。

所述关键词匹配子模块,用于对给定的文本文档获取其关键词集合,包括:

单词分割组件,用于将给定的文本文档表示为独立的单词集合,提交给去停用词组件;

所述去停用词组件,用于将给定的文本文档对应的单词集合去掉停用词,从而将所述文本文档表示成一个独立具有含义的单词集合;提交给词干化组件;

所述词干化组件,用于将给定的文本文档对应的独立具有含义的单词集合中的每个单词转化为其词干,从而将所述文本文档表示为一个关键词集合记作:

所述参考概念匹配子模块,用于对于给定的文本文档根据匹配规则,获取其参考概念集合。

所述匹配规则为匹配规则1、匹配规则2、或匹配规则3,如前所述。

所述第二模块,用于根据文本文档对应的关键词集合生成其关键词向量,根据所述关键词向量以及所述文本文档的参考概念集合生成其概念向量,并将所述文本文档的关键词向量合参考概念向量提交给第三模块;

所述第二模块包括关键词向量子模块,按照如下方法获取所述文本文档对应的关键词向量:

根据所述文本文档对应的关键词集合,将所述文本文档映射为一个关键词向量,记作:其中为所述文本文档各个关键词k的TF-IDF值,按照如下方法计算:

其中表示关键词k在文档中的出现次数;idf(k)表示文档集中包含关键词k的文本文档数,即:

所述第二模块包括概念向量子模块,按照如下方法获取所述文本文档对应的概念向量

对于给定的文本文档基于所述维基语义参考空间将其映射为一个概念向量记作:其中表示文本文档与概念相关性。

所述文本文档与概念相关性按照如下方法计算:

其中,为所述文本文档各个关键词k的TF-IDF值,为维基概念各个关键词k的TF-IDF值。

所述第三模块,用于根据文本文档的概念向量和关键词向量,计算所述待分类的多个文本文档集中任意两个文本文档之间的综合相似性,并提交给第四模块。

对于两个文本文档和其综合相似性计算公式如下:

其中,α(0≤α≤1)为平衡权重参数:其值越大表示文档语义相似性的权重越大;反之,表示文档文本相似性的权重越大,为两个文本文档和的语义相似性,为两个文本文档和的文本相似性。

所述两个文本文档和的语义相似性,计算公式如下:

其中,和为两个文本文档和其分别在维基参考空间中的概念向量。

所述两个文本文档和的文本相似性,计算公式如下:

其中,和为两个文本文档和其分别的关键词向量。

所述第四模块,用于根据任意两个文本文档之间的综合相似性,将相似性超过预设的综合相似性阈值的文本文档分作一类,从而对所述待分类的文本文档集进行分类。

以下为实施例:

实施例1

一种基于维基语义匹配的文档分类方法,预先构建维基语义参考空间

从维基百科数据库中抽取100,000个概念实体,按照以下步骤将概念进行预处理:

A、单词分割:使用NLTK分词器(www.nltk.org),将每个概念表示成独立单词集合,并对每个单词进行小写化处理;

B、去停用词:将步骤A中每个概念对应的独立单词集合去除停用词,包括介词、代词、和冠词,从而将每个概念表示成一个独立具有含义的单词集合;

C、词干化:采用著名的Snowball框架(snowall.tartarus.org/texts/introduction.html)将步骤B获得的每个概念对应的独立具有含义的单词集合中的每个单词转化为其词干,从而将每个概念表示为一个关键词集合,可记作:

D、映射:根据步骤C中获得的每个概念对应的关键词集合,将所述概念映射为一个关键词向量,记作:其中为所述维基概念各个关键词k的TF-IDF值,按照如下方法计算:

其中表示关键词k在维基概念中的出现次数;idf(k)表示概念集中包含关键词k的维基概念数,即:

(1)对于每一篇文本文档利用关键词匹配获得所述文本文档的关键词集合,并利用匹配规则从预先设置的维基语义参考空间中匹配得到所述文本文档的相关的参考概念集合。具体操作如下:

(1-1)利用关键词匹配获得其关键词集合,具体步骤如下:

(1-1-1)单词分割:将所述文本文档表示为一个独立的单词集合;

对于英文,由于一般以空格作为单词分隔符,可使用NLTK分词器完成,并且对于单个词忽略大小写。

(1-1-2)去停用词:对于步骤(1-1-1)获得的所述文本文档对应的单词集合去除停用词,将所述文本文档表示成一个独立具有含义的单词集合;

(1-1-3)词干化:将步骤(1-1-2)获得的所诉文本文档对应的独立具有含义的单词集合中的每个单词转化为其词干,从而将所述文本文档表示为一个关键词集合,记作:

(1-2)参考概念匹配:对于所述文本文档构建关键词哈希索引,并将集合初始化为空集;

对于所述维基语义参考空间内的每一个概念,按照匹配规则进行,基于文档哈希索引,判断概念是否与文档相关;如果相关,则将加入

对于所述文本文档和所述参考概念符合以下匹配规则之一即认为匹配:

匹配规则1:所述文本文档与所述参考概念之间的完全标题相关性大于预设的完全标题相关性阈值θ1,即非负实数。

所述完全标题相关性Re,可通过维基概念的标题在文档中完整出现的频度进行计算,公式如下:

其中,表示概念标题在文档中完整出现的次数,表文档的大小(即包含的关键词数量),表示概念标题的大小。

按照所述规则,所述文本文档D对应的相关参考概念集合为:

匹配规则2:所述文本文档与所述参考概念之间的完全标题词相关性大于预设的完全标题词相关性阈值θ2,即非负实数。

所述完全标题词相关性Re(2),可通过概念各个标题的关键词在文档中的完整出现频度进行计算,公式如下:

其中,表示概念的标题包含的关键词k在文档中的出现次数。

按照所述规则,所述文本文档对应的相关参考概念集合为:

匹配规则3:所述文本文档与所述参考概念之间的任意标题词相关性大于预设的任意标题词相关性阈值θ3,即非负实数。

所述任意标题词相关性Re(3),可通过维基概念的标题关键词在文档中的部分出现频度进行,公式如下:

按照所述规则,所述文本文档对应的相关参考概念集合为:

利用规则1、规则2或规则3,得到文本文档的参考概念集合,记作

(2)根据步骤(1)中获得的所述文本文档的关键词集合生成其关键词向量,根据所述关键词向量以及步骤(1)中获得的所述文本文档的参考概念集合生成其概念向量;

所述关键词向量按照如下方法获取:

根据步骤(1)获得的所述文本文档对应的关键词集合,将所述文本文档映射为一个关键词向量,记作:其中为所述文本文档各个关键词k的TF-IDF值,按照如下方法计算:

其中表示关键词k在文档中的出现次数;idf(k)表示文档集中包含关键词k的文本文档数,即:

所述概念向量按照如下方法获取:

对于给定的文本文档基于所述维基语义参考空间将其映射为一个概念向量记作:其中表示文本文档与概念相关性。

所述文本文档与概念相关性按照如下方法计算:

其中,为所述文本文档各个关键词k的TF-IDF值,为维基概念各个关键词k的TF-IDF值。

(3)根据步骤(2)中获得的概念向量和关键词向量,计算所述待分类的多个文本文档集中任意两个文本文档之间的综合相似性。

对于两个文本文档和其综合相似性计算公式如下:

其中,α(0≤α≤1)为平衡权重参数:其值越大表示文档语义相似性的权重越大;反之,表示文档文本相似性的权重越大,为两个文本文档和的语义相似性,为两个文本文档和的文本相似性。

所述两个文本文档和的语义相似性,计算公式如下:

其中,和为两个文本文档和其分别在维基参考空间中的概念向量。

所述两个文本文档和的文本相似性,计算公式如下:

其中,和为两个文本文档和其分别的关键词向量。

(4)根据步骤(3)中任意两个文本文档之间的综合相似性,将综合相似性超过预设的综合相似性阈值的文本文档分作一类,从而对所述待分类的文本文档集进行分类。

实施例2

一种基于维基语义匹配的文档分类系统,包括:

第一模块,内置有所述维基语义参考空间,用于获取待分类文本文档形成的文本文档集并对于其中每一个文本文档利用关键词匹配获得所述文本文档的关键词集合,并利用匹配规则从所述维基语义参考空间中匹配得到所述文本文档的相关的参考概念集合;将所述每一个文本文档对应的关键词集合和参考概念集合提交给第二模块。

所述第一模块包括关键词匹配子模块和参考概念匹配子模块。

所述关键词匹配子模块,用于对给定的文本文档获取其关键词集合,包括:

单词分割组件,用于将给定的文本文档表示为独立的单词集合,提交给去停用词组件;

所述去停用词组件,用于将给定的文本文档对应的单词集合去掉停用词,从而将所述文本文档表示成一个独立具有含义的单词集合;提交给词干化组件;

所述词干化组件,用于将给定的文本文档对应的独立具有含义的单词集合中的每个单词转化为其词干,从而将所述文本文档表示为一个关键词集合记作:

所述参考概念匹配子模块,用于对于给定的文本文档根据匹配规则,获取其参考概念集合。

所述匹配规则为匹配规则1、匹配规则2、或匹配规则3,如实施例1所述。

所述第二模块,用于根据文本文档对应的关键词集合生成其关键词向量,根据所述关键词向量以及所述文本文档的参考概念集合生成其概念向量,并将所述文本文档的关键词向量合参考概念向量提交给第三模块;

所述第二模块包括关键词向量子模块,按照如下方法获取所述文本文档对应的关键词向量:

根据所述文本文档对应的关键词集合,将所述文本文档映射为一个关键词向量,记作:其中为所述文本文档各个关键词k的TF-IDF值,按照如下方法计算:

其中表示关键词k在文档中的出现次数;idf(k)表示文档集中包含关键词k的文本文档数,即:

所述第二模块包括概念向量子模块,按照如下方法获取所述文本文档对应的概念向量

对于给定的文本文档基于所述维基语义参考空间将其映射为一个概念向量记作:其中表示文本文档与概念相关性。

所述文本文档与概念相关性按照如下方法计算:

其中,为所述文本文档各个关键词k的TF-IDF值,为维基概念各个关键词k的TF-IDF值。

所述第三模块,用于根据文本文档的概念向量和关键词向量,计算所述待分类的多个文本文档集中任意两个文本文档之间的综合相似性,并提交给第四模块。

对于两个文本文档和其综合相似性计算公式如下:

其中,α(0≤α≤1)为平衡权重参数:其值越大表示文档语义相似性的权重越大;反之,表示文档文本相似性的权重越大,为两个文本文档和的语义相似性,为两个文本文档和的文本相似性。

所述两个文本文档和的语义相似性,计算公式如下:

其中,和为两个文本文档和其分别在维基参考空间中的概念向量。

所述两个文本文档和的文本相似性,计算公式如下:

其中,和为两个文本文档和其分别的关键词向量。

所述第四模块,用于根据任意两个文本文档之间的综合相似性,将相似性超过预设的综合相似性阈值的文本文档分作一类,从而对所述待分类的文本文档集进行分类。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1