词库的生成以及利用词库的文档分类方法及装置与流程

文档序号:11627703阅读:145来源:国知局
词库的生成以及利用词库的文档分类方法及装置与流程
本申请涉及计算机
技术领域
,尤其涉及词库的生成以及利用词库的文档分类方法及装置。
背景技术
:随着互联网技术的持续发展,出现了越来越多的网络交互平台,这些网络交互平台为人们的日常生活提供了极大的便利。例如,网络电商平台的出现使用户可以在网上方便地购买商品;网络游戏平台的出现使用户可以通过网络进行电子游戏;网络教育平台使得用户可以通过网络方便地学习。然而,大量网络交互平台的出现,在给人们的生活带来便利的同时,也为同类网络交互平台之间的资源整合增加了难度。例如,对于两个网络电商平台a和b,如果需要将b平台的商品整合到a平台,由于a平台和b平台上对于商品分类的标准通常不同,甚至分类类目也可能不同,这时候通常难以将b平台的商品整合到a平台。因此,在同类网络交互平台之间进行资源整合时,由于分类标准甚至分类类目的不同,通常难以进行资源整合。因此,同类网络交互平台之间如何进行资源整合是目前业界亟待解决的问题。技术实现要素:本申请实施例提供词库的生成以及利用词库的文档分类方法及装置,用于解决现有技术中,同类网络交互平台之间进行资源整合时,由于分类标准甚至分类类目的不同,通常难以进行资源整合的问题。本申请实施例提供一种词库的生成方法,所述词库用于将目标网络交互平台中的文档分类到指定网络交互平台,该方法包括:获取指定网络交互平台中指定等级的各分类类目下的各文档的标题信息;通过各所述文档的标题信息,确定各所述分类类目分别对应的各关键词以及各所述关键词在对应分类类目下的权重分,所述权重分用于评估在将关键词所在分类类目与所述分类类目之外的其它分类类目进行区分时的区分度,所述关键词指所述关键词对应的分类类目下根据预定规则的指定词;根据各所述分类类目、各所述分类类目分别对应的各所述关键词以及各所述关键词的所述权重分生成词库。优选的,关键词在对应分类类目下的权重分通过如下方法确定:确定所述关键词在对应的分类类目中的词频;通过各所述分类类目下的各文档的标题中包含所述关键词的文档数以及各所述分类类目下文档的总数,确定所述关键词的反文档频率;通过所述关键词在对应的分类类目中的词频以及所述关键词的所述反文档频率确定所述关键词在对应分类类目下的权重分。优选的,所述通过各所述文档的标题信息,确定各所述分类类目分别对应的各关键词具体包括:对各所述文档的标题进行归一化处理;对归一化处理后的各所述文档的标题进行切词处理以及实体词识别,得到用于描述实体事物的实体词;确定各所述分类类目分别对应的各实体词的词频,实体词的词频用于描述所述实体词在对应的所述分类类目中出现的次数或频率;将各所述实体词分别作为当前实体词,判断所述当前实体词的词频是否大于预设阈值,若是,则将所述当前实体词确定为对应的分类类目的关键词。优选的,所述方法还包括,当当前分类类目对应的各实体词的词频均小于预设阈值时,将所述当前分类类目中词频最大的实体词确定为所述当前分类类目中的关键词,所述当前分类类目包括各所述分类类目中的任意一个分类类目。优选的,所述根据各所述分类类目、各所述分类类目分别对应的各所述关 键词以及各所述关键词的所述权重分生成词库具体包括:将各所述关键词分别作为当前关键词,根据所述当前关键词、所述当前关键词对应的分类类目以及所述当前关键词在对应分类类目下的权重分生成关联组;根据各所述关联组生成词库。优选的,所述指定等级的各分类类目具体包括各一级类目和/或叶子类目。本申请实施例还提供一种文档分类方法,该方法包括:获取目标网络交互平台中指定文档的标题信息并确定所述指定文档的标题对应的各实体词,所述实体词用于描述实体事物;通过查询词库,确定各所述实体词在所述词库中的各分类类目下的权重分,所述词库为根据上述任意一项所述词库的生成方法生成的词库;通过各所述实体词在各所述分类类目下的权重分,确定所述指定文档在各所述分类类目下各自的总得分;通过所述指定文档在各所述分类类目下各自的总得分对所述指定文档进行分类。优选的,所述通过所述指定文档在各所述分类类目下各自的总得分对所述指定文档进行分类具体包括:将各所述分类类目按照所述指定文档的所述总得分从高到低的顺序生成队列,从所述队列的起始位置按照队列中的顺序选取预定数量的分类类目,所述预定数量的分类类目至少包括两个分类类目;获取所述指定文档在目标网络交互平台中的初始类目;分别确定所选取的预定数量的各所述分类类目与所述初始类目的第一相似度,所述第一相似度用于描述所述初始类目与各所述分类类目的相似程度;分别确定所选取的预定数量的各所述分类类目与所述指定文档的标题的第二相似度,所述第二相似度用于描述所述指定文档的标题与各所述分类类目的相似程度;将所选取的预定数量的各所述分类类目分别作为预选分类类目,将所述预选分类类目所对应的所述总得分、所述第一相似度以及所述第二相似度进行加权求和,根据加权求和的结果对所述指定文档进行分类。优选的,所述通过所述指定文档在各所述分类类目下各自的总得分对所述指定文档进行分类具体包括:通过所述指定文档在各所述分类类目下各自的总得分,确定所述指定文档的最大总得分所对应的最大总得分分类类目并将所述指定文档分类到所述最大总得分分类类目。优选的,所述通过各所述实体词在各所述分类类目下的权重分,确定所述指定文档在各所述分类类目下各自的总得分具体包括:将各所述分类类目分别作为当前分类类目,通过将各所述实体词在所述当前分类类目下的权重分进行求和,确定所述指定文档在所述当前分类类目下的总得分。优选的,所述确定所述指定文档的标题对应的各实体词具体包括:对所述指定文档的标题进行归一化处理;对归一化处理后的所述指定文档的标题进行切词处理以及实体词识别,确定所述指定文档的标题对应的各实体词。本申请实施例还提供一种词库的生成装置,所述词库用于将目标网络交互平台中的文档分类到指定网络交互平台,该装置包括:获取单元、确定单元和生成单元,其中:获取单元,用于获取指定网络交互平台中指定等级的各分类类目下的各文档的标题信息;确定单元,用于通过各所述文档的标题信息,确定各所述分类类目分别对应的各关键词以及各所述关键词在对应分类类目下的权重分,所述权重分用于评估在将关键词所在分类类目与所述分类类目之外的其它分类类目进行区分时的区分度,所述关键词指所述关键词对应的分类类目下根据预定规则的指定 词;生成单元,用于根据各所述分类类目、各所述分类类目分别对应的各所述关键词以及各所述关键词的所述权重分生成词库。本申请实施例还提供一种文档分类装置,该装置包括:获取单元、查询单元、确定单元和分类单元,其中:获取单元,用于获取目标网络交互平台中指定文档的标题信息并确定所述指定文档的标题对应的各实体词,所述实体词用于描述实体事物;查询单元,用于通过查询词库,确定各所述实体词在所述词库中的各分类类目下的权重分,所述词库为根据上述一种词库的生成装置生成的词库;确定单元,用于通过各所述实体词在各所述分类类目下的权重分,确定所述指定文档在各所述分类类目下各自的总得分;分类单元,用于通过所述指定文档在各所述分类类目下各自的总得分对所述指定文档进行分类一种装置,包括:。本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:通过获取指定文档的标题信息并通过标题信息确定实体词,然后通过查询词库确定实体词在各个分类类目下对应的权重分,通过权重分确定该指定文档在各个分类类目下的总得分,通过总得分对指定文档进行分类。从而解决了现有由于分类标准的不同,在同类网络交互平台之间难以进行资源整合的问题。附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例1提供的一种词库的生成方法的具体实现流程示意图;图2为本申请实施例1提供的一种词库的生成方法在实际应用场景中的具体实现流程示意图;图3为本申请实施例2提供的一种文档分类方法的具体实现流程示意图;图4为本申请实施例2提供的一种文档分类方法中通过总得分对指定文档进行分类的具体实现流程示意图;图5为本申请实施例3提供的一种词库的生成装置的具体结构示意图;图6为本申请实施例4提供的一种文档分类装置的具体结构示意图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。以下结合附图,详细说明本申请各实施例提供的技术方案。实施例1实施例1提供了一种词库的生成方法,该方法生成的词库用于将目标网络交互平台中的文档分类到指定网络交互平台,从而为同类网络交互平台间的资源整合奠定了基础。该方法的具体流程示意图如图1所示,包括下述步骤:步骤s11:获取指定网络交互平台中指定等级的各分类类目下的各文档的标题信息。这里所说的指定网络交互平台是相对与目标网络交互平台而言,目标网络交互平台是指资源被整合的平台,指定网络交互平台是指接收整合资源的平台。例如,在将甲网络游戏平台的资源整合到乙网络游戏平台时,甲网络游戏平台为目标网络交互平台,同时乙网络游戏平台为指定网络交互平台。另外,对于指定网络交互平台和目标网络交互平台的类型在这里并不做限定,也就是说它们可以是网络电商平台、网络游戏平台等。在网络交互平台中,为了方便用户寻找需要的资源,通常需要将资源按照一定的标准分成多个分类类目,这些分类类目还可以包括多个不同的等级。例如,网络电商平台中,一级分类类目包括图书音像、电子电器和家居建材等;其中一级分类类目的图书音像,又包括二级分类类目儿童书籍、乐器等。指定等级的分类类目可以是一级类目,也可以是二级类目,也可以是叶子类目,也可以是指定的其它等级的分类类目。在实际应用中该指定等级的分类类目的优选的方案可以是一级类目和/或叶子类目,其中叶子类目是指在指定网络交互平台中分类类目最末端的子分类类目,也就是说,在该指定网络交互平台中没有将该叶子类目继续向下细分。网络交互平台中,各种资源在服务器端通常以文档的形式体现。例如,在网络电商平台上,对于各个商品在服务端通常都各自对应一个文档,一个商品对应的文档包含有文档标题,对该商品分类的类目的描述信息,以及该文档在网络上的地址。可以通过本步骤来获取指定网络交互平台中,指定等级的各个分类类目下的各文档的标题信息。步骤s12:通过各所述文档的标题信息,确定各所述分类类目分别对应的各关键词以及各所述关键词在对应分类类目下的权重分。在这里,所述权重分用于评估在将关键词所在分类类目与所述分类类目之外的其它分类类目进行区分时的区分度,所述关键词指所述关键词对应的分类类目下根据预定规则的指定词。本步骤可以通过各所述文档的标题信息,通过对这些文档的标题进行处理,确定各分类类目分别对应的关键词以及这些关键词在对应分类类目下的权重分。在实际应用中对文档的标题进行处理,确定各分类类目分别对应的关键词的方法可以包括多种,一种优选的方案如步骤121所示。步骤121:对各所述文档的标题进行归一化处理;对归一化处理后的各所述文档的标题进行切词处理以及实体词识别,得到用于描述实体事物的实体词; 确定各所述分类类目分别对应的各实体词的词频,实体词的词频用于描述所述实体词在对应的所述分类类目中出现的次数或频率;将各所述实体词分别作为当前实体词,判断所述当前实体词的词频是否大于预设阈值,若是,则将所述当前实体词确定为对应的分类类目的关键词。归一化处理在实际应用中可以包括字母大先写转换、繁体和简体转换以及时态转换等。对文档的标题进行切词处理通常可以采用切词工具,常用的切词工具有word2vec。实体词识别通常可以通过实体词库来完成,实体词是指描述实体事物的词,例如商品名称、商标、书名、游戏名称等。在实体词识别后,分别统计各个分类类目下各个实体词的词频;然后通过比较这些实体词的词频与预设阈值的大小,选择出词频大于预设阈值实体词作为该实体词对应的分类类目下的关键词。例如,在电子电器分类类目下的3个实体词分别为“电脑”、“手机”和“充电器”,其中“电脑”的词频为300,“手机”的词频为350,“充电器”的词频为100,预设阈值可以根据实际需要来设定,若预设阈值设为200,则“电脑”和“手机”将会被确定为该电子电器分类类目下关键词。在步骤121中需要注意的是,为了避免在某些分类类目下,词频最高实体词的词频也小于预设阈值,从而使得该分类类目被排除。因此当出现某些分类类目中,词频最高实体词的词频也小于预设阈值的情况时,可以通过适当降低预设阈值的方式来了解决。当然,在实际应用中出现这种情况时,一种优选的方案是,当当前分类类目对应的各实体词的词频均小于预设阈值时,将所述当前分类类目中词频最大的实体词确定为所述当前分类类目中的关键词,所述当前分类类目包括各所述分类类目中的任意一个分类类目。例如,乐器分类类目下词频最高的实体词为“吉他”,在该分类类目下“吉他”的词频为86,若预设阈值为100,为了防止乐器分类类目被排除,可以将“吉他”确定为乐器分类类目下的关键词。其实,在步骤121中需要说明的是,也可以先对各所述文档的标题进行切词处理,然后对切词后的结果进行归一化处理和实体词识别,从而得到用于描 述实体事物的实体词。在步骤12中还可以确定各个关键词在对应分类类目下的权重分,可以直接将各个关键词在对应分类类目下的词频作为权重分,也可以通过其他方式确定权重分。在实际应用中,一种确定关键词在对应分类类目下权重分的优选方案如步骤122所示。步骤122:确定所述关键词在对应的分类类目中的词频;通过各所述分类类目下的各文档的标题中包含所述关键词的文档数以及各所述分类类目下文档的总数,确定所述关键词的反文档频率;通过所述关键词在对应的分类类目中的词频以及所述关键词的所述反文档频率确定所述关键词在对应分类类目下的权重分。在步骤122中,为了确定某个关键词在对应的分类类目下的权重分,先确定该关键词在对应的分类类目下的词频(termfrequency,tf);然后确定在各个分类类目下的各文档的标题中包含该关键词的文档数n以及各个分类类目下的文档的总数n,并通过n和n来确定该关键词的反文档频率(inversedocumentfrequency,idf);最后通过该关键词在对应分类类目下的词频以及该关键词的反文档频率确定该关键词在对应分类类目下的权重分。在实际应用中,该关键词的反文档频率可以通过下述公式确定:idf=log(n/n)其中,n为各个分类类目下的文档的总数,n为各个分类类目下的各文档的标题中包含该关键词的文档数。log(n/n)是指对n/n的值取对数,该对数的底可以根据实际需要来设定,在实际应用中log(n/n)通常可以为自然对数ln(n/n)。在实际应用中,关键词在对应分类类目下的权重分可以通过,将该关键词在对应分类类目下的词频与该关键词的反文档频率相乘得到。步骤s13:根据各所述分类类目、各所述分类类目分别对应的各所述关键词以及各所述关键词的所述权重分生成词库。根据各个分类类目、各个分类类目下分别对应的各个关键词以及各个关键的在对应分类类目下的权重分生成词库。在该词库中可以包括关键词、分类类目以及权重分三个属性项。一种生成词库的优选方案是,将各所述关键词分别作为当前关键词,根据所述当前关键词、所述当前关键词对应的所述分类类目以及所述当前关键词在对应分类类目下的权重分生成关联组;根据各所述关联组生成词库。采用实施例1提供的该词库生成方法,获取指定网络交互平台中指定等级的各分类类目下的各文档的标题信息,通过各文档的标题信息,确定各分类类目分别对应的各关键词以及各关键词在对应分类类目下的权重分,然后根据各分类类目、各分类类目分别对应的各关键词以及各关键词的所述权重分生成词库。该方法通过指定网络交互平台中各分类类目下的各文档生成的词库,用于将目标网络交互平台中的文档分类到指定网络交互平台,从而为同类网络交互平台间的资源整合奠定了基础。为了便于理解,本申请实施例还提供了在一种实际应用场景下,实施所述词库生成方法的示意图,如图2所示。在该应用场景下,指定网络交互平台为网络电商平台a,目标网络交互平台为网络电商平台b,指定等级的分类类目为叶子类目。所述方法具体可以包括以下步骤:步骤s21:获取网络电商平台a中各叶子类目下的各文档的标题信息。步骤s22:对各所述文档的标题进行归一化处理。步骤s23:对归一化处理后的各所述文档的标题进行切词处理以及实体词识别,得到用于描述实体事物的实体词。步骤s24:确定各所述叶子类目分别对应的各实体词的词频。步骤s25:将各所述实体词分别作为当前实体词,判断所述当前实体词的词频是否大于预设阈值,若是,则执行步骤s26。步骤s26:将所述当前实体词确定为对应的叶子类目的关键词。步骤s27:通过各所述叶子类目下的各文档的标题中包含所述关键词的文 档数以及各所述叶子类目下文档的总数,确定所述关键词的反文档频率。步骤s28:通过所述关键词在对应的叶子类目中的词频以及所述关键词的所述反文档频率确定所述关键词在对应叶子类目下的权重分。步骤s29:根据各所述叶子类目、各所述叶子类目分别对应的各所述关键词以及各所述关键词的所述权重分生成词库。在实际应用中,一种根据该方法生成的词库如表1所示。表1.实际应用中的一种词库。关键词叶子类目权重分笔记本电脑7苹果手机4笔记本文具5需要说明的是,实施例1所提供方法的各步骤的执行主体均可以是同一设备,或者,该方法的各步骤也可以由不同设备作为执行主体。比如,步骤11和步骤12的执行主体可以为设备1;又比如,步骤11的执行主体可以为设备1,步骤12和的执行主体可以为设备2;等等。实施例2实施例2提供了一种文档分类方法,该方法利用实施例1生成的词库,将目标网络交互平台中的文档分类到指定网络交互平台,从而解决了现有由于分类标准的不同,在同类网络交互平台之间难以进行资源整合的问题。该方法的具体流程示意图如图3所示,包括下述步骤:步骤s31:获取目标网络交互平台中指定文档的标题信息并确定所述指定文档的标题对应的各实体词,所述实体词用于描述实体事物。这里所说的目标网络交互平台是指资源被整合的平台。例如,在将甲网络游戏平台的资源整合到乙网络游戏平台时,甲网络游戏平台为目标网络交互平 台。另外,对于目标网络交互平台的类型在这里并不做限定,也就是说它们可以是网络电商平台、网络游戏平台等。网络交互平台中,各种资源在服务器端通常以文档的形式体现。例如,在网络电商平台上,对于各个商品在服务端通常都各自对应一个文档,一个商品对应的文档包含有文档标题,对该商品分类的类目的描述信息,以及该文档在网络上的地址。指定文档是指在目标网络交互平台中,需要被整合到指定网络交互平台中的资源对应的文档。通过指定文档的标题信息,确定该指定文档的标题对应的各个实体词,所述实体词用于描述实体事物,例如商品名称、商标、书名、游戏名称等。在实际应用中,通过指定文档的标题,确定该指定文档的标题对应的各个实体词的方法有很多,一种优选的方案如步骤s311所示。步骤s311:对所述指定文档的标题进行归一化处理;对归一化处理后的所述指定文档的标题进行切词处理以及实体词识别,确定所述指定文档的标题对应的各实体词。归一化处理在实际应用中可以包括字母大先写转换、繁体和简体转换以及时态转换等。对指定文档的标题进行切词处理通常可以采用切词工具,常用的切词工具有word2vec。实体词识别通常可以通过实体词库来完成。在实体词识别后,分别统计各个分类类目下各个实体词的词频;然后通过比较这些实体词的词频与预设阈值的大小,选择出词频大于预设阈值实体词作为该实体词对应的分类类目下的关键词。通过该步骤s131确定出的实体词,由于进行归一化以及实体词识别,因此更加准确和规范化。步骤s32:通过查询词库,确定各所述实体词在所述词库中的各分类类目下的权重分。所述词库为根据实施例1所提供的词库生成方法生成的词库。该词库中通常包括关键词、分类类目以及权重分三个属性项,其中,权重分用于评估在将 关键词所在分类类目与该分类类目之外的其它分类类目进行区分时的区分度,关键词指关键词对应的分类类目下根据预定规则的指定词。通过查询该词库,确定各个实体词在该词库的各个分类类目下分别对应的权重分。在实际应用中,通常会出现在某些分类类目下没有所要查找的实体词的情况,这时候可以将该实体词在这些分类类目下的权重分设为预定常数,通常该预定常数可以为0。例如,实体词为“大米”,在词库的分类类目“电脑”下面没有出现该实体词,因此可以将“大米”在该分类类目下的权重分设置为预设常数。步骤s33:通过各所述实体词在各所述分类类目下的权重分,确定所述指定文档在各所述分类类目下各自的总得分。本步骤用于确定该指定文档在词库的各个分类类目下各自的总得分,以该指定文档在词库的其中一个分类类目下的总得分为例说明总得分的确定过程,在这里称该分类类目为当前分类类目。通常可以通过该指定文档标题中各个实体词分别在当前分类类目中的权重分,确定该指定文档在当前分类类目下的总得分。在实际应用中,通过该指定文档标题中各个实体词分别在当前分类类目中的权重分,确定该指定文档在当前分类类目下的总得分的方式有多种。例如,可以将各个实体词的权重分进行加权求和,确定该指定文档在当前分类类目下的总得分,其中实体词的权值可以根据该实体词自身类型确定,实体词自身类型有名称、地名、品牌词等;也可以将各所述分类类目分别作为当前分类类目,通过将各所述实体词在所述当前分类类目下的权重分进行求和,确定所述指定文档在所述当前分类类目下的总得分。步骤s34:通过所述指定文档在各所述分类类目下各自的总得分对所述指定文档进行分类。在确定该指定文档在各个分类类目下各自的总得分后,通过在各个分类类目下各自的总得分对指定文档进行分类。这种通过在各个分类类目下各自的总得分对指定文档进行分类的方式有多种。例如,可以按照总得分的大小顺序进行排列,将该指定文档分类到总得分最大的分类类目下,也即通过所述指定文档在各所述分类类目下各自的总得分,确定所述指定文档的最大总得分所对应的最大总得分分类类目并将所述指定文档分类到所述最大总得分分类类目。进一步的,在实际应用中通常会碰到各种各样的问题,因此在通过总得分进行分类时可能会导致分类不够准确。例如,文档标题为“苹果iphone4s数据线”,该文档标题拆分后的实体词包括“苹果”、“iphone4s”和“数据线”,由于“苹果”和“iphone4s”这两个实体词在分类类目“手机”下的权重分较高,通常会导致将该文档分类到“手机这个”分类类目下。因此,如图4,一种通过在各个分类类目下各自的总得分,对指定文档进行分类的优选方案如步骤s341至步骤s345所示。步骤s341:将各所述分类类目按照所述指定文档的所述总得分从高到低的顺序生成队列,从所述队列的起始位置按照队列中的顺序选取预定数量的分类类目。所述预定数量的分类类目至少包括两个分类类目,在实际应用中通常可以根据需要选取多个分类类目,例如依次选取总得分最高的100个分类类目。步骤s342:获取所述指定文档在目标网络交互平台中的初始类目。由于目标网络交互平台中该指定文档所属的初始类目中,通常也会包含对该指定文档分类有用的信息,因此可以获取该指定文档在目标网络交互平台中的初始类目的信息。另外,网络交互平台中各个文档分类一般有多个等级,导致该指定文档的初始类目可能由多个,一种选取该初始类目的优选方案是,所选取的所述初始类目与所述分类类目分类等级相同。例如,当所述分类类目为一级类目时,选取的初始类目也为一级类目;当所述分类类目为叶子类目时,所选取的初始类目也为叶子类目。步骤s343:分别确定所选取的预定数量的各所述分类类目与所述初始类目的第一相似度,所述第一相似度用于描述所述初始类目与各所述分类类目的相似程度。确定分类类目与初始类目的第一相似度的方式有多种,例如可以通过字的匹配的方式确定它们的第一相似度,也可以通过其他方式确定他们的相似度。一种优选的方案是,分别确定所选取的预定数量的各所述分类类目与所述初始类目的jacard似度。将分类类目中的各个字作为集合a,将初始类目中的各个字作为集合b,对集合a和b,jaccard相似度计算如下:jaccard(a,b)=|aintersectb|/|aunionb|其中|aintersectb|表示a和b的交集的字数,|aunionb|表示a和b的并集的字数。通常,jaccard(a,b)数值在[0,1]之间,当a==b也即a和b完全相同的时候,jaccard(a,b)=1。步骤s344:分别确定所选取的预定数量的各所述分类类目与所述指定文档的标题的第二相似度,所述第二相似度用于描述所述指定文档的标题与各所述分类类目的相似程度。确定分类类目与指定文档的标题的第二相似度的方式,可以与确定第一相似度的方式相同,也可以和确定第一相似度的方式不同。实际应用中,确定分类类目与指定文档的标题的第二相似度的优选方式是,确定分类类目与指定文档的标题的jacard相似度。步骤s345:将所选取的预定数量的各所述分类类目分别作为预选分类类目,将所述预选分类类目所对应的所述总得分、所述第一相似度以及所述第二相似度进行加权求和,根据加权求和的结果对所述指定文档进行分类。通过各个将所选取的预定数量的各所述分类类目分别作为预选分类类目,通过将该预选分类类目的总得分、第一相似度以及第二相似度进行加权求和,通过该加权求和的结果对指定文档进行分类。其中,对于预选分类类目的总得 分、第一相似度以及第二相似度各自的对应的权值可已根据实际情况确定,通常情况下,也可以将它们各自对应的权值均设置为1。在实际应用中,通常为了检验分类结果的准确定,还可以将对分类结果进行抽样检验,例如按照一级分类类目抽样验证预测命中率。采用实施例2提供的一种文档分类方法,该方法利用实施例1生成的词库,将目标网络交互平台中的文档分类到指定网络交互平台,从而解决了现有由于分类标准的不同,在同类网络交互平台之间难以进行资源整合的问题实施例3基于与实施例1相同的发明构思,实施例3提供了一种词库的生成装置,该装置生成的词库用于将目标网络交互平台中的文档分类到指定网络交互平台,从而为同类网络交互平台间的资源整合奠定了基础。如图5所示,该装置40包括:获取单元401、确定单元402和生成单元403,其中:获取单元401,用于获取指定网络交互平台中指定等级的各分类类目下的各文档的标题信息;确定单元403,用于通过各所述文档的标题信息,确定各所述分类类目分别对应的各关键词以及各所述关键词在对应分类类目下的权重分,所述权重分用于评估在将关键词所在分类类目与所述分类类目之外的其它分类类目进行区分时的区分度,所述关键词指所述关键词对应的分类类目下根据预定规则的指定词;生成单元403,用于根据各所述分类类目、各所述分类类目分别对应的各所述关键词以及各所述关键词的所述权重分生成词库。采用实施例3提供的该词库生成装置,获取单元获取指定网络交互平台中指定等级的各分类类目下的各文档的标题信息,确定单元通过各文档的标题信息,确定各分类类目分别对应的各关键词以及各关键词在对应分类类目下的权 重分,生成单元根据各分类类目、各分类类目分别对应的各关键词以及各关键词的所述权重分生成词库。该方法通过指定网络交互平台中各分类类目下的各文档生成的词库,用于将目标网络交互平台中的文档分类到指定网络交互平台,从而为同类网络交互平台间的资源整合奠定了基础。实施例4基于与实施例2相同的发明构思,实施例4提供了一种文档分类装置,该装置利用实施例3生成的词库,将目标网络交互平台中的文档分类到指定网络交互平台,从而解决了现有由于分类标准的不同,在同类网络交互平台之间难以进行资源整合的问题。如图6所示,该装置50包括:获取单元501、查询单元502、确定单元503和分类单元504,其中:获取单元501,用于获取目标网络交互平台中指定文档的标题信息并确定所述指定文档的标题对应的各实体词,所述实体词用于描述实体事物;查询单元502,用于通过查询词库,确定各所述实体词在所述词库中的各分类类目下的权重分,所述词库为根据权利要求12所述词库生成装置生成的词库;确定单元503,用于通过各所述实体词在各所述分类类目下的权重分,确定所述指定文档在各所述分类类目下各自的总得分;分类单元504,用于通过所述指定文档在各所述分类类目下各自的总得分对所述指定文档进行分类采用实施例4提供的一种文档分类装置,通过获取单元获取指定文档的标题信息并通过标题信息确定实体词,然后查询单元通过查询实施例3生成的词库确定实体词在各个分类类目下对应的权重分,确定单元通过权重分确定该指定文档在各个分类类目下的总得分,分类单元通过总得分进行分类。从而解决了现有由于分类标准的不同,在同类网络交互平台之间难以进行资源整合的问题。本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1