基于关键词的文本的标签提取方法及装置的制作方法

文档序号:6402577阅读:298来源:国知局
专利名称:基于关键词的文本的标签提取方法及装置的制作方法
基于关键词的文本的标签提取方法及装置
技术领域
本发明涉及标签提取技术,尤其涉及一种基于关键词的文本的标签提取方法及装置。
背景技术
在基于文本的应用中,有时候需要从文本中提炼出能够描述文本内容的词语,将其作为文本的标签(tag),还可以称其为标注。现有技术中,将从文本中提取的关键词,直接作为该文本的标签。然而,在一些情况下,例如,关键词提取错误,或者,再例如,个别关键词只是位于文本内容的语义边缘位置,等,将从文本中提取的关键词,直接作为该文本的标签,会出现所提取的标签不能准确地描述文本,从而导致了标签提取的可靠性的降低。

发明内容本发明的多个方面提供一种基于关键词的文本的标签提取方法及装置,用以提高标签提取的可靠性。本发明的一方面,提供一种基于关键词的文本的标签提取方法,包括:确定待提取的文本;根据所述文本,提取所述文本的至少两个关键词;根据所述至少两个关键词中每个所述关键词的相关信息,获得每个所述关键词与所述文本的相关度和/或每个所述关键词与所述文本的紧密度;根据所述相关度和/或所述紧密度,从所述至少两个关键词中选择部分关键词或全部关键词,以作为所述文本的标签。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述至少两个关键词中每个所述关键词的相关信息,获得每个所述关键词与所述文本的相关度,包括:根据所述关键词在所述文本中的位置、所述关键词在所述文本中的重复次数、所述关键词在所述文本中的独立表意能力、所述关键词在所述文本中的词性和所述关键词在所述文本中的层次中的至少一项信息,获得所述关键词的权重;根据所述关键词的权重,获得所述关键词与所述文本的相关度。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述至少两个关键词中每个所述关键词的相关信息,获得每个所述关键词与所述文本的紧密度,包括:根据所述至少两个关键词中每个所述关键词的相关信息,构造每个所述关键词的
第一支持向量和第二支持向量;根据 所述第一支持向量和所述第二支持向量,获得每个所述关键词与所述文本的紧密度。
如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述至少两个关键词中每个所述关键词的相关信息,构造每个所述关键词的第一支持向量和第二支持向量,包括:根据所述关键词在所述文本中的位置、所述关键词在所述文本中的重复次数、所述关键词在所述文本中的独立表意能力、所述关键词在所述文本中的词性和所述关键词在所述文本中的层次中的至少一项信息,获得所述关键词的权重,以及根据所述关键词和所述关键词的权重,构造所述第一支持向量;获得与所述关键词关联的关联词,根据所述关联词在对应文本中的位置、所述关联词在对应文本中的重复次数、所述关联词在对应文本中的独立表意能力、所述关联词在对应文本中的词性和所述关联词在对应文本中的层次中的至少一项信息,获得所述关联词的权重,以及根据所述关联词和所述关联词的权重,构造所述第二支持向量。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述根据所述第一支持向量和所述第二支持向量,获得每个所述关键词与所述文本的紧密度,包括:根据所述第一支持向量和所述第二支持向量,构造所述关键词的第三支持向量;根据所述第二支持向量和所述第三支持向量,获得所述第二支持向量与所述第三支持向量之间的向量距离;根据所述向量距离,获得所述关键词与所述文本的紧密度。本发明的另一方面,提供一种基于关键词的文本的标签提取装置,包括:确定单元, 用于确定待提取的文本;提取单元,用于根据所述文本,提取所述文本的至少两个关键词;获得单元,用于根据所述至少两个关键词中每个所述关键词的相关信息,获得每个所述关键词与所述文本的相关度和/或每个所述关键词与所述文本的紧密度;选择单元,用于根据所述相关度和/或所述紧密度,从所述至少两个关键词中选择部分关键词或全部关键词,以作为所述文本的标签。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获得单元,具体用于根据所述关键词在所述文本中的位置、所述关键词在所述文本中的重复次数、所述关键词在所述文本中的独立表意能力、所述关键词在所述文本中的词性和所述关键词在所述文本中的层次中的至少一项信息,获得所述关键词的权重;以及根据所述关键词的权重,获得所述关键词与所述文本的相关度。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获得单元,具体用于 根据所述至少两个关键词中每个所述关键词的相关信息,构造每个所述关键词的第一支持向量和第二支持向量;以及根据所述第一支持向量和所述第二支持向量,获得每个所述关键词与所述文本的紧密度。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获得单元,具体用于根据所述关键词在所述文本中的位置、所述关键词在所述文本中的重复次数、所述关键词在所述文本中的独立表意能力、所述关键词在所述文本中的词性和所述关键词在所述文本中的层次中的至少一项信息,获得所述关键词的权重,以及根据所述关键词和所述关键词的权重,构造所述第一支持向量;获得与所述关键词关联的关联词,根据所述关联词在对应文本中的位置、所述关联词在对应文本中的重复次数、所述关联词在对应文本中的独立表意能力、所述关联词在对应文本中的词性和所述关联词在对应文本中的层次中的至少一项信息,获得所述关联词的权重,以及根据所述关联词和所述关联词的权重,构造所述第二支持向量。如上所述的方面和任一可能的实现方式,进一步提供一种实现方式,所述获得单元,具体用于根据所述第一支持向量和所述第二支持向量,构造所述关键词的第三支持向量;根据所述第二支持向量和所述第三支持向量,获得所述第二支持向量与所述第三支持向量之间的向量距离;以及根据所述向量距离,获得所述关键词与所述文本的紧密度。由上述技术方案可知,本发明实施例通过根据文本 ,提取文本的至少两个关键词,进而根据所述至少两个关键词中每个所述关键词的相关信息,获得每个所述关键词与所述文本的相关度和/或每个所述关键词与所述文本的紧密度,使得能够根据所述相关度和/或所述紧密度,从所述至少两个关键词中选择部分关键词或全部关键词,以作为所述文本的标签,由于根据关键词与文本的相关度和/或关键词与文本的紧密度,对所提取的关键词进行有条件的选择,作为所述文本的标签,能够避免现有技术中由于将从文本中提取的关键词,直接作为该文本的标签而导致的所提取的标签不能准确地描述文本的问题,从而提闻了标签提取的可罪性。

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本发明一实施例提供的基于关键词的文本的标签提取方法的流程示意图;图2为本发明另一实施例提供的基于关键词的文本的标签提取装置的结构不意图。
具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本发明保护的范围。需要说明的是,本发明实施例中所涉及的终端可以包括但不限于手机、个人数字助理(Personal Digital Assistant, PDA)、无线手持装置、无线上网本、个人电脑、便携电脑、MP3播放器、MP4播放器等。另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。图1为本发明一实施例提供的基于关键词的文本的标签提取方法的流程示意图,如图1所示。101、确定待提取的文本。102、根据所述文本,提取所述文本的至少两个关键词。具体地,可以采用现有技术中的任何提取方法,从所述文本中提取所述文本的至少两个关键词,详细描述可以参见现有技术中的相关内容,此处不再赘述。103、根据所述至少两个关键词中每个所述关键词的相关信息,获得每个所述关键词与所述文本的相关度和/或每个所述关键词与所述文本的紧密度。104、根据所述相关度和/或所述紧密度,从所述至少两个关键词中选择部分关键词或全部关键词,以作为所述文本的标签。需要说明的是,101 104的执行主体可以是文本处理引擎,可以位于本地的客户端中,以进行离线处理,或者还可以位于网络侧的服务器中,以进行在线处理,本实施例对此不进行限定。需要说明的是,101 104的执行主体还可以是客户端。可以理解的是,所述客户端可以是安装在终端上的应用程序,或者还可以是浏览器的一个网页,只要能够 实现文本处理服务,以获得文本的应用的客观存在形式都可以,本实施例对此不进行限定。这样,通过根据文本,提取文本的至少两个关键词,进而根据所述至少两个关键词中每个所述关键词的相关信息,获得每个所述关键词与所述文本的相关度和/或每个所述关键词与所述文本的紧密度,使得能够根据所述相关度和/或所述紧密度,从所述至少两个关键词中选择部分关键词或全部关键词,以作为所述文本的标签,由于根据关键词与文本的相关度和/或关键词与文本的紧密度,对所提取的关键词进行有条件的选择,作为所述文本的标签,能够避免现有技术中由于将从文本中提取的关键词,直接作为该文本的标签而导致的所提取的标签不能准确地描述文本的问题,从而提高了标签提取的可靠性。另外,采用本发明提供的技术方案,能够使得基于标签的深度阅读成为可能。另外,采用本发明提供的技术方案,能够有效提高基于标签的文本推荐的质量。可选地,在本实施例的一个可能的实现方式中,在103中,具体可以根据所述关键词在所述文本中的位置、所述关键词在所述文本中的重复次数、所述关键词在所述文本中的独立表意能力、所述关键词在所述文本中的词性和所述关键词在所述文本中的层次中的至少一项信息,获得所述关键词的权重。然后,则可以根据所述关键词的权重,获得所述关键词与所述文本的相关度。例如,具体可以根据公式(I ),获得所述关键词的权重(Weight)。关键词的权重=kl*关键词在所述文本中的位置+k2*关键词在所述文本中的重复次数+k3 *关键词在所述文本中的独立表意能力+k4 *关键词在所述文本中的词性+k5 *关键词在所述文本中的层次公式(I)其中,kl、k2、k3、k4和k5均为系数。这样,则可以将所述关键词的权重,作为所述关联度。可选地,在本实施例的一个可能的实现方式中,在103中,具体可以根据所述至少两个关键词中每个所述关键词的相关信息,构造每个所述关键词的第一支持向量和第二支持向量。然后,则可以根据所述第一支持向量和所述第二支持向量,获得每个所述关键词与所述文本的紧密度。具体地,具体可以根据所述关键词在所述文本中的位置、所述关键词在所述文本中的重复次数、所述关键词在所述文本中的独立表意能力、所述关键词在所述文本中的词性和所述关键词在所述文本中的层次中的至少一项信息,获得所述关键词的权重,以及根据所述关键词和所述关键词的权重,构造所述第一支持向量。例如,具体可以根据公式(2),获得所述关键词的权重(weight)。关键词的权重=ml*关键词在所述文本中的位置+m2*关键词在所述文本中的重复次数+m3 *关键词在所述文本中的独立表意能力+m4 *关键词在所述文本中的词性+m5 *关键词在所述文本中的层次公式(2 )其中,ml、m2、m3、m4和m5均为系数。根据每个关键词(termn)和每个关键词的权重(weightn),构成第一支持向量,即<(terml, weightl)> (term2, weight2)> (term3, weight3)> (term4, weight4)…(termn, weightn)> ;具体地,具体可以获得与所述关键词关联的关联词,根据所述关联词在对应文本中的位置、所述关联词在对应文本中的重复次数、所述关联词在对应文本中的独立表意能力、所述关联词在对应文本中的词性和所述关联词在对应文本中的层次中的至少一项信息,获得所述关联词的权重,以及根据所述关联词和所述关联词的权重,构造所述第二支持向量。例如,具体可以根据公式(3),获得所述关联词的权重(weight)。关联词的权重=rl*关联词在所述文本中的位置+r2*关联词在所述文本中的重复次数+r3 *关联词在所述文本中的独立表意能力+r4 *关联词在所述文本中的词性+r5 *关联词在所述文本中的层次公式(3 )其中,rl、r2、r3、r4和r5均为系数。根据每个关联词(sm_termn)和每个关联词的权重(sm_weightn),构成第二支持向量,即< (sl_terml, sl_weightl)、(s2_terml, s2_weightl)、(s3_terml, s3_weightl)、(s4_terml, s4_weightl) …(sm_terml, sm_weightl)、(sl_term2,sl_weight2)、(s2_term2, s2_weight2)、(s3_term2, s3_weight2)、(s4_term2, s4_weight2)…(sm_term2, sm_weight2)>(sl_termn, sl_weightn)>(s2_termn, s2_weightn)>(s3_termn, s3_weightn)>(s4_termn, s4_weightn)…(sm_termn, sm_weightn)> ;具体地,具体可以根据所述第一支持向量和所述第二支持向量,构造所述关键词的第三支持向量。进而,可以根据所述第二支持向量和所述第三支持向量,获得所述第二支持向量与所述第三支持向量之间的向量距离。然后,则可以根据所述向量距离,获得所述关键词与所述文本的紧密度。例如,具体可以根据公式(2)和公式(3),构造第三支持向量,SP< (sl_terml, sl_weightl * weightl)>(s2_terml, s2_weightl * weightl)、(s3_terml, s3_weightl * weightl)>(s4_terml, s4_weightl * weightl) …(sm_terml, sm_weightl * weightl)>(sl_term2, sl_weight2 * weight2)>(s2_term2, s2_weight2 *weight2)、(s3_term2, s3_weight2 * weight2)>(s4_term2, s4_weight2 * weight2)…(sm_term2, sm_weight2 * weight2)>(sl_termn, sl_weightn * weightn)>(s2_termn, s2_weightn
*weightn)、(s3_termn, s3_weightn * weightn)> (s4_termn, s4_weightn * weightn)…(sm_termn, sm_weightn * weightn) > ;这样,则可以计算第二支持向量与第三支持向量之间的向量距离即余弦距离,以作为所述紧密度。可以理解的是,在104中,若所述相关度满足预先设置的相关度阈值条件,那么,则可以选择所述相关度对应的关键词,作为所述文本的标签。可以理解的是,在104中,若所述紧密度满足预先设置的紧密度阈值条件,那么,则可以选择所述紧密度对应的关键词,作为所述文本的标签。

可以理解的是,在104中,若所述相关度满足预先设置的相关度阈值条件,且所述紧密度满足预先设置的紧密度阈值条件,那么,则可以选择所述紧密度对应的关键词,作为所述文本的标签。本实施例中,通过根据文本,提取文本的至少两个关键词,进而根据所述至少两个关键词中每个所述关键词的相关信息,获得每个所述关键词与所述文本的相关度和/或每个所述关键词与所述文本的紧密度,使得能够根据所述相关度和/或所述紧密度,从所述至少两个关键词中选择部分关键词或全部关键词,以作为所述文本的标签,由于根据关键词与文本的相关度和/或关键词与文本的紧密度,对所提取的关键词进行有条件的选择,作为所述文本的标签,能够避免现有技术中由于将从文本中提取的关键词,直接作为该文本的标签而导致的所提取的标签不能准确地描述文本的问题,从而提高了标签提取的可靠性。另外,采用本发明提供的技术方案,能够使得基于标签的深度阅读成为可能。另外,采用本发明提供的技术方案,能够有效提高基于标签的文本推荐的质量。需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。图2为本发明另一实施例提供的基于关键词的文本的标签提取装置的结构不意图,如图2所示。本实施例的基于关键词的文本的标签提取装置可以包括确定单元21、提取单元22、获得单元23和选择单元24。其中,确定单元21,用于确定待提取的文本;提取单元22,用于根据所述文本,提取所述文本的至少两个关键词;获得单元23,用于根据所述至少两个关键词中每个所述关键词的相关信息,获得每个所述关键词与所述文本的相关度和/或每个所述关键词与所述文本的紧密度;选择单元24,用于根据所述相关度和/或所述紧密度,从所述至少两个关键词中选择部分关键词或全部关键词,以作为所述文本的标签。具体地,所述提取单元22可以采用现有技术中的任何提取方法,从所述文本中提取所述文本的至少两个关键词,详细描述可以参见现有技术中的相关内容,此处不再赘述。需要说明的是,本实施例提供的装置可以是文本处理引擎,可以位于本地的客户端中,以进行离线处理,或者还可以位于网络侧的服务器中,以进行在线处理,本实施例对此不进行限定。需要说明的是,本实施例提供的装置还可以是客户端。可以理解的是,所述客户端可以是安装在终端上的应用程序,或者还可以是浏览器的一个网页,只要能够实现文本处理服务,以获得文本的应用的客观存在形式都可以,本实施例对此不进行限定。这样,通过提取单元根据文本,提取文本的至少两个关键词,进而由获得单元根据所述至少两个关键词中每个所述关键词的相关信息,获得每个所述关键词与所述文本的相关度和/或每个所述关键词与所述文本的紧密度,使得选择单元能够根据所述相关度和/或所述紧密度,从所述至少两个关键词中选择部分关键词或全部关键词,以作为所述文本的标签,由于根据关键词与文本的相关度和/或关键词与文本的紧密度,对所提取的关键词进行有条件的选择,作为所述文本的标签,能够避免现有技术中由于将从文本中提取的关键词,直接作为该文本的标签而导致的所提取的标签不能准确地描述文本的问题,从而提闻了标签提取的可罪性。另外,采用本发明提供的技术方案,能够使得基于标签的深度阅读成为可能。另外,采用本发明提供的技术方案,能够有效提高基于标签的文本推荐的质量。可选地,在本实施例的一个可能的实现方式中,所述获得单元23,具体可以用于根据所述关键词在所述文本中的位置、所述关键词在所述文本中的重复次数、所述关键词在所述文本中的独立表意能力、所述关键词在所述文本中的词性和所述关键词在所述文本中的层次中的至少一项信息,获得所述关键词的权重;以及根据所述关键词的权重,获得所述关键词与所述文本的相关度。例如,所述获得单元23具体可以根据公式(1),获得所述关键词的权重(Weight)。关键词的权重=kl*关键词在所述文本中的位置+k2*关键词在所述文本中的重复次数+k3 *关键词在所述文本中的独立表意能力+k4 *关键词在所述文本中的词性+k5 *关键词在所述文本中的层次公式(I)其中,kl、k2、k3、k4和k5均为系数。这样,所述获得单元23则可以将所述关键词的权重,作为所述关联度。可选地,在本实施例的一个可能的实现方式中,所述获得单元23,具体可以用于根据所述至少两个关键词中每个所述关键词的相关信息,构造每个所述关键词的第一支持向量和第二支持向量;以及根据所述第一支持向量和所述第二支持向量,获得每个所述关键词与所述文本的紧密度。具体地,所述获得单元23,具体可以用于根据所述关键词在所述文本中的位置、所述关键词在所述文本中的重复次数、所述关键词在所述文本中的独立表意能力、所述关键词在所述文本中的词性和所述关键词在所述文本中的层次中的至少一项信息,获得所述关键词的权重,以及根据所述关键词和所述关键词的权重,构造所述第一支持向量。例如,所述获得单元23具体可以根据公式(2),获得所述关键词的权重(weight)。

关键词的权重=ml*关键词在所述文本中的位置+m2*关键词在所述文本中的重复次数+ m3 *关键词在所述文本中的独立表意能力+m4 *关键词在所述文本中的词性+m5 *关键词在所述文本中的层次公式(2 )其中,ml、m2、m3、m4和m5均为系数。所述获得单元23根据每个关键词(termn)和每个关键词的权重(weightn),构成第一支持向量,即< (terml, weightl)> (term2, weight2)> (term3, weight3)> (term4, weight4)…(termn, weightn)> ;具体地,所述获得单元23,具体还可以用于获得与所述关键词关联的关联词,根据所述关联词在对应文本中的位置、所述关联词在对应文本中的重复次数、所述关联词在对应文本中的独立表意能力、所述关联词在对应文本中的词性和所述关联词在对应文本中的层次中的至少一项信息,获得所述关联词的权重,以及根据所述关联词和所述关联词的权重,构造所述第二支持向量。

例如,所述获得单元23具体可以根据公式(3),获得所述关联词的权重(weight)。关联词的权重=rl*关联词在所述文本中的位置+r2*关联词在所述文本中的重复次数+r3 *关联词在所述文本中的独立表意能力+r4 *关联词在所述文本中的词性+r5 *关联词在所述文本中的层次公式(3 )其中,rl、r2、r3、r4和r5均为系数。所述获得单元23根据每个关联词(sm_termn)和每个关联词的权重(sm_weightn),构成第二支持向量,即< (sl_terml, sl_weightl)、(s2_terml, s2_weightl)、(s3_terml, s3_weightl)、(s4_terml, s4_weightl) …(sm_terml, sm_weightl)、(sl_term2, sl_weight2)、(s2_term2, s2_weight2)、(s3_term2, s3_weight2)、(s4_term2, s4_weight2)…(sm_term2, sm_weight2)>(sl_termn, sl_weightn)>(s2_termn, s2_weightn)>(s3_termn,s3_weightn)>(s4_termn, s4_weightn)…(sm_termn, sm_weightn)> ;具体地,所述获得单元23具体可以根据所述第一支持向量和所述第二支持向量,构造所述关键词的第三支持向量;根据所述第二支持向量和所述第三支持向量,获得所述第二支持向量与所述第三支持向量之间的向量距离;以及根据所述向量距离,获得所述关键词与所述文本的紧密度。例如,所述获得单元23具体可以根据公式(2)和公式(3),构造第三支持向量,SP< (sl_term I , s I _weightl * weightl )> (s2_terml, s2_weightl * weightl )>(s3_terml, s3_weightl*weightl)、(s4_terml, s4_weightl * weightl)…(sm_terml, sm_weightl * weightl)>(sl_term2, sl_weight2 * weight2)>(s2_term2, s2_weight2 *weight2)、(s3_term2, s3_weight2 * weight2)>(s4_term2, s4_weight2 * weight2)…(sm_term2, sm_weight2 * weight2)>(sl_termn, sl_weightn * weightn)、(s2_termn, s2_weightn
*weightn)、(s3_termn, s3_weightn * weightn)、(s4_termn, s4_weightn * weightn)…(sm_termn, sm_weightn * weightn) > ;这样,所述获得单元23则可以计算第二支持向量与第三支持向量之间的向量距离即余弦距离,以作为所述紧密度。可以理解的是,若所述相关度满足预先设置的相关度阈值条件,那么,所述选择单元24则可以选择所述相关度对应的关键词,作为所述文本的标签。可以理解的是,若所述紧密度满足预先设置的紧密度阈值条件,那么,所述选择单元24则可以选择所述紧密度对应的关键词,作为所述文本的标签。可以理解的是,若所述相关度满足预先设置的相关度阈值条件,且所述紧密度满足预先设置的紧密度阈值条件,那么,所述选择单元24则可以选择所述紧密度对应的关键词,作为所述文本的标签。本实施例中,通过提取单元根据文本,提取文本的至少两个关键词,进而由获得单元根据所述至少两个关键词中每个所述关键词的相关信息,获得每个所述关键词与所述文本的相关度和/或每个所述关键词与所述文本的紧密度,使得选择单元能够根据所述相关度和/或所述紧密度,从所述至少两个关键词中选择部分关键词或全部关键词,以作为所述文本的标签,由于根据关键词与文本的相关度和/或关键词与文本的紧密度,对所提取的关键词进行有条件的选择,作为所述文本的标签,能够避免现有技术中由于将从文本中提取的关键词,直接作为该文本的标签而导致的所提取的标签不能准确地描述文本的问题,从而提闻了标签提取的可罪性。另外,采用本发明提供的技术方案,能够使得基于标签的深度阅读成为可能。另外,采用本发明提供的技术方案,能够有效提高基于标签的文本推荐的质量。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory, ROM)、随机存取存储器(Random Access Memory, RAM)、磁碟或者光盘等各种可以存储程序代码的介质。最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述 实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实 施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
权利要求
1.一种基于关键词的文本的标签提取方法,其特征在于,包括: 确定待提取的文本; 根据所述文本,提取所述文本的至少两个关键词; 根据所述至少两个关键词中每个所述关键词的相关信息,获得每个所述关键词与所述文本的相关度和/或每个所述关键词与所述文本的紧密度; 根据所述相关度 和/或所述紧密度,从所述至少两个关键词中选择部分关键词或全部关键词,以作为所述文本的标签。
2.根据权利要求1所述的方法,其特征在于,所述根据所述至少两个关键词中每个所述关键词的相关信息,获得每个所述关键词与所述文本的相关度,包括: 根据所述关键词在所述文本中的位置、所述关键词在所述文本中的重复次数、所述关键词在所述文本中的独立表意能力、所述关键词在所述文本中的词性和所述关键词在所述文本中的层次中的至少一项信息,获得所述关键词的权重; 根据所述关键词的权重,获得所述关键词与所述文本的相关度。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述至少两个关键词中每个所述关键词的相关信息,获得每个所述关键词与所述文本的紧密度,包括: 根据所述至少两个关键词中每个所述关键词的相关信息,构造每个所述关键词的第一支持向量和第二支持向量; 根据所述第一支持向量和所述第二支持向量,获得每个所述关键词与所述文本的紧密度。
4.根据权利要求3所述的方法,其特征在于,所述根据所述至少两个关键词中每个所述关键词的相关信息,构造每个所述关键词的第一支持向量和第二支持向量,包括: 根据所述关键词在所述文本中的位置、所述关键词在所述文本中的重复次数、所述关键词在所述文本中的独立表意能力、所述关键词在所述文本中的词性和所述关键词在所述文本中的层次中的至少一项信息,获得所述关键词的权重,以及根据所述关键词和所述关键词的权重,构造所述第一支持向量; 获得与所述关键词关联的关联词,根据所述关联词在对应文本中的位置、所述关联词在对应文本中的重复次数、所述关联词在对应文本中的独立表意能力、所述关联词在对应文本中的词性和所述关联词在对应文本中的层次中的至少一项信息,获得所述关联词的权重,以及根据所述关联词和所述关联词的权重,构造所述第二支持向量。
5.根据权利要求3或4所述的方法,其特征在于,所述根据所述第一支持向量和所述第二支持向量,获得每个所述关键词与所述文本的紧密度,包括: 根据所述第一支持向量和所述第二支持向量,构造所述关键词的第三支持向量; 根据所述第二支持向量和所述第三支持向量,获得所述第二支持向量与所述第三支持向量之间的向量距离; 根据所述向量距离,获得所述关键词与所述文本的紧密度。
6.一种基于关键词的文本的标签提取装置,其特征在于,包括: 确定单元,用于确定待提取的文本; 提取单元,用于根据所述文本,提取所述文本的至少两个关键词; 获得单元,用于根据所述至少两个关键词中每个所述关键词的相关信息,获得每个所述关键词与所述文本的相关度和/或每个所述关键词与所述文本的紧密度; 选择单元,用于根据所述相关度和/或所述紧密度,从所述至少两个关键词中选择部分关键词或全部关键词,以作为所述文本的标签。
7.根据权利要求6所述的装置,其特征在于,所述获得单元,具体用于 根据所述关键词在所述文本中的位置、所述关键词在所述文本中的重复次数、所述关键词在所述文本中的独立表意能力、所述关键词在所述文本中的词性和所述关键词在所述文本中的层次中的至少一项信息,获得所述关键词的权重;以及根据所述关键词的权重,获得所述关键词与所述文本的相关度。
8.根据权利要求6或7所述的装置,其特征在于,所述获得单元,具体用于 根据所述至少两个关键词中每个所述关键词的相关信息,构造每个所述关键词的第一支持向量和第二支持向量;以及根据所述第一支持向量和所述第二支持向量,获得每个所述关键词与所述文本的紧密度。
9.根据权利要求8所述的装置,其特征在于,所述获得单元,具体用于 根据所述关键词在所述文本中的位置、所述关键词在所述文本中的重复次数、所述关键词在所述文本中的独立表意能力、所述关键词在所述文本中的词性和所述关键词在所述文本中的层次中的至少一项信息,获得所述关键词的权重,以及根据所述关键词和所述关键词的权重,构造所述第一支持向量; 获得与所述关键词关联的关联词,根据所述关联词在对应文本中的位置、所述关联词在对应文本中的重复次数、所述关联词在对应文本中的独立表意能力、所述关联词在对应文本中的词性和所述关联词在对应文本中的层次中的至少一项信息,获得所述关联词的权重,以及根据所述关联词和所述关联词的权重,构造所述第二支持向量。
10.根据权利要求8或9所述的装置,其特征在于,所述获得单元,具体用于 根据所述第一支持向量和所述第二支持向量,构造所述关键词的第三支持向量;根据所述第二支持向量和所述第三支持向量,获得所述第二支持向量与所述第三支持向量之间的向量距离;以及根据所述向量距离,获得所述关键词与所述文本的紧密度。
全文摘要
本发明提供一种基于关键词的文本的标签提取方法及装置。本发明实施例通过根据文本,提取文本的至少两个关键词,进而根据所述至少两个关键词中每个所述关键词的相关信息,获得每个所述关键词与所述文本的相关度和/或每个所述关键词与所述文本的紧密度,使得能够根据所述相关度和/或所述紧密度,从所述至少两个关键词中选择部分关键词或全部关键词,以作为所述文本的标签,由于根据关键词与文本的相关度和/或关键词与文本的紧密度,对所提取的关键词进行有条件的选择,作为所述文本的标签,能够避免现有技术中由于将从文本中提取的关键词,直接作为该文本的标签而导致的所提取的标签不能准确地描述文本的问题,从而提高了标签提取的可靠性。
文档编号G06F17/27GK103235773SQ20131015085
公开日2013年8月7日 申请日期2013年4月26日 优先权日2013年4月26日
发明者黄超, 刘其文 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1