获取文章关联度数据的方法和装置的制造方法

文档序号:10665779阅读:281来源:国知局
获取文章关联度数据的方法和装置的制造方法
【专利摘要】本发明公开了一种获取文章关联度数据的方法和装置。其中,该方法包括:获取预设关键词和多个待分析文本,其中,每个待分析文本对应多个第一文本标签;统计预设关键词对应多个待分析文本的衍生关键词;确定预设关键词出现在多个待分析文本中的第一次数和衍生关键词出现在多个待分析文本中的第二次数;确定每个待分析文本的多个第一文本标签中与预设关键词相匹配的第二文本标签;基于每个待分析文本的第二文本标签的标签指标数据、预设关键词的第一次数以及衍生关键词的第二次数计算预设关键词与每个待分析文本的关联度数据。采用本发明,解决了现有技术中无法准确确定文章与关键词的关联度的问题,实现了准确地确定文章和关键词的关联度的效果。
【专利说明】
获取文章关联度数据的方法和装置
技术领域
[0001] 本发明涉及互联网领域,具体而言,涉及一种获取文章关联度数据的方法和装置。
【背景技术】
[0002] 现有技术中通过关键词来查找关联文章并对其排序的方法都是简单的根据文章 中是否出现该关键词、该关键词在所出现的文章中的位置以及出现的次数来实现,具体地, 这种查找文章的方法类似于在百度或谷歌等搜索引擎中对关键词进行搜索的方式,例如, 若关键词为"大数据",那么在查找与"大数据"关联的文章时,根据文章中是否出现"大数 据"、"大数据"在文章中出现的次数,以及"大数据"出现在文章中的位置来确定文章与"大 数据"的关联度并按照关联度由高到低对关联文章进行排序,其中,关键词出现在文章中不 同位置时所占的权重不同,如,大标题的权重最高、正文次之、广告最低。但是,现有技术中 的上述通过关键词来确定关联文章并对其排序的方法不能很准确地反映文章的主题与关 键词的关联性。
[0003] 例如,在查找与关键词"大数据"关联的文章时,在一篇报道某个大数据文章的作 者参加晚宴的新闻中,"大数据" 一词多次出现,但是该新闻的主题是该作者参加晚宴,而不 是"大数据",但是根据现有技术,由于"大数据"出现次数较多,会将其确定为关键词"大数 据"的关联文章,因此,通过现有技术不能准确地反映文章主题与关键词的关联性。
[0004] 又如,当关键词为"大数据"时,有一篇文章通篇在讨论"big data",对"大数据" 只字不提,于是这篇文章不能被筛选出并参与排序。
[0005] 再如,关键词仍为"大数据",有文章 A提到1次"大数据"、5次"big data",文章 B 提到2次"大数据"、4次"数据挖掘",按照上述的现有技术,文章 B与该关键词"大数据"的 关联度应该高于文章 A,但显然不是。
[0006] 针对现有技术中无法准确确定文章与关键词的关联度的问题,目前尚未提出有效 的解决方案。

【发明内容】

[0007] 本发明的主要目的在于提供一种获取文章关联度数据的方法和装置,以解决现有 技术中无法准确确定文章与关键词的关联度的问题。
[0008] 为了实现上述目的,根据本发明实施例的一个方面,提供了一种获取文章关联度 数据的方法,该方法包括:获取预设关键词和多个待分析文本;统计预设关键词对应多个 待分析文本的衍生关键词,其中,衍生关键词为与预设关键词同时出现在一个待分析文本 中的关键词;确定预设关键词出现在多个待分析文本中的第一次数和衍生关键词出现在多 个待分析文本中的第二次数;确定每个待分析文本的多个第一文本标签中与预设关键词相 匹配的第二文本标签,其中,第一文本标签用于标识待分析文本的主题;基于每个待分析文 本的第二文本标签的标签指标数据、预设关键词的第一次数以及衍生关键词的第二次数计 算预设关键词与每个待分析文本的关联度数据。
[0009] 进一步地,统计预设关键词对应多个待分析文本的衍生关键词包括:对多个待分 析文本进行分词处理得到词语集合;获取词语集合中每个第一词语的第一数量,其中,第一 数量大于第一预设阈值;获取词语集合中每个第二词语的第二数量,其中,第二数量为一个 第二词语与预设关键词同时出现在各个待分析文本中的次数的合计值,第二数量大于第二 预设阈值;比较第二词语和第一词语,若第二词语与第一词语相同,则将第二数量与第一数 量的比值作为第二词语的出现次数;若第二词语与第一词语不同,则将第二数量作为第二 词语的出现次数;将出现次数大于第三预设阈值的第二词语作为衍生关键词。
[0010] 进一步地,在确定每个待分析文本的多个第一文本标签中与预设关键词相匹配的 第二文本标签之前,该方法还包括:获取预设文本标签和预设文本标签的关联词,其中,预 设文本标签包括第一文本标签,预设文本标签对应至少一个关联词;遍历多个待分析文本 得到各个待分析文本包括的多个关联词;查找与每个待分析文本包括的各个关联词对应的 多个预设文本标签,作为多个第一文本标签。
[0011] 进一步地,在基于每个待分析文本的第二文本标签的标签指标数据、预设关键词 的第一次数以及衍生关键词的第二次数计算预设关键词与每个待分析文本的关联度数据 之前,该方法还包括:按照第一公式计算每个第一文本标签的标签指标数据A,其中,第一 公式为
η为第一文本标签对应的关联词的个数,为第i个第一文本标签 对应的关联词出现在一个待分析文本中的次数,匕第i个为第一文本标签对应的关联词对 应第一文本标签的预设权重。
[0012] 进一步地,基于每个待分析文本的第二文本标签的标签指标数据、预设 关键词的第一次数以及衍生关键词的第二次数计算预设关键词与每个待分析文 本的关联度数据包括:将与衍生关键词相同的第二文本标签对应的关联词作为 第三词语;按照第二公式计算每个待分析文本的关联度数据G,其中,第二公式为
.K为预设关键词的第一次数,C为第二文本标 签的标签指标数据,D为第二文本标签出现在一个待分析文本中的次数,d为第二文本标签 的预设权重,m为第三词语的个数,k,为第j个第三词语对应的衍生关键词的第二次数,Ε」 为第j个第三词语出现在一个待分析文本中的第三次数,e,为第j个第三词语对应第二文 本标签的预设权重。
[0013] 进一步地,在基于每个待分析文本的第二文本标签的标签指标数据、预设关键词 的第一次数以及衍生关键词的第二次数计算预设关键词与每个待分析文本的关联度数据 之后,该方法还包括:按照从高到低的顺序对各个待分析文本的关联度数据进行排序,得到 关联度排序表;展示关联度排序表中前N个关联度数据及对应的待分析文本,其中,N为自 然数。
[0014] 为了实现上述目的,根据本发明实施例的另一方面,提供了一种获取文章关联度 数据的装置,该装置包括:第一获取模块,用于获取预设关键词和多个待分析文本;统计模 块,用于统计预设关键词对应多个待分析文本的衍生关键词,其中,衍生关键词为与预设关 键词同时出现在一个待分析文本中的关键词;第一确定模块,用于确定预设关键词出现在 多个待分析文本中的第一次数和衍生关键词出现在多个待分析文本中的第二次数;第二确 定模块,用于确定每个待分析文本的多个第一文本标签中与预设关键词相匹配的第二文本 标签,其中,第一文本标签用于标识待分析文本的主题;第一计算模块,用于基于每个待分 析文本的第二文本标签的标签指标数据、预设关键词的第一次数以及衍生关键词的第二次 数计算预设关键词与每个待分析文本的关联度数据。
[0015] 进一步地,统计模块包括:分词模块,用于对多个待分析文本进行分词处理得到词 语集合;第二获取模块,用于获取词语集合中每个第一词语的第一数量,其中,第一数量大 于第一预设阈值;第三获取模块,用于获取词语集合中每个第二词语的第二数量,其中,第 二数量为一个第二词语与预设关键词同时出现在各个待分析文本中的次数的合计值,第二 数量大于第二预设阈值;比较模块,用于比较第二词语和第一词语,若第二词语与第一词语 相同,则将第二数量与第一数量的比值作为第二词语的出现次数;若第二词语与第一词语 不同,则将第二数量作为第二词语的出现次数;第三确定模块,用于确定将出现次数大于第 三预设阈值的第二词语作为衍生关键词。
[0016] 进一步地,该装置还包括:第四获取模块,用于在确定每个待分析文本的多个第一 文本标签中与预设关键词相匹配的第二文本标签之前,获取预设文本标签和预设文本标签 的关联词,其中,预设文本标签包括第一文本标签,预设文本标签对应至少一个关联词;遍 历模块,用于遍历多个待分析文本得到各个待分析文本包括的多个关联词;查找模块,用于 查找与每个待分析文本包括的各个关联词对应的多个预设文本标签,作为多个第一文本标 签。
[0017] 进一步地,该装置还包括:第二计算模块,用于在基于每个待分析文本的第二文本 标签的标签指标数据、预设关键词的第一次数以及衍生关键词的第二次数计算预设关键词 与每个待分析文本的关联度数据之前,按照第一公式计算每个第一文本标签的标签指标数 据A,其中,第一公式为
,η为第一文本标签对应的关联词的个数,为第i个 第一文本标签对应的关联词出现在一个待分析文本中的次数,h为第i个第一文本标签对 应的关联词对应第一文本标签的预设权重。
[0018] 进一步地,第一计算模块包括:第四确定模块,用于确定将与衍生关键词相同的第 二文本标签对应的关联词作为第三词语;计算子模块,用于按照第二公式计算每个待分析 文本的关联度数据G,其中,第二公式为
K为预 设关键词的第一次数,C为第二文本标签的标签指标数据,D为第二文本标签出现在一个待 分析文本中的次数,d为第二文本标签的预设权重,m为第三词语的个数,kj为第j个第三 词语对应的衍生关键词的第二次数,E,为第j个第三词语出现在一个待分析文本中的第三 次数,e,为第j个第三词语对应第二文本标签的预设权重。
[0019] 进一步地,该装置还包括:排序模块,用于在基于每个待分析文本的第二文本标签 的标签指标数据、预设关键词的第一次数以及衍生关键词的第二次数计算预设关键词与每 个待分析文本的关联度数据之后,按照从高到低的顺序对各个待分析文本的关联度数据进 行排序,得到关联度排序表;展示模块,用于展示关联度排序表中前N个关联度数据及对应 的待分析文本,其中,N为自然数。
[0020] 采用本发明实施例,在获取预设关键词和多个待分析文本之后,统计预设关键词 对应多个待分析文本的衍生关键词,并确定预设关键词出现在多个待分析文本中的第一次 数和衍生关键词出现在多个待分析文本中的第二次数,在确定每个待分析文本的多个第一 文本标签中与预设关键词相匹配的第二文本标签之后,基于每个待分析文本的第二文本标 签的标签指标数据、预设关键词的第一次数以及衍生关键词的第二次数计算预设关键词与 每个待分析文本的关联度数据。通过本发明实施例,结合预设关键词和待分析文本所对应 的文本标签计算出待分析文本与预设关键词的关联度,由于文本标签标识待分析文本的主 题,因此可以准确地确定预设关键词与待分析文本的关联度。采用本发明实施例,解决了现 有技术中无法准确确定文章与关键词的关联度的问题,实现了准确地确定文章和关键词的 关联度的效果。
【附图说明】
[0021] 构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实 施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0022] 图1是根据本发明实施例的获取文章关联度数据的方法的流程图;
[0023] 图2是根据本发明实施例的一种可选的获取文章关联度数据的方法的流程图;以 及
[0024] 图3是根据本发明实施例的获取文章关联度数据的装置的示意图。
【具体实施方式】
[0025] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本发明。
[0026] 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的 附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是 本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范 围。
[0027] 需要说明的是,本发明的说明书和权利要求书及上述附图中的术语"第一"、"第 二"等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使 用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语"包括"和 "具有"以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元 的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有 清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0028] 本发明实施例提供了 一种获取文章关联度数据的方法。
[0029] 图1是根据本发明实施例的获取文章关联度数据的方法的流程图。如图1所示, 该方法可以包括步骤如下:
[0030] 步骤S102,获取预设关键词和多个待分析文本。
[0031] 步骤S104,统计预设关键词对应多个待分析文本的衍生关键词。
[0032] 其中,衍生关键词为与预设关键词同时出现在一个待分析文本中的关键词。
[0033] 步骤S106,确定预设关键词出现在多个待分析文本中的第一次数和衍生关键词出 现在多个待分析文本中的第二次数。
[0034] 步骤S108,确定每个待分析文本的多个第一文本标签中与预设关键词相匹配的第 二文本标签。
[0035] 其中,第一文本标签用于标识待分析文本的主题。
[0036] 步骤S110,基于每个待分析文本的第二文本标签的标签指标数据、预设关键词的 第一次数以及衍生关键词的第二次数计算预设关键词与每个待分析文本的关联度数据。
[0037] 采用本发明实施例,在获取预设关键词和多个待分析文本之后,统计预设关键词 对应多个待分析文本的衍生关键词,并确定预设关键词出现在多个待分析文本中的第一次 数和衍生关键词出现在多个待分析文本中的第二次数,在确定每个待分析文本的多个第一 文本标签中与预设关键词相匹配的第二文本标签之后,基于每个待分析文本的第二文本标 签的标签指标数据、预设关键词的第一次数以及衍生关键词的第二次数计算预设关键词与 每个待分析文本的关联度数据。通过本发明实施例,结合预设关键词和待分析文本所对应 的文本标签计算出待分析文本与预设关键词的关联度,由于文本标签标识待分析文本的主 题,因此可以准确地确定预设关键词与待分析文本的关联度。采用本发明实施例,解决了现 有技术中无法准确确定文章与关键词的关联度的问题,实现了准确地确定文章和关键词的 关联度的效果。
[0038] 在上述实施例中,待分析文本可以是通过网络爬虫从互联网上爬取到的网络文 章,可选地,可以按照待爬取页面的URL列表来从互联网中爬取文章,也可以按照页面的级 数来爬取文章,例如,可以通过设定来使网络爬虫爬取某网站(如,新浪、网易或者腾讯等) 的一级页面上的内容(如,新浪首页上的内容),再爬取该网站二级页面上的内容(如,打开 新浪首页上的链接后的内容)等。
[0039] 其中,URL为Uniform Resources Locator,即统一资源定位符,是对可以从互联网 上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。
[0040] 在上述的实施例中,可以将爬取到的文章(即上述的待分析文本)存储在数据库 中。
[0041] 根据本发明上述实施例,统计预设关键词对应多个待分析文本的衍生关键词可以 包括:对多个待分析文本进行分词处理得到词语集合;获取词语集合中每个第一词语的第 一数量,其中,第一数量大于第一预设阈值;获取词语集合中每个第二词语的第二数量,其 中,第二数量为一个第二词语与预设关键词同时出现在各个待分析文本中的次数的合计 值,第二数量大于第二预设阈值;比较第二词语和第一词语,若第二词语与第一词语相同, 则将第二数量与第一数量的比值作为第二词语的出现次数;若第二词语与第一词语不同, 则将第二数量作为第二词语的出现次数;将出现次数大于第三预设阈值的第二词语作为衍 生关键词。
[0042] 具体地,可以按照预设词库中的预设词语对多个待分析文本进行分词,得到包括 多个第一词语的词语集合,例如,若待分析文本为"大数据指不用随机分析法这样的捷径, 而采用所有数据进行分析处理",那么对其进行分词处理后得到的词语集合可以包括以下 词语:"大数据"、"指"、"不用"、"随机分析法"、"这样的"、"捷径"、"而"、"采用"、"所有"、"数 据"、"进行"以及"分析处理"。
[0043] 进一步地,在得到词语集合之后,统计词语集合中各个第一词语的第一数量可以 包括:统计词语集合中各个词语的词语数量,如,词语集合中"科技文章"一共有100个(即 "科技文章"的词语数量为100)、"中国" 一共有90个(即"中国"的词语数量为90)、"大数 据" 一共有30个(即"大数据"的词语数量为30)、"金融" 一共有25个(即"金融"的词语 数量为25)、"数据挖掘" 一共有20个(即"数据挖掘"的词语数量为20)以及"big data" 一共有15个(即"big data"的词语数量为15);将词语数量大于第一预设阈值(如,50) 的词语作为第一词语;或者可以将数量最高的前Y(如,Y = 2)个词语作为第一词语,其中, Y为自然数;并记录下每个第一词语对应的数量作为第一数量,如,在上述的例子中,第一 词语可以为"科技文章"和"中国",并且"科技文章"的第一数量为1〇〇,"中国"的第一数量 为90。
[0044] 在上述实施例中,在得到词语集合之后,获取词语集合中每个第二词语的第二数 量可以包括:统计各个待分析文本经分词得到的各个词语中与预设关键词同时出现的次数 的合计值,如表1所示,若预设关键词为"大数据",且"大数据"出现在三个待分析文本(如 表1所示的待分析文本A、待分析文本B以及待分析文本C)中,各个待分析文本中与"大数 据"同时出现的词语以及其出现次数如表1所示,结合表1可以看出,各个词语与预设关键 词同时出现的次数分别为:"科技文章"为10+2 = 12 中国"为6+7 = 13 ;"big data"为 5+7 = 12 金融"为2+1 = 3 大数据"为10+10 = 20 数据挖掘"为5+5+3 = 13。将出 现次数最高的前X (如X = 5)个词语作为第二词语,其中,X为自然数;或者将次数大于第二 预设阈值(如,10)的词语作为第二词语;记录下每个第二词语对应的次数作为第二数量, 在上述的例子中,第二词语为"科技文章"(其第二数量为12)、"中国"(其第二数量为13)、 "大数据"(其第二数量为20)、"big data"(其第二数量为12)以及"数据挖掘"(其第二 数量为13)。
[0045] 表 1
[0046]
[0047] 在确定多个第一词语和多个第二词语之后,比较各个第二词语和各个第一词语, 若第二词语与第一词语相同,则将第二数量与第一数量的比值作为第二词语的出现次数; 若第二词语与第一词语不相同,则将第二数量作为第二词语的出现次数;并将出现次数大 于第三预设阈值的第二词语作为衍生关键词,或者将出现次数最高的前Z个第二词语作为 衍生关键词。
[0048] 通过本发明上述实施例,可以基于多个待分析文本自动确定预设关键词的衍生关 键词,无需手动为预设关键词添加衍生关键词,提高了确定的衍生关键词的准确性,在计算 预设关键词和待分析文本的关联度数据时,同样考虑衍生关键词的影响,提高了计算出的 关联度数据的准确度。
[0049] 在一个可选的实施例中,可以将从互联网上爬取到的文章(即待分析文本)存储 在数据库中,并对文章进行分词处理,计算数据库中存储的所有文章中出现次数最高的Y 个词作为独现词(即上述实施例中的第一词语)并记录每个独现词的出现次数a(即上述 的第一数量);根据预设关键词,在数据库中抓取与该预设关键词同时出现的次数最高的X 个词作为共现词(即上述的第二词语)并记录每个共现词的次数b (即上述的第二数量)。 结合独现词和共现词,若共现词中有词语和独现词中的词语相同,则将该共现词的出现次 数记为b/a,若共现词与独现词中的词语都不相同,则该共现词的出现次数仍为b,然后,将 出现次数最高的Z个词语作为该预设关键词的衍生关键词。
[0050] 在本发明实施例中,a、b以及Z均为自然数。
[0051] 进一步地结合上述的例子对本发明进行详细介绍,在上述例子中,第一词语及其 第一数量和第二词语及其第二数量如表2所示,由于第二词语"大数据"、"big data"以及 "数据挖掘"与第一词语(在该例中为"科技文章"和"中国")不相同,那么,"大数据"的出 现次数即为20、"big data"的出现次数即为12以及"数据挖掘"的出现次数即为13 ;由于 第二词语"科技文章"和"中国"分别与第一词语"科技文章"和"中国"相同,那么第二词语 "科技文章"的出现次数即为12/100 = 0. 12.,第二词语"中国"的出现次数即为13/90 = 0. 14。若第三预设阈值为10或者Z = 3,那么在该例中,衍生关键词即为"大数据"、"big data"以及"数据挖掘",且衍生关键词的第二次数依次为20、12以及13。
[0052] 表 2
[0053]
[0054] 在本发明上述实施例中,可以将与预设关键词同时出现的词语中没有特殊意义的 词去除,例如,一篇文章是关于大数据的应用的,但是文章中多次提到"科技文章"或"中国" 等对于"大数据"而言没有特殊性的词语(例如,在该文章中多次提到该文章是发表在中 国的某一科技文章刊物上),通过比较各个文章中出现次数最高的第一词语和与预设关键 词同时出现的次数最高的第二词语,使用第一词语的第一数量对第二词语的出现次数做修 正,达到去除第二词语中没有特殊性的词语的目的。
[0055] 进一步地,确定预设关键词出现在多个待分析文本中的第一次数和衍生关键词出 现在多个待分析文本中的第二次数可以包括:将上述实施例中的预设关键词的词语数量作 为预设关键词的第一次数;将上述实施例中的衍生关键词的出现次数作为衍生关键词的第 二次数。
[0056] 具体地,在统计出词语集合中各个词语的词语数量之后,将预设关键词对应的词 语数量作为预设关键词的第一次数,如,在上述的例子中,若预设关键词为"大数据",那么 预设关键词的第一次数即为30 ;在确定衍生关键词之后,记录衍生关键词对应的出现次数 作为衍生关键词的第二次数,如上述例子中,第二衍生关键词"big data"的第二次数为12。
[0057] 在本发明上述实施例中,在确定每个待分析文本的多个第一文本标签中与预设关 键词相匹配的第二文本标签之前,该方法还可以包括:获取预设文本标签和预设文本标签 的关联词,其中,预设文本标签包括第一文本标签,预设文本标签对应至少一个关联词;遍 历多个待分析文本得到各个待分析文本包括的多个关联词;查找与每个待分析文本包括的 各个关联词对应的多个预设文本标签,作为多个第一文本标签。
[0058] 具体地,可以从预设标签库中获取预设文本标签和预设文本标签的关联词,其中 预设标签库中存储有预设文本标签及其对应的关联词,每个预设文本标签对应至少一个关 联词;遍历多个待分析文本,得到每个待分析文本包括的多个关联词;对于每个待分析文 本,查找其包括的各个关联词对应的多个预设文本标签,并将该多个预设文本标签设为该 待分析文本的第一文本标签。在该实施例中,由于一个预设文本标签可以对应多个关联词, 在确定每个待分析文本的第一文本标签时,第一文本标签的个数不大于该待分析文本对应 的关联词的个数。
[0059] 需要进一步说明的是,一个关联词只能对应一个预设文本标签。
[0060] 例如,预设标签库中有预设文本标签"大数据"和"金融",其中,各个预设文本标签 对应的关联词及其预设权重如表3所示。若一个待分析文本中包括"big data"、"数据挖 掘"、"数据应用"以及"华尔街",根据上述说明可知,"big data"、"数据挖掘"以及"数据应 用"对应预设文本标签"大数据","华尔街"对应预设文本标签"金融",那么该待分析文本对 应的第一文本标签有两个:"大数据"和"金融",由此,确定了待分析文本的第一文本标签, 表明了该待分析文本的主题有两个:"大数据"和"金融"。
[0061] 表 3
[0062]
[0063] 通过本发明上述实施例,将各个待分析文本与预设标签库中存储的预设文本标签 及其关联词进行匹配,确定了每个待分析文本的多个第一文本标签,每个第一文本标签标 识出了该待分析文本的一个主题,通过多个第一文本标签可以准确地标识出该待分析文本 涉及的各个主题,在计算预设关键词与待分析文本的关联度时,首先确定各个第一文本标 签中与预设关键词相匹配的第二文本标签,再基于该反映了待分析文本主题的第二文本标 签计算预设关键词与该待分析文本(如,互联网上的文章)之间的关联度数据,避免了现有 技术中根据文章中是否出现关键词、该关键词在该文章中的位置以及出现次数来确定文章 与关键词的关联度的准确度差的问题,提高了计算出的关联度数据的准确性。
[0064] 根据本发明上述实施例,在基于每个待分析文本的第二文本标签的标签指标数 据、预设关键词的第一次数以及衍生关键词的第二次数计算预设关键词与每个待分析文本 的关联度数据之前,该方法还可以包括:按照第一公式计算每个第一文本标签的标签指标 数据A,其中,第一公式为
η为第一文本标签对应的关联词的个数,为第i 个第一文本标签对应的关联词出现在一个待分析文本中的次数,h为第i个第一文本标签 对应的关联词对应第一文本标签的预设权重。
[0065] 具体地,在计算预设关键词与每个待分析文本的关联度数据之前,计算每个第一 文本标签的标签指标数据,对于一个第一文本标签来说,从预设标签库中读取其对应的各 个关联词的预设权重,并统计各个关联词在该待分析文本中出现的次数,计算各个关联词 的出现次数与各自预设权重,然后将乘积相加得出该第一文本标签的标签指标数据。
[0066] 例如,结合表3,对于第一文本标签"大数据",若其关联词"大数据"、"big data"、 "数据挖掘"、"数据应用"以及"数据处理"在一篇文章(即上述实施例中的待分析文本)中 出现的次数分别为:4、3、5、2以及1,根据本发明上述实施例,"大数据"这一第一文本标签 的标签指标数据为:5X4+5X3+3X5+2X2+1X1 = 55。
[0067] 通过本发明上述实施例,计算每个待分析文本的各个第一文本标签的标签指标数 据,可以通过标签指标数据反映该待分析文本(如,互联网上的文章)的主题的相关性,即, 第一文本标签的标签指标数据越大,该第一文本标签对应的主题与该待分析文本的相关性 越大。
[0068] 在本发明上述实施例中,基于每个待分析文本的第二文本标签的标签指标数 据、预设关键词的第一次数以及衍生关键词的第二次数计算预设关键词与每个待分 析文本的关联度数据可以包括:将与衍生关键词相同的第二文本标签对应的关联词 作为第三词语;按照第二公式计算每个待分析文本的关联度数据G,其中,第二公式为
?为预设关键词的第一次数,C为第二文本标 签的标签指标数据,D为第二文本标签出现在一个待分析文本中的次数,d为第二文本标签 的预设权重,m为第三词语的个数,k,为第j个第三词语对应的衍生关键词的第二次数,Ε」 为第j个第三词语出现在一个待分析文本中的第三次数,e,为第j个第三词语对应第二文 本标签的预设权重。
[0069] 具体地,在确定多个第一文本标签中与预设关键词相同的第二文本标签之后,从 计算得到的多个第一文本标签的标签指标数据中确定该第二文本标签的标签指标数据,并 将该第二文本标签对应的关联词中与各个衍生关键词相同的关联词作为第三词语,结合第 二文本标签的标签指标数据、预设关键词的第一次数和衍生关键词第二次数,按照第二公 式计算出该预设关键词与该待分析文本的关联度数据。
[0070] 结合上述的例子,在待分析文本的两个第一文本标签"大数据"和"金融"中,与预 设关键词"大数据"相同的是第一文本标签"大数据",那么将"大数据"确定为第二文本标 签,由于第二文本标签"大数据"的关联词有"大数据"、"big data"、"数据挖掘"、"数据应 用"以及"数据处理",预设关键词"大数据"的衍生关键词有"big data",那么第三词语即 为"big data",在该例中,预设关键词"大数据"的第一次数K为30,第二文本标签"大数 据"的标签指标数据C为55,第二文本标签"大数据"出现在一个待分析文本中的次数D为 4,第二文本标签"大数据"的预设权重d为5,第三词语的个数m为1,第j个第三词语对 应的衍生关键词(即上述的"big data")的第二次数4为10,第j个第三词语(即上述 的"big data")出现在一个待分析文本中的第三次数^为3,第j个第三词语(即上述的 "big data")对应第二文本标签的预设权重^为5,那么该待分析文本与预设关键词"大数 据"的关联度数据 G 为 30 X 55+30 X 4 X 5+ (10 X 55+10 X 3 X 5) = 2950。
[0071] 通过本发明上述实施例,在计算预设关键词与待分析文本的关联度数据时,考虑 了预设关键词基于各个待分析文本的衍生关键词以及待分析文本的主题,避免了现有技术 中根据文章中是否出现关键词、该关键词在该文章中的位置以及出现次数来确定文章与关 键词的关联度的准确度差的问题,提高了计算出的关联度数据的准确性。
[0072] 根据本发明上述实施例,在基于每个待分析文本的第二文本标签的标签指标数 据、预设关键词的第一次数以及衍生关键词的第二次数计算预设关键词与每个待分析文本 的关联度数据之后,该方法还可以包括:按照从高到低的顺序对各个待分析文本的关联度 数据进行排序,得到关联度排序表;展示关联度排序表中前N个关联度数据及对应的待分 析文本,其中,N为自然数。
[0073] 具体地,在计算得到各个待分析文本的关联度数据之后,按照从高到低的顺序对 各个关联度数据进行排序,得到关联度排序表,并将该关联度排序表中前N个(如前3个) 关联度数据及其对应的待分析文本展示出来。
[0074] 通过本发明上述实施例,关联度数据越高,表示该预设关键词与待分析文本的关 联度越大,将关联度数据最高的前N个关联度数据及其对应的待分析文本展示出来,可以 使得人们了解该预设关键词所对应知识或技术领域中最相关的文章。
[0075] 下面结合图2详细介绍本发明上述实施例,如图2所示,该方法可以包括如下步 骤:
[0076] 步骤S202,机器爬虫从服务器80上爬取互联网上的文章,并将爬取到的文章存储 在数据库中。
[0077] 在该步骤中,机器爬虫即本发明上述实施例中的网络爬虫,机器爬虫的工作原理 与本发明上述实施例中的网络爬虫一致,在此不再赘述。
[0078] 步骤S204,在数据库中统计出出现次数最高的Y个词作为独现词。
[0079] 上述的步骤S202和步骤S204可以通过爬虫单元20来实现。
[0080] 步骤S206,设置要搜索的关键词。
[0081 ] 其中,该关键词即本发明上述实施例中的预设关键词。
[0082] 步骤S208,在存储文章的数据库中根据关键词得出与关键词同时出现次数最高的 X个词作为共现词。
[0083] 步骤S210,根据独现词和共现词计算出Z个延生词并获取该Z个延生词的延生词 权重。
[0084] 该步骤中,延生词即为本发明上述实施例中的衍生关键词,延生词权重即本发明 上述实施例中的衍生关键词的第二次数。
[0085] 上述的步骤S206至步骤S210可以通过关键词设置单元40来实现。
[0086] 步骤S212,设置标签及每个标签对应的特性词。
[0087] 在该实施例中,标签即本发明上述实施例中的预设文本标签,特性词即上述预设 文本标签的关联词。
[0088] 步骤S214,为每个特性词设置特性词权重。
[0089] 其中,特性词权重即本发明上述实施例中预设文本标签的关联词对应该预设文本 标签的预设权重。
[0090] 步骤S216,根据每篇文章中每个标签的特性词的出现次数及其特性词权重计算出 文章在该标签上的标签分数。
[0091] 在该实施例中,标签分数即本发明上述实施例中的标签指标数据,可以按照上述 的第一公式计算文章在该标签上的标签分数,在此不再赘述。
[0092] 步骤S218,根据关键词的延生词及其延生词权重、以及文章对应关键词的标签的 标签分数计算出关键词与文章的关联度数据并对关联度数据进行排序。
[0093] 具体地,步骤S218的实现与步骤S110的实现方式一致,在此不再赘述。
[0094] 上述的步骤S212至步骤S218可以通过标签设置单元60来实现。
[0095] 在该实施例中,X、Y以及Z均为自然数。
[0096] 需要进一步说明的是,在对计算得到的关联度数据进行排序之后,展示出排在前Ν 个的关联度数据及其对应的文章。
[0097] 通过本发明上述实施例,基于爬取到的文章自动获取关键词的延生词,无需手动 添加,并为每个延生词定义了不同的权重(即本发明上述实施例中的第二次数);设置标签 以及标签对应的特性词,并为每个特性词定义了不同的权重(即上述的特性词权重);然后 结合关键词和文章对应的标签(即本发明上述实施例中的第二文本标签)计算出文章与关 键词的关联度数据并对其进行排序,可以将排在前Ν个关联度数据及其对应的文章展示出 来,以方便人们了解与该关键词最为相关的文章的内容。
[0098] 需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的 计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不 同于此处的顺序执行所示出或描述的步骤。
[0099] 本发明实施例还提供了一种获取文章关联度数据的装置。该装置可以通过本发明 上述实施例中的获取文章关联度数据的方法实现其功能。
[0100] 图3是根据本发明实施例的获取文章关联度数据的装置的示意图。如图3所示, 该装置可以包括:第一获取模块10、统计模块30、第一确定模块50、第二确定模块70以及 第一计算模块90。
[0101] 其中,第一获取模块1〇用于获取预设关键词和多个待分析文本;统计模块30用于 统计预设关键词对应多个待分析文本的衍生关键词,其中,衍生关键词为与预设关键词同 时出现在一个待分析文本中的关键词;第一确定模块50用于确定预设关键词出现在多个 待分析文本中的第一次数和衍生关键词出现在多个待分析文本中的第二次数;第二确定模 块70用于确定每个待分析文本的多个第一文本标签中与预设关键词相匹配的第二文本标 签,其中,第一文本标签用于标识待分析文本的主题;第一计算模块90用于基于每个待分 析文本的第二文本标签的标签指标数据、预设关键词的第一次数以及衍生关键词的第二次 数计算预设关键词与每个待分析文本的关联度数据。
[0102] 采用本发明实施例,在获取预设关键词和多个待分析文本之后,统计预设关键词 对应多个待分析文本的衍生关键词,并确定预设关键词出现在多个待分析文本中的第一次 数和衍生关键词出现在多个待分析文本中的第二次数,在确定每个待分析文本的多个第一 文本标签中与预设关键词相匹配的第二文本标签之后,基于每个待分析文本的第二文本标 签的标签指标数据、预设关键词的第一次数以及衍生关键词的第二次数计算预设关键词与 每个待分析文本的关联度数据。通过本发明实施例,结合预设关键词和待分析文本所对应 的文本标签计算出待分析文本与预设关键词的关联度,由于文本标签标识待分析文本的主 题,因此可以准确地确定预设关键词与待分析文本的关联度。采用本发明实施例,解决了现 有技术中无法准确确定文章与关键词的关联度的问题,实现了准确地确定文章和关键词的 关联度的效果。
[0103] 在上述实施例中,待分析文本可以是通过网络爬虫从互联网上爬取到的网络文 章,可选地,可以按照待爬取页面的URL列表来从互联网中爬取文章,也可以按照页面的级 数来爬取文章,例如,可以通过设定来使网络爬虫爬取某网站(如,新浪、网易或者腾讯等) 的一级页面上的内容(如,新浪首页上的内容),再爬取该网站二级页面上的内容(如,打开 新浪首页上的链接后的内容)等。
[0104] 其中,URL为Uniform Resources Locator,即统一资源定位符,是对可以从互联网 上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。
[0105] 在上述的实施例中,可以将爬取到的文章(即上述的待分析文本)存储在数据库 中。
[0106] 根据本发明上述实施例,统计模块可以包括:分词模块,用于对多个待分析文本进 行分词处理得到词语集合;第二获取模块,用于获取词语集合中每个第一词语的第一数量, 其中,第一数量大于第一预设阈值;第三获取模块,用于获取词语集合中每个第二词语的第 二数量,其中,第二数量为一个第二词语与预设关键词同时出现在各个待分析文本中的次 数的合计值,第二数量大于第二预设阈值;比较模块,用于比较第二词语和第一词语,若第 二词语与第一词语相同,则将第二数量与第一数量的比值作为第二词语的出现次数;若第 二词语与第一词语不同,则将第二数量作为第二词语的出现次数;第三确定模块,用于确定 将出现次数大于第三预设阈值的第二词语作为衍生关键词。
[0107] 具体地,可以按照预设词库中的预设词语对多个待分析文本进行分词,得到包括 多个第一词语的词语集合,例如,若待分析文本为"大数据指不用随机分析法这样的捷径, 而采用所有数据进行分析处理",那么对其进行分词处理后得到的词语集合可以包括以下 词语:"大数据"、"指"、"不用"、"随机分析法"、"这样的"、"捷径"、"而"、"采用"、"所有"、"数 据"、"进行"以及"分析处理"。
[0108] 进一步地,在得到词语集合之后,统计词语集合中各个第一词语的第一数量可以 包括:统计词语集合中各个词语的词语数量。
[0109] 在上述实施例中,在得到词语集合之后,获取词语集合中每个第二词语的第二数 量可以包括:统计各个待分析文本经分词得到的各个词语中与预设关键词同时出现的次数 的合计值;将出现次数最高的前X个词语作为第二词语,其中,X为自然数;或者将次数大于 第二预设阈值的词语作为第二词语;记录下每个第二词语对应的次数作为第二数量。
[0110] 在确定多个第一词语和多个第二词语之后,比较各个第二词语和各个第一词语, 若第二词语与第一词语相同,则将第二数量与第一数量的比值作为第二词语的出现次数; 若第二词语与第一词语不相同,则将第二数量作为第二词语的出现次数;并将出现次数大 于第三预设阈值的第二词语作为衍生关键词,或者将出现次数最高的前Z个第二词语作为 衍生关键词。
[0111] 通过本发明上述实施例,可以基于多个待分析文本自动确定预设关键词的衍生关 键词,无需手动为预设关键词添加衍生关键词,提高了确定的衍生关键词的准确性,在计算 预设关键词和待分析文本的关联度数据时,同样考虑衍生关键词的影响,提高了计算出的 关联度数据的准确度。
[0112] 在一个可选的实施例中,可以将从互联网上爬取到的文章(即待分析文本)存储 在数据库中,并对文章进行分词处理,计算数据库中存储的所有文章中出现次数最高的Y 个词作为独现词(即上述实施例中的第一词语)并记录每个独现词的出现次数a(即上述 的第一数量);根据预设关键词,在数据库中抓取与该预设关键词同时出现的次数最高的X 个词作为共现词(即上述的第二词语)并记录每个共现词的次数b (即上述的第二数量)。 结合独现词和共现词,若共现词中有词语和独现词中的词语相同,则将该共现词的出现次 数记为b/a,若共现词与独现词中的词语都不相同,则该共现词的出现次数仍为b,然后,将 出现次数最高的Z个词语作为该预设关键词的衍生关键词。
[0113] 在本发明实施例中,a、b以及Z均为自然数。
[0114] 在本发明上述实施例中,可以将与预设关键词同时出现的词语中没有特殊意义的 词去除,例如,一篇文章是关于大数据的应用的,但是文章中多次提到"科技文章"或"中国" 等对于"大数据"而言没有特殊性的词语(例如,在该文章中多次提到该文章是发表在中 国的某一科技文章刊物上),通过比较各个文章中出现次数最高的第一词语和与预设关键 词同时出现的次数最高的第二词语,使用第一词语的第一数量对第二词语的出现次数做修 正,达到去除第二词语中没有特殊性的词语的目的。
[0115] 进一步地,第一确定模块50可以包括:将上述实施例中的预设关键词的词语数量 作为预设关键词的第一次数;将上述实施例中的衍生关键词的出现次数作为衍生关键词的 第二次数。
[0116] 具体地,在统计出词语集合中各个词语的词语数量之后,将预设关键词对应的词 语数量作为预设关键词的第一次数;在确定衍生关键词之后,记录衍生关键词对应的出现 次数作为衍生关键词的第二次数。
[0117] 在本发明上述实施例中,该装置还可以包括:第四获取模块,用于在确定每个待分 析文本的多个第一文本标签中与预设关键词相匹配的第二文本标签之前,获取预设文本标 签和预设文本标签的关联词,其中,预设文本标签包括第一文本标签,预设文本标签对应至 少一个关联词;遍历模块,用于遍历多个待分析文本得到各个待分析文本包括的多个关联 词;查找模块,用于查找与每个待分析文本包括的各个关联词对应的多个预设文本标签,作 为多个第一文本标签。
[0118] 具体地,可以从预设标签库中获取预设文本标签和预设文本标签的关联词,其中 预设标签库中存储有预设文本标签及其对应的关联词,每个预设文本标签对应至少一个关 联词;遍历多个待分析文本,得到每个待分析文本包括的多个关联词;对于每个待分析文 本,查找其包括的各个关联词对应的多个预设文本标签,并将该多个预设文本标签设为该 待分析文本的第一文本标签。在该实施例中,由于一个预设文本标签可以对应多个关联词, 在确定每个待分析文本的第一文本标签时,第一文本标签的个数不大于该待分析文本对应 的关联词的个数。
[0119] 需要进一步说明的是,一个关联词只能对应一个预设文本标签。
[0120] 通过本发明上述实施例,将各个待分析文本与预设标签库中存储的预设文本标签 及其关联词进行匹配,确定了每个待分析文本的多个第一文本标签,每个第一文本标签标 识出了该待分析文本的一个主题,通过多个第一文本标签可以准确地标识出该待分析文本 涉及的各个主题,在计算预设关键词与待分析文本的关联度时,首先确定各个第一文本标 签中与预设关键词相匹配的第二文本标签,再基于该反映了待分析文本主题的第二文本标 签计算预设关键词与该待分析文本(如,互联网上的文章)之间的关联度数据,避免了现有 技术中根据文章中是否出现关键词、该关键词在该文章中的位置以及出现次数来确定文章 与关键词的关联度的准确度差的问题,提高了计算出的关联度数据的准确性。
[0121 ] 根据本发明上述实施例,该装置还可以包括:第二计算模块,用于在基于每个待分 析文本的第二文本标签的标签指标数据、预设关键词的第一次数以及衍生关键词的第二次 数计算预设关键词与每个待分析文本的关联度数据之前,按照第一公式计算每个第一文本 η 标签的标签指标数据Α,其中,第一公式为= η为第一文本标签对应的关联词 的个数,Bi为第i个第一文本标签对应的关联词出现在一个待分析文本中的次数,b i为第i 个第一文本标签对应的关联词对应第一文本标签的预设权重。
[0122] 具体地,在计算预设关键词与每个待分析文本的关联度数据之前,计算每个第一 文本标签的标签指标数据,对于一个第一文本标签来说,从预设标签库中读取其对应的各 个关联词的预设权重,并统计各个关联词在该待分析文本中出现的次数,计算各个关联词 的出现次数与各自预设权重,然后将乘积相加得出该第一文本标签的标签指标数据。
[0123] 通过本发明上述实施例,计算每个待分析文本的各个第一文本标签的标签指标数 据,可以通过标签指标数据反映该待分析文本(如,互联网上的文章)的主题的相关性,即, 第一文本标签的标签指标数据越大,该第一文本标签对应的主题与该待分析文本的相关性 越大。
[0124] 在本发明上述实施例中,第一计算模块可以包括:第四确定模块,用于 确定将与衍生关键词相同的第二文本标签对应的关联词作为第三词语;计算子 模块,用于按照第二公式计算每个待分析文本的关联度数据G,其中,第二公式为 6 + 於*£,'),K为预设关键词的第一次数,C为第二文本标 /=1 签的标签指标数据,D为第二文本标签出现在一个待分析文本中的次数,d为第二文本标签 的预设权重,m为第三词语的个数,k,为第j个第三词语对应的衍生关键词的第二次数,Ε」 为第j个第三词语出现在一个待分析文本中的第三次数,e,为第j个第三词语对应第二文 本标签的预设权重。
[0125] 具体地,在确定多个第一文本标签中与预设关键词相同的第二文本标签之后,从 计算得到的多个第一文本标签的标签指标数据中确定该第二文本标签的标签指标数据,并 将该第二文本标签对应的关联词中与各个衍生关键词相同的关联词作为第三词语,结合第 二文本标签的标签指标数据、预设关键词的第一次数和衍生关键词第二次数,按照第二公 式计算出该预设关键词与该待分析文本的关联度数据。
[0126] 通过本发明上述实施例,在计算预设关键词与待分析文本的关联度数据时,考虑 了预设关键词基于各个待分析文本的衍生关键词以及待分析文本的主题,避免了现有技术 中根据文章中是否出现关键词、该关键词在该文章中的位置以及出现次数来确定文章与关 键词的关联度的准确度差的问题,提高了计算出的关联度数据的准确性。
[0127] 根据本发明上述实施例,该装置还可以包括:排序模块,用于在基于每个待分析文 本的第二文本标签的标签指标数据、预设关键词的第一次数以及衍生关键词的第二次数计 算预设关键词与每个待分析文本的关联度数据之后,按照从高到低的顺序对各个待分析文 本的关联度数据进行排序,得到关联度排序表;展示模块,用于展示关联度排序表中前N个 关联度数据及对应的待分析文本,其中,N为自然数。
[0128] 具体地,在计算得到各个待分析文本的关联度数据之后,按照从高到低的顺序对 各个关联度数据进行排序,得到关联度排序表,并将该关联度排序表中前N个(如前3个) 关联度数据及其对应的待分析文本展示出来。
[0129] 通过本发明上述实施例,关联度数据越高,表示该预设关键词与待分析文本的关 联度越大,将关联度数据最高的前N个关联度数据及其对应的待分析文本展示出来,可以 使得人们了解该预设关键词所对应知识或技术领域中最相关的文章。
[0130] 本实施例中所提供的各个模块与方法实施例对应步骤所提供的使用方法相同、应 用场景也可以相同。当然,需要注意的是,上述模块涉及的方案可以不限于上述实施例中的 内容和场景,且上述模块可以运行在计算机终端或移动终端,可以通过软件或硬件实现。
[0131] 从以上的描述中,可以看出,本发明实现了如下技术效果:
[0132] 采用本发明实施例,在获取预设关键词和多个待分析文本之后,统计预设关键词 对应多个待分析文本的衍生关键词,并确定预设关键词出现在多个待分析文本中的第一次 数和衍生关键词出现在多个待分析文本中的第二次数,在确定每个待分析文本的多个第一 文本标签中与预设关键词相匹配的第二文本标签之后,基于每个待分析文本的第二文本标 签的标签指标数据、预设关键词的第一次数以及衍生关键词的第二次数计算预设关键词与 每个待分析文本的关联度数据。通过本发明实施例,结合预设关键词和待分析文本所对应 的文本标签计算出待分析文本与预设关键词的关联度,由于文本标签标识待分析文本的主 题,因此可以准确地确定预设关键词与待分析文本的关联度。采用本发明实施例,解决了现 有技术中无法准确确定文章与关键词的关联度的问题,实现了准确地确定文章和关键词的 关联度的效果。
[0133] 显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用 的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成 的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储 在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们 中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的 硬件和软件结合。
[0134] 以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技 术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修 改、等同替换、改进等,均应包含在本发明的保护范围之内。
【主权项】
1. 一种获取文章关联度数据的方法,其特征在于,包括: 获取预设关键词和多个待分析文本; 统计所述预设关键词对应所述多个待分析文本的衍生关键词,其中,所述衍生关键词 为与所述预设关键词同时出现在一个所述待分析文本中的关键词; 确定所述预设关键词出现在所述多个待分析文本中的第一次数和所述衍生关键词出 现在所述多个待分析文本中的第二次数; 确定每个所述待分析文本的多个第一文本标签中与所述预设关键词相匹配的第二文 本标签,其中,所述第一文本标签用于标识所述待分析文本的主题; 基于每个所述待分析文本的第二文本标签的标签指标数据、所述预设关键词的第一次 数W及所述衍生关键词的第二次数计算所述预设关键词与每个所述待分析文本的关联度 数据。2. 根据权利要求1所述的方法,其特征在于,统计所述预设关键词对应所述多个待分 析文本的衍生关键词包括: 对所述多个待分析文本进行分词处理得到词语集合; 获取所述词语集合中每个第一词语的第一数量,其中,所述第一数量大于第一预设阔 值; 获取所述词语集合中每个第二词语的第二数量,其中,所述第二数量为一个所述第二 词语与所述预设关键词同时出现在各个所述待分析文本中的次数的合计值,所述第二数量 大于第二预设阔值; 比较所述第二词语和所述第一词语,若所述第二词语与所述第一词语相同,则将所述 第二数量与所述第一数量的比值作为所述第二词语的出现次数;若所述第二词语与所述第 一词语不同,则将所述第二数量作为所述第二词语的出现次数; 将所述出现次数大于第=预设阔值的第二词语作为所述衍生关键词。3. 根据权利要求1所述的方法,其特征在于,在确定每个所述待分析文本的多个第一 文本标签中与所述预设关键词相匹配的第二文本标签之前,所述方法还包括: 获取预设文本标签和所述预设文本标签的关联词,其中,所述预设文本标签包括所述 第一文本标签,所述预设文本标签对应至少一个所述关联词; 遍历所述多个待分析文本得到各个所述待分析文本包括的多个关联词; 查找与每个所述待分析文本包括的各个所述关联词对应的多个预设文本标签,作为所 述多个第一文本标签。4. 根据权利要求3所述的方法,其特征在于,在基于每个所述待分析文本的第二文本 标签的标签指标数据、所述预设关键词的第一次数W及所述衍生关键词的第二次数计算所 述预设关键词与每个所述待分析文本的关联度数据之前,所述方法还包括: 按照第一公式计算每个所述第一文本标签的标签指标数据A,其中, 所述第一公式为:所述n为所述第一文本标签对应的关联词的个数,所述Bi为第i个所述第一文本标签 对应的关联词出现在一个所述待分析文本中的次数,所述bi第i个为所述第一文本标签对 应的关联词对应所述第一文本标签的预设权重。5. 根据权利要求4所述的方法,其特征在于,基于每个所述待分析文本的第二文本标 签的标签指标数据、所述预设关键词的第一次数W及所述衍生关键词的第二次数计算所述 预设关键词与每个所述待分析文本的关联度数据包括: 将与所述衍生关键词相同的所述第二文本标签对应的关联词作为第=词语; 按照第二公式计算每个所述待分析文本的关联度数据G,其中, 所述第二公式为所述K为所述预设关键词的第一次数,所述C为所述第二文本标签的标签指标数据,所 述D为所述第二文本标签出现在一个所述待分析文本中的次数,所述d为所述第二文本标 签的预设权重,所述m为所述第=词语的个数,所述k,为第j个所述第=词语对应的衍生 关键词的第二次数,所述E,为第j个所述第=词语出现在一个所述待分析文本中的第=次 数,所述e,为第j个所述第=词语对应所述第二文本标签的预设权重。6. 根据权利要求1至5中任意一项所述的方法,其特征在于,在基于每个所述待分析文 本的第二文本标签的标签指标数据、所述预设关键词的第一次数W及所述衍生关键词的第 二次数计算所述预设关键词与每个所述待分析文本的关联度数据之后,所述方法还包括: 按照从高到低的顺序对各个所述待分析文本的关联度数据进行排序,得到关联度排序 表; 展示所述关联度排序表中前N个所述关联度数据及对应的所述待分析文本,其中,所 述N为自然数。7. -种获取文章关联度数据的装置,其特征在于,包括: 第一获取模块,用于获取预设关键词和多个待分析文本; 统计模块,用于统计所述预设关键词对应所述多个待分析文本的衍生关键词,其中,所 述衍生关键词为与所述预设关键词同时出现在一个所述待分析文本中的关键词; 第一确定模块,用于确定所述预设关键词出现在所述多个待分析文本中的第一次数和 所述衍生关键词出现在所述多个待分析文本中的第二次数; 第二确定模块,用于确定每个所述待分析文本的多个第一文本标签中与所述预设关键 词相匹配的第二文本标签,其中,所述第一文本标签用于标识所述待分析文本的主题; 第一计算模块,用于基于每个所述待分析文本的第二文本标签的标签指标数据、所述 预设关键词的第一次数W及所述衍生关键词的第二次数计算所述预设关键词与每个所述 待分析文本的关联度数据。8. 根据权利要求7所述的装置,其特征在于,所述统计模块包括: 分词模块,用于对所述多个待分析文本进行分词处理得到词语集合; 第二获取模块,用于获取所述词语集合中每个第一词语的第一数量,其中,所述第一数 量大于第一预设阔值; 第=获取模块,用于获取所述词语集合中每个第二词语的第二数量,其中,所述第二数 量为一个所述第二词语与所述预设关键词同时出现在各个所述待分析文本中的次数的合 计值,所述第二数量大于第二预设阔值; 比较模块,用于比较所述第二词语和所述第一词语,若所述第二词语与所述第一词语 相同,则将所述第二数量与所述第一数量的比值作为所述第二词语的出现次数;若所述第 二词语与所述第一词语不同,则将所述第二数量作为所述第二词语的出现次数; 第=确定模块,用于确定将所述出现次数大于第=预设阔值的第二词语作为所述衍生 关键词。9. 根据权利要求7所述的装置,其特征在于,所述装置还包括: 第四获取模块,用于在确定每个所述待分析文本的多个第一文本标签中与所述预设关 键词相匹配的第二文本标签之前,获取预设文本标签和所述预设文本标签的关联词,其中, 所述预设文本标签包括所述第一文本标签,所述预设文本标签对应至少一个所述关联词; 遍历模块,用于遍历所述多个待分析文本得到各个所述待分析文本包括的多个关联 词; 查找模块,用于查找与每个所述待分析文本包括的各个所述关联词对应的多个预设文 本标签,作为所述多个第一文本标签。10. 根据权利要求9所述的装置,其特征在于,所述装置还包括: 第二计算模块,用于在基于每个所述待分析文本的第二文本标签的标签指标数据、所 述预设关键词的第一次数W及所述衍生关键词的第二次数计算所述预设关键词与每个所 述待分析文本的关联度数据之前,按照第一公式计算每个所述第一文本标签的标签指标数 据A,其中, 所述第一公式为:所述n为所述第一文本标签对应的关联词的个数,所述Bi为第i个所述第一文本标签 对应的关联词出现在一个所述待分析文本中的次数,所述bi为第i个所述第一文本标签对 应的关联词对应所述第一文本标签的预设权重。11. 根据权利要求10所述的装置,其特征在于,所述第一计算模块包括: 第四确定模块,用于确定将与所述衍生关键词相同的所述第二文本标签对应的关联词 作为第=词语; 计算子模块,用于按照第二公式计算每个所述待分析文本的关联度数据G,其中, 所述第二公式为'所述K为所述预设关键词的第一次数,所述C为所述第二文本标签的标签指标数据,所 述D为所述第二文本标签出现在一个所述待分析文本中的次数,所述d为所述第二文本标 签的预设权重,所述m为所述第=词语的个数,所述k,为第j个所述第=词语对应的衍生 关键词的第二次数,所述E,为第j个所述第=词语出现在一个所述待分析文本中的第=次 数,所述e,为第j个所述第=词语对应所述第二文本标签的预设权重。12. 根据权利要求7至11中任意一项所述的装置,其特征在于,所述装置还包括: 排序模块,用于在基于每个所述待分析文本的第二文本标签的标签指标数据、所述预 设关键词的第一次数W及所述衍生关键词的第二次数计算所述预设关键词与每个所述待 分析文本的关联度数据之后,按照从高到低的顺序对各个所述待分析文本的关联度数据进 行排序,得到关联度排序表; 展示模块,用于展示所述关联度排序表中前N个所述关联度数据及对应的所述待分析 文本,其中,所述N为自然数。
【文档编号】G06F17/30GK106033445SQ201510114670
【公开日】2016年10月19日
【申请日】2015年3月16日
【发明人】陈俊宏, 余德乐, 杨韬, 赵冬玲
【申请人】北京国双科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1