关键词提取方法及装置的制造方法_4

文档序号:9667310阅读:来源:国知局
= 1.0. 29 = 1.0,30 = 1.0,31 = 1.0,32 = 1.0,33 = 1.0,34 = 1.0,35 = 1.0,36= 1.0,37= 1.0, 38 = 1.0,39 = 1.0,40 = 1.0,41 = 1.0,42 = 1.0,43 = 1.0,44 = 1.0,45 = 1.0,46 = 1.0,47 = 1.0. 58 = 1.0,49 = 1.0,50 = 1.0,51 = 1.0,52 = 1.0,53 = 1.0,54 = 1.0,55= 1.0,56= 1.0, 57 = 1.0}
[0089] 其中,等号前面的0-57为候选词的序号。
[0090] 根据候选词在滑动窗口中的共现关系构建每个文档的关联有向图。以上述文档为 例,上述文档中的58个候选词进行17次迭代后关联有向图稳定,得到每个候选词的最终权 重值。为了简单起见,此处仅给出上述文档中最终权重值最大的前10个为:
[0091 ][雷锋6.071863508615862,精神6.006201208401913,共产主义 3.62503613956761,道德2.904821421678404,社会主义2.437237684482612,具有 2.3698202044245216, 一行2. 160214027566892,推动2. 1499017360950763,积极 2 · 0044311280482248,理想 1 · 9856961312709784]
[0092]上面的结果中已经将最终权重值进行了降序排列。
[0093] 最终只要按照该文档所需关键词的个数要求,输出前N个候选词作为当前文档的 关键词即可。
[0094] 综上所述,借助于本发明实施例的技术方案,通过对某一领域内所有语料进行预 处理、分词、和过滤后得到候选词,根据每个候选词的权重最终获取语料的关键词,解决了 现有技术中关键词提取效率低、成本高、容易漏检的问题,借助于本发明实施例的技术方 案,能够自动提取某一领域中语料的关键词,关键词提取的准确率高,从而提高了语义理解 的执行效率,能够更准确的根据关键词执行后续操作。
[0095] 装置实施例
[0096] 根据本发明的实施例,提供了一种关键词提取装置,图3是本发明实施例的关键词 提取装置的结构示意图,如图3所示,根据本发明实施例的关键词提取装置具体包括:提供 模块30、预处理模块31、分词模块32、过滤模块33、设置模块34、调整模块35以及确定模块 36,以下对本发明实施例的关键词提取装置的各个模块进行详细说明。
[0097] 提供模块30,用于提供一领域内的语料数据,所述语料数据包括多个文档;也就是 说,语料数据是由某一个领域内互相独立的多个文档所组成的。
[0098]预处理模块31,用于对所述语料数据进行预处理,得到文本数据;其中,预处理包 括:将语料数据的格式统一为文本格式,过滤脏词、敏感词和停用词中的一种或多种,并将 过滤后的文本数据按照标点划分为多行。例如,上述标点可以是问号、叹号、分号或句号,也 就是说,可以将过滤后的文本数据按照问号、叹号、分号或句号划分为多行。
[0099]分词模块32,用于对所述文本数据进行分词处理,得到多个语料词语;具体地,分 词处理可以采用字典双向最大匹配法、viterbi方法、HMM方法和CRF方法中的一种或多种进 行。
[0100]过滤模块33,用于对所述语料词语进行过滤处理,得到多个候选词;过滤模块33的 过滤处理可以采用以下任一种或两种方式:
[0101 ]方式一:根据词性对语料词语进行过滤,保留名词、动词以及形容词;
[0102] 方式二:根据频次对语料词语进行过滤,保留频次大于频次阈值的语料词语,其 中,频次是指语料词语在语料数据中出现的频率或者次数。
[0103]本实施例中,先根据词性对语料词语进行过滤,仅保留名词、动词以及形容词,去 除其它词性的语料词语;然后根据频次对保留的名词、动词以及形容词进行过滤,保留频次 大于频次阈值的语料词语,从而字典中为频次大于频次阈值的名词、动词和形容词。
[0104]在本发明的其它实施例中,可以仅根据词性进行过滤,也可以仅根据频次进行过 滤,还可以先根据频次进行过滤再根据词性进行过滤,其都在本发明的保护范围之内。
[0105]设置模块34,用于为每个所述候选词设置初始权重值;初始权重值通过以下方式 进行设置;
[0106]当候选词在标题中出现过时,根据Wi= 计算候选词的初始权重值;否则,根 ?居琢产發f计麵翻白勺丰刀娜纖;热讀雜辦又纖,圯賴娜司_勺挪欠 数,N表示语料的所有文档数;m为大于1的系数。优选地,1.5 2。在实际应用中m可以是 定值,也可以根据候选词在标题中出现的次数不同设置不同的值。例如,候选词在题目中出 现了 1次,可以将m设置为1.5,如果出现了 2次,可以将m设置为2。这样可以使候选词的初始 权重值更加精确。
[0107]调整模块35,用于根据候选词在每个文档中的共现关系调整所述候选词的初始权 重值,得到候选词在每个文档中的最终权重值;
[0108]调整模块35具体用于:设置预定大小的滑动窗口,将滑动窗口在当前文档中进行 动态滑动;获取滑动窗口中出现的2个以上的候选词,将2个以上的候选词之间添加互相指 向的2个连接,并将每个候选词作为一个节点,构建当前文档的关联有向图;根据初始权重 值,迭代计算关联有向图中各个节点的权重值,直到当前节点的相邻两次权重值之差小于 第二阈值或达到迭代次数后停止迭代计算,并将最后一次计算的权重值作为相应节点的最 终权重值。
[0109]具体地,根据以下公式迭代计算关联有向图中各个节点的权重值:
[0110]
[0111]其中,wsao表示候选词I调整后的权重值,d为预先设置的阻尼系数(如:0.85), In(Vi)表示当前文档中指向候选词Vi的节点,Out(Vi)表示Vi指向的节点,WS(Vj)表示词语关 联有向图中节点Vj的权重值,Nj表示Vj指向的节点的个数。
[0112] 确定模块36,用于根据所述最终权重值确定每个文档的关键词。优选地,确定模块 36可以将最终权重值最大的前N个候选词作为文档的关键词,其中,N为自然数;或者,将最 终权重值大于预先设置的权重阈值的候选词作为文档的关键词。
[0113]本发明实施例各个模块的具体处理可以参照方法实施例的描述进行理解,在此不 再赘述。
[0114] 综上所述,借助于本发明实施例的技术方案,通过对某一领域内所有语料进行预 处理、分词和过滤后得到候选词,根据每个候选词的权重最终获取语料的关键词,解决了现 有技术中关键词提取效率低、成本高、容易漏检的问题,借助于本发明实施例的技术方案, 能够自动提取某一领域中语料的关键词,关键词提取的准确率高,从而提高了语义理解的 执行效率,能够更准确的根据关键词执行后续操作。
[0115] 显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精 神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围 之内,则本发明也意图包含这些改动和变型在内。
[0116] 在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。 各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求 的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种 编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发 明的最佳实施方式。
[0117] 在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施 例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构 和技术,以便不模糊对本说明书的理解。
[0118]类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在 上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施 例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保 护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面 的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此, 遵循【具体实施方式】的权利要求书由此明确地并入该【具体实施方式】,其中每个权利要求本身 都作为本发明的单独实施例。
[0119] 本领域那些技术人员可以理解,可以对实施例中的客户端中的模块进行自适应性 地改变并且把它们设置在与该实施例不同的一个或多个客户端中。可以把实施例中的模块
当前第4页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1