关键词提取方法及装置的制造方法

文档序号:9667310阅读:286来源:国知局
关键词提取方法及装置的制造方法
【技术领域】
[0001] 本发明涉及信息处理技术领域,特别是涉及一种关键词提取方法及装置。
【背景技术】
[0002] 在现有技术中,在对某一个领域内的多篇文档组成的语料提取关键词时,多是人 工审核该领域内的语料,并总结文本语义,提取关键词,从而对用户的语义进行理解。因此, 现有技术方案存在关键词提取效率低、成本高、容易漏检的问题。

【发明内容】

[0003] 鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上 述问题的关键词提取方法及装置。
[0004] 本发明提供一种关键词提取方法,包括:
[0005] 提供一领域内的语料数据,语料数据包括多个文档;
[0006] 对语料数据进行预处理,得到文本数据;
[0007] 对文本数据进行分词处理,得到多个语料词语;
[0008] 对语料词语进行过滤处理,得到多个候选词;
[0009] 为每个候选词设置初始权重值;
[0010] 根据候选词在每个文档中的共现关系调整候选词的初始权重值,得到候选词在每 个文档中的最终权重值;
[0011] 根据最终权重值确定每个文档的关键词。
[0012 ]本发明还提供了 一种关键词提取装置,包括:
[0013] 提供模块,用于提供一领域内的语料数据,语料数据包括多个文档;
[0014] 预处理模块,用于对语料数据进行预处理,得到文本数据;
[0015] 分词模块,用于对文本数据进行分词处理,得到多个语料词语;
[0016]过滤模块,用于对语料词语进行过滤处理,得到多个候选词;
[0017] 设置模块,用于为每个候选词设置初始权重值;
[0018] 调整模块,用于根据候选词在每个文档中的共现关系调整候选词的初始权重值, 得到候选词在每个文档中的最终权重值;
[0019] 确定模块,用于根据最终权重值确定每个文档的关键词。
[0020] 本发明有益效果如下:
[0021] 通过对某一领域内所有语料进行预处理、分词和过滤后得到候选词,根据每个候 选词的权重最终获取语料的关键词,解决了现有技术中关键词提取效率低、成本高、容易漏 检的问题,借助于本发明实施例的技术方案,能够自动提取某一领域中语料的关键词,关键 词提取的准确率高,成本低,不会发生漏检,从而提高了语义理解的执行效率,能够更准确 的根据关键词执行后续操作。
[0022] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段, 而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够 更明显易懂,以下特举本发明的【具体实施方式】。
【附图说明】
[0023] 通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通 技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明 的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0024] 图1是本发明实施例的关键词提取方法的流程图;
[0025] 图2是本发明实施例的关键词提取方法的详细处理的流程图;
[0026] 图3是本发明实施例的关键词提取装置的结构示意图。
【具体实施方式】
[0027] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开 的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例 所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围 完整的传达给本领域的技术人员。
[0028] 为了解决现有技术中关键词提取效率低、成本高、容易漏检的问题,本发明提供了 一种关键词提取方法及装置,以下结合附图以及实施例,对本发明进行进一步详细说明。应 当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
[0029]方法实施例
[0030] 根据本发明的实施例,提供了一种关键词提取方法,图1是本发明实施例的关键词 提取方法的流程图。
[0031] 如图1所示,根据本发明实施例的关键词提取方法包括如下处理:
[0032] 步骤101,提供一领域内的语料数据,语料数据包括多个文档;也就是说,语料数据 是由某一个领域内互相独立的多个文档所组成的。
[0033]步骤102,对语料数据进行预处理,得到文本数据;在步骤102中,预处理包括:将语 料数据的格式统一为文本格式,过滤脏词、敏感词和停用词中的一种或多种,并将过滤后的 文本数据按照标点划分为多行。例如,上述标点可以是问号、叹号、分号或句号,也就是说, 可以将过滤后的文本数据按照问号、叹号、分号或句号划分为多行。
[0034] 步骤103,对文本数据进行分词处理,得到多个语料词语;在步骤103中,分词处理 可以采用字典双向最大匹配法、viterbi方法、HMM方法和CRF方法中的一种或多种进行。 [0035] 步骤104,对语料词语进行过滤处理,得到多个候选词;在步骤104中,过滤处理可 以采用以下任一种或两种方式:
[0036] 方式一:根据词性对语料词语进行过滤,保留名词、动词以及形容词;
[0037] 方式二:根据频次对语料词语进行过滤,保留频次大于频次阈值的语料词语,其 中,频次是指语料词语在语料数据中出现的频率或者次数。
[0038] 本实施例中,先根据词性对语料词语进行过滤,仅保留名词、动词以及形容词,去 除其它词性的语料词语;然后根据频次对保留的名词、动词以及形容词进行过滤,保留频次 大于频次阈值的语料词语,从而字典中为频次大于频次阈值的名词、动词和形容词。
[0039] 在本发明的其它实施例中,可以仅根据词性进行过滤,也可以仅根据频次进行过 滤,还可以先根据频次进行过滤再根据词性进行过滤,其都在本发明的保护范围之内。
[0040]步骤105,为每个候选词设置初始权重值;在步骤105中,初始权重值通过以下方式 进行设置;
[0041 ]当候选词在标题中出现过时,根据Wi= 计算候选词的初始权重值;否则,根 据w =3计算候选词的初始权重值;其中:wi表示初始权重值,ni表示候选词出现的文档次 数,N表示语料的所有文档数;m为大于1的系数。
[0042] 优选地,1.5 2。在实际应用中m可以是定值,也可以根据候选词在标题中出现 的次数不同设置不同的值。例如,候选词在题目中出现了 1次,可以将m设置为1.5,如果出现 了 2次,可以将m设置为2。这样可以使候选词的初始权重值更加精确。
[0043]步骤106,根据候选词在每个文档中的共现关系调整候选词的初始权重值,得到候 选词在每个文档中的最终权重值。
[0044] 在步骤106中,具体包括如下处理:
[0045] 步骤1061,设置预定大小的滑动窗口,将滑动窗口在当前文档中进行动态滑动;
[0046]步骤1062,获取滑动窗口中出现的2个以上的候选词,将2个以上的候选词之间添 加互相指向的2个连接,并将每个候选词作为一个节点,构建当前文档的关联有向图;
[0047]步骤1063,根据初始权重值,迭代计算关联有向图中各个节点的权重值,直到当前 节点的相邻两次权重值之差小于第二阈值或达到迭代次数后停止迭代计算,并将最后一次 计算的权重值作为相应节点的最终权重值。
[0048]具体地,在步骤1063中,根据以下公式迭代计算关联有向图中各个节点的权重值:
[0049]
[0050]其中,WSaO表示候选词I调整后的权重值,d为预先设置的阻尼系数(如:0.85), In(Vi)表示当前文档中指向候选词Vi的节点,Out(Vi)表示Vi指向的节点,WS(Vj)表示词语关 联有向图中节点Vj的权重值,Nj表示Vj指向的节点的个数。
[0051]步骤107,根据最终权重值确定每个文档的关键词。
[0052]在步骤107中,可以将最终权重值最大的前N个候选词作为文档的关键词,其中,N为自然数;或者,将最终权重值大于预先设置的权重阈值的候选词作为文档的关键词。 [0053]综上所述,本发明实施例的技术方案对所有语料数据进行预处理和分词后,利用 词频和词性等特征过滤候选词,根据位置和文档次数等特征设置初始权重值,并构建当前 文档的关联有向图,通过迭代计算使关联有向图稳定后根据候选词的最终权重值生产语料 的关键词。
[0054]以下结合附图,对本发明实施例的上述技术方案进行详细说明。
[0055]
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1