关键词提取方法及装置的制造方法_5

文档序号:9667310阅读:来源:国知局
组合成一个模块,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特 征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括 伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者客户端的 所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附 图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0120] 此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例 中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的 范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任 意之一都可以以任意的组合方式来使用。
[0121] 本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行 的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用 微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的加载有排序网址的客户端 中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的 方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样 的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形 式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形 式提供。
[0122]应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领 域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中, 不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词"包含"不排除存在未 列在权利要求中的元件或步骤。位于元件之前的单词"一"或"一个"不排除存在多个这样的 元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实 现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项 来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名 称。
【主权项】
1. 一种关键词提取方法,其特征在于,包括: 提供一领域内的语料数据,所述语料数据包括多个文档; 对所述语料数据进行预处理,得到文本数据; 对所述文本数据进行分词处理,得到多个语料词语; 对所述语料词语进行过滤处理,得到多个候选词; 为每个所述候选词设置初始权重值; 根据候选词在每个文档中的共现关系调整所述候选词的初始权重值,得到候选词在每 个文档中的最终权重值; 根据所述最终权重值确定每个文档的关键词。2. 如权利要求1所述的关键词提取方法,其特征在于,所述预处理包括:将语料数据的 格式统一为文本格式,过滤脏词、敏感词和停用词中的一种或多种,并将过滤后的文本数据 按照标点划分为多行。3. 如权利要求1所述的关键词提取方法,其特征在于,所述分词处理采用字典双向最大 匹配法、vi terb i方法、HMM方法和CRF方法中的一种或多种。4. 如权利要求1所述的关键词提取方法,其特征在于,所述过滤处理采用以下任一种或 两种方式: 根据词性对所述语料词语进行过滤,保留名词、动词以及形容词; 根据频次对所述语料词语进行过滤,保留频次大于频次阈值的语料词语。5. 如权利要求1所述的关键词提取方法,其特征在于,所述初始权重值通过以下方式进 行设置; 当候选词在标题中出现过时,根据算候选词的初始权重值; 否则,根据.计算候选词的初始权重值; 其中:Wl表示初始权重值,m表示候选词出现的文档次数,N表示语料的所有文档数;m为 大于1的系数。6. 如权利要求5所述的关键词提取方法,其特征在于,所述1.5 < m < 2。7. 如权利要求1所述的关键词提取方法,其特征在于,根据候选词在每个文档中的共现 关系调整所述候选词的初始权重值,得到候选词在每个文档中的最终权重值具体包括: 设置预定大小的滑动窗口,将所述滑动窗口在当前文档中进行动态滑动; 获取所述滑动窗口中出现的2个以上的候选词,将所述2个以上的候选词之间添加互相 指向的2个连接,并将每个候选词作为一个节点,构建当前文档的关联有向图; 根据所述初始权重值,迭代计算所述关联有向图中各个节点的权重值,直到当前节点 的相邻两次权重值之差小于第二阈值或达到迭代次数后停止迭代计算,并将最后一次计算 的权重值作为相应节点的最终权重值。8. 如权利要求7所述的关键词提取方法,其特征在于,根据以下公式迭代计算所述关联 有向图中各个节点的权重值:其中,WS(V1)表示候选词V1调整后的权重值,d为预先设置的阻尼系数,In(V1)表示当前 文档中指向候选词Vi的节点,Out (Vi)表示Vi指向的节点,WS (Vj)表示所述词语关联有向图 中节点Vj的权重值,Nj表示Vj指向的节点的个数。9. 如权利要求1所述的关键词提取方法,其特征在于,根据所述最终权重值确定每个文 档的关键词包括: 将最终权重值最大的前N个候选词作为文档的关键词,其中,N为自然数;或者, 将最终权重值大于预先设置的权重阈值的候选词作为文档的关键词。10. -种关键词提取装置,其特征在于,包括: 提供模块,用于提供一领域内的语料数据,所述语料数据包括多个文档; 预处理模块,用于对所述语料数据进行预处理,得到文本数据; 分词模块,用于对所述文本数据进行分词处理,得到多个语料词语; 过滤模块,用于对所述语料词语进行过滤处理,得到多个候选词; 设置模块,用于为每个所述候选词设置初始权重值; 调整模块,用于根据候选词在每个文档中的共现关系调整所述候选词的初始权重值, 得到候选词在每个文档中的最终权重值; 确定模块,用于根据所述最终权重值确定每个文档的关键词。11. 如权利要求10所述的关键词提取装置,其特征在于,所述预处理模块具体用于:将 语料数据的格式统一为文本格式,过滤脏词、敏感词和停用词中的一种或多种,并将过滤后 的文本数据按照标点划分为多行。12. 如权利要求10所述的关键词提取装置,其特征在于,所述过滤模块具体用于: 根据词性对所述语料词语进行过滤,保留名词、动词以及形容词;和/或, 根据频次对所述语料词语进行过滤,保留频次大于频次阈值的语料词语。13. 如权利要求10所述的关键词提取装置,其特征在于,所述设置模块具体用于: 当候选词在标题中出现过时,根据计算候选词的初始权重值; 否则,根据.计算候选词的初始权重值; 其中:Wl表示初始权重值,m表示候选词出现的文档次数,N表示语料的所有文档数;m为 大于1的系数。14. 如权利要求10所述的关键词提取装置,其特征在于,所述调整模块具体用于: 设置预定大小的滑动窗口,将所述滑动窗口在当前文档中进行动态滑动; 获取所述滑动窗口中出现的2个以上的候选词,将所述2个以上的候选词之间添加互相 指向的2个连接,并将每个候选词作为一个节点,构建当前文档的关联有向图; 根据所述初始权重值,迭代计算所述关联有向图中各个节点的权重值,直到当前节点 的相邻两次权重值之差小于第二阈值或达到迭代次数后停止迭代计算,并将最后一次计算 的权重值作为相应节点的最终权重值。15. 如权利要求14所述的关键词提取装置,其特征在于,所述调整模块具体用于: 根据以下公式迭代计算所述关联有向图中各个节点的权重值:其中,WS(V1)表示候选词V1调整后的权重值,d为预先设置的阻尼系数,In(V1)表示当前 文档中指向候选词Vi的节点,Out (Vi)表示Vi指向的节点,WS (Vj)表示所述词语关联有向图 中节点Vj的权重值,Nj表示Vj指向的节点的个数。16.如权利要求10所述的关键词提取装置,其特征在于,所述确定模块具体用于: 将最终权重值最大的前N个候选词作为文档的关键词,其中,N为自然数;或者, 将最终权重值大于预先设置的权重阈值的候选词作为文档的关键词。
【专利摘要】本发明公开了一种关键词提取方法及装置。该方法包括:提供一领域内的语料数据,语料数据包括多个文档;对语料数据进行预处理,得到文本数据;对文本数据进行分词处理,得到多个语料词语;对语料词语进行过滤处理,得到多个候选词;为每个候选词设置初始权重值;根据候选词在每个文档中的共现关系调整候选词的初始权重值,得到候选词在每个文档中的最终权重值;根据最终权重值确定每个文档的关键词。借助于本发明的技术方案,能够准确提取某一领域中语料的关键词。
【IPC分类】G06F17/27
【公开号】CN105426361
【申请号】CN201510874564
【发明人】张昊, 朱频频
【申请人】上海智臻智能网络科技股份有限公司
【公开日】2016年3月23日
【申请日】2015年12月2日
当前第5页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1