关键词提取方法及装置的制造方法_2

文档序号:9667310阅读:来源:国知局
图2是本发明实施例的关键词提取方法的一种详细处理的流程图,如图2所示,根 据本发明实施例的关键词提取方法具体包括如下处理:
[0056]步骤201,将获取的某一领域内的语料数据的格式统一为文本格式,得到文本数 据,并过滤无效的格式,去除脏词、敏感词和停用词等词;对处理后的语料按大标点(问号、 叹号、分号以及句号)分割成行保存。
[0057]需要说明的是,在本实例中,某一领域内的语料数据属于多个文档。
[0058]步骤202,利用分词引擎对文本数据进行分词处理,得到多个语料词语,可以采用 字典双向最大匹配法、viterbi方法、HMM方法和CRF方法等进行分词。
[0059] 步骤203,根据词性对语料词语进行过滤,保留名词、动词和形容词作为候选词;这 些词性作为文本关键词的可能性比较大,其他词性作为关键词的可能性非常小,所以直接 考虑这几个词性的词语,提高执行效率。
[0060] 步骤204,统计语料词语在语料数据中出现的频率或者次数(即频次)。
[0061] 步骤205,保留频次大于频次阈值的语料词语作为候选词;此步骤中,通过语料词 语在所有语料中出现的次数,对于达到一定阈值的词添加到候选词库中。
[0062] 步骤206,对候选词出现的文档数进行统计,例如,该候选词出现在3个文档中,则 该候选词出现的文档数为3。
[0063]步骤207,由于在所有文档中都多次出现的候选词作为文本关键词的可能性比较 大,根据计算候选词的初始权重值;其中表示初始权重值,m表示候选词出现的 文档次数,N表示语料的所有文档数。
[0064] 步骤208,判断候选词是否在文档标题中出现,如果出现,则执行步骤209,否则,执 行步骤210。
[0065]步骤209,当候选词在标题中出现过时,根据、1、>, = 111*)8|计算候选词的初始权重 值;m为大于1的系数。优选地,在本发明实施例中,m= 2,即对于在语料标题中出现过的候选 词的权重调高1倍。需要说明的是,在实际应用中m也可以根据候选词在标题中出现的次数 不同设置不同的值。例如,候选词在题目中出现了 1次,可以将m设置为1.5,如果出现了2次, 可以将m设置为2。这样可以使候选词的初始权重值更加精确。
[0066]上面九个步骤的处理对象都是所有的文档,而下面的四个步骤的处理对象都是分 别针对单个文档。
[0067]步骤210,根据候选词在滑动窗口中的共现关系分别构建每个文档的关联有向图; 具体包括如下处理:
[0068] 首先设置预定大小的滑动窗口,将滑动窗口在当前文档中进行动态滑动,随后,获 取滑动窗口中出现的2个以上的候选词,将2个以上的候选词之间添加互相指向的2个连接, 并将每个候选词作为一个节点,构建当前文档的关联有向图。
[0069]例如,在本实例中,滑动窗口的预定大小可以为容纳3个语料词语的长度,能容纳3 个语料词语的滑动窗口在文档中滑动时,当滑动窗口中出现了 2个候选词时,则将这2个候 选词之间添加互相指向的2个连接;当滑动窗口中出现了3个候选词时,则将这3个候选词中 两两之间添加互相指向的6个连接,每个候选词为一个节点。随后滑动窗口继续在文档中滑 动,每当滑动窗口中出现了2个或3个候选词,则将2个或3个候选词之间添加互相指向的2个 连接或6个连接,并将每个候选词作为一个节点。直到遍历整个文档后,得到当前文档的关 联有向图。
[0070] 步骤211,进行迭代计算,直到关联有向图稳定,获取每个文档中每个候选词的最 终权重值。
[0071]在步骤211中,根据如下公式进行迭代计算,直到关联有向图稳定(即当前节点的 相邻两次迭代中权重值之差小于第二阈值)后,会得到每个候选词的最终权重值。由于此时 保证了关联有向图的稳定性,因此准确性高。
[0072]
[0073]需要说明的是,本实施例中也可以以迭代次数作为迭代停止的条件,此时效率更 尚。
[0074]步骤212,将同一文档中每个候选词按照最终权重值降序排列。
[0075]步骤213,输出前N个候选词作为当前文档的关键词,此时可以严格满足关键词的 数量要求。
[0076]需要说明的是,本实施例中也可以将最终权重值大于权重阈值的候选词作为当前 文档的关键词,从而保证输出的关键词的尚准确性。
[0077]通过上述处理,能够自动准确地提取某一领域中语料的关键词,从而提高了语义 理解的执行效率,能够更准确的根据关键词执行后续操作。
[0078]下面对本发明实施例的上述技术方案进行详细举例说明。
[0079]在本实例中,语料数据由多个文档组成,其中一个文档的内容如下:
[0080]雷锋具有崇高理想和坚定信念,是实践社会主义、共产主义思想道德的楷模,是全 国人民学习的光辉榜样。党的十七届六中全会《决定》强调,深入开展学雷锋活动,采取措施 推动学习活动常态化。贯彻落实这一要求,需要我们深刻理解雷锋精神的时代内涵,积极探 索新形势下弘扬雷锋精神的有效途径,让雷锋精神代代相传。这对于推动社会主义核心价 值体系建设、巩固全党全国人民团结奋斗的共同思想道德基础具有重要意义。本期"大家论 道"刊发的这组文章,围绕这一问题进行了阐述。雷锋精神的时代内涵雷锋这个响亮的名字 和以他的名字命名的雷锋精神,深深镌刻在一代又一代中国人的心中,影响和激励着一代 又一代中国人为建设中国特色社会主义而奋勇前进。半个世纪过去了,在雷锋精神的感召 下,我国涌现出无数雷锋式的先进人物,他们继承和弘扬雷锋精神,为其注入了新的内涵。 雷锋精神的时代内涵,集中体现为服务人民、助人为乐的奉献精神,干一行爱一行、专一行 精一行的敬业精神,锐意进取、自强不息的创新精神,艰苦奋斗、勤俭节约的创业精神。【详 细】新时期弘扬雷锋精神的着力点雷锋精神内涵丰富,历久弥新。在新的历史条件下,弘扬 雷锋精神应把握以下几个主要着力点。不断坚定中国特色社会主义理想信念雷锋是一个立 场坚定的共产主义战士。雷锋说过:"我就是长着一个心眼,我一心向着党,向着社会主义, 向着共产主义";"有人说:人生在世,吃好、穿好、玩好是最幸福的。我觉得人生在世,只有勤 劳,发愤图强,用自己的双手创造财富,为人类的解放事业一一共产主义贡献自己的一切, 这才是最幸福的"。这是雷锋对共产主义忠诚信仰的鲜明表达。坚定的共产主义信仰是雷锋 精神的精髓。在坚定的共产主义信仰引领下,雷锋的一言一行、一举一动都表现了一个革命 战士、共产党人为实现共产主义伟大理想而不懈奋斗的崇高精神。【详细】以学雷锋推动社 会主义核心价值体系建设党的十七届六中全会《决定》强调,深入开展学雷锋活动,采取措 施推动学习活动常态化。深入贯彻落实全会精神,一项重要任务就是引导广大干部群众积 极开展学雷锋活动,推动社会主义核心价值体系建设,不断巩固全党全国各族人民团结奋 斗的共同思想道德基础。开展学雷锋活动对社会主义核心价值体系建设具有重要推动作用 雷锋是中华民族的道德标杆。深入开展学雷锋活动,充分发挥道德模范人物的示范效应,对 于推动社会主义核心价值体系建设具有重要作用。
[0081 ]对所有的语料数据进行预处理和分词。以上述文档为例,上述文档在分词后得到 的文本数据如下:
[0082][[雷锋/nr,具有/vt,崇高/a,理想/η,和/c,坚定/a,信念/n,,/wd,是/VI,实践/vt,社会主义/n,、/wu,共产主义/η,思想/η,道德/η,的/ud,措模/n,,/wd,是/VI,全国/η,人 民/η,学习/vt,的/ud,光辉/a,榜样/n,Vwj],[党/η,的/ud,十七届/nb,六中全会/j,《/ wkz,决定/η,》/wky,强调/vt,,/wd,深入/ad,开展/vt,学/vt,雷锋/nr,活动/vn,,/wd,采 取/vt,措施/η,推动/vt,学习/vn,活动/vn,常态/η,化/vt,。/wj],[贯彻/vt,落实/vt,这/ rz,一/nb,要求/η,,/wd,需要/vt,我们/rr,深刻/ad,理解/vt,雷锋/nr,精神/η,的/ud,时 代/nt,内涵/η,,/wd,积极/ad,探索/vt,新/a,形势/η,下/f,弘扬/vt,雷锋/nr,精神/η,的/ 11(1,有效/^,途径/11,,/\?1,让八1:,雷锋/111',精神/11,代代相传/1¥,。/\¥」_],[这/^,对于/^,推 动/vt,社会主义/η,核心/η,价值/η,体系/η,建设/vn,、/wu,巩固/vt,全/a,党/η,全国/η, 人民/η,团结/vt,奋斗/vi,的/ud,共同/b,思想/η,道德/η,基础/η,具有/vt,重要/a,意义/ n,Vwj],[本期/r, "/wyz,大家/rr,论/vt,道/n,"/wy
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1