基于多种算法提升文件关键词准确度的识别方法与流程

文档序号:16693291发布日期:2019-01-22 19:10阅读:168来源:国知局
基于多种算法提升文件关键词准确度的识别方法与流程

本发明属于关键词检索技术领域,具体涉及一种基于多种算法提升文件关键词准确度的识别方法。



背景技术:

在自然语言处理领域,处理海量的文本文件最关键的是要把用户最关心的问题提取出来。而无论是对于长文本还是短文本,往往可以通过几个关键词窥探整个文本的主题思想。与此同时,不管是基于文本的推荐还是基于文本的搜索,对于文本关键词的依赖也很大,关键词提取的准确程度直接关系到推荐系统或者搜索系统的最终效果。因此,关键词提取在文本挖掘领域是一个很重要的部分。

关键词识别检索以统一策略为基础,采用深层内容分析,对静态数据、动态数据及使用中的数据进行即时的识别、监控、保护的相关技术。

目前大多数的方案主要采用分离模型算法,对关键单词提取和关键词串提取。现有技术方案由于采用算法单一,而各种算法有各自的优势和特点,采用单一算法计算关键词无法规避该算法本身的弊端。因此,目前市面上采用的关键词识别技术准确性有待提升。



技术实现要素:

(一)要解决的技术问题

本发明要解决的技术问题是:如何解决目前由于算法单一,无法结合多种扫描结果进行准确的综合分析的问题。

(二)技术方案

为解决上述技术问题,本发明提供一种基于多种算法提升文件关键词准确度的识别方法,所述识别方法基于识别系统来实施,所述识别系统包括:原文本输入模块、文本预处理模块、基于分离模型的中文关键词提取模块、基于高维聚类技术的中文关键词提取模块、基于语义的中文关键词提取模块、基于朴素贝叶斯模型的中文关键词提取模块、算法权重比分配模块、关键词识别结果生成模块;具体而言,

所述识别方法包括如下步骤:

步骤1:由所述原文本输入模块输入待进行关键词识别的原文本;

步骤2:由所述文本预处理模块对原文本输入模块输入的原文本进行文本格式转换预处理,形成可供后续识别算法处理的候选词;

步骤3:由所述基于分离模型的中文关键词提取模块,基于分离模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于分离模型的计算结果,获取关键词数量提取信息;

步骤4:由所述基于高维聚类技术的中文关键词提取模块,基于高维聚类技术,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于高维聚类技术的计算结果,获取关键词数量提取信息;

步骤5:由所述于语义的中文关键词提取模块,基于语义的中文文本关键词提取算法,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于语义的计算结果,获取关键词数量提取信息;

步骤6:由所述基于朴素贝叶斯模型的中文关键词提取模块,基于朴素贝叶斯模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于朴素贝叶斯模型的计算结果,获取关键词数量提取信息;

步骤7:由所述算法权重比分配模块,配置上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比;

步骤8:由所述关键词识别结果生成模块,对比基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果中各自对关键词的命中次数,根据上述预先配置的权重比,综合计算,得到最终的关键词识别结果。

其中,其特征在于,所述基于分离模型的中文关键词提取模块,采用基于分离模型的中文关键词提取算法,把关键词的识别提取当做一个分类,对文本中各个候选关键词区分关键词还是非关键词。

其中,其特征在于,所述分离模型是对关键单词与关键词串分别建立模型,在关键词特征的选取上,分别建立的各个模型选取不同的特征。

其中,其特征在于,所述高维聚类技术的中文关键词提取模块,通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。

其中,其特征在于,所述基于语义的中文关键词提取模块,其将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。

其中,其特征在于,所述基于朴素贝叶斯模型的中文关键词提取模块,其首先通过训练过程获得朴素贝叶斯模型中的各个参数,然后以之为基础,在测试过程完成关键词提取。

其中,其特征在于,所述算法权重比分配模块按照2:3:4:3的比例确定上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比。

其中,其特征在于,所述2:3:4:3的权重比为默认配置。

其中,其特征在于,所述权重比为按照具体应用场景自行配置。

其中,所述原文本的格式包括word格式,pdf格式。

(三)有益效果

与现有技术相比较,本发明采用分离模型的中文关键词提取算法、基于高维聚类技术的中文关键词提取算法、基于语义的中文文本关键词提取算法,基于朴素贝叶斯模型的中文关键词提取算法,综合匹配判断,来提升关键词提取识别的准确性。

对比各个算法对关键词命中次数,各个算法配置的权重比默认采用2:3:4:3计算识别结果,权重可以根据具体应用场景自行配置,根据各个算法的权重比对命中次数进行计算,并作为最终结果。

通过该方式,在关键词检索技术领域,通过基于多种算法提升文件关键词准确度的识别方法。

附图说明

图1为本发明技术方案的原理图。

具体实施方式

为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。

为解决上述技术问题,本发明提供一种基于多种算法提升文件关键词准确度的识别方法,所述识别方法基于识别系统来实施,所述识别系统包括:原文本输入模块、文本预处理模块、基于分离模型的中文关键词提取模块、基于高维聚类技术的中文关键词提取模块、基于语义的中文关键词提取模块、基于朴素贝叶斯模型的中文关键词提取模块、算法权重比分配模块、关键词识别结果生成模块;具体而言,

所述识别方法包括如下步骤:

步骤1:由所述原文本输入模块输入待进行关键词识别的原文本;

步骤2:由所述文本预处理模块对原文本输入模块输入的原文本进行文本格式转换预处理,形成可供后续识别算法处理的候选词;

步骤3:由所述基于分离模型的中文关键词提取模块,基于分离模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于分离模型的计算结果,获取关键词数量提取信息;

步骤4:由所述基于高维聚类技术的中文关键词提取模块,基于高维聚类技术,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于高维聚类技术的计算结果,获取关键词数量提取信息;

步骤5:由所述于语义的中文关键词提取模块,基于语义的中文文本关键词提取算法,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于语义的计算结果,获取关键词数量提取信息;

步骤6:由所述基于朴素贝叶斯模型的中文关键词提取模块,基于朴素贝叶斯模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于朴素贝叶斯模型的计算结果,获取关键词数量提取信息;

步骤7:由所述算法权重比分配模块,配置上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比;

步骤8:由所述关键词识别结果生成模块,对比基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果中各自对关键词的命中次数,根据上述预先配置的权重比,综合计算,得到最终的关键词识别结果。

其中,其特征在于,所述基于分离模型的中文关键词提取模块,采用基于分离模型的中文关键词提取算法,把关键词的识别提取当做一个分类,对文本中各个候选关键词区分关键词还是非关键词。

其中,其特征在于,所述分离模型是对关键单词与关键词串分别建立模型,在关键词特征的选取上,分别建立的各个模型选取不同的特征。

其中,其特征在于,所述高维聚类技术的中文关键词提取模块,通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。

其中,其特征在于,所述基于语义的中文关键词提取模块,其将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。

其中,其特征在于,所述基于朴素贝叶斯模型的中文关键词提取模块,其首先通过训练过程获得朴素贝叶斯模型中的各个参数,然后以之为基础,在测试过程完成关键词提取。

其中,其特征在于,所述算法权重比分配模块按照2:3:4:3的比例确定上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比。

其中,其特征在于,所述2:3:4:3的权重比为默认配置。

其中,其特征在于,所述权重比为按照具体应用场景自行配置。

其中,所述原文本的格式包括word格式,pdf格式。

此外,本发明还提供一种基于多种算法提升文件关键词准确度的识别系统,如图1所示,所述识别系统包括:

原文本输入模块,其用于输入待进行关键词识别的原文本;

文本预处理模块,其用于对原文本输入模块输入的原文本进行文本格式转换预处理,形成可供后续识别算法处理的候选词;

基于分离模型的中文关键词提取模块,其用于基于分离模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于分离模型的计算结果,获取关键词数量提取信息;

基于高维聚类技术的中文关键词提取模块,其用于基于高维聚类技术,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于高维聚类技术的计算结果,获取关键词数量提取信息;

基于语义的中文关键词提取模块,其用于基于语义的中文文本关键词提取(ske)算法,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于语义的计算结果,获取关键词数量提取信息;

基于朴素贝叶斯模型的中文关键词提取模块,其用于基于朴素贝叶斯模型,对来自文本预处理模块的候选词,进行关键单词提取和关键词串提取,生成基于朴素贝叶斯模型的计算结果,获取关键词数量提取信息;

算法权重比分配模块,其用于具体应用场景配置上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比;

关键词识别结果生成模块,其用于对比基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果中各自对关键词的命中次数,根据上述预先配置的权重比,综合计算,得到最终的关键词识别结果。

其中,所述基于分离模型的中文关键词提取模块,采用基于分离模型的中文关键词提取算法,把关键词的识别提取当做一个分类,对文本中各个候选关键词区分关键词还是非关键词;

其中,分离模型是对关键单词与关键词串分别建立模型,在关键词特征的选取上,分别建立的各个模型选取不同的特征。

对关键单词提取和关键词串提取根据不同的特征以提高抽取的准确性。该算法是关键词识别最常用的算法,计算结果占结果运算比重的2/10。

其中,所述高维聚类技术的中文关键词提取模块,对基于统计信息关键词提取方法准确率低的问题,提出基于高维聚类技术的中文关键词提取算法;通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。

理论分析和实验显示,基于高维聚类技术的中文关键词提取方法具备更好的稳定性、更高的效率及更准确的结果。该算法速度较快且识别准确率很高,计算结果占结果运算比重的3/10。

其中,所述基于语义的中文关键词提取模块,采用基于语义的中文文本关键词提取(ske)算法;其将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。

与基于统计特征的关键词提取算法相比,ske算法提取关键词算法性能较优。该算法的关键词识别率准确度高,计算结果占结果运算比重的4/10。

其中,所述基于朴素贝叶斯模型的中文关键词提取模块,采用基于朴素贝叶斯模型的中文关键词提取算法;其首先通过训练过程获得朴素贝叶斯模型中的各个参数,然后以之为基础,在测试过程完成关键词提取。实验表明,相对于传统的方法,该算法可从小规模的文档集中提取出更为准确的关键词,而且可灵活地增加表征词语重要性的特征项,具有更好的可扩展性。该算法的关键词识别在小文档中准确度很高,计算结果占结果运算比重的3/10。

其中,所述算法权重比分配模块按照2:3:4:3的比例确定上述基于分离模型的计算结果、基于高维聚类技术的计算结果、基于语义的计算结果、朴素贝叶斯模型的计算结果各自在最终关键词结果运算生成过程中的权重比。

其中,所述2:3:4:3的权重比为默认配置。

其中,所述权重比为按照具体应用场景自行配置。

其中,所述原文本的格式包括word格式,pdf格式。

实施例1

本实施例提供一种基于多种算法提升文件关键词识别准确度的方法,其对文件采用采用分离模型的中文关键词提取算法、基于高维聚类技术的中文关键词提取算法、基于语义的中文文本关键词提取(ske)算法,基于朴素贝叶斯模型的中文关键词提取算法进行关键词处理解析并通过权值判断提升准确度。

其中,所述的基于分离模型的中文关键词提取算法,对关键单词提取和关键词串提取,根据基于分离模型的中文关键词提取算法,对关键单词提取和关键词串提取这两个问题设计了不同的特征以提高抽取的准确性。

其中,所述的基于高维聚类技术的中文关键词提取算法,对基于统计信息关键词提取方法准确率低的问题,提出基于高维聚类技术的中文关键词提取算法。算法通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。理论分析和实验显示,基于高维聚类技术的中文关键词提取方法具备更好的稳定性、更高的效率及更准确的结果。

其中,所述的基于语义的中文文本关键词提取(ske)算法,将词语语义特征融入关键词提取过程中,构建词语语义相似度网络并利用居间度密度度量词语语义关键度。与基于统计特征的关键词提取算法相比,ske算法提取关键词算法性能较优。

其中,所述的基于朴素贝叶斯模型的中文关键词提取算法,该算法首先通过训练过程获得朴素贝叶斯模型中的各个参数,然后以之为基础,在测试过程完成关键词提取。实验表明,相对于传统的if*idf方法,该算法可从小规模的文档集中提取出更为准确的关键词,而且可灵活地增加表征词语重要性的特征项,具有更好的可扩展性。

通过各个算法对关键词进行提取,来准确获取到文件/文件夹中的关键词数量提取信息。对比各个算法对关键词命中次数,各个算法配置的权重比默认采用2:3:4:3计算识别结果,权重可以根据具体应用场景自行配置,根据各个算法的权重比对命中次数进行计算,并作为最终结果。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1