1.一种关键词提取方法,其特征在于,所述方法包括:
解析待分析短信,得到各所述待分析短信所属的类别;
从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键词;
解析所提取的候选关键词得到相应候选关键词的特征;
从所提取的候选关键词中提取出与预设特征匹配的目标关键词。
2.根据权利要求1所述的方法,其特征在于,所述解析待分析短信,得到各所述待分析短信所属的类别,包括:
根据第一预置相似度阈值对所述待分析短信进行切分,判定满足第二预置相似度阈值的待分析短信;
根据所述满足第二预置相似度阈值的待分析短信的字符串特征,获取所述满足第二预置相似度阈值的待分析短信的相似度;
根据所述满足第二预置相似度阈值的待分析短信的相似度,得到各所述待分析短信所属的类别。
3.根据权利要求1所述的方法,其特征在于,所述从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键词,包括:
确定属于同一类别的待分析短信的内容与预设分词词库匹配时,则提取出所述同一类别的待分析短信的词序列;
确定所述同一类别的待分析短信的词序列与预设有效词词库匹配时,则提取出与预设有效词库匹配的所述候选关键词;其中,所述预设词库包括预设分词词库和预设有效词词库。
4.根据权利要求1所述的方法,其特征在于,所述从所提取的候选关键词中提取出与预设特征匹配的目标关键词,包括:
根据所述候选关键词的词频统计特性,获取所述候选关键词中最高词频关键词和所述候选关键词中词频由高到低选取的次高频关键词集;
根据所述最高词频关键词与待分析短信的对应关系,依次提取满足预设组合关键词长度的组合关键词;其中,所述组合关键词为:由所述最高词频的关键词依次与所述最高词频的关键词对应的待分析短信中与所述最高词频的关键词同时存在的所述次高频关键词集中的前N个关键词组合成的组合关键词,其中,所述N大于/等于1;其中,所述目标关键词包括最高词频关键词和组合关键词。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
判定组合关键词之间存在包含关系时,从具有包含关系的组合关键词中删除被包含的组合关键词;和/或,
判定最高词频关键词之间存在包含关系时,从具有包含关系的最高词频关键词中删除包含的最高词频关键词;和/或,
判定目标关键词从服务器拦截的短信中包含的所述待分析短信的准确率小于预置准确率阈值时,从目标关键词中删除准确率小于预置准确率阈值的关键词。
6.一种关键词提取装置,其特征在于,所述装置包括:
第一解析模块,用于解析待分析短信,得到各所述待分析短信所属的类别;
第一提取模块,用于从属于同一类别的待分析短信的内容中提取出与预设词库匹配的候选关键词;
第二解析模块,用于解析所提取的候选关键词得到相应候选关键词的特征;
第二提取模块,用于从所提取的候选关键词中提取出与预设特征匹配的目标关键词。
7.根据权利要求6所述的装置,其特征在于,所述第一解析模块,具体用于:
根据第一预置相似度阈值对所述待分析短信进行切分,判定满足第二预置相似度阈值的待分析短信;
根据所述满足第二预置相似度阈值的待分析短信的字符串特征,获取所述满足第二预置相似度阈值的待分析短信的相似度;
根据所述满足第二预置相似度阈值的待分析短信的相似度,得到各所述待分析短信所属的类别。
8.根据权利要求6所述的装置,其特征在于,所述第一提取模块,具体用于:
确定属于同一类别的待分析短信的内容与预设分词词库匹配时,则提取出所述同一类别的待分析短信的词序列;
确定所述同一类别的待分析短信的词序列与预设有效词词库匹配时,则提取出与预设有效词库匹配的所述候选关键词;其中,所述预设词库包括预设分词词库和预设有效词词库。
9.根据权利要求6所述的装置,其特征在于,所述第二提取模块,具体用于:
根据所述候选关键词的词频统计特性,获取所述候选关键词中最高词频关键词和所述候选关键词中词频由高到低选取的次高频关键词集;
根据所述最高词频关键词与待分析短信的对应关系,依次提取满足预设组合关键词长度的组合关键词;其中,所述组合关键词为:由所述最高词频的关键词依次与所述最高词频的关键词对应的待分析短信中与所述最高词频的关键词同时存在的所述次高频关键词集中的前N个关键词组合成的组合关键词,其中,所述N大于/等于1;其中,所述目标关键词包括最高词频关键词和组合关键词。
10.根据权利要求9所述的装置,其特征在于,所述关键词提取装置还包括:
判断模块,用于判定组合关键词之间存在包含关系时,从具有包含关系的组合关键词中删除被包含的组合关键词;和/或,
判定最高词频关键词之间存在包含关系时,从具有包含关系的最高词频关键词中删除包含的最高词频关键词;和/或,
判定目标关键词从服务器拦截的短信中包含的所述待分析短信的准确率小于预置准确率阈值时,从目标关键词中删除准确率小于预置准确率阈值的关键词。