一种基于文本挖掘的金融类逾期短信智能判别方法与流程

文档序号:17609510发布日期:2019-05-07 20:58阅读:来源:国知局

技术特征:

1.一种基于文本挖掘的金融类逾期短信智能判别方法,其特征在于,包括以下步骤:

步骤1:批量获取通过短信服务平台推送的短信文本;

步骤2:对短信文本逐条进行分词,并去除停用词;

步骤3:根据分词结果,计算两个短信文本的相似度;设置相似度阈值,若两条短信文本的相似度大于阈值,则认为两条短信相似,属于同一个模板,提取短信模板;

步骤4:对所提取出的短信模板,抽样人工标注其是否为金融逾期短信;

步骤5:对所提取出的所有短信模板进行分词,并挖掘新词和领域词组;

步骤6:将步骤5得到的新词和领域词组加入分词词库,形成新词库;

步骤7:对步骤3提取出的所有短信模板利用新词库重新分词,通过TF-IDF算法计算各个分词的重要程度,提取对逾期判别具有重要价值的分词;

步骤8:将步骤7提取的分词组成词向量,构成特征空间Feature=(to1,to2,…,ton),其中,toi为步骤7提取的分词,i=1,2,…,n;

步骤9:将步骤4标注的短信模板作为训练数据,采用支持向量机算法训练金融逾期分类器模型;

步骤10:将所有短信文本作为测试数据,输入训练好的金融逾期分类器模型,进行逾期分类判别。

2.根据权利要求1所述的一种基于文本挖掘的金融类逾期短信智能判别方法,其特征在于,所述的步骤3中,采用汉明距离对短信文本进行相似度度量,实现步骤包括:

步骤3-1.1:为每条短信文本生成一个特征向量;将短信文本的每个分词作为特征向量的一个特征维度,每个特征的权重为对应分词在该短信文本中的出现次数;

步骤3-1.2:将一个f维的向量V初始化为0;将一个f位的二进制数S初始化为0;

步骤3-1.3:对每条短信文本,首先,用哈希算法对每个特征产生一个f位的签名b;然后,根据依次取各特征的签名b,更新向量V;对每个特征的签名b,遍历b的每一位,如果b的第i位为1,则更新V的第i个元素加上该特征的权重;否则,更新V的第i个元素减去该特征的权重;在遍历完短信文本的各特征签名后得到最终的向量V;

步骤3-1.4:对每条短信文本,根据最终的向量V确定S;如果V的第i个元素大于0,设置S的第i位为1,否则设置S的第i位为0;将所得到的S作为短信文本的签名;

步骤3-1.5:采用汉明距离来度量两短信文本的相似度;

设两短信文本的签名分别为fingerprint1和fingerprint2,则两短信文本之间的汉明距离定义为:将fingerprint1变为fingerprint2所需要做的最小替换次数。

3.根据权利要求1所述的一种基于文本挖掘的金融类逾期短信智能判别方法,其特征在于,所述的步骤3中,采用余弦值对短信文本进行相似度度量,实现步骤包括:

步骤3-2.1:根据分词结果,取两个短信文本的分词的并集建立词向量空间,表示为:

C=(c1,c2,…,cm)

其中,c1,c2,…,cm表示词向量空间中的m个分词;

步骤3-2.2:将两短信文本分别用m维向量表示,对于任意0<i≤m,若短信文本中包含词向量C的第i维度对应的分词,则该短信文本的向量的第i维度取值为1,否则取值为0;

步骤3-2.3:计算两条短信文本的相似度;两短信文本的相似度sim定义为:

sim=(D1·D2)/(|D1|×|D2|)

其中,D1和D2分别为两条短信文本的向量。

4.根据权利要求1所述的一种基于文本挖掘的金融类逾期短信智能判别方法,其特征在于,所述的步骤5中,挖掘新词和领域词组的实现过程为:

步骤5.1:把短信文本中出现的连续不超过d个分词组成的子串都当作潜在的新词或词组,计算各新词或词组在所有短信模板中的出现频数;d为大于2的正整数;

步骤5.2:对出现频数超过设定的阈值的新词或词组,计算其凝固度;

设x表示某个词组或分词,x的出现频数记作f(x),x在所有短信模板中的出现概率记为P(x),其中,ftotal为所有短信模板的总分词个数;

对于词组A=abc,其中a,b和c为分词,则词组A的凝固度co(A)为:

步骤5.3:对步骤5.1中的出现频数超过设定阈值的新词或词组,计算其自由度;

对于一个词组,其左邻词为与其相邻且出现在其左侧的分词,其右邻词为与其相邻且出现在其右侧的词;确定词组A的左邻词的信息熵S(left)和右邻词的信息熵S(right),则词组A的自由度free(A)=S(left)+S(right);

步骤5.4:设置凝固度阈值threshco和自由度阈值threshfree,筛选出凝固度>threshco且自由度>threshfree的词组,作为提取出的新词和领域词组。

5.根据权利要求1所述的一种基于文本挖掘的金融类逾期短信智能判别方法,其特征在于,所述的步骤7包含以下步骤:

步骤7.1:对步骤3提取出的所有短信模板利用新词库重新分词;

步骤7.2:计算步骤7.1得到的各分词的TF-IDF;其中,TF为词语在该短信模板中出现的次数,IDF为逆向文件频率;

对于在短信模板dj中的词语ti,该词语的TF为tfi,j,计算公式为:其中,ni,j是ti在短信dj中的出现次数,∑knk,j是短信dj的总分词数;

词语ti的IDF为idfi,计算公式为:其中,|D|是短信模板总数,|{j:ti∈dj}|是包含词语ti的所有短信模板数目;

词语ti的TF-IDF=tfi,j×idfi;

步骤7.3:设置TF-IDF阈值threshtfidf,从步骤7.2中得到的所有分词筛选出TF-IDF高于threshtfidf的分词作为对逾期判别具有重要价值的分词。

6.根据权利要求1所述的一种基于文本挖掘的金融类逾期短信智能判别方法,其特征在于,所述的步骤9的实现包含以下步骤:

步骤9.1:对标注的短信模板利用新词库进行重新分词;

步骤9.2:根据步骤9.1的分词结果,对所有标注的短信模板,计算特征向量;

设短信模板M的特征向量表示为M={m1,m2,…,mn},则当M中包含分词toi时,mi取值为1,否则mi取值为0;

步骤9.3:选择高斯径向基函数作为核函数,表示为:其中,xc为核函数中心,σ为函数的宽度参数;

步骤9.4:交叉训练最优模型参数c和σ,c为惩罚因子,得到金融逾期分类器模型。

7.根据权利要求1所述的一种基于文本挖掘的金融类逾期短信智能判别方法,其特征在于,所述的步骤10,实现过程为:

步骤10.1:对所有短信文本利用新词库进行分词;

步骤10.2:根据分词结果,计算各短信的特征向量;

设短信M的特征向量表示为M={m1,m2,…,mn},则当M中包含分词toi时,mi取值为1,否则mi取值为0;

步骤10.3:将所有短信的特征向量作为测试集,输入训练好的金融逾期分类器模型,输出判别为金融类逾期的短信。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1