一种基于文本挖掘的金融类逾期短信智能判别方法与流程

文档序号：17609510发布日期：2019-05-07 20:58阅读：来源：国知局

技术特征：

1.一种基于文本挖掘的金融类逾期短信智能判别方法，其特征在于，包括以下步骤：

步骤1：批量获取通过短信服务平台推送的短信文本；

步骤2：对短信文本逐条进行分词，并去除停用词；

步骤3：根据分词结果，计算两个短信文本的相似度；设置相似度阈值，若两条短信文本的相似度大于阈值，则认为两条短信相似，属于同一个模板，提取短信模板；

步骤4：对所提取出的短信模板，抽样人工标注其是否为金融逾期短信；

步骤5：对所提取出的所有短信模板进行分词，并挖掘新词和领域词组；

步骤6：将步骤5得到的新词和领域词组加入分词词库，形成新词库；

步骤7：对步骤3提取出的所有短信模板利用新词库重新分词，通过TF-IDF算法计算各个分词的重要程度，提取对逾期判别具有重要价值的分词；

步骤8：将步骤7提取的分词组成词向量，构成特征空间Feature＝(to1,to2,…,ton)，其中，toi为步骤7提取的分词，i＝1,2,…,n；

步骤9：将步骤4标注的短信模板作为训练数据，采用支持向量机算法训练金融逾期分类器模型；

步骤10：将所有短信文本作为测试数据，输入训练好的金融逾期分类器模型，进行逾期分类判别。

2.根据权利要求1所述的一种基于文本挖掘的金融类逾期短信智能判别方法，其特征在于，所述的步骤3中，采用汉明距离对短信文本进行相似度度量，实现步骤包括：

步骤3-1.1：为每条短信文本生成一个特征向量；将短信文本的每个分词作为特征向量的一个特征维度，每个特征的权重为对应分词在该短信文本中的出现次数；

步骤3-1.2：将一个f维的向量V初始化为0；将一个f位的二进制数S初始化为0；

步骤3-1.3：对每条短信文本，首先，用哈希算法对每个特征产生一个f位的签名b；然后，根据依次取各特征的签名b，更新向量V；对每个特征的签名b，遍历b的每一位，如果b的第i位为1，则更新V的第i个元素加上该特征的权重；否则，更新V的第i个元素减去该特征的权重；在遍历完短信文本的各特征签名后得到最终的向量V；

步骤3-1.4：对每条短信文本，根据最终的向量V确定S；如果V的第i个元素大于0，设置S的第i位为1，否则设置S的第i位为0；将所得到的S作为短信文本的签名；

步骤3-1.5：采用汉明距离来度量两短信文本的相似度；

设两短信文本的签名分别为fingerprint1和fingerprint2，则两短信文本之间的汉明距离定义为：将fingerprint1变为fingerprint2所需要做的最小替换次数。

3.根据权利要求1所述的一种基于文本挖掘的金融类逾期短信智能判别方法，其特征在于，所述的步骤3中，采用余弦值对短信文本进行相似度度量，实现步骤包括：

步骤3-2.1：根据分词结果，取两个短信文本的分词的并集建立词向量空间，表示为：

C＝(c1,c2,…,cm)

其中，c1,c2,…,cm表示词向量空间中的m个分词；

步骤3-2.2：将两短信文本分别用m维向量表示，对于任意0＜i≤m，若短信文本中包含词向量C的第i维度对应的分词，则该短信文本的向量的第i维度取值为1，否则取值为0；

步骤3-2.3：计算两条短信文本的相似度；两短信文本的相似度sim定义为：

sim＝(D1·D2)/(|D1|×|D2|)

其中，D1和D2分别为两条短信文本的向量。

4.根据权利要求1所述的一种基于文本挖掘的金融类逾期短信智能判别方法，其特征在于，所述的步骤5中，挖掘新词和领域词组的实现过程为：

步骤5.1：把短信文本中出现的连续不超过d个分词组成的子串都当作潜在的新词或词组，计算各新词或词组在所有短信模板中的出现频数；d为大于2的正整数；

步骤5.2：对出现频数超过设定的阈值的新词或词组，计算其凝固度；

设x表示某个词组或分词，x的出现频数记作f(x)，x在所有短信模板中的出现概率记为P(x)，其中，ftotal为所有短信模板的总分词个数；

对于词组A＝abc，其中a，b和c为分词，则词组A的凝固度co(A)为：

步骤5.3：对步骤5.1中的出现频数超过设定阈值的新词或词组，计算其自由度；

对于一个词组，其左邻词为与其相邻且出现在其左侧的分词，其右邻词为与其相邻且出现在其右侧的词；确定词组A的左邻词的信息熵S(left)和右邻词的信息熵S(right)，则词组A的自由度free(A)＝S(left)+S(right)；

步骤5.4：设置凝固度阈值threshco和自由度阈值threshfree，筛选出凝固度>threshco且自由度>threshfree的词组，作为提取出的新词和领域词组。

5.根据权利要求1所述的一种基于文本挖掘的金融类逾期短信智能判别方法，其特征在于，所述的步骤7包含以下步骤：

步骤7.1：对步骤3提取出的所有短信模板利用新词库重新分词；

步骤7.2：计算步骤7.1得到的各分词的TF-IDF；其中，TF为词语在该短信模板中出现的次数，IDF为逆向文件频率；

对于在短信模板dj中的词语ti，该词语的TF为tfi,j，计算公式为：其中，ni,j是ti在短信dj中的出现次数，∑knk,j是短信dj的总分词数；

词语ti的IDF为idfi，计算公式为：其中，|D|是短信模板总数，|{j:ti∈dj}|是包含词语ti的所有短信模板数目；

词语ti的TF-IDF＝tfi,j×idfi；

步骤7.3：设置TF-IDF阈值threshtfidf，从步骤7.2中得到的所有分词筛选出TF-IDF高于threshtfidf的分词作为对逾期判别具有重要价值的分词。

6.根据权利要求1所述的一种基于文本挖掘的金融类逾期短信智能判别方法，其特征在于，所述的步骤9的实现包含以下步骤：

步骤9.1：对标注的短信模板利用新词库进行重新分词；

步骤9.2：根据步骤9.1的分词结果，对所有标注的短信模板，计算特征向量；

设短信模板M的特征向量表示为M＝{m1,m2,…,mn}，则当M中包含分词toi时，mi取值为1，否则mi取值为0；

步骤9.3：选择高斯径向基函数作为核函数，表示为：其中，xc为核函数中心，σ为函数的宽度参数；

步骤9.4：交叉训练最优模型参数c和σ，c为惩罚因子，得到金融逾期分类器模型。

7.根据权利要求1所述的一种基于文本挖掘的金融类逾期短信智能判别方法，其特征在于，所述的步骤10，实现过程为：

步骤10.1：对所有短信文本利用新词库进行分词；

步骤10.2：根据分词结果，计算各短信的特征向量；

设短信M的特征向量表示为M＝{m1,m2,…,mn}，则当M中包含分词toi时，mi取值为1，否则mi取值为0；

步骤10.3：将所有短信的特征向量作为测试集，输入训练好的金融逾期分类器模型，输出判别为金融类逾期的短信。

完整全部详细技术资料下载

当前第2页1 2 3