一种快速的短文本双聚类方法

文档序号：6593764阅读：439来源：国知局

专利名称：一种快速的短文本双聚类方法
技术领域：
本发明涉及人工智能计算机领域中的自然语言处理，特别涉及利用自然语言处理和数据聚类实现一种快速的短文本双聚类方法及其实现。
背景技术：
在大量的自然语言应用中，有一个基本的而又共同的问题:对由一个由短文本构成的语料集(以下简称短文本语料集或语料集)，如何将其中的短文本按照某种相似度聚集成不同的类。一般而论，文本聚类的基本思想是将“相似”的文本聚成一个类；在该类中，文本之间的“差异”较小。而不“相似”的文本聚成另一些类。不同类之间的“差距”较大。这里，“相似”/ “差距”是一些文本之间的度量，根据不同的应用需求而定。传统的聚类方法较多，包括K近邻方法、层次聚类法等。在短文本聚类中，常遇到几个难题需要解决:
(I)语义干扰问题。由于自然语言具有高度的灵活性，因此短文本中通常包含了很多的与短文本要表达的本质含义无关的词语，我们称为无关语。更具体地说，从短文本中去除这些无关语，短文本的本质含义没有变化。例如，在短文本“帮我查一下我的话费”中，“帮我”就是一个无关语。为了提高短文本聚类精度，需要对这些无关语进行清除。另一种干扰是词类干扰。短文本语料库中有大量的意义相近，但是词性不同的词语，它们的存在会影响到聚类的精度。如何规范化短文本中意义相同但词形不同的词语？当然，在实践中还存在大量的符号干扰问题，如英文字母大小写问题、全角/半角问题、简体/繁体问题等。(2)短文本相似度的精确计算问题。相似度计算往往与应用需求相关。如何根据一个具体的应用需求，准确地设计相似度计算方法是聚类中的关键问题之一。目前，虽然有多种相似度算法(如欧氏距离法、COS距离法、Pearson系数法、VDM法等)，但是根据我们的研究发现，它们均存在缺陷，在实际应用中，效果不好。(3)短文本的快速而又准确的聚类问题。传统的单一聚类(如K近邻方法、层次聚类法等)难以实现精确的聚类，在面对开放的语料时，聚类精度一般都很低，达不到实际应用的需求。而且，当短文本的长度稍高时，聚类精度更低。

发明内容
所要解决的技术问题:针对以下三个问题，本发明提供了一种精确性高、实用强、适应于大数据处理的的快速的短文本双聚类方法。技术问题1:符号/语义干扰问题。语义干扰主要有两种:无关语干扰、词类干扰，即如何在不改变短文本含义的前提下，去除短文本中的无关语，以提高聚类精度？如何规范化短文本中意义相同但词形不同的词语？
技术问题2:短文本相似度的精确计算问题，即如何根据短文本聚类需要，设计出一种有效的短文本相似度计算方法？技术问题3:短文本快速而又准确的聚类问题，即如何既保证聚类速度又保证聚类精
度？
技术方案:针对以上不足本发明提供了一种快速的短文本双聚类方法，其特征在于:包括以下步骤:
步骤I)短文本干扰项的预处理，在无关语词典和词类词典的支持下，对短文本进行快速进行的无关语和词类识别和处理识别；
步骤2)计算预处理后的两个短文本相似度，形成在短文本相似度稀疏矩阵；
步骤3)在短文本相似度稀疏矩阵上进行短文本一级聚类，根据短文本相似度的结算结果，将相似的短文本划分成一个一个的簇；
步骤4)在一级聚类结果基础上进行短文本二级聚类。所述的步骤I包括意码构造方法:对任意一个词类WC，利用随机函数产生随机数，产生nSC个大于O小于10000的随机正整数，设为Q、…、Cnsc，取出《汉语字典》中的第C1个、…、第Cns。个汉字，分别为氏、…、Hns。，则词类WC的意码为汉字串 ν..Ηη%。所述的步骤2包括计算短文本相似度的方法:对两个短文本Si和&_，它们的相似度计算方法为:
权利要求
1.一种快速的短文本双聚类方法，其特征在于:包括以下步骤: 步骤I)短文本干扰项的预处理，在无关语词典和词类词典的支持下，对短文本进行快速进行的无关语和词类识别和处理识别；步骤2)计算预处理后的两个短文本相似度，形成在短文本相似度稀疏矩阵；步骤3)在短文本相似度稀疏矩阵上进行短文本一级聚类，根据短文本相似度的结算结果，将相似的短文本划分成一个一个的簇；步骤4)在一级聚类结果基础上进行短文本二级聚类。
2.根据权利要求1所述的一种快速的短文本双聚类方法，其特征在于:所述的步骤I包括意码构造方法:对任意一个词类WC，利用随机函数产生随机数，产生nSC个大于O小于10000的随机正整数，设为Cp…、Cns。，取出《汉语字典》中的第C1个、…、第Cns。个汉字，分别为H1、…、Hnsc，则词类WC的意码为汉字串Hr"HnSC。
3.根据权利要求1所述的一种快速的短文本双聚类方法，其特征在于:所述的步骤2包括计算短文本相似度的方法:对两个短文本&和&_，它们的相似度计算方法为:
4.根据权利要求1所述的一种快速的短文本双聚类方法，其特征在于:所述的步骤3包括以下步骤: 步骤31)在计算短文本相似度过程中，将短文本相似度小于某个阈值(a)的点排除掉，构造短文本相似度稀疏矩阵；步骤32)在短文本相似度稀疏矩阵中，寻找相似度最大的且大于聚类阈值b的一对点V1与V2，如果找不到，则终止聚类，输出一级聚类结果，转步骤41)进行二级聚类；步骤33)将V1和V2看成一个新簇，重新它与其它点的相似度并更新相似度矩阵，计算方法如下:
5.根据权利要求1所述的一种快速的短文本双聚类方法，其特征在于:所述的步骤4包括以下步骤: 步骤41)将包含分句的短文本S按逗号、句号、问号、叹号进行切分，形成若干分句Λ ；步骤42)计算每个分句Z7i和簇Cluster的相似度,计算方法如下:
全文摘要
一种快速的短文本双聚类方法，包括以下步骤1)短文本干扰项的预处理，在无关语词典和词类词典的支持下，对短文本进行快速进行的无关语和词类识别和处理识别；2)计算预处理后的两个短文本相似度，形成在短文本相似度稀疏矩阵；3)在短文本相似度稀疏矩阵上进行短文本一级聚类，根据短文本相似度的结算结果，将相似的短文本划分成一个一个的簇；4)在一级聚类结果基础上进行短文本二级聚类。
文档编号G06F17/27GK103177125SQ20131013365
公开日2013年6月26日申请日期2013年4月17日优先权日2013年4月17日
发明者符建辉, 刘亮亮, 王石, 王卫民申请人:镇江诺尼基智能技术有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：符建辉;刘亮亮;王石;王卫民
技术所有人：镇江诺尼基智能技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。