文本聚类方法、装置及计算设备的制造方法

文档序号:9810683阅读:306来源:国知局
文本聚类方法、装置及计算设备的制造方法
【技术领域】
[0001]本发明涉及计算机技术领域,尤其涉及一种文本聚类方法,文本聚类装置以及用于文本聚类的计算设备。
【背景技术】
[0002]当存在大量文本时,常需要对这些文本进行聚类,即将大量文本归类到一定数量的簇(英文:cluster)中,以方便后续对这些文本的处理。
[0003]文本的聚类过程,也即将相似的文本聚集到一起的过程。现有技术中,常根据文本内包含的内容来计算文本之间的相似度,一般包含相同内容较多的多个文本被视为相似程度较高。
[0004]然而,一些类型的文本,例如日志,包含的内容会随着输入参数和输出参数的变化而变化,因此根据文本包含的内容来对这些文本进行聚类的精度不高。

【发明内容】

[0005]本申请提供了一种文本聚类方法,文本聚类装置以及用于文本聚类的计算设备,以提升文本聚类的精度。
[0006]本申请的第一方面提供了一种文本聚类方法,该方法由计算机执行,包括:接收待聚类的N个文本,N为大于I的整数,将这N个文本中的数字替换为第一标识。对这N个文本执行预处理操作,将这N个文本中相邻的第一标识合并,获得这N个文本对应的N个预处理文本。对N个预处理文本进行分词,获取这N个预处理文本的分词结果,并获取这N个预处理文本的分词结果中各个词的统计特征。根据这N个预处理文本的分词结果中各个词的统计特征,对这N个文本进行聚类。
[0007]通过对待聚类的文本进行预处理操作,使得文本的预处理文本中保留的不再是文本的内容本身,而是文本的格式,随后根据各个文本的预处理文本来对文本进行聚类,使得聚类过程能够将文本的格式加入考虑,提升了文本聚类的精度。
[0008]结合第一方面,在第一方面的第一种实现方式中,不仅将N个文本中的数字替换为第一标识,还将这N文本中的字素替换为第二标识。因此,预处理操作还包括:将相邻的两个第二标识合并为一个第二标识。
[0009]进一步的,不仅仅针对待聚类的文本中的数字进行处理,还对待聚类的文本中的字素进行处理,进一步抽象出待处理的文本的格式,以供后续聚类中使用,能够进一步提升文本聚类的精度。
[0010]结合第一方面和第一方面的第一种实现方式,在第一方面的第二种实现方式中,对N个文本进行聚类后,获取M个文本簇。从每个文本簇的文本中提取该文本簇对应的正则表达式;获取新文本,判断新文本是否满足M个文本簇中任一文本簇对应的正则表达式,如果该新文本符合任一文本簇对应的正则表达式,则该新文本属于该文本簇。
[0011]从已经获得的文本簇中提取正则表达式,获取各个文本簇在内容上的共性,获取了新文本之后,无须将新文本和已经执行过聚类的文本一起重新进行聚类,而是将新文本与各个文本簇对应的正则表达式进行匹配,大幅提升了新文本的聚类速度。
[0012]结合第一方面和第一方面的第一种实现方式,在第一方面的第三种实现方式中,对N个文本进行聚类后,获取M个文本簇。从每个文本簇包括的文本的预处理文本中提取该文本簇对应的正则表达式;获取新文本,判断新文本是否满足M个文本簇中任一文本簇对应的正则表达式,如果该新文本符合任一文本簇对应的正则表达式,则该新文本属于该文本簇。
[0013]从已经获得的文本簇的预处理文本中提取正则表达式,获取各个文本簇的预处理文本在格式上的共性,获取了新文本之后,无须将新文本和已经执行过聚类的文本一起重新进行聚类,而是将新文本与各个文本簇对应的正则表达式进行匹配,大幅提升了新文本的聚类速度。
[0014]本申请的第二方面提供了一种文本聚类装置,该装置包括获取单元和处理单元。获取单元用于,接收待聚类的N个文本,N为大于I的整数,将这N个文本中的数字替换为第一标识。处理单元用于,对这N个文本执行预处理操作,将这N个文本中相邻的第一标识合并,获得这N个文本对应的N个预处理文本;并对这N个预处理文本进行分词,获取这N个预处理文本的分词结果,并获取这N个预处理文本的分词结果中各个词的统计特征;随后根据这N个预处理文本的分词结果中各个词的统计特征,对这N个文本进行聚类。该装置用于实现第一方面提供的文本聚类方法。
[0015]本申请的第三方面提供了一种计算设备,包括处理器、存储器。该计算设备运行时能够实现第一方面提供的文本聚类方法,用于实现第一方面提供的文本聚类方法的程序代码可以保存在存储器中,并由处理器来执行。
[0016]本申请的第四方面提供了一种存储介质,该存储介质中存储的程序代码被执行时能够实现第一方面提供的文本聚类方法。该程序代码由实现第一方面提供的文本聚类方法的计算机指令构成。
【附图说明】
[0017]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作以简单地介绍,显而易见的,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本发明提供的文本聚类系统的组织结构示意图;
[0019]图2为本发明提供的计算设备的组织结构示意图;
[0020]图3为本发明提供的文本聚类方法的流程示意图;
[0021 ]图4为本发明提供的文本聚类装置的组织结构示意图。
【具体实施方式】
[0022]下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
[0023]贯穿本说明书,术语“无边界语言”指代字符间没有用于划定界限的标点符号或空格的语言,常见的无边界语言包括中文、日文等。相应的,有边界语言指代字符间有用于划定界限的标点符号或空格的语言,最常见的有边界语言包括英文。
[0024]贯穿本说明书,术语“聚类”指代根据不同对象的特征,将对象归类到不同的簇的过程。每一个簇包含了有一定共性或者相似程度较高的多个对象。
[0025]贯穿本说明书,术语“正则表达式”指代一串字符串,该字符串用于描述一系列句法规则,例如包括什么字符、字符位置、字符顺序等。
[0026]图1为文本聚类系统200的一种实现方式,包括存储设备206、文本聚类设备202。其中存储设备206中存储了用于存储待聚类的文本的文本库,存储设备206可以通过通信网络204与文本聚类设备202建立通信,存储设备206也可以直接设置在文本聚类设备202中,通过输入输入单元2021与文本聚类设备202建立通信。文本聚类设备202中包括输入输出单元2021和处理单元2022。如果存储设备206通过通信网络204与文本聚类设备202通信,则输入输出单元2021可以为网络接口,如果存储设备206部署于文本聚类设备202内,则输入输出单元2021还可以为文本聚类设备202访问本地存储设备的接口。
[0027]其中,处理器402、存储器404和通信接口406可以通过总线408实现彼此之间的通信连接,也可以通过无线传输等其他手段实现通信。
[0028]存储器404存储器可以包括易失性存储器(英文volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non_volatile memory),例如只读存储器(英文:read_only memory,缩写:ROM),快闪存储器(英文:f lash memory),硬盘(英文:hard disk drive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器404还可以包括上述种类的存储器的组合。计算设备400运行时,存储器404加载存储设备206中文本库中存储的文本,以供处理器402使用。在通过软件来实现本发明提供的技术方案时,用于实现本发明图3提供的文本聚类方法的程序代码可以保存在存储器404中,并由处理器402来执行。
[0029]计算设备400通过通信接口406获取待处理的文本,当获取文本聚类的结果后,还可以通过通信接口 406返回给用户。
[0030]处理器402可以为中央处理器(英文:central processing unit,缩写:CPU)。处理器402获取文本库中存储的多个文本,并将这些文本中的数字替换为第一标识,第一标识可以为一个特定的字符,例如字母d。对执行完替换操作的文本进行预处理操作,预处理操作即将每一个执行完替换操作的文本中相邻的两个第一标识合并为一个第一标识。如果文本中有多个相邻的第一标识,则可以将多个相邻的第一标识合并为一个第一标识。文本中的空格、标点符号可以保留。
[0031]一个文本执行完预处理操作后,生成该文本对应的一个预处理文本。因此,N个文本对应于N个预处理文本,N为正整数且N等于待聚类的文本的数量。对每个文本的预处理文本进行分词,如果预处理文本中仅包括标点符号和第一标识,或仅包括有边界语言,例如英文,则根据空格对文本进行分词即可,如果文本中包括无边界语言,则分词还需根据词库中已有词、以
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1