本发明涉及大数据领域,特别涉及一种用于实现短信自动分类的方法和用户终端。
背景技术:
手机短信包含大量通知信息,如电商促销、银行理财、家校联系、天气预报等,用户有对短信进行分类管理的显著需求。
图1给出了现有技术中的一种手机短信分类的方法,通过与用户事先设置好的发送方号码和关键字文本匹配实现短信的自动分类。其中:
步骤101,创建分类文件夹。然后执行步骤102a和步骤102b。
步骤102a,设置手机号码匹配条件,然后执行步骤103。
其中,可通过直接输入号码、从通讯录选择号码、从通话记录中选择号码等方式进行设置。
步骤102b,设置短信内容匹配条件。
其中,可设置输入文本完全匹配或者输入文本部分匹配的条件。
步骤103,在设置完成后,接收新短信。
步骤104,判断新短信是否与设置条件相匹配。若匹配,则执行步骤105,否则执行步骤106。
步骤105,将新短信存入匹配的分类文件夹中。
步骤106,将新短信存入收件箱。
但该现有技术存在以下问题:商家可能使用多个端口号下发短信;人工确定各类别的关键字比较困难,比如对于天气预报类的很多短信其实并不包含“天气”的文字。
技术实现要素:
本发明实施例提供一种用于实现短信自动分类的方法和用户终端,无需用户输入关键字和发送方号码就可以实现短信分类,克服发送方号码多变和人工确定关键字困难的缺陷,从而可以更智能地解决短信自动分类的问题。
根据本发明的一个方面,提供一种用于实现短信自动分类的方法,包括:
在用户终端接收到短信后,判断短信是否与发送方号码规则相匹配;
若短信与发送方号码规则相匹配,则将短信存入相对应的分类文件夹中;
若短信与发送方号码规则不匹配,则进一步判断短信是否与文本分类器相匹配;
若短信与文本分类器相匹配,则将短信存入相对应的分类文件夹中。
在一个实施例中,在将短信存入相对应的分类文件夹中后,还包括:
重新计算相对应的分类文件夹的分类中心向量,以便更新文本分类器。
在一个实施例中,若短信与文本分类器不匹配,则将短信存入短信收件箱中。
在一个实施例中,判断短信是否与文本分类器相匹配的步骤包括:
确定短信的文本向量;
分别计算短信的文本向量与文本分类器中各分类中心向量的相似度;
在至少一个相似度超过预定阈值的情况下,判定短信与文本分类器相匹配,并将最大相似度对应的分类文件夹作为与短信相对应的分类文件夹。
在一个实施例中,上述方法还包括学习发送方号码规则和构建文本分类器的步骤,其中:
创建分类文件夹;
将已接收短信加入创建的分类文件夹中;
学习发送方号码规则,以便根据用户要求增加将已接收短信的发送方号码与该分类文件夹对应的发送方号码规则,并将已接收短信的发送方号码发送的全部短信加入到该分类文件夹中;
计算该分类文件夹中的分类中心向量,以构建文本分类器。
在一个实施例中,学习发送方号码规则包括:
判断已接收短信的发送方号码是否已包括在发送方号码规则中;
若已接收短信的发送方号码未包括在发送方号码规则中,则进一步查询用户是否要求将已接收短信的发送方号码与该分类文件夹绑定;
若用户要求将已接收短信的发送方号码与该分类文件夹绑定,则增加将已接收短信的发送方号码与该分类文件夹对应的发送方号码规则,并将已接收短信的发送方号码发送的全部短信加入到该分类文件夹中。
在一个实施例中,若已接收短信的发送方号码包括在发送方号码规则中,则进一步判断已接收短信的发送方号码是否与发送方号码规则冲突;
若已接收短信的发送方号码与发送方号码规则冲突,则删除该发送方号码规则。
在一个实施例中,计算该分类文件夹中的分类中心向量以构建文本分类器的步骤包括:
计算该分类文件夹中各短信的文本向量;
将该分类文件夹中各短信的文本向量的平均值作为该分类文件夹的分类中心向量,以构建文本分类器。
根据本发明的另一方面,提供一种用于实现短信自动分类的用户终端,包括接口模块、号码规则模块、文本分类模块和分类管理模块,其中:
接口模块,用于接收短信;
号码规则模块,用于在接口模块接收到短信后,判断短信是否与发送方号码规则相匹配;
文本分类模块,用于在短信与发送方号码规则不匹配的情况下,判断短信是否与文本分类器相匹配;
分类管理模块,用于在号码规则模块判断短信与发送方号码规则相匹配的情况下,或者在文本分类模块判断短信与文本分类器相匹配的情况下,将短信存入相对应的分类文件夹中。
在一个实施例中,上述用户终端还包括更新模块,其中:
更新模块,用于在分类管理模块将短信存入相对应的分类文件夹中后,重新计算相对应的分类文件夹的分类中心向量,以便更新文本分类器。
在一个实施例中,分类管理模块还用于在短信与文本分类器不匹配的情况下,将短信存入短信收件箱中。
在一个实施例中,文本分类模块具体在判断短信是否与文本分类器相匹配时,确定短信的文本向量,分别计算短信的文本向量与文本分类器中各分类中心向量的相似度,在至少一个相似度超过预定阈值的情况下,判定短信与文本分类器相匹配,并将最大相似度对应的分类文件夹作为与短信相对应的分类文件夹。
在一个实施例中,上述用户终端还包括分类标注模块,其中:
分类标注模块,用于创建分类文件夹,将已接收短信加入创建的分类文件夹中;学习发送方号码规则,以便根据用户要求增加将已接收短信的发送方号码与该分类文件夹对应的发送方号码规则,并将已接收短信的发送方号码发送的全部短信加入到该分类文件夹中;计算该分类文件夹中的分类中心向量,以构建文本分类器。
在一个实施例中,分类标注模块具体在学习发送方号码规则时,判断已接收短信的发送方号码是否已包括在发送方号码规则中,若已接收短信的发送方号码未包括在发送方号码规则中,则进一步查询用户是否要求将已接收短信的发送方号码与该分类文件夹绑定;若用户要求将已接收短信的发送方号码与该分类文件夹绑定,则增加将已接收短信的发送方号码与该分类文件夹对应的发送方号码规则,并将已接收短信的发送方号码发送的全部短信加入到该分类文件夹中。
在一个实施例中,分类标注模块还用于在已接收短信的发送方号码包括在发送方号码规则中的情况下,进一步判断已接收短信的发送方号码是否与发送方号码规则冲突;若已接收短信的发送方号码与发送方号码规则冲突,则删除该发送方号码规则。
在一个实施例中,分类标注模块在构建文本分类器时,计算该分类文件夹中各短信的文本向量,将该分类文件夹中各短信的文本向量的平均值作为该分类文件夹的分类中心向量,以构建文本分类器。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为现有技术中短信分类流程示意图。
图2为本发明用于实现短信自动分类的方法一个实施例的示意图。
图3为本发明判断短信是否与文本分类器相匹配一个实施例的示意图。
图4为本发明分类标注过程一个实施例的示意图。
图5为本发明学习发送方号码规则一个实施例的示意图。
图6为本发明构建文本分类器一个实施例的示意图。
图7为本发明用于实现短信自动分类的用户终端一个实施例的示意图。
图8为本发明用于实现短信自动分类的用户终端另一实施例的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图2为本发明用于实现短信自动分类的方法一个实施例的示意图。其中:
步骤201,接收短信。
步骤202,在用户终端接收到短信后,判断短信是否与发送方号码规则相匹配。其中,若短信与发送方号码规则相匹配,则执行步骤204;若短信与发送方号码规则不匹配,则执行步骤203。
其中,若发送方号码规则中包括该短信,则可判断该短信与发送方号码规则相匹配。
步骤203,判断短信是否与文本分类器相匹配。若短信与文本分类器相匹配,则执行步骤204;若短信与文本分类器不匹配,则执行步骤205。
步骤204,将短信存入相对应的分类文件夹中。
步骤205,将短信存入短信收件箱中。
可选地,在步骤204后,还可执行步骤206。
步骤206,重新计算相对应的分类文件夹的分类中心向量,以便更新文本分类器。
基于本发明上述实施例提供的用于实现短信自动分类的方法,基于发送方号码规则和文本分类器确定待分类短信所属的分类,无需用户输入关键字和发送方号码就可以实现短信分类,克服发送方号码多变和人工确定关键字困难的缺陷,从而可以更智能地解决短信自动分类的问题。
可选地,上述判断短信是否与文本分类器相匹配的步骤可如图3所示。其中:
步骤301,确定短信的文本向量。
其中,对待分类短信文本进行向量化表示,可包括以下处理:短信文本归一化处理(大小写、全角半角转换)→去噪(去除停用词、虚词)→分词→词频统计→文本向量表示。
步骤302,分别计算短信的文本向量与文本分类器中各分类中心向量的相似度。
例如,可使用向量空间余弦相似度公式,依次计算待分类短信向量与各个分类中心向量的相似度。
步骤303,判断是否存在超过预定阈值的相似度。若存在至少一个超过预定阈值的相似度,则执行步骤304;否则执行步骤305。
步骤304,判定短信与文本分类器相匹配,并将最大相似度对应的分类文件夹作为与短信相对应的分类文件夹。
步骤305,判定短信与文本分类器不匹配。
图4给出了本发明分类标注过程一个实施例的示意图,通过该分类标注过程,可实现学习发送方号码规则和构建文本分类器。其中:
步骤401,创建分类文件夹。
步骤402,将已接收短信加入创建的分类文件夹中。
步骤403,学习发送方号码规则,以便根据用户要求增加将已接收短信的发送方号码与该分类文件夹对应的发送方号码规则,并将已接收短信的发送方号码发送的全部短信加入到该分类文件夹中。
步骤404,计算该分类文件夹中的分类中心向量,以构建文本分类器。
下面分别对学习发送方号码规则和构建文本分类器进行具体说明。
图5为本发明学习发送方号码规则一个实施例的示意图。其中:
步骤501,判断已接收短信的发送方号码是否已包括在发送方号码规则中。若已接收短信的发送方号码未包括在发送方号码规则中,则执行步骤502;若已接收短信的发送方号码包括在发送方号码规则中,则执行步骤504。
步骤502,进一步查询用户是否要求将已接收短信的发送方号码与该分类文件夹绑定。若用户要求将已接收短信的发送方号码与该分类文件夹绑定,则执行步骤503;否则结束本流程。
步骤503,增加将已接收短信的发送方号码与该分类文件夹对应的发送方号码规则,并将已接收短信的发送方号码发送的全部短信加入到该分类文件夹中。然后结束本流程。
步骤504,进一步判断已接收短信的发送方号码是否与发送方号码规则冲突。若已接收短信的发送方号码与发送方号码规则冲突,则执行步骤505;否则结束本流程。
步骤505,删除该发送方号码规则,然后结束本流程。
通过该流程,可通过已接收到的短信自动学习发送方号码规则。
图6为本发明构建文本分类器一个实施例的示意图。其中:
步骤601,计算该分类文件夹中各短信的文本向量。
其中,可依次对该分类下的每条短信文本进行向量化:短信文本归一化处理(大小写、全角半角转换)→去噪(去除停用词虚词)→分词→词频统计→文本向量表示。
步骤602,将该分类文件夹中各短信的文本向量的平均值作为该分类文件夹的分类中心向量,以构建文本分类器。
例如,计算分类中心向量=该类别下各短信文本向量的算术平均值。
通过该流程,可通过已接收到的短信自动构建文本分类器。
图7为本发明用于实现短信自动分类的用户终端一个实施例的示意图。如图7所示,用户终端可包括接口模块701、号码规则模块702、文本分类模块703和分类管理模块704。其中:
接口模块701用于接收短信。
号码规则模块702用于在接口模块701接收到短信后,判断短信是否与发送方号码规则相匹配。
文本分类模块703用于在短信与发送方号码规则不匹配的情况下,判断短信是否与文本分类器相匹配。
分类管理模块704用于在号码规则模块702判断短信与发送方号码规则相匹配的情况下,或者在文本分类模块703判断短信与文本分类器相匹配的情况下,将短信存入相对应的分类文件夹中。
可选地,分类管理模块704还用于在短信与文本分类器不匹配的情况下,将短信存入短信收件箱中。
可选地,文本分类模块704还在判断短信是否与文本分类器相匹配时,确定短信的文本向量,分别计算短信的文本向量与文本分类器中各分类中心向量的相似度,在至少一个相似度超过预定阈值的情况下,判定短信与文本分类器相匹配,并将最大相似度对应的分类文件夹作为与短信相对应的分类文件夹。
基于本发明上述实施例提供的用于实现短信自动分类的用户终端,基于发送方号码规则和文本分类器确定待分类短信所属的分类,无需用户输入关键字和发送方号码就可以实现短信分类,克服发送方号码多变和人工确定关键字困难的缺陷,从而可以更智能地解决短信自动分类的问题。
图8为本发明用于实现短信自动分类的用户终端另一实施例的示意图。与图7所示实施例相比,在图8所示实施例中,除接口模块801、号码规则模块802、文本分类模块803和分类管理模块804之外,还包括更新模块805。其中:
更新模块805用于在分类管理模块804将短信存入相对应的分类文件夹中后,重新计算相对应的分类文件夹的分类中心向量,以便更新文本分类器。
可选地,如图8所示,用户终端还包括分类标注模块806。其中:
分类标注模块806用于创建分类文件夹,将已接收短信加入创建的分类文件夹中;学习发送方号码规则,以便根据用户要求增加将已接收短信的发送方号码与该分类文件夹对应的发送方号码规则,并将已接收短信的发送方号码发送的全部短信加入到该分类文件夹中;计算该分类文件夹中的分类中心向量,以构建文本分类器。
可选地,分类标注模块806具体在学习发送方号码规则时,判断已接收短信的发送方号码是否已包括在发送方号码规则中,若已接收短信的发送方号码未包括在发送方号码规则中,则进一步查询用户是否要求将已接收短信的发送方号码与该分类文件夹绑定;若用户要求将已接收短信的发送方号码与该分类文件夹绑定,则增加将已接收短信的发送方号码与该分类文件夹对应的发送方号码规则,并将已接收短信的发送方号码发送的全部短信加入到该分类文件夹中。
此外,在已接收短信的发送方号码包括在发送方号码规则中的情况下,分类标注模块806还进一步判断已接收短信的发送方号码是否与发送方号码规则冲突;若已接收短信的发送方号码与发送方号码规则冲突,则删除该发送方号码规则。
可选地,分类标注模块806还用于在构建文本分类器时,计算该分类文件夹中各短信的文本向量,将该分类文件夹中各短信的文本向量的平均值作为该分类文件夹的分类中心向量,以构建文本分类器。
通过实施本发明,可以得到以下有益效果:
1)在用户分类整理已有短信的时候,通过拉入分类文件夹中的短信,建立发送方号码规则,无需用户输入或从通讯录选取;
2)通过拉入分类文件夹中的短信,自动学习内容分类规则,无需用户定义分类的关键字文本;
3)克服发送方号码多变和人工确定关键字困难的缺陷,从而可以更智能地解决短信自动分类的问题。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。