短文本处理方法及装置的制造方法

文档序号:8528229阅读:332来源:国知局
短文本处理方法及装置的制造方法
【技术领域】
[0001] 本申请涉及计算机技术领域,具体涉及文本处理技术领域,尤其涉及短文本处理 方法及装置。
【背景技术】
[0002] 随着互联网技术的飞速发展,人们越来越多的通过各种网络平台发表自己的观点 或意见。例如,用户可以通过介绍影视剧的网站对电影或电视剧作品发表影评或剧评,还 可以通过网络购物平台对购买或使用过的商品发表商品评价,也可以通过意见反馈渠道向 提供服务或应用的运营商提出意见建议,还可以通过微博等社交平台发表自己的任意观点 等。由于这些评论、评价或意见大多只是进行片断性的描述说明,其所包括的文字内容较 少,因此均可以被看作是短文本数据。
[0003] 面对互联网迅猛发展所产生的海量短文本数据,如何准确地对短文本进行划分并 从中提取出有实用价值的信息,已经成为互联网行业普遍关注和研宄的课题。在现有技术 中,可以通过TF-IDF(TermFrequency-InverseDocumentFrequency,词频-逆向文档频 率)方法对短文本数据进行分析。但是,由于这种方法完全依赖词在文档中的出现频次进 行计算,而短文本的内容一般来说都比较简短,向量矩阵稀疏,因此传统的TF-IDF方法应 用效果并不好,其对短文本进行区分的准确性较低。

【发明内容】

[0004] 鉴于现有技术中的上述缺陷或不足,期望能够提供一种短文本分类准确的方案。 为了实现上述一个或多个目的,本申请提供了短文本处理方法及装置。
[0005] 第一方面,本申请提供了一种短文本处理方法,包括:获取第一短文本集合,并对 所述第一短文本集合进行预处理;基于预处理后的第一短文本集合,执行如下处理步骤: 使用所述预处理后的第一短文本集合训练主题模型LDA,得到所述第一短文本集合中各短 文本的主题概率分布;对所述主题概率分布进行聚类,确定所述第一短文本集合中各短文 本的主题类别。
[0006] 第二方面,本申请提供了一种短文本处理装置,包括:第一获取模块,用于获取第 一短文本集合,并对所述第一短文本集合进行预处理;处理模块,用于基于预处理后的第一 短文本集合,驱动以下单元执行如下处理步骤:训练单元,用于使用所述预处理后的第一短 文本集合训练主题模型LDA,得到所述第一短文本集合中各短文本的主题概率分布;聚类 单元,用于对所述主题概率分布进行聚类,确定所述第一短文本集合中各短文本的主题类 别。
[0007] 本申请提供的短文本处理方法及装置,首先可以对获取的第一短文本集合进行预 处理,然后利用处理后的数据进行主题模型LDA训练,以得到集合中各短文本的主题概率 分布,最后对主题概率分布进行聚类,就可以确定出各短文本的主题类别。通过先进行主题 模型训练得到主题概率的分布情况,再进一步对主题概率分布聚类,可以得到用于区分短 文本类型的主题类别,从而可以实现对海量短文本数据的快速、准确分类。
【附图说明】
[0008] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它 特征、目的和优点将会变得更明显:
[0009] 图1是本申请短文本处理方法的一个实施例的流程图;
[0010] 图2是本申请短文本处理方法的另一个实施例的流程图;
[0011] 图3是本申请短文本处理装置的一个实施例的功能模块构架示意图;
[0012] 图4是本申请短文本处理装置的另一个实施例的功能模块构架示意图;
[0013] 图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示 意图。
【具体实施方式】
[0014] 下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描 述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了 便于描述,附图中仅示出了与有关发明相关的部分。
[0015] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本申请。
[0016] 请参考图1,其示出了本申请短文本处理方法的一个实施例的流程100。本实施 例主要以该方法应用于短文本应用平台的服务器中来举例说明,本实施例的短文本处理方 法,包括以下步骤:
[0017] 如图1所示,在步骤101中,获取第一短文本集合,并对第一短文本集合进行预处 理。
[0018] 在本实施例中,服务器可以通过各种有线或无线的方式,获取用户在客户端所输 入的短文本信息。第一短文本集合通常可以是首次应用本实施例的方法对某一类短文本进 行处理时,所能获得的短文本组成的集合。例如,当需要对某一个应用的用户反馈意见进行 处理时,可以将用户针对该应用的所有意见反馈作为第一短文本集合。可选地,也可以获取 在一段时间内(如一年内)的反馈意见作为第一短文本集合,从而去除那些时效性较差的 短文本数据。在获取到待处理的第一短文本集合后,可以首先对其进行预处理,以提高后续 处理的效率和准确性。
[0019] 在本实施例的一个可选实现方式中,上述预处理包括对短文本集合中的各短文 本进行无效数据过滤、去除停用词、词干提取和编号处理。无效数据过滤可以是对短文本 数据进行过滤,去除其中无效的短文本信息,例如文本长度低于3个字符或带有尝试攻击 SQL(StructuredQueryLanguage,结构化查询语言)语句等特征的短文本。具体可以通过 决策树来判定一个短文本是否属于无效数据。在过滤掉第一短文本集合中的无效数据后, 可以使用常用的分词方法,如基于字符串匹配的分词方法,对剩下的短文本进行切词,然后 去除其中表意价值较低的无用词和停用词,例如"的"、"了"等等。接着,可以进行词干提取, 即把同词干同义的不同词语中的相同部分提取出来,从而可以进一步剔除价值低的词对整 个短文本类别判定的影响。最后,可以对词干提取后的第一短文本集合中所有出现过的词 进行一次索引,即为每个词赋予一个编号或ID号,以便于后续计算。
[0020] 在本实施例的一个可选实现方式中,词干提取包括主体提取和描述词提取。当对 一个短文本进行词干提取时,可以进行主体提取和描述词提取。主体可以是指短文本所针 对的对象,例如意见反馈所针对的产品,或者影评所对应的电影或演员等,通常可以是短文 本中的主语或宾语等。描述词可以是对状态、情形、情感等进行描述的词语,通常可以是带 有感情色彩的形容词或动词等。由于用户发表短文本的位置,通常是在一个特定的网络位 置,如某个产品的意见反馈渠道。此时用户会直接发表意见和建议,而通常不再提及相关产 品。因此,在进行词干提取时,很有可能无法提取到确切的主体。例如,用户对某一个产品 的反馈是"新版很难用"几个字,则无法直接从该反馈中提取到其所对应的主体。此时,可 以根据第一短文本集合的来源确定主体。例如,当第一短文本集合是从搜索应用的意见反 馈中获取到的时,则可以认为短文本所对应的主体就是该搜索应用。
[0021] 在本实施例的一个可选实现方式中,当未提取到主体时,还可以根据描述词确定 主体。具体地,当未提取到主体时,可以对描述词进行分析,并进一步根据描述词的所描述 的内容来确定主体。例如,虽然第一短文本集合是从搜索应用的意见反馈中获取到的,但是 其中某一个短文本的内容是"播放电影时,无法自动匹配字幕"。通过这个短文本所描述的 内容,可以确定出其对应的主体应该具备视频播放功能,因此其针对的很可能是视频应用 而不是搜索应用。该用户很可能是通过搜索应用的反馈渠道,反馈了视频应用的问题。此 时,可以根据描述词将该反馈的主体确定为视频应用,而不是搜索应用。通过根据描述词确 定主体,可以提尚主体确定的准确性。
[0022] 接着,在步骤102中,可以基于预处理后的第一短文本集合,执行如下处理步骤: 使用预处理后的第一短文本集合训练主题模型LDA,得到第一短文本集合中各短文本的主 题概率分布;对主题概率分布进行聚类,确定第一短文本集合中各短文本的主题类别。
[0023] 在本实施例中的步骤102可以包括子步骤1021和1022。其中:
[0024] 在步骤1021中,使用预处理后的第一短文本集合训练主题模型LDA,得到第一短 文本集合中各短文本的主题概率分布。
[0025] 当在上述步骤101中得到预处理后的第一短文本集合后,可以进一步将其作为数 据样本,对主体模型LDA(LatentDirichletAllocation,隐含狄利
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1