短文本处理方法及装置的制造方法

文档序号：8528229阅读：332来源：国知局

短文本处理方法及装置的制造方法
【技术领域】
[0001] 本申请涉及计算机技术领域，具体涉及文本处理技术领域，尤其涉及短文本处理方法及装置。
【背景技术】
[0002] 随着互联网技术的飞速发展，人们越来越多的通过各种网络平台发表自己的观点或意见。例如，用户可以通过介绍影视剧的网站对电影或电视剧作品发表影评或剧评，还可以通过网络购物平台对购买或使用过的商品发表商品评价，也可以通过意见反馈渠道向提供服务或应用的运营商提出意见建议，还可以通过微博等社交平台发表自己的任意观点等。由于这些评论、评价或意见大多只是进行片断性的描述说明，其所包括的文字内容较少，因此均可以被看作是短文本数据。
[0003] 面对互联网迅猛发展所产生的海量短文本数据，如何准确地对短文本进行划分并从中提取出有实用价值的信息，已经成为互联网行业普遍关注和研宄的课题。在现有技术中，可以通过TF-IDF(TermFrequency-InverseDocumentFrequency，词频-逆向文档频率）方法对短文本数据进行分析。但是，由于这种方法完全依赖词在文档中的出现频次进行计算，而短文本的内容一般来说都比较简短，向量矩阵稀疏，因此传统的TF-IDF方法应用效果并不好，其对短文本进行区分的准确性较低。

【发明内容】

[0004] 鉴于现有技术中的上述缺陷或不足，期望能够提供一种短文本分类准确的方案。为了实现上述一个或多个目的，本申请提供了短文本处理方法及装置。
[0005] 第一方面，本申请提供了一种短文本处理方法，包括：获取第一短文本集合，并对所述第一短文本集合进行预处理；基于预处理后的第一短文本集合，执行如下处理步骤：使用所述预处理后的第一短文本集合训练主题模型LDA，得到所述第一短文本集合中各短文本的主题概率分布；对所述主题概率分布进行聚类，确定所述第一短文本集合中各短文本的主题类别。
[0006] 第二方面，本申请提供了一种短文本处理装置，包括：第一获取模块，用于获取第一短文本集合，并对所述第一短文本集合进行预处理；处理模块，用于基于预处理后的第一短文本集合，驱动以下单元执行如下处理步骤：训练单元，用于使用所述预处理后的第一短文本集合训练主题模型LDA，得到所述第一短文本集合中各短文本的主题概率分布；聚类单元，用于对所述主题概率分布进行聚类，确定所述第一短文本集合中各短文本的主题类别。
[0007] 本申请提供的短文本处理方法及装置，首先可以对获取的第一短文本集合进行预处理，然后利用处理后的数据进行主题模型LDA训练，以得到集合中各短文本的主题概率分布，最后对主题概率分布进行聚类，就可以确定出各短文本的主题类别。通过先进行主题模型训练得到主题概率的分布情况，再进一步对主题概率分布聚类，可以得到用于区分短文本类型的主题类别，从而可以实现对海量短文本数据的快速、准确分类。
【附图说明】
[0008] 通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：
[0009] 图1是本申请短文本处理方法的一个实施例的流程图；
[0010] 图2是本申请短文本处理方法的另一个实施例的流程图；
[0011] 图3是本申请短文本处理装置的一个实施例的功能模块构架示意图；
[0012] 图4是本申请短文本处理装置的另一个实施例的功能模块构架示意图；
[0013] 图5是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
【具体实施方式】
[0014] 下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。
[0015] 需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0016] 请参考图1，其示出了本申请短文本处理方法的一个实施例的流程100。本实施例主要以该方法应用于短文本应用平台的服务器中来举例说明，本实施例的短文本处理方法，包括以下步骤：
[0017] 如图1所示，在步骤101中，获取第一短文本集合，并对第一短文本集合进行预处理。
[0018] 在本实施例中，服务器可以通过各种有线或无线的方式，获取用户在客户端所输入的短文本信息。第一短文本集合通常可以是首次应用本实施例的方法对某一类短文本进行处理时，所能获得的短文本组成的集合。例如，当需要对某一个应用的用户反馈意见进行处理时，可以将用户针对该应用的所有意见反馈作为第一短文本集合。可选地，也可以获取在一段时间内（如一年内）的反馈意见作为第一短文本集合，从而去除那些时效性较差的短文本数据。在获取到待处理的第一短文本集合后，可以首先对其进行预处理，以提高后续处理的效率和准确性。
[0019] 在本实施例的一个可选实现方式中，上述预处理包括对短文本集合中的各短文本进行无效数据过滤、去除停用词、词干提取和编号处理。无效数据过滤可以是对短文本数据进行过滤，去除其中无效的短文本信息，例如文本长度低于3个字符或带有尝试攻击 SQL(StructuredQueryLanguage，结构化查询语言）语句等特征的短文本。具体可以通过决策树来判定一个短文本是否属于无效数据。在过滤掉第一短文本集合中的无效数据后，可以使用常用的分词方法，如基于字符串匹配的分词方法，对剩下的短文本进行切词，然后去除其中表意价值较低的无用词和停用词，例如"的"、"了"等等。接着，可以进行词干提取，即把同词干同义的不同词语中的相同部分提取出来，从而可以进一步剔除价值低的词对整个短文本类别判定的影响。最后，可以对词干提取后的第一短文本集合中所有出现过的词进行一次索引，即为每个词赋予一个编号或ID号，以便于后续计算。
[0020] 在本实施例的一个可选实现方式中，词干提取包括主体提取和描述词提取。当对一个短文本进行词干提取时，可以进行主体提取和描述词提取。主体可以是指短文本所针对的对象，例如意见反馈所针对的产品，或者影评所对应的电影或演员等，通常可以是短文本中的主语或宾语等。描述词可以是对状态、情形、情感等进行描述的词语，通常可以是带有感情色彩的形容词或动词等。由于用户发表短文本的位置，通常是在一个特定的网络位置，如某个产品的意见反馈渠道。此时用户会直接发表意见和建议，而通常不再提及相关产品。因此，在进行词干提取时，很有可能无法提取到确切的主体。例如，用户对某一个产品的反馈是"新版很难用"几个字，则无法直接从该反馈中提取到其所对应的主体。此时，可以根据第一短文本集合的来源确定主体。例如，当第一短文本集合是从搜索应用的意见反馈中获取到的时，则可以认为短文本所对应的主体就是该搜索应用。
[0021] 在本实施例的一个可选实现方式中，当未提取到主体时，还可以根据描述词确定主体。具体地，当未提取到主体时，可以对描述词进行分析，并进一步根据描述词的所描述的内容来确定主体。例如，虽然第一短文本集合是从搜索应用的意见反馈中获取到的，但是其中某一个短文本的内容是"播放电影时，无法自动匹配字幕"。通过这个短文本所描述的内容，可以确定出其对应的主体应该具备视频播放功能，因此其针对的很可能是视频应用而不是搜索应用。该用户很可能是通过搜索应用的反馈渠道，反馈了视频应用的问题。此时，可以根据描述词将该反馈的主体确定为视频应用，而不是搜索应用。通过根据描述词确定主体，可以提尚主体确定的准确性。
[0022] 接着，在步骤102中，可以基于预处理后的第一短文本集合，执行如下处理步骤：使用预处理后的第一短文本集合训练主题模型LDA，得到第一短文本集合中各短文本的主题概率分布；对主题概率分布进行聚类，确定第一短文本集合中各短文本的主题类别。
[0023] 在本实施例中的步骤102可以包括子步骤1021和1022。其中：
[0024] 在步骤1021中，使用预处理后的第一短文本集合训练主题模型LDA，得到第一短文本集合中各短文本的主题概率分布。
[0025] 当在上述步骤101中得到预处理后的第一短文本集合后，可以进一步将其作为数据样本，对主体模型LDA(LatentDirichletAllocation，隐含狄利

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：阮星华;张文;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：一种提供有序数据的系统和方法
上一篇：检索辅助系统、检索辅助方法以及检索辅助程序的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。