一种文本表示方法及装置的制造方法

文档序号：8457257阅读：339来源：国知局

一种文本表示方法及装置的制造方法
【技术领域】
[0001]本发明涉及信息处理技术，尤其涉及一种文本表示方法及装置。
【背景技术】
[0002]在信息处理技术领域，往往会涉及到文本处理。文本处理是指对经过文本表示后的文本内容，进行文本检索、文本分类、文本分析等处理，其中，文本表示是指将原始的文本内容变成计算机内部表示结构，该内部表示结构是计算机程序可分析的结构，例如，可以用文本内容中的词语、短语等形成计算机可分析的向量结构。
[0003]文本表示的准确性越高，就越能准确表达当前文本的内涵，文本处理的效果越好、效率就越高，反之，文本表示的准确性越低，表达出的文本的内涵就越偏离文本的实际内涵，文本处理的效果就越差、效率也就越低。
[0004]在现有技术中，文本表示方法主要基于向量空间模型。向量空间模型表示文本的方法为:针对某一个文本，首先对该文本进行分词，得到多个词语，然后再根据这些词语在文本中出现的频率，选取频率大于预设值的词语作为表达该文本的特征词，并计算每一个特征词的权重，最后将这些特征词和对应的权重构成文本向量，该文本向量就是该文本的表示形式。例如，对于某一个文本，第i个特征词为fi，该特征词的权重为wi，则文本表示形式为:{〈Π:wl>、〈f2:w2>、......、〈f1:wi>、......}，其中，i = 1、2、3、......。
[0005]上述现有技术提供的文本表示方法中，在选取特征词时，并没有考虑特征词在句子中的语义，也没有考虑句子之间的相关性，只是机械的从文本中提取频率大于预设值的词语作为特征词，此外，由于文本向量中的特征词为文本中的词语，由于独立的词语可能存在多层含义，无法准确表达文本的内涵，因此，文本向量表达文本的准确性就较低，相应的，文本处理的准确性也就较低。

【发明内容】

[0006]本发明实施例提供一种文本表示方法及装置，用以提高文本表示的准确性，从而还可提高文本处理的准确性。
[0007]本发明实施例提供的一种文本表示方法，包括:
[0008]确定构成当前文本的各词语；
[0009]确定各词语的词向量；
[0010]对各词向量进行聚类；
[0011]根据聚类结果，在各词语中确定出当前文本的特征词以及该特征词的权重；
[0012]根据各特征词的词向量和权重确定当前文本的文本向量。
[0013]本发明实施例提供的一种文本表示装置，包括:
[0014]第一确定模块，用于确定构成当前文本的各词语；
[0015]第二确定模块，用于确定各词语的词向量；
[0016]聚类模块，用于对各词向量进行聚类；
[0017]第三确定模块，用于根据聚类结果，在各词语中确定出当前文本的特征词以及该特征词的权重；
[0018]第四确定模块，用于根据各特征词的词向量和权重确定当前文本的文本向量。
[0019]本发明实施例提供的一种文本表示方法及装置，该方法确定构成当前文本的各词语，确定每个词语的词向量，对各词向量进行聚类，根据聚类结果确定当前文本的特征词和该特征词的权重，根据每个词语的特征词对应的词向量和权重确定当前文本的文本向量。可见，本发明中的词语是由词向量来表示的，词向量相比较词语可以从多个维度对该词语进行描述，可更加准确的表示词语的语义信息，此外，聚类的过程已经考虑了特征词在句子中的语义以及句子之间的相关性，因此，本发明通过对词向量进行聚类确定特征词，可有效提尚确定当如文本的特征词的准确性，进而可有效提尚文本处理的准确性。
【附图说明】
[0020]此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中:
[0021]图1为本发明实施例提供的一种文本表示方法流程示意图；
[0022]图2为本发明实施例提供的一种预设词向量库的方法流程示意图；
[0023]图3为本发明实施例提供的一种文本表示装置结构示意图。
【具体实施方式】
[0024]为使本发明的目的、技术方案和优点更加清楚，以下将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0025]参见图1，为本发明实施例提供的一种文本表示方法流程示意图，包括:
[0026]SlOl:确定构成当前文本的各词语。
[0027]在本发明实施例中，所述的当前本文是服务器获取的需要进行文本表示的文本，该文本可以是中文形式的句子、段落或篇章等，该文本可以是txt、doc、pdf、wps等格式的文本。
[0028]在本发明实施例中，服务器可以但不限于从预设存储区域(如语料库)中获取文本，或者在线获取用户当前上传的文本，并将获取的文本作为当前文本。
[0029]本发明实施例在获取当前文本之后，可以对该当前文本进行分词，得到构成当前文本的各词语。在分词过程中，采用的分词方法可包括但不限于:逐词遍历法、机械分词法等。例如，假设服务器获取一篇文章，将该文章作为当前文本后，对该文章内容进行预处理，然后对预处理后的文章内容进行分词，分词后得到的各词语包括:显示、平板、液晶、照明、器件这五个词语，可将这五个词语确定为构成当前文本的各词语。
[0030]为了降低分词时服务器的计算量并避免一些词语的干扰，本发明实施例在分词之前，可以对当前文本进行预处理，比如，去除当前文本中的超文本标记语言(HypertextMarkup Language, HTML)、将当前文本中的繁体字转化为简体字、将全角字符转化为半角字符等等。
[0031]考虑到在实际应用场景中，分词后得到的各词语中除了包含具有实际意义的词语之外，还可能包含一些无实际意义的词语，而特征词一般均为具有实际意义的词语，因此，本发明实施例在确定构成当前文本的各词语时，具体的，对当前文本进行分词，得到多个词语之后，还可以在各词语中确定出指定类型的词语，为了避免筛选出相同的词语，还可以进一步对指定类型的词语进行去重处理，将去重处理后的各词语作为构成当前文本的各词语；其中，所述的指定类型的词语具体可以是具有实际意义的词语，具有实际意义的词语可包括但不限于:名词、动词、形容词等，则不具有实际意义的词语通常为助词、副词、虚词等。
[0032]S102:确定各词语的词向量。
[0033]在本发明实施例中，为了更详细地表达一个词语的含义(即语义信息)，可采用包括N个元素的N维向量来表示一个词语，该N维向量为该词语的词向量。该词向量的N个元素中，每个元素为该词语对应的文本类别的权重值，其中文本类别可包括:计算机、交通、教育、经济、军事、体育、医药、艺术、政治、环境等。
[0034]例如，假设词向量的文本类别可表示为N维向量{计算机、交通、教育、经济}4，其中，N = 4。假设显示、平板、液晶、照明、器件这五个词语为构成当前文本的各词语，则“液晶”这一词语的词向量可以表示为:{0.175,0.095,0.185,0.041}4，其中，该词向量表示的含义为:“液晶”对应于计算机、交通、教育、经济这四个文本类别的权重值分别为0.175、0.095,0.185,0.041。
[0035]在本发明实施例中，服务器在确定各词语的词向量时，可以根据词向量确定工具直接在线确定词向量。可选的，服务器可采用word2vec计算工具，来确定各词语的词向量。
[0036]为了提高确定各词语的词向量的效率，优选的，在本发明实施例中，还可以预先确定各词语的词向量，在需要确定各词语的词向量时，在预设的词向量库中，确定(如，查找)与各词语对应的词向量。可见，在预设的词向量库中确定与各词语对应的词向量，方便快捷，可有效提尚服务器的处理效率。
[003

完整全部详细技术资料下载

当前第1页1 2 3 4

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘洋;
技术所有人：新浪网技术（中国）有限公司;
我是此专利的发明人

上一篇：一种基于词权重进行分词的方法和装置的制造方法
上一篇：一种多文档摘要句的生成方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。