词对关系相似度的计算方法

文档序号：6503331阅读：190来源：国知局

词对关系相似度的计算方法
【专利摘要】本发明提供一种词对关系相似度的计算方法，其特征在于，包括：a.生成第一词对以及第二词对的特征向量集，其中，所述第一词对以及所述第二词对分别包括两个英文单词，并通过以下步骤生成特征向量集；b.根据所述第一词对以及所述第二词对的特征向量集和空间余弦相似度定理计算所述第一词对的关系以及所述第二词对的关系的相似度。
【专利说明】词对关系相似度的计算方法

【技术领域】
[0001]本发明涉及自然语言处理领域，具体地说是英文词对间关系相似度的计算。

【背景技术】
[0002]关系相似度度量研究是自然语言处理中的基础性工作，并逐渐成为研究热点，对自然语言处理具有极其重要的意义，并被广泛应用到自然语言处理的许多领域，如信息检索、信息抽取、关系挖掘和人工智能等。
[0003]相似度计算大致分为两类:属性相似度计算和关系相似度计算。对于属性相似度计算，其目标是通过比较两个词的属性来计算给定两个词的相似度。例如，单词“狮子”和“猫”拥有很多公有属性，如肉食动物，有锋利的牙齿，用四条腿行走。因此，它们被视为属性相似。另一方面，关系相似度表示给定两个词对所存在语义关系的一致性。例如，词对{狮子:猫}与{鸵鸟:鸟}就具有很高的关系相似度，因为狮子是一只很大的猫同时鸵鸟是一只很大的鸟。在这个例子中，这两个词对共享语义关系“是一只很大的”。针对属性相似度计算的研究开展较早，相关技术已经非常成熟，而针对关系相似度计算的研究相对较少，相关算法存在可移植性差、特征稀疏、时间空间复杂度大等不足，并且计算效果还有待提高。

【发明内容】

[0004]本发明提供一种词对关系相似度的计算方法，其特征在于，包括:a.生成第一词对以及第二词对的特征向量集，其中，所述第一词对以及所述第二词对分别包括两个英文单词，并通过以下步骤生成特征矩阵:al.在网页中抽取所有包括一词对的文本的集合形成一语料库，其中，所述文本为包括所述第一单词以及所述第二单词的网页快照，所述词对为包括第一单词以及第二单词，所述第一单词以及所述第二单词为英文单词；a2.通过所述第一单词以及所述第二单词的不同形态的单词对所述词对进行扩展为扩展词对集合，结合所述扩展词对集合以及预设连接词集合形成短语模式集合，根据所述语料库以及所述短语模式集合的检索和匹配构建所述词对的特征矩阵；b.利用多任务学习LASSO对所述第一词对以及所述第二词对的特征矩阵进行数据处理以压缩并生成特征向量集，所述特征向量集包括所述第一词对的特征向量以及所述第二词对的特征向量；c.根据所述特征向量集和空间余弦相似度定理计算所述第一词对的关系以及所述第二词对的关系的相似度。
[0005]优选地，所述通过所述第一单词以及所述第二单词的不同形态的单词对所述词对进行扩展为扩展词对集合包括:将所述第一单词以及所述第一单词的所有不同形态的单词作为第一扩展单词，形成第一扩展单词集合；将所述第二单词以及所述第二单词的所有不同形态的单词作为第二扩展单词，形成第二扩展单词集合；一第一扩展单词以及一第二扩展单词构成扩展词对，其中，扩展词对集合包括所有由所述第一扩展单词以及所述第二扩展单词组成的不同的扩展词对。
[0006]优选地，所述结合所述扩展词对集合以及预设连接词集合形成短语模式集合包括:对应连接词集合中的每一个连接词，结合一个扩展词对组成以下两个短语模式:所述第一扩展单词空格所述连接词空格所述第二扩展单词；以及所述第二扩展单词空格所述连接词空格所述第一扩展单词，其中，所述短语模式集合包括所有由所述扩展词对以及所述连接词组成的不同的短语模式。
[0007]优选地，所述特征矩阵的行数为所述连接词集合中连接词的个数，所述特征矩阵的列数为所述文本集合中文本的个数，所述特征矩阵每一项的值为与每一个连接词相关的两个短语模式在每一个文本中出现的频次。
[0008]优选地，所述连接词集合中的一个或多个连接词还包括与所述连接词空格连接的任意一个词。
[0009]优选地，利用多任务学习LASSO对所述特征矩阵进行压缩并生成特征向量集包括:利用LARS算法，根据所述特征矩阵以及目标向量集生成特征向量集，其中，所述目标向量集中的目标向量为所述文本稀疏表示的线性叠加。
[0010]优选地，根据如下公式计算所述第一词对的关系与所述第二词对的关系的相似度:
[0011]RemmdAi B}, {C: ￡?}) =■;■■，
[0012]其中，{A:B}为所述第一词对，{C:D}为所述第二词对，RelSim({A:B}，{C:D})为所述第一词对的关系以及所述第二词对的关系的相似度，rAB为所述第一词对的特征向量，rCD为所述第二词对的特征向量。
[0013]本发明结合统计以及多任务学习的数据处理,提供一种基于Mult1-Task Lasso的英文词对间关系相似度计算方法。通过高效抓取网络文本，并根据模式抽取方法抽取可以表达词对间语义关系的语义特征并同时构建特征矩阵。利用多任务学习在特征学习的优势及Lasso在高维数据特征选择的特性，对特征矩阵进行合理的降维、去噪，生成特征向量。采用余弦相似度计算方法，实现量化词对间关系相似度。本发明充分利用了互联网中海量的、动态更新的信息，并采用最有效的文本抓取方式，同时通过多任务学习对构建的特征矩阵进行降维去噪，较好地解决了以往算法时空开销大的问题，在大大降低计算时间的同时，增强了关系相似度计算的效果。

【专利附图】

【附图说明】
[0014]图1示出了本发明提供的词对关系相似度的计算方法的流程图；以及
[0015]图2示出了本发明提供的根据短语模式生成特征矩阵的流程图。

【具体实施方式】
[0016]为了进一步说明本发明的原理和结构，现结合附图对本发明的优选实施例进行详细说明。
[0017]图1示出了本发明提供的词对关系相似度的计算方法的流程图。具体地，本图示出了九个步骤。
[0018]首先是步骤S101，通过网络抓取包括第一词对{A:B}的文本集合。其中，A、B为两个不同的英文单词。
[0019]具体地，本发明通过抓取与词对相关的网页来实现语料库的构建。考虑到当前网页结构复杂度大、信息内容呈现多元化扩张等问题，单纯采用传统的网页抓取方式不仅耗时，而且会带来更多的噪音干扰。优选地，本发明采用Google Web API获取网页快照的方式来采集信息。网页快照是搜索引擎提供的有效信息之一，它由搜索引擎通过复杂的高级算法获取,通过简短窗口式文本表述网页上下文的核心内容。
[0020]例如，给定词对{restrained: limit},得到804个网页快照,用于下一步特征矩阵的构建。以下示出部分网页快照的内容摘要。
[0021]Restrain implies restrict1n or limitat1n, as on one’s freedom ofact1n:〃a wise and frugal government, which shall restrain men from injuring oneanother'..
[0022]Synonyms for restrain at Thesaurus, com with free onlinethesaurus,...jail, keep, keep down, keep in line，kill氺，limit，lock up, manacle, muzzIej pin1n, prevent,...
[0023]a: to prevent from doing, exhibiting, or expressing something<restrainedthe child from jumping), b: to limit, restrict, or keep under controKtry torestrain your...
[0024]步骤S102，抽取第一词对{A:B}的语义特征。
[0025]具体地，也就是构建第一词对{A:B}的短语模式集，该短语模式由扩展形态后的扩展词对集以及预设的连接词结合构成。具体地，如图2所示步骤构建第一词对{A:B}的短语模式集，在此不予赘述。
[0026]步骤S103，构建第一词对{A:B}的特征矩阵。
[0027]具体地，根据第一词对{A:B}的短语模式集以及文本集合构建第一词对{A:B}的特征矩阵。
[0028]步骤S104，通过网络抓取包括第二词对{C:D}的文本集合。其中，C、D为两个不同的英文单词。
[0029]步骤S105，抽取第二词对{C:D}的语义特征。
[0030]步骤S106，构建第二词对{C:D}的特征矩阵。步骤S107，对第一词对{A:B}以及第二词对{C:D}的特征矩阵进行去噪降维获得特征向量集。
[0031]具体地，为解决特征矩阵的稀疏及噪声干扰问题，本发明利用多任务学习在特征学习的优势及Lasso在高维矩阵压缩的特性来实现对特征矩阵的降维去噪。
[0032]优选地，特征向量生成过程中采用了 MALSAR，它是一套包含有很多主流多任务学习方法的MATLAB库，其中就有关于解决Lasso问题的多任务学习算法Mult1-Task Lasso。此算法在多任务学习的基础上，有效的结合了能良好解决Lasso问题的LARS算法，用于解决多任务学习中的Lasso问题。其中，输入是特征矩阵
[0033]
A = [AllA2,..%AJ € Emxn'
[0034]及目标向量集
[0035]
y= [yi,y2,…,Λ] el?
[0036]其中，目标向量为对应词对网页快照稀疏表示的线性叠加，即

【权利要求】
1.一种词对关系相似度的计算方法，其特征在于，包括: a.生成第一词对以及第二词对的特征向量集，其中，所述第一词对以及所述第二词对分别包括两个英文单词，并通过以下步骤生成特征矩阵: al.在网页中抽取所有包括一词对的文本的集合形成一语料库，其中，所述文本为包括所述第一单词以及所述第二单词的网页快照，所述词对为包括第一单词以及第二单词，所述第一单词以及所述第二单词为英文单词； a2.通过所述第一单词以及所述第二单词的不同形态的单词对所述词对进行扩展为扩展词对集合，结合所述扩展词对集合以及预设连接词集合形成短语模式集合，根据所述语料库以及所述短语模式集合的检索和匹配构建所述词对的特征矩阵， b.利用多任务学习LASSO对所述第一词对以及所述第二词对的特征矩阵进行数据处理以压缩并生成特征向量集，所述特征向量集包括所述第一词对的特征向量以及所述第二词对的特征向量； c.根据所述特征向量集和空间余弦相似度定理计算所述第一词对的关系以及所述第二词对的关系的相似度。
2.根据权利要求1所述的计算方法，其特征在于，所述通过所述第一单词以及所述第二单词的不同形态的单词对所述词对进行扩展为扩展词对集合包括: 将所述第一单词以及所述第一单词的所有不同形态的单词作为第一扩展单词，形成第一扩展单词集合；将所述第二单词以及所述第二单词的所有不同形态的单词作为第二扩展单词，形成第二扩展单词集合；一第一扩展单词以及一第二扩展单词构成扩展词对，其中，扩展词对集合包括所有由所述第一扩展单词以及所述第二扩展单词组成的不同的扩展词对。
3.根据权利要求2所述的计算方法，其特征在于，所述结合所述扩展词对集合以及预设连接词集合形成短语模式集合包括: 对应连接词集合中的每一个连接词，结合一个扩展词对组成以下两个短语模式: 所述第一扩展单词空格所述连接词空格所述第二扩展单词；以及所述第二扩展单词空格所述连接词空格所述第一扩展单词，其中，所述短语模式集合包括所有由所述扩展词对以及所述连接词组成的不同的短语模式。
4.根据权利要求3所述的计算方法，其特征在于，所述特征矩阵的行数为所述连接词集合中连接词的个数，所述特征矩阵的列数为所述文本集合中文本的个数，所述特征矩阵每一项的值为与每一个连接词相关的两个短语模式在每一个文本中出现的频次。
5.根据权利要求1所述的计算方法，其特征在于，所述连接词集合中的一个或多个连接词还包括与所述连接词空格连接的任意一个词。
6.根据权利要求4所述的计算方法，其特征在于，利用多任务学习LASSO对所述特征矩阵进行压缩并生成特征向量集包括: 利用LARS算法，根据所述特征矩阵以及目标向量集生成特征向量集，其中，所述目标向量集中的目标向量为所述文本稀疏表示的线性叠加。
7.根据权利要求6所述的计算方法，其特征在于，根据如下公式计算所述第一词对的关系与所述第二词对的关系的相似度: RelSimiiA: B], {C: D}) =

IryiBl-1rcDl 其中，{A:B}为所述第一词对，{C:D}为所述第二词对，RelSim({A:B}，{C:D})为所述第一词对的关系以及所述第二词对的关系的相似度，1?为所述第一词对的特征向量，为所述第二词对的特征向量。
【文档编号】G06F17/27GK104182386SQ201310202669
【公开日】2014年12月3日申请日期:2013年5月27日优先权日:2013年5月27日
【发明者】吕钊, 洪俊申请人:华东师范大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吕钊;洪俊
技术所有人：华东师范大学
我是此专利的发明人

上一篇：适用于移动终端的网页处理方法和服务器的制造方法
上一篇：一种基于条件随机场的中文人名自动识别方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。