同义词模板的挖掘方法和装置以及同义词挖掘方法和装置的制作方法

文档序号:6358310阅读:194来源:国知局
专利名称:同义词模板的挖掘方法和装置以及同义词挖掘方法和装置的制作方法
同义词模板的挖掘方法和装置以及同义词挖掘方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及一种同义词模板的挖掘方法和装置以及同义词挖掘的方法和装置。
背景技术
当用户在使用搜索引擎进行搜索时,为了能够将与用户所输入搜索请求(query)的同义词相匹配的网页也包含在搜索结果中召回,会用到基于同义词的query扩展,即在利用query进行搜索的同时也利用query的同义词进行搜索。为了在搜索引擎中应用该技术,同义词的挖掘是非常重要的基础工作。现有的同义词挖掘方式通过计算语料库中各词语之间的相关概率来进行同义词挖掘,但这种方式需要对语料库中的词语两两进行计算,效率很低。·

发明内容有鉴于此,本发明提供了一种同义词模板的挖掘方法和装置以及同义词挖掘方法和装置,以便于提高同义词挖掘的效率。具体技术方案如下一种同义词模板的挖掘方法,所述同义词模板包括同义标记符和同义词对中同义词的边界信息;该方法包括A、获取预设的种子词对;B、将所述种子词对在网页中设定上下文范围内的词语或符号作为候选标记符,并记录各候选标记符的出现次数以及所述种子词对中同义词在所述网页中的边界信息;C、基于记录的各候选标记符的出现次数为各候选标记符打分,选择打分值满足预设打分阈值的候选标记符并记录为所述同义词模板中的同义标记符;D、将所述同义标记符对应的所述边界信息记录在所述同义词模板中。具体地,所述种子词对中其中一个词语Pl为所述网页的主题词,另一个词语P2为所述主题词的同义词;所述步骤B具体为将所述P2在所述网页中设定上下文范围内的词语或符号作为候选标记符,并记录各候选标记符的出现次数以及所述P2的边界信息。或者,所述步骤B具体为确定所述种子词对中两词语Pl和P2之间的距离在预设距离范围内时所在的网页部分,将该网页部分中种子词对的设定上下文范围内的词语或符号作为候选标记符,并记录各候选标记符的出现次数以及所述Pl和所述P2在所述网页部分中的边界信息。较优地,在所述记录各候选标记符的出现次数之前,该方法还包括将包含在预设的停用符表中的候选标记符过滤掉。其中,所述同义标记符包括以下词语中的至少一种“简称”、“全称”、“即”、“缩写”;
或者,
包括以下符号中的至少一种括号、“viz”。更优地,在所述为各候选标记符打分时进一步结合各候选标记符出现在所述网页中的位置。所述同义词模板中进一步包括同义词对中同义词相对于所述同义标记符的位置
信息;所述步骤B中进一步记录所述P2相对于所述候选标记符的位置信息;所述步骤D中进一步将所述同义标记符对应的所述位置信息记录在所述同义词模板中。或者,所述同义词模板中进一步包括同义词对中同义词相对于所述同义标记符的位置信息;·
所述步骤B中进一步记录所述Pl和所述P2相对于所述候选标记符的位置信息;所述步骤D中进一步将所述同义标记符对应的所述位置信息记录在所述同义词模板中。其中,所述位置信息包括同义词相对于同义标记符的方向信息,和/或,同义词相对于同义标记符的距离信息。所述同义词模板存储在数据库中,所述同义标记符存储为索引,指向对应的边界信息。—种同义词挖掘的方法,该方法包括A、利用预先设置的同义词模板,查找网页中的同义标记符;B、在所述网页中同义标记符前后的设定距离范围内,按照所述同义词模板中所述同义标记符对应的同义词对中各词语的边界信息,抽取出同义词对;其中,所述同义词模板包括同义标记符和同义词对中词语的边界信息。其中,所述同义词模板采用人工方式预先设置在数据库中,或者,采用上述同义词模板的挖掘方法预先挖掘并记录在数据库中。当所述同义词模板采用人工方式预先设置时,所述边界信息包括具体的上下文边界或边界确定策略。如果所述边界信息包括边界确定策略,则所述步骤B具体包括在所述网页中同义标记符前后的设定距离范围内,计算除同义标记符之外其他各词语之间的匹配度,抽取出两个词语Ql和Q2构成同义词对,其中Q2覆盖Ql中所有的字,且在Ql和Q2之间具有最大的匹配度基础上保证Q2最短。所述步骤B具体包括在所述网页中同义标记符前后的设定距离范围内,按照同义模板中同义标记符对应的边界信息,抽取出所述网页的主题词对应的同义词,记录由所述主题词和抽取出的同义词构成的同义词对。或者,所述步骤B具体包括在所述网页中同义标记符前后的设定距离范围内,按照同义模板中同义标记符对应的边界信息,抽取出满足该边界信息的两个词语构成同义词对。更优地,在所述步骤B之后还包括C、对抽取出的同义词对进行以下所列过滤处理中的任一或任意组合
将所述同义词对中来源网页数目小于预设的数目阈值NI的同义词对过滤掉,NI为预设的正整数;将其中任一个词语在搜索日志中的出现次数小于预设的次数阈值N2的同义词对过滤掉,N2为预设的正整数;如果将某同义词对中两同义词重叠的部分删除后得到的词对与其他同义词对相同,则将所述某同义词对过滤掉;以及,将利用同义词对进行搜索得到的搜索结果数量小于预设的数量阈值N5的同义词对过滤掉,N5为预设的正整数。较优地,所述同义词模板中进一步包括同义词对中同义词相对于所述同义标记符的位置信息,则在所述步骤B中抽取同义词对时,进一步结合步骤A查找到的同义标记符在所述同义词模板中对应的所述位置信息。 其中,所述位置信息包括同义词相对于同义标记符的方向信息,和/或,同义词相对于同义标记符的距离信息。所述同义标记符包括以下词语中的至少一种“简称”、“全称”、“即”、“缩写”;或者,包括以下符号中的至少一种括号、“viz”。一种同义词模板的挖掘装置,所述同义词模板包括同义标记符和同义词对中同义词的边界信息;该装置包括种子词对获取单元、候选标记符确定单元、信息记录单元和标记符确定单元;所述种子词对获取单元,用于获取预设的种子词对;所述候选标记符确定单元,用于将所述种子词对在网页中设定上下文范围内的词语或符号确定为候选标记符;所述信息记录单元,用于记录各候选标记符的出现次数以及所述种子词对中同义词在所述网页中的边界信息;将所述标记符确定单元选择的候选标记符记录为所述同义词模板中的同义标记符,将所述同义标记符对应的所述边界信息记录在所述同义词模板中;所述标记符确定单元,用于基于所述信息记录单元记录的各候选标记符的出现次数为各候选标记符打分,选择打分值满足预设打分阈值的候选标记符。具体地,所述种子词对中其中一个词语为Pl为所述网页的主题词,另一个词语P2为所述主题词的同义词;所述候选标记符确定单元具体将所述P2在所述网页中设定上下文范围内的词语或符号作为候选标记符;所述信息记录单元记录的边界信息为所述P2的边界信息。或者,所述候选标记符确定单元具体确定所述种子词对中两词语Pl和P2之间的距离在预设距离范围内时所在的网页部分,将该网页部分中种子词对的设定上下文范围内的词语或符号作为候选标记符;所述信息记录单元记录的边界信息为所述Pl和所述P2在所述网页内容中的边界信息。更进一步地,该装置还包括过滤处理单元,用于将所述候选标记符确定单元得到的候选标记符中,包含在预设的停用符表中的候选标记符过滤掉。其中,所述同义标记符包括以下词语中的至少一种“简称”、“全称”、“即”、“缩写”;或者,包括以下符号中的至少一种括号、“viz”。较优地,所述标记符确定单元在为各候选标记符打分时进一步结合各候选标记符出现在所述网页中的位置。更优地,所述同义词模板中进一步包括同义词对中同义词相对于所述同义标记符的位置信息;所述信息记录单元,还用于记录所述P2相对于所述候选标记符的位置信息,将所述同义标记符对应的所述位置信息记录在所述同义词模板中。或者,所述信息记录单元,还用于记录所述Pl和所述P2相对于所述候选标记符的位置信息,将所述同义标记符对应的位置信息记录在所述同义词模板中。 其中,所述位置信息包括同义词相对于同义标记符的方向信息,和/或,同义词相对于同义标记符的距离信息。另外,该装置还包括数据库,用于存储所述同义词模板;所述信息记录单元将所述同义标记符存储为索引,指向对应的边界信息。一种同义词挖掘的装置,该装置包括标记符匹配单元和同义词对抽取单元;所述标记符匹配单元,用于利用预先设置的同义词模板,查找网页中的同义标记符;所述同义词对抽取单元,用于在所述网页中所述标记符匹配单元查找出的同义标记符前后的设定距离范围内,按照所述同义词模板中所述同义标记符对应的同义词对中各词语的边界信息,抽取出同义词对;所述同义词模板包括同义标记符和同义词对中词语的边界信息。其中,所述同义词模板采用人工方法预先设置在数据库中,或者,由上述同义词模板的挖掘装置预先挖掘并记录在数据库中。当所述同义词模板采用人工方式预先设置时,所述边界信息包括具体的上下文边界或边界确定策略。如果所述边界信息包括边界确定策略,则所述同义词对抽取单元具体包括匹配度计算子单元和词对抽取子单元;所述匹配度计算子单元,用于在所述网页中所述标记符匹配单元查找出的同义标记符前后的设定距离范围内,计算除所述同义标记符之外其他各词语之间的匹配度;所述词对抽取子单元,用于根据所述匹配度计算子单元的计算结果,抽取出两个词语Ql和Q2构成同义词对,其中Q2覆盖Ql中所有的字,且在Ql和Q2之间具有最大的匹配度基础上保证Q2最短。所述同义词对抽取单元在所述网页中同义标记符前后的设定距离范围内,按照同义模板中同义标记符对应的边界信息,抽取出所述网页的主题词对应的同义词,由所述主题词和抽取出的同义词构成同义词对。或者,所述同义词对抽取单元在所述网页中同义标记符前后的设定距离范围内,按照同义模板中同义标记符对应的边界信息,抽取出满足该边界信息的两个词语构成同义词对。较优地,该装置还包括过滤处理单元,用于对所述同义词对抽取单元抽取出的同义词对进行以下所列过滤处理中的任一或任意组合将所述同义词对中来源网页数目小于预设的数目阈值NI的同义词对过滤掉,NI为预设的正整数;将其中任一个词语在搜索日志中的出现次数小于预设的次数阈值N2的同义词对过滤掉,N2为预设的正整数;如果将某同义词对中两同义词重叠的部分删除后得到的词对与其他同义词对相同,则将所述某同义词对过滤掉;以及,将利用同义词对进行搜索得到的搜索结果数量小于预设的数量阈值N5的同义词对过滤掉,N5为预设的正整数。更优地,所述同义词模板中进一步包括同义词对中同义词相对于所述同义标记符的位置信息;·所述同义词对抽取单元在抽取同义词对时,进一步结合所述同义标记符在所述同义词模板中对应的所述位置信息。其中,所述位置信息包括同义词相对于同义标记符的方向信息,和/或,同义词相对于同义标记符的距离信息。所述同义标记符包括以下词语中的至少一种“简称”、“全称”、“即”、“缩写”;或者,包括以下符号中的至少一种括号、“viz”。由以上技术方案可以看出,本发明建立包含同义标记符和同义词对中同义词的边界信息的同义词模板,并利用该同义词模板从网页中抽取同义词对,也就是说,在挖掘同义词的过程中仅需要利用预先建立的同义词模板与网页内容进行匹配,相比较现有技术中计算网页中两两词语的相关概率的方式,大大提高了同义词挖掘的效率。

图I为本发明实施例一提供的对普通网页进行同义词挖掘的方法流程图;图2为本发明实施例二提供的针对知识类网页进行同义词模板挖掘的方法流程图;图3为本发明实施例三提供的针对知识类网页进行同义词挖掘的方法流程图;图4为本发明实施例四提供的针对普通网页进行同义词模板挖掘的方法流程图;图5为本发明实施例五提供的同义词模板的挖掘装置结构图;图6为本发明实施例六提供的同义词挖掘的装置结构图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。在网页内容中,存在大量的同义词现象,比如,在关于美国经济的普通网页中,可能会提到“纽约证券交易所”,其后往往会出现“(NYSE,下简称纽交所)”,这就出现了同义词现象。再如,在一些诸如百科的知识类网页中,整个网页对一个名词进行介绍,在正文的前面几个段落中往往会提到这个名词的简称、昵称等同义词。针对上述网页的特点,可以采用基于模板挖掘的方法挖掘网页中出现的同义词。
本发明实施例中对同义词进行挖掘所采用的模板可以包括同义标记符和边界信息。其中,同义标记符用于标记同义词对的出现,边界信息用于确定同义词对的上下文边界。同义标记符可以是词语,也可以是符号。鉴于普通网页和知识类网页中同义词出现的不同特点,下面分别针对普通网页和知识类网页的同义词挖掘方法进行详细描述。首先结合实施例一对普通网页的同义词挖掘方法进行描述。实施例一、在普通网页中可能会出现多个词的同义词,即存在多个同义词对,且互为同义词的两个词语出现在较小的上下文窗口中,通常存在一个同义标记符对互为同义词的两个词语进行标记。该同义标记符可以包括但不限于“简称”、“全称”、“即”、“缩写”,以及括号。对于中文同义词对,对同义标记符(诸如“简称”、“全称”等)前后若干距离的词语作为挖掘出的同义词对或者候选同义词对。对于英文同义词对,对同义标记符(诸如“缩写”、“即” 等或者括号)前后若干距离的英文串作为同义词对或者候选同义词对。基于普通网页的以上特点,可以采用预先人工配置同义词模板的方法,该同义词模板中包括的同义标记符如上所述可以为“简称”、“全称”、“即”、“缩写”等词语(以下称为同义标记词),也可以为括号、“viz. ”等符号,包括的边界信息可以设置为具体的上下文边界,即同义词对中同义词的上下文边界(同义词开始与结束的位置),也可以设置为边界确定策略。其中,如果边界信息是上下文边界,可以包括但不限于以下上下文边界同义标记词-右括号、左括号-同义标记词、左括号-右括号、逗号-右括号、左括号-逗号、句首-左括号、同义标记词-句尾等。之前的是上文边界,之后的是下文边界。例如,对于纽约证券交易所(NYSE,下简称纽交所),其中,“NYSE”的上下文边界为左括号-逗号,“纽交所”的上下文边界为“简称右括号。对于纽交所(全称纽约证券交易所,New York Stock Exchange),其中“纽约证券交易所”的上下文边界为“全称逗号,“New York StockExchange”的上下文边界为逗号_右括号°如果边界信息是边界确定策略,则该边界确定策略可以设定为同义标记符前后设定距离范围内的各词语中匹配度满足预设条件的词语作为同义词对。图I为本发明实施例一提供的对普通网页进行同义词挖掘的方法流程图,如图I所示,该方法可以包括以下步骤步骤101 :利用预先设置的同义词模板,查找网页中的同义标记符。可以将设置的同义词模板存储在数据库中,将同义标记符存储为第一级索引,指向对应的边界信息。在利用同义词模板进行匹配时,首先将同义标记符与网页内容进行匹配,查找网页中的同义标记符。网页中的同义词对可能在同义标记符的前后出现。步骤102 :在网页中同义标记符前后的设定距离范围内,按照同义词模板中包含的边界信息,抽取出同义词对。需要说明的是,本发明中所有实施例中的处理都是基于对网页的文本处理(分词处理和词性标注)的。由于普通网页中数据噪声较大,可以仅针对其中的缩写类或翻译类同义词对进行抽取。即抽取出的同义词对中,其中一个词语是另一个词语的缩写或翻译。对于缩写类的同义词对,有这样一个特点中文的同义词对中,缩写词中的字都是全称词中字的子集;英文的同义词对中,缩写词是全称词各首字母的子集。如果同义词模板中的边界信息包含具体的上下文边界,则直接利用该上下文边界抽取出同义词,即将上下文边界符合边界信息的词语抽取出来。例如,对于网页内容“纽约证券交易所(NYSE,下简称纽交所)”,如果同义词模板中同义标记符为“简称”、边界信息为句首-左括号,以及同义标记符-右括号,则可以从中抽取出同义词对“纽约证券交易所”和“纽交所”;如果同义词模板中同义标记符为括号、边界信息为句首-左括号,以及左括号-逗号,则可以从中抽取出同义词对“纽约证券交易所”和“NYSE”。这种方式对于缩写类或翻译类同义词对均可适用。如果同义词模板中的边界信息包含边界确定策略,则可以采用动态规划的方法计算网页中同义标记符之前设定范围内各词语与之后设定范围内各短语之间的匹配度,选择匹配度最大的短语作为同义词对。这种方式应用于缩写类同义词对。
计算两词语(扩展的词语,包含短语的概念)之间匹配度的方式可以采用与编辑距离相类似的方法,假设其中一个词语Pl由以下字组成al、a2和a3,另一个词语P2由以下字组成fl、f2、f3和f4组成,Pl可能是P2的缩写词,那么Pl中的字应该都在P2中出现,P2如果包含不相关的词,匹配度是不变的,因此,仅需要找出匹配度最大的基础上全称词最短的词对。具体公式如下 MAT( l, P2) = MAT(ala2a3, flf2f3f4)
_ Jmax(M4r(ala2,flf2f3) + l, MAT(ala2a3, flf2f3)) a3 = f4(I)
~ [A^4r(ala2a3, flf 2f3)a3 本 f 4其中,MAT(P1,P2)为词语Pl 和 P2 之间的匹配度,MAT((K <i>) = MAT (<i>, x)=MAT(ct,x) = 0,MAT(x, x) = 1,x表示任意字,小表示没有字。步骤103 :对抽取出的同义词对进行过滤处理。通过步骤101和步骤102抽取出的同义词对中,可能存在一些不合理的词对,因此较优地,可以通过步骤103对抽取出的同义词对进行过滤处理,从而提高同义词对的质量。本领域技术人员很容易理解,本步骤是本发明的可选步骤。采用的过滤处理可以包括但不限于以下所列中的任一或任意组合I)基于出现频次的过滤将同义词对中来源网页数目小于预设的数目阈值NI的同义词对过滤掉,NI为预设的正整数。2)基于搜索日志的过滤将其中任一个词语在搜索日志中的出现次数小于预设的次数阈值N2的同义词对过滤掉,N2为预设的正整数。即如果由词语Pl和P2构成的同义词对中,Pl或者P2在搜索日志中的出现次数小于N2,则将该同义词对过滤掉。3)对冗余同义词对的过滤如果将某同义词对中两同义词重叠的部分删除后得到的词对与其他同义词对相同,则将该某同义词对过滤掉。例如,同义词对“北京大学出版社”和“北大出版社”,如果将两同义词重叠的部分删除后得到的词对为“北京大学”和“北大”,如果该词对已经作为候选同义词存在,则可以将同义词对“北京大学出版社”和“北大出版社”过滤掉。4)基于搜索结果的过滤如果利用同义词对进行搜索得到的搜索结果数量小于预设的数量阈值N5,N5为预设的正整数,则将该同义词对过滤掉。下面结合实施例二和实施例三分别对知识类网页的同义词模板挖掘方法和同义词挖掘方法进行描述。实施例二、在知识类网页中,往往只有网页所介绍名词的同义词,而且同义词可能分布在不同的句子或段落中。在本发明实施例中,可以采用自动学习的方式挖掘出同义词模板,利用该同义词模板进行同义词挖掘时,不仅能挖掘出缩写类和翻译类同义词对,也能够挖掘出缩写类和翻译类之外的同义词对。图2为本发明实施例二提供的针对知识类网页进行同义词模板挖掘的方法流程 图,如图2所示,该方法可以包括以下步骤步骤201 :获取预先设置的种子词对,种子词对中其中一个词语为知识类网页的主题词,另一个词语为该主题词的同义词。本实施例所涉及的知识类网页指的是网页内容是用于介绍一个主题词的网页,介绍内容包括这个主题词的定义、由来、相关的事件等。诸如百科类网页等。除了知识类网页之外的其他类型网页都可以认为是普通网页,为了考虑准确率的问题,可以仅关注新闻类型的网页,其描述的对象通常是一个事件。该实施例中为了实现同义词挖掘的自动学习机制,可以预先设置种子词对,利用这些种子词对在知识类网页中的标识和位置信息来生成模板。预先设置的种子词对可以采用同义词表的形式存储,本步骤中从该同义词表中获取种子词对。步骤202 :在以种子词对中其中一个词语为主题词的知识类网页中,将该种子词对中另一个词语在网页中设定上下文范围内的词语或符号作为候选标记符,并统计各候选标记符的出现次数以及该另一个词语的边界信息。在提取同义词模板阶段,种子词对中一个词语为知识类网页的主题词时,另一个词语的上下文会有很多词语或者符号,这些词语或符号都有可能是同义标记符,因此,可以将该另一个词语在网页中设定上下文范围内的词语或符号都首先作为候选标记符,对各候选标记符的出现次数以及对应的另一个词语的边界信息进行记录。例如,如果种子词对为“意甲”和“意大利足球甲级联赛”,在以“意大利足球甲级联赛”为主题词的知识类网页(例如百科页面)中,出现在种子词对中另一个词语“意甲”的设定上下文范围内的词语假设含有ZSerieA”、“简称”、“尤文图斯”、“历史上”、“夺得”、“联赛”等,将这些词均记录为候选标记符,并分别统计出现次数,其中,“Serie A”和“简称”对应的边界信息是“简称右括号,“尤文图斯”、“历史上”、“夺得”和“联赛”对应的边界
息是“夺得” _ “联赛”。将上述确定的候选标记符、候选标记符出现次数以及对应的边界信息记录在数据库中,供后续确定同义标记符时调用。较优地,在对候选标记符进行统计之前,可以首先对候选标记符进行基于停用符表的过滤,将包含在停用符表中的候选标记符过滤掉。在该停用符表中可以包括助词、副词、虚词、代词等停用词,以及逗号、句号、感叹号、省略号等标点符号。停用符表中包含的词语和符号通常是不太可能标识同义词对出现的。通常可以作为同义标记符的是诸如“简称”、“全称”、“Sr、“缩写”等词语,或者,括号、“Viz. ”等符号。步骤203 :基于各候选标记符的出现次数为各候选标记符打分,选择打分值满足预设打分阈值的候选标记符,并将其记录为同义词模板中的同义标记符。在从各候选标记符中选择同义标记符来形成同义词模板时,可以基于统计得到的各候选标记符的出现次数为各候选标记符打分,另外,打分策略除了基于统计得到的各候选标记符的出现次数之外,还可以同时结合各候选标记符出现在网页中的位置。例如,由于在知识类网页内容的前两段通常出现主题词对应同义词的几率较大,可以将出现在网页内容的前两段中的候选标记符设置较高的权重值。步骤204 :将同义标记符对应的边界信息记录在同义词模板中。
在本步骤中可以将选择的同义标记符所对应的边界信息全都记录在同义词模板中。可选地,在同义词模板中除了包含同义标记符和边界信息之外,还可以进一步包含位置信息,即同义词相对于同义标记符的位置信息,该相对位置信息可以包括同义词相对于同义标记符的方向信息,和/或,同义词相对于同义标记符的距离信息。其中方向信息指的是同义词在同义标记符的前面还是后面,如果在同义标记符的前面可以采用标识,如果在同义标记符的后面可以采用“ + ”表示或没有符号标识。距离信息可以采用距离同义标记符的字数表示。例如,对于种子词对“意大利足球甲级联赛”和“意甲”,如果在知识类网页中,主题词为“意大利足球甲级联赛”,网页中出现“意大利足球甲级联赛的简称是意甲”,如果选择出的同义标记符为“简称”,则对应的位置信息可以为2个词语(表示主题词的同义词在同义标记词后面的第2个词语);网页中如果出现“意甲是意大利足球甲级联赛的简称”,则对应的位置信息可以为_4(表示主题词的同义词在同义标记词前面的第4个词语)。通过上述方式挖掘出的同义词模板中同一个同义标记符可能对应多个边界信息和位置信息。后续利用该同义词模板抽取出的同义词对也可能是多个。本实施例中,同义词模板在数据库中的存储方式可以如表I所示。表I
权利要求
1.一种同义词模板的挖掘方法,其特征在于,所述同义词模板包括同义标记符和同义词对中同义词的边界信息;该方法包括 A、获取预设的种子词对; B、将所述种子词对在网页中设定上下文范围内的词语或符号作为候选标记符,并记录各候选标记符的出现次数以及所述种子词对中同义词在所述网页中的边界信息; C、基于记录的各候选标记符的出现次数为各候选标记符打分,选择打分值满足预设打分阈值的候选标记符并记录为所述同义词模板中的同义标记符; D、将所述同义标记符对应的所述边界信息记录在所述同义词模板中。
2.根据权利要求I所述的方法,其特征在于,所述种子词对中其中一个词语Pl为所述网页的主题词,另一个词语P2为所述主题词的同义词; 所述步骤B具体为将所述P2在所述网页中设定上下文范围内的词语或符号作为候选标记符,并记录各候选标记符的出现次数以及所述P2的边界信息。
3.根据权利要求I所述的方法,其特征在于,所述步骤B具体为 确定所述种子词对中两词语Pl和P2之间的距离在预设距离范围内时所在的网页部分,将该网页部分中种子词对的设定上下文范围内的词语或符号作为候选标记符,并记录各候选标记符的出现次数以及所述Pl和所述P2在所述网页部分中的边界信息。
4.根据权利要求I至3任一权项所述的方法,其特征在于,在所述记录各候选标记符的出现次数之前,该方法还包括将包含在预设的停用符表中的候选标记符过滤掉。
5.根据权利要求I至3任一权项所述的方法,其特征在于,所述同义标记符包括以下词语中的至少一种“简称”、“全称”、“即”、“缩写”;或者, 包括以下符号中的至少一种括号、“viz”。
6.根据权利要求I至3任一权项所述的方法,其特征在于,在所述为各候选标记符打分时进一步结合各候选标记符出现在所述网页中的位置。
7.根据权利要求2所述的方法,其特征在于,所述同义词模板中进一步包括同义词对中同义词相对于所述同义标记符的位置信息; 所述步骤B中进一步记录所述P2相对于所述候选标记符的位置信息; 所述步骤D中进一步将所述同义标记符对应的所述位置信息记录在所述同义词模板中。
8.根据权利要求3所述的方法,其特征在于,所述同义词模板中进一步包括同义词对中同义词相对于所述同义标记符的位置信息; 所述步骤B中进一步记录所述Pl和所述P2相对于所述候选标记符的位置信息; 所述步骤D中进一步将所述同义标记符对应的所述位置信息记录在所述同义词模板中。
9.根据权利要求7或8所述的方法,其特征在于,所述位置信息包括同义词相对于同义标记符的方向信息,和/或,同义词相对于同义标记符的距离信息。
10.根据权利要求I所述的方法,其特征在于,所述同义词模板存储在数据库中,所述同义标记符存储为索引,指向对应的边界信息。
11.一种同义词挖掘的方法,其特征在于,该方法包括 A、利用预先设置的同义词模板,查找网页中的同义标记符;B、在所述网页中同义标记符前后的设定距离范围内,按照所述同义词模板中所述同义标记符对应的同义词对中各词语的边界信息,抽取出同义词对; 其中,所述同义词模板包括同义标记符和同义词对中词语的边界信息; 所述同义词模板采用人工方式预先设置在数据库中,或者,采用如权利要求I至3任一权项所述的方法预先挖掘并记录在数据库中。
12.根据权利要求11所述的方法,其特征在于,当所述同义词模板采用人工方式预先设置时,所述边界信息包括具体的上下文边界或边界确定策略。
13.根据权利要求12所述的方法,其特征在于,如果所述边界信息包括边界确定策略,则所述步骤B具体包括 在所述网页中同义标记符前后的设定距离范围内,计算除同义标记符之外其他各词语之间的匹配度,抽取出两个词语Ql和Q2构成同义词对,其中Q2覆盖Ql中所有的字,且在Ql和Q2之间具有最大的匹配度基础上保证Q2最短。
14.根据权利要求11所述的方法,其特征在于,如果所述同义词模板采用如权利要求2所示的方法预先挖掘,则所述步骤B具体包括 在所述网页中同义标记符前后的设定距离范围内,按照同义模板中同义标记符对应的边界信息,抽取出所述网页的主题词对应的同义词,记录由所述主题词和抽取出的同义词构成的同义词对。
15.根据权利要求11所述的方法,其特征在于,如果所述同义词模板采用如权利要求3所述的方法预先挖掘,则所述步骤B具体包括 在所述网页中同义标记符前后的设定距离范围内,按照同义模板中同义标记符对应的边界信息,抽取出满足该边界信息的两个词语构成同义词对。
16.根据权利要求11所述的方法,其特征在于,在所述步骤B之后还包括 C、对抽取出的同义词对进行以下所列过滤处理中的任一或任意组合 将所述同义词对中来源网页数目小于预设的数目阈值NI的同义词对过滤掉,NI为预设的正整数; 将其中任一个词语在搜索日志中的出现次数小于预设的次数阈值N2的同义词对过滤掉,N2为预设的正整数; 如果将某同义词对中两同义词重叠的部分删除后得到的词对与其他同义词对相同,则将所述某同义词对过滤掉;以及, 将利用同义词对进行搜索得到的搜索结果数量小于预设的数量阈值N5的同义词对过滤掉,N5为预设的正整数。
17.根据权利要求11所述的方法,其特征在于,所述同义词模板中进一步包括同义词对中同义词相对于所述同义标记符的位置信息,则在所述步骤B中抽取同义词对时,进一步结合步骤A查找到的同义标记符在所述同义词模板中对应的所述位置信息。
18.根据权利要求17所述的方法,其特征在于,所述位置信息包括同义词相对于同义标记符的方向信息,和/或,同义词相对于同义标记符的距离信息。
19.根据权利要求11所述的方法,其特征在于,所述同义标记符包括以下词语中的至少一种“简称”、“全称”、“即”、“缩写”;或者, 包括以下符号中的至少一种括号、“viz”。
20.一种同义词模板的挖掘装置,其特征在于,所述同义词模板包括同义标记符和同义词对中同义词的边界信息;该装置包括种子词对获取单元、候选标记符确定单元、信息记录单元和标记符确定单元; 所述种子词对获取单元,用于获取预设的种子词对; 所述候选标记符确定单元,用于将所述种子词对在网页中设定上下文范围内的词语或符号确定为候选标记符; 所述信息记录单元,用于记录各候选标记符的出现次数以及所述种子词对中同义词在所述网页中的边界信息;将所述标记符确定单元选择的候选标记符记录为所述同义词模板中的同义标记符,将所述同义标记符对应的所述边界信息记录在所述同义词模板中; 所述标记符确定单元,用于基于所述信息记录单元记录的各候选标记符的出现次数为各候选标记符打分,选择打分值满足预设打分阈值的候选标记符。
21.根据权利要求20所述的装置,其特征在于,所述种子词对中其中一个词语为Pl为所述网页的主题词,另一个词语P2为所述主题词的同义词; 所述候选标记符确定单元具体将所述P2在所述网页中设定上下文范围内的词语或符号作为候选标记符; 所述信息记录单元记录的边界信息为所述P2的边界信息。
22.根据权利要求20所述的装置,其特征在于,所述候选标记符确定单元具体确定所述种子词对中两词语Pl和P2之间的距离在预设距离范围内时所在的网页部分,将该网页部分中种子词对的设定上下文范围内的词语或符号作为候选标记符; 所述信息记录单元记录的边界信息为所述Pl和所述P2在所述网页内容中的边界信息。
23.根据权利要求20至22任一权项所述的装置,其特征在于,该装置还包括过滤处理单元,用于将所述候选标记符确定单元得到的候选标记符中,包含在预设的停用符表中的候选标记符过滤掉; 所述信息记录单元记录的是经所述过滤处理单元过滤处理后的候选标记符。
24.根据权利要求20至22任一权项所述的装置,其特征在于,所述同义标记符包括以下词语中的至少一种“简称”、“全称”、“即”、“缩写”;或者, 包括以下符号中的至少一种括号、“viz”。
25.根据权利要求20至22任一权项所述的装置,其特征在于,所述标记符确定单元在为各候选标记符打分时进一步结合各候选标记符出现在所述网页中的位置。
26.根据权利要求21所述的装置,其特征在于,所述同义词模板中进一步包括同义词对中同义词相对于所述同义标记符的位置信息; 所述信息记录单元,还用于记录所述P2相对于所述候选标记符的位置信息,将所述同义标记符对应的所述位置信息记录在所述同义词模板中。
27.根据权利要求22所述的装置,其特征在于,所述同义词模板中进一步包括同义词对中同义词相对于所述同义标记符的位置信息; 所述信息记录单元,还用于记录所述Pl和所述P2相对于所述候选标记符的位置信息,将所述同义标记符对应的位置信息记录在所述同义词模板中。
28.根据权利要求26或27所述的装置,其特征在于,所述位置信息包括同义词相对于同义标记符的方向信息,和/或,同义词相对于同义标记符的距离信息。
29.根据权利要求20所述的装置,其特征在于,该装置还包括数据库,用于存储所述同义词模板; 所述信息记录单元将所述同义标记符存储为索引,指向对应的边界信息。
30.一种同义词挖掘的装置,其特征在于,该装置包括标记符匹配单元和同义词对抽取单元; 所述标记符匹配单元,用于利用预先设置的同义词模板,查找网页中的同义标记符; 所述同义词对抽取单元,用于在所述网页中所述标记符匹配单元查找出的同义标记符前后的设定距离范围内,按照所述同义词模板中所述同义标记符对应的同义词对中各词语的边界信息,抽取出同义词对; 其中,所述同义词模板包括同义标记符和同义词对中词语的边界信息; 所述同义词模板采用人工方法预先设置在数据库中,或者,由如权利要求20至22任一权项所述装置预先挖掘并记录在数据库中。
31.根据权利要求30所述的装置,其特征在于,当所述同义词模板采用人工方式预先设置时,所述边界信息包括具体的上下文边界或边界确定策略。
32.根据权利要求31所述的装置,其特征在于,如果所述边界信息包括边界确定策略,则所述同义词对抽取单元具体包括匹配度计算子单元和词对抽取子单元; 所述匹配度计算子单元,用于在所述网页中所述标记符匹配单元查找出的同义标记符前后的设定距离范围内,计算除所述同义标记符之外其他各词语之间的匹配度; 所述词对抽取子单元,用于根据所述匹配度计算子单元的计算结果,抽取出两个词语Ql和Q2构成同义词对,其中Q2覆盖Ql中所有的字,且在Ql和Q2之间具有最大的匹配度基础上保证Q2最短。
33.根据权利要求30所述的装置,其特征在于,如果所述同义词模板由如权利要求21所述装置预先挖掘,则所述同义词对抽取单元在所述网页中同义标记符前后的设定距离范围内,按照同义模板中同义标记符对应的边界信息,抽取出所述网页的主题词对应的同义词,由所述主题词和抽取出的同义词构成同义词对。
34.根据权利要求30所述的装置,其特征在于,如果所述同义词模板由如权利要求22所述装置预先挖掘,则所述同义词对抽取单元在所述网页中同义标记符前后的设定距离范围内,按照同义模板中同义标记符对应的边界信息,抽取出满足该边界信息的两个词语构成同义词对。
35.根据权利要求30所述的装置,其特征在于,该装置还包括过滤处理单元,用于对所述同义词对抽取单元抽取出的同义词对进行以下所列过滤处理中的任一或任意组合 将所述同义词对中来源网页数目小于预设的数目阈值NI的同义词对过滤掉,NI为预设的正整数; 将其中任一个词语在搜索日志中的出现次数小于预设的次数阈值N2的同义词对过滤掉,N2为预设的正整数; 如果将某同义词对中两同义词重叠的部分删除后得到的词对与其他同义词对相同,则将所述某同义词对过滤掉;以及, 将利用同义词对进行搜索得到的搜索结果数量小于预设的数量阈值N5的同义词对过滤掉,N5为预设的正整数。
36.根据权利要求30所述的装置,其特征在于,所述同义词模板中进一步包括同义词对中同义词相对于所述同义标记符的位置信息; 所述同义词对抽取单元在抽取同义词对时,进一步结合所述同义标记符在所述同义词模板中对应的所述位置信息。
37.根据权利要求36所述的装置,其特征在于,所述位置信息包括同义词相对于同义标记符的方向信息,和/或,同义词相对于同义标记符的距离信息。
38.根据权利要求30所述的装置,其特征在于,所述同义标记符包括以下词语中的至少一种“简称”、“全称”、“即”、“缩写”;或者, 包括以下符号中的至少一种括号、“viz”。
全文摘要
本发明提供了一种同义词模板的挖掘方法和装置以及同义词的挖掘方法和装置,其中同义词挖掘的方法包括利用预先设置的同义词模板,查找网页中的同义标记符;在所述网页中同义标记符前后的设定距离范围内,按照所述同义词模板中所述同义标记符对应的同义词对中各词语的边界信息,抽取出同义词对;其中,所述同义词模板包括同义标记符和同义词对中词语的边界信息。通过本发明可以大大提高同义词挖掘的效率。
文档编号G06F17/30GK102750282SQ20111009824
公开日2012年10月24日 申请日期2011年4月19日 优先权日2011年4月19日
发明者徐文智 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1