生成同义词对齐词典的方法及装置制造方法

文档序号:6632507阅读:211来源:国知局
生成同义词对齐词典的方法及装置制造方法
【专利摘要】本发明提供一种生成同义词对齐词典的方法及装置,上述方法包括:根据多个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预定特征进行决策的替换决策树模型,所述替换词标注数据包括原词信息、替换词信息以及用于指示所述替换的优劣的标注标志信息;根据所述替换决策树模型对已有的对齐词典进行过滤,生成第一同义词对齐词典。本发明提供的生成同义词对齐词典的方法及装置,通过根据多个替换词标注数据样本及其多个预定特征的特征值生成替换决策树模型,得到了能够更精确地衡量各个特征之间的关系的模型,并通过根据替换决策树模型对已有的对齐词典进行过滤,从而能够得到更多的优等替换词条。
【专利说明】生成同父词对齐词典的方法及装置

【技术领域】
[0001] 本发明涉及信息检索领域,尤其涉及一种生成同义词对齐词典的方法及装置。

【背景技术】
[0002] 在信息检索领域,当用户发出检索请求时,对于用户输入的检索词,为了提供相关 性更好的检索结果,需要将其中的每个检索词进行适当的替换,W便检索出更多更好的检 索结果。比如;一个冷口词被替换成同样意思的热口词,将检索出更多的相关性好的检索结 果,一个单一的检索词被替换成多种形式的同义词,将能够使得检索结果更具备多样性;一 个表述不全的检索词被补全为完整的表达,将能够找回更精确的检索结果。因此,提供丰富 而且准确的同义词对齐词典是检索过程中非常基础而重要的一环,该同义词对齐词典中词 条的数量和质量将直接影响到检索结果的召回率和精确度。
[0003] 在现有技术中,通常采用如下技术方案生成同义词对齐词典;根据已有的同义词 对齐词典,人工设计统计量,选择其中能较好地反应替换效果的统计值作为主要的过滤特 征;通过人工过滤的方式调整上述过滤特征的阔值,得到一个比较稳定而良好的经验阔值; 将上述已有的同义词对齐词典的替换词条中特征值小于\大于过滤特征的阔值的替换词 条删除,得到一个经过提纯的精确的同义词对齐词典。
[0004] 然而,前述技术方案至少存在如下问题:
[0005] 尽管通过人工有效地设置统计量、设置经验阔值的方法,经验阔值很难精确地设 置,人工调整只能确定一个模糊的范围,对替换词条的过滤不够精确。除此W外,随着统计 特征增多,难W通过人工直接衡量各个特征之间的关系,不能总体上综合考虑特征值,只能 对各个特征值逐一比较,一旦有一个特征值不满足经验阔值该词条就会被过滤掉,容易丢 失好的替换词条,从而在检索结果方面会受到一定的损失。


【发明内容】

[0006] 本发明的目的在于提供一种生成同义词对齐词典的方法及装置,能够自动地生成 更精确的同义词对齐词典,并解决了现有技术中过滤方法导致的误过滤优等替换词条的问 题。
[0007] 根据本发明的一方面,本发明提供一种生成同义词对齐词典的方法,包括;根据多 个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预定特征进行 决策的替换决策树模型,所述替换词标注数据包括原词信息、替换词信息W及用于指示所 述替换的优劣的标注标志信息;根据所述替换决策树模型对已有的对齐词典进行过滤,生 成第一同义词对齐词典。
[0008] 根据本发明的另一方面,本发明提供一种生成同义词对齐词典的装置,包括:替换 决策树模型生成单元,用于根据多个替换词标注数据样本及其多个预定特征的特征值生成 用于根据所述多个预定特征进行决策的替换决策树模型,所述替换词标注数据包括原词信 息、替换词信息W及用于指示所述替换的优劣的标注标志信息;词典过滤单元,用于根据所 述替换决策树模型对已有的同义词对齐词典进行过滤,生成第一同义词对齐词典。
[0009] 本发明提供的生成同义词对齐词典的方法及装置,通过根据多个替换词标注数据 样本及其多个预定特征的特征值生成替换决策树模型,得到了能够更精确地衡量各个特征 之间的关系的模型,并通过根据替换决策树模型对已有的对齐词典进行过滤,从而能够得 到更多的优等替换词条。

【专利附图】

【附图说明】
[0010] 图1为本发明示例性实施例的生成同义词对齐词典的方法的流程图。
[0011] 图2为本发明优选实施例的生成同义词对齐词典的方法的流程图。
[0012] 图3为本发明示例性实施例的生成同义词对齐词典的装置的逻辑框图。
[0013] 图4为本发明优选实施例的生成同义词对齐词典的装置的逻辑框图。

【具体实施方式】
[0014] 本发明的总体发明构思是,提供一种生成同义词对齐词典的方法及装置,先根据 多个替换词标注数据样本及其多个预定特征的特征值生成根据多个预定特征进行决策的 替换决策树模型,然后根据替换决策树模型对已有的同义词对齐词典进行过滤,生成更精 确的同义词对齐词典。通过根据多个替换词标注数据样本及其多个预定特征的特征值生成 替换决策树模型,得到了能够更精确地衡量各个特征之间的关系的模型,并通过根据替换 决策树模型对已有的对齐词典进行过滤,从而能够得到更多的优等替换词条。
[0015] 下面结合附图对本发明的生成同义词对齐词典的方法及装置进行详细描述。
[0016] 图1为本发明示例性实施例的生成同义词对齐词典的方法的流程图。
[0017] 参照图1,在步骤S110,根据多个替换词标注数据样本及其多个预定特征的特征 值生成用于根据所述多个预定特征进行决策的替换决策树模型,所述替换词标注数据包括 原词信息、替换词信息W及用于指示所述替换的优劣的标注标志信息。根据本法发明的示 例性实施例,所述替换决策树模型中的叶节点表示替换的优劣,每个非叶节点对应于一个 所述预定特征,所述非叶节点的每个分支分别表示所述非叶节点对应的预定特征的特征值 满足预定条件和不满足所述预定条件。
[0018] 例如,多个替换词标注数据样本及其多个预定特征的特征值可W如下:
[0019]

【权利要求】
1. 一种生成同义词对齐词典的方法,其特征在于,所述方法包括: 根据多个替换词标注数据样本及其多个预定特征的特征值生成用于根据所述多个预 定特征进行决策的替换决策树模型,所述替换词标注数据包括原词信息、替换词信息以及 用于指示所述替换的优劣的标注标志信息; 根据所述替换决策树模型对已有的同义词对齐词典进行过滤,生成第一同义词对齐词 典。
2. 根据权利要求1所述的方法,其特征在于,所述替换决策树模型中的叶节点表示替 换的优劣,每个非叶节点对应于一个所述预定特征,所述非叶节点的每个分支分别表示所 述非叶节点对应的预定特征的特征值满足预定条件和不满足所述预定条件。
3. 根据权利要求2所述的方法,其特征在于,所述已有的对齐词典中的替换词条信息 包括基于统计对齐获得的原词、替换词以及替换统计数据。
4. 根据权利要求3所述的方法,其特征在于,所述根据所述替换决策树模型对已有的 对齐词典进行过滤,生成第一同义词对齐词典的处理包括: 根据所述已有的对齐词典中的替换词条的替换统计数据,计算所述替换词条的所述多 个预定特征的特征值; 针对所述已有的对齐词典中的替换词条,根据所述替换词条的所述多个预定特征的特 征值以及所述替换决策树模型,删除被确定为劣的替换词条,以生成第一同义词对齐词典。
5. 根据权利要求4所述的方法,其特征在于,所述替换统计数据包括:替换词条的共现 次数信息和对齐次数信息, 所述根据所述已有的对齐词典中的替换词条的替换统计数据,计算所述替换词条的所 述多个预定特征的特征值的处理包括: 根据所述已有的对齐词典中的替换词条的共现次数信息和对齐次数信息计算所述替 换词条的所述多个预定特征的特征值。
6. 根据权利要求1?5中任一项所述的方法,其特征在于,所述方法还包括: 将所述第一同义词对齐词典与已有的高置信度同义词对齐词典合并,生成第二同义词 对齐词典。
7. 根据权利要求6所述的方法,其特征在于,所述方法还包括: 根据所述第二同义词对齐词典中的替换词条的对齐次数信息,获得所述第二同义词对 齐词典中的替换词条的替换权值。
8. 根据权利要求7所述的方法,其特征在于,所述根据所述第二同义词对齐词典中的 替换词条的对齐次数信息,获得所述第二同义词对齐词典中的替换词条的替换权值包括: 针对所述第二同义词对齐词典中每条替换词条,所述替换词条的替换权值等于所述替 换词条的对齐次数除以所述第二同义词对齐词典中原词与所述替换词条的原词相同的替 换词条中最大的对齐次数。
9. 一种生成同义词对齐词典的装置,其特征在于,所述装置包括: 替换决策树模型生成单元,用于根据多个替换词标注数据样本及其多个预定特征的特 征值生成用于根据所述多个预定特征进行决策的替换决策树模型,所述替换词标注数据包 括原词信息、替换词信息以及用于指示所述替换的优劣的标注标志信息; 词典过滤单元,用于根据所述替换决策树模型对已有的同义词对齐词典进行过滤,生 成第一同义词对齐词典。
10. 根据权利要求9所述的装置,其特征在于,所述替换决策树模型中的叶节点表示替 换的优劣,每个非叶节点对应于一个所述预定特征,所述非叶节点的每个分支分别表示所 述非叶节点对应的预定特征的特征值满足预定条件和不满足所述预定条件。
11. 根据权利要求10所述的装置,其特征在于,所述已有的对齐词典中的替换词条信 息包括基于统计对齐获得的原词、替换词以及替换统计数据。
12. 根据权利要求11所述的装置,其特征在于,所述词典过滤单元包括: 特征值计算单元,用于根据所述已有的对齐词典中的替换词条的替换统计数据,计算 所述替换词条的所述多个预定特征的特征值; 词典过滤子单元,用于针对所述已有的对齐词典中的替换词条,根据所述替换词条的 所述多个预定特征的特征值以及所述替换决策树模型,删除被确定为劣的替换词条,以生 成第一同义词对齐词典。
13. 根据权利要求12所述的装置,其特征在于,所述替换统计数据包括:替换词条的共 现次数信息和对齐次数信息, 所述特征值计算单元根据所述已有的对齐词典中的替换词条的共现次数信息和对齐 次数信息计算所述替换词条的所述多个预定特征的特征值。
14. 根据权利要求9?13中任一项所述的装置,其特征在于,所述装置还包括: 词典合并单元,用于将所述第一同义词对齐词典与已有的高置信度同义词对齐词典合 并,生成第二同义词对齐词典。
15. 根据权利要求14所述的装置,其特征在于,所述装置还包括: 替换权值获取单元,用于根据所述第二同义词对齐词典中的替换词条的对齐次数信 息,获得所述第二同义词对齐词典中的替换词条的替换权值。
16. 根据权利要求15所述的装置,其特征在于,所述替换权值获取单元针对所述第二 同义词对齐词典中每条替换词条,计算所述替换词条的替换权值等于所述替换词条的对齐 次数除以所述第二同义词对齐词典中原词与所述替换词条的原词相同的替换词条中最大 的对齐次数。
【文档编号】G06F17/28GK104331398SQ201410601632
【公开日】2015年2月4日 申请日期:2014年10月30日 优先权日:2014年10月30日
【发明者】石磊, 李朋凯, 曾增烽, 林英展 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1