基于词向量相似度的检索方法和系统的制作方法

文档序号:9865733阅读:700来源:国知局
基于词向量相似度的检索方法和系统的制作方法
【技术领域】
[0001] 本发明设及信息检索技术领域,特别是设及基于词向量相似度的检索方法和基于 词向量相似度的检索系统。
【背景技术】
[0002] 现有的对简历捜索匹配过程的技术,通常是通过多个关键词进行检索。通过用户 提供一组关键词在检索库中进行检索,W匹配词命中的数量作为匹配分值,根据匹配分值 由高到低的排列输出检索结果,默认排在前的结果更符合用户要求。然而,运种检索方式存 在W下缺点:
[0003] (1)没能考虑到不同检索库的用词特点,例如英文的大小写,字符的全角半角等;
[0004] (2)不能考虑到词与词之间的关系,导致检索过程中,对与关键词存在很强联系的 其它词缺乏信息匹配能力;例如关键词设为"程序",却无法对检索库中"软件"的信息进行 检索匹配;
[0005] (3)对关键词选取的要求高,检索鲁棒性差;如果关键词遗漏或者输错,对最终检 索结果会产生很大影响。
[0006] 综上所述,现有的基于关键词的检索方法,其检索召回率和检索结果准确率都不 够理想,同时存在鲁棒性和适应性较差的问题。

【发明内容】

[0007] 基于此,本发明提供一种基于词向量相似度的检索方法和系统,能够提高检索准 确率和鲁棒性。
[000引本发明一方面提供一种基于词向量相似度的检索方法,包括:
[0009] 对检索库进行词向量训练,建立所述检索库对应的训练模型;
[0010] 接收输入的检索关键词,通过所述训练模型得到所述检索关键词的相关词,W及 各相关词与所述检索关键词的相似度;
[0011] 用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计所述检索 库中各文件与所述相关词的匹配分值;
[0012] 根据所述匹配分值由高到低对所述检索库中的文件进行排序,根据排序结果输出 检索结果。
[0013] 优选的,所述对检索库进行词向量训练,之前包括:
[0014] 对检索库中各文件分别进行预处理,将各文件预处理后的数据存储到一对应的训 练样本文件中;所述预处理包括数据清洗和提取数据描述;
[001引所述对检索库进行词向量训练包括;
[0016] 基于所述训练样本文件对所述检索库进行词向量训练。
[0017] 优选的,所述数据清洗包括统一大小写、消除多余空格、统一标点符号、统一全半 角格式中至少一种;
[0018] 所述提取数据描述包括通过添加用户词典进行分词。
[0019] 优选的,所述对检索库进行词向量训练包括:
[0020] 通过word2vec对所述训练样本文件进行词向量训练。
[0021] 优选的,用所述相关词对所述检索库进行检索匹配,并根据所述相似度分别统计 所述检索库中各文件与所述相关词的匹配分值,包括:
[0022] 用所述相关词分别对所述检索库中各文件进行检索匹配,得到各文件与所述相关 词的匹配结果;
[0023] 将各相关词对应的相似度作为累加权值,结合所述匹配结果分别得出各文件与所 述相关词的匹配分值。
[0024] 本发明另一方面提供一种基于词向量相似度的检索系统,包括:
[0025] 模型训练单元,用于对检索库进行词向量训练,建立所述检索库对应的训练模型;
[0026] 生成相关词单元,用于接收输入的检索关键词,通过所述训练模型得到所述检索 关键词的相关词,W及各相关词与所述检索关键词的相似度;
[0027] 检索匹配单元,用于用所述相关词对所述检索库进行检索匹配,并根据所述相似 度分别统计所述检索库中各文件与所述相关词的匹配分值;
[0028] 结果输出单元,用于根据所述匹配分值由高到低对所述检索库中的文件进行排 序,根据排序结果输出检索结果。
[0029] 优选的,所述模型训练单元,还用于对检索库进行词向量训练之前,对检索库中各 文件分别进行预处理,将各文件预处理后的数据存储到一对应的训练样本文件中;所述预 处理包括数据清洗和提取数据描述;
[0030] 所述对检索库进行词向量训练包括:
[0031] 基于所述训练样本文件对所述检索库进行词向量训练。
[0032] 优选的,所述数据清洗包括统一大小写、消除多余空格、统一标点符号、统一全半 角格式中至少一种;
[0033] 所述提取数据描述包括通过添加用户词典进行分词。
[0034] 优选的,所述对检索库进行词向量训练包括:
[0035] 通过word2vec对所述训练样本文件进行词向量训练。
[0036] 优选的,所述检索匹配单元包括:
[0037] 匹配模块,用于用所述相关词分别对所述检索库中各文件进行检索匹配,得到各 文件与所述相关词的匹配结果;
[0038] 统计模块,用于将各相关词对应的相似度作为累加权值,结合所述匹配结果分别 得出各文件与所述相关词的匹配分值。
[0039] 上述技术方案的基于词向量相似度的检索方法和系统,通过对检索库进行词向量 训练,建立所述检索库对应的训练模型;接收输入的检索关键词,通过所述训练模型得到所 述检索关键词的相关词,W及各相关词与所述检索关键词的相似度;用所述相关词对所述 检索库进行检索匹配,并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹 配分值;根据所述匹配分值由高到低对所述检索库中的文件进行排序,根据排序结果输出 检索结果。首先由于训练模型是基于检索库训练得到的,因此能很好反映检索库的用词特 点,有利于提高检索准确率;其次将关键词W词向量的形式进行表示,检索时根据关键词的 相关词进行检索匹配,增加了对相关词的检索匹配能力,从而提高了检索鲁棒性。
【附图说明】
[0040] 图1为本发明实施例的基于词向量相似度的检索方法的示意性流程图;
[0041] 图2为本发明实施例的基于词向量相似度的检索系统的示意性结构图。
【具体实施方式】
[0042] 为了使本发明的目的、技术方案及优点更加清楚明白,W下结合附图及实施例,对 本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用W解释本发明,并 不用于限定本发明。
[0043] 本发明提供的实施例包括基于词向量相似度的检索方法实施例,还包括相应的基 于词向量相似度的检索系统实施例。W下分别进行详细说明。
[0044] 图1为本发明实施例的基于词向量相似度的检索方法的示意性流程图;如图1所 示,本实施例的基于词向量相似度的检索方法包括如下步骤S1至S4,各步骤详述如下:
[0045] S1,对检索库进行词向量训练,建立所述检索库对应的训练模型;
[0046] 自然语言理解的问题要转化为机器学习的问题,第一步需要找一种方法把运些符 号数学化,例如把每个词都表示为一个特有的向量。词向量是"Word Representation"或 "Word Embedding"的中文俗称。
[0047] 本实施例中的词向量应当具有的特点包括:让相关或者相似的词,在距离上更接 近,例如"麦克"和"话筒"的距离会远小于"麦克"和"天气"的距离。向量的距离可W用传统 的欧氏距离来衡量,也可W用cos夹角来衡量。
[004引优选的,所述词向量可为用Di stributed Representation表示的词向量。 Distributed Representation表示的词向量为一种低维实数向量,运种向量一般形式为 [0.792,-0.177,-0.107,0.109,-0.542,…],维度 W50维和 100维比较常见。
[0049] 作为一优选实施方式,在对检索库进行词向量训练之前,还可对检索库中各文件 分别进行预处理,将各文件预处理后的数据存储到一对应的训练样本文件中。
[0050] 优选的,其中所述预处理包
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1