基于词向量相似度的检索方法和系统的制作方法

文档序号：9865733阅读：700来源：国知局

基于词向量相似度的检索方法和系统的制作方法
【技术领域】
[0001] 本发明设及信息检索技术领域，特别是设及基于词向量相似度的检索方法和基于词向量相似度的检索系统。
【背景技术】
[0002] 现有的对简历捜索匹配过程的技术，通常是通过多个关键词进行检索。通过用户提供一组关键词在检索库中进行检索，W匹配词命中的数量作为匹配分值，根据匹配分值由高到低的排列输出检索结果，默认排在前的结果更符合用户要求。然而，运种检索方式存在W下缺点：
[0003] (1)没能考虑到不同检索库的用词特点，例如英文的大小写，字符的全角半角等；
[0004] (2)不能考虑到词与词之间的关系，导致检索过程中，对与关键词存在很强联系的其它词缺乏信息匹配能力；例如关键词设为"程序"，却无法对检索库中"软件"的信息进行检索匹配；
[0005] (3)对关键词选取的要求高，检索鲁棒性差;如果关键词遗漏或者输错，对最终检索结果会产生很大影响。
[0006] 综上所述，现有的基于关键词的检索方法，其检索召回率和检索结果准确率都不够理想，同时存在鲁棒性和适应性较差的问题。

【发明内容】

[0007] 基于此，本发明提供一种基于词向量相似度的检索方法和系统，能够提高检索准确率和鲁棒性。
[000引本发明一方面提供一种基于词向量相似度的检索方法，包括：
[0009] 对检索库进行词向量训练，建立所述检索库对应的训练模型；
[0010] 接收输入的检索关键词，通过所述训练模型得到所述检索关键词的相关词，W及各相关词与所述检索关键词的相似度；
[0011] 用所述相关词对所述检索库进行检索匹配，并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值；
[0012] 根据所述匹配分值由高到低对所述检索库中的文件进行排序，根据排序结果输出检索结果。
[0013] 优选的，所述对检索库进行词向量训练，之前包括：
[0014] 对检索库中各文件分别进行预处理，将各文件预处理后的数据存储到一对应的训练样本文件中；所述预处理包括数据清洗和提取数据描述；
[001引所述对检索库进行词向量训练包括；
[0016] 基于所述训练样本文件对所述检索库进行词向量训练。
[0017] 优选的，所述数据清洗包括统一大小写、消除多余空格、统一标点符号、统一全半角格式中至少一种；
[0018] 所述提取数据描述包括通过添加用户词典进行分词。
[0019] 优选的，所述对检索库进行词向量训练包括：
[0020] 通过word2vec对所述训练样本文件进行词向量训练。
[0021] 优选的，用所述相关词对所述检索库进行检索匹配，并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值，包括：
[0022] 用所述相关词分别对所述检索库中各文件进行检索匹配，得到各文件与所述相关词的匹配结果；
[0023] 将各相关词对应的相似度作为累加权值，结合所述匹配结果分别得出各文件与所述相关词的匹配分值。
[0024] 本发明另一方面提供一种基于词向量相似度的检索系统，包括：
[0025] 模型训练单元，用于对检索库进行词向量训练，建立所述检索库对应的训练模型；
[0026] 生成相关词单元，用于接收输入的检索关键词，通过所述训练模型得到所述检索关键词的相关词，W及各相关词与所述检索关键词的相似度；
[0027] 检索匹配单元，用于用所述相关词对所述检索库进行检索匹配，并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值；
[0028] 结果输出单元，用于根据所述匹配分值由高到低对所述检索库中的文件进行排序，根据排序结果输出检索结果。
[0029] 优选的，所述模型训练单元，还用于对检索库进行词向量训练之前，对检索库中各文件分别进行预处理，将各文件预处理后的数据存储到一对应的训练样本文件中；所述预处理包括数据清洗和提取数据描述；
[0030] 所述对检索库进行词向量训练包括：
[0031] 基于所述训练样本文件对所述检索库进行词向量训练。
[0032] 优选的，所述数据清洗包括统一大小写、消除多余空格、统一标点符号、统一全半角格式中至少一种；
[0033] 所述提取数据描述包括通过添加用户词典进行分词。
[0034] 优选的，所述对检索库进行词向量训练包括：
[0035] 通过word2vec对所述训练样本文件进行词向量训练。
[0036] 优选的，所述检索匹配单元包括：
[0037] 匹配模块，用于用所述相关词分别对所述检索库中各文件进行检索匹配，得到各文件与所述相关词的匹配结果；
[0038] 统计模块，用于将各相关词对应的相似度作为累加权值，结合所述匹配结果分别得出各文件与所述相关词的匹配分值。
[0039] 上述技术方案的基于词向量相似度的检索方法和系统，通过对检索库进行词向量训练，建立所述检索库对应的训练模型;接收输入的检索关键词，通过所述训练模型得到所述检索关键词的相关词，W及各相关词与所述检索关键词的相似度；用所述相关词对所述检索库进行检索匹配，并根据所述相似度分别统计所述检索库中各文件与所述相关词的匹配分值;根据所述匹配分值由高到低对所述检索库中的文件进行排序，根据排序结果输出检索结果。首先由于训练模型是基于检索库训练得到的，因此能很好反映检索库的用词特点，有利于提高检索准确率;其次将关键词W词向量的形式进行表示，检索时根据关键词的相关词进行检索匹配，增加了对相关词的检索匹配能力，从而提高了检索鲁棒性。
【附图说明】
[0040] 图1为本发明实施例的基于词向量相似度的检索方法的示意性流程图；
[0041] 图2为本发明实施例的基于词向量相似度的检索系统的示意性结构图。
【具体实施方式】
[0042] 为了使本发明的目的、技术方案及优点更加清楚明白，W下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用W解释本发明，并不用于限定本发明。
[0043] 本发明提供的实施例包括基于词向量相似度的检索方法实施例，还包括相应的基于词向量相似度的检索系统实施例。W下分别进行详细说明。
[0044] 图1为本发明实施例的基于词向量相似度的检索方法的示意性流程图；如图1所示，本实施例的基于词向量相似度的检索方法包括如下步骤S1至S4,各步骤详述如下：
[0045] S1，对检索库进行词向量训练，建立所述检索库对应的训练模型；
[0046] 自然语言理解的问题要转化为机器学习的问题，第一步需要找一种方法把运些符号数学化，例如把每个词都表示为一个特有的向量。词向量是"Word Representation"或 "Word Embedding"的中文俗称。
[0047] 本实施例中的词向量应当具有的特点包括:让相关或者相似的词，在距离上更接近，例如"麦克"和"话筒"的距离会远小于"麦克"和"天气"的距离。向量的距离可W用传统的欧氏距离来衡量，也可W用cos夹角来衡量。
[004引优选的，所述词向量可为用Di stributed Representation表示的词向量。 Distributed Representation表示的词向量为一种低维实数向量，运种向量一般形式为 [0.792，-0.177，-0.107，0.109，-0.542，…]，维度 W50维和 100维比较常见。
[0049] 作为一优选实施方式，在对检索库进行词向量训练之前，还可对检索库中各文件分别进行预处理，将各文件预处理后的数据存储到一对应的训练样本文件中。
[0050] 优选的，其中所述预处理包

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李贤;
技术所有人：广州视源电子科技股份有限公司;
我是此专利的发明人

上一篇：一种基于hdfs小文件存储的优化方法
上一篇：网页的显示方法和系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。