一种文本匹配方法及装置的制造方法

文档序号:10534984阅读:174来源:国知局
一种文本匹配方法及装置的制造方法
【专利摘要】本发明实施例提供了一种文本匹配方法及装置,应用于电子设备,所述方法包括:接收用户输入的搜索词,并将所述搜索词进行分词处理,得到至少一个分词;根据各分词的词性、语义属性、作为独立搜索词的概率和点击率中的至少一个,及预先训练的分类模型,确定各分词的重要性权重;根据待匹配文本以及所述待匹配文本所在的文本集,确定各分词的词频、以及逆向文件频率;根据各分词的重要性权重、词频以及逆向文件频率,计算所述搜索词与所述待匹配文本的匹配度。本发明实施例中,同时使用各分词的重要性权重和逆向文件频率能够更准确地衡量各分词的重要程度,因此,在根据各分词的重要程度进行文本匹配时,能够提高文本匹配的准确性。
【专利说明】
一种文本匹配方法及装置
技术领域
[0001 ]本发明涉及计算机技术领域,特别是涉及一种文本匹配方法及装置。
【背景技术】
[0002]文本匹配方法,即衡量搜索词与文本在文本上的相关性或者匹配度的方法,是搜 索系统中一项必不可少的技术。
[0003] 现有技术中常用的文本匹配方法有TF_IDF(term frequency-inverse document frequency,词频-逆向文件频率)算法。TF-IDF是一种统计方法,可以用来评估一个搜索词 与一个文本集中的其中一份文本的匹配度。其基本原理是:搜索词与一份文本的匹配度可 以由该搜索词包括的各分词的词频和重要性共同决定。其中,各分词的重要性由其逆向文 件频率来标识,即可以认为在文本集中包含该分词的文本数越少,该分词的辨识度越高,也 就越重要。具体地,任一分词的词频指的是该分词在文本中出现的频率,可以由该分词在该 文本中出现的总次数除以该文本中所有分词出现的总次数得到;逆向文件频率指的是该分 词在该文本集中的普遍重要性,可以由文本集中包含的总文本数目除以该文本集中包含该 分词的文本的数目,再将得到的商取对数得到。
[0004] 在实际应用中,搜索词与一份文本的匹配度与该搜索词包括的各分词的词频成正 比,与各分词的逆向文件频率成反比。也就是说,当搜索词包括的各分词在一份文本中的词 频越大,且各分词的逆向文件频率越小时,该搜索词与该文本的匹配度越大。
[0005] 但是,这种方法中,仅仅依据分词的逆向文件频率,也就是分词在文本集中的出现 频率来标识分词的重要性,单纯的认为出现频率越小的词越重要,存在一定的局限性,从 而,导致文本匹配结果不准确。

【发明内容】

[0006] 本发明实施例的目的在于提供一种文本匹配方法及装置,以提高文本匹配的准确 性。具体技术方案如下:
[0007] 第一方面,本发明实施例提供了一种文本匹配方法,应用于电子设备,所述方法包 括:
[0008] 接收用户输入的搜索词,并将所述搜索词进行分词处理,得到至少一个分词;
[0009] 根据各分词的词性、语义属性、作为独立搜索词的概率和点击率中的至少一个,及 预先训练的分类模型,确定各分词的重要性权重;
[0010] 根据待匹配文本以及所述待匹配文本所在的文本集,确定各分词的词频、以及逆 向文件频率;
[0011] 根据各分词的重要性权重、词频以及逆向文件频率,计算所述搜索词与所述待匹 配文本的匹配度。
[0012] 进一步地,确定各分词的语义属性、作为独立搜索词的概率和点击率包括:
[0013] 根据预先构建的专有名词数据库,判断每个分词是否位于该专有名词数据库中, 如果是,确定分词的语义属性为专有名词,否则,确定分词的语义属性为普通属性;
[0014] 根据预定时间内的搜索日志,针对每个分词,获得只包含该分词的搜索词的第一 搜索次数,以及包含该分词的搜索词的第二搜索次数;将所述第一搜索次数除以所述第二 搜索次数,得到该分词作为独立搜索词的概率;
[0015] 根据所述搜索日志,针对每个分词,获得只包含该分词的搜索词的点击次数;将所 述点击次数除以所述第二搜索次数,得到该分词的点击率。
[0016] 进一步地,当至少根据各分词的词性及语义属性中的至少一个及预先训练的分类 模型,确定各分词的重要性权重时,所述确定各分词的重要性权重之前,所述方法还包括:
[0017] 根据所述各分词的词性和/或语义属性,及预先保存的权重模板,识别是否存在与 所述各分词的词性和/或语义属性匹配的权重模板;
[0018] 如果是,根据所述权重模板中指定的各分词的词性和/或语义属性对应的重要性 权重,确定所述各分词的重要性权重;如果否,执行至少根据各分词的词性及语义属性中的 至少一个及预先训练的分类模型,确定各分词的重要性权重的步骤。
[0019 ]进一步地,所述分类模型的训练过程包括:
[0020]选取预定数量的样本分词,并获得预先确定的各样本分词的重要性权重;
[0021 ]根据各样本分词的重要性权重,将所述各样本分词分类;
[0022] 根据分类结果,确定各类别中包括的各样本分词的词性、语义属性、作为独立搜索 词的概率和点击率;
[0023] 使用各类别中包括的各样本分词的重要性权重以及词性、语义属性、作为独立搜 索词的概率和点击率,训练得到所述分类模型。
[0024] 进一步地,所述根据各分词的重要性权重、词频以及逆向文件频率,计算所述搜索 词与所述待匹配文本的匹配度包括:
[0025] 根据以下公式,计算所述搜索词与所述待匹配文本的匹配度SC〇re(q,d): score{a,cf)=,-- ^ x V tf(t. J)x idf {f) x tn iq{t)
[0026] \Y l in l{[\i
[0027] 其中,所述q为包含各分词t的搜索词;所述d为待匹配文本;所述idf(t)为任一分 词t的逆向文件频率;所述twiq(t)为所述分词t的重要性权重;所述tf(t,d)为所述分词t的 词频。
[0028] 第二方面,本发明实施例提供了一种文本匹配装置,应用于电子设备,所述装置包 括:
[0029] 接收模块,用于接收用户输入的搜索词,并将所述搜索词进行分词处理,得到至少 一个分词;
[0030] 第一确定模块,用于根据各分词的词性、语义属性、作为独立搜索词的概率和点击 率中的至少一个,及预先训练的分类模型,确定各分词的重要性权重;
[0031] 第二确定模块,用于根据待匹配文本以及所述待匹配文本所在的文本集,确定各 分词的词频、以及逆向文件频率;
[0032] 计算模块,用于根据各分词的重要性权重、词频以及逆向文件频率,计算所述搜索 词与所述待匹配文本的匹配度。
[0033] 进一步地,所述装置还包括:
[0034] 第三确定模块,用于根据预先构建的专有名词数据库,判断每个分词是否位于该 专有名词数据库中,如果是,确定分词的语义属性为专有名词,否则,确定分词的语义属性 为普通属性;
[0035] 第一获得模块,用于根据预定时间内的搜索日志,针对每个分词,获得只包含该分 词的搜索词的第一搜索次数,以及包含该分词的搜索词的第二搜索次数;将所述第一搜索 次数除以所述第二搜索次数,得到该分词作为独立搜索词的概率;
[0036] 第二获得模块,用于根据所述搜索日志,针对每个分词,获得只包含该分词的搜索 词的点击次数;将所述点击次数除以所述第二搜索次数,得到该分词的点击率。
[0037] 进一步地,所述装置还包括:
[0038] 识别模块,用于当所述第一确定模块用于至少根据各分词的词性及语义属性中的 至少一个及预先训练的分类模型,确定各分词的重要性权重时,根据所述各分词的词性和/ 或语义属性,及预先保存的权重模板,识别是否存在与所述各分词的词性和/或语义属性匹 配的权重模板;
[0039] 第四确定模块,用于当所述识别模块识别结果为是时,根据所述权重模板中指定 的各分词的词性和/或语义属性对应的重要性权重,确定所述各分词的重要性权重;当所述 识别模块识别结果为否时,触发所述第一确定模块。
[0040] 进一步地,所述装置还包括:
[0041] 选取模块,用于选取预定数量的样本分词,并获得预先确定的各样本分词的重要 性权重;
[0042] 分类模块,用于根据各样本分词的重要性权重,将所述各样本分词分类;
[0043]第五确定模块,用于根据分类结果,确定各类别中包括的各样本分词的词性、语义 属性、作为独立搜索词的概率和点击率;
[0044] 训练模块,用于使用各类别中包括的各样本分词的重要性权重以及词性、语义属 性、作为独立搜索词的概率和点击率,训练得到所述分类模型。
[0045] 进一步地,所述计算模块具体用于根据以下公式,计算所述搜索词与所述待匹配 文本的匹配度score(q,d):
[0047] 其中,所述q为包含各分词t的搜索词;所述d为待匹配文本;所述idf(t)为任一分 词t的逆向文件频率;所述twiq(t)为所述分词t的重要性权重;所述tf(t,d)为所述分词t的 词频。
[0048] 本发明实施例提供了一种文本匹配方法及装置,应用于电子设备,所述方法包括: 接收用户输入的搜索词,并将所述搜索词进行分词处理,得到至少一个分词;根据各分词的 词性、语义属性、作为独立搜索词的概率和点击率中的至少一个,及预先训练的分类模型, 确定各分词的重要性权重;根据待匹配文本以及所述待匹配文本所在的文本集,确定各分 词的词频、以及逆向文件频率;根据各分词的重要性权重、词频以及逆向文件频率,计算所 述搜索词与所述待匹配文本的匹配度。本发明实施例中,能够根据各分词本身的词性、语义 属性、作为独立搜索词的概率和点击率中的至少一个,确定各分词的重要性权重,在计算搜 索词与待匹配文本的匹配度时,可以同时根据搜索词中包括的各分词的词频、逆向文件频 率、以及各分词的重要性权重来确定搜索词与待匹配文本的匹配度,与现有技术相比,同时 使用各分词的重要性权重和逆向文件频率能够更准确地衡量各分词的重要程度,因此,在 根据各分词的重要程度进行文本匹配时,能够提高文本匹配的准确性。
【附图说明】
[0049] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根据这些附图获得其他的附图。
[0050] 图1为本发明实施例提供的一种文本匹配方法的流程图;
[0051] 图2为本发明实施例提供的一种文本匹配方法的另一流程图;
[0052]图3为本发明实施例提供的一种文本匹配装置的结构示意图;
[0053]图4为本发明实施例提供的一种文本匹配装置的另一结构示意图。
【具体实施方式】
[0054]为了提高文本匹配的准确性,本发明实施例提供了一种文本匹配方法及装置。
[0055] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0056] 需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本发明。
[0057]为了提高文本匹配的准确性,本发明实施例提供了一种文本匹配方法过程,如图1 所示,该过程包括以下步骤:
[0058] S101,接收用户输入的搜索词,并将所述搜索词进行分词处理,得到至少一个分 。
[0059] 本发明实施例提供的方法可以应用于电子设备。具体地,该电子设备例如可以是: 笔记本电脑、智能终端、台式计算机、便携式计算机等等。
[0060] 在实际应用中,用户可以使用电子设备搜索其想要的文本,上述文本例如可以是 字符文本、视频文本、音频文本等。具体地,用户可以通过在浏览器的搜索框中输入搜索词 来获取相应的文本。例如,当用户想要观看电影"速度与激情3"时,可以在电子设备的浏览 器的搜索框中输入搜索词"速度与激情3",电子设备接收到用户输入的搜索词后,通过搜索 引擎在服务器的数据库中查找与该搜索词匹配的资源的文本,并将查找到的与该搜索词匹 配的文本显示在电子设备中,以供用户查看。
[0061] 可以理解,一般情况下,由于数据库中保存的文本数量较多,且存在内容相近的文 本,因此,电子设备通常可以查找到多个与用户输入的搜索词匹配的文本。并且,查找到的 各文本与搜索词的匹配度可能不完全相同。这种情况下,为了提高用户体验,使用户快速的 查看到自己想要的文本,电子设备通常可以计算各文本与搜索词的匹配度,并且可以根据 各文本与搜索词的匹配度,按照匹配度从大到小的顺序将文本显示在电子设备中。
[0062] 在本发明实施例中,电子设备可以首先接收用户输入的搜索词。并且,为了计算搜 索词与数据库中保存的各文本的匹配度,电子设备可以将搜索词进行分词处理,得到至少 一个分词。对搜索词进行分词的过程可以采用现有技术,本发明实施例对此过程不进行赘 述。
[0063] 例如,当电子设备接收到用户输入的搜索词为"速度与激情3"时,可以将该搜索词 进行分词处理,得到两个分词"速度与激情"和"3"。
[0064] S102,根据各分词的词性、语义属性、作为独立搜索词的概率和点击率中的至少一 个,及预先训练的分类模型,确定各分词的重要性权重。
[0065] 在文本匹配过程中,除了各分词的词频之外,各分词的重要程度也是影响文本匹 配准确性的重要因素。因此,在本发明实施例中,为了提高文本匹配的准确性,电子设备可 以计算各分词的重要性权重,并且可以基于各分词的重要性权重计算搜索词与待匹配文本 的匹配度。
[0066] 具体地,电子设备可以预先训练得到用于计算各分词重要性权重的分类模型。电 子设备获得搜索词中包括的各分词后,可以根据各分词的词性、语义属性、作为独立搜索词 的概率和点击率中的至少一个,及预先训练的分类模型,确定各分词的重要性权重。
[0067] 可以理解,分词的词性可以用来标识其重要程度。例如,通常情况下,词性为名词、 动词、数词等的分词,其对计算搜索词与文本的匹配度的影响较大;而词性为介词、连词等 的分词,其对计算搜索词与文本的匹配度的影响可能较小。因此,本发明实施例中,可以根 据各分词的词性,确定各分词的重要性权重。
[0068] 在本发明实施例中,确定各分词的词性的过程可以采用现有技术,本发明实施例 对此过程不进行赘述。
[0069] -些分词可能会在文本中具有特定的意义,如一些专有名词,人名、地名剧名、机 构名等,这些分词对计算搜索词与文本的匹配度的影响会比较大。因此,在本发明实施例 中,还可以根据各分词的语义属性,即各分词是否具有特定的意义,来确定各分词的重要性 权重。
[0070] 在本发明实施例中,可以预先构建专有名词数据库。在该专有名词数据库中保存 所有的专有名词。电子设备在确定各分词的语义属性时,可以判断每个分词是否位于该专 有名词数据库中,如果是,确定分词的语义属性为专有名词,否则,确定分词的语义属性为 普通属性。
[0071] 可选地,在本发明实施例中,专有名词数据库中还可以保存各专有名词及其特定 含义的对应关系,如"北京、地名","李冰冰、人名"等。这种情况下,电子设备在确定各分词 的语义属性时,可以判断每个分词是否位于该专有名词数据库中,如果是,确定分词的语义 属性为与其对应的特定含义,如,分词"北京"的语义属性为"地名",分词"李冰冰"的语义属 性为"人名"等;否则,确定分词的语义属性为普通属性。
[0072] -般情况下,当用户输入的搜索词只包含一个分词时,可以表明该分词具有较高 的辨识度。因此,在本发明实施例中,还可以根据各分词作为独立搜索词的概率来确定各分 词的重要性权重。
[0073] 在本发明实施例中,电子设备在确定各分词作为独立搜索词的概率时,可以根据 预定时间内的搜索日志,上述预定时间可以为1天、1周、15天、1月等,针对每个分词,获得只 包含该分词的搜索词的第一搜索次数,以及包含该分词的搜索词的第二搜索次数,然后将 该第一搜索次数除以该第二搜索次数,得到该分词的作为独立搜索词的概率。
[0074] 例如,当计算分词"李冰冰"的作为独立搜索词的概率时,可以根据一个月的搜索 日志,获得只包含"李冰冰"的搜索词的搜索次数,如2684,以及包含"李冰冰"如"李冰冰"、 "李冰冰电影"、"李冰冰背景"等搜索词的搜索次数,如5326,然后计算分词"李冰冰"作为独 立搜索词的概率为2684/5326。
[0075] 各分词的点击率也能标识该分词的重要程度。因此,在本发明实施例中,还可以根 据各分词的点击率来确定各分词的重要性权重。
[0076] 在本发明实施例中,电子设备在确定各分词的点击率时,可以根据预定时间内的 搜索日志,上述预定时间可以为1天、1周、15天、1月等,针对每个分词,获得只包含该分词的 搜索词的点击次数,以及包含该分词的搜索词的第二搜索次数,然后将该点击次数除以该 第二搜索次数,得到该分词的点击率。
[0077] 在本发明实施例中,电子设备可以根据各分词的词性、语义属性、作为独立搜索词 的概率和点击率中的一个或多个,来确定各分词的重要性权重。
[0078] 具体地,电子设备确定各分词的词性、语义属性、作为独立搜索词的概率和点击率 中的至少一个后,可以将确定的各分词的词性、语义属性、作为独立搜索词的概率和点击率 中的至少一个输入到预先训练的分类模型中,并将该分类模型输出的结果确定为各分词的 重要性权重。
[0079] S103,根据待匹配文本以及所述待匹配文本所在的文本集,确定各分词的词频、以 及逆向文件频率。
[0080] 在本发明实施例中,电子设备还可以根据待匹配文本以及该待匹配文本所在的文 本集,确定各分词的词频、以及逆向文件频率,其中,上述待匹配文本可以是数据库中保存 的任一文本。
[0081] 在本发明实施例中,电子设备确定各分词的词频、以及逆向文件频率的过程可以 采用现有技术,本发明实施例对此过程不进行赘述。
[0082] S104,根据各分词的重要性权重、词频以及逆向文件频率,计算所述搜索词与所述 待匹配文本的匹配度。
[0083] 确定各分词的重要性权重、词频以及逆向文件频率后,电子设备可以根据各分词 的重要性权重、词频以及逆向文件频率,计算搜索词与待匹配文本的匹配度。
[0084] 具体地,在本发明实施例中,可以根据以下公式,计算搜索词与待匹配文本的匹配 度score(q,d):
[0086]其中,q为包含各分词t的搜索词;d为待匹配文本;idf(t)为任一分词t的逆向文件 频率;twiq (t)为分词t的重要性权重;tf (t,d)为分词t的词频。
[0087]可以理解,电子设备可以使用上述方法计算文本集中每个文本与搜索词的匹配 度,并且,还可以根据计算结果,按照匹配度从大到小的顺序将各与搜索词匹配的文本显示 在电子设备中,以供用户查看。
[0088] 本发明实施例提供的文本匹配方法,能够根据各分词本身的词性、语义属性、作为 独立搜索词的概率和点击率中的至少一个,确定各分词的重要性权重,在计算搜索词与待 匹配文本的匹配度时,可以同时根据搜索词中包括的各分词的词频、逆向文件频率、以及各 分词的重要性权重来确定搜索词与待匹配文本的匹配度,与现有技术相比,同时使用各分 词的重要性权重和逆向文件频率能够更准确地衡量各分词的重要程度,因此,在根据各分 词的重要程度进行文本匹配时,能够提高文本匹配的准确性。
[0089] 进一步地,在本发明实施例中,为了提高文本匹配效率,可以预先保存权重模板, 该权重模板可以根据常用的搜索词以及搜索词中各分词的重要程度来确定,如〈剧名/1.3> +〈数词/0.3>,〈剧名/1.3>+〈人名/0.8>,〈剧名/1.3>+〈国语版/0.3>等。
[0090] 当电子设备至少根据各分词的词性及语义属性中的至少一个及预先训练的分类 模型,确定各分词的重要性权重时,电子设备可以首先根据各分词的词性和/或语义属性, 及预先保存的权重模板,识别是否存在与各分词的词性和/或语义属性匹配的权重模板,如 果是,根据权重模板中指定的各分词的词性和/或语义属性对应的重要性权重,确定各分词 的重要性权重;如果否,电子设备仍至少根据各分词的词性及语义属性中的至少一个及预 先训练的分类模型,确定各分词的重要性权重。
[0091] 需要说明的是,在本发明实施例中,预先保存的权重模板可以包括匹配项和对应 的重要性权重,其中,匹配项中可以只包括各分词的词性,也可以只包括各分词的语义属 性,或者,还可以同时包括各分词的词性和语义属性。并且,对于包括多个分词的搜索词,在 识别与各分词匹配的权重模板时,针对不同的分词,使用的匹配项可以不同。
[0092]例如,当电子设备接收到用户输入的搜索词为"速度与激情3",分词结果为"速度 与激情"和"3"时,可以确定分词"速度与激情"的词性为名词,语义属性为剧名;分词"3"的 词性为数词,语义属性为普通属性。这种情况下,电子设备可以根据分词"速度与激情"的语 义属性,以及分词"3"的词性,确定该搜索词中包括的各分词与电子设备预先保存的权重模 板〈剧名/1.3>+〈数词/0.3>匹配,因此,电子设备可以直接根据该权重模板分别确定分词 "速度与激情"的重要性权重为1.3,分词"3"的重要性权重为0.3。
[0093] 进一步地,在本发明实施例中,可以预先训练得到用于确定各分词的重要性权重 的分类模型。
[0094] 具体地,如图2所示,本发明实施例提供的文本匹配方法还可以包括:
[0095] S201,选取预定数量的样本分词,并获得预先确定的各样本分词的重要性权重。
[0096]在本发明实施例中,电子设备在训练分类模型时,可以首先选取预定数量(如300、 500、1000等)的样本分词。并且,可以由专业人士根据各分词在搜索词中的重要程度确定各 样本分词的重要性权重。例如,为了避免样本分词在分类上的严重倾斜,可以选取重要性权 重分布均勾的样本分词。
[0097] S202,根据各样本分词的重要性权重,将所述各样本分词分类。
[0098] 在本发明实施例中,获得各样本分词的重要性权重后,电子设备可以根据各样本 分词的重要性权重,将各样本分词分类。
[0099] 例如,可以根据各样本分词的重要性权重,将样本分词分为五类,具体地,重要性 权重1.0-0.8的分词可以为第一类,重要性权重0.8-0.6的分词可以为第二类,重要性权重 0.6-0.4的分词可以为第三类,重要性权重0.4-0.2的分词可以为第四类,重要性权重0.2-0 的分词可以为第五类。
[0100] S203,根据分类结果,确定各类别中包括的各样本分词的词性、语义属性、作为独 立搜索词的概率和点击率。
[0101] 将各样本分词分类后,电子设备还可以根据分类结果,确定各类别中包括的各样 本分词的词性、语义属性、作为独立搜索词的概率和点击率。
[0102] 在本发明实施例中,确定各样本分词的词性的过程可以采用现有技术,本发明实 施例对此过程不进行赘述。
[0103] 在本发明实施例中,可以预先构建专有名词数据库。在该专有名词数据库中保存 所有的专有名词。电子设备在确定各样本分词的语义属性时,可以判断每个样本分词是否 位于该专有名词数据库中,如果是,确定样本分词的语义属性为专有名词,否则,确定样本 分词的语义属性为普通属性。
[0104] 可选地,在本发明实施例中,专有名词数据库中可以保存各专有名词及其特定含 义的对应关系,如"北京、地名","李冰冰、人名"等。这种情况下,电子设备在确定各样本分 词的语义属性时,可以判断每个样本分词是否位于该专有名词数据库中,如果是,确定样本 分词的语义属性为与其对应的特定含义,如,样本分词"北京"的语义属性为"地名",样本分 词"李冰冰"的语义属性为"人名"等;否则,确定样本分词的语义属性为普通属性。
[0105] 在本发明实施例中,电子设备在确定各样本分词的作为独立搜索词的概率时,可 以根据预定时间内的搜索日志,上述预定时间可以为1天、1周、15天、1月等,针对每个样本 分词,获得只包含该样本分词的搜索词的第一搜索次数,以及包含该样本分词的搜索词的 第二搜索次数,然后将该第一搜索次数除以该第二搜索次数,得到该样本分词的作为独立 搜索词的概率。
[0106] 电子设备在确定各样本分词的点击率时,可以根据预定时间内的搜索日志,上述 预定时间可以为1天、1周、15天、1月等,针对每个样本分词,获得只包含该样本分词的搜索 词的点击次数,以及包含该样本分词的搜索词的第二搜索次数,然后将该点击次数除以该 第二搜索次数,得到该样本分词的点击率。
[0107] S204,使用各类别中包括的各样本分词的重要性权重以及词性、语义属性、作为独 立搜索词的概率和点击率,训练得到所述分类模型。
[0108] 得到各类别中包括的各样本分词的词性、语义属性、作为独立搜索词的概率和点 击率后,电子设备可以使用各类别中包括的各样本分词的重要性权重以及词性、语义属性、 作为独立搜索词的概率和点击率,训练得到分类模型。
[0109] 例如,电子设备可以选择常见的分类器,如逻辑回归、决策树以及SVM(Supp〇rt Vector Machine,支持向量机)等,使用各类别中包括的各样本分词的重要性权重以及词 性、语义属性、作为独立搜索词的概率和点击率,训练得到分类模型。在本发明实施例中,训 练分类模型的过程可以采用现有技术,本发明实施例对此过程不进行赘述。
[0110] 本发明实施例提供的方案,能够训练得到确定分词重要性权重的分类模型,当电 子设备计算搜索词与待匹配文本的匹配度时,可以通过该分类模型确定搜索词中包括的各 分词的重要性权重,进一步地可以同时根据搜索词中包括的各分词的词频、逆向文件频率、 以及各分词的重要性权重来确定搜索词与待匹配文本的匹配度,与现有技术相比,同时使 用各分词的重要性权重和逆向文件频率能够更准确地衡量各分词的重要程度,因此,在根 据各分词的重要程度进行文本匹配时,能够提高文本匹配的准确性。
[0111] 相应于上面的方法实施例,本发明实施例还提供了相应的装置实施例。
[0112] 图3为本发明实施例提供的一种文本匹配装置,应用于电子设备,所述装置包括:
[0113] 接收模块310,用于接收用户输入的搜索词,并将所述搜索词进行分词处理,得到 至少一个分词;
[0114] 第一确定模块320,用于根据各分词的词性、语义属性、作为独立搜索词的概率和 点击率中的至少一个,及预先训练的分类模型,确定各分词的重要性权重;
[0115] 第二确定模块330,用于根据待匹配文本以及所述待匹配文本所在的文本集,确定 各分词的词频、以及逆向文件频率;
[0116] 计算模块340,用于根据各分词的重要性权重、词频以及逆向文件频率,计算所述 搜索词与所述待匹配文本的匹配度。
[0117] 本发明实施例提供的文本匹配装置,能够根据各分词本身的词性、语义属性、作为 独立搜索词的概率和点击率中的至少一个,确定各分词的重要性权重,在计算搜索词与待 匹配文本的匹配度时,可以同时根据搜索词中包括的各分词的词频、逆向文件频率、以及各 分词的重要性权重来确定搜索词与待匹配文本的匹配度,与现有技术相比,同时使用各分 词的重要性权重和逆向文件频率能够更准确地衡量各分词的重要程度,因此,在根据各分 词的重要程度进行文本匹配时,能够提高文本匹配的准确性。
[0118] 进一步地,所述装置还包括:
[0119] 第三确定模块(图中未示出),用于根据预先构建的专有名词数据库,判断每个分 词是否位于该专有名词数据库中,如果是,确定分词的语义属性为专有名词,否则,确定分 词的语义属性为普通属性;
[0120] 第一获得模块(图中未示出),用于根据预定时间内的搜索日志,针对每个分词,获 得只包含该分词的搜索词的第一搜索次数,以及包含该分词的搜索词的第二搜索次数;将 所述第一搜索次数除以所述第二搜索次数,得到该分词作为独立搜索词的概率;
[0121 ]第二获得模块(图中未示出),用于根据所述搜索日志,针对每个分词,获得只包含 该分词的搜索词的点击次数;将所述点击次数除以所述第二搜索次数,得到该分词的点击 率。
[0122] 进一步地,所述装置还包括:
[0123] 识别模块(图中未示出),用于当所述第一确定模块用于至少根据各分词的词性及 语义属性中的至少一个及预先训练的分类模型,确定各分词的重要性权重时,根据所述各 分词的词性和/或语义属性,及预先保存的权重模板,识别是否存在与所述各分词的词性 和/或语义属性匹配的权重模板;
[0124] 第四确定模块(图中未示出),用于当所述识别模块识别结果为是时,根据所述权 重模板中指定的各分词的词性和/或语义属性对应的重要性权重,确定所述各分词的重要 性权重;当所述识别模块识别结果为否时,触发所述第一确定模块。
[0125] 进一步地,所述计算模块340,具体用于根据以下公式,计算所述搜索词与所述待 匹配文本的匹配度score(q,d):
[0127] 其中,所述q为包含各分词t的搜索词;所述d为待匹配文本;所述idf(t)为任一分 词t的逆向文件频率;所述twiq(t)为所述分词t的重要性权重;所述tf(t,d)为所述分词t的 词频。
[0128] 进一步地,如图4所示,本发明实施例提供的文本匹配装置还包括:
[0129] 选取模块410,用于选取预定数量的样本分词,并获得预先确定的各样本分词的重 要性权重;
[0130] 分类模块420,用于根据各样本分词的重要性权重,将所述各样本分词分类;
[0131]第五确定模块430,用于根据分类结果,确定各类别中包括的各样本分词的词性、 语义属性、作为独立搜索词的概率和点击率;
[0132] 训练模块440,用于使用各类别中包括的各样本分词的重要性权重以及词性、语义 属性、作为独立搜索词的概率和点击率,训练得到所述分类模型。
[0133] 本发明实施例提供的方案,能够训练得到确定分词重要性权重的分类模型,当电 子设备计算搜索词与待匹配文本的匹配度时,可以通过该分类模型确定搜索词中包括的各 分词的重要性权重,进一步地可以同时根据搜索词中包括的各分词的词频、逆向文件频率、 以及各分词的重要性权重来确定搜索词与待匹配文本的匹配度,与现有技术相比,同时使 用各分词的重要性权重和逆向文件频率能够更准确地衡量各分词的重要程度,因此,在根 据各分词的重要程度进行文本匹配时,能够提高文本匹配的准确性。
[0134] 需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实 体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存 在任何这种实际的关系或者顺序。而且,术语"包括"、"包含"或者其任何其他变体意在涵盖 非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要 素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备 所固有的要素。在没有更多限制的情况下,由语句"包括一个……"限定的要素,并不排除在 包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0135] 本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部 分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实 施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例 的部分说明即可。
[0136] 以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在 本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围 内。
【主权项】
1. 一种文本匹配方法,其特征在于,应用于电子设备,所述方法包括: 接收用户输入的搜索词,并将所述搜索词进行分词处理,得到至少一个分词; 根据各分词的词性、语义属性、作为独立搜索词的概率和点击率中的至少一个,及预先 训练的分类模型,确定各分词的重要性权重; 根据待匹配文本以及所述待匹配文本所在的文本集,确定各分词的词频、以及逆向文 件频率; 根据各分词的重要性权重、词频以及逆向文件频率,计算所述搜索词与所述待匹配文 本的匹配度。2. 根据权利要求1所述的方法,其特征在于,确定各分词的语义属性、作为独立搜索词 的概率和点击率包括: 根据预先构建的专有名词数据库,判断每个分词是否位于该专有名词数据库中,如果 是,确定分词的语义属性为专有名词,否则,确定分词的语义属性为普通属性; 根据预定时间内的搜索日志,针对每个分词,获得只包含该分词的搜索词的第一搜索 次数,以及包含该分词的搜索词的第二搜索次数;将所述第一搜索次数除以所述第二搜索 次数,得到该分词作为独立搜索词的概率; 根据所述搜索日志,针对每个分词,获得只包含该分词的搜索词的点击次数;将所述点 击次数除以所述第二搜索次数,得到该分词的点击率。3. 根据权利要求1所述的方法,其特征在于,当至少根据各分词的词性及语义属性中的 至少一个及预先训练的分类模型,确定各分词的重要性权重时,所述确定各分词的重要性 权重之前,所述方法还包括: 根据所述各分词的词性和/或语义属性,及预先保存的权重模板,识别是否存在与所述 各分词的词性和/或语义属性匹配的权重模板; 如果是,根据所述权重模板中指定的各分词的词性和/或语义属性对应的重要性权重, 确定所述各分词的重要性权重;如果否,执行至少根据各分词的词性及语义属性中的至少 一个及预先训练的分类模型,确定各分词的重要性权重的步骤。4. 根据权利要求1所述的方法,其特征在于,所述分类模型的训练过程包括: 选取预定数量的样本分词,并获得预先确定的各样本分词的重要性权重; 根据各样本分词的重要性权重,将所述各样本分词分类; 根据分类结果,确定各类别中包括的各样本分词的词性、语义属性、作为独立搜索词的 概率和点击率; 使用各类别中包括的各样本分词的重要性权重以及词性、语义属性、作为独立搜索词 的概率和点击率,训练得到所述分类模型。5. 根据权利要求1-4任一所述的方法,其特征在于,所述根据各分词的重要性权重、词 频以及逆向文件频率,计算所述搜索词与所述待匹配文本的匹配度包括: 根据以下公式,计算所述搜索词与所述待匹配文本的匹配度sc〇re(q,d):其中,所述q为包含各分词t的搜索词;所述d为待匹配文本;所述idf(t)为任一分词t的 逆向文件频率;所述twiq(t)为所述分词t的重要性权重;所述tf(t,d)为所述分词t的词频。 6 . -种文本匹配装置,其特征在于,应用于电子设备,所述装置包括: 接收模块,用于接收用户输入的搜索词,并将所述搜索词进行分词处理,得到至少一个 分词; 第一确定模块,用于根据各分词的词性、语义属性、作为独立搜索词的概率和点击率中 的至少一个,及预先训练的分类模型,确定各分词的重要性权重; 第二确定模块,用于根据待匹配文本以及所述待匹配文本所在的文本集,确定各分词 的词频、以及逆向文件频率; 计算模块,用于根据各分词的重要性权重、词频以及逆向文件频率,计算所述搜索词与 所述待匹配文本的匹配度。7. 根据权利要求6所述的装置,其特征在于,所述装置还包括: 第三确定模块,用于根据预先构建的专有名词数据库,判断每个分词是否位于该专有 名词数据库中,如果是,确定分词的语义属性为专有名词,否则,确定分词的语义属性为普 通属性; 第一获得模块,用于根据预定时间内的搜索日志,针对每个分词,获得只包含该分词的 搜索词的第一搜索次数,以及包含该分词的搜索词的第二搜索次数;将所述第一搜索次数 除以所述第二搜索次数,得到该分词作为独立搜索词的概率; 第二获得模块,用于根据所述搜索日志,针对每个分词,获得只包含该分词的搜索词的 点击次数;将所述点击次数除以所述第二搜索次数,得到该分词的点击率。8. 根据权利要求6所述的装置,其特征在于,所述装置还包括: 识别模块,用于当所述第一确定模块用于至少根据各分词的词性及语义属性中的至少 一个及预先训练的分类模型,确定各分词的重要性权重时,根据所述各分词的词性和/或语 义属性,及预先保存的权重模板,识别是否存在与所述各分词的词性和/或语义属性匹配的 权重模板; 第四确定模块,用于当所述识别模块识别结果为是时,根据所述权重模板中指定的各 分词的词性和/或语义属性对应的重要性权重,确定所述各分词的重要性权重;当所述识别 模块识别结果为否时,触发所述第一确定模块。9. 根据权利要求6所述的装置,其特征在于,所述装置还包括: 选取模块,用于选取预定数量的样本分词,并获得预先确定的各样本分词的重要性权 重; 分类模块,用于根据各样本分词的重要性权重,将所述各样本分词分类; 第五确定模块,用于根据分类结果,确定各类别中包括的各样本分词的词性、语义属 性、作为独立搜索词的概率和点击率; 训练模块,用于使用各类别中包括的各样本分词的重要性权重以及词性、语义属性、作 为独立搜索词的概率和点击率,训练得到所述分类模型。10. 根据权利要求6-9任一所述的装置,其特征在于,所述计算模块具体用于根据以下 公式,计算所述搜索词与所述待匹配文本的匹配度 SC〇re(q,d):其中,所述q为包含各分词t的搜索词;所述d为待匹配文本;所述idf(t)为任一分词t的 逆向文件频率;所述twiq(t)为所述分词t的重要性权重;所述tf(t,d)为所述分词t的词频。
【文档编号】G06F17/30GK105893533SQ201610195786
【公开日】2016年8月24日
【申请日】2016年3月31日
【发明人】胡军, 陈英傑, 王天畅, 叶澄灿
【申请人】北京奇艺世纪科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1