字符串匹配系统及方法_2

文档序号:8457270阅读:来源:国知局
用的是专用词库,通过对专 用词库的检索,按照标准的分词算法,可以得到一系列具有语义标签的词组成的集合。
[0056] 该输入模块1接收两个字符串的输入,第一个字符串为"上海徐家汇的ru家快捷 酒店",第二个字符串为"宜必思徐家汇店中国"。该处理模块2进行常规的处理,去除第一 个字符串中的"的",将第一个字符串中的拼音"ru"更换为汉字"如"。
[0057] 该划分模块31对这两个字符串进行划分,即将第一个字符串划分为"上海"、"徐 家汇"、"如家"和"快捷酒店",将第二个字符串划分为"宜必思"、"徐家汇"和"中国",该匹 配模块32将划分出的词语"上海"、"徐家汇"、"如家"、"快捷酒店""宜必思"和"中国"与 上述专用词库中的所有词语进行匹配,匹配成功后则将该划分出的词语"上海"、"徐家汇"、 "如家"、"快捷酒店" "宜必思"和"中国"作为词组。
[0058] 该标注模块4标注每一个词组对应的关键维度或非关键维度,即标注第一个字符 串中的词组对应的关键维度或非关键维度"上海(城市)"、"徐家汇(区域)"、"如家(酒店品 牌)"和"快捷酒店(酒店名称描述词)",第二个字符串中的词组对应的关键维度或非关键维 度"宜必思(酒店品牌)"、"徐家汇(区域)"和"中国(无意义词)"。
[0059] 该比较模块5比较该两个字符串中的词组,关键维度"区域"上的第一个字符串中 的词组"徐家汇"与第二个字符串中的词组"徐家汇"相同,关键维度"酒店品牌"上的第一 个字符串中的词组"如家"与第二个字符串中的词组"宜必思"相同(这里的"相同"指的是 在酒店领域的品牌方面商业品牌相同,即商业品牌"如家"和"宜必思"为同一个商业品牌), 第一个字符串中存在关键维度"城市"上的词组而第二个字符串中缺少关键维度"城市"上 的词组,则不进行比较关键维度"城市"上的词组,通过上述比较过程,要么是所有匹配上的 关键维度上的两个词组相同要么是第二字符串缺少关键维度"城市"上的词组,进而计算模 块6计算该两个字符串之间的匹配度。
[0060] 计算模块6通过公式 /计算该两个字符串之间的匹配度的具体过程 为:
[0061] 该两个字符串中词组相同的个数为2个,al为第一个字符串中的词组"徐家汇"对 应的权重值5与第二个字符串中的词组"徐家汇"对应的权重值5之和10, a2为第一个字 符串中的词组"如家"对应的权重值10与第二个字符串中的词组"宜必思"对应的权重值 10之和20 ;B为该两个字符串中每一词组对应的权重值的累加和,即第一个字符串中的词 组"上海"对应的权重值5加上第一个字符串中的词组"徐家汇"对应的权重值5加上第一 个字符串中的词组"如家"对应的权重值10加上第一个字符串中的词组"快捷酒店"对应 的权重值1加上第二个字符串中的词组"宜必思"对应的权重值10加上第二个字符串中的 词组"徐家汇"对应的权重值5加上第二个字符串中的词组"中国"对应的权重值0。
[0062] 则该两个字符串之间的匹配度P= (10+20)/ (5+5+10+1+10+5+0)=83. 33%,并调用 该输出模块7输出该匹配度83. 33%。
[0063] 该字符串匹配系统每次的匹配结果均被记录下来进行人工审核,人工审核该字符 串匹配系统的匹配结果是否正确,并将审核结果反馈给该字符串匹配系统,该字符串匹配 系统对反馈的审核结果进行匹配错误个数和类型统计,并将统计结果显示出来。大多数情 况下是由于词库中没有一些特殊的词组,使得分词出的词组不正确,进而导致匹配结果也 不正确。所以,审核人员可以人工地对词库进行补充及完善,进一步增加该字符串匹配系统 的匹配结果的准确度,而且如果同一种类型的错误量累计到一定的阈值,或者认为输出的 匹配度不合理,则审核人员可以人工地调节权重分配,比如对某一关键维度或非关键维度 进行权重的调节。
[0064] 对于本实施例的酒店名称的匹配,通过人工对大量实际用例的验证,可以看到该 字符串匹配系统在初始情况下的字符串匹配结果的准确率大约有92%,经过一段时间的人 工审核与调节之后,该字符串匹配系统的字符串匹配结果的准确率提高到97%左右,而利 用普通比较算法(如最短编辑距离算法为核心的文本串比较算法)获得的准确率75%左右, 从上述可看出,本发明的匹配结果的准确率远远高于普通比较算法的准确率。
[0065] 同样,将该字符串匹配系统应用至房型名称的匹配,虽然房型名称的字符串长度 较短,匹配难度较大,但通过人工对大量实际用例的验证,可以看到该字符串匹配系统在初 始情况下的字符串匹配结果的准确率大约有88. 3%,经过一段时间的人工审核与调节之后, 该字符串匹配系统的字符串匹配结果的准确率提高到94. 4%左右,而利用普通比较算法 (如最短编辑距离算法为核心的文本串比较算法)获得的准确率70%左右,从上述同样可看 出,本发明的匹配结果的准确率远远高于普通比较算法的准确率。
[0066] 本实施例通过对划分出的每一词组进行标注,通过比较关键维度上的词组,并采 用"不同否定"优先方式在任一关键维度上的两个词组不相同时输出字符串不匹配信息,否 则具体计算出两个字符串之间的匹配度。本发明能够快速灵活、准确的计算出两个字符串 之间的匹配度。
[0067] 本发明中的各个功能模块均能够在现有的硬件条件下结合现有的软件编程手段 加以实现,故在此对其具体实现方法均不做赘述。
[0068] 虽然以上描述了本发明的【具体实施方式】,但是本领域的技术人员应当理解,这些 仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背 离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更 和修改均落入本发明的保护范围。
【主权项】
1. 一种字符串匹配系统,其特征在于,其存储有若干关键维度和若干非关键维度,每一 关键维度和非关键维度均对应有权重值,该字符串匹配系统包括一输入模块、一分词模块、 一标注模块、一比较模块、一计算模块和一输出模块; 该输入模块用于接收两个字符串的输入; 该分词模块用于将该两个字符串分词为词组; 该标注模块用于标注每一词组对应的关键维度或非关键维度; 该比较模块用于比较该两个字符串中的词组,若任一关键维度上的两个词组不相同则 调用该输出模块输出一字符串不匹配信息,否则调用该计算模块; 该计算模块用于通过公式
计算该两个字符串之间的匹配度,并调用该输 出模块输出该匹配度;其中n表示该两个字符串中词组相同的个数,%为该两个字符串中 第i个相同的词组对应的权重值的两倍,B为该两个字符串中每一词组对应的权重值的累 加和。
2. 如权利要求1所述的字符串匹配系统,其特征在于,该字符串匹配系统还包括一处 理模块,该处理模块用于去除该两个字符串中的停止词、纠正该两个字符串中的错别字以 及将该两个字符串中的拼音更换为汉字。
3. 如权利要求1所述的字符串匹配系统,其特征在于,该字符串匹配系统存储一包含 多个词语的词库,该分词模块包括一划分模块和一匹配模块; 该划分模块用于对该两个字符串进行划分; 该匹配模块用于将划分出的词语与该词库中的所有词语进行匹配,若匹配成功则将该 划分出的词语作为该词组。
4. 如权利要求1-3中任意一项所述的字符串匹配系统,其特征在于,该些关键维度和 非关键维度按照领域自定义设置。
5. -种字符串匹配方法,其特征在于,其存储有若干关键维度和若干非关键维度,每一 关键维度和非关键维度均对应有权重值,该字符串匹配方法包括以下步骤: 51、 接收两个字符串的输入; 52、 将该两个字符串分词为词组; 53、 标注每一词组对应的关键维度或非关键维度; 54、 比较该两个字符串中的词组,若任一关键维度上的两个词组不相同则进入步骤S5, 否则进入步骤S6 ; 55、 输出一字符串不匹配信息,结束流程; 56、 通过公式
计算该两个字符串之间的匹配度,并输出该匹配度,结束流 程;其中n表示该两个字符串中词组相同的个数,ai为该两个字符串中第i个相同的词组 对应的权重值的两倍,B为该两个字符串中每一词组对应的权重值的累加和。
6. 如权利要求5所述的字符串匹配方法,其特征在于,步骤Si和步骤S2之间包括以下 步骤: 去除该两个字符串中的停止词、纠正该两个字符串中的错别字以及将该两个字符串中 的拼音更换为汉字。
7. 如权利要求5所述的字符串匹配方法,其特征在于,该字符串匹配方法存储一包含 多个词语的词库,步骤S2包括以下步骤: 521、 对该两个字符串进行划分; 522、 将划分出的词语与该词库中的所有词语进行匹配,若匹配成功则将该划分出的词 语作为该词组。
8. 如权利要求5-7中任意一项所述的字符串匹配方法,其特征在于,该些关键维度和 非关键维度按照领域自定义设置。
【专利摘要】本发明提供一种字符串匹配系统及方法,字符串匹配系统存储有若干关键维度和若干非关键维度,每一关键维度和非关键维度均对应有权重值,字符串匹配系统包括输入模块、分词模块、标注模块、比较模块、计算模块和输出模块;输入模块用于接收两个字符串的输入;分词模块用于将两个字符串分词为词组;标注模块用于标注每一词组对应的关键维度或非关键维度;比较模块用于比较两个字符串中的词组,若任一关键维度上的两个词组不相同则调用输出模块输出一字符串不匹配信息,否则调用计算模块用于通过公式计算两个字符串之间的匹配度,并调用输出模块输出匹配度。本发明能够快速灵活、准确的计算出字符串之间的匹配度。
【IPC分类】G06F17-30, G06F17-27
【公开号】CN104778171
【申请号】CN201410011078
【发明人】叶亚明, 王威振
【申请人】携程计算机技术(上海)有限公司
【公开日】2015年7月15日
【申请日】2014年1月10日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1