一种中文垂直搜索的检索串拆分方法

文档序号：6517762阅读：407来源：国知局

一种中文垂直搜索的检索串拆分方法
【专利摘要】本发明提供了一种中文垂直搜索的检索串拆分方法，该方法通过实体词典和无监督学习方法拆分中文垂直搜索的检索串，包括以下步骤：建立实体词典和语言模型；检索串进行实体名称匹配；处理检索串中非中文字符；检索串分词；建立候选短语的权值矩阵；获得检索串所有候选短语的组合的权值；将权值最大的短语组合作为检索串的拆分结果返回。该方法克服了词典方法在处理歧义上的困难，避免了监督学习方法在人工语料标注上的开销，降低了噪声对无监督学习方法切分边界的影响。
【专利说明】一种中文垂直搜索的检索串拆分方法
【技术领域】
[0001]本发明涉及一种计算机领域的方法和装置，具体讲涉及一种中文垂直搜索的检错串拆分方法。
【背景技术】
[0002]随着网络信息的爆炸式增长，垂直搜索引擎的数据来源和数据规模也在高速增长，为提高搜索的查准率，使用户获得更好的搜索体验，关键在于理解用户的查询需求，按语义将用户输入的检索串拆分为连续的短语。目前，检索串拆分主要针对网页搜索，拆分方法主要有两类:基于实体词典的方法和基于统计机器学习的方法，基于统计机器学习的方法又可分为有监督的学习方法和无监督的学习方法。
[0003]基于实体词典的方法:由人工或半人工的方式收集实体名称词典，在其中查找分词后的检索串的子串，以前向最大匹配、后向最大匹配、最短切分路径等启发式策略获得最终的切分结果。
[0004]有监督的学习方法:先人工搜集并切分一定数目的检索串，以之作为语料库，然后使用机器学习方法从语料中学习出相应的切分模型，再利用学习到的模型对新输入的检索串进行切分。
[0005]无监督的学习方法:以未切分的数据(检索串或网页数据)作为训练语料，使用机器学习方法从中学习到隐含的模型(如短语的概率分布)，并利用这些模型识别新输入的检索串中的短语，完成检索串的切分。
[0006]基于实体词典的方法在检索串的切分过程中采用直接查找词典条目的方式识别短语，不使用任何上下文信息，因此对歧义的处理能力比较差。同时为保证词典的质量，词典的构建和更新往往采用人工或半人工方式，导致词典更新速度较慢，影响切分效果。
[0007]有监督的学习方法需要足够规模的人工标注数据，由于不同领域的语言规律上的差异，针对不同的垂直搜索，通常需要构建不同的人工标注数据集合，这导致了人力成本方面的巨大开销。
[0008]无监督的学习方法采用原始的未切分的数据作为训练集合，因此所形成的短语结构的模型容易引入噪声，加大了短语边界判定上的误差，导致切分准确率的下降。

【发明内容】

[0009]为了克服上述现有技术的不足，本发明提供一种针对中文垂直搜索的检索串拆分方法，该方法基于词典和用户检索语言模型的混合方法来识别中文垂直搜索检索串中的短语，克服了词典方法在处理歧义上的困难，避免了监督学习方法在人工语料标注上的开销，降低了噪声对无监督学习方法切分边界的影响。
[0010]实现上述目的所采用的解决方案为:
[0011]一种中文垂直搜索的检索串拆分方法，其改进之处在于:所述方法通过实体词典和无监督学习方法拆分中文垂直搜索的检索串，包括以下步骤:1、建立实体词典和语言模型；
[0012]I1、检索串进行实体名称匹配；
[0013]II1、处理检索串中非中文字符；
[0014]IV、检索串分词；
[0015]V、建立候选短语的权值矩阵；
[0016]V1、获得检索串所有候选短语的组合的权值；[0017]VI1、将权值最大的短语组合作为检索串的拆分结果返回。
[0018]进一步的，所述步骤I中实体词典通过人工或半人工方式构建和更新；所述语言模型使用无监督的学习方法根据用户查询日志构建。
[0019]进一步的，所述步骤II包括:用户输入所述检索串；实体词典查找所述检索串；若所述检索串为实体名称条目，则将所述检索串作为短语直接返回；否则进入所述步骤III。
[0020]进一步的，所述步骤III中遍历所述检索串的词，处理获得的非中文字符；所述处理包括:将非中文字符中的ASCII字符聚集为单词；将宽字符字母和数字转换为ASCII字符；将长数字串进行折叠；识别汉语拼音。
[0021]进一步的，所述步骤IV的检索串的分词和学习语言模型使用的分词工具为同一个分词工具，以防止学习到的语言模型无法为切分提供正确的支持
[0022]进一步的，所述步骤V包括:步骤1、将所述检索串分词，所有词从左至右依次编号;
[0023]步骤2、将所述检索串分为以词为单位的子串，对所述子串分别赋予数值，所述数值用于衡量该子串成为短语的可能性；
[0024]步骤3、将所述数值的结构存放候选短语权值矩阵；所述矩阵为上三角阵，元素的行下标和列下标分别表示该候选短语的起始词和结束词的序号；
[0025]步骤4、所述检索串被切分为η个词，所述语言模型的最大阶数为m，所述实体词典为D，则候选短语权值矩阵WSnXn上三角阵，候选短语权值矩阵W的计算如下式1:
[0026]
【权利要求】
1.一种中文垂直搜索的检索串拆分方法，其特征在于:所述方法通过实体词典和无监督学习方法拆分中文垂直搜索的检索串，包括以下步骤:1、建立实体词典和语言模型； I1、检索串进行实体名称匹配； II1、处理检索串中非中文字符； IV、检索串分词； V、建立候选短语的权值矩阵； V1、获得检索串所有候选短语的组合的权值； VI1、将权值最大的短语组合作为检索串的拆分结果返回。
2.如权利要求1所述的一种中文垂直搜索的检索串拆分方法，其特征在于:所述步骤I中实体词典通过人工或半人工方式构建和更新；所述语言模型使用无监督的学习方法根据用户查询日志构建。
3.如权利要求1所述的一种中文垂直搜索的检索串拆分方法，其特征在于:所述步骤II包括:用户输入所述检索串；实体词典查找所述检索串；若所述检索串为实体名称条目，则将所述检索串作为短语直接返回；否则进入所述步骤III。
4.如权利要求1所述的一种中文垂直搜索的检索串拆分方法，其特征在于:所述步骤III中遍历所述检索串的词，处理获得的非中文字符；所述处理包括:将非中文字符中的ASCII字符聚集为单词；将宽字符字母和数字转换为ASCII字符；将长数字串进行折叠；识别汉语拼音。
5.如权利要求1所述的一种中文垂直搜索的检索串拆分方法，其特征在于:所述步骤IV的检索串的分词词典和语言模型使用的分词工具为同一个分词工具。
6.如权利要求1所述的一种中文垂直搜索的检索串拆分方法，其特征在于:所述步骤V包括:步骤1、将所述检索串分词，所有词从左至右依次编号；步骤2、将所述检索串分为以词为单位的子串，对所述子串分别赋予数值，所述数值用于衡量该子串成为短语的可能性；步骤3、将所述数值的结构存放候选短语权值矩阵；所述矩阵为上三角阵，元素的行下标和列下标分别表示该候选短语的起始词和结束词的序号；步骤4、所述检索串被切分为η个词，所述语言模型的最大阶数为m，所述实体词典为D，则候选短语权值矩阵W为nXn上三角阵，候选短语权值矩阵W的计算如下式1:
7.如权利要求6所述的一种中文垂直搜索的检索串拆分方法，其特征在于:若所述语言模型中没有Su对应的频率，则使用一个很小的正值作为其频率值，或使用平滑方法为其赋值。
8.如权利要求1所述的一种中文垂直搜索的检索串拆分方法，其特征在于:所述步骤VI中计算所有构成整个检索串的所有连续短语组合的得分，所述短语组合的得分为该组合中所有候选短语的权值W的总和。
9.如权利要求1所述的一种中文垂直搜索的检索串拆分方法，其特征在于:所述步骤VII中选择得分最高的连续短语组合作为切分结果，返回所述检索串的拆分结果。
【文档编号】G06F17/27GK103544309SQ201310538096
【公开日】2014年1月29日申请日期:2013年11月4日优先权日:2013年11月4日
【发明者】赵毅强, 杨红尘申请人:北京中搜网络技术股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵毅强;杨红尘
技术所有人：北京中搜网络技术股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。