网络搜索过程中关键词的智能纠错系统及方法

文档序号:6615555阅读:238来源:国知局

专利名称::网络搜索过程中关键词的智能纠错系统及方法
技术领域
:本发明涉及网络文本信息的智能处理领域,特别涉及在网络搜索过程中关键词信息的自动纠错、相关提示技术。
背景技术
:在信息技术时代,通过互联网的手段来获取各种信息的方式在爆炸式增长,并日益成为人获取时信息和知识的主要途径。在人们获取信息的同时,特别是有目的的去网络寻找自己想得到的信息的时候,都会使用到网络信息搜索系统,有时会不可避免地遇到一些问题。例如,在搜索系统运行过程中,用输入的一些关键词得不到査询结果,或者得到的查询结果密切度不大,其导致用户不能搜到满意的结果。其错误类型可归结为下表的五种情况。在表中,第l、2情况,可以归结为同音字错误,如大分歧密码(达芬奇密码)、莫明其妙(莫名其妙);第3种情况属于多字/漏字、字型、词型错误;第4、5种情况,用户会输入拼音,如chengxusheji(程序设计)、kaoyan2007(考研2007),在正常情况中,需要提示正确的中文。<table>tableseeoriginaldocumentpage4</column></row><table>对上述五种情况,目前常规的处理方法不能满足实际应用的需求。如通过预置错误词表的方法,尽可能把出现错误的词列举出来,并且给出正确的提示结果,但这种方法有其局限性,因为实际使用中出现的错词不一定都在错词表中,这就使部分词没有正确的提示结果。通过音字转换的方法,对错词只能做同音字的纠错,不能解决漏字、多字、错字情况;同时,常规的音字转换只做汉字的转换,不能处理拼音、数字和标点等混合情况。这些缺陷就给用户在网络搜索中因不能输入准确的关键词而导致不能提供想要的信息。
发明内容针对上述问题,本发明提供了一种在网络搜索过程中提示正确的或最贴近关键词的系统及方法,提高了用户获取信息的感受。本发明主要通过音字转换和模糊纠错技术手段来纠正用户输入的多音字错误、字型、词型错误,解决用户在输入过程中的字符替换错误、多字/漏字错误和字符位置错误等类型。并在此基础上扩展了基础功能,引入中英文、标点混合纠错,模糊匹配技术,相关提示技术,增强了智能纠错的功能。本发明通过如下措施来实现在互联网络平台上,首先,通过相关数据信息的训练,建立相关的语言模型、对应的词典和数据索引数据库;然后,输入文本,拼音纠错部分计算音字错误,模糊匹配计算词型纠错;最后,将所有结果进行相关度过滤,对多个结果进行排序,得到最接近的几个结果。如图1所示,该系统主要包括以下部分文本语料数据库模块对数据库中的数据进行分析、规范和初始化,作为训练语料;切分字符模块包括初始化相应的训练词典,并对训练文本信息进行分词处理;统计语言模型模块对切分后的训练文本计算,得到词的概率模型和词间的转移概率模型;建立索引模块建立训练语料中词和文档位置的索引;规范提示信息模块对训练数据进行规范化处理,得到可能作为提示结果的规范化信息;输入搜索信息模块在输入界面输入相应的文字;拼音纠错模块切分字音转换后的字符串,按照切分单位做拼音到汉字的转换,使用动态规划的算法,取得概率较大的几个结果;词型匹配模块根据模糊匹配的原理,匹配相关的字词,得到多个相近的结果;相关度过滤模块对拼音纠错结果和词型纠错结果作相关度计算,并使用训练语料计算的索引过滤结果;最后显示结果模块输出关键词的提示结果。本发明系统所使用的主要功能模块包括切分字串(包括中文、拼音、英文字串,及其混合字串),统计语言模型,建立索引,规范提示信息,拼音纠错,词型匹配和相关度过滤等。其中的每个部分都是本发明得以实现并成功应用的基础并构成了一个技术系统。各功能模块和所使用的方法具体说明如下-切分字串模块。在处理涉及中文的字符串时,需要进行分词,词能够代表一个有意义的语言单位。针对不同的应用需求,这里采用了不同的切分方法。如在计算统计语言模型阶段,对语料数据采用了基于正向最大匹配的切词算法。对拼音纠错阶段的拼音字符串采用全切分的算法,把一个拼音句子的所有切分可能找出来。统计语言模型模块主要记录词概率结果和词的转移概率结果。词的概率用每个词出现在语料中的次数表示。词的转移概率为一个词出现在另一个词后面的次数。在得到次数后做规范化处理,如取次数的对数作为概率数据。具体计算概率时,可用不同的方法,如词的概率算法可用投篮法,转移概率可用二元语法记录。如图2所示,这个过程主要分三部分初始化数据、计算语言模型和将计算结果写入文件。建立索引模块对提示信息进行索引,记录相应的词和相应位置,作为之后的结果排序和过滤的数据。建立索引的过程如图3所示,主要包括读取切分字串的信息,进行分词,建索引和把数据写入文件等部分。规范提示信息模块,主要对数据信息的进行规范化,以后的词型匹配阶段的分析提供数据。拼音纠错模块。具体过程如图4所示。首先,对输入字符串进行字音转换,规范化为拼音、数字、英文字母或标点的字符串;其次,进行字符串的切分,构造一个由分割的字符串组成的一个有向无环图;再次,并对字符串中的拼音转化成中文;最后,使用动态规划算法求得几条最佳路径,返回转换之后的结果以及相应的概率值。其中纠错过程主要包括三部分对同音错别字的纠正、拼音到汉字的转换和多个同音词的提示。系统的核心功能是拼音到汉字的转换。目前,解决拼音到汉字主要有基于规则的方法和基于语料库统计的方法。基于规则的方法可以运用短语规则、模式匹配、模糊匹配等方法。其应用的范围有限,很难通过制定大量的规则来覆盖所有可能出现的情况。基于统计的方法运用基于字、词的n-gram模型。这里使用基于统计的转移概率模型,通过对现有的数据进行分词,计算词的概率和转移概率,获取语言模型,作为转换阶段的后验概率。基于数据信息的统计,构建关于词的概率模型。在训练阶段,通过对大规模数据信息的机器学习来训练模型参数。在转换阶段通过计算选取后验概率最大者作为转换结果。基于训练模型的中英文、数字、标点混合纠错技术是本发明的关键,如€++71173!1可以提示为C十+语言。其混合纠错流程如图5所示。可以看出,转化后的字符串区分情况切分是重点,切分出以词的拼音串为单位的拼音串、英文串和标点。之后把拼音串转化成相应的汉字串,汉字串、英文串和标点等切分字符串进行统一的概率计算,这样在纠错的过程中就可以支持拼音、中英文、标点的混合串的纠错。通过这样的处理,比一般的拼音纠错更细化,更贴近用户实际的输入情况。词型匹配模块。词型纠错需要计算字串间的相似度,这里主要基于词的模糊匹配思想,在给定的数据集内挑选最接近的提示,计算两个字符串间的编辑距离。所谓的编辑距离让两个字符串变成相同字符串需要操作的最小次数。其操作包括把一个字符变成另一个字符;删除某个字符;插入某个字符等。采用模糊匹配的方式,就可以对用户输入中的漏字/多字/错字进行词型补全纠正。这里可以词为单位计算两个字符串间的相似度。同时,为每个词建立了索引,计算相似度时,如只计算有词相关的串,其就能大大加快系统运行的速度。相关度过滤模块。如图6所示,拼音纠错和词型纠错计算后,得到了多个相关的结果。这些结果与真实结果的相近程度需要通过一定的排序算法重新排序。排序规则设定为重叠程度(降序)一>词频(升序)。处理完成的结果集合按照以上规则综合排序,重叠程度数值相同时按照词频规则排序。操作方法如下首先,在系统进行纠错之前,针对数据信息训练,得到统计语言模型、建立索引和规范的提示信息;其次,输入要搜索的关键词到系统后,先执行拼音纠错,对输入字符串进行字音转换,规范化为拼音、数字、英文字母或标点的字符串;第三,进行字符串的切分,构造一个由分割的字符串组成的一个有向无环图;第四,把其中的拼音转化成中文;第五,使用动态规划算法求得几条最佳路径,返回转换之后的结果以及相应的概率值;第六,在词型纠错阶段,计算两个字符串间的编辑距离,在给定的数据集内挑选最接近的提示;第七,对拼音纠错和词型纠错的计算结果,通过一定的排序算法重新排序并显示在终端。通过以上方法,解决了通常的拼音纠错问题,还解决漏字、多字、错字情况;同时,还能处理拼音、数字和标点等混合情况。这些设计更符合用户网络搜索中的使用偏好。图l是本发明的系统框架图。图2是本发明的统计语言模型模块图。图3是本发明的建立索引模块图。图4是本发明的拼音纠错模块图。图5是本发明的混合纠错流程图。图6是本发明的相关度过滤模块图。图7是本发明的运行步骤框图。具体实施例方式下面结合附图,说明本发明的实施方式。本发明技术所用的系统整体结构和运行流程可参考图1,具体方法步骤如图7所示首先,在系统进行纠错和词型匹配之前,需要针对数据信息训练,得到统计语言模型、索引和规范的提示信息。在计算语言模型阶段、建立索引和规范提示信息阶段可采用基于正向最大匹配的切词算法。这部分是预先计算好的结果,存储到计算机文件中。每次系统运行时,把这几部分计算结果载入计算机内存中。统计模型模块记录词概率和词的转移概率。在得到概率后做规范化处理,如取次数的对数作为概率数据。词索引对切分好的字串进行索引,记录相应的词和相应位置,作为之后的结果排序和过滤的数据。具体流程可参见如图2、图3。其次,在需要纠错的相关信息发送到系统时,先执行拼音纠错,如图4、图5所示。对输入字符串进行字音转换,规范化为拼音、数字、英文字母或标点的字符串。第三步,进行字符串的切分,构造一个由分割的字符串组成的一个有向无环图。第四步,把其中的拼音转化成中文。第五步,使用动态规划算法求得几条最佳路径,返回转换之后的结果以及相应的概率值。对中英文、数字、标点混合纠错时,需要对字音转化后的字符串切分,切分出拼音串(以词的拼音串为单位)、英文串和标点。之后把拼音串转化成相应的汉字串,汉字串、英文串和标点等切分字符串进行统一的概率计算,这样在纠错的过程中就可以支持拼音、中英文、标点的混合串的纠错。第六步,在词型纠错阶段,计算两个字符串间的编辑距离,在给定的数据集内挑选最接近的提示。采用模糊匹配的方式,就可以对用户输入中的漏字/多字/错字进行词型补全的纠正。第七步,对拼音纠错和词型纠错的计算结果,通过一定的排序算法重新排序。按照重叠程度(降序)一〉词频(升序)进行排序并显示在终端,如图6所示。例l,拼音输入纠错liyuchun首先输入串liyuchun。第二步字音转化计算结果为不改变,liyuchun。第三步字符串切分计算结果为liyuchun|liyuchun|liyuchun|liyuchun......第四步音字转化计算结果为liyuchun:李宇春李玉春李遇春......li:犁厘梨……,yuchun:于春愚蠢余春……liyu:离狱理喻李渝……,chun:春椿醇……第五步最佳路径计算结果为李宇春李遇春李裕春……第六步词型纠错计算结果为无结果。第七步相关度排序结果为李宇春李裕春李遇春最终结果李宇春李裕春李遇春例2,拼音输入纠错halibote首先输入串halibote。第二步字音转化计算结果为不改变,halibote。第三步字符串切分计算结果为haliboteIhalibote|halibote......第四步音字转化计算结果为halibote:哈里波特哈利波特;hali:蛤蛎哈里哈利,bote:波特……ha:蛤哈铪……,li:犁厘梨……,bote:波特;第五步最佳路径计算结果为哈利波特哈里波特哈力柏特……第六步词型纠错计算结果为无结果。第七步相关度排序结果为哈利波特哈里波特最终结果哈利波特哈里波特例3,英文拼音混合纠错mbaliankaoyingyu首先输入串mbaliankaoyingyuo第二步字音转化计算结果为不改变,mbaliankaoyingyu。第三步字符串切分计算结果为mbaliankaoyingyu|mbaliankaoyingyu|mbaliankaoyingyumba:mba,liankaoyingyu:耳关考英语;mba:mba,lian:联莲连......,kao:考拷烤,yingyu:英语应于应予mba:mba,liankao:耳关考,yingyu:英语应于应予......第五步最佳路径计算结果为mba联考英语mba连考英语......第六步词型纠错计算结果为无结果。第七步相关度排序结果为mba.联考英语最终结果mba联考英语例4,英文拼音混合纠错c++yuyan首先输入串0++乂1^311。第二步字音转化计算结果为不改变,c++yuyan0第三步字符串切分计算结果为第四步音字转化计算结果为C++:c++,yuyan:语言于研于琰......c++:c++,yu:迂淤于盂榆虞……,yan:淹盐严第五步最佳路径计算结果为0++语言0++与盐0++与眼第六步词型纠错计算结果为无结果。第七步相关度排序结果为c+十语言最终结果0++语言例5,英文、中文错字混合纠错VCd握住沉浮第四步音字转化计算结果为首先输入串vcd握住沉浮。第二步字音转化计算结果为vcdwozhuchenfu。第三步字符串切分计算结果为VcdwozhuchenfuIvcdwozhuchenfuliyuchun|vcdwozhuchenfu......第四步音字转化计算结果为vcd:vcd,wozhuchenfu:我主沉浮......vcd:vcd,wo:挝蜗涡......,zhu:株蛛朱,chenfu:臣服沉浮陈腐……vcd:vcd,wo:挝蜗涡……,zhu:株蛛朱……,chen:郴臣辰……,fu:夫敷肤第五步最佳路径计算结果为vcd我主沉浮第六步词型纠错计算结果为握住孩子的手谁主沉浮我主沉浮漩涡沉浮。第七步相关度排序结果为VCD我主沉浮握住孩子的手谁主沉浮我主沉浮最终结果VCD我主沉浮握住孩子的手谁主沉浮我主沉浮例6,英文、中文错字混合纠错WTO于我们首先输入串WTO于我们。第二步字音转化计算结果为WTOyuwomen。第三步字符串切分计算结果为WTOyuwomenIWTOyuwomen|WTOyuwomen......第四步音字转化计算结果为WTO:削,yu:奥鞅尉......,women:我们;WTO:WTO,yuwo:与我,men:门闷们......WTO:WTO,yu:奧缺尉......,wo:我挝蜗......,men:门闷们第五步最佳路径计算结果为WTO与我们WTO与women......第六步词型纠错计算结果为我们的主题曲我们的科学幻想我们的地球……第七步相关度排序结果为WT0与我们我们的主题曲我们的科学幻想我们的地球最终结果WTO与我们我们的主题曲我们的科学幻想我们的地球例7,拼音数字混合纠错beijing2008首先输入串beijing2008。第二步字音转化计算结果为不改变,beijing2008。第三步字符串切分计算结果为beijing2008|Beijing2008|beijing2008......第四步音字转化计算结果为beijing:北京背景背静……,2008:2008;bei:悲卑北……,jing:荆兢茎……,2008:2008;beiji:碑记北极背脊……,ng:ng,2008:2008……第五步最佳路径计算结果为北京2008第六步词型纠错计算结果为无结果第七步相关度排序结果为北京2008最终结果北京2008例8,拼音数字混合纠错yuedu200篇首先输入串yuedu200篇。第二步字音转化计算结果为yuedu200pian。第三步字符串切分计算结果为yuedu200pian|yuedu200pian|yuedu200pian......第四步音字转化计算结果为yuedu:月度阅读,200:200,pian:便篇偏……yue:乐说约……,du:都督毒……,200:200,pian:便篇偏yuedu:月度阅读,200:200,pi:擺狂被……,an:鞍氨安第五步最佳路径计算结果为阅读200篇阅读200片……第六步词型纠错计算结果为阅读200篇。第七步相关度排序结果为阅读200篇最终结果阅读200篇例9,拼音、括号混合纠错sanguaike(DVD)首先输入串sanguaike(DVD)。第二步字音转化计算结果为不改变,sanguaike(DVD)。第三步字符串切分计算结果为sanguaike(DVD)|sanguaike(DVD)|sanguaike(扁)第四步音字转化计算结果为san:糝三畚……,guaike:怪客,(:(,DVD:歸,):);s:s,an:鞍氨安……,guaike:怪客,((,DVD:DVD,));sa:撒洒萨……,n:n,guaike:怪客,((,DVD:DVD,));第五步最佳路径计算结果为三怪客(DVD)三谷爱克(,)……第六步词型纠错计算结果为无结果。第七步相关度排序结果为三怪客(DVD)最终结果三怪客(DVD)例IO,拼音、括号混合纠错dafengchui(CD)首先输入串dafengchui(CD)。第二步字音转化计算结果为不改变,dafengchui(CD)。第三步字符串切分计算结果为Dafengchui(cd)|dafengchui(cd)|dafengchui(cd).…第四步音字转化计算结果为da:搭达答......,fengchui:风吹风锤,((,cd:cd,):);dafeng:大丰大封大风……,chui:吹炊捶……,((,cd:cd,));d:d,a:a啊阿吖……,fengchui:风吹风锤,((,cd:cd,):);第五步最佳路径计算结果为大风吹(cd)……第六步词型纠错计算结果为无结果。第七步相关度排序结果为大风吹(cd)最终结果大风吹(cd)例ll,中文、特殊符号混合纠错杰拉德.B.四通首先输入串杰拉德.B.四通。第二步字音转化计算结果为jielade.b.sitong。第三步字符串切分计算结果为jielade.b.sitong|jielade.b.sitong|jielade.b.stong第四步音字转化计算结果为jielade:杰拉德,..,b:b,..,sitong:斯通私通四通......jie:秸街阶……,lade:拉德拉得拉的……,.:.,b:b,.:,sitong:斯通私通四通......jielade:杰拉德,..,b:b,.:.,si:斯撕嘶......,tong:撞通桐......第五步最佳路径计算结果为杰拉德.b.斯通杰拉德.b.斯同杰拉德.b.四彤第六步词型纠错计算结果为菲茨杰拉德杰拉德巴特勒杰奎琳奥拉德丝…第七步相关度排序结果为杰拉德.B.斯通菲茨杰拉德杰拉德巴特勒杰奎琳奥拉德丝最终结果杰拉德.B.斯通菲茨杰拉德杰拉德巴特勒杰奎琳奥拉德丝例12,中文、特殊符号混合纠错阿波罗juren首先输入串阿波罗juren。第二步字音转化计算结果为aboluo:juren。第三步字符串切分计算结果为Aboluo:juren|aboluo:uren|aboluo:juren......第四步音字转化计算结果为aboluo:阿波罗,,juren:拘人居人举人……a:a啊阿吖......,boluo:剥落菠萝波萝……,,juren:居人举人巨人abo:阿波阿伯,luo:犖烙萝……,,juren:居人举人巨人……第五步最佳路径计算结果为阿波罗巨人阿波罗车仁阿勃洛巨人……第六步词型纠错计算结果为阿波罗阿波罗系列软件阿波罗之杯阿波罗艺术史。第七步相关度排序结果为阿波罗巨人阿波罗阿波罗系列软件阿波罗之杯最终结果阿波罗巨人阿波罗阿波罗系列软件阿波罗之杯例13,个别词混合纠错满城尽是黄金甲首先输入串满城尽是黄金甲。第二步字音转化计算结果为manchengjinshihuangjinjia。第三步字符串切分计算结果为ManchengjinshihuangjinjialmanchengjinshihuangjinjialManchengjinshhuangjinjia......第四步音字转化计算结果为man:man瞒馒蛮......,chengjin:程靳承筋,shihuang:拾荒始皇,jinjia:金价进价靳佳……mancheng:满城,jin:巾筋斤……,shihuang:拾荒始皇,jinjia:金价进价靳佳mancheng:满城,jinshi:金石金饰今世,huang:huang荒慌黄,jinjia:金价进价靳佳……第五步最佳路径计算结果为满城尽是黄金甲……第六步词型纠错计算结果为满城尽带黄金甲金甲钟唐满城满城汉墓…"第七步相关度排序结果为满城尽带黄金甲金甲钟唐满城最终结果满城尽带黄金甲金甲钟唐满城。权利要求1.一种网络搜索过程中关键词的智能纠错系统,是在互联网络平台上,首先,通过相关数据信息的训练,建立相关的语言模型、对应的词典和数据索引数据库;然后,输入文本,拼音纠错部分计算音字错误,模糊匹配计算词型纠错;最后,将所有结果进行相关度过滤,对多个结果进行排序,得到最接近的几个结果。该系统包括以下部分文本语料数据库模块对数据库中的数据进行分析、规范和初始化,作为训练语料;切分字符模块包括初始化相应的训练词典,并对训练文本信息进行分词处理;统计语言模型模块对切分后的训练文本计算,得到词的概率模型和词间的转移概率模型;建立索引模块建立训练语料中词和文档位置的索引;规范提示信息模块对训练数据进行规范化处理,得到可能作为提示结果的规范化信息;输入搜索信息模块在输入界面输入相应的文字;拼音纠错模块切分字音转换后的字符串,按照切分单位做拼音到汉字的转换,使用动态规划的算法,取得概率较大的几个结果;词型匹配模块根据模糊匹配的原理,匹配相关的字词,得到多个相近的结果;相关度过滤模块对拼音纠错结果和词型纠错结果作相关度计算,并使用训练语料计算的索引过滤结果;最后显示结果模块输出关键词的提示结果。2.如权利要求1所述的网络搜索过程中关键词的智能纠错系统,其特征在于切分字串模块针对不同的应用需求,采用不同的切分方法在计算统计语言模型阶段,对语料数据采用了基于正向最大匹配的切词算法;在拼音纠错阶段的拼音字符串采用全切分的算法。3.如权利要求l所述的网络搜索过程中关键词的智能纠错系统,其特征在于统计语言模型模块对词的概率使用投篮法,对词的转移概率使用二元语法记录。4.如权利要求1所述的网络搜索过程中关键词的智能纠错系统,其特征在于拼音纠错模块中,将转化后的字符串进行切分,切分出以词的拼音串为单位的拼音串、英文串和标点,之后把拼音串转化成相应的汉字串,并对汉字串、英文串和标点等切分字符串进行统一的概率计算,储存在文本语料数据库中,以便在纠错的过程中支持拼音、中英文、标点的混合串纠错。5.—种网络搜索过程中关键词的智能纠错方法,包含如下步骤首先,在系统进行纠错之前,针对数据信息训练,得到统计语言模型、建立索引和规范的提示信息;其次,输入要搜索的关键词到系统后,先执行拼音纠错,对输入字符串进行字音转换,规范化为拼音、数字、英文字母或标点的字符串;第三,进行字符串的切分,构造一个由分割的字符串组成的一个有向无环图;第四,把其中的拼音转化成中文;第五,使用动态规划算法求得几条最佳路径,返回转换之后的结果以及相应的概率值;第六,在词型纠错阶段,计算两个字符串间的编辑距离,在给定的数据集内挑选最接近的提示;第七,对拼音纠错和词型纠错的计算结果,通过一定的排序算法重新排序并显示在终端。6.如权利要求5所述的一种网络搜索过程中关键词的智能纠错方法,其特征在于在计算语言模型阶段、建立索引和规范提示信息阶段采用基于正向最大匹配的切词算法。7.如权利要求5所述的一种网络搜索过程中关键词的智能纠错方法,其特征在于对中英文、数字、标点混合纠错时,需要对字音转化后的字符串进行切分,切分出以词为单位的拼音串、英文串和标点。8.如权利要求5所述的一种网络搜索过程中关键词的智能纠错方法,其特征在于对拼音纠错和词型纠错的计算结果按照重叠程度从高到低——〉词频从低到高的规则进行排序。全文摘要本发明涉及一种网络搜索过程中关键词的智能纠错系统及方法,在互联网络平台上,首先,通过相关数据信息的训练,建立相关的语言模型、对应的词典和数据索引数据库;然后,输入文本,拼音纠错部分计算音字错误,模糊匹配计算词型纠错;最后,将所有结果进行相关度过滤,对多个结果进行排序,得到最接近的几个结果。通过音字转换和模糊纠错技术手段来纠正用户输入的多音字错误、字型、词型错误,解决用户在输入过程中的字符替换错误、多字/漏字错误和字符位置错误等类型。并在此基础上扩展了基础功能,引入中英文、标点混合纠错,模糊匹配技术,相关提示技术,增强了智能纠错的功能。文档编号G06F17/30GK101206673SQ200710301710公开日2008年6月25日申请日期2007年12月25日优先权日2007年12月25日发明者刚刘,刘建国,庄洪波,研张,王洪涛申请人:北京科文书业信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1