目标信息搜索方法和装置的制作方法

文档序号:6429163阅读:106来源:国知局
专利名称:目标信息搜索方法和装置的制作方法
技术领域
本发明涉及信息搜索领域,具体而言,涉及一种目标信息搜索方法和装置。
背景技术
搜索引擎技术正在被越来越多地应用到各种IT系统中,搜索引擎索引库中的数据因而呈指数级增长,随着汉字文档在索引库中的不断增加,越来越多的汉字词汇进入到索引库中,各类新词和专用词汇(如人名或特定领域的术语)在进入分词库后对分词器的分词准确率产生了极大的负面影响,使得很多汉语句子无法按照语义被正确分解,例如汉语句子“离子云集中分布”,如果不对专业术语“离子云”做额外处理,那么该汉语句子将被分词器分解为“离子云集中分布”,这样的分词结果会导致搜索引擎无法搜索到用户期望的资料。
可见,目前的搜索方式还无法根据用户的搜索目标进行分词,导致分词结果与用户的检索目的不符;另外,上述分词结果不够全面,使得无法将某些关键检索条件从用户输入的字符串中提取出来。针对相关技术中搜索引擎存在搜索结果不准确的问题,目前尚未提出有效的解决方案。

发明内容
本发明的主要目的在于提供一种目标信息搜索方法和装置,以至少解决上述搜索引擎存在搜索结果不准确的问题。根据本发明的一个方面,提供了一种目标信息搜索方法,包括如下步骤接收用户选择的分词器和用户输入的字符串,其中,该分词器为与该用户输入的字符串匹配的分词器;使用该分词器对上述字符串进行分词,得到搜索词语;将得到的搜索词语输入搜索引擎进行搜索,得到目标信息。上述接收用户选择的分词器和用户输入的字符串之前,该方法还包括使用与技术领域对应的分类文档建立技术领域对应的分词器。上述使用与技术领域对应的分类文档建立技术领域对应的分词器包括对技术领域进行分类,确定当前分类对应的分类文档;根据分类文档中每个字符出现的频率,计算每个字符在当前分类中的权值;确定当前分类中指定字符串中的字符在当前分类中的权值;根据指定字符串中每个字符的权值计算指定字符串在当前分类中的权值;将指定字符串和指定字符串在当前分类中的权值绑定,得到当前分类的分词器。上述根据分类文档中每个字符出现的频率,计算每个字符在当前分类中的权值包括删除分类文档中的停止词;统计删除停止词后的分类文档中每个字符出现的频率;统计分类文档中包含字符的文档频率;根据字符的频率、字符的文档频率和分类文档的总数计算每个字符在当前分类中的权值。上述确定当前分类中指定字符串中的字符在当前分类中的权值包括当当前分类中指定字符串中有未包含在分类文档中的字符时,设置未包含在分类文档中的字符的权值为默认权值。上述字符包括以下之一汉字形式的字符、韩文形式的字符或日文形式的字符。根据本发明的另一方面,提供了一种目标信息搜索装置,包括如下模块接收模块,用于接收用户选择的分词器和用户输入的字符串,其中,分词器为与用户输入的字符串匹配的分词器;分词模块,用于使用接收模块接收的分词器对字符串进行分词,得到搜索词语;搜索模块,用于将分词模块得到的搜索词语输入搜索引擎进行搜索,得到目标信息。上述装置还包括分词器建立模块,用于使用与技术领域对应的分类文档建立技术领域对应的分词器。上述分词器建立模块包括文档确定单元,用于对技术领域进行分类,确定当前分类对应的分类文档;字符权值计算单元,用于根据文档确定单元确定的分类文档中每个字符出现的频率,计算每个字符在当前分类中的权值;权值确定单元,用于确定当前分类中指 定字符串中的字符在当前分类中的权值;字符串权值计算单元,用于根据指定字符串中每个字符的权值计算指定字符串在当前分类中的权值;分词器建立单元,用于将指定字符串和指定字符串在当前分类中的权值绑定,得到当前分类的分词器。上述字符权值计算单元包括删除子单元,用于删除分类文档中的停止词;统计子单元,用于统计删除子单元删除停止词后的分类文档中每个字符出现的频率,以及统计分类文档中包含字符的文档频率;字符串计算子单元,用于根据字符的频率、字符的文档频率和分类文档的总数计算每个字符在当前分类中的权值。通过本发明,采用使用与用户输入的字符串匹配的分词器进行分词,可以从用户输入的字符串中准确地提取出各个词语,使用分词后的词语进行搜索,得到的目标信息将会符合用户的期望,解决了现有搜索引擎存在搜索结果不准确的问题,方便了用户使用,提高了检索的质量。


此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中图I是根据本发明实施例I的目标信息搜索方法的流程图;图2是根据本发明实施例2的目标信息搜索装置的结构框图;图3是根据本发明实施例2的目标信息搜索装置的具体结构框图;图4是根据本发明实施例2的目标信息搜索装置的具体结构框图;图5是根据本发明实施例2的权值生成模块的结构框图;图6是根据本发明实施例2的应用图4所示装置的目标信息搜索方法的流程图;图7是根据本发明实施例2的应用图4所示装置的目标信息搜索方法的流程图;图8是根据本发明实施例2的应用图4所示装置的目标信息搜索方法的流程图;图9是根据本发明实施例2的目标信息搜索系统示意图。
具体实施例方式下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本发明实施例考虑到目前搜索引擎未按照技术领域对检索信息进行检索,导致搜索结果不准确,提供了一种目标信息搜索方法和装置,该方式可以使搜索引擎在不同领域中对不同分类使用不同分词模型,可以提高分词的准确度;适用于搜索引擎领域、分词领域和WEB应用系统等领域中。实施例I本实施例提供了一种目标信息搜索方法,参见图1,该方法包括如下步骤步骤S102,接收用户选择的分词器和用户输入的字符串,其中,该分词器为与用户输入的字符串匹配的分词器;该匹配指该分词器对应的技术领域与用户输入的字符串对应的技术领域一致;步骤S104,使用上述分词器对该字符串进行分词,得到搜索词语; 步骤S106,将得到的搜索词语输入搜索引擎进行搜索,得到目标信息。本实施例通过使用与用户输入的字符串匹配的分词器进行分词,可以从用户输入的字符串中准确地提取出各个词语,使用分词后的词语进行搜索,得到的目标信息将会符合用户的期望,解决了现有搜索引擎存在搜索结果不准确的问题,方便了用户使用,提高了检索的质量。为了提高分词的准确性,在上述分词器接收用户选择的分词器和用户输入的字符串之前,该方法还包括使用与技术领域对应的分类文档建立技术领域对应的分词器。其中,使用与技术领域对应的分类文档建立技术领域对应的分词器包括下述步骤I)对技术领域进行分类,确定当前分类对应的分类文档;2)根据该分类文档中每个字符出现的频率,计算每个字符在当前分类中的权值;3)确定当前分类中指定字符串中的字符在该当前分类中的权值;4)根据指定字符串中每个字符的权值计算该指定字符串在当前分类中的权值;5)将指定字符串和该指定字符串在当前分类中的权值绑定,得到当前分类的分词器。每个字符在当前分类中的权值的具体计算方式可以采用删除分类文档中的停止词;统计删除停止词后的分类文档中每个字符出现的频率;统计分类文档中包含字符的文档频率;根据字符的频率、字符的文档频率和分类文档的总数计算每个字符在当前分类中的权值。当然,在实际使用中,也可以不删除分类文档中的停止词,直接统计分类文档中各个字符出现的频率。其中,该停止词可以事先设定,例如冠词、连词或助词等。当该当前分类中指定字符串中有未包含在分类文档中的字符时,设置该未包含在分类文档中的字符的权值为默认权值。上述字符包括以下之一汉字形式的字符、韩文形式的字符或日文形式的字符。建立好各个技术领域对应的分词器后,将得到比较专业的分词器,这些分词器可以显示在搜索引擎的界面上,供用户选择。以汉字字符为例,目标信息的搜索方法包括如下步骤步骤I、对分类中包含的文档做汉字频率分析。步骤2、对分类中包含的汉字频率做概率分布处理,计算出分类中包含的汉字在分类中的权值。步骤3、根据分类中包含的汉字在分类中包含的权值计算出分词器词库中每个词语在分类中的权值。步骤4、将分词器词库中每个词语在分类中的权值输入分词器中,使分词器成为分类的专用分词器。步骤5、将已经建立完成的多个分类的专用分词器提供给用户,用户从多个专用分词器中选择一个最适合其检索目的的专用分词器,并使用专用分词器为搜索引擎提供分词服务。步骤6、用户输入检索条件,专用分词器对检索条件进行分词处理,并输出分词结果,搜索引擎将分词结果作为检索依据进行全文检索,并将检索结果返回给用户。用户在互联网的WEB页面上选择与其搜索目标最匹配的分词器并输入汉字字符串,该系统通过用户指定的分词器对汉字字符串进行分词处理,输出最符合用户搜索目的 的汉字词语,并将汉字词语交由搜索引擎处理。本实施例可以为文档库中的每个分类提供专用分词器,以汉字为例,通过对分类文档中的汉字的出现次数做概率统计,计算出每个汉字在分类中的权值,并根据汉字权值计算出分词器词库中每个汉字词语在分类中的权值,进而为每个分类建立专用分词器,用户根据其搜索目的在分词器选择界面中选择最适合其搜索目的的专用分词器,并利用专业分词器获得针对用户搜索目的的最佳分词结果,从而提高搜索引擎的搜索准确率,提高用户对搜索引擎的满意度。实施例2本实施例还提供了一种目标信息搜索装置,参见图2,该装置包括以下模块接收模块22,用于接收用户选择的分词器和用户输入的字符串,其中,该分词器为与该用户输入的字符串匹配的分词器;分词模块24,与接收模块22相连,用于使用接收模块22接收的分词器对字符串进行分词,得到搜索词语;搜索模块26,与分词模块24相连,用于将分词模块24得到的搜索词语输入搜索引擎进行搜索,得到目标信息。本实施例通过使用与用户输入的字符串匹配的分词器进行分词,可以从用户输入的字符串中准确地提取出各个词语,使用分词后的词语进行搜索,得到的目标信息将会符合用户的期望,解决了现有搜索引擎存在搜索结果不准确的问题,方便了用户使用,提高了检索的质量。为了提高分词的准确性,参见图3,上述装置还包括分词器建立模块32,与接收模块22相连,用于使用与技术领域对应的分类文档建立技术领域对应的分词器。其中,分词器建立模块32包括文档确定单元,用于对技术领域进行分类,确定当前分类对应的分类文档;字符权值计算单元,用于根据文档确定单元确定的分类文档中每个字符出现的频率,计算每个字符在当前分类中的权值;权值确定单元,用于确定当前分类中指定字符串中的字符在当前分类中的权值;字符串权值计算单元,用于根据指定字符串中每个字符的权值计算指定字符串在当前分类中的权值;分词器建立单元,用于将指定字符串和指定字符串在当前分类中的权值绑定,得到当前分类的分词器。
优选地,上述字符权值计算单元包括删除子单元,用于删除分类文档中的停止词;统计子单元,用于统计删除子单元删除停止词后的分类文档中每个字符出现的频率,以及统计分类文档中包含字符的文档频率;字符串计算子单元,用于根据字符的频率、字符的文档频率和分类文档的总数计算每个字符在当前分类中的权值。本实施例提供的装置,可以为分类文档库的每个分类建立专用分词器,用户可从众多分类专用分词器中选择最适合其查询目标的一个分词器,通过该分词器为搜索引擎提供最适合其查询目标的分词结果,从而提高搜索引擎的搜索精准度。上述字符以汉字为例,本实施例还提供了另一种目标信息搜索装置,该装置包括如下模块(I)汉字频率收集模块、(2)汉字权值计算模块、(3)汉字词语权值生成模块、(4)专用分词器、(5)分词器选择模块,和(6)检索请求预处理模块;其中,各个模块的功能如下汉字频率收集模块,计算各个分类中每个汉字在分类中的出现频率。 汉字权值计算模块,以分类中的每个汉字出现频率为依据,计算出分类中每个汉字在分类中的出现概率,并对频率进行归一化处理,得出汉字在分类中的权值。该汉字权值计算模块能够根据分类中包含的所有汉字的出现频率计算出分类中包含的所有汉字在分类中的权值。其中,汉字频率收集模块和汉字权值计算模块相当于上述字符权值计算单元。该汉字频率收集模块能够收集分类中包含的所有汉字的出现频率。汉字词语权值生成模块,以分类中的汉字权值为依据,为分词器词库中的词语计算出在分类中的权值。该汉字词语权值生成模块能够根据分类中包含的所有汉字在分类中的权值计算出分词库中汉字词语在分类中的权值。专用分词器,为分类建立一个通用分词器,并将分类的所有汉字词语的权值传入通用分词器中,使通用分词器成为分类的专用分词器,专用分词器以分词器词库和分类的所有汉字词语的权值作为分词依据。可见,本实施例的专用分词器是建立在通用分词器基础上,通过向通用分词器输入分类的所有汉字词语的权值,将通用分词器转变为分类的专用分词器,专用分词器以分词器词库和分类的所有汉字词语的权值作为分词依据。分词器选择模块,将已经建立的多个分类专有分词器展示给用户,用户从多个分类专用分词器中选择一个,为搜索引擎提供分词服务。用户通过该分词器选择模块可以选择与其搜索目的最匹配的专用分词器。检索请求预处理模块,接收用户输入的汉字字符串,将汉字字符串输入用户选定的专用分词器,从用户选定的专用分词器获得分词结果,并将分词结果组装成查询条件输入搜索引擎中。以汉字输入为例,本实施例提供了一种目标信息搜索装置,该装置可以设置在搜索引擎服务器40中,参见图4,该装置由如下几个模块组成(I)权值生成模块41 ;(2)专用分词器42,与权值生成模块41相连;
(3)分词器选择模块43,与专用分词器42相连;(4)检索请求预处理模块44,与分词器选择模块43和网络相连;(5)搜索引擎45,与检索请求预处理模块44相连;其中,权值生成模块41负责生成所述分类中包含的词语在所述分类中的权值,参见图5,该模块包含三个子模块I、汉字频率收集模块411 :该模块首先去掉文档中的停止词,然后统计分类文档库中包含的汉字的出现频率(汉字频率=分类中包含的单个汉字的出现次数/分类中汉字的总字数),同时统计分类中包含汉字的文档数(以后称为文档频率)。2、汉字权值计算模块412 :该模块首先根据汉字频率收集模块411计算出的汉字频率,文档频率和分类中的文档总数算出汉字在分类中的权值;其次为存在于分词库中但不存在于分类中的汉字赋予默认权值。
3、汉字词语权值生成模块413 :将分词器词库中的汉字词语逐条取出,并根据汉字词语取得汉字权值计算模块412计算出的汉字词语包含的汉字在分类中的权值,然后根据汉字词语中汉字的权值计算出汉字词语在分类中的权值,最后将汉字词语在分类中的权值写入硬盘。专用分词器42负责为用户提供专业的分词服务,专用分词器42可将用户输入的检索条件分解为最符合用户期望的汉字词语,该模块的实施过程如下首先建立一个普通分词器,然后从硬盘中读入汉字词语权值生成模块43计算出的分类对应的汉字词语权值,并将汉字词语权值与分词库中的汉字词语绑定在一起,最后将专用分词器注册到分词器选择模块43中;在分词过程中,根据汉字词语权值计算出最符合分类的汉字词语组合。分词器选择模块43负责将建立好的专用分词器42以可视化的方式展示给用户,并允许用户通过该模块选择一个最符合检索目的的专用分词器42,该模块的实施过程如下首先将建立好的专用分词器42保存到链表之中,然后由分词器选择模块43提供一个用户界面,在用户界面中将链表中的专用分词器42展示出来,供用户选择。用户只能选择链表中其中一个专用分词器42,在用户选择完毕后,分词器选择模块43将用户选定的专用分词器42传递给检索请求预处理模块44。检索请求预处理模块44负责接收用户输入的检索条件,调用用户选定的专用分词器42进行分词处理,并将分词结果传递给搜索引擎首先检索请求预处理模块44接收用户的检索请求,然后检索请求预处理模块44将检索请求传递到用户通过分词器选择模块43选定的专用分词器42中进行分词处理,并从专用分词器42中取回分词结果,最后检索请求预处理模块44将分词结果作为检索条件传递给搜索引擎。基于图4和5提供的装置,本实施例还提供了一种目标信息搜索方法,参见图6所示的目标信息搜索方法流程图,该方法包括以下步骤步骤S601,扫描分类文档;步骤S602,统计汉字在该分类中的出现频率;步骤S603,统计汉字在该分类中的权值;步骤S604,统计汉字词语在该分类中的权值;步骤S605,生成专用分词器;步骤S606,将专用分词器注册到分词器选择模块中;
步骤S607,判断用户是否选择分词器;如果是,执行步骤S608 ;如果否,执行步骤S609 ;步骤S608,将用户选择的分词器传递到检索请求预处理模块;步骤S609,等待用户选择分词器;步骤S610,判断用户是否输入检索条件(或者称检索请求,相当于上述字符串);如果是,执行步骤S611 ;如果否,执行步骤S612 ;步骤S611,调用用户选择的分词器对检索请求进行分词处理,并将处理结果作为查询条件传递给搜索引擎,然后执行步骤S613 ;步骤S612,等待用户输入检索请求;步骤S613,返回检索结果到客户端。 参见图7目标信息搜索方法流程图,该方法包括以下步骤步骤S700 :汉字频率收集模块411扫描分类文档;步骤S701 :汉字频率收集模块411去掉文档中的停止词;步骤S702 :汉字频率收集模块411统计分类文档库中包含的汉字的出现频率(汉字频率=分类中包含的单个汉字的出现次数/分类中汉字的总字数);步骤S703 :汉字频率收集模块411统计分类中包含汉字的文档数(以后称为文档频率);步骤S704 :汉字权值计算模块412根据汉字频率收集模块411计算出的汉字频率,文档频率和分类中的文档总数算出汉字在分类中的权值;步骤S705 :汉字权值计算模块412为存在于分词库中但不存在于分类中的汉字赋予默认权值;步骤S706 :汉字词语权值生成模块413根据汉字权值计算模块412计算出的汉字权值为分词器词库中包含汉字的汉字词语赋予权值;步骤S707 建立一个普通分词器;步骤S708 :从硬盘中读入汉字词语权值生成模块413计算出的分类对应的汉字词语权值,并将汉字词语权值与分词库中的汉字词语绑定在一起;步骤S709 :将带有汉字权值的分词库注入普通分词器中,使之成为专用分词器42 ;步骤S710 :将专用分词器注册到分词器选择模块中;步骤S711 :判断是否每个分类都建立了专用分词器,如果否,重复步骤S700到S710直到所有分类库的专用分词器42都建立完成为止;如果是,结束。图8所示的目标信息搜索方法流程图,该方法包括以下步骤步骤S800 :分词器选择模块43将专用分词器42展示到用户界面中。步骤S801 :分词器选择模块43等待用户选择分词器42。步骤S802 :分词器选择模块43接受用户选择的专用分词器42,并将其记录下来。步骤S803 :分词器选择模块43将用户选定的分词器传送给检索请求预处理模块44。步骤S804 :检索请求预处理模块44接受用户的检索请求,并调用用户选定的分词器对检索请求进行分词处理,并将处理结果作为查询条件传递给搜索引擎45。
步骤S805 :搜索引擎45根据分词处理后的检索条件进行检索,并返回检索结果。步骤S806 :用户是否重新选择专用分词器42,如果是,重复执行步骤S802 ;如果否,执行步骤S807。步骤S807 :用户是否重新输入检索请求,如果是,重新执行步骤S804和步骤S805,如果否,结束,即如果用户没有新的活动,业务处理流程自动结束。本实施例可以根据技术领域划分出多个分类,如图9所示的目标信息搜索系统示意图,每个分类均分别对应一套上述装置,其中,该装置中的分词器选择模块、检索请求预处理模块和搜索引擎为公用模块。本实施例可以为文档库中的每个分类提供专用分词器,以汉字为例,通过对分类文档中的汉字的出现次数做概率统计,计算出每个汉字在分类中的权值,并根据汉字权值计算出分词器词库中每个汉字词语在分类中的权值,进而为每个分类建立专用分词器,用户根据其搜索目的在分词器选择界面中选择最适合其搜索目的的专用分词器,并利用专业分词器获得针对用户搜索目的的最佳分词结果,从而提高搜索引擎的搜索准确率,提高用
从以上的描述中可以看出,本发明实现了如下技术效果I、为用户提供多样化的专用分词器,用户通过使用与其搜索目的最符合的专用分词器,可以有效提高分词的准确度,并在此基础上提高搜索引擎的检索准确度。2、用户可以选择多个分词器对同一检索条件进行多次分词处理,并将每次分词结果单独提交到搜索引擎做检索,从而精确地检索到用户期望的文档。显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
权利要求
1.一种目标信息搜索方法,其特征在于包括如下步骤 接收用户选择的分词器和所述用户输入的字符串,其中,所述分词器为与所述用户输入的字符串匹配的分词器; 使用所述分词器对所述字符串进行分词,得到搜索词语; 将得到的所述搜索词语输入搜索弓I擎进行搜索,得到目标信息。
2.根据权利要求1所述的方法,其特征在于,接收所述用户选择的分词器和所述用户输入的字符串之前,所述方法还包括 使用与技术领域对应的分类文档建立所述技术领域对应的分词器。
3.根据权利要求2所述的方法,其特征在于,使用与技术领域对应的分类文档建立所述技术领域对应的分词器包括 对技术领域进行分类,确定当前分类对应的分类文档; 根据所述分类文档中每个字符出现的频率,计算所述每个字符在所述当前分类中的权值; 确定所述当前分类中指定字符串中的字符在所述当前分类中的权值; 根据所述指定字符串中每个字符的权值计算所述指定字符串在所述当前分类中的权值; 将所述指定字符串和所述指定字符串在所述当前分类中的权值绑定,得到所述当前分类的分词器。
4.根据权利要求3所述的方法,其特征在于,所述根据所述分类文档中每个字符出现的频率,计算所述每个字符在所述当前分类中的权值包括 删除所述分类文档中的停止词; 统计删除所述停止词后的所述分类文档中每个字符出现的频率; 统计所述分类文档中包含所述字符的文档频率; 根据所述字符的频率、所述字符的文档频率和所述分类文档的总数计算所述每个字符在所述当前分类中的权值。
5.根据权利要求3所述的方法,其特征在于,所述确定所述当前分类中指定字符串中的字符在所述当前分类中的权值包括 当所述当前分类中指定字符串中有未包含在所述分类文档中的字符时,设置所述未包含在所述分类文档中的字符的权值为默认权值。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述字符包括以下之一汉字形式的字符、韩文形式的字符或日文形式的字符。
7.一种目标信息搜索装置,其特征在于包括如下模块 接收模块,用于接收用户选择的分词器和所述用户输入的字符串,其中,所述分词器为与所述用户输入的字符串匹配的分词器; 分词模块,用于使用所述接收模块接收的所述分词器对所述字符串进行分词,得到搜索词语; 搜索模块,用于将所述分词模块得到的所述搜索词语输入搜索引擎进行搜索,得到目标信息。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括分词器建立模块,用于使用与技术领域对应的分类文档建立所述技术领域对应的分词器。
9.根据权利要求8所述的装置,其特征在于,所述分词器建立模块包括 文档确定单元,用于对技术领域进行分类,确定当前分类对应的分类文档; 字符权值计算单元,用于根据所述文档确定单元确定的分类文档中每个字符出现的频率,计算所述每个字符在所述当前分类中的权值; 权值确定单元,用于确定所述当前分类中指定字符串中的字符在所述当前分类中的权值; 字符串权值计算单元,用于根据所述指定字符串中每个字符的权值计算所述指定字符串在所述当前分类中的权值; 分词器建立单元,用于将所述指定字符串和所述指定字符串在所述当前分类中的权值绑定,得到所述当前分类的分词器。
10.根据权利要求9所述的装置,其特征在于,所述字符权值计算单元包括 删除子单元,用于删除所述分类文档中的停止词; 统计子单元,用于统计所述删除子单元删除所述停止词后的所述分类文档中每个字符出现的频率,以及统计所述分类文档中包含所述字符的文档频率; 字符串计算子单元,用于根据所述字符的频率、所述字符的文档频率和所述分类文档的总数计算所述每个字符在所述当前分类中的权值。
全文摘要
本发明公开了一种目标信息搜索方法和装置。其中,该方法包括如下步骤接收用户选择的分词器和用户输入的字符串,其中,该分词器为与该用户输入的字符串匹配的分词器;使用该分词器对上述字符串进行分词,得到搜索词语;将得到的搜索词语输入搜索引擎进行搜索,得到目标信息。通过本发明,解决了现有搜索引擎存在搜索结果不准确的问题,方便了用户使用,提高了检索的质量。
文档编号G06F17/30GK102890690SQ20111020733
公开日2013年1月23日 申请日期2011年7月22日 优先权日2011年7月22日
发明者王 琦, 左杨眉 申请人:中兴通讯股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1