一种语义分析查杀法

文档序号:9844101阅读:250来源:国知局
一种语义分析查杀法
【技术领域】
[0001]本发明涉及语义搜索引擎系统,更具体地说,涉及一种语义分析查杀技术,以及利用该语义查杀技术实现的一种语义分析查杀法。
【背景技术】
[0002]由于互联网技术的不断发展和快速普及,网络信息量快速增长。在这样一个海量信息时代,用户要在信息海洋里查找所需的信息,就像是大海捞针一样,费时费力,而搜索引擎的诞生在一定程度上缓解了信息查找难的问题。搜索引擎是根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将检索出的相关信息展示给用户的系统。大多数的搜索引擎以信息检索技术为基础,即为文档信息建立索引并存放入索引库,对用户提交的查询语句进行检索,返回结果给用户。目前搜索引擎所采用的技术,基本是以全文检索为主的。其一般原理就是利用倒排文件的技术,将待搜索的文字文本建立索引,然后利用关键词匹配的检索技术,从索引库中,把包含相关关键词的内容返回给用户。关键词检索技术一般利用词频等统计信息计算索引库中的文档和关键词的相关度,然后按照相关度排序的方式给出包含这些关键词的文档。这种技术把关键词当做一个字符串进行统计处理,基本上没有考虑关键词本身的语义和关键词所在的语言环境。
[0003]专利号为CN 103838833 A的基于相关词语语义分析的全文检索系统,该系统是一种全文检索系统,但是其往往会把关键词当做一个字符串进行统计处理,基本上没有考虑关键词本身的语义和关键词所在的语言环境。无法达到快速准确的检索查杀目的。
[0004]因此,有必要提供一种新的技术方案以克服上述缺陷。

【发明内容】

[0005]本发明的目的在于提供一种语义分析查杀法。
[0006]为达到发明之目的,采用如下技术方案:
[0007]—种语义分析查杀方法,其特征在于:包括信息输入模块、语义处理模块、索引系统、结果查杀处理模块四个模块,所述的信息输入模块是用于接收用户输入的文本信息;所述的语义处理模块包括查询词扩展模块、查询语句和词义查杀;所述的语义处理模块对提取的文本进行语义分析;所述的索引系统包含查询模块和排序模块;所述的索引库是为索引系统提供信息;所述的结果查杀处理模块包含独立查杀模块、组合查杀模块和分页模块。
[0008]所述的一种语义分析查杀方法,其特征在于:所述的信息输入模块中文本信息可直接复制也可以从文件夹中导入。
[0009]所述的一种语义分析查杀方法,其特征在于:所述的查询语句是为了选取文本中的具体语句进行语义分析查杀。
[0010]所述的一种语义分析查杀方法,其特征在于:所述的查询词扩展模块用于确定词语在不同语境中分别对应的语义。
[0011]所述的一种语义分析查杀方法,其特征在于:所述的词义查杀是为了消除词义分歧,为后续工作进行预处理。
[0012]所述的一种语义分析查杀方法,其特征在于:所述的排序模块是对文本中要查询的语句进行排序。
[0013]所述的一种语义分析查杀方法,其特征在于:所述的分页模块是对文本进行分页处理。
[0014]所述的一种语义分析查杀方法,其特征在于在查杀时,可以对不同语境属性进行独立查杀,也可以进行组合查杀。
[0015]所述的一种语义分析查杀方法,其特征在于:结果查杀处理模块处理的结果会保存在指定文件夹中,最终用于反馈给用户。
[0016]与现有技术相比,本发明具有如下有益效果:利用语境属性来表示词语所在的语言环境,语境属性综合了词语的出现次数、词语的概念属性和词语在句子中的语义地位,这样在检索时,可以增加语言环境的限定,使得检索结果的相关度更好。本发明特别适合于企业搜索、垂直搜索等与领域相关的搜索引擎系统,也适合于通用搜索引擎对大量“暗网”数据的处理。具有查全率高、查准率高和一定的动态性。
【附图说明】
[0017]图1是本发明基于语义分析查杀方法的结构图;
[0018]图2是语句处理模块流程图;
[0019]图3是语句处理模块中查询语句流程图;
[0020]图4是本发明中检索模块的流程图。
[0021 ] 图中:10、信息输入模块,20、语句处理模块,21、查询词扩展模块,22、查询语句模块,23、词义查杀模块,30、检索模块,31、查询模块,32、排序模块,40、检索库,50、结果查杀处理模块,51、独立查杀模块,52、组合查杀看,53、分页模块。
【具体实施方式】
[0022]下面结合附图和实施例对本发明作进一步详细说明。
[0023]如1-4所示,本发明提供一种语义分析查杀方法包括信息输入模块10、语义处理模块20、索引系统30、检索库40和结果查杀处理模块50五个模块,所述的信息输入模块10是用于接收用户输入的文本信息;所述的语义处理模块20包括查询词扩展模块21、查询语句22和词义查杀23 ;所述的语义处理模块20对提取的文本进行语义分析;所述的索引系统30包含查询模块31和排序模块32 ;所述的索引库40是为索引系统30提供信息;所述的结果查杀处理模块50包含独立查杀模块51、组合查杀模块52和分页模块53。
[0024]进一步,所述的信息输入模块10中文本信息可直接复制也可以从文件夹中导入。所述的查询语句22是为了选取文本中的具体语句进行语义分析查杀。所述的查询词扩展模块21用于确定词语在不同语境中分别对应的语义。所述的词义查杀23是为了消除词义分歧,为后续工作进行预处理。所述的排序模块32是对文本中要查询的语句进行排序。所述的分页模块53是对文本进行分页处理。可以对不同语境属性进行独立查杀51,也可以进行组合查杀52 ;结果查杀处理模块处理50的结果会保存在指定文件夹中,最终用于反馈给用户。
[0025]显然,上述实施例仅仅是为了清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其他不同形式的变化或者变动。这里无需也无法对所有实施方式予以穷举。而由此所引申出的显而易见的变化或者变仍处于本发明创造的保护范围之中。
【主权项】
1.一种语义分析查杀方法,其特征在于:包括信息输入模块、语义处理模块、索引系统、结果查杀处理模块四个模块,所述的信息输入模块是用于接收用户输入的文本信息;所述的语义处理模块包括查询词扩展模块、查询语句和词义查杀;所述的语义处理模块对提取的文本进行语义分析;所述的索引系统包含查询模块和排序模块;所述的索引库是为索引系统提供信息;所述的结果查杀处理模块包含独立查杀模块、组合查杀模块和分页模块。2.根据权利要求1所述的一种语义分析查杀方法,其特征在于:所述的信息输入模块中文本信息可直接复制也可以从文件夹中导入。3.根据权利要求1所述的一种语义分析查杀方法,其特征在于:所述的查询语句是为了选取文本中的具体语句进行语义分析查杀。4.根据权利要求1所述的一种语义分析查杀方法,其特征在于:所述的查询词扩展模块用于确定词语在不同语境中分别对应的语义。5.根据权利要求1所述的一种语义分析查杀方法,其特征在于:所述的词义查杀是为了消除词义分歧,为后续工作进行预处理。6.根据权利要求1所述的一种语义分析查杀方法,其特征在于:所述的排序模块是对文本中要查询的语句进行排序。7.根据权利要求1所述的一种语义分析查杀方法,其特征在于:所述的分页模块是对文本进行分页处理。8.根据权利要求1所述的一种语义分析查杀方法,其特征在于在查杀时,可以对不同语境属性进行独立查杀,也可以进行组合查杀。9.根据权利要求1所述的一种语义分析查杀方法,其特征在于:结果查杀处理模块处理的结果会保存在指定文件夹中,最终用于反馈给用户。
【专利摘要】本发明公开了一种语义分析查杀方法,其特征在于:包括信息输入模块、语义处理模块、索引系统、结果查杀处理模块四个模块,所述的信息输入模块是用于接收用户输入的文本信息;所述的语义处理模块包括查询词扩展模块、查询语句和词义查杀;所述的语义处理模块对提取的文本进行语义分析;所述的索引系统包含查询模块和排序模块;所述的索引库是为索引系统提供信息;所述的结果查杀处理模块包含独立查杀模块、组合查杀模块和分页模块。该系统具有更高的查准率、查全率和动态性等特点。
【IPC分类】G06F17/30, G06F17/27
【公开号】CN105608080
【申请号】CN201410620672
【发明人】王飞
【申请人】上海莱凯数码科技有限公司
【公开日】2016年5月25日
【申请日】2014年11月6日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1