本发明涉及局域网搜索引擎的设计与开发技术领域,具体为一种基于语义网技术的网络搜索方法。
背景技术:
目前用户在互联网上查询信息主要的工具是搜索引擎。直观的说,搜索引擎是一套在互联网上运行的软件系统,它根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织与处理后,将与用户检索的相关信息通过特定的用户界面展示给用户。
现如今,信息技术的飞速发展,为人们提供了更广阔的共享平台,网络检索已经成为人们获取信息的常用渠道,人们通过信息检索工具来检索相关的信息,这在一定程度上解决了资源的分类和检索的问题。然而传统的基于关键词的检索方式,由于忽略了关键词本身所蕴含的语义信息,而得到较低的查全率和查准率,变得越来越不适应检索的需求。为此,我们提出了一种基于语义网技术的网络搜索方法投入使用,以解决上述问题。
技术实现要素:
本发明的目的在于提供一种基于语义网技术的网络搜索方法,以解决上述背景技术中提出的传统的基于关键词的检索方式,由于忽略了关键词本身所蕴含的语义信息,而得到较低的查全率和查准率,变得越来越不适应检索的需求的问题。
为实现上述目的,本发明提供如下技术方案:一种基于语义网技术的网络搜索方法,该基于语义网技术的网络搜索方法的具体步骤如下:
s1:收集用户搜索喜好、习惯、目标、心理、个性、知识、行为、专业和创作方面的基础信息,构建用户情境模型;
s2:将用户情境模块与现有的搜索引擎集成在一起,确定搜索指向、搜索输出项、输出界面、搜索所进入的分类数据库、搜索的性质界定和搜索结果的定量定性;
s3:通过网络代理节点将用户输入的搜索请求传输到代理节点的邻居节点中,并通过本体映射计算用户输入的关键词向量和概念关键词向量间的相似度;
s4:由搜索引擎将用户输入的关键词向量发送给语义本体中,采用各领域本体模块并行推理的方式,对目标概念进行匹配,得到目标概念集;
s5:对目标概念集中各概念,若用户输入的一些关键词没有出现在该概念的关键词向量中,则这些关键词将作为该概念的候选关键词或将对应候选关键词的频度加1,当某候选关键词的频度达到界限值时,将被加入到该概念的关键词向量中;
s6:将目标概念进行聚类,将聚类结果上传至语义库中,并反馈给用户,便于用户快速查找到感兴趣的文件。
优选的,所述步骤s1中,用户情境模型能够分析用户的短期兴趣、长期兴趣及其动态的兴趣变化,并对其进行存储、表示和描述。
优选的,所述步骤s4中,目标概念为关键词向量和概念关键词向量间的相似度值最大的概念,并通过目标概念的其他关键词进行扩展搜索或利用和目标概念语义距离较近的概念的关键词进行扩展搜索。
优选的,所述步骤s5中,关键词的频度界限值记为3。
优选的,所述步骤s6中,在目标概念的聚类过程中,由目标概念找到各祖先概念,将同一概念下的文档聚成一个大类,并根据概念的共同祖先概念或共同属于同一概念聚成一个更大的类别,形成多层聚类的结果。
与现有技术相比,本发明的有益效果是:本发明将用户情境模型与搜索引擎集成在一起,大大加强了信息检索服务中对用户情境信息的分析与利用,从而使得搜索引擎的搜索结果从目前输出项的千篇一律向多样化转变,使搜索起点从共用大型抓取数据库向复杂分类数据库和搜索过程数据库转变,采用语义网技术,能够很好的使计算机和人类合作完成工作,应用语义网和本体技术对所收集到的用户情境信息进行处理,对用户情境信息的结构和特征进行形式化的描述,将其转化为计算机可理解的形式,并为搜索引擎所使用,同时也便于各实体间对情境信息达成共同的语义理解,从而利用已存在的本体对情境信息进行推理。
附图说明
图1为本发明工作流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于语义网技术的网络搜索方法,该基于语义网技术的网络搜索方法的具体步骤如下:
s1:收集用户搜索喜好、习惯、目标、心理、个性、知识、行为、专业和创作方面的基础信息,构建用户情境模型,用户情境模型能够分析用户的短期兴趣、长期兴趣及其动态的兴趣变化,并对其进行存储、表示和描述;
s2:将用户情境模块与现有的搜索引擎集成在一起,确定搜索指向、搜索输出项、输出界面、搜索所进入的分类数据库、搜索的性质界定和搜索结果的定量定性;
s3:通过网络代理节点将用户输入的搜索请求传输到代理节点的邻居节点中,并通过本体映射计算用户输入的关键词向量和概念关键词向量间的相似度;
s4:由搜索引擎将用户输入的关键词向量发送给语义本体中,采用各领域本体模块并行推理的方式,对目标概念进行匹配,得到目标概念集,目标概念为关键词向量和概念关键词向量间的相似度值最大的概念,并通过目标概念的其他关键词进行扩展搜索或利用和目标概念语义距离较近的概念的关键词进行扩展搜索;
s5:对目标概念集中各概念,若用户输入的一些关键词没有出现在该概念的关键词向量中,则这些关键词将作为该概念的候选关键词或将对应候选关键词的频度加1,当某候选关键词的频度达到界限值时,将被加入到该概念的关键词向量中,关键词的频度界限值记为3;
s6:将目标概念进行聚类,将聚类结果上传至语义库中,并反馈给用户,便于用户快速查找到感兴趣的文件,在目标概念的聚类过程中,由目标概念找到各祖先概念,将同一概念下的文档聚成一个大类,并根据概念的共同祖先概念或共同属于同一概念聚成一个更大的类别,形成多层聚类的结果。
一般的认为,一个本体映射的过程应当包括如下几个部分:⑴本体标准化;⑵相似度的提取;⑶语义映射;⑷执行映射;⑸映射后处理,其中相似度的提取是本体映射过程中一个至关重要的步骤,主要就是进行相似度的计算,在本发明中将基于实例的方法和利用启发式规则的方法结合在一起取长补短,并给两种方法设定相应的权值。实例计算相似度的方法是利用一定量的实例在两个概念中出现的联合分布概率来计算两个概念的相似度,对于一个实例,利用jaccard系数来计算相似度,该系数的计算公式为
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。