基于语义的查找、集成和提供评论信息的方法及搜索系统的制作方法

文档序号:6433462阅读:176来源:国知局
专利名称:基于语义的查找、集成和提供评论信息的方法及搜索系统的制作方法
技术领域
本发明涉及互联网搜索技术,特别涉及实现了对异构的和层次化的评论内容的评估、集成和整合的方法和搜索引擎系统。
背景技术
人们利用搜索引擎查找关于产品、服务、活动、人物等评论信息已非常普遍。显然, 评论信息的可信度对用户使用该信息有直接的影响。本发明所述“评论”一词是指,但不限于,散布在网页上的评论,评价,意见,言论,判断,评估等。此外,它也泛指文字评论信息和包括了静态图像、动态图像、动画、影像等任何多媒体数字文件类型的非文字评论信息。现实情况是,所有的搜索引擎仅仅把包含评论信息的链接返回给用户,由用户自己判断信息的真伪。有极少数搜索引擎在返回的信息旁边加上手工验证信息,如“评论人身份被确认”等。在上述情形中,搜索引擎框架中缺乏信息真实性评估模块,无法更好地满足用户的需求。此外,很多评论信息包含了异构信息(即文字信息和非文字信息,下同)。例如,不少评论者在论坛、博客和邮件中用情感图标(Emoticon)和GIF图片表达态度和观点。另一个典型例子是,cnet、tigerdirect等网站大量使用影像信息来评论产品。随着iPhone、数码摄像机和网络摄像机的逐步流行,可以预见,互联网上非文字评论信息将更加广泛地传播。从用户体验来看,非文字信息具有直观、易懂的优点。更重要的是,它们是用户评论不可分隔的部分,忽略这些信息会造成用户无法获得全面信息等问题。在现有的搜索引擎框架中(如图1所示),由于缺乏非文字信息提取、非文字信息与文字信息的有效映射、非文字信息集成等功能模块,非文字信息的处理被忽略掉了。另一个值得注意的问题是,评论对象往往不是孤立的,与之相关的对象也能为用户提供有价值的信息。例如,消费者在购买一款数码相机(如Powershot 4500IS)时,最先关注的往往是这款相机的品牌(如佳能)。在用户查找关于一款相机的评论信息时,搜索引擎自动返回与这款相机相关的信息(如对品牌的评论)是很有意义的。换言之,赋予搜索引擎框发现、创建和管理与评论对象相关的评论信息的新功能将能够更好地服务广大用户。总之,能够合理评估信息的真伪和同时管理异构信息不应被看成是现有搜索引擎可有可无的功能特点,而是搜索引擎技术进一步发展中所必备的功能。此外,如佳能相机的例子所述,搜索引擎需要新的系统设计和方法来自动发掘、集成、总结和管理评价对象的层级关系。

发明内容
本发明要解决的问题是,克服现有技术中的不足,提供一种基于语义的查找、集成和提供评论信息的搜索方法和搜索引擎系统。为解决技术问题,本发明的解决方案是提供一种基于语义的查找、集成和提供评论信息的方法,包括利用搜索引擎发现和集成文字评论信息,并按主题分类和汇总评论文本;该方法还包括对非文字评论信息的提取,并挖掘非文字评论信息与文字评论信息之间的语义联系,在此基础上集成这两类信息以供搜索服务需要;其实现的步骤包括(1)主动识别提供评论信息的数据源或被动接收包含评论信息的信息源的链接请求,建立与该数据源的链接,并将包含评论信息在内的数据保存到抓取服务器上;(2)分析包含评论信息的数据,提取元信息以建立文字评论信息和非文字评论信息的语义注解标签;(3)利用语义注解标签从包含评论信息的数据中提取文字评论信息和非文字评论 fn息;(4)对文字评论信息与非文字评论信息进行标准化处理,通过语义分析来评估、过滤不合适的评论信息,并进行异常处理;(5)对已评估的信息根据评价对象及其内在的语义关系进行集成;(6)为集成好的信息和原始数据建立索引;(7)利用索引信息处理查询要求,返回匹配的内容。在本说明中,元信息泛指对信息的特征的描述。而步骤O)中所述的元信息在此处特指对评论信息的描述、说明,比如评论人、评论时间等。元信息可以用来建立评论信息的注解标签。本发明所述步骤(1)中,抓取服务器能够主动抓取数据源,也能够自动接收数据源,并识别数据源是否包含评论信息和建立与包含评论信息的数据源的链接。本发明所述步骤(2)包括判断评论信息所在的分类,具体如下(A)利用键-值表的键属性检索数据源和评论信息的元信息;如键属性匹配到某项元信息,则相应的值属性的值被当成信息分类返回;如键属性无法匹配元信息,则执行下一步;(B)检索评论信息源文件中的标签;如果标签的属性包含了指定的分类词或词组,则将这些词或词组做为信息分类返回;如果所有标签属性都不包含指定的分类词或词组,则执行下一步骤;(C)扫描评论信息正文,计算分类词或词组出现的词频;将最大词频对应的分类词或词组做为信息分类返回;如果词频总和为零,则将信息分类设置为NULL。本发明所述步骤(3)中,还包括从被保存的数据中提取与文字评论信息相关的非文字评论信息。本发明步骤(4)所述的过滤包括过滤与屏蔽垃圾数据、内容重复或相似的数据、 与评论对象和内容相矛盾的数据、对评论对象恶意攻击的内容;步骤(4)所述的异常处理包括(A)按信息被过滤、屏蔽的原因将异常信息分类;(B)将异常信息和异常类别存入统计数据库中,并更新相关的统计参数;更新后的统计参数将用于分析新的评论信息是否在某个方面处在异常的统计区间;(C)更新检测标志的值来标记发生异常的原因以及指定进一步检测的方向;(D)将异常信息存入日志数据库。本发明步骤( 所述的集成,包括对来自相同数据源和不同数据源的文字评论信息和非文字评论信息分别进行集成处理,以及对评论信息按其内在的语义关系进行集成; 对后者的集成是把一开始呈离散状态的评论信息按照评价对象的语义关系联系起来,即将每一条评论信息映射到一个具有单层或多层的树状结构上,以标识该评论信息与其他评论信息的关系;基于此树状结构,对已映射好的评论信息进行集成。本发明还提供了一种用于实现前述方法的搜索引擎系统,包括网络蜘蛛模块、解析器模块、检索器模块和展示器模块;该系统还包括用于分析和提取网页信息以建立语义注解标签的分析器模块;用于创建数据模板、装载信息及排错处理的评估器模块;和应用语义分析方法对信息进行集成的集成器模块;所述网络蜘蛛模块、分析器模块、解析器模块、评估器模块、集成器模块、检索器模块和展示器模块依次顺序布置。本发明所述分析器模块包括一个分类识别器模块,该分类识别器模块能对分析器模块接收到的信息进行检索和扫描,并根据键-值列表对应关系或指定的词或词组出现的词频进行分类。本发明所述评估器模块包括两个组件具有对文字内容进行标准化处理、构建文字信息模板文件和处理异常的功能,从而用于文字信息的内容评估器模块;和具有构建非文字信息模板文件和内容识别的功能,从而用于非文字信息的内容评估器模块。本发明所述集成器模块应用了语义分析方法,既能够对来自同一数据源或者不同数据源的文字评论信息和非文字评论信息进行集成,又能够根据评论对象之间的语义关系把呈离散状态的评论信息以树结构的形式组织起来,对同属于一个主题的评论信息进行层次上的集成。与现有技术相比,本发明的有益效果是非文字信息具有直观、易懂的优点,更是用户评论不可分隔的部分。本发明所涉及的语义搜索引擎系统包含多个系统功能模块,实现了对异构信息(即文字信息和非文字信息)和层次化的评论内容的评估、集成和整合。赋予搜索引擎发现、创建和管理与评论对象相关的评论信息的新功能,能够带来更多更体贴的使用体验,更好地服务广大用户。


图1是现有技术中用来发现、集成和提供评论信息的搜索引擎的框架。图2是本发明申请所描述的用于发现、集成和提供评论信息的新型搜索引擎的框架。图3是图2中分析器模块的框架和处理过程的展示。图4是图2中评估器模块的结构描述。图5是图4中用于文字信息的内容评估器模块的框架和处理过程描述。图6是图4中用于非文字信息的内容评估器模块的框架和处理过程描述。图7是适用于异构评论信息的数据结构文件。图8是集成评论信息的框架,该框架适用与同一个网站和多网站的异构信息集成。图9是图2中检索器的框架结构。
具体实施方式
首先需要说明的是,本发明涉及搜索引擎技术的应用,是计算机技术在互联网领域的一种应用。在本发明的实现过程中,会涉及到多个软件功能模块的应用。申请人认为,如在仔细阅读申请文件、准确理解本发明的实现原理和发明目的以后,在结合现有公知技术的情况下,本领域技术人员完全可以运用其掌握的软件编程技能实现本发明。前述软件功能模块包括但不限于网络蜘蛛模块、分析器模块、解析器模块、评估器模块、集成器模块、检索器模块、展示器模块、异常检测模块、文字信息模版文件、非文字信息模版文件等, 凡本发明申请文件提及的均属此范畴,申请人不再一一列举。1、当前现存的搜索引擎的框架图1描述了现存的搜索引擎用来发现和集成评论信息的框架。该框架包括网络蜘蛛模块100、解析器模块102、集成器模块104和检索器模块106。除集成器模块104用来按主题分类和汇总评论文本外,该框架与谷歌等通用搜索引擎的框架几乎一样,即在于向用户提供链接到评论信息的超链接,而不是评估评论信息的内容。此外,非文本评论信息的处理被排除在现存的框架外,原因是该框架只实现对文本信息的发现,提取和汇总功能。同时,现存搜索引擎没有对评论对象的层次结构进行处理的能力。2、语义搜索引擎的框架图2展示了本发明中用于查找、汇总评论信息的搜索引擎框架。该框架功能可分为三大块第一个功能块是网络蜘蛛模块200。它可以被部署在一个或多个服务器(即抓取服务器)上,既可以有选择地抓取包含评论信息的网页,将网页保存到抓取服务器上的内存或文件系统中,也可以自动接收数据源发送的数据,识别其中是否包含评论信息,之后主动建立与包含评论信息的数据源的链接,将包含评论信息的数据保存到抓取服务器的内存或文件系统中。第二个功能块是集成索引模块210。它包含下面几个子模块分析器模块201 该模块用来分析存放在抓取服务器上的评论信息网页,并从网页中提取域名、网址等网页元信息用来建立异构信息的语义注解标签(armotators)。语义注解标签是本体、机器学习等语义分析技术产生的某些特定文件、程序或数据结构。它的一个特例就是存储了产品信息的XML文件;这个文件中包含了产品名称、描述等信息以及这些信息出现在网页上的位置。更复杂的语义注解标签可以是一段从网页上获取特定的信息 JScript代码。由于生成语义注解标签的目的就是从数据源中提取出结构化的信息,这些脚本必须了解被提取信息的内在含义,而不是这些信息的字面含义。换言之,语义注解标签并不依赖关键字的字面匹配技术。基于语义注解标签的分析器模块使搜索引擎具有了分析信息相关性和理解自然语言的能力;解析器模块202 该模块利用分析器模块201创建的语义注解标签从被抓取、保存下来的数据中提取文字信息和非文字信息。如当前数据中不包含语义注解标签指示的目标信息,该模块还将自动链接到语义注解标签指示的目标数据源以便获取目标信息内容;评估器模块203 该模块用于评估由解析器模块202提取的异构信息,并执行信息过滤和异常检测。该模块执行的第一步是为文字信息和非文字信息分别创建数据模版文件,并把需要评估的信息内容进行标准化处理后装载到这些模版文件中。标准化处理包括将评论时间、评论人地址、评论人经验值等信息内容转换成统一的格式。评估器模块执行的第二步是过滤不合适的内容。这一步将利用语义分析工具对垃圾数据、内容重复或相似的数据、与评论对象和内容相矛盾的数据、对评论对象恶意攻击的内容等进行过滤或屏蔽。评估器还将利用预先定义好的异常检测模块20313对被装载的内容进行异常检测。异常检测模块20313将分析信息被过滤或屏蔽的原因和错误类型,并将信息和错误类型保存到统计数据库和日志数据库中做为进一步分析处理的依据。没有违反任何错误规则的评论数据及其模版将被保存到分析服务器的内存中等待集成处理;集成器模块204 该模块实施的信息集成包含三步一是对来自相同数据源的异构信息进行集成,二是对来自不同数据源的异构信息进行集成,最后是对在语义层次上存在相互关系的异构数据进行集成。第一步是利用信息模板2034识别出评论主题相同或者相似且来自同一数据源的信息,并基于这些信息更新其元信息,如评论数、评论人数、评论时间分布、评论内容倾向等。第二种是利用信息模板2034识别出评论主题相同或相似但来自不同数据源的信息,并基于这些信息更新其元信息。第三步是利用信息模板2034和语义注解标签挖掘评论数据之间的语义关联性,以此构建单层或多层的树状结构,最后将评论数据映射到这个树状结构上进行集成。检索器模块205 该模块把单词、短语和语义注解标签映射到已经集成好的数据信息和抓取服务器抓取到的最原始的数据集中。同时,该模块把这些映射关系储存到数据库或文件系统中做为评论信息的索引。这些索引信息将被用来处理用户的信息查询。第三个功能模块是展示器模块220。这个模块负责接收和处理最终用户的查询,并利用检索器模块205产生的索引信息向用户返回匹配的内容。3、两种框架的差异两种框架的差异首先表现在现存搜索引擎框架的设计者认为,通过在现存框架内增加一个数据集成模块就能够实现对评论信息的处理,以及能够满足用户的需求;后者框架的设计者认为,由于评论信息富含自然语言特征(如个性化词汇、语义规则等),仅仅依靠增加单个数据集成模块,而不是把语义分析功能视为整个搜索引擎框架中不可或缺的部分,则无法有效完成对评论信息的处理。此外,后者框架的设计者认为,仅仅对评论信息进行处理并不能很好地满足用户的需求。对用户而言,很多评论信息带有特殊的应用范围和明显的层次结构。正如前面提到的佳能相机的例子,用户在做购买决策时需要的不仅仅是对该相机的评论信息,还需要对一个品牌的认识。从这点来看,搜索引擎具备分析评论信息层次结构的能力是非常重要的。显然,现存的搜索引擎并不具备这样的能力。最后,正如前面提到的,异构数据已被用来表达用户的观点已经成为一种趋势。因此,语义搜索引擎的设计者认为,要更好地处理用户评论信息,搜索引擎必须能够处理异构数据。显然,传统搜索引擎的设计者尚未认识到这一点。4、构建语义注解标签图3描述了分析器模块201框架结构。该模块的输入包括域名2011,网址2012、 HTML文字信息2013、HTML非文字信息2014。该模块的输出分别为标识文字信息的语义解析标签201B和标识非文字信息的语义解析标签201C。整个分析过程始于将输入域名、网址等信息传递内存缓冲区2015,之后在传递给分类识别器模块2016。该模块负责判断评论信息所在的分类。此处的“分类”一词指的是,既包括一个大分类,也包括一个大分类及其下属的多个小分类。现在就值得提出的是,这些分类信息不仅在这个模块非常有用,而且在后来的模块和流程都会多次用到。例如,在评估器模块203中,这些分类信息被用于构建文字信息模版20311和非文字信息模板20321。这两个模版将在集成器204中被用来集成评论信息。以下介绍识别分类的过程1)分类识别器模块2016首先在一个键-值列表中检索输入的域名。这个列表中, “键”属性对应的是域名信息,“值”属性对应的是域名所在的分类。如果列表的“键”属性包含了输入的域名,那么对应的“值”属性的值将被返回做为输入域名所属的分类。如果列表的“键”属性不包含输入的域名,类别识别模块执行第2·)步;2)搜索HTML网页源码中的<title>和〈description〉标签。如果这些标签的某个属性包含了指定的分类词或词组,那么这些词或词组将被返回做为输入域名所属的分类。例如,如果在〈title〉标签中某个属性存在包含关键词“HDTV”,而“HDTV”是一个预先定义的分类,则输入的域名被归为“HDTV”这个类别。如果类别识别模块无法从〈title〉和 〈description〉标签中获得分类词或词组,则执行第3)步;3)扫描HTML网页源码,计算特定分类词或词组在该源码中出现的词频。将这些词频从高到低排序后,取最大词频对应的分类词或词组做为域名类别。如果词频总和是零,那么类别识别模块将该域名的分类设置为NULL。当类别识别完毕后,类别信息被用来选择适当的数据分析模块以便创建语义解析标签。这些数据分析模块包括正则表达式2017,数据挖掘2018、多媒体数据分析2019和机器学习201A。总体而言,该分析器模块使用正则表达式模块和数据挖掘模块来分析文字信息和创建语义解析标签。对于非文字信息,多媒体数据分析模块2019是创建这类信息的语义解析标签主要工具,而创建过程不仅基于非文字信息的自身属性(如文件格式、相对地址等),也基于在同一数据文件中与该非文字信息相关的文字信息。5、评论内容的评估图4描述了评估器模块203的两个组件用于文字信息的内容评估器模块2031和用于非文字信息的内容评估器模块2032。有必要指出,评估过程实质上就是这两个模块的互动过程2033。要理解为什么需要两个模块的互动,请看例子某个用户在博客中写下“什么? ”后,又在其后加上了一连串的哭脸小图标。单单从文字信息“什么? ”来做情感分析是不足够的,但是加上对哭脸图标的分析,内容评估模块就可以比较准确地判断出该用户在表达惊诧、不解、愤怒等负面情绪。反过来,有的时候,单从非文字信息很难做出判断,这时辅之以文字信息则有可能提高判断的正确率。图5描述了用于文字信息的内容评估器模块2031的框架和组成。该模块首先基于文字信息20310构建文字信息模版文件20311。该模版文件既包含一个主题模版(用于描述评论对象,如分类信息),也包含一个内容模版(用于装填原始的评论信息数据和从内容模版到主题模版的映射信息)。当文字信息模版文件20311建立后,评估器模块首先初始化检测标签20312,然后再进行异常检测。异常检测模块20313则利用该模版文件和统计数据库20314进行异常检测。在正式检测前,异常检测模块20313会初始化若干个检测标志。这些标志被用来标明检测过程的异常情况和状态。
异常检测模块处理下列异常类别1)不匹配20315(即评论对象是某笔记本电脑,但评论内容讨论的对象是自行车);2)冲突20316(即同一评论中出现自相矛盾的情况);3)垃圾20317(即某个用户ID在一定时间内多次重复评论同一个评论对象);4)误导20318(即某具体评论跟绝大多数其他评论内容意见相左,且没有事实依据);5)其他20319(如分类信息缺失、评论文字丢失等)。异常类别确定后,异常检测模块20313会进行如下处理1)将异常类别作为一个新的记录存入统计数据库20314中,并更新相关的统计参数。例如,出现某类异常的次数与所有异常的总数的比例。更新后的统计参数将用于检测新的评论信息是否在某个方面处在异常的统计区间;2)标签赋值2031A来标记发生异常的原因,并将发生异常的原因写入统计数据库 20314 3)将错误信息存入日志数据库203IB。对于在异常检测中没有被检测出异常的数据,异常检测模块20313将把这些数据传递给集成器模块204。图6描述了用于非文字信息的内容评估器模块2032的框架和组成。该模块提取非文字评论信息20320的文件名、作者、创建时间、修改时间、文件格式等属性信息,并基于这些信息构建非文字信息模版文件20321。随后,评估器模块利用这些属性信息到非文字信息内容数据库20323中查找是否已存在评论信息20320。如果该记录存在,则执行模板更新过程20326。该过程将把从数据库记录的内容更新到模版文件20321中。更新后的信息模板将做为输入参数传入集成器204中。如果记录不存在,执行非文字内容分析过程20325。该过程首先提取非文字信息的属性信息,包括文件大小、尺寸、分辨率、像素、ISO速度、创建人、创建时间、最后更新时间、 帧信息、压缩比等。接着,该过程利用这些属性信息进行交叉分析,包括文件类型确认、字符信息提取、动作识别、图像切割和内容归类等。最后,分析结果数据被写入更新到非文字信息模版20321,同时也被写入非文字信息内容数据库20323。当非文字信息模板更新完毕后,它将做为输入参数传入集成器204中。图7显示了一个模板文件2034,该模板同时适用于处理文字信息和非文字信息的情况。该模板包括了主题模版和内容模版主题模版包含对评论对象的描述信息,内容模版包含评论数据以及描述评论数据的元信息。6、评论内容的集成图8描述了集成器模块204的组成。该模块用于对同网站评论对象的集成(同网站集成2041)、跨网站评论对象的集成(跨网站集成2042)和具有层级关系的评论对象的集成(层次集成2048)。如果评论数据对应相同的域名和评论对象的ID,那么内容的集成则为同网站集成。这时,首先分别对同网站的文字信息2043和非文字信息2044进行集成。接着是异构信息间的集成,即将集成后的文字信息和非文字信息进一步集成,以确保两者之间不产生内容上的矛盾,以及两者对应的主题模版中共有的属性字段包含相同的数值。类似的,如果评论数据对应于不同域名但评论对象ID相同(利用实体关联确保相同的评论对象有相同的ID),那么内容集成则为跨网站集成2042。跨网站集成2042与同网站集成2041的过程相同,即既包含对跨网站的文字信息2046和非文字信息2047的集成, 也包含对2046和2047这些异构信息的集成。当同网站和跨网站信息集成完毕后,进行层次集成2048。层次集成既可以在同一网站上进行,也可以在跨网站间进行。层次集成的目的就是要把表面上离散、但内容上相关的主题模版组织起来,并把它们合理地映射到树状的结构中。例如,主题模版A的值是佳能品牌,主题模版B的值是佳能相机,主题模版C的值是佳能450d。这些主题模版中,A首先被识别成树状结构的父节点,原因是“品牌”这个词的语义范围比起其他两个关键词“相机”和“450d”更广。其次,通过比较“品牌”、“相机”之间的语义相似度和“品牌”、“450d”之间的语义相似度,前者相似度更高,因此,B(而非C)应该作为A的直接子节点。同样的道理,由于B的语义范围比C更广(在语义概念上,C实际上是B的特例),C只能作为B的子节点,而非B的兄弟节点。至此,基于层级关系的三个离散的主题模版就被组织成为一个树状的层级结构。从功能上讲,层次集成的过程基于文字信息模版204A和非文字信息模版204B,并从这两个模版中提取主题模版集合204C,该集合中包括主题1、主题2等。这些主题开始时处于离散的状态,但是当集成过程完毕后,它们将被组织到一个树结构204D中。这个树状结构是依据主题模版之间的语义关系来建立的。7、评论内容的检索图9描述了检索器模块205的框架和组成。检索器模块205是由主题索引文件 2051和内容索引文件2052构成。主题索引文件2051把描述评论对象的主要信息映射到主题模版的键-值对中。内容索引文件2052具体评论信息映射到内容模版的键-值对中。 映射过程需要把文字内容2053和非文字内容20M各自映射到相应的主题模版2055和内容模板2056,同时以源文件形式2057保存文字和非文字内容。索引完成后,索引数据保存在索引仓库2058中。
权利要求
1.基于语义的查找、集成和提供评论信息的方法,包括利用搜索引擎发现和集成文字评论信息,并按主题分类和汇总评论文本;其特征在于,该方法还包括对非文字评论信息的提取,并挖掘非文字评论信息与文字评论信息之间的语义联系,在此基础上集成这两类信息以供搜索服务需要;其实现的步骤包括(1)主动识别提供评论信息的数据源或被动接收包含评论信息的信息源的链接请求, 建立与该数据源的链接,并将包含评论信息在内的数据保存到抓取服务器上;(2)分析包含评论信息的数据,提取元信息以建立文字评论信息和非文字评论信息的语义注解标签;(3)利用语义注解标签从包含评论信息的数据中提取文字评论信息和非文字评论信息;(4)对文字评论信息与非文字评论信息进行标准化处理,通过语义分析来评估、过滤不合适的评论信息,并进行异常处理;(5)对已评估的信息根据评价对象及其内在的语义关系进行集成;(6)为集成好的信息和原始数据建立索引;(7)利用索引信息处理查询要求,返回匹配的内容。
2.根据权利要求1所述的方法,其特征在于,所述步骤(1)中,抓取服务器能够主动抓取数据源,也能够自动接收数据源,并识别数据源是否包含评论信息和建立与包含评论信息的数据源的链接。
3.根据权利要求1所述的方法,其特征在于,所述步骤(2)包括判断评论信息所在的分类,具体如下(A)利用键-值表的键属性检索数据源和评论信息的元信息;如键属性匹配到某项元信息,则相应的值属性的值被当成信息分类返回;如键属性无法匹配元信息,则执行下一止少;(B)检索评论信息源文件中的标签;如果标签的属性包含了指定的分类词或词组,则将这些词或词组做为信息分类返回;如果所有标签属性都不包含指定的分类词或词组,则执行下一步骤;(C)扫描评论信息正文,计算分类词或词组出现的词频;将最大词频对应的分类词或词组做为信息分类返回;如果词频总和为零,则将信息分类设置为NULL。
4.根据权利要求1所述的方法,其特征在于,所述步骤(3)中,还包括从被保存的数据中提取与文字评论信息相关的非文字评论信息。
5.根据权利要求1所述的方法,其特征在于,步骤(4)所述的过滤包括过滤与屏蔽垃圾数据、内容重复或相似的数据、与评论对象和内容相矛盾的数据、对评论对象恶意攻击的内容;步骤(4)所述的异常处理包括(A)按信息被过滤、屏蔽的原因将异常信息分类;(B)将异常信息和异常类别存入统计数据库中,并更新相关的统计参数;更新后的统计参数将用于分析新的评论信息是否在某个方面处在异常的统计区间;(C)更新检测标志的值来标记发生异常的原因以及指定进一步检测的方向;(D)将异常信息存入日志数据库。
6.根据权利要求1所述的方法,其特征在于,步骤( 所述的集成,包括对来自相同数据源和不同数据源的文字评论信息和非文字评论信息分别进行集成处理,以及对评论信息按其内在的语义关系进行集成;对后者的集成是把一开始呈离散状态的评论信息按照评价对象的语义关系联系起来,即将每一条评论信息映射到一个具有单层或多层的树状结构上,以标识该评论信息与其他评论信息的关系;基于此树状结构,对已映射好的评论信息进行集成。
7.一种用于实现权利要求1所述方法的搜索引擎系统,包括网络蜘蛛模块、解析器模块、检索器模块和展示器模块;其特征在于,该系统还包括用于分析和提取网页信息以建立语义注解标签的分析器模块;用于创建数据模板、装载信息及排错处理的评估器模块; 和应用语义分析方法对信息进行集成的集成器模块;所述网络蜘蛛模块、分析器模块、解析器模块、评估器模块、集成器模块、检索器模块和展示器模块依次顺序布置。
8.根据权利要求7所述的搜索引擎系统,其特征在于,所述分析器模块包括一个分类识别器模块,该分类识别器模块能对分析器模块接收到的信息进行检索和扫描,并根据键-值列表对应关系或指定的词或词组出现的词频进行分类。
9.根据权利要求7所述的搜索引擎系统,其特征在于,所述评估器模块包括两个组件 具有对文字内容进行标准化处理、构建文字信息模板文件和处理异常的功能,从而用于文字信息的内容评估器模块;和具有构建非文字信息模板文件和内容识别的功能,从而用于非文字信息的内容评估器模块。
10.根据权利要求7所述的搜索引擎系统,其特征在于,所述集成器模块应用了语义分析方法,既能够对来自同一数据源或者不同数据源的文字评论信息和非文字评论信息进行集成,又能够根据评论对象之间的语义关系把呈离散状态的评论信息以树结构的形式组织起来,对同属于一个主题的评论信息进行层次上的集成。
全文摘要
本发明涉及互联网搜索技术,旨在提供一种基于语义的查找、集成和提供评论信息的方法及搜索系统。该方法包括利用搜索引擎发现和集成文字评论信息,并按主题分类和汇总评论文本;特别还包括对非文字评论信息的提取,并挖掘非文字评论信息与文字评论信息之间的语义联系,在此基础上集成这两类信息以供搜索服务需要。本发明实现了对异构信息(即文字信息和非文字信息)和层次化的评论内容的评估、集成和整合。赋予搜索引擎发现、创建和管理与评论对象相关的评论信息的新功能,能够带来更多更体贴的使用体验,更好地服务广大用户。
文档编号G06F17/30GK102279894SQ201110278049
公开日2011年12月14日 申请日期2011年9月19日 优先权日2011年9月19日
发明者周诚 申请人:嘉兴亿言堂信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1