一种用于检索的数据处理方法和装置的制造方法

文档序号:9217238阅读:332来源:国知局
一种用于检索的数据处理方法和装置的制造方法
【技术领域】
[0001] 本发明涉及互联网领域,具体而言,涉及一种用于检索的数据处理方法和装置。
【背景技术】
[0002] 在通过互联网进行检索或者诸如问答社区、论坛、百科之类的网络资源中,通常会 有诸如"孕妇能吃西瓜吗"、"给宝宝用矿泉水冲奶好吗"之类的问题,这类问题的答案通常 为"是(YES,肯定)"或者"否(NO,否定)",我们称之为是/非问题(也称为YES-NO问题或 极性问题)。互联网用户在获取这类是/非问题的相关答案时,目前只能通过搜索引擎来获 取零散的相关网页,然后再经过人工过滤不相关网页并自行分析其中的答案观点,这导致 对答案相关的检索结果的数据分析或处理的效率较低。

【发明内容】

[0003] 为解决上述的技术问题,本发明提供了一种用于检索的数据处理方法和装置,针 对是/非问题和该问题对应的答案网页,能够生成对应的问题-答案模板对,并依据问题 答案模板对确定该是/非问题与答案片段的匹配度,以匹配度作为度量抽取相应的答案片 段,大大改善了对检索结果的数据处理的效率、准确度,并且从抽取出的答案片段中确定对 是/非问题的观点为肯定或否定,改善了针对是/非问题的观点数据的获取效率和可靠性, 使得用户可方便、快捷地查看是/非问题的检索结果。
[0004] 根据本发明实施方式的第一方面,提供了一种用于检索的数据处理方法,该方法 可包括:获取问题和包含所述问题的答案的页面数据,其中,所述问题是答案为肯定或否定 的问题,根据所述问题和所述页面数据生成与所述问题配对的问题-答案模板对〈问题,答 案〉,根据所述问题和所述页面数据中答案片段的匹配度从所述页面数据中抽取一个以上 答案片段,其中,所述问题和所述页面数据中第一答案片段的匹配度通过下述比例进行计 算:所述问题-答案模板对〈问题,答案〉中每一个答案与所述第一答案片段的共同词条的 加权之和占所述第一答案片段的比例,根据抽取出的所述一个以上答案片段的否定指示词 个数和所述问题的否定指示词个数确定所述一个以上答案片段的观点为肯定或否定。
[0005] 在本发明的一些实施方式中,所述方法还可包括:统计所述一个以上答案片段的 观点为肯定或否定的比例,抽取观点为肯定或否定的对应答案片段作为所述比例的附加信 息,并向用户显示所述比例和所述附加信息。
[0006] 在本发明的一些实施方式中,所述方法还可包括通过下述一种以上形式显示所述 比例:百分比、表格、柱状图、线条图。
[0007] 在本发明的一些实施方式中,根据所述问题和所述页面数据生成与所述问题配对 的问题-答案模板对〈问题,答案 > 可包括:分析所述问题的一个以上第一主干结构和所述 网页数据的答案片段之一的一个以上第二主干结构,将所述第一主干结构和所述第二主干 结构构建为第一类问题-答案模板对〈问题,答案〉,获取与所述一个以上第一主干结构相 同的第一组问题所对应的一个以上答案片段,筛选所述第一组问题对应的答案片段的一个 以上n-gram和n-skipgram作为答案组成成分,将筛选出的所述第一组问题的主干结构和 所述第一组问题对应的答案片段的主干结构构建为第二类问题-答案模板对〈问题,答案 >,将所述第一类问题-答案模板对〈问题,答案〉和所述第二类问题-答案模板对〈问题, 答案〉合并得到所述问题-答案模板对〈问题,答案〉。
[0008] 在本发明的一些实施方式中,所述问题-答案模板对〈问题,答案〉中每一个答案 与所述第一答案片段的共同词条的加权为下述的第一分量和第二分量的算术乘积,其中, 第一分量为所述问题-答案模板对〈问题,答案〉的所有答案中所述共同词条的出现次数 与所述问题-答案模板对〈问题,答案〉的所有答案中所有词的出现次数的比值,第二分量 为所述问题-答案模板对〈问题,答案〉的所有答案的个数与所述问题-答案模板对〈问 题,答案〉中包含所述共同词条的答案个数的比值取对数。
[0009] 根据本发明实施方式的第二方面,提供了一种用于检索的数据处理装置,该装置 可包括:获取模块,用于获取问题和包含所述问题的答案的页面数据,其中,所述问题是答 案为肯定或否定的问题,生成模块,用于根据所述问题和所述页面数据生成与所述问题配 对的问题-答案模板对〈问题,答案〉,抽取模块,用于根据所述问题和所述页面数据中答 案片段的匹配度从所述页面数据中抽取一个以上答案片段,其中,所述问题和所述页面数 据中第一答案片段的匹配度通过下述比例进行计算:所述问题-答案模板对〈问题,答案〉 中每一个答案与所述第一答案片段的共同词条的加权之和占所述第一答案片段的比例,判 断模块,用于根据抽取出的所述一个以上答案片段的否定指示词个数和所述问题的否定指 示词个数确定所述一个以上答案片段的观点为肯定或否定。
[0010] 在本发明的一些实施方式中,所述装置还可包括:显示模块,用于统计所述一个以 上答案片段的观点为肯定或否定的比例,并抽取观点为肯定或否定的对应答案片段作为所 述比例的附加信息,并向用户显示所述比例和所述附加信息。
[0011] 在本发明的一些实施方式中,所述显示模块还可用于通过下述一种以上形式显示 所述比例:百分比、表格、柱状图、线条图。
[0012] 在本发明的一些实施方式中,所述生成模块,可用于进行下述操作:分析所述问题 的一个以上第一主干结构和所述网页数据的答案片段之一的一个以上第二主干结构,将所 述第一主干结构和所述第二主干结构构建为第一类问题-答案模板对〈问题,答案〉,获取 与所述一个以上第一主干结构相同的第一组问题所对应的一个以上答案片段,筛选所述第 一组问题对应的答案片段的一个以上n-gram和n-skipgram作为答案组成成分,将筛选出 的所述第一组问题的主干结构和所述第一组问题对应的答案片段的主干结构构建为第二 类问题-答案模板对〈问题,答案〉,将所述第一类问题-答案模板对〈问题,答案〉和所述 第二类问题-答案模板对〈问题,答案〉合并得到所述问题-答案模板对〈问题,答案〉。
[0013] 在本发明的一些实施方式中,所述抽取模块中所述问题-答案模板对〈问题,答案 >中每一个答案与所述第一答案片段的共同词条的加权为下述的第一分量和第二分量的算 术乘积,其中,第一分量为所述问题-答案模板对〈问题,答案〉的所有答案中所述共同词 条的出现次数与所述问题-答案模板对〈问题,答案〉的所有答案中所有词的出现次数的 比值,第二分量为所述问题-答案模板对〈问题,答案〉的所有答案的个数与所述问题-答 案模板对〈问题,答案〉中包含所述共同词条的答案个数的比值取对数。
[0014] 本发明实施方式提供的上述方法和装置,通过是/非问题和答案片段的匹配度抽 取答案片段,显著改善了检索结果数据针对该问题的针对性,提高了检索结果数据的准确 性和可靠性;通过抽取出的答案片段进行观点分析,提高对是/非问题检索结果的数据处 理效率,有利于高效地获取对于该问题的答案;通过简单、直观的显示形式展示针对是/非 问题的观点比例和对应的答案片段,方便了用户快捷、对比查看检索结果数据。
【附图说明】
[0015] 图1图示了根据本发明一种实施方式的用于检索的数据处理方法的流程示意图;
[0016] 图2图示了根据本发明一种实施方式的用于检索的数据处理装置的结构示意图。
【具体实施方式】
[0017] 为使本发明实施方式的目的、技术方案和优点更加清楚,下面将结合附图对本发 明作进一步地详细描述。
[0018] 参见图1,图示了根据本发明一种实施方式的用于检索的数据处理方法的流程示 意图,该用于检索的数据处理方法可包括:
[0019] S101,获取问题和包含所述问题的答案的页面数据,其中,该问题是答案为肯定或 否定的问题,
[0020] S102,根据该问题和该页面数据生成与该问题配对的问题-答案
当前第1页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1