一种基于问答平台的数据处理方法和装置的制造方法_4

文档序号:9287744阅读:来源:国知局
的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
[0104]本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0105]这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0106]这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0107]尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
[0108]最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
[0109]以上对本发明所提供的一种基于问答平台的数据处理方法和一种基于问答平台的数据处理装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
【主权项】
1.一种基于问答平台的数据处理方法,其特征在于,包括: 对从问答平台获取的各答案数据分别进行文本分析,确定各答案数据的相似度;根据所述问答平台记录的各项问题与答案数据之间的对应关系,按照所述相似度分别对各答案数据对应的问题进行聚类,得到各问题簇; 分别对每个问题簇中的各项问题进行文本分析,提取所述问题簇中由各问题的关键词所构成的相关词对,其中,同一问题簇内的各关键词具有相关性。2.根据权利要求1所述的方法,其特征在于,所述对从问答平台获取的各答案数据分别进行文本分析,确定各答案数据的相似度,包括: 对从问答平台获取的属于同一预设类别的各答案数据进行文本特征提取,获取答案数据的特征词汇; 根据所述特征词汇计算各答案数据之间的相似度。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述问答平台记录的各项问题与答案数据之间的对应关系,按照所述相似度分别对各答案数据对应的问题进行聚类,包括: 根据所述问答平台记录的各项问题与答案数据之间的对应关系,分别查找每个答案数据对应的问题; 按照所述各答案数据之间的相似度,对预设类别内的各项问题进行聚类,获取所述预设类别下聚类得到的各问题簇。4.根据权利要求1所述的方法,其特征在于,所述分别对每个问题簇中的各项问题进行文本分析,提取所述问题簇中由各问题的关键词所构成相关词对,包括: 按照预设的实体词列表对同一问题簇的各项问题进行文本匹配,提取与所述实体词列表匹配的各关键词构成相关词对。5.根据权利要求1或4所述的方法,其特征在于,所述提取所述问题簇中由各问题的关键词所构成的相关词对,还包括: 统计问题簇中每个关键词在问题和/或答案数据中出现的频次; 采用出现的频次达到第一阈值的关键词构成相关词集合; 记录各相关词集合,以及所述相关实体集合内每个关键词出现的频次。6.根据权利要求1所述的方法,其特征在于,还包括: 从所述相关词对中查找与当前浏览页面中提取的关键词具有相关性的相关词,并在所述当前浏览页面中推荐所述相关词。7.根据权利要求6所述的方法,其特征在于,还包括: 提取当前浏览页面中的关键词,以及所述关键词在页面中的位置权重; 在相关词对中查找所述当前浏览页面中每个关键词所在的相关词集合; 将所述相关词集合内出现的频次达到第二阈值的关键词作为所述关键词的相关词;按照所述关键词在页面中的位置权重和所述相关词出现的频次对所述相关词进行排序,按照排序结果在所述当前浏览页面中推荐所述相关词。8.根据权利要求1或2所述的方法,其特征在于,所述对从问答平台获取的各答案数据分别进行文本分析之前,还包括: 从问答平台中获取问题以及问题对应的答案数据; 对每个问题和对应的答案数据的文本进行特征提取; 依据提取得到的特征对所述问题和答案数据进行分类,将所述问题和答案数据分别划分到既定的预设类别中。9.一种基于问答平台的数据处理装置,其特征在于,包括: 分析模块,用于对从问答平台获取的各答案数据分别进行文本分析,确定各答案数据的相似度; 聚类模块,用于根据所述问答平台记录的各项问题与答案数据之间的对应关系,按照所述相似度分别对各答案数据对应的问题进行聚类,得到各问题簇; 生成模块,用于分别对每个问题簇中的各项问题进行文本分析,提取所述问题簇中由各问题的关键词所构成的相关词对,其中同一问题簇内的各关键词具有相关性。10.根据权利要求9所述的装置,其特征在于,所述分析模块,包括: 特征提取子模块,用于对从问答平台获取的属于同一预设类别的各答案数据进行文本特征提取,获取答案数据的特征词汇; 相似度计算子模块,用于根据所述特征词汇计算各答案数据之间的相似度。11.根据权利要求9或10所述的装置,其特征在于,所述聚类模块,包括: 查找子模块,用于根据所述问答平台记录的各项问题与答案数据之间的对应关系,分别查找每个答案数据对应的问题; 聚类子模块,用于按照所述各答案数据之间的相似度,对预设类别内的各项问题进行聚类,获取所述预设类别下聚类得到的各问题簇。12.根据权利要求9所述的装置,其特征在于: 所述生成模块,用于按照预设的实体词列表对同一问题簇的各项问题的文本进行匹配,提取与所述实体词列表匹配的各关键词构成相关词对。13.根据权利要求9或12所述的装置,其特征在于: 所述生成模块,还用于统计问题簇中每个关键词在问题和/或答案数据中出现的频次;采用出现的频次达到第一阈值的关键词构成相关词集合;记录各相关词集合,以及所述相关词集合内每个关键词出现的频次。14.根据权利要求9所述的装置,其特征在于,还包括: 推荐模块,用于从所述相关词对中查找与当前浏览页面中提取的关键词具有相关性的相关词,并在所述当前浏览页面中推荐所述相关词。15.根据权利要求14所述的装置,其特征在于,还包括: 提取模块,用于提取当前浏览页面中的实体词,以及所述实体词在页面中的位置权重; 所述推荐模块,用于在相关词对中查找所述当前浏览页面中每个关键词所在的相关词集合;将所述相关词集合内出现的频次达到第二阈值的关键词作为所述关键词的相关词;按照所述关键词在页面中的位置权重和所述相关词出现的频次对所述相关词进行排序,按照排序结果在所述当前浏览页面中推荐所述相关词。16.根据权利要求9或10所述的装置,其特征在于,还包括: 预处理模块,用于从问答平台中获取问题以及问题对应的答案数据;对每个问题和对应的答案数据的文本进行特征提取;依据提取得到的特征对所述问题和答案数据进行分类,将所述问题和答案数据分别划分到既定的预设类别中。
【专利摘要】本发明提供一种基于问答平台的数据处理方法和装置,以解决数据挖掘的效率和精度较低的问题。所述的方法包括:对从问答平台获取的各答案数据分别进行文本分析,确定各答案数据的相似度;根据所述问答平台记录的各项问题与答案数据之间的对应关系,按照所述相似度分别对各答案数据对应的问题进行聚类,得到各问题簇;分别对每个问题簇中的各项问题进行文本分析,提取所述问题簇中由各问题的关键词所构成的相关词对,其中,同一问题簇内的各关键词具有相关性。通过答案数据的相似度分析可以消除答案数据中的噪声,同时减少了对答案数据中不相关数据的处理,有效地量化了问题的相似性,既提高了数据的处理效率,又提高了数据处理的精度。
【IPC分类】G06F17/30
【公开号】CN105005564
【申请号】CN201410156263
【发明人】刘华生, 张阔, 顾思宇
【申请人】北京搜狗科技发展有限公司
【公开日】2015年10月28日
【申请日】2014年4月17日
当前第4页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1