一种基于问答平台的数据处理方法和装置的制造方法_3

文档序号:9287744阅读:来源:国知局
”、“寿命”、“安全”等描述的相似答案。对这些相似答案对应的提问进行分词、名词提取及词频统计,可以得到“爱玛”、“雅迪”、“绿源”等电动车品牌的相关词集合。将得到的相关词集合及相应的频次信息存入相关词对中。
[0069]通过上述处理,可以对问答平台中提取的关联的问题和答案数据进行处理,通过对答案数据的文本特征提取,滤除答案数据中的噪声,并采用特征词汇计算各答案数据之间的相似度,减少答案数据的不相关性。通过答案的相似度量化问题的相似度,在通过答案数据间的相似度对问题进行聚类,得到具有相关性的问题簇。
[0070]通过上述数据挖掘处理步骤,可以得到基于问答平台而形成的相关词对,可以将该相关词对应用到很多不同的领域中。一个可选实施例中,从所述相关词对中查找与页面当前浏览中提取的各关键词具有相关性的相关词,并在所述页面中进行推荐。即对当前浏览页面进行分析,获取其中的关键词,然后在相关词对中查找该与该关键词具有相关性的相关词,并在所述页面中推荐所述相关词。
[0071]下面采用实施例论述基于该相关词进行推荐的步骤流程,如图3所示。
[0072]步骤301,提取当前浏览页面中的关键词,以及所述关键词在页面中的位置权重。
[0073]从浏览器中获得用户正在浏览页面的原始内容,或者从快照获取用户可浏览的新闻或信息等最终页的原始内容。对页面的原始内容,包括标题和正文等使用贝叶斯分类器进行文本分类,获知该页面在所有预设类别中所属的类别。然后对该原始内容进行分句、分词等操作获取关键词,又如使用该类别既有实体词列表对标题和正文进行匹配,获得页面中的关键词,并记录关键词在文中的位置。
[0074]步骤302,在相关词对中查找所述当前浏览页面中每个关键词所在的相关词集合。
[0075]步骤303,将所述相关词集合内出现的频次达到第二阈值的关键词作为所述关键词的相关词。
[0076]本实施例中从问题中提取的关键词限定与输入关键词具有相同的分类,对页面中提取的每个关键词,在相关词对中查找包含该关键词的各个相关词集合。将所有相关词集合中的各关键词进行合并,分别获取相关词对中存储的每个关键词的频次,选取频次较高的足够数量的相关词作为可能的推荐候选。可以采用关键词的频次与第二阈值进行比较,将频次达到第二预置的关键词作为提取的关键词的相关词。
[0077]步骤304,按照所述关键词在页面中的位置权重和所述相关词出现的频次对所述相关词进行排序,按照排序结果在所述当前浏览页面中推荐所述相关词。
[0078]选取频次较高的足够数量的相关词作为可能的推荐候选时,可以仅按照频次由高到低对关键词进行排序。也可以根据关键词的频次,以及提取的关键词在最终页中出现的位置的重要程度对关键词进行排序,进一步,对于存在用户行为日志的情况,根据该用户对推荐相关词的点击行为等数据,对关键词的排序进行调整和优化。
[0079]依据排序结果选取其中的前N个相关词作为推荐候选,生成该关键词的推荐内容,对推荐内容进行展示。如将推荐内容拼接在用户浏览的最终页面的下方进行推荐展现,或者在浏览器探索引擎的下边缘弹出横幅进行推荐,进一步用户点击推荐相关词后还可以触发搜索查询等操作。
[0080]基于上述电动车类别的数据处理过程,当用户正在访问“五迪电动车”的介绍页面或者商品页面,使用实体词列表可以从网页的标题中获知“五迪”的实体词。用“五迪”去相关实体库中查找,即可以获得相关实体推荐候选,包括“雅迪”、“绿源”等电动车品牌。进行排序后,可以在浏览器下方弹出横幅,出现对应品牌电动车的查询词等信息。
[0081]同时由于相关词还包括该实体词的描述词,因此在构成推荐候选时,可以是相关词的组合,如“雅迪电动车耐用吗? ”,“绿源电动车都有什么颜色? ”等。
[0082]综上,确定关键词后之后,还可以基于该相关词对获取当前页面中展示的关键词的相关词,从而基于该相关词进行推荐、查询等,便于用户减少相关词汇的输入、查询等操作,简化数据查询处理流程,提高查询效率。
[0083]需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
[0084]实施例三
[0085]在上述实施例的基础上,本实施例还提供了一种基于问答平台的数据处理装置。
[0086]参照图4,示出了本发明一种基于问答平台的数据处理装置实施例的结构框图,具体可以包括如下模块:
[0087]分析模块401,用于对从问答平台获取的各答案数据分别进行文本分析,确定各答案数据的相似度;
[0088]聚类模块402,用于根据所述问答平台记录的各项问题与答案数据之间的对应关系,按照所述相似度对分别各答案数据对应的问题进行聚类,得到各问题簇;
[0089]生成模块403,用于对每个问题簇中的各项问题进行文本分析,提取所述问题簇中由各问题的关键词所构成的相关词对,其中同一问题簇内的各关键词具有相关性。
[0090]综上所述,通过对问答平台的答案数据进行文本分析确定各答案数据的相似度,然后根据所述问答平台记录的各项问题与答案数据之间的对应关系,按照相似度分别对各答案数据对应的问题进行聚类,得到各问题簇,再分别从每个问题簇中提取具有相关性的相关词构成相关词对。对由于问题不精确而导致答案数据中噪声较大的情况,通过答案数据的相似度分析可以消除答案数据中的噪声,同时减少了对答案数据中不相关数据的处理,有效地量化了问题的相似性,既提高了数据的处理效率,又提高了数据处理的精度。
[0091]参照图5,示出了本发明一种基于问答平台的数据处理装置可选实施例的结构框图。
[0092]本发明一个可选实施例中,所述分析模块401,包括:特征提取子模块4011,用于对从问答平台获取的属于同一预设类别的各答案数据进行文本特征提取,获取答案数据的特征词汇;相似度计算子模块4012,用于根据所述特征词汇计算各答案数据之间的相似度。
[0093]本发明一个可选实施例中,所述聚类模块402,包括:查找子模块4021,用于根据所述问答平台记录的各项问题与答案数据之间的对应关系,分别查找所述每个答案数据对应的问题;聚类子模块4022,用于按照所述各答案数据之间的相似度,对预设类别内的各项问题进行聚类,获取所述预设类别下聚类得到的各问题簇。
[0094]本发明一个可选实施例中,所述生成模块403,用于按照预设的实体词列表对同一问题簇的各项问题的文本进行匹配,提取与所述实体词列表匹配的各关键词构成相关词对。
[0095]本发明一个可选实施例中,所述生成模块403,还用于统计问题簇中每个关键词在问题和/或答案数据中出现的频次;采用出现的频次达到第一阈值的关键词构成相关词集合;在相关词对中记录各相关词集合,以及所述相关词集合内每个关键词出现的频次。
[0096]本发明一个可选实施例中,所述的装置还包括:推荐模块404,用于从所述相关词对中查找与当前浏览页面中提取的关键词具有相关性的相关词,并在所述当前浏览页面中推荐所述相关词。
[0097]本发明一个可选实施例中,所述的装置还包括:提取模块405,用于提取当前浏览页面中的实体词,以及所述实体词在页面中的位置权重;所述推荐模块404,用于在相关词对中查找所述当前浏览页面中每个关键词所在的相关词集合;将所述相关词集合内出现的频次达到第二阈值的关键词作为所述关键词的相关词;按照所述关键词在页面中的位置和所述相关词出现的频次对所述相关词进行排序,按照排序结果在所述当前浏览页面中推荐所述相关词。
[0098]本发明一个可选实施例中,所述的装置还包括:预处理模块406,用于从问答平台中获取问题以及问题对应的答案数据;对每个问题和对应的答案数据的文本进行特征提取;依据提取得到的特征对所述问题和答案数据进行分类,将所述问题和答案数据分别划分到既定的预设类别中。
[0099]综上所述,通过上述数据挖掘处理步骤,可以得到基于问答平台而形成的相关词对,可以将该相关词对应用到很多不同的领域中。一个可选实施例中,从所述相关词对中查找与页面当前浏览中提取的各关键词具有相关性的相关词,并在所述页面中推荐所述相关词。即对当前浏览页面进行分析,获取其中的关键词,然后在相关词对中查找该与关键词具有相关性的相关词,并在所述页面中推荐所述相关词。
[0100]其次,确定关键词后之后,还可以基于该相关词对获取当前页面中展示的该关键词的相关词,从而基于该相关词进行推荐、查询等,便于用户减少相关词汇的输入、查询等操作,简化数据查询处理流程,提高查询效率。
[0101]对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0102]本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
[0103]本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1