本发明涉及计算机信息检索及自然语言处理领域,尤其涉及一种用于问答类网站的回复的摘要提取方法及装置。
背景技术:
随着互联网的普及,人们越来越多地在互联网上寻求帮助。热心的答复用户会针对问题用户的问题进行回复。
在实现现有技术过程中,发明人发现现有技术中至少存在如下问题:
由于答复用户回复的随机性,答复用户给出的回复可能存在信息不全,甚至是答非所问。问题用户本人,以及后续发现该问题的其他用户在浏览答复用户给出的解决方案时,需要花费大量时间,用户体验差。
技术实现要素:
本发明提供了一种问答类网站的回复的摘要提取方法,具体技术方案如下:
查找回复内容对应的问题描述;
对所述问题描述进行分词处理,生成关键词;
根据标签确定关键词的权重值;
查找回复内容中包含关键词的语句;
确定包含关键词的语句中各语句的权重值;
根据语句的权重值,确定回复内容的摘要;
其中,所述问题描述在问答类网站内归属于以标签进行标识的类别。
本发明还提供了问答类网站的回复的摘要提取装置,包括:
查找模块,用于查找回复内容对应的问题描述;
分词模块,用于对所述问题描述进行分词处理,生成关键词;
计算模块,用于根据标签确定关键词的权重值;
筛选模块,用于查找回复内容中包含关键词的语句;
统计模块,用于确定包含关键词的语句中各语句的权重值;
生成模块,用于根据语句的权重值,确定回复内容的摘要;
其中,所述问题描述在问答类网站内归属于以标签进行标识的类别。
由以上技术方案可以看出,本申请提供的实施方案至少具有如下技术效果:
根据问题描述在问答类网站内的归属标签确定关键词的权重值,并进一步的确定包含关键词的语句中各语句的权重值,进而根据语句的权重值,确定回复内容的摘要,从而提高了提取到的回复的摘要与问题的相关性,以便问题用户快速浏览回复,用户体验好。
【附图说明】
图1本申请揭示的一种问答类网站的回复的摘要提取方法的流程图。
图2本申请揭示的一种问答类网站的回复的摘要提取装置的结构示意图。
【具体实施方式】
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本申请进行详细描述。
如图1所示,本申请揭示一种问答类网站的回复的摘要提取方法,包括:
S100:查找回复内容对应的问题描述。
遇到问题时进行提问时,问题用户通常在问答类网站的某个页面中对遇到的问题进行问题描述。例如:“中国动漫的发展如何?”
答复用户在问题用户的问题下面,给出自己的回复内容。
这种问题描述与回复内容通常是一对多的关系。
进一步的,在本申请提供的一种实施方式中,查找回复内容对应的问题描述,具体包括:
根据回复内容的识别码,查找问题描述的识别码。
问答类网站中的问题描述、回复内容在服务器后台体现为可编译的代码化网页。每个问题描述有独立的识别码,同样的,每个回复内容也有独立的识别码。因此,可以通过回复内容的识别码,查找到问题描述的识别码。回复内容的识别码和问题描述的识别码之间的对应关系,可以通过相同的页码来表征,当然,也可以通过其他的方式来表征。例如,问题描述的识别码为ID:XXXX。回复内容的识别码为ID:XXXX_1、ID:XXXX_2……ID:XXXX_N。可以通过回复内容的识别码包含问题描述的识别码的方式,建立问题描述与回复内容之间一对多的映射关系。服务器通过问题描述与回复内容之间一对多的映射关系,查找回复内容对应的问题描述。
S200:对所述问题描述进行分词处理,生成关键词。
分词处理,主要体现为将段落、语句划分为若干个词语的过程。
进一步的,在本申请提供的另一种实施方式中,对所述问题描述进行分词处理,生成关键词,具体包括:
根据词表将话题进行分词划分,生成关键词。
这里的词表,体现为若干字的固定搭配形成词语的集合。通过查阅词表,可以将问题描述进行分词划分,生成关键词。词表中字与字之间的固定搭配关系可以通过概率进行调整。当某些字之间搭配的概率高时,可以将固定搭配的字组成关键词。仍以“中国动漫的发展如何?”为例,根据字与字之间搭配的统计,“中国”的“中”“国”两个字搭配的概率高于“国动”的“国”“动”两个字搭配的概率。因此,根据字与字之间搭配的统计,词表中会形成“中国”“动漫”等关键词。根据若干字的固定搭配形成的词表,问题描述“中国动漫的发展如何?”被划分为“中国”“动漫”“发展”等关键词。
S300:根据标签确定关键词的权重值。
进一步的,在本申请提供的另一种实施例中,根据标签确定关键词的权重值,具体包括:
根据标签在标签词表中的层级,确定关键词的权重值;
其中,标签在标签词表中以层状结构组织。
仍以“中国动漫的发展如何?”为例,假设,该问题在问答类网站中被贴有标签“动漫”、标签“中国动漫”、标签“影视”。标签“影视”为最高层级别的标签,标签“动漫”为标签“影视”下属的一层级别标签。标签“中国动漫”为标签“动漫”下属的二层级别标签。标签在标签词表中以层状结构组织。可以根据关键词的出现频率,确定关键词“动漫”权重值为2;确定关键词“中国”权重值为1;确定关键词“发展”权重值为0。
S400:查找回复内容中包含关键词的语句。
可以在回复内容中查找包含关键词的语句。
进一步的,在本申请提供的另一种实施例中,查找回复内容中包含关键词的语句,还包括:
将满足第一预设条件的语句,直接设定为包含关键词的语句。
进一步的,在本申请提供的另一种实施例中,所述满足第一预设条件的语句为以特殊字体显示的语句。
答复用户在回复内容中为了提示问题用户注意,通常,会以高亮显示重点语句,或者以相对于普通文本较大号字体显示重点语句,或者以斜体、加粗、下划线显示重点语句。这些以特殊字体显示的语句可以作为包含关键词的语句,以提高查找效率。
进一步的,在本申请提供的另一种实施例中,查找回复内容中包含关键词的语句,还包括:
将满足第二预设条件的语句,直接排除查找。
进一步的,在本申请提供的另一种实施例中,所述满足第二预设条件的语句为以括号、引号标示的语句。
答复用户在回复内容中为了提示问题用户注意,通常会以括号、引号表示语句的出处、引用内容。将这些语句排除,可以提高查找效率。
进一步的,在本申请提供的另一种实施例中,查找回复内容中包含关键词的语句,还包括:
查找末尾以句号、叹号标示的语句。
答复用户在回复内容中,以句号、叹号标示的语句通常作为可以作为摘要,而以分号、省略号、冒号、问号等标示的语句通常不可以作为摘要,从而筛选末尾以句号、叹号标示的语句可以提高查找效率。
S500:确定包含关键词的语句中各语句的权重值。
进一步的,在本申请提供的另一种实施例中,确定包含关键词的语句中各语句的权重值,具体包括:
对语句中的关键词的权重值求和,作为语句的权重值。
将各语句中的关键词的权重值求和处理,可以作为语句的权重值。当然,本领域技术人员也可以采取其他的方式计算语句的权重值。
S600:根据语句的权重值,确定回复内容的摘要。
进一步的,在本申请提供的另一种实施例中,确定回复内容的摘要,具体包括:
确定权重值最高的语句为回复内容的摘要。
可以将权重值最高的语句作为回复内容的摘要。
在本申请提供的实施例中,根据问题描述在问答类网站内的归属标签确定关键词的权重值,并进一步的确定包含关键词的语句中各语句的权重值,进而根据语句的权重值,确定回复内容的摘要,从而提高了提取到的回复的摘要与问题的相关性,以便问题用户快速浏览回复,用户体验好。
以上分别介绍了问答类网站的回复的摘要提取方法,对应的,请参照图2,下面介绍问答类网站的回复的摘要提取装置,基于在方法中已经作了详细阐释,下面简单介绍问答类网站的回复的摘要提取装置的构成。
问答类网站的回复的摘要提取装置,包括:
查找模块10,用于查找回复内容对应的问题描述;
分词模块20,用于对所述问题描述进行分词处理,生成关键词;
计算模块30,用于根据标签确定关键词的权重值;
筛选模块40,用于查找回复内容中包含关键词的语句;
统计模块50,用于确定包含关键词的语句中各语句的权重值;
生成模块60,用于根据语句的权重值,确定回复内容的摘要;
其中,所述问题描述在问答类网站内归属于以标签进行标识的类别。
进一步的,在本申请提供的另一种实施例中,所述查找模块10具体用于:
根据回复内容的识别码,查找问题描述的识别码。
进一步的,在本申请提供的另一种实施例中,所述分词模块20具体用于:
根据词表将所述问题描述进行分词划分,生成关键词。
进一步的,在本申请提供的另一种实施例中,所述计算模块30具体用于:
根据标签在标签词表中的层级,确定关键词的权重值;
其中,标签在标签词表中以层状结构组织。
进一步的,在本申请提供的另一种实施例中,所述筛选模块40还用于:
将满足第一预设条件的语句,直接设定为包含关键词的语句。
进一步的,在本申请提供的另一种实施例中,所述满足第一预设条件的语句为以特殊字体显示的语句。
进一步的,在本申请提供的另一种实施例中,所述筛选模块40还用于:
将满足第二预设条件的语句,直接排除查找。
进一步的,在本申请提供的另一种实施例中,所述满足第二预设条件的语句为以括号、引号标示的语句。
进一步的,在本申请提供的另一种实施例中,所述统计模块50具体用于:
对语句中的关键词的权重值求和,作为语句的权重值。
进一步的,在本申请提供的另一种实施例中,所述生成模块60具体用于:
确定权重值最高的语句为回复内容的摘要。
在本申请提供的实施例中,根据问题描述在问答类网站内的归属标签确定关键词的权重值,并进一步的确定包含关键词的语句中各语句的权重值,进而根据语句的权重值,确定回复内容的摘要,从而提高了提取到的回复的摘要与问题的相关性,以便问题用户快速浏览回复,用户体验好。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。