观点处理方法和装置以及搜索方法和装置制造方法

文档序号:6552420阅读:159来源:国知局
观点处理方法和装置以及搜索方法和装置制造方法
【专利摘要】本发明实施例提供一种观点处理方法和装置以及搜索方法和装置。观点处理方法包括:基于预设策略从问答对资源中获取问题对应的观点;将问题所对应的观点进行聚合,形成问题观点库。本发明实施例提供的观点处理方法和装置,通过从问答对资源获取问题对应的观点,能从海量的问答对资源中得到问题对应的简短观点,并通过观点聚合,能得到问题对应的观点集合,从而能够建立问题观点库。本发明实施例提供的搜索方法和装置,通过在获取用户通过搜索框输入的检索式之后,在利用本发明任意实施例提供的观点处理方法形成的问题观点库中,匹配检索式,能够得到并直接呈现与检索式对应的观点,从而使用户能够直接获知与检索问题相关的观点,提高了搜索效率。
【专利说明】观点处理方法和装置以及搜索方法和装置

【技术领域】
[0001] 本发明实施例涉及信息【技术领域】,尤其涉及一种观点处理方法和装置以及搜索方 法和装置。

【背景技术】
[0002] 随着计算机技术的不断发展,用户通过搜索引擎的搜索框输入问题,希望获得与 问题相关的一系列观点。常见的问题类别包括:原因类、怎么办类以及是什么类等。例如,用 户输入的原因类问题为"新生儿打嗝是怎么回事",希望获得相应的观点,如:"吃奶过急"、 "受凉"、"消化不良"以及"乳食停滞不化"等。又如,用户输入的怎么办类问题为"小孩热 感冒怎么办",希望获得相应的观点,如,"尽量避免去人多的公共场所"、"不能盖得太厚太 多"、"注意多喝水"以及"建议及早去医院"等。又如,用户输入的是什么类问题为"怀孕初 期的症状",希望获得相应的观点,如,"呕吐"、"月经没来"以及"饥饿感"等。
[0003] 现有的搜索引擎采用的技术,一般是当用户通过搜索引擎的搜索框输入问题查找 观点时,搜索引擎会在数据库中搜寻与问题中查询词关联的答案网页,并将答案网页对应 的网页链接按相关度从高到低的顺序返回给用户。
[0004] 上述搜索引擎采用的技术存在以下缺陷:用户需要从海量的答案网页中点击相关 链接,查看页面内容,然后自行寻找和归纳观点,搜索效率低且不一定能找到所需的观点。


【发明内容】

[0005] 本发明实施例提供一种观点处理方法和装置以及搜索方法和装置,以提高搜索效 率。
[0006] 第一方面,本发明实施例提供了一种观点处理方法,包括:
[0007] 基于预设策略,从问答对资源中获取问题对应的观点;
[0008] 将问题所对应的观点进行聚合,形成问题观点库。
[0009] 第二方面,本发明实施例还提供了一种观点处理装置,包括:
[0010] 观点获取模块,用于基于预设策略,从问答对资源中获取问题对应的观点;
[0011] 问题观点库形成模块,用于将问题所对应的观点进行聚合,形成问题观点库。
[0012] 第三方面,本发明实施例还提供了一种搜索方法,包括:
[0013] 获取用户通过搜索框输入的检索式;
[0014] 在问题观点库中查找与所述检索式对应的观点,其中,所述问题观点库采用本发 明任意实施例提供的观点处理方法形成;
[0015] 显示所述观点。
[0016] 第四方面,本发明实施例还提供了 一种搜索装置,包括:
[0017] 检索式获取模块,用于获取用户通过搜索框输入的检索式;
[0018] 观点查找模块,用于在问题观点库中查找与所述检索式对应的观点,其中,所述问 题观点库采用本发明任意实施例提供的观点处理装置形成;
[0019] 观点显示模块,用于显示所述观点。
[0020] 本发明实施例提供的观点处理方法和装置,通过从问答对资源中获取问题对应的 观点,能够从海量的问答对资源中得到问题对应的简短观点,并通过将问题所对应的观点 进行聚合,能够得到问题对应的简短观点的集合,从而能够建立问题观点库。
[0021] 本发明实施例提供的搜索方法和装置,通过在获取用户通过搜索框输入的检索式 之后,在利用本发明任意实施例提供的观点处理方法预先形成的问题观点库中,匹配用户 输入的检索式,能够得到并直接呈现与用户输入的检索式对应的观点,从而使用户能够直 接获知与检索问题相关的观点,提1? 了搜索效率。

【专利附图】

【附图说明】
[0022] 为了更清楚地说明本发明,下面将对本发明中所需要使用的附图做一简单地介 绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来 讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0023] 图1为本发明实施例一提供的一种观点处理方法的流程图;
[0024] 图2a为本发明实施例二提供的一种观点处理方法的流程图;
[0025] 图2b为本发明实施例二提供的一种观点处理方法中一种基于预设观点片段定位 策略,确定问答对资源中问题对应的答案中的观点片段的方法的流程图;
[0026] 图2c为本发明实施例二提供的一种观点处理方法中另一种基于预设观点片段定 位策略,确定问答对资源中问题对应的答案中的观点片段的方法的流程图;
[0027] 图3为本发明实施例三提供的一种观点处理方法的流程图;
[0028] 图4为本发明实施例四提供的一种观点处理方法的流程图;
[0029] 图5a为本发明实施例五提供的一种观点处理方法的流程图;
[0030] 图5b为本发明实施例五提供的一种观点处理方法中基于预设观点聚合策略,根 据观点相似度进行观点聚合,得到观点簇的方法的流程图;
[0031] 图6为本发明实施例六提供的一种观点处理方法的流程图;
[0032] 图7为本发明实施例七提供的一种观点处理装置的结构示意图;
[0033] 图8a为本发明实施例八提供的一种搜索方法的流程图;
[0034] 图8b为采用本发明实施例八提供的搜索方法而呈现的观点图;
[0035] 图8c为采用本发明实施例八提供的搜索方法而呈现的另一观点图;
[0036] 图8d为采用本发明实施例八提供的搜索方法而呈现的又一观点图;
[0037] 图9为本发明实施例九提供的一种搜索装置的结构示意图。

【具体实施方式】
[0038] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例 中的技术方案作进一步详细描述,显然,所描述的实施例是本发明一部分实施例,而不是全 部的实施例。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的 限定,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得 的所有其他实施例,都属于本发明保护的范围。另外还需要说明的是,为了便于描述,附图 中仅示出了与本发明相关的部分而非全部内容。
[0039] 实施例一
[0040] 请参阅图1,为本发明实施例一提供的一种观点处理方法的流程图。本发明实施例 的方法可以由硬件和/或软件实现的观点处理装置来执行,该实现装置典型的是配置于能 够进行数据处理的服务器中,也可以配置在搜索引擎服务器中。
[0041] 如图1所示,所述方法包括:
[0042] 110、基于预设策略,从问答对资源中获取问题对应的观点;
[0043] 本操作具体是从问答对资源中提取问题对应的观点。问答对资源是以成对的问 题-答案形式存在的数据资源,每个问题的答案中包括了解答该问题的观点,本操作以问 答对资源作为获取观点的原始资源,提取各个问答对中问题的答案中所包含的观点。常见 的问题类别包括:原因类、怎么办类以及是什么类等。
[0044] 作为本操作的一种优选的实施方式,包括:获取问答日志;根据所述问答日志得 到问答对资源;从所述问答对资源中获取问题对应的观点。
[0045] 其中,问答日志可以包括点击日志、大搜索展现日志、以及特定垂搜站点展现日志 等。点击日志是指设定的历史时间内(例如,一年)用户通过搜索引擎的搜索框输入查询 式,即问题,搜索引擎展现与查询式关联的答案网页,用户从展现的大量答案网页中选择部 分答案网页进行点击,被点击的答案网页以及对应的查询式即构成所述点击日志。大搜索 展现日志是指设定的历史时间内用户通过搜索引擎的搜索框输入查询式,即问题,搜索引 擎展现与查询式关联的答案网页,所述答案网页以及对应的查询式即构成大搜索展现日 志。特定垂搜站点展现日志是指设定的历史时间内,现有的问答门户网站(例如,百度知 道、新浪爱问、天涯问答、以及http://www. haodf. com/等)或专业学科论坛(例如CSDN论 坛等)展现的用户问题以及对应的网友回答。
[0046] 问答日志可以为源代码形式,也可以为URL (Uniform Resource Locator,统一资源 定位符)地址形式等。
[0047] 问答日志中包含的用户查询式与对应的被点击网页所包含的内容、对应的搜索引 擎展现网页中的内容、或特定垂搜站点展现的回答内容,即为问答对资源。
[0048] 问答对资源可以包括问答日志的URL地址对应的具体问答内容。
[0049] 问答对资源中用户输入的查询式即为问题,答案内容中符合设定观点定位模板、 设定语法结构或其他设定规则的部分即为问题对应的观点。
[0050] 120、将问题所对应的观点进行聚合,形成问题观点库。
[0051] 本操作具体是通过聚合操作,得到问题对应的观点的集合,也即问题观点库。换言 之,一个问题可能对应多个观点,且相同的观点也可能以不同的表达方式存在于多个问答 对中,所以将每个问题对应的观点进行聚合,即得到问题观点库。
[0052] 问题观点库中包含原因类问题、怎么办类问题以及是什么类问题或其他问题类型 所对应的全部观点。
[0053] 示例性地,原因类问题"新生儿打嗝是怎么回事"相应的观点包括:"吃奶过急"、 "受凉"、"消化不良"以及"乳食停滞不化"等。又如,怎么办类问题"小孩热感冒怎么办"相 应的观点包括:"尽量避免去人多的公共场所"、"不能盖得太厚太多"、"注意多喝水"以及 "建议及早去医院"等。再如,是什么类问题"怀孕初期的症状"相应的观点包括:"呕吐"、 "月经没来"以及"饥饿感"等。
[0054] 本实施例的技术方案,通过从问答对资源中获取问题对应的观点,能够从海量的 问答对资源中得到问题对应的简短观点,并通过将问题所对应的观点进行聚合,能够得到 问题对应的简短观点的集合,从而能够建立问题观点库。
[0055] 实施例二
[0056] 请参阅图2a,为本发明实施例二提供的一种观点处理方法的流程图。本实施例在 上述实施例的基础上,提供了基于预设策略,从问答对资源中获取问题对应的观点的优选 方案。
[0057] 如图2a所示,所述观点处理方法优选包括:
[0058] 210、基于预设观点片段定位策略,确定问答对资源中问题对应的答案中的观点片 段;
[0059] 本操作具体是基于问答对资源中的问题以及对应的答案,从答案中得到符合设定 规则的观点片段。
[0060] 观点片段可以为一个词,也可以是多个词的组合,其中多个词的组合符合设定规 贝1J,例如设定的语法结构。
[0061] 220、基于预设观点验证策略,确定所述观点片段中的观点;
[0062] 本操作具体是将通过设定观点片段定位策略确定的观点片段进行进一步验证,将 通过验证的观点片段中符合语义等规则的部分作为观点,或将通过边界调整的观点片段作 为观点。
[0063] 230、基于预设观点清除策略,从确定的观点中清除垃圾观点;
[0064] 本操作具体是从操作220得到的观点中清除垃圾观点。具体地,可以将出现频次 低于设定门限值的观点作为垃圾观点,进行清除。
[0065] 240、将问题所对应的观点进行聚合,形成问题观点库。
[0066] 本实施例的技术方案,通过观点片段定位,能够准确定位到答案中包含观点的部 分,并通过观点验证得到通过验证的观点,能够调整观点的语义,提高观点的准确度,然后 通过进一步清除垃圾观点,能够从海量的问答对资源中得到问题对应的简短观点,提高了 观点的可信度,并通过将问题所对应的观点进行聚合,能够得到问题对应的简短观点的集 合,从而能够建立问题观点库。本领域技术人员可以理解,清除垃圾观点的操作为优选操 作,也可以省略。
[0067] 请参阅图2b,作为基于预设观点片段定位策略,确定问答对资源中问题对应的答 案中的观点片段的一种优选的实施方式,具体包括:
[0068] 211、对问答对资源中的答案进行预处理,确定答案所包含的分句;
[0069] 本操作具体是对问答对资源中的答案进行预处理,以去除不适合展现的字符,例 如不能识别的乱码等,然后基于预处理后的答案,确定所述答案包含的分句。
[0070] 本操作中,可以按照分隔符和标点确定分句。可以先根据换行符或分节符等分隔 符确定答案包含的段落、行或分节;然后根据分号、句号等标点确定段落、行或分节中的分 句,从而得到答案包含的分句。
[0071] 本操作中,也可以直接按照标点确定答案包含的分句。
[0072] 212、将所述分句与观点定位模板进行匹配,将与观点定位模板匹配的部分作为答 案中的观点片段。
[0073] 本操作具体是通过将分句与观点定位模板进行匹配,以确定答案中的观点片段。
[0074] 其中,答案可能包含多个分句,而观点可能只位于其中的部分分句中。观点定位模 板的作用在于对答案中包含有观点的分句进行筛选,并将分句中匹配成功的部分作为观点 片段。
[0075] 观点定位模板是通过统计分析得到的。原因类问题对应的观点定位模板可以包 括:"是[.*]原因导致"、"由于[.*]原因导致"、"由[.*]导致"以及"由[.*]引起"。怎 么办类问题对应的观点定位模板可以包括:" [W:0_50][建议、要、不要、宜][W: 1-50][标 点:0-2] [W:0_50] "等。是什么类问题对应的观点定位模板可以包括:"症状包括[.*] "以 及"有[.*]症状"等。
[0076] 其中,"表示包含了所有ASCII字符的字符集;表示任意次数的连续重复。 "[W:0-50][建议、要、不要、宜][W:l-50][标点:0-2] [W:0-50]"表示在"建议"、"要"、"不 要"或"宜"之前可以有由任意字符组成的0-50个中文文字,之后可以有由任意字符组成 的1-50个中文文字,在此之后,可以有0-2个标点,在标点之后,可以有由任意字符组成的 0-50个中文文字。
[0077] 例如,分句"建议你多休息"与观点定位模板" [W: 0-50][建议、要、不要、宜] [W:l-50][标点:0-2] [W:0_50]"匹配成功,则该分句可以作为答案中的观点片段。
[0078] 需要说明的是,匹配失败的分句中不包含观点片段;匹配成功时,同一个分句中可 能包含一个或多个观点片段。
[0079] 例如,分句"可能由天气变化引起,建议你多休息。"中既包含观点片段"由天气变 化引起",又包含观点片段"建议你多休息"。
[0080] 本优选的实施方式,通过将答案进行预处理,得到答案包含的分句,并以分句为单 位进行与观点定位模板匹配的操作,将匹配成分的部分作为观点片段。由于观点定位模板 是通过大量统计分析获得的,从而能够提高观点片段的可信度。
[0081] 请参阅图2c,作为本操作的另一种优选的实施方式,在上述实施方式的基础上,在 操作212之后,还可以包括:
[0082] 213、选取设定数量的观点片段,并根据选取的所述观点片段获取扩展观点定位模 板;
[0083] 本操作具体是通过从抽取出的观点片段中选取正确的种子,并抽取包含该种子的 句子,分析新的观点定位模板。确定正确种子的操作可以由人工选择来完成。
[0084] 例如,通过与原始观点定位模板"由[.*]导致"匹配操作,确定了多个观点片段, 从中选取设定数量为1的观点片段,如,"由消化不良导致",将其中的"消化不良"作为种子, 查找到另外一个句子"可能是消化不良引起的",则可以分析出扩展观点定位模板"可能是 [· *]引起,'。
[0085] 214、如果在设定观点定位模板中没有匹配到所述扩展观点定位模板,则将所述扩 展观点定位模板存储到设定观点定位模板中。
[0086] 本操作具体是在设定观点定位模板中匹配扩展观点定位模板,如果匹配失败,则 将所述扩展观点定位模板存储到设定观点定位模板中,以修正设定观点定位模板。
[0087] 本优选的实施方式,通过从抽取出的观点片段中获取扩展观点定位模板,并通过 在原始设定观点定位模板中匹配所述扩展观点定位模板,在匹配失败时,执行存储操作,能 够修正设定观点定位模板,从而在之后的观点片段操作中,能够扩大召回率。
[0088] 实施例三
[0089] 请参阅图3,为本发明实施例三提供的一种观点处理方法的流程图。本实施例在实 施例二的基础上,提供了基于预设观点验证策略,确定所述观点片段中的观点这一操作的 优选方案。
[0090] 310、基于预设观点片段定位策略,确定问答对资源中问题对应的答案中的观点片 段;
[0091] 本操作同样适用于实施例二中操作211和操作212提供的观点片段定位操作,或 操作操作211、操作212、操作213和操作214提供的观点片段定位操作,此处不再赘述。
[0092] 320、利用切词边界验证技术,从观点片段中选取切词边界符合标准切词边界的观 点片段作为观点;
[0093] 本操作具体是利用切词边界验证技术进行观点验证。
[0094] 本操作中切词边界验证技术中标准切词边界的获得可以有多种实施方式,例如包 括下述实施方式中的至少一种:
[0095] 通过保留最高级别专用词汇,得到标准切词边界,最高级别专用词汇例如国家名 称、地方名称等,保留原有的形式不做切分,例如"中国"、"河南省"、"百度"等;
[0096] 通过权切词得到标准切词边界,基于搜索量的权重划分确定权切词,例如根据最 近一个星期或者最近一天有效搜索量的总和,给每个词加权,权重高的优先切词;
[0097] 通过切词库查询的方式得到标准切词边界,即第三方设备建立或更新的切词库, 在所述切词库中存储有大量的切词,基于切词库进行切词,得到标准切词边界。
[0098] 例如,如果抽取出来的观点片段为"刷牙方式不当引",则该观点片段不符合标准 切词边界"引起";如果抽取出来的观点片段为"刷牙方式不当引起",则该观点片段符合标 准切词边界"引起"。
[0099] 321、对观点片段进行词性标注,将符合设定观点语法结构的观点片段作为观点;
[0100] 本操作具体是利用词性以及语法结构进行观点验证。
[0101] 对抽取的观点片段进行词性标注,之后对于以助词或介词结束的观点片段,可以 将助词、介词去掉,比如去掉观点片段"发烧等"中的"等",基于此可以得到设定观点语法结 构。
[0102] 对于原因类和是什么类的观点中存在一个实词(例如,名词、动词或形容词等), 怎么办类的观点中包含动宾结构,以及宾语补足语,基于此,可以得到设定观点语法结构。 例如,对于"鸡肉尽量不要吃",需补出宾语"鸡肉",也即得到"尽量不要吃鸡肉",作为设定 观点语法结构。
[0103] 322、将观点片段作为查询式通过搜索引擎进行搜索,根据搜索结果中的红标字段 修正所述观点片段的边界,将修正后的观点片段作为观点,其中所述红标字段满足下述条 件:所述红标字段的出现频次大于第一门限值,且所述红标字段的长度与观点片段的长度 的比例大于第二门限值。红标字段一般是指在搜索结果中的关键词字段。
[0104] 本操作具体是利用搜索结果中的红表字段进行观点验证。
[0105] 例如,当观点片段为"刷牙方式不当而",将该观点片段作为查询式通过百度搜索 引擎进行搜索,根据搜索结果中的红标字段以及所述条件可以修正所述观点片段的边界, 如,修正后得到"刷牙方式不当"。
[0106] 需要说明的是,在本实施例中,操作320、操作321和操作322是相互独立的,都是 基于预设观点验证策略,确定所述观点片段中的观点这一操作的优选实施方式。换言之,基 于预设观点验证策略,确定所述观点片段中的观点这一操作包括操作320、操作321和操作 322中的至少一项,当执行多项操作时,其执行顺序不限。
[0107] 330、基于预设观点清除策略,从确定的观点中清除垃圾观点;
[0108] 340、将问题所对应的观点进行聚合,形成问题观点库。
[0109] 本实施例的技术方案,在确定问答对资源中问题对应的答案中的观点片段之后, 通过切词边界验证技术、词性和语法结构验证技术、或基于搜索结果中的红标字段修正技 术,能够调整观点的边界或语义,提高观点的准确度,然后通过进一步清除垃圾观点,能够 从海量的问答对资源中得到问题对应的简短观点,提高了观点的可信度,并通过将问题所 对应的观点进行聚合,能够得到问题对应的简短观点的集合,从而能够建立问题观点库。
[0110] 实施例四
[0111] 请参阅图4,为本发明实施例四提供的一种观点处理方法的流程图。本实施例在实 施例二的基础上,提供了基于预设观点清除策略,从确定的观点中清除垃圾观点这一操作 的优选方案。
[0112] 如图4所示,该优选方法包括:
[0113] 410、基于预设观点片段定位策略,确定问答对资源中问题对应的答案中的观点片 段;
[0114] 本操作同样适用于实施例二中操作211和操作212提供的观点片段定位操作,或 操作操作211、操作212、操作213和操作214提供的观点片段定位操作,此处不再赘述。
[0115] 420、基于预设观点验证策略,确定所述观点片段中的观点;
[0116] 本操作同样适用于前述实施例中操作320、操作321和操作322中的任一操作提供 的观点验证操作,此处不再赘述。
[0117] 430、将所述观点与对应的问题中的关键字段组成查询式通过搜索引擎进行搜索, 在搜索结果中的红标字段中确定所述查询式的共现频次,并过滤掉共现频次低于第三门限 值的查询式中的观点;
[0118] 本操作具体是利用搜索结果的共现频次判断垃圾观点,并进行过滤,以清除观点。
[0119] 示例性地,将观点"着凉"与对应的问题"小孩肚子疼怎么回事"中的关键字段"小 孩肚子疼"组成查询式"着凉小孩肚子疼",然后通过百度搜索引擎进行搜索,在搜索结果中 的红标字段中确定所述查询式的共现频次,共现即"着凉"与"小孩肚子疼"同时出现,如果 共现频次低于第三门限值,例如10%,则过滤掉该观点"着凉";如果共现频次高于第三门限 值,则保留该观点"着凉",也即将观点"着凉"作为问题"小孩肚子疼怎么回事"对应的观点 中的其中一个观点。
[0120] 431、确定所述观点在问答对资源中的逆文档频率(inverse document frequency, IDF),过滤掉所述IDF高于第四门限值的观点。
[0121] 本操作具体是利用观点的IDF判断垃圾观点,并进行过滤,以清除观点。
[0122] 换言之,观点的IDF越高,则对应的出现频次越低,即成为垃圾观点的可能性越 高;反之,观点的IDF越低,则对应的出现频次越高,即成为垃圾观点的可能性越小,即该观 点的可信度越高。
[0123] 需要说明的是,在本实施例中,操作430和操作431是相互独立的,都是基于预设 观点清除策略,从确定的观点中清除垃圾观点这一操作的优选实施方式。换言之,基于预设 观点清除策略,从确定的观点中清除垃圾观点这一操作包括操作430和操作431中的至少 一项。
[0124] 440、将问题所对应的观点进行聚合,形成问题观点库。
[0125] 本实施例的技术方案,通过观点片段定位,能够准确定位到答案中包含观点的部 分,并通过观点验证得到通过验证的观点,能够调整观点的语义,提高观点的准确度,然后 利用搜索结果的共现频次或观点的IDF,进一步清除垃圾观点,能够从海量的问答对资源中 得到问题对应的简短观点,提高了观点的可信度,并通过将问题所对应的观点进行聚合,能 够得到问题对应的简短观点的集合,从而能够建立问题观点库。
[0126] 实施例五
[0127] 请参阅图5a,为本发明实施例五提供的一种观点处理方法的流程图。本实施例在 上述各实施例的基础上提供了将问题所对应的观点进行聚合,形成问题观点库这一操作的 优选方案。
[0128] 如图5a所示,所述优选方法包括:
[0129] 510、基于预设观点聚合策略,根据观点相似度进行观点聚合,得到观点簇;
[0130] 本操作具体是对获取的观点中的表意相同、但说法不完全一致的观点进行合并, 以得到观点簇。换言之,每个观点簇为表意相同、但说法不完全一致的观点的集合。
[0131] 示例性地,根据观点"建议你不要乱用药"、观点"不可以自行用药"以及观点"不宜 乱服用药"的相似度,通过聚合可以得到一个观点簇。
[0132] 520、基于预设观点归一化策略,从观点簇中确定一个归一化观点,得到问题对应 的归一化观点集合;
[0133] 本操作具体是在一个问题对应的每一个观点簇中分别确定一个代表性的观点,所 述代表性的观点即为归一化观点,从而得到问题对应的所有代表性观点的集合。
[0134] 本操作中基于预设观点归一化策略,从观点簇中确定一个归一化观点的操作可以 有多种实施方式,例如包括下述实施方式中的至少一种:
[0135] 方式A、根据观点中信息的覆盖率确定归一化观点;
[0136] 换言之,将观点信息覆盖最全的观点作为观点簇的代表性观点。例如:某个观点簇 中包括3个观点,分别为"不要吃凉性、辛辣食物"、"不要吃凉性食物"以及"不要吃辛辣食 物"。其中包括的信息为"不要吃凉"、"不要吃辛辣食物",那么,根据信息覆盖率,将观点"不 要吃凉性、辛辣食物"作为该观点簇的归一化观点。
[0137] 方式B、计算观点簇包含的观点的IDF*log(IDF),选取结果值最小的观点作为所 述归一化观点;
[0138] 换言之,通过观点的IDF*log(IDF)值可以得到观点表述的简明程度,将表述最简 明的观点作为归一化观点。例如:某个观点簇中包括2个观点,分别为"不要吃凉性、辛辣 食物"和"切忌不要吃凉性、辛辣的食物",选取IDF*log(IDF)结果值最小的观点"不要吃凉 性、辛辣食物"作为该观点簇的归一化观点。
[0139] 方式C、计算观点簇包含的观点的出现频次,并根据所述出现频次确定观点的权重 值,将权重值最高的观点作为所述归一化观点;
[0140] 方式D、将符合预设句型的观点中的一个作为所述归一化观点。
[0141] 530、根据所述问题的归一化观点集合中的归一化观点,形成问题观点库。
[0142] 本实施例的技术方案,在从问答对资源中获取问题对应的观点,也即从海量的问 答对资源中得到问题对应的简短观点之后,通过观点相似度将问题所对应的观点进行聚 合,得到问题对应的多个观点簇,并通过从每个观点簇中分别确定一个归一化观点,能够得 到问题对应的所有归一化观点的集合,从而能够建立问题观点库。
[0143] 请参阅图5b,作为基于预设观点聚合策略,根据观点相似度进行观点聚合,得到观 点簇的一种优选的实施方式,具体包括:
[0144] 511、将观点按基本词粒度和/或混排粒度转化为词向量,确定观点包含的词向量 对应的IDF ;
[0145] 本操作具体是将观点转换为词向量,并确定词向量的IDF。
[0146] 其中,将观点按基本词粒度转化为词向量,是将观点拆分为基本词。例如将观点 "建议你不要乱用药"按基本词粒度转化,可以得到5个词向量,分别为"建议"、"你"、"不 要"、"乱"以及"用药"。
[0147] 将观点按基本词粒度和混排粒度转化为词向量,是基于基本词向量、以及基本词 向量与相邻词向量的关联关系将观点进行拆分。例如将观点"建议你不要乱用药"按基本词 粒度和混排粒度转化,可以得到4个词向量,分别为"建议"、"你"、"不要"、以及"乱用药"。
[0148] 需要说明的是,基本词粒度和/或混排粒度是预先设定的,例如可以通过查询基 本词词库和/或混排库确定相应的粒度。
[0149] 观点包含的词向量对应的IDF为词向量在问题对应的答案文档中的出现频次的 倒数。
[0150] 512、将相邻词为否定词的词向量的IDF提高;
[0151] 本操作具体是根据转化后的词向量的相邻词的词性,对词向量的IDF进行调整。
[0152] 例如,观点"建议你不要乱用药"包含的"建议"、"你"、"不要"、以及"乱用药" 4个 词向量中,词向量"乱用药"相邻的词向量"不要"为否定词,则提高词向量"乱用药"的IDF。
[0153] 513、将所述IDF高于第五门限值的词向量作为核心词向量;
[0154] 本操作具体是根据词向量的IDF值确定核心词向量。优选地,将所述IDF最高的 词向量作为核心词向量,也即一个观点中的核心词向量的数量为1。
[0155] 核心词向量代表该词向量所属的观点的核心语义。
[0156] 以观点"建议你不要乱用药"为例,由于观点包含的词向量对应的IDF为词向量在 问题对应的答案文档中的出现频次的倒数,在所述答案文档中,词向量"建议"、"你"和"不 要"的出现频次都比较高,对应的IDF较低;而词向量"乱用药"的出现频次较低,对应的IDF 较高,而且通过操作512之后,进一步提高了词向量"乱用药"的IDF,因此在该观点包含的 4个词向量中,词向量"乱用药"的IDF最高,因此将词向量"乱用药"确定为观点"建议你不 要乱用药"的核心词向量。
[0157] 类似地,可以得到观点"不可以自行用药"中的核心词向量为"自行用药";观点"不 宜乱服用药"中的核心词向量为"乱服用药";观点"建议多休息"中的核心词向量为"多休 息";观点"保证充足休息"中的核心词向量为"休息"。
[0158] 514、计算核心词向量中每两个核心词向量的cos夹角,并将cos夹角小于第六门 限值的核心词向量所属的观点聚合到一个观点簇中。
[0159] 本操作具体是确定同一个问题对应的一个观点中的核心词向量与该问题对应的 另一个观点中的核心词向量的相似度,将相似度满足预设条件的核心词向量所属的观点进 行聚合,从而得到一个问题对应的多个观点簇。
[0160] 本操作采用cos夹角来衡量一个问题对应的多个观点中的任意两个核心词向量 的距离,cos夹角越小,代表两个核心词向量的距离越近,即相似度越高,基于一个问题包 含的观点中任意两个核心词向量的cos夹角,从而可以得到该问题包含的观点之间的相似 度。
[0161] 仍以上述操作中的实例进行说明。例如,经统计问题"头晕怎么办"对应的观点有 5个,分别为"建议你不要乱用药"、"不可以自行用药"、"不宜乱服用药"、"建议多休息"以及 "保证充足休息",对应的核心词向量分别为"乱用药"、"自行用药"、"乱服用药"、"多休息"以 及"休息"。通过本操作,得到核心词向量"乱用药"、"自行用药"和"乱用药"中的任意两个 的cos夹角符合设定条件,因此可以将观点"建议你不要乱用药"、"不可以自行用药"和"不 宜乱服用药"聚合,得到第一观点簇。类似地,可以将观点"建议多休息"以及"保证充足休 息"聚合,得到第二观点簇。
[0162] 本优选的实施方式,通过将观点转化为词向量,并根据词向量的IDF得到观点中 核心词向量,然后通过同一个问题对应的一个观点中的核心词向量与该问题对应的另一个 观点中的核心词向量的cos夹角,得到一个问题对应的观点中的任意两个观点之间的相似 度,将相似度满足预设条件的核心词向量所属的观点进行聚合,从而能够得到一个问题对 应的多个观点簇。
[0163] 作为基于预设观点聚合策略,根据观点相似度进行观点聚合,得到观点簇的另一 种优选的实施方式,具体包括:
[0164] 计算与问题对应的观点中两个观点的语义相似度,并将语义相似度大于第七门限 值的观点聚合到一个观点簇中。
[0165] 与上述实施方式的区别在于,本实施例方式通过语义相似度确定观点相似度,然 后将符合相似度条件的观点进行聚合,而上述实施方式基于观点中核心词向量的cos夹角 确定观点相似度,然后将符合相似度条件的核心词向量所属的观点进行聚合。
[0166] 实施例六
[0167] 请参阅图6,为本发明实施例六提供的一种观点处理方法的流程图。该方法包括:
[0168] 610、基于预设策略,从问答对资源中获取问题对应的观点;
[0169] 本操作同样适用于实施例二中操作210、操作220和操作230提供的观点获取操 作,此处不再赘述。
[0170] 620、根据观点排序策略,将优先的预设数量的观点确定为问题对应的观点;
[0171] 其中,所述观点排序策略至少包括下述一项:
[0172] 基于观点定位模板对应的置信度,得到观点的置信度,并按观点的置信度进行排 序;
[0173] 基于设定观点语法结构对应的置信度,得到观点的置信度,并按观点的置信度进 行排序;
[0174] 确定答案中问题对应的查询式中核心词与观点之间的字节距离,将观点按所述字 节距离进行排序;
[0175] 根据答案中问题对应的查询式中核心词与观点的匹配度或相似度进行排序;
[0176] 根据观点在答案中的出现频次进行排序。
[0177] 需要说明的是,本领域的技术人员可以通过设定的核心词确定策略,得到查询式 中的核心词,例如将查询式按基本词粒度转化为词向量,并计算查询式包含的词向量的 IDF,基于所述IDF,确定查询式中的核心词。
[0178] 630、将问题所对应的观点进行聚合,形成问题观点库。
[0179] 本操作同样适用于前述实施例中操作510、操作520和操作530提供的观点聚合操 作,此处不再赘述。
[0180] 本实施例的技术方案,通过从问答对资源中获取问题对应的观点,能够从海量的 问答对资源中得到问题对应的简短观点,并通过观点排序,能够得到问题对应的观点的用 户支持率,进一步提高了观点的可信度和观点质量,然后通过将问题所对应的观点进行聚 合,能够得到问题对应的简短观点的集合,从而能够建立问题观点库。
[0181] 实施例七
[0182] 请参阅图7,为本发明实施例七提供的一种观点处理装置的结构示意图。该装置包 括:观点获取模块710、问题观点库形成模块720。
[0183] 其中,观点获取模块710用于基于预设策略,从问答对资源中获取问题对应的观 点;问题观点库形成模块720用于将问题所对应的观点进行聚合,形成问题观点库。
[0184] 本实施例的技术方案,通过从问答对资源中获取问题对应的观点,能够从海量的 问答对资源中得到问题对应的简短观点,并通过将问题所对应的观点进行聚合,能够得到 问题对应的简短观点的集合,从而能够建立问题观点库。
[0185] 在上述方案中,观点获取模块710优选包括:观点片段确定单元、观点确定单元和 垃圾观点清除单元。
[0186] 其中,观点片段确定单元用于基于预设观点片段定位策略,确定问答对资源中问 题对应的答案中的观点片段;观点确定单元用于基于预设观点验证策略,确定所述观点片 段中的观点;垃圾观点清除单元用于基于预设观点清除策略,从确定的观点中清除垃圾观 点。
[0187] 在上述方案中,观点片段确定单元优选包括:分句确定子单元和分句匹配子单元。
[0188] 其中,分句确定子单元用于对问答对资源中的答案进行预处理,确定答案所包含 的分句;分句匹配子单元用于将所述分句与观点定位模板进行匹配,将与观点定位模板匹 配的部分作为答案中的观点片段。
[0189] 进一步地,观点片段确定单元还可以包括:扩展观点定位模板获取子单元和扩展 观点定位模板存储子单元。
[0190] 其中,扩展观点定位模板获取子单元用于在将所述分句与观点定位模板进行匹 配,将与观点定位模板匹配的部分作为答案中的观点片段之后,选取设定数量的观点片段, 并根据选取的所述观点片段获取扩展观点定位模板;扩展观点定位模板存储子单元用于如 果在设定观点定位模板中没有匹配到所述扩展观点定位模板,则将所述扩展观点定位模板 存储到设定观点定位模板中。
[0191] 在上述方案中,观点确定单元优选包括下述至少一项:第一观点确定子单元、第二 观点确定子单元和第三观点确定子单元。
[0192] 其中,第一观点确定子单元用于利用切词边界验证技术,从观点片段中选取切词 边界符合标准切词边界的观点片段作为观点;第二观点确定子单元用于对观点片段进行词 性标注,将符合设定观点语法结构的观点片段作为观点;第三观点确定子单元用于将观点 片段作为查询式通过搜索引擎进行搜索,根据搜索结果中的红标字段修正所述观点片段的 边界,将修正后的观点片段作为观点,其中所述红标字段满足下述条件:所述红标字段的 出现频次大于第一门限值,且所述红标字段的长度与观点片段的长度的比例大于第二门限 值。
[0193] 在上述方案中,垃圾观点清除单元优选包括下述至少一项:第一垃圾观点清除子 单元和第二垃圾观点清除子单元。
[0194] 其中,第一垃圾观点清除子单元用于将所述观点与对应的问题中的关键字段组成 查询式通过搜索引擎进行搜索,在搜索结果中的红标字段中确定所述查询式的共现频次, 并过滤掉共现频次低于第三门限值的查询式中的观点;第二垃圾观点清除子单元用于确定 所述观点在问答对资源中的逆文档频率IDF,过滤掉所述IDF高于第四门限值的观点。
[0195] 在上述方案中,问题观点库形成模块720优选包括:观点簇获取单元、归一化单元 和问题观点库形成单元。
[0196] 其中,观点簇获取单元用于基于预设观点聚合策略,根据观点相似度进行观点聚 合,得到观点簇;归一化单元用于基于预设观点归一化策略,从观点簇中确定一个归一化观 点,得到问题对应的归一化观点集合;问题观点库形成单元用于根据所述问题的归一化观 点集合中的归一化观点,形成问题观点库。
[0197] 作为观点簇获取单元的一种优选实施方式,该单元优选包括:词向量IDF确定子 单元、词向量IDF处理子单元、核心词向量确定子单元和第一计算子单元。
[0198] 其中,词向量IDF确定子单元用于将观点按基本词粒度和/或混排粒度转化为词 向量,确定观点包含的词向量对应的IDF ;词向量IDF处理子单元用于将相邻词为否定词的 词向量的IDF提高;核心词向量确定子单元用于将所述IDF高于第五门限值的词向量作为 核心词向量;第一计算子单元用于计算核心词向量中每两个核心词向量的cos夹角,并将 cos夹角小于第六门限值的核心词向量所属的观点聚合到一个观点簇中。
[0199] 作为观点簇获取单元的另一优选实施方式,该单元包括:第二计算子单元,用于计 算与问题对应的观点中两个观点的语义相似度,并将语义相似度大于第七门限值的观点聚 合到一个观点簇中。
[0200] 在上述方案中,归一化单元优选包括下述至少一项:第一归一化子单元、第二归一 化子单元、第二归一化子单元和第四归一化子单元。
[0201] 其中,第一归一化子单元用于根据观点中信息的覆盖率确定归一化观点;第二归 一化子单元用于计算观点簇包含的观点的IDF*log(IDF),选取结果值最小的观点作为所述 归一化观点;第二归一化子单元用于计算观点簇包含的观点的出现频次,并根据所述出现 频次确定观点的权重值,将权重值最高的观点作为所述归一化观点;第四归一化子单元用 于将符合预设句型的观点中的一个作为所述归一化观点。
[0202] 作为本实施例的再一种优选的实施方式,该装置还包括:观点排序模块,用于在基 于预设策略,从问答对资源中获取问题对应的观点之后,根据观点排序策略,将优先的预设 数量的观点确定为问题对应的观点;
[0203] 其中,所述观点排序策略至少包括下述一项:
[0204] 基于观点定位模板对应的置信度,得到观点的置信度,并按观点的置信度进行排 序;
[0205] 基于设定观点语法结构对应的置信度,得到观点的置信度,并按观点的置信度进 行排序;
[0206] 确定答案中问题对应的查询式中核心词与观点之间的字节距离,将观点按所述字 节距离进行排序;
[0207] 根据答案中问题对应的查询式中核心词与观点的匹配度或相似度进行排序;
[0208] 根据观点在答案中的出现频次进行排序。
[0209] 本发明实施例提供的观点处理装置可执行本发明任意实施例所提供的观点处理 方法,具备执行方法相应的功能模块和有益效果。
[0210] 实施例八
[0211] 请参阅图8a,为本发明实施例八提供的一种搜索方法的流程图。本发明实施例的 方法可以由硬件和/或软件实现的搜索装置来执行,该实现装置典型的是配置于能够提供 搜索服务的服务器中,例如配置在搜索引擎中。
[0212] 如图8a所示,该方法包括:
[0213] 810、获取用户通过搜索框输入的检索式;
[0214] 820、在问题观点库中查找与所述检索式对应的观点,其中,所述问题观点库采用 本发明任意实施例提供的观点处理方法形成;
[0215] 830、显示所述观点。
[0216] 本操作中显示所述观点可以有多种实施方式,例如包括下述实施方式中的至少一 种:
[0217] 方式一、将预设数量的观点组成观点列表,进行显示;
[0218] 下面结合图8b进行说明。用户通过百度知道的搜索框输入的问题检索式为"鼻 炎的症状",采用观点列表的形式进行显示,观点列表中包括5个观点,分别为"鼻塞"、"流鼻 涕"、"打喷嚏"、"呼吸不畅"和"鼻痒",5个观点根据提到次数从高到底进行显示。
[0219] 需要说明的是,采用观点列表的形式直观地展现出了与用户输入的问题检索式密 切相关的多个观点结果。
[0220] 方式二、将观点以及观点对应的答案组成观点列表,进行显示;
[0221] 下面结合图8c进行说明。用户通过百度网页的搜索框输入的问题检索式为"刚刚 怀孕吃吃母乳后吃奶粉拉肚子",观点显示页面不仅显示观点"母乳性腹泻"并且还显示该 观点对应的权威答案,此外,还显示观点"消化不良"以及对应的权威答案。
[0222] 需要说明的是,该观点显示页面显示的权威答案为观点所属的答案内容的部分摘 要,当用户点击该观点显示页面的"查看详情"时,执行页面跳转操作,从而用户可以查看完 整的答案内容。
[0223] 方式三、将观点进行标签式显示,如果获取到观点标签的选择操作,则显示与观点 对应的答案。
[0224] 下面结合图8d进行说明。用户通过百度知道的搜索框输入的问题检索式为"鼻炎 的症状",采用观点标签的形式进行显示,包括8个观点标签,分别为"全部(77608) "、"鼻塞 (329)"、"咳嗽(2018)"、"打喷嚏(2886)"、"头疼(2389)"、"眼花(736)"、"鼻痒(193)"和 "嗓子干(1635) "。
[0225] 其中,观点标签"全部(77608) "为观点统计标签,不提供观点,而是提供观点统计 数量。除观点标签"全部(77608)"之外的其他7个观点标签,一方面提供观点,另一方面提 供观点的权重,例如被提到次数。需要说明的是,所述7个观点标签仅为全部观点中的权重 较高的观点,全部观点中还可以包括"流鼻涕"或"呼吸不畅"以及其他观点,而这些权重值 较低的观点在该观点显示页面中未显示。
[0226] 还需要说明的是,如果获取到观点标签的选择操作,则显示与观点对应的答案。图 8d为获取到观点标签"全部(77608) "的选择操作时的显示结果。
[0227] 本实施例的技术方案,通过在获取用户通过搜索框输入的检索式之后,在利用本 发明任意实施例提供的观点处理方法预先形成的问题观点库中,匹配用户输入的检索式, 能够得到并直接呈现与用户输入的检索式对应的观点,从而使用户能够直接获知与检索问 题相关的观点,提高了搜索效率。
[0228] 实施例九
[0229] 请参阅图9,为本发明实施例九提供的一种搜索装置的结构示意图,该装置包括: 检索式获取模块910、观点查找模块920和观点显示模块930。
[0230] 其中,检索式获取模块910用于获取用户通过搜索框输入的检索式;观点查找模 块920用于在问题观点库中查找与所述检索式对应的观点,其中,所述问题观点库采用本 发明任意实施例提供的观点处理装置形成;观点显示模块930用于显示所述观点。
[0231] 本实施例的技术方案,通过在获取用户通过搜索框输入的检索式之后,在利用本 发明任意实施例提供的观点处理方法预先形成的问题观点库中,匹配用户输入的检索式, 能够得到并直接呈现与用户输入的检索式对应的观点,从而使用户能够直接获知与检索问 题相关的观点,提高了搜索效率。
[0232] 在上述方案中,观点显示模块930优选包括下述至少一项:第一显示单元、第二显 示单元和第三显示单元。
[0233] 其中,第一显示单元用于将预设数量的观点组成观点列表,进行显示;第二显示单 元用于将观点以及观点对应的答案组成观点列表,进行显示;第三显示单元用于将观点进 行标签式显示,如果获取到观点标签的选择操作,则显示与观点对应的答案。
[0234] 本发明实施例提供的搜索装置可执行本发明任意实施例所提供的搜索方法,具备 执行方法相应的功能模块和有益效果。
[0235] 最后应说明的是:以上各实施例仅用于说明本发明的技术方案,而非对其进行限 制;实施例中优选的实施方式,并非对其进行限制,对于本领域技术人员而言,本发明可以 有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均 应包含在本发明的保护范围之内。
【权利要求】
1. 一种观点处理方法,其特征在于,包括: 基于预设策略,从问答对资源中获取问题对应的观点; 将问题所对应的观点进行聚合,形成问题观点库。
2. 根据权利要求1所述的方法,其特征在于,基于预设策略,从问答对资源中获取问题 对应的观点,包括: 基于预设观点片段定位策略,确定问答对资源中问题对应的答案中的观点片段; 基于预设观点验证策略,确定所述观点片段中的观点; 基于预设观点清除策略,从确定的观点中清除垃圾观点。
3. 根据权利要求2所述的方法,其特征在于,基于预设观点片段定位策略,确定问答对 资源中问题对应的答案中的观点片段,包括: 对问答对资源中的答案进行预处理,确定答案所包含的分句; 将所述分句与观点定位模板进行匹配,将与观点定位模板匹配的部分作为答案中的观 点片段。
4. 根据权利要求3所述的方法,其特征在于,在将所述分句与观点定位模板进行匹配, 将与观点定位模板匹配的部分作为答案中的观点片段之后,还包括: 选取设定数量的观点片段,并根据选取的所述观点片段获取扩展观点定位模板; 如果在设定观点定位模板中没有匹配到所述扩展观点定位模板,则将所述扩展观点定 位模板存储到设定观点定位模板中。
5. 根据权利要求2所述的方法,其特征在于,基于预设观点验证策略,确定所述观点片 段中的观点,包括下述至少一项: 利用切词边界验证技术,从观点片段中选取切词边界符合标准切词边界的观点片段作 为观点; 对观点片段进行词性标注,将符合设定观点语法结构的观点片段作为观点; 将观点片段作为查询式通过搜索引擎进行搜索,根据搜索结果中的红标字段修正所述 观点片段的边界,将修正后的观点片段作为观点,其中所述红标字段满足下述条件:所述红 标字段的出现频次大于第一门限值,且所述红标字段的长度与观点片段的长度的比例大于 第二门限值。
6. 根据权利要求2所述的方法,其特征在于,基于预设观点清除策略,从确定的观点中 清除垃圾观点包括下述至少一项: 将所述观点与对应的问题中的关键字段组成查询式通过搜索引擎进行搜索,在搜索结 果中的红标字段中确定所述查询式的共现频次,并过滤掉共现频次低于第三门限值的查询 式中的观点; 确定所述观点在问答对资源中的逆文档频率IDF,过滤掉所述IDF高于第四门限值的 观点。
7. 根据权利要求1所述的方法,其特征在于,将问题所对应的观点进行聚合,形成问题 观点库,包括: 基于预设观点聚合策略,根据观点相似度进行观点聚合,得到观点簇; 基于预设观点归一化策略,从观点簇中确定一个归一化观点,得到问题对应的归一化 观点集合; 根据所述问题的归一化观点集合中的归一化观点,形成问题观点库。
8. 根据权利要求7所述的方法,其特征在于,基于预设观点聚合策略,根据观点相似度 进行观点聚合,得到观点簇,包括: 将观点按基本词粒度和/或混排粒度转化为词向量,确定观点包含的词向量对应的 IDF ; 将相邻词为否定词的词向量的IDF提高; 将所述IDF高于第五门限值的词向量作为核心词向量; 计算核心词向量中每两个核心词向量的cos夹角,并将cos夹角小于第六门限值的核 心词向量所属的观点聚合到一个观点簇中。
9. 根据权利要求7所述的方法,其特征在于,基于预设观点聚合策略,根据观点相似度 进行观点聚合,得到观点簇,包括: 计算与问题对应的观点中两个观点的语义相似度,并将语义相似度大于第七门限值的 观点聚合到一个观点簇中。
10. 根据权利要求7所述的方法,其特征在于,基于预设观点归一化策略,从观点簇中 确定一个归一化观点,包括下述至少一项: 根据观点中信息的覆盖率确定归一化观点; 计算观点簇包含的观点的IDF*log(IDF),选取结果值最小的观点作为所述归一化观 占. 计算观点簇包含的观点的出现频次,并根据所述出现频次确定观点的权重值,将权重 值最高的观点作为所述归一化观点; 将符合预设句型的观点中的一个作为所述归一化观点。
11. 根据权利要求1-10任一所述的方法,其特征在于,在基于预设策略,从问答对资源 中获取问题对应的观点之后,还包括: 根据观点排序策略,将优先的预设数量的观点确定为问题对应的观点; 其中,所述观点排序策略至少包括下述一项: 基于观点定位模板对应的置信度,得到观点的置信度,并按观点的置信度进行排序; 基于设定观点语法结构对应的置信度,得到观点的置信度,并按观点的置信度进行排 序; 确定答案中问题对应的查询式中核心词与观点之间的字节距离,将观点按所述字节距 离进行排序; 根据答案中问题对应的查询式中核心词与观点的匹配度或相似度进行排序; 根据观点在答案中的出现频次进行排序。
12. -种观点处理装置,其特征在于,包括: 观点获取模块,用于基于预设策略,从问答对资源中获取问题对应的观点; 问题观点库形成模块,用于将问题所对应的观点进行聚合,形成问题观点库。
13. 根据权利要求12所述的装置,其特征在于,观点获取模块包括: 观点片段确定单元,用于基于预设观点片段定位策略,确定问答对资源中问题对应的 答案中的观点片段; 观点确定单元,用于基于预设观点验证策略,确定所述观点片段中的观点; 垃圾观点清除单元,用于基于预设观点清除策略,从确定的观点中清除垃圾观点。
14. 根据权利要求13所述的装置,其特征在于,观点片段确定单元包括: 分句确定子单元,用于对问答对资源中的答案进行预处理,确定答案所包含的分句; 分句匹配子单元,用于将所述分句与观点定位模板进行匹配,将与观点定位模板匹配 的部分作为答案中的观点片段。
15. 根据权利要求14所述的装置,其特征在于,观点片段确定单元还包括: 扩展观点定位模板获取子单元,用于在将所述分句与观点定位模板进行匹配,将与观 点定位模板匹配的部分作为答案中的观点片段之后,选取设定数量的观点片段,并根据选 取的所述观点片段获取扩展观点定位模板; 扩展观点定位模板存储子单元,用于如果在设定观点定位模板中没有匹配到所述扩展 观点定位模板,则将所述扩展观点定位模板存储到设定观点定位模板中。
16. 根据权利要求13所述的装置,其特征在于,观点确定单元包括下述至少一项: 第一观点确定子单元,用于利用切词边界验证技术,从观点片段中选取切词边界符合 标准切词边界的观点片段作为观点; 第二观点确定子单元,用于对观点片段进行词性标注,将符合设定观点语法结构的观 点片段作为观点; 第三观点确定子单元,用于将观点片段作为查询式通过搜索引擎进行搜索,根据搜索 结果中的红标字段修正所述观点片段的边界,将修正后的观点片段作为观点,其中所述红 标字段满足下述条件:所述红标字段的出现频次大于第一门限值,且所述红标字段的长度 与观点片段的长度的比例大于第二门限值。
17. 根据权利要求13所述的装置,其特征在于,垃圾观点清除单元包括下述至少一项: 第一垃圾观点清除子单元,用于将所述观点与对应的问题中的关键字段组成查询式通 过搜索引擎进行搜索,在搜索结果中的红标字段中确定所述查询式的共现频次,并过滤掉 共现频次低于第三门限值的查询式中的观点; 第二垃圾观点清除子单元,用于确定所述观点在问答对资源中的逆文档频率IDF,过滤 掉所述IDF高于第四门限值的观点。
18. 根据权利要求12所述的装置,其特征在于,问题观点库形成模块包括: 观点簇获取单元,用于基于预设观点聚合策略,根据观点相似度进行观点聚合,得到观 点簇; 归一化单元,用于基于预设观点归一化策略,从观点簇中确定一个归一化观点,得到问 题对应的归一化观点集合; 问题观点库形成单元,用于根据所述问题的归一化观点集合中的归一化观点,形成问 题观点库。
19. 根据权利要求18所述的装置,其特征在于,观点簇获取单元包括: 词向量IDF确定子单元,用于将观点按基本词粒度和/或混排粒度转化为词向量,确定 观点包含的词向量对应的IDF ; 词向量IDF处理子单元,用于将相邻词为否定词的词向量的IDF提高; 核心词向量确定子单元,用于将所述IDF高于第五门限值的词向量作为核心词向量; 第一计算子单元,用于计算核心词向量中每两个核心词向量的cos夹角,并将cos夹角 小于第六门限值的核心词向量所属的观点聚合到一个观点簇中。
20. 根据权利要求18所述的装置,其特征在于,观点簇获取单元包括: 第二计算子单元,用于计算与问题对应的观点中两个观点的语义相似度,并将语义相 似度大于第七门限值的观点聚合到一个观点簇中。
21. 根据权利要求18所述的装置,其特征在于,归一化单元包括下述至少一项: 第一归一化子单元,用于根据观点中信息的覆盖率确定归一化观点; 第二归一化子单元,用于计算观点簇包含的观点的IDF*log(IDF),选取结果值最小的 观点作为所述归一化观点; 第三归一化子单元,用于计算观点簇包含的观点的出现频次,并根据所述出现频次确 定观点的权重值,将权重值最高的观点作为所述归一化观点; 第四归一化子单元,用于将符合预设句型的观点中的一个作为所述归一化观点。
22. 根据权利要求12-21任一所述的装置,其特征在于,该装置还包括: 观点排序模块,用于在基于预设策略,从问答对资源中获取问题对应的观点之后,根据 观点排序策略,将优先的预设数量的观点确定为问题对应的观点; 其中,所述观点排序策略至少包括下述一项: 基于观点定位模板对应的置信度,得到观点的置信度,并按观点的置信度进行排序; 基于设定观点语法结构对应的置信度,得到观点的置信度,并按观点的置信度进行排 序; 确定答案中问题对应的查询式中核心词与观点之间的字节距离,将观点按所述字节距 离进行排序; 根据答案中问题对应的查询式中核心词与观点的匹配度或相似度进行排序; 根据观点在答案中的出现频次进行排序。
23. -种搜索方法,其特征在于,包括: 获取用户通过搜索框输入的检索式; 在问题观点库中查找与所述检索式对应的观点,其中,所述问题观点库采用权利要求 1-11任一所述的观点处理方法形成; 显示所述观点。
24. 根据权利要求23所述的方法,其特征在于,显示所述观点,包括: 将预设数量的观点组成观点列表,进行显示;或 将观点以及观点对应的答案组成观点列表,进行显示;或 将观点进行标签式显示,如果获取到观点标签的选择操作,则显示与观点对应的答案。
25. -种搜索装置,其特征在于,包括: 检索式获取模块,用于获取用户通过搜索框输入的检索式; 观点查找模块,用于在问题观点库中查找与所述检索式对应的观点,其中,所述问题观 点库采用权利要求12-22任一所述的观点处理装置形成; 观点显示模块,用于显示所述观点。
26. 根据权利要求25所述的装置,其特征在于,观点显示模块包括: 第一显示单元,用于将预设数量的观点组成观点列表,进行显示;或 第二显示单元,用于将观点以及观点对应的答案组成观点列表,进行显示;或 第三显示单元,用于将观点进行标签式显示,如果获取到观点标签的选择操作,则显示 与观点对应的答案。
【文档编号】G06F17/30GK104063497SQ201410319166
【公开日】2014年9月24日 申请日期:2014年7月4日 优先权日:2014年7月4日
【发明者】张希娟, 张伟萌, 何伯磊, 费晓旭, 胡小博, 王丙寅, 赵辉, 刘涛, 谭玉佩, 忻舟, 马艳军, 廖毅 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1