一种开放式知识共享平台及其词条处理方法

文档序号:6341065阅读:180来源:国知局
专利名称:一种开放式知识共享平台及其词条处理方法
一种开放式知识共享平台及其词条处理方法
技术领域
本发明涉及网络技术,特别涉及一种开放式知识共享平台及其词条处理方法。背景技术
随着互联网技术的发展,开放式知识共享平台服务于互联网络中业已广泛应用。 知识共享平台由大量用户对各种词条进行编辑,用以帮助有需要的人进行了解。但开放式 知识共享平台经常存在涉及不同主题的多义词,例如词条“孙悦”可能涉及到“歌手孙悦”, 也可能涉及到“球员孙悦”。再例如词条“苹果”可能涉及到植物、公司、国内电影以及国外 电影等等。目前,现有的开放式知识共享平台是将涉及不同主题的多义词的词条内容统一 呈现给用户,用户需要在众多词条内容中寻找自己想要的解释,导致用户的浏览体验不佳。

发明内容有鉴于此,本发明提供了一种开放式知识共享平台及其词条处理方法,将涉及不 同主题的词条内容划分到不同词义选项下,使得开放式知识共享平台内容的粒度更细,更 便于对同名不同主题的内容进行编辑完善和有针对性的引入扩展内容,从而提升用户的浏 览体验。本发明提供了一种开放式知识共享平台的词条处理方法,其特征在于,词条处理 方法包括a.获取词条及词条内容;b.判断词条是否为涉及不同主题的多义词;c.若词条 为涉及不同主题的多义词,则将涉及不同主题的词条内容分别划分到对应的词义选项下。根据本发明之一优选实施方式,词条内容包括多个目录,在步骤b中,根据目录中 的目录信息判断词条是否为涉及不同主题的多义词。根据本发明之一优选实施方式,在步骤a中,进一步获取词条的分类信息,在步骤 b中,根据分类信息判断词条是否为涉及不同主题的多义词。根据本发明之一优选实施方式,步骤b包括bl.对词条内容进行特征提取,以获 取多个词条特征;b2.获取标注特征集合,标注特征集合包括多个带有权重值的标注特征; b3.根据标注特征分别为每一词条特征分配对应的权重值;以及b4.对多个词条特征的权 重值进行求和,并将权重值求和高于阈值的词条作为多义词。根据本发明之一优选实施方式,步骤1^2进一步包括士21.获取包括多个多义词样 本和非多义词样本的标注语料出22.从标注语料中提取多个标注特征;1^23.根据标注特征 在多义词样本和非多义词样本的出现情况为标注特征分别分配对应的权重值。根据本发明之一优选实施方式,在步骤1^23中,计算标注特征在多义词样本中出 现的次数M,计算标注特征在非多义词样本中出现的次数N,并计算权重值等于M/ (M+N)。根据本发明之一优选实施方式,在步骤c中,以词条的一级目录以及一级目录下 的目录内容作为基本预测单元,预测基本预测单元是否属于不同主题,并根据预测结果将 属于不同主题的基本预测单元分别划分到对应的词义选项。 根据本发明之一优选实施方式,在步骤C中,根据一级目录中的目录信息进行预测。根据本发明之一优选实施方式,步骤c进一步包括cl.从基本预测单元中提取多 个目录特征;c2.根据目录特征判断基本预测单元之间的关联度,并根据关联度产生预测结果。根据本发明之一优选实施方式,步骤c进一步包括Cl.获取词条的目录信息; c2.根据目录信息提取目录特征;c3.获取含目录特征关联度关系的机器模型;c4.根据 所提取的目录特征,应用机器模型对前后相邻的目录信息的目录特征进行关联度计算; c5.根据关联度计算结果对目录信息进行标记。根据本发明之一优选实施方式,步骤c2进一步包括在提取目录特征时,先进行 分词。根据本发明之一优选实施方式,分词的方法包括正向匹配分词、反向匹配分词、 正向反向匹配分词、基于全切分词图的分词、最大熵马尔科夫模型分词、最大熵分词或条件 随机场分词。根据本发明之一优选实施方式,步骤c3进一步包括c31.获取已分类为不同主题 的词义选项的多义词条样本库;c32.获取词义选项的目录信息;c33.根据词义选项的目录 信息提取词义选项的目录特征;c34.根据词义选项的目录特征进行机器建模,生成包括词 义选项的相邻的目录信息的目录特征的关联度关系的机器模型。根据本发明之一优选实施方式,词义选项的相邻的目录信息的目录特征的关联度 关系包括相同词汇的数量、相同词汇的词汇属性、相同词汇所占目录信息的比例、关联词汇 的数量、关联词汇的词汇属性、关联词汇所占目录信息的比例之一或其组合。根据本发明之一优选实施方式,在步骤c4中,进行关联度计算的方法包括计算相 邻的目录信息的目录特征中相同词汇的数量。根据本发明之一优选实施方式,在步骤c4中,进行关联度计算的方法还包括判断 相同词汇的词汇属性。根据本发明之一优选实施方式,在步骤c4中,进行关联度计算的方法还包括计算 相同词汇所占目录信息的比例。根据本发明之一优选实施方式,在步骤c4中,进行关联度计算的方法包括计算相 邻的目录信息的目录特征中关联词汇的数量。根据本发明之一优选实施方式,在步骤c4中,进行关联度计算的方法还包括判断 关联词汇的词汇属性。根据本发明之一优选实施方式,在步骤c4中,进行关联度计算的方法还包括计算 关联词汇所占目录信息的比例。根据本发明之一优选实施方式,步骤c5进一步包括c51.根据关联度计算结果将 前后相邻的目录信息划分为相关和无关;c52.将起始目录以及与在前目录信息相关的目 录信息标记为第一标记;c53.将与在前目录信息无关的目录信息标记为第二标记。本发明还提供一种开放式知识共享平台,开放式知识共享平台包括词条获取模 块,获取词条及词条内容;多义词判断模块,判断词条是否为涉及不同主题的多义词;词义 选项划分模块,若词条为涉及不同主题的多义词,则将涉及不同主题的词条内容分别划分 到对应的词义选项下。
根据本发明之一优选实施方式,词条内容包括多个目录,多义词判断模块根据目 录中的目录信息判断词条是否为涉及不同主题的多义词。根据本发明之一优选实施方式,词条获取模块进一步获取词条的分类信息,多义 词判断模块根据分类信息判断词条是否为涉及不同主题的多义词。根据本发明之一优选实施方式,多义词判断模块包括词条特征提取模块,对词条 内容进行特征提取,以获取多个词条特征;标注特征集合获取模块,获取标注特征集合,标 注特征集合包括多个带有权重值的标注特征;词条特征权重计算模块,根据标注特征分别 为每一词条特征分配对应的权重值;以及阈值判断模块,对多个词条特征的权重值进行求 和,并将权重值求和高于阈值的词条作为多义词。根据本发明之一优选实施方式,标注特征集合获取模块进一步包括标注语料获 取模块,获取包括多个多义词样本和非多义词样本的标注语料;标注特征提取模块,从标注 语料中提取多个标注特征;标注特征权重计算模块,根据标注特征在多义词样本和非多义 词样本的出现情况为标注特征分别分配对应的权重值。根据本发明之一优选实施方式,标注特征权重计算模块计算标注特征在多义词样 本中出现的次数M,计算标注特征在非多义词样本中出现的次数N,并计算权重值等于M/ (M+N)。根据本发明之一优选实施方式,词义选项划分模块以词条的一级目录以及一级目 录下的目录内容作为基本预测单元,预测基本预测单元是否属于不同主题,并根据预测结 果将属于不同主题的基本预测单元分别划分到对应的词义选项。根据本发明之一优选实施方式,词义选项划分模块根据一级目录中的目录信息进 行预测。根据本发明之一优选实施方式,词义选项划分模块进一步包括目录信息获取模 块,获取词条的目录信息;目录特征提取模块,根据目录信息提取目录特征;机器模型获取 模块,获取含目录特征关联度关系的机器模型;关联度计算模块,根据所提取的目录特征, 应用机器模型对前后相邻的目录信息的目录特征进行关联度计算,以及标记模块,根据关 联度计算结果对目录信息进行标记。根据本发明之一优选实施方式,机器模型获取模块进一步包括词义选项样本获 取模块,获取已分类为不同主题的词义选项的多义词条样本库;词义选项目录信息获取模 块,获取词义选项的目录信息;词义选项目录特征提取模块,根据词义选项的目录信息提取 词义选项的目录特征;机器建模模块,根据词义选项的目录特征进行机器建模,生成包括词 义选项的相邻的目录信息的目录特征的关联度关系的机器模型。根据本发明之一优选实施方式,词义选项的相邻的目录信息的目录特征的关联度 关系包括相同词汇的数量、相同词汇的词汇属性、相同词汇所占目录信息的比例、关联词汇 的数量、关联词汇的词汇属性、关联词汇所占目录信息的比例之一或其组合。根据本发明之一优选实施方式,关联度计算模块进行关联度计算的方法包括计算 相邻的目录信息的目录特征中相同词汇的数量。根据本发明之一优选实施方式,关联度计算模块进行关联度计算的方法还包括判 断相同词汇的词汇属性。根据本发明之一优选实施方式,关联度计算模块进行关联度计算的方法还包括计算相同词汇所占目录信息的比例。根据本发明之一优选实施方式,关联度计算模块进行关联度计算的方法包括计算 相邻的目录信息的目录特征中关联词汇的数量。根据本发明之一优选实施方式,关联度计算模块进行关联度计算的方法还包括判 断关联词汇的词汇属性。根据本发明之一优选实施方式,关联度计算模块进行关联度计算的方法还包括计 算关联词汇所占目录信息的比例。根据本发明之一优选实施方式,标记模块进一步包括关联度分类模块,根据关联 度计算结果将前后相邻的目录信息划分为相关和无关;第一标记模块,将起始目录以及与 在前目录信息相关的目录信息标记为第一标记;第二标记模块,将与在前目录信息无关的 目录信息标记为第二标记。通过上述所提供的技术方案,本发明提供了一种开放式知识共享平台及其词条 处理方法,可将涉及不同主题的词条内容划分到不同词义选项下,使得开放式知识共享平 台内容的粒度更细,更便于对同名不同主题的内容进行编辑完善和有针对性的引入扩展内 容,从而提升用户的浏览体验。

图1是本发明的开放式知识共享平台的多义词展现方法的流程示意图;图2是本发明的开放式知识共享平台的示意框图;图3是本发明的开放式知识共享平台的词条处理方法的流程示意图;图4是本发明的开放式知识共享平台的多义词判定方法的流程示意5是本发明的开放式知识共享平台的标注特征集合获取方法的流程示意图。图6是本发明的开放式知识共享平台的多义词条的词义选项划分方法的流程示 意图;图7是本发明的开放式知识共享平台的词条处理装置的示意框图;图8是本发明的开放式知识共享平台的多义词判定装置的示意框9是本发明的开放式知识共享平台的标注特征集合获取装置的示意框图。图10是本发明的开放式知识共享平台的多义词条的词义选项划分装置的示意框 图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施方式
对本发明进行详细描述。首先请参见图1,图1是本发明的开放式知识共享平台的多义词展现方法的流程 示意图。在步骤10中,将同一词条的涉及不同主题的词条内容分别与对应的词义选项进 行关联。例如,在本步骤中,将词条“孙悦”的涉及到“歌手孙悦”的词条内容划分并关联到 词义选项“歌手孙悦”下,并将涉及到“球员孙悦”的词条内容划分并关联到词义选项“球员 孙悦”下。多义词的具体判断过程以及词条内容的具体划分过程将在下文中进行描述。
在步骤11中,接收用户的查询请求。具体来说,用户通过浏览器发送查询请求,该 查询请求经互联网传送到开放式知识共享平台。在步骤12中,查询与查询请求相匹配的词条。在步骤13中,输出并在浏览器上呈现出与相匹配的词条对应的多个词义选项。具 体来说,开放式知识共享平台在接收到查询请求后,在数据库内查询与该查询请求相匹配 的词条。若该词条为涉及不同主题的多义词,则输出并在浏览器中呈现与相匹配词条对应 的多个词义选项。例如,当用户输入的查询请求为“孙悦”时,开放式知识共享平台输出并 在浏览器上呈现出“歌手孙悦”以及“球员孙悦”两个词义选项。在步骤14中,根据用户针对词义选项的请求展现相关联的词条内容。具体来说, 用户通过词义选项确定自己所感兴趣的主题,进而点击对应的词义选项。开放式知识共享 平台则将与该词义选项相关联的词条内容输出到浏览器上,进而展现给用户。例如,用户感 兴趣的是“歌手孙悦”,用户点击词义选项“歌手孙悦”,则开放式知识共享平台将与“歌手孙 悦”相关的词条内容输出到浏览器上,进而展现给用户。在步骤13中,优选根据用户行为对浏览器上呈现的多个词义选项进行排序,使得 关注度高的词义选项排在该多个词义选项的前列,由此进一步提高用户的浏览体验。例如,可根据词条内容的展现量、用户对词条内容的浏览时间或词条内容的点击 量与展现量之比对多个词义选项进行排序。其中,词条内容的展现量是指根据用户针对词 义选项的请求展现相关联的词条内容的次数。一般来说,词条内容的展现量越多证明该词 条内容受到的关注度越高,其所对应的词义选项排名应该越靠前。用户在词条内容的浏览 时间是指用户在该词条内容展现后到该词条内容关闭之前所花费的时间,用户对词条内容 的浏览时间越长,也证明用户对该词条的关注度越高,其所对应的词义选项排名应该越靠 前。词条内容的点击量是指用户对所展现的词条内容中的标题、图片或链接等内容的点击 次数。词条内容的点击量与展现量之比越高,则也证明用户对该词条的关注度越高,其所对 应的词义选项排名应该越靠前。在优选实施方式中,综合考虑上述三个衡量标准,来对词义选项进行排序。也就 是,根据词义内容的展现量、用户对词义内容的浏览时间以及词义内容的点击量与展现量 之比的加权统计结果对多个词义选项进行排序。具体加权统计算法可根据实际需要进行设 计。例如,在统计词义内容的展现量时,将浏览时间较短的展现行为赋予较低的权重,再参 与到展现量统计中,由此可降低由于用户误操作所产生的展现量对词义选项排序的影响。如图2所示,图2是本发明的开放式知识共享平台的示意框图。本发明的开放式 知识共享平台包括关联模块20、输入模块21、匹配模块22以及输出模块23。关联模块20将同一词条的涉及不同主题的词条内容分别与对应的词义选项进行 关联。例如,关联模块20将词条“孙悦”的涉及到“歌手孙悦”的词条内容划分并关联到词 义选项“歌手孙悦”下,并将涉及到“球员孙悦”的词条内容划分并关联到词义选项“球员孙 悦”下。输入模块21接收用户通过浏览器发送的查询请求。匹配模块22根据输入模块21 接收到查询请求在数据库内查询与该查询请求相匹配的词条。若该词条为涉及不同主题的 多义词,则输出模块23输入该词条对应的多个词义选项,进而在浏览器中呈现该多个词义 选项。例如,当用户输入的查询请求为“孙悦”时,输出模块23输出并在浏览器上呈现出“歌手孙悦”以及“球员孙悦”两个词义选项。输入模块21进一步接收用户针对某个词义选项的请求,输出模块23进一步根据 用户针对词义选项的请求输出并进而展现相关联的词条内容。具体来说,用户通过词义选 项确定自己所感兴趣的主题,进而点击对应的词义选项。输出模块23则将与该词义选项相 关联的词条内容输出到浏览器上,进而展现给用户。例如,用户感兴趣的是“歌手孙悦”,用 户点击词义选项“歌手孙悦”,则输出模块23则将与“歌手孙悦”相关的词条内容输出到浏 览器上,进而展现给用户。输出模块23优选根据用户行为对浏览器上呈现的多个词义选项进行排序,使得 关注度高的词义选项排在该多个词义选项的前列,由此进一步提高用户的浏览体验。例如,可根据词条内容的展现量、用户对词条内容的浏览时间或词条内容的点击 量与展现量之比对多个词义选项进行排序。其中,词条内容的展现量是指根据用户针对词 义选项的请求展现相关联的词条内容的次数。一般来说,词条内容的展现量越多证明该词 条内容受到的关注度越高,其所对应的词义选项排名应该越靠前。用户在词条内容的浏览 时间是指用户在该词条内容展现后到该词条内容关闭之前所花费的时间,用户对词条内容 的浏览时间越长,也证明用户对该词条的关注度越高,其所对应的词义选项排名应该越靠 前。词条内容的点击量是指用户对所展现的词条内容中的标题、图片或链接等内容的点击 次数。词条内容的点击量与展现量之比越高,则也证明用户对该词条的关注度越高,其所对 应的词义选项排名应该越靠前。在优选实施方式中,综合考虑上述三个衡量标准,来对词义选项进行排序。也就 是,根据词义内容的展现量、用户对词义内容的浏览时间以及词义内容的点击量与展现量 之比的加权统计结果对多个词义选项进行排序。具体加权统计算法可根据实际需要进行设 计。例如,在统计词义内容的展现量时,将浏览时间较短的展现行为赋予较低的权重,再参 与到展现量统计中,由此可降低由于用户误操作所产生的展现量对词义选项排序的影响。如图3所示,图3是本发明的开放式知识共享平台的词条处理方法的流程示意图。在步骤30中,获取词条以及词条内容。在优选实施方式中,该词条及词条内容可 以是现有开放式知识共享平台中的以目录形式呈现的词条及词条内容。也就是说,该词条 内容包括多个目录以及分别位于各目录下的目录内容。其中,目录可以包括多个一级目录, 每个一级目录下还可以进一步包括多个二级目录、三级目录等子目录。在步骤31中,判断词条是否为涉及不同主题的多义词。判断词条是否为多义词的 方法有多种,下面将以几个具体实施方式
进行描述。在一实施方式中,根据目录中的目录信息判断词条是否为涉及不同主题的多义 词。具体来说,判断不同的目录信息中是否存在涉及不同主题的关键词。例如,如果词条 “孙悦”的两个目录信息中分别出现了 “歌手孙悦”和“球员孙悦”,由于“歌手”和“球员,,涉 及到不同的主题,则认为该词条“孙悦”为多义词。再例如,在词条“射雕英雄传”的两个目 录信息中分别出现了 “1983版”和“2008版”,则同样认为词条“射雕英雄传”为多义词。在一实施方式中,在步骤30中,进一步获取词条的分类信息,在步骤31中,根据词 条的分类信息判断该词条是否为不同主题的多义词。例如,词条“苹果”的分类信息中包括 “植物”、“电影”以及“公司”三个不同的分类,则认为词条“苹果”为多义词。在另一实施方式中,可根据词条内容通过机器挖掘方法来自动识别词条是否是多义词。如图4所示,图4是本发明的开放式知识共享平台的多义词判定方法的流程示意图。在步骤40中,对待判定词条的词条内容进行特征提取,以获取多个词条特征。具 体来说,对词条内容进行分词及过滤,并将分词及过滤后获得的字词作为词条特征。其中, 分词的作用是将词条内容中的汉字序列切分成有意义的字词,以便后续处理。具体分词的 方法包括正向匹配分词、反向匹配分词、正向反向匹配分词、基于全切分词图的分词,最大 熵马尔科夫模型分词、最大熵分词或条件随机场分词等,上述分词方法均为本领域公知技 术,在此不再赘述。过滤的作用是去除标点符号、助词等无用信息。在步骤41中,获取标注特征集合。标注特征集合包括多个带有权重值的标注特 征。如图5所示,图5是本发明的开放式知识共享平台的标注特征集合获取方法的流程示 意图。在步骤50中,获取包括多个多义词样本和非多义词样本的标注语料。在标注语料 中,多义词样本是指已经判定为多义词的词条及词条内容,非多义词样本是指已经判定为 非多义词的词条及词条内容。在步骤51中,从标注语料中提取多个标注特征。具体来说,分别对每个多义词样 本以及每个非多义词样本进行分词及过滤,并将分词及过滤后获得的字词作为标注特征。在步骤52中,根据标注特征在多义词样本和非多义词样本的出现情况为标注特 征分别分配对应的权重值。具体来说,计算标注特征在多义词样本中出现的次数M,计算标 注特征在非多义词样本中出现的次数N,并计算该标注特征的权重值等于M/(M+N)。通过上 述方法可知,如果某个标注特征在多义词样本中出现的次数较多,同时在非多义词样本中 出现的次数较少时,该标注特征的权重值就相对较高。如果某个标注特征在多义词样本和 非多义词中出现的次数相仿或者在多义词样本中出现的次数较少,同时在非多义词样本中 出现的次数较多时,该标注特征的权重值就相对较低。在步骤42中,根据标注特征分别为从待判定词条的词条内容提取的每一词条特 征分配对应的权重值。具体来说,在标注特征集合中判断是否存在与每一词条特征相同的 标注特征,若存在,则将该标注特征的权重值分配给该词条特征。在步骤43中,对从待判定词条的词条内容提取的多个词条特征的权重值进行求 和,并将权重值求和高于阈值的词条作为多义词。具体来说,如果待判定词条的多个词条特 征的权重值越高,则代表该词条特征在多义词样本中出现的次数越高,该待判定词条是多 义词的概率就越高。在本实施方式中,具体阈值可根据实际情况进行设置。在步骤32中,若判定词条为涉及不同主题的多义词,则将涉及不同主题的词条内 容分别划分到对应词义选项下。在一优选实施方式中,以词条的一级目录以及一级目录下 的目录内容作为一个基本预测单元,预测基本预测单元是否属于不同主题,并根据预测结 果将属于同一主题的基本预测单元划分到同一词义选项。预测基本预测单元是否属于不同 主题有多种,下面将以几个具体实施方式
进行描述。在一实施方式中,根据一级目录中的目录信息进行预测。例如,如果词条“孙悦”的 两个一级目录的目录信息中分别出现了 “歌手孙悦”和“球员孙悦”,由于“歌手”和“球员,, 涉及到不同的主题,则将目录信息中包含“歌手孙悦”的一级目录及其目录内容划分并关联 到词义选项“歌手孙悦”下,并将目录信息中包含“球员孙悦”的一级目录及其目录内容划 分并关联到词义选项“球员孙悦”下。此外,还可以根据目录信息所体现的用户编辑行为来进行预测。例如,如果不同的一级目录的目录信息中的第一个字为数字,并连续排列,则将 带有数字的一级目录及其目录内容以及下方不带有数字的第一目录及其目录内容分别划 分到不同的词义选项下。在一实施方式中,当判定词条为涉及不同主题的多义词时,可以通过机器挖掘的 方式将涉及不同主题的词条内容分别划分到对应的词义选项下。如图6所示,图6是本发 明的开放式知识共享平台的多义词条的词义选项划分方法的流程示意图。由于词条中目录通常是按照前后顺序排列的,也就是在通常情况下,多义词条中 的相同主题的目录是按照前后顺序排列的,较少出现乱序排列的情况,因此在这种情况下, 只需要判断前后目录之间是否是相关的,即可以得知不同主题的目录的分割位置。在步骤61中,获取未进行词义选项分类的多义词词条数据。该进行词义选项分类 的多义词词条数据可以通过上述图3所示的步骤31或者图4所示多义词判定方法来获得。在步骤62中,根据词条中目录的位置获取词条的目录信息。在优选的实施方式 中,本发明根据多义词词条中一级目录的位置对词条进行分割,获取每个一级目录的目录 信息,目录信息包括一级目录名称以及一级目录下的目录内容等。在步骤63中,根据获取的目录信息,从中提取出多个特征。在对目录信息进行特 征提取的时候,需要先对词条内容进行分词及过滤,并将分词及过滤后获得的字词作为词 条特征。其中,分词的作用是将词条内容中的汉字序列切分成有意义的字词,以便后续处 理。具体分词的方法包括正向匹配分词、反向匹配分词、正向反向匹配分词、基于全切分词 图的分词,最大熵马尔科夫模型分词、最大熵分词或条件随机场分词等,上述分词方法均为 本领域公知技术,在此不再赘述。过滤的作用是去除标点符号、助词等无用信息。在优选的 实施方式中,本发明采用正向最大匹配分词和反向最大匹配分词相结合的方式对分词结果 进行校正,以获取正确率较高的分词结果。 在步骤64中,获取含目录特征关联度关系的机器模型。如图6所示,步骤64进一 步包括步骤641,获取已分类为不同主题的词义选项的多义词条样本库。由于样本是已经 分类为不同主题的词义选项的多义词条,因此每一个词义选项下面的目录所对应的主题是 相同的。步骤642,获取词义选项的目录信息。即获取词义选项下面具有相同主题特性的目 录信息。优选的实施方式中,获取词义选项的一级目录信息。步骤643,根据词义选项的目录信息提取词义选项的目录特征。对具有相同主题特 性的目录信息提取对应的目录特征。步骤644,根据词义选项的目录特征进行机器建模,生成包括词义选项的相邻的目 录信息的目录特征的关联度关系的机器模型。由于多义词条样本库的每一个词条都包括 了多个词义选项,通过对同一词义选项下的具有相同主题特性的目录特征进行学习训练, 以及对不同词义选项下的具有不同主题特性的目录特征进行学习训练,可以建立包括词义 选项的相邻的目录信息的目录特征的关联度关系的机器模型。在优选的实施方式中,词义 选项的相邻的目录信息的目录特征的关联度关系包括相同词汇的数量、相同词汇的词汇属 性、相同词汇所占目录信息的比例、关联词汇的数量、关联词汇的词汇属性、关联词汇所占 目录信息的比例之一或其组合。
在步骤65中,根据所提取的目录特征,应用机器模型对前后相邻的目录信息的目 录特征进行关联度计算。其中,关联度计算可以采用多种方法,并且各种方法之间也可以单 独实施或相互结合实施,本发明现举例两种可以单独实施或相互结合实施的方法,但并非 用于限制本发明的实施方式。在本发明的一种实施方式中,应用机器模型对前后相邻的目录信息的目录特征中 的相同词汇的参数进行计算,通过计算相同词汇的数量、相同词汇所占目录信息的比例,或 者对相同词汇的词汇属性进行判断,实现对前后相邻的目录信息的关联度计算。例如,对 于文艺作品,特别是影视连续剧、连载小说等,其目录名称相同而内容不同,目录内容中相 同词汇出现数量很多,而且词汇属性为名词、动名词等,因此可以据此计算前后目录的关联 度。在本发明的另一种实施方式中,应用机器模型对前后相邻的目录信息的目录特征 中的关联词汇的参数进行计算,通过计算关联词汇的数量、关联词汇所占目录信息的比例, 或者对关联词汇的词汇属性进行判断,实现对前后相邻的目录信息的关联度计算。例如“刘 德华”和“朱丽倩”的相关度很高,“刘德华”和“老人”的相关度就低,“歌星”与“专辑”的 相关度很高,“歌星”与“战争”的相关度就低。这种词汇相关度可以通过相关词词典或者机 器样本学习的方式进行判断。在步骤66中,根据关联度计算结果对目录信息进行标记。标记方法包括多种实施 方式。在本发明的一种实施方式中,可以根据关联度计算结果将目录信息根据主题进行分 类。在本发明的另一种实施方式中,根据关联度计算结果将前后相邻的目录信息划分为相 关和无关,将起始目录以及与在前目录信息相关的目录信息标记为第一标记,将与在前目 录信息无关的目录信息标记为第二标记。举例来说,一个多义词条包括6个目录。通过各 个目录和对应的目录内容识别出该目录是不是一个相同主题的词义选项的开始部分,如果 是,标记成“B”,如果不是,标记成“I”。这样,6个目录可能被标记成如“BIBIIB”这样的结 果,那么目录1-2就是一个词义选项,目录3-5是一个词义选项,目录6是一个词义选项。这 样就实现了对多义词条内具有相同主题的目录的分类。如图7所示,图7是本发明的开放式知识共享平台的词条处理装置的示意框图。在 本实施方式中,词条处理装置包括词条获取模块70、多义词判断模块71以及词义选项划分 模块72词条获取模块70用于获取词条以及词条内容。在优选实施方式中,该词条及词条 内容可以是现有开放式知识共享平台中的以目录形式呈现的词条及词条内容。也就是说, 该词条内容包括多个目录以及分别位于各目录下的目录内容。其中,目录可以包括多个一 级目录,每个一级目录下还可以进一步包括多个二级目录、三级目录等子目录。多义词判断模块71用于判断词条是否为涉及不同主题的多义词。判断词条是否 为多义词的方法有多种,下面将以几个具体实施方式
进行描述。在一实施方式中,多义词判断模块71根据目录中的目录信息判断词条是否为涉 及不同主题的多义词。具体来说,多义词判断模块71判断不同的目录信息中是否存在涉及 不同主题的关键词。例如,如果词条“孙悦”的两个目录信息中分别出现了 “歌手孙悦”和 “球员孙悦”,由于“歌手”和“球员”涉及到不同的主题,则认为该词条“孙悦”为多义词。再 例如,在词条“射雕英雄传”的两个目录信息中分别出现了 “1983版”和“2008版”,则同样认为词条“射雕英雄传”为多义词。在一实施方式中,词条获取模块70进一步获取词条的分类信息,多义词判断模块 71根据词条的分类信息判断该词条是否为不同主题的多义词。例如,词条“苹果”的分类信 息中包括“植物”、“电影”以及“公司”三个不同的分类,则认为词条“苹果”为多义词。在另一实施方式中,可根据词条内容通过机器挖掘方法来自动识别词条是否是多 义词。如图8所示,图8是本发明的开放式知识共享平台的多义词判断模块的示意框图。在 本实施方式中,多义词判断模块包括词条特征提取模块80、标注特征集合获取模块81、词 条特征权重计算模块82以及阈值判断模块83词条特征提取模块80用于对待判定词条的词条内容进行特征提取,以获取多个 词条特征。具体来说,词条特征提取模块80对词条内容进行分词及过滤,并将分词及过滤 后获得的字词作为词条特征。其中,分词的作用是将词条内容中的汉字序列切分成有意义 的字词,以便后续处理。具体分词的方法包括正向匹配分词、反向匹配分词、正向反向匹 配分词、基于全切分词图的分词,最大熵马尔科夫模型分词、最大熵分词或条件随机场分词 等,上述分词方法均为本领域公知技术,在此不再赘述。过滤的作用是去除标点符号、助词 等无用fn息ο标注特征集合获取模块81用于获取标注特征集合。标注特征集合包括多个带有 权重值的标注特征。如图9所示,图8是本发明的开放式知识共享平台的标注特征集合获 取模块的示意框图。在本实施方式中,标注特征集合获取模块包括标注语料获取模块90、标 注特征提取模块91以及标注特征权重计算模块92。标注语料获取模块90用于获取包括多个多义词样本和非多义词样本的标注语 料。在标注语料中,多义词样本是指已经判定为多义词的词条及词条内容,非多义词样本是 指已经判定为非多义词的词条及词条内容。标注特征提取模块91用于从标注语料中提取多个标注特征。具体来说,标注特征 提取模块91分别对每个多义词样本以及每个非多义词样本进行分词及过滤,并将分词及 过滤后获得的字词作为标注特征。标注特征权重计算模块92用于根据标注特征在多义词样本和非多义词样本的出 现情况为标注特征分别分配对应的权重值。具体来说,标注特征权重计算模块92计算标注 特征在多义词样本中出现的次数M,计算标注特征在非多义词样本中出现的次数N,并计算 该标注特征的权重值等于M/ (M+N)。通过上述方法可知,如果某个标注特征在多义词样本中 出现的次数较多,同时在非多义词样本中出现的次数较少时,该标注特征的权重值就相对 较高。如果某个标注特征在多义词样本和非多义词中出现的次数相仿或者在多义词样本中 出现的次数较少,同时在非多义词样本中出现的次数较多时,该标注特征的权重值就相对 较低。词条特征权重计算模块82用于根据标注特征分别为从待判定词条的词条内容提 取的每一词条特征分配对应的权重值。具体来说,词条特征权重计算模块82在标注特征集 合中判断是否存在与每一词条特征相同的标注特征,若存在,则将该标注特征的权重值分 配给该词条特征。阈值判断模块83用于对从待判定词条的词条内容提取的多个词条特征的权重值 进行求和,并将权重值求和高于阈值的词条作为多义词。具体来说,如果待判定词条的多个词条特征的权重值越高,则代表该词条特征在多义词样本中出现的次数越高,该待判定词 条是多义词的概率就越高。在本实施方式中,具体阈值可根据实际情况进行设置。若多义词判断模块71判定词条为涉及不同主题的多义词,则词义选项划分模块 72将涉及不同主题的词条内容分别划分到对应词义选项下。在一优选实施方式中,词义选 项划分模块72以词条的一级目录以及一级目录下的目录内容作为一个基本预测单元,预 测基本预测单元是否属于不同主题,并根据预测结果将属于同一主题的基本预测单元划分 到同一词义选项。预测基本预测单元是否属于不同主题有多种,下面将以几个具体实施方 式进行描述。如图10所示,图10是本发明的开放式知识共享平台的多义词条的词义选项划分 装置的示意框图。词义选项划分模块进一步包括词条数据获取模块101、目录信息获取模 块102、目录特征提取模块103、机器模型获取模块104、目录相关度计算模块105以及标记 模块106。词条数据获取模块101用于获取未进行词义选项分类的多义词词条数据。该进行 词义选项分类的多义词词条数据可以通过上述图3所示的步骤31或者图4所示多义词判 定方法来获得。目录信息获取模块102用于根据词条中目录的位置获取词条的目录信息。在优选 的实施方式中,本发明根据多义词词条中一级目录的位置对词条进行分割,获取每个一级 目录的目录信息,目录信息包括一级目录名称以及一级目录下的目录内容等。目录特征提取模块103用于根据获取的目录信息,从中提取出多个特征。在对目 录信息进行特征提取的时候,需要先对词条内容进行分词及过滤,并将分词及过滤后获得 的字词作为词条特征。在优选的实施方式中,本发明采用正向最大匹配分词和反向最大匹 配分词相结合的方式对分词结果进行校正,以获取正确率较高的分词结果。机器模型获取模块104用于获取含目录特征关联度关系的机器模型。如图10所 示,机器模型获取模块104进一步包括样本获取模块1041、词义选项目录信息获取模块 1042、目录特征提取模块1043以及机器建模模块1044。样本获取模块1041用于获取已分 类为不同主题的词义选项的多义词条样本库。由于样本是已经分类为不同主题的词义选项 的多义词条,因此每一个词义选项下面的目录所对应的主题是相同的。词义选项目录信息 获取模块1042用于获取词义选项的目录信息。即获取词义选项下面具有相同主题特性的 目录信息。优选的实施方式中,获取词义选项的一级目录信息。目录特征提取模块1043用 于根据词义选项的目录信息提取词义选项的目录特征。对具有相同主题特性的目录信息提 取对应的目录特征。机器建模模块1044用于根据词义选项的目录特征进行机器建模,生成 包括词义选项的相邻的目录信息的目录特征的关联度关系的机器模型。在优选的实施方式 中,词义选项的相邻的目录信息的目录特征的关联度关系包括相同词汇的数量、相同词汇 的词汇属性、相同词汇所占目录信息的比例、关联词汇的数量、关联词汇的词汇属性、关联 词汇所占目录信息的比例之一或其组合。目录相关度计算模块105用于根据所提取的目录特征,应用机器模型对前后相邻 的目录信息的目录特征进行关联度计算。其中,目录相关度计算模块105可以采用多种计 算结构实现,并且各种计算结构之间也可以单独实施或相互结合实施。在本发明的一种实 施方式中,目录相关度计算模块105应用机器模型对前后相邻的目录信息的目录特征中的相同词汇的参数进行计算,通过计算相同词汇的数量、相同词汇所占目录信息的比例,或者 对相同词汇的词汇属性进行判断,实现对前后相邻的目录信息的关联度计算。在本发明的 另一种实施方式中,目录相关度计算模块105应用机器模型对前后相邻的目录信息的目录 特征中的关联词汇的参数进行计算,通过计算关联词汇的数量、关联词汇所占目录信息的 比例,或者对关联词汇的词汇属性进行判断,实现对前后相邻的目录信息的关联度计算。标记模块106用于根据关联度计算结果对目录信息进行标记。标记方法包括多种 实施方式。在本发明的一种实施方式中,可以根据关联度计算结果将目录信息根据主题进 行分类。在本发明的另一种实施方式中,根据关联度计算结果将前后相邻的目录信息划分 为相关和无关,将起始目录以及与在前目录信息相关的目录信息标记为第一标记,将与在 前目录信息无关的目录信息标记为第二标记。标记模块106标记模块进一步包括关联度 分类模块、第一标记模块以及第二标记模块。关联度分类模块根据关联度计算结果将前后 相邻的目录信息划分为相关和无关。第一标记模块将起始目录以及与在前目录信息相关的 目录信息标记为第一标记。第二标记模块将与在前目录信息无关的目录信息标记为第二标 记。通过上述所提供的技术方案,本发明提供了一种开放式知识共享平台及其多义词 展现方法,可将多义词中不同主题的词义选项显示出来,由用户进行选择,提高用户体验。以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的 精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
权利要求
1.一种开放式知识共享平台的词条处理方法,其特征在于,所述词条处理方法包括a.获取词条及词条内容;b.判断所述词条是否为涉及不同主题的多义词;c.若所述词条为涉及不同主题的多义词,则将涉及不同主题的所述词条内容分别划分 到对应的词义选项下。
2.根据权利要求1所述的词条处理方法,其特征在于,所述词条内容包括多个目录,在 所述步骤b中,根据所述目录中的目录信息判断所述词条是否为涉及不同主题的多义词。
3.根据权利要求1所述的词条处理方法,其特征在于,在所述步骤a中,进一步获取所 述词条的分类信息,在所述步骤b中,根据所述分类信息判断所述词条是否为涉及不同主 题的多义词。
4.根据权利要求1所述的词条处理方法,其特征在于,所述步骤b包括 bl.对所述词条内容进行特征提取,以获取多个词条特征;b2.获取标注特征集合,所述标注特征集合包括多个带有权重值的标注特征; b3.根据所述标注特征分别为每一所述词条特征分配对应的权重值;以及 b4.对所述多个词条特征的权重值进行求和,并将权重值求和高于阈值的词条作为多 义词。
5.根据权利要求4所述的词条处理方法,其特征在于,所述步骤1^2进一步包括 b21.获取包括多个多义词样本和非多义词样本的标注语料;b22.从所述标注语料中提取多个所述标注特征;b23.根据所述标注特征在所述多义词样本和所述非多义词样本的出现情况为所述标 注特征分别分配对应的权重值。
6.根据权利要求5所述的词条处理方法,其特征在于,在所述步骤1^23中,计算所述标 注特征在所述多义词样本中出现的次数M,计算所述标注特征在所述非多义词样本中出现 的次数N,并计算所述权重值等于M/ (M+N)。
7.根据权利要求1所述的词条处理方法,其特征在于,在所述步骤c中,以所述词条的 一级目录以及所述一级目录下的目录内容作为基本预测单元,预测所述基本预测单元是否 属于不同主题,并根据预测结果将属于不同主题的所述基本预测单元分别划分到对应的词 义选项。
8.根据权利要求7所述的词条处理方法,其特征在于,在所述步骤c中,根据所述一级 目录中的目录信息进行预测。
9.根据权利要求7所述的词条处理方法,其特征在于,所述步骤c进一步包括 cl.从所述基本预测单元中提取多个目录特征;c2.根据所述目录特征判断所述基本预测单元之间的关联度,并根据所述关联度产生 所述预测结果。
10.根据权利要求1所述的词条处理方法,其特征在于,所述步骤C进一步包括 cl.获取所述词条的目录信息;c2.根据所述目录信息提取目录特征; c3.获取含目录特征关联度关系的机器模型;c4.根据所提取的所述目录特征,应用所述机器模型对前后相邻的所述目录信息的所述目录特征进行关联度计算;c5.根据关联度计算结果对所述目录信息进行标记。
11.根据权利要求10所述的词条处理方法,其特征在于,所述步骤c2进一步包括在 提取所述目录特征时,先进行分词。
12.根据权利要求11所述的标的词分类分级方法,其特征在于,所述分词的方法包括 正向匹配分词、反向匹配分词、正向反向匹配分词、基于全切分词图的分词、最大熵马尔科 夫模型分词、最大熵分词或条件随机场分词。
13.根据权利要求10所述的词条处理方法,其特征在于,所述步骤c3进一步包括 c31.获取已分类为不同主题的词义选项的多义词条样本库;c32.获取所述词义选项的目录信息;c33.根据所述词义选项的目录信息提取所述词义选项的目录特征; c34.根据所述词义选项的目录特征进行机器建模,生成包括所述词义选项的相邻的所 述目录信息的所述目录特征的关联度关系的机器模型。
14.根据权利要求13所述的词条处理方法,其特征在于,所述词义选项的相邻的所述 目录信息的所述目录特征的关联度关系包括相同词汇的数量、相同词汇的词汇属性、相同 词汇所占目录信息的比例、关联词汇的数量、关联词汇的词汇属性、关联词汇所占目录信息 的比例之一或其组合。
15.根据权利要求10所述的词条处理方法,其特征在于,在所述步骤c4中,进行关联度 计算的方法包括计算相邻的所述目录信息的所述目录特征中相同词汇的数量。
16.根据权利要求15所述的词条处理方法,其特征在于,在所述步骤c4中,进行关联度 计算的方法还包括判断所述相同词汇的词汇属性。
17.根据权利要求15所述的词条处理方法,其特征在于,在所述步骤c4中,进行关联度 计算的方法还包括计算所述相同词汇所占目录信息的比例。
18.根据权利要求10所述的词条处理方法,其特征在于,在所述步骤c4中,进行关联度 计算的方法包括计算相邻的所述目录信息的所述目录特征中关联词汇的数量。
19.根据权利要求18所述的词条处理方法,其特征在于,在所述步骤c4中,进行关联度 计算的方法还包括判断所述关联词汇的词汇属性。
20.根据权利要求18所述的词条处理方法,其特征在于,在所述步骤c4中,进行关联度 计算的方法还包括计算所述关联词汇所占目录信息的比例。
21.根据权利要求10所述的词条处理方法,其特征在于,所述步骤c5进一步包括 c51.根据关联度计算结果将前后相邻的所述目录信息划分为相关和无关;c52.将起始目录以及与在前目录信息相关的所述目录信息标记为第一标记; c53.将与在前目录信息无关的所述目录信息标记为第二标记。
22.—种开放式知识共享平台,其特征在于,所述开放式知识共享平台包括 词条获取模块,获取词条及词条内容;多义词判断模块,判断所述词条是否为涉及不同主题的多义词; 词义选项划分模块,若所述词条为涉及不同主题的多义词,则将涉及不同主题的所述 词条内容分别划分到对应的词义选项下。
23.根据权利要求22所述的开放式知识共享平台,其特征在于,所述词条内容包括多个目录,所述多义词判断模块根据所述目录中的目录信息判断所述词条是否为涉及不同主 题的多义词。
24.根据权利要求22所述的开放式知识共享平台,其特征在于,所述词条获取模块进 一步获取所述词条的分类信息,所述多义词判断模块根据所述分类信息判断所述词条是否 为涉及不同主题的多义词。
25.根据权利要求22所述的开放式知识共享平台,其特征在于,所述多义词判断模块 包括词条特征提取模块,对所述词条内容进行特征提取,以获取多个词条特征; 标注特征集合获取模块,获取标注特征集合,所述标注特征集合包括多个带有权重值 的标注特征;词条特征权重计算模块,根据所述标注特征分别为每一所述词条特征分配对应的权重 值;以及阈值判断模块,对所述多个词条特征的权重值进行求和,并将权重值求和高于阈值的 词条作为多义词。
26.根据权利要求25所述的开放式知识共享平台,其特征在于,所述标注特征集合获 取模块进一步包括标注语料获取模块,获取包括多个多义词样本和非多义词样本的标注语料; 标注特征提取模块,从所述标注语料中提取多个所述标注特征; 标注特征权重计算模块,根据所述标注特征在所述多义词样本和所述非多义词样本的 出现情况为所述标注特征分别分配对应的权重值。
27.根据权利要求沈所述的开放式知识共享平台,其特征在于,所述标注特征权重计 算模块计算所述标注特征在所述多义词样本中出现的次数M,计算所述标注特征在所述非 多义词样本中出现的次数N,并计算所述权重值等于M/ (M+N)。
28.根据权利要求22所述的开放式知识共享平台,其特征在于,所述词义选项划分模 块以所述词条的一级目录以及所述一级目录下的目录内容作为基本预测单元,预测所述基 本预测单元是否属于不同主题,并根据预测结果将属于不同主题的所述基本预测单元分别 划分到对应的词义选项。
29.根据权利要求观所述的开放式知识共享平台,其特征在于,所述词义选项划分模 块根据所述一级目录中的目录信息进行预测。
30.根据权利要求22所述的开放式知识共享平台,其特征在于,所述词义选项划分模 块进一步包括目录信息获取模块,获取所述词条的目录信息; 目录特征提取模块,根据所述目录信息提取目录特征; 机器模型获取模块,获取含目录特征关联度关系的机器模型; 关联度计算模块,根据所提取的所述目录特征,应用所述机器模型对前后相邻的所述 目录信息的所述目录特征进行关联度计算,以及标记模块,根据关联度计算结果对所述目录信息进行标记。
31.根据权利要求30所述的开放式知识共享平台,其特征在于,所述机器模型获取模 块进一步包括词义选项样本获取模块,获取已分类为不同主题的词义选项的多义词条样本库; 词义选项目录信息获取模块,获取所述词义选项的目录信息; 词义选项目录特征提取模块,根据所述词义选项的目录信息提取所述词义选项的目录 特征;机器建模模块,根据所述词义选项的目录特征进行机器建模,生成包括所述词义选项 的相邻的所述目录信息的所述目录特征的关联度关系的机器模型。
32.根据权利要求31所述的开放式知识共享平台,其特征在于,所述词义选项的相邻 的所述目录信息的所述目录特征的关联度关系包括相同词汇的数量、相同词汇的词汇属 性、相同词汇所占目录信息的比例、关联词汇的数量、关联词汇的词汇属性、关联词汇所占 目录信息的比例之一或其组合。
33.根据权利要求30所述的开放式知识共享平台,其特征在于,所述关联度计算模块 进行关联度计算的方法包括计算相邻的所述目录信息的所述目录特征中相同词汇的数量。
34.根据权利要求33所述的开放式知识共享平台,其特征在于,所述关联度计算模块 进行关联度计算的方法还包括判断所述相同词汇的词汇属性。
35.根据权利要求33所述的开放式知识共享平台,其特征在于,所述关联度计算模块 进行关联度计算的方法还包括计算所述相同词汇所占目录信息的比例。
36.根据权利要求30所述的开放式知识共享平台,其特征在于,所述关联度计算模块 进行关联度计算的方法包括计算相邻的所述目录信息的所述目录特征中关联词汇的数量。
37.根据权利要求36所述的开放式知识共享平台,其特征在于,所述关联度计算模块 进行关联度计算的方法还包括判断所述关联词汇的词汇属性。
38.根据权利要求36所述的开放式知识共享平台,其特征在于,所述关联度计算模块 进行关联度计算的方法还包括计算所述关联词汇所占目录信息的比例。
39.根据权利要求30所述的开放式知识共享平台,其特征在于,所述标记模块进一步 包括关联度分类模块,根据关联度计算结果将前后相邻的所述目录信息划分为相关和无关;第一标记模块,将起始目录以及与在前目录信息相关的所述目录信息标记为第一标记;第二标记模块,将与在前目录信息无关的所述目录信息标记为第二标记。
全文摘要
本发明提供了一种开放式知识共享平台及其词条处理方法。该词条处理方法包括获取词条及词条内容;判断词条是否为涉及不同主题的多义词;若词条为涉及不同主题的多义词,则将涉及不同主题的词条内容分别划分到对应的词义选项下。通过上述所提供的技术方案,本发明提供了一种开放式知识共享平台及其词条处理方法,可将涉及不同主题的词条内容划分到不同词义选项下,使得开放式知识共享平台内容的粒度更细,更便于对同名不同主题的内容进行编辑完善和有针对性的引入扩展内容,从而提升用户的浏览体验。
文档编号G06F17/30GK102063497SQ20101061967
公开日2011年5月18日 申请日期2010年12月31日 优先权日2010年12月31日
发明者严冰, 乔峤, 唐益龙, 李永强, 来瑾颖, 梁东杰, 耿磊, 邓亮, 陈浩然, 韦晨曦 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1