一种关系化知识共享平台及其实现方法

文档序号:6353150阅读:198来源:国知局
专利名称:一种关系化知识共享平台及其实现方法
一种关系化知识共享平台及其实现方法
技术领域
本发明涉及网络技术,特别涉及一种关系化知识共享平台及其实现方法。背景技术
随着互联网技术的发展,知识共享平台服务于互联网络中业已广泛应用。知识共 享平台由大量用户对各种词条进行编辑,用以帮助有需要的人进行了解。目前,现有的知识 共享平台是将某一词条的全部词条内容以目录形式统一呈现给用户,用户需要在众多词条 内容中寻找自己想要的解释。例如,当用户想要了解周杰伦的专辑时,用户只能通过输入词 条“周杰伦”来获取与周杰伦相关的所有词条内容,再从词条内容中寻找周杰伦的专辑,导 致用户的浏览体验不佳。

发明内容本发明实施例提供了一种关系化知识共享平台及其实现方法,其通过对词条、属 性及属性值进行关系化处理,可以根据用户的查询请求呈现关系化的查询结果页面,提高 了用户的浏览体验。本发明提供了一种关系化知识共享平台的实现方法,包括a.获取词条以及与所 述词条相关的原始语料;b.从所述原始语料中提取与所述词条相关联的至少一个属性以 及对应的属性值,以形成词条属性库;c.获取用户的查询请求;d.利用所述查询请求在所 述词条属性库中进行匹配;以及e.根据匹配结果输出并进而呈现关系化查询结果页面。根据本发明之一优选实施例,在所述步骤d中,若所述查询请求与所述词条相匹 配,则在所述步骤e中,在所述关系化查询结果页面中呈现所述词条以及与所述词条相关 联的所述属性。根据本发明之一优选实施例,所述实现方法进一步包括f.获取用户对所述属性 的操作请求,进一步根据所述操作请求在所述关系化查询结果页面中呈现与所述属性对应 的所述属性值。根据本发明之一优选实施例,在所述步骤d中,若所述查询请求与所述词条及所 述属性相匹配,则在所述步骤e中,在所述关系化查询结果页面中呈现与所述词条以及所 述属性对应的所述属性值。根据本发明之一优选实施例,在所述步骤d中,若所述查询请求与所述属性或所 述属性值相匹配,则在所述步骤e中,在所述关系化查询结果页面中呈现与所述属性或所 述属性值相关联的所述词条。根据本发明之一优选实施例,所述步骤b包括bl.获取所述词条的分类信息; b2.根据所述分类信息确定所述属性;b3.根据所述属性从所述原始语料中提取对应的属 性值;b4.关联所述词条、所述属性以及所述属性值,以形成所述词条属性库。根据本发明之一优选实施例,所述步骤bl进一步包括bll.对所述原始语料进行 特征提取,以获得多个原始语料特征;bl2.对所述多个原始语料特征进行权重计算,以分配对应的原始语料特征权重;bl3.对所述多个原始语料特征进行向量化,以形成原始语料 向量;bl4.获取模型文件;bl5.通过所述原始语料向量计算所述原始语料与所述模型文件 的相似度;bl6.根据所述相似度对所述词条进行分类,进而确定所述词条的分类信息。根据本发明之一优选实施例,所述步骤bl4进一步包括bl41.获取训练语料; bl42.对所述训练语料进行特征提取,以获得多个训练语料特征;bl43.对所述多个训练语 料特征进行权重计算,以分配对应的训练语料特征权重;bl44.对所述多个训练语料特征 进行向量化,以形成训练语料向量;bl45.对所述训练语料向量进行分类标注;bl46.对分 类标注后的所述训练语料向量进行训练,以形成所述模型文件。根据本发明之一优选实施例,所述步骤b包括bl.获取所述词条的标签信息; b2.根据所述标签信息确定所述属性;b3.根据所述属性从所述原始语料中提取对应的属 性值;b4.关联所述词条、所述属性以及所述属性值,以形成所述词条属性库。本发明提供了一种关系化知识共享平台,包括原始语料获取模块,获取词条以及 与所述词条相关的原始语料;词条属性库形成模块,从所述原始语料中提取与所述词条相 关联的至少一个属性以及对应的属性值,以形成词条属性库;输入模块,获取用户的查询请 求;匹配模块,利用所述查询请求在所述词条属性库中进行匹配;以及输出模块,根据匹配 结果输出并进而呈现关系化查询结果页面。根据本发明之一优选实施例,若所述匹配模块判断所述查询请求与所述词条相匹 配,则所述输出模块在所述关系化查询结果页面中呈现所述词条以及与所述词条相关联的 所述属性。根据本发明之一优选实施例,所述输入模块进一步获取用户对所述属性的操作请 求,所述输出模块进一步根据所述操作请求在所述关系化查询结果页面中呈现与所述属性 对应的所述属性值。根据本发明之一优选实施例,若所述匹配模块判断所述查询请求与所述词条及所 述属性相匹配,则所述输出模块在所述关系化查询结果页面中呈现与所述词条以及所述属 性对应的所述属性值。根据本发明之一优选实施例,若所述匹配模块判断所述查询请求与所述属性或所 述属性值相匹配,则所述输出模块在所述关系化查询结果页面中呈现与所述属性或所述属 性值相关联的所述词条。根据本发明之一优选实施例,所述词条属性库形成模块包括分类信息获取模块, 获取所述词条的分类信息;属性确定模块,根据所述分类信息确定所述属性;属性值提取 模块,根据所述属性从所述原始语料中提取对应的属性值;关联模块,关联所述词条、所述 属性以及所述属性值,以形成所述词条属性库。根据本发明之一优选实施例,所述分类信息获取模块包括原始语料特征提取模 块,对所述原始语料进行特征提取,以获得多个原始语料特征;原始语料特征权重计算模 块,对所述多个原始语料特征进行权重计算,以分配对应的原始语料特征权重;原始语料向 量化模块,对所述多个原始语料特征进行向量化,以形成原始语料向量;模型文件获取模 块,获取模型文件;相似度计算模块,通过所述原始语料向量计算所述原始语料与所述模型 文件的相似度;分类模块,根据所述相似度对所述词条进行分类,进而确定所述词条的分类 fn息ο
根据本发明之一优选实施例,所述模型文件获取模块包括训练语料获取模块,获 取训练语料;训练语料特征提取模块,对所述训练语料进行特征提取,以获得多个训练语料 特征;训练语料特征权重计算模块,对所述多个训练语料特征进行权重计算,以分配对应的 训练语料特征权重;训练语料向量化模块,对所述多个训练语料特征进行向量化,以形成训 练语料向量;分类标注模块,对所述训练语料向量进行分类标注;训练模块,对分类标注后 的所述训练语料向量进行训练,以形成所述模型文件。根据本发明之一优选实施例,所述词条属性库形成模块包括标签信息获取模块, 获取所述词条的标签信息;属性确定模块,根据所述标签信息确定所述属性;属性值提取 模块,根据所述属性从所述原始语料中提取对应的属性值;关联模块,关联所述词条、所述 属性以及所述属性值,以形成所述词条属性库。通过上述所提供的技术方案,本发明提供了一种关系化知识共享平台及其实现方 法,其通过对词条、属性及属性值进行关系化处理,可以根据用户的查询请求呈现关系化的 查询结果页面,提高了用户的浏览体验。

图1是本发明的关系化知识共享平台的实现方法的流程示意图;图2是本发明的关系化知识共享平台的关系化查询结果页面的第一示意图;图3是本发明的关系化知识共享平台的关系化查询结果页面的第二示意图;图4是本发明的关系化知识共享平台的关系化查询结果页面的第三示意图;图5是本发明的关系化知识共享平台的词条属性库形成方法的流程示意图。图6是本发明的关系化知识共享平台的分类信息获取方法的流程示意图;图7是本发明的关系化知识共享平台的模型文件获取方法的示意框图;图8是本发明的关系化知识共享平台的示意框图;图9是本发明的关系化知识共享平台的词条属性库形成模块的示意框图;图10是本发明的关系化知识共享平台的分类信息获取模块的示意框图;图11是本发明的关系化知识共享平台的模型文件获取模块的示意框图。
具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对 本发明进行详细描述。首先请参见图1,图1是本发明的关系化知识共享平台的实现方法的流程示意图。在步骤11中,获取词条以及与词条相关的原始语料。在本步骤中,原始语料可以 是现有知识共享平台(例如,百度百科)中存在的以目录及段落方式按自然语言描述的词 条内容,也可以是以该词条为关键词利用搜索引擎从网络中获得的网页资料。在步骤12中,从原始语料中提取与词条相关联的至少一个属性以及对应的属性 值,以形成词条属性库。例如,针对词条“周杰伦”,可以根据属性“专辑”从原始语料提取出 周杰伦所出版的个人专辑的具体名称作为属性值,并可根据属性“广告代言”从原始语料提 取出周杰伦所代言的具体广告作为属性值。在下文中将结合具体实施例详细描述词条属性 库的具体形成方法。
在步骤13中,获取用户的查询请求。在本步骤中,用户可通过浏览器上的查询框 输入具体的查询请求,例如“刘德华的生日是哪天”。在用户输入查询请求后,通过点击浏览 器上的查询按钮,进而将该查询请求发送到关系化知识共享平台。在步骤14中,利用查询请求在词条属性库中进行匹配。在本步骤中,首先对查询 请求进行识别。具体识别过程可以包括分词、过滤以及在关键字库进行匹配等。其中,分 词的作用是将查询请求中的汉字序列切分成有意义的字词,以便后续处理。具体分词的方 法包括正向匹配分词、反向匹配分词、正向反向匹配分词、基于全切分词图的分词、最大熵 马尔科夫模型分词、最大熵分词或条件随机场分词等。过滤的作用是去除标点符号、助词等 无用信息。进行关键字库匹配的作用是确定是否可以识别出主题词和限制词等。例如,如 果查询请求为“刘德华的生日是哪天”,则通过上述步骤可以识别出主题词“生日”和限制词 “刘德华”。查询请求的具体识别过程为本领域公知技术,在此不再赘述。随后,利用识别出 来的主题词和/或限制词在词条属性库中进行匹配。例如,利用“生日”和“刘德华”与词 条属性库中的词条、属性和/或属性值进行匹配,从而获得匹配结果。在优选实施例中,可 以对查询请求进行同义词扩充。例如,将“生日”扩充为“出生日期”。在步骤15中,根据匹配结果输出并进而呈现关系化查询结果页面。在本步骤中, 根据不同的匹配结果,输出并进而呈现不同的关系化查询结果页面。 在一实施例中,在步骤13中,若查询请求与词条相匹配,则在步骤14中,在关系化 查询结果页面中呈现词条以及与词条相关联的属性。随后,获取用户对属性的操作请求,进 一步根据操作请求在关系化查询结果页面中呈现与属性对应的属性值。例如,如图2所示, 用户输入查询请求“周杰伦”,则关系化知识共享平台匹配到词条“周杰伦”,并将词条“周杰 伦”以及与词条“周杰伦”相关联的属性(例如,发行专辑、广告代言等)呈现在关系化查询 结果页面中。进一步的,用户可通过点击属性“发行专辑”来获取如图3所示的属性“发行 专辑”对应的具体专辑名称。当然,用户可进一步通过点击专辑名称,进入对应专辑的编辑 页面或直接获取该专辑。在本发明中,属性可进一步包括主属性和与主属性相关联的子属 性。例如,可将“人物”作为周杰伦的主属性,而将“歌手”作为属性“人物”下面关联的子属 性。在图2中,词条与相关联属性之间是通过关联线连接的。但如图4所示,词条与相 关联属性也可以通过列表形式呈现。此时,在列表的对应位置同样显示“编辑”、“展开”等 操作按钮,进而根据用户的操作请求呈现相对应的属性值。在另一实施例中,在步骤13中,若查询请求与词条及属性相匹配,则在步骤14中, 在关系化查询结果页面中呈现与词条以及属性对应的属性值。例如,用户输入查询请求“刘 德华的生日是哪天”,则关系化知识共享平台匹配到词条“刘德华”,并进一步匹配到与词条 “刘德华”相关联的属性“生日”。此时,关系化知识共享平台将对应的属性值“1961年9月 27日”呈现在关系化查询结果页面中。在再一实施例中,在步骤13中,若查询请求与属性或属性值相匹配,则在步骤14 中,在关系化查询结果页面中呈现与属性或属性值相关联的词条。例如,用户输入查询请求 “四大天王”,则关系化知识共享平台匹配到词条“刘德华”、“郭富城”、“黎明”以及“张学友” 都具有属性“四大天王”。此时,关系化知识共享平台将上述四个词条均呈现在关系化查询 结果页面中,并与“四大天王”进行关联。
8
如图5所示,图5是本发明的关系化知识共享平台的词条属性库形成方法的流程 示意图。在步骤51中,获取词条的分类信息或标签信息。其中,分类信息可以通过词条在 知识共享平台的现有分类获得。一般的知识共享平台都会按词条属性进行分类。例如,分 为“自然”、“文化”、“人物”等大类,而“自然”又可分为“生物”、“天文”等小类,而“生物”又 可分为“动物”、“植物”、“微生物”等更小类。当然,分类信息也可以通过其他方式获得,下 文将描述一种通过机器聚类方式获得分类信息的方法。标签信息是指根据词条的属性在词 条上添加的标记性信息。例如,词条“珠穆朗玛峰”可设置“西藏”、“喜马拉雅山脉”、“地理” 等标签。在步骤52中,根据分类信息或标签信息确定待提取的属性。例如,词条的分类信 息为“人物”,则待提取的属性可以包括“出生年月”、“籍贯”、“身高”、“性别”。待提取的属 性可以根据分类信息人工设定,也可以用统计方法从原始语料中提取出现比较频繁的字词 作为属性。在步骤53中,根据待提取的属性从原始语料中提取对应的属性值。在本步骤中, 可通过属性值与属性的编辑特点提取对应的属性值。例如,如果针对属性“生日”,可以根 据“生日”在原始语料出现位置,在出现位置前后提取符合日期格式的信息作为属性值。另 外,对于含有表格等结构化数据的原始语料,同样可以在对应位置或栏位提取到相应的属 性值。在步骤M中,关联词条、属性以及属性值,以形成词条属性库。在本步骤中,词条 属性库可以采用本领域公知的各种关系化数据库实现,在此不再赘述。如图6所示,图6是本发明的关系化知识共享平台的分类信息获取方法的流程示 意图。在步骤61中,对原始语料进行特征提取,以获得多个原始语料特征。在本步骤中, 可通过对原始语料进行分词及过滤处理,将分词及过滤后获得的字词作为原始语料特征。在步骤62中,对多个原始语料特征进行权重计算,以分配对应的原始语料特征权 重。例如,利用TF-IDF算法计算原始语料特征对应的TF-IDF权值。在步骤63中,对多个原始语料特征进行向量化,以形成原始语料向量。具体向量 化过程为本领域公知技术,在此也不再赘述。在步骤64中,获取模型文件。模型文件中包括标注有不同分类信息的多个模型向 量。模型文件的具体形成过程将在下文中进行详细描述。在步骤65中,通过原始语料向量计算原始语料与模型文件的相似度。例如,可通 过余弦相似度计算公式,根据原始语料向量与模型向量计算出原始语料向量与模型文件的 余弦相似度。在步骤65中,根据相似度对词条进行分类,进而确定词条的分类信息。例如,如果 原始语料与模型文件的余弦相似度大于阈值,则认为二者属于同类,进而可确定出原始语 料的分类信息。如图7所示,图7是本发明的关系化知识共享平台的模型文件获取方法的流程示 意图。在步骤71中,获取训练语料。在本步骤中,训练语料可以是针对特定分类的词条内容或网页资料。在步骤72中,对训练语料进行特征提取,以获得多个训练语料特征。在本步骤中, 可通过对训练语料进行分词及过滤处理,将分词及过滤后获得的字词作为训练语料特征。在步骤73中,对多个训练语料特征进行权重计算,以分配对应的训练语料特征权 重。例如,利用TF-IDF算法计算训练语料特征对应的TF-IDF权值。在步骤74中,对多个训练语料特征进行向量化,以形成训练语料向量。具体向量 化过程为本领域公知技术,在此也不再赘述。在步骤75中,对训练语料向量进行分类标注。在本步骤中,可通过人工方式或机 器方式为每一训练语料向量标注对应的分类信息。在步骤76中,对分类标注后的训练语料向量进行训练,以形成模型文件。在本步 骤中,对同一分类的多个训练语料向量进行机器训练,以利用多个训练语料向量形成一个 综合不同训练语料向量的模型向量,进而形成模型文件。请参见图8,图8是本发明的关系化知识共享平台的示意框图。在本实施例中,关 系化知识共享平台包括原始语料获取模块81、词条属性库形成模块82、匹配模块83、输入 模块84以及输出模块85。原始语料获取模块81用于获取词条以及与词条相关的原始语料。其中,原始语料 可以是现有知识共享平台(例如,百度百科)中存在的以目录及段落方式按自然语言描述 的词条内容,也可以是以该词条为关键词利用搜索引擎从网络中获得的网页资料。词条属性库形成模块82用于从原始语料中提取与词条相关联的至少一个属性以 及对应的属性值,以形成词条属性库。例如,针对词条“周杰伦”,词条属性库形成模块82可 以根据属性“发行专辑”从原始语料提取出周杰伦所出版的个人专辑的具体名称作为属性 值,并可根据属性“广告代言”从原始语料提取出周杰伦所代言的具体广告作为属性值。在 下文中将结合具体实施例详细描述词条属性库形成模块82的具体结构。输入模块84用于获取用户的查询请求。用户可通过浏览器上的查询框输入具体 的查询请求,例如“刘德华的生日是哪天”。在用户输入查询请求后,通过点击浏览器上的查 询按钮,进而将该查询请求发送到输入模块84。匹配模块83用于利用查询请求在词条属性库中进行匹配。匹配模块83首先对查 询请求进行识别。具体识别过程可以包括分词、过滤以及在关键字库进行匹配等。其中, 分词的作用是将查询请求中的汉字序列切分成有意义的字词,以便后续处理。具体分词的 方法包括正向匹配分词、反向匹配分词、正向反向匹配分词、基于全切分词图的分词、最大 熵马尔科夫模型分词、最大熵分词或条件随机场分词等。过滤的作用是去除标点符号、助词 等无用信息。进行关键字库匹配的作用是确定是否可以识别出主题词和限制词等。例如, 如果查询请求为“刘德华的生日是哪天”,则通过上述步骤可以识别出主题词“生日”和限制 词“刘德华”。查询请求的具体识别过程为本领域公知技术,在此不再赘述。随后,匹配模块 83利用识别出来的主题词和/或限制词在词条属性库中进行匹配。例如,利用“生日”和 “刘德华”与词条属性库中的词条、属性和/或属性值进行匹配,从而获得匹配结果。在优选 实施例中,匹配模块83可以对查询请求进行同义词扩充。例如,将“生日”扩充为“出生日 期”。输出模块85用于根据匹配结果输出并进而呈现关系化查询结果页面。输出模块85根据不同的匹配结果,输出并进而呈现不同的关系化查询结果页面。在一实施例中,若匹配模块83判断查询请求与词条相匹配,则输出模块85在关系 化查询结果页面中呈现词条以及与词条相关联的属性。随后,输入模块84获取用户对属性 的操作请求,输出模块85进一步根据操作请求在关系化查询结果页面中呈现与属性对应 的属性值。例如,如图2所示,用户输入查询请求“周杰伦”,匹配模块83匹配到词条“周杰 伦”,则输出模块85将词条“周杰伦”以及与词条“周杰伦”相关联的属性(例如,发行专辑、 广告代言等)呈现在关系化查询结果页面中。进一步的,用户可通过点击属性“发行专辑” 来获取如图3所示的属性“发行专辑”对应的具体专辑名称。当然,用户可进一步通过点击 专辑名称,进入对应专辑的编辑页面或直接获取该专辑。在本发明中,属性可进一步包括主 属性和与主属性相关联的子属性。例如,可将“人物”作为周杰伦的主属性,而将“歌手”作 为属性“人物”下面关联的子属性。在图2中,词条与相关联属性之间是通过关联线连接的。但如图4所示,词条与相 关联属性也可以通过列表形式呈现。此时,在列表的对应位置同样显示“编辑”、“展开”等 操作按钮,进而根据用户的操作请求呈现相对应的属性值。在另一实施例中,若匹配模块83判断查询请求与词条及属性相匹配,则输出模块 85在关系化查询结果页面中呈现与词条以及属性对应的属性值。例如,用户输入查询请求 “刘德华的生日是哪天”,匹配模块83匹配到词条“刘德华”,并进一步匹配到与词条“刘德 华”相关联的属性“生日”。此时,输出模块85将对应的属性值“1961年9月27日”呈现在 关系化查询结果页面中。在再一实施例中,若匹配模块83判断查询请求与属性或属性值相匹配,则输出模 块85在关系化查询结果页面中呈现与属性或属性值相关联的词条。例如,用户输入查询请 求“四大天王”,匹配模块83匹配到词条“刘德华”、“郭富城”、“黎明”以及“张学友”都具有 属性“四大天王”。此时,输出模块85将上述四个词条均呈现在关系化查询结果页面中,并 与“四大天王”进行关联。如图9所示,图9是本发明的关系化知识共享平台的词条属性库形成模块的示意 框图。在本实施例中,词条属性库形成模块包括分类信息获取模块90、标签信息获取模块 91、属性确定模块92、属性值提取模块93以及关联模块94。分类信息获取模块90用于获取词条的分类信息,标签信息获取模块91用于获取 标签信息。其中,分类信息可以通过词条在知识共享平台的现有分类获得。一般的知识共 享平台都会按词条属性进行分类。例如,分为“自然”、“文化”、“人物”等大类,而“自然”又 可分为“生物”、“天文”等小类,而“生物”又可分为“动物”、“植物”、“微生物”等更小类。当 然,分类信息也可以通过其他方式获得,下文将描述一种基于机器聚类方式的分类信息获 取模块。标签信息是指根据词条的属性在词条上添加的标记性信息。例如,词条“珠穆朗玛 峰”可设置“西藏”、“喜马拉雅山脉”、“地理”等标签。属性确定模块92用于根据分类信息或标签信息确定待提取的属性。例如,词条的 分类信息为“人物”,则待提取的属性可以包括“出生年月”、“籍贯”、“身高”、“性别”。待提 取的属性可以根据分类信息人工设定,也可以用统计方法从原始语料中提取出现比较频繁 的字词作为属性。属性值提取模块93用于根据待提取的属性从原始语料中提取对应的属性值。属
11性值提取模块93可通过属性值与属性的编辑特点提取对应的属性值。例如,如果针对属性 “生日”,属性值提取模块93可以根据“生日”在原始语料出现位置,在出现位置前后提取符 合日期格式的信息作为属性值。另外,对于含有表格等结构化数据的原始语料,属性值提取 模块93可以在对应位置或栏位提出到相应的属性值。关联模块94用于关联词条、属性以及属性值,以形成词条属性库。其中,词条属性 库可以采用本领域公知的各种关系化数据库实现,在此不再赘述。如图10所示,图10是本发明的关系化知识共享平台的分类信息获取模块的示意 框图。在本实施例中,分类信息获取模块可以包括原始语料特征提取模块101、原始语料特 征权重计算模块102、原始语料向量化模块103、模型文件获取模块104、相似度计算模块 105、分类模块106。原始语料特征提取模块101用于对原始语料进行特征提取,以获得多个原始语料 特征。原始语料特征提取模块101可通过对原始语料进行分词及过滤处理,将分词及过滤 后获得的字词作为原始语料特征。原始语料特征权重计算模块102用于对多个原始语料特征进行权重计算,以分配 对应的原始语料特征权重。例如,利用TF-IDF算法计算原始语料特征对应的TF-IDF权值。原始语料向量化模块103用于对多个原始语料特征进行向量化,以形成原始语料 向量。具体向量化过程为本领域公知技术,在此也不再赘述。模型文件获取模块104用于获取模型文件。模型文件中包括标注有不同分类信息 的多个模型向量。模型文件获取模块104的具体结构将在下文中进行详细描述。相似度计算模块105用于通过原始语料向量计算原始语料与模型文件的相似度。 例如,可通过余弦相似度计算公式,根据原始语料向量与模型向量计算出原始语料向量与 模型文件的余弦相似度。分类模块106用于根据相似度对词条进行分类,进而确定词条的分类信息。例如, 如果原始语料与模型文件的余弦相似度大于阈值,则认为二者属于同类,进而可确定出原 始语料的分类信息。如图11所示,图1是本发明的关系化知识共享平台的模型文件获取模块的示意框 图。在本实施例中,模型文件获取模块包括训练语料获取模块111、训练语料特征提取模块 112、训练语料特征权重计算模块113、训练语料向量化模块114、分类标注模块115、训练模 块 116。训练语料获取模块111用于获取训练语料。其中,训练语料可以是针对特定分类 的词条内容或网页资料。训练语料特征提取模块112用于对训练语料进行特征提取,以获得多个训练语料 特征。训练语料特征提取模块112可通过对训练语料进行分词及过滤处理,将分词及过滤 后获得的字词作为训练语料特征。训练语料特征权重计算模块113用于对多个训练语料特征进行权重计算,以分配 对应的训练语料特征权重。例如,利用TF-IDF算法计算训练语料特征对应的TF-IDF权值。训练语料向量化模块114用于对多个训练语料特征进行向量化,以形成训练语料 向量。具体向量化过程为本领域公知技术,在此也不再赘述。分类标注模块115用于对训练语料向量进行分类标注。分类标注模块115可通过人工方式或机器方式为每一训练语料向量标注对应的分类信息。训练模块116用于对分类标注后的训练语料向量进行训练,以形成模型文件。训 练模块116对同一分类的多个训练语料向量进行机器训练,以利用多个训练语料向量形成 一个综合不同训练语料向量的模型向量,进而形成模型文件。通过上述所提供的技术方案,本发明提供了一种关系化知识共享平台及其实现方 法,其通过对词条、属性及属性值进行关系化处理,可以根据用户的查询请求呈现关系化的 查询结果页面,提高了用户的浏览体验。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
权利要求
1.一种关系化知识共享平台的实现方法,其特征在于,所述实现方法包括a.获取词条以及与所述词条相关的原始语料;b.从所述原始语料中提取与所述词条相关联的至少一个属性以及对应的属性值,以形 成词条属性库;c.获取用户的查询请求;d.利用所述查询请求在所述词条属性库中进行匹配;以及e.根据匹配结果输出并进而呈现关系化查询结果页面。
2.根据权利要求1所述的关系化知识共享平台的实现方法,其特征在于,在所述步骤d 中,若所述查询请求与所述词条相匹配,则在所述步骤e中,在所述关系化查询结果页面中 呈现所述词条以及与所述词条相关联的所述属性。
3.根据权利要求2所述的关系化知识共享平台的实现方法,其特征在于,所述实现方 法进一步包括f.获取用户对所述属性的操作请求,进一步根据所述操作请求在所述关系 化查询结果页面中呈现与所述属性对应的所述属性值。
4.根据权利要求1所述的关系化知识共享平台的实现方法,其特征在于,在所述步骤d 中,若所述查询请求与所述词条及所述属性相匹配,则在所述步骤e中,在所述关系化查询 结果页面中呈现与所述词条以及所述属性对应的所述属性值。
5.根据权利要求1所述的关系化知识共享平台的实现方法,其特征在于,在所述步骤d 中,若所述查询请求与所述属性或所述属性值相匹配,则在所述步骤e中,在所述关系化查 询结果页面中呈现与所述属性或所述属性值相关联的所述词条。
6.根据权利要求1所述的关系化知识共享平台的实现方法,其特征在于,所述步骤b包括bl.获取所述词条的分类信息;b2.根据所述分类信息确定所述属性;b3.根据所述属性从所述原始语料中提取对应的属性值;b4.关联所述词条、所述属性以及所述属性值,以形成所述词条属性库。
7.根据权利要求6所述的关系化知识共享平台的实现方法,其特征在于,所述步骤bl 进一步包括bll.对所述原始语料进行特征提取,以获得多个原始语料特征;bl2.对所述多个原始语料特征进行权重计算,以分配对应的原始语料特征权重;bl3.对所述多个原始语料特征进行向量化,以形成原始语料向量;bl4.获取模型文件;bl5.通过所述原始语料向量计算所述原始语料与所述模型文件的相似度; bl6.根据所述相似度对所述词条进行分类,进而确定所述词条的分类信息。
8.根据权利要求7所述的关系化知识共享平台的实现方法,其特征在于,所述步骤bl4 进一步包括bl41.获取训练语料;bl42.对所述训练语料进行特征提取,以获得多个训练语料特征; bl43.对所述多个训练语料特征进行权重计算,以分配对应的训练语料特征权重; bl44.对所述多个训练语料特征进行向量化,以形成训练语料向量;bl45.对所述训练语料向量进行分类标注;bl46.对分类标注后的所述训练语料向量进行训练,以形成所述模型文件。
9.根据权利要求1所述的关系化知识共享平台的实现方法,其特征在于,所述步骤b包括bl.获取所述词条的标签信息;b2.根据所述标签信息确定所述属性;b3.根据所述属性从所述原始语料中提取对应的属性值;b4.关联所述词条、所述属性以及所述属性值,以形成所述词条属性库。
10.一种关系化知识共享平台,其特征在于,所述关系化知识共享平台包括 原始语料获取模块,获取词条以及与所述词条相关的原始语料;词条属性库形成模块,从所述原始语料中提取与所述词条相关联的至少一个属性以及 对应的属性值,以形成词条属性库; 输入模块,获取用户的查询请求;匹配模块,利用所述查询请求在所述词条属性库中进行匹配;以及 输出模块,根据匹配结果输出并进而呈现关系化查询结果页面。
11.根据权利要求10所述的关系化知识共享平台,其特征在于,若所述匹配模块判断 所述查询请求与所述词条相匹配,则所述输出模块在所述关系化查询结果页面中呈现所述 词条以及与所述词条相关联的所述属性。
12.根据权利要求11所述的关系化知识共享平台,其特征在于,所述输入模块进一步 获取用户对所述属性的操作请求,所述输出模块进一步根据所述操作请求在所述关系化查 询结果页面中呈现与所述属性对应的所述属性值。
13.根据权利要求10所述的关系化知识共享平台,其特征在于,若所述匹配模块判断 所述查询请求与所述词条及所述属性相匹配,则所述输出模块在所述关系化查询结果页面 中呈现与所述词条以及所述属性对应的所述属性值。
14.根据权利要求10所述的关系化知识共享平台,其特征在于,若所述匹配模块判断 所述查询请求与所述属性或所述属性值相匹配,则所述输出模块在所述关系化查询结果页 面中呈现与所述属性或所述属性值相关联的所述词条。
15.根据权利要求10所述的关系化知识共享平台,其特征在于,所述词条属性库形成 模块包括分类信息获取模块,获取所述词条的分类信息; 属性确定模块,根据所述分类信息确定所述属性; 属性值提取模块,根据所述属性从所述原始语料中提取对应的属性值; 关联模块,关联所述词条、所述属性以及所述属性值,以形成所述词条属性库。
16.根据权利要求15所述的关系化知识共享平台,其特征在于,所述分类信息获取模 块包括原始语料特征提取模块,对所述原始语料进行特征提取,以获得多个原始语料特征; 原始语料特征权重计算模块,对所述多个原始语料特征进行权重计算,以分配对应的 原始语料特征权重;原始语料向量化模块,对所述多个原始语料特征进行向量化,以形成原始语料向量;模型文件获取模块,获取模型文件;相似度计算模块,通过所述原始语料向量计算所述原始语料与所述模型文件的相似度;分类模块,根据所述相似度对所述词条进行分类,进而确定所述词条的分类信息。
17.根据权利要求16所述的关系化知识共享平台,其特征在于,所述模型文件获取模 块包括训练语料获取模块,获取训练语料;训练语料特征提取模块,对所述训练语料进行特征提取,以获得多个训练语料特征; 训练语料特征权重计算模块,对所述多个训练语料特征进行权重计算,以分配对应的 训练语料特征权重;训练语料向量化模块,对所述多个训练语料特征进行向量化,以形成训练语料向量; 分类标注模块,对所述训练语料向量进行分类标注;训练模块,对分类标注后的所述训练语料向量进行训练,以形成所述模型文件。
18.根据权利要求10所述的关系化知识共享平台,其特征在于,所述词条属性库形成 模块包括标签信息获取模块,获取所述词条的标签信息; 属性确定模块,根据所述标签信息确定所述属性; 属性值提取模块,根据所述属性从所述原始语料中提取对应的属性值; 关联模块,关联所述词条、所述属性以及所述属性值,以形成所述词条属性库。
全文摘要
本发明提供了一种关系化知识共享平台及其实现方法。该实现方法包括获取词条以及与词条相关的原始语料;从原始语料中提取与词条相关联的至少一个属性以及对应的属性值,以形成词条属性库;获取用户的查询请求;利用查询请求在词条属性库中进行匹配;以及根据匹配结果输出并进而呈现关系化查询结果页面。通过上述所提供的技术方案,本发明提供了一种关系化知识共享平台及其实现方法,其通过对词条、属性及属性值进行关系化处理,可以根据用户的查询请求呈现关系化的查询结果页面,提高了用户的浏览体验。
文档编号G06F17/30GK102073729SQ201110007580
公开日2011年5月25日 申请日期2011年1月14日 优先权日2011年1月14日
发明者严冰, 严孙荣, 唐益龙, 夏寅, 张伟, 曹建栋, 李博, 李永强, 梁东杰, 王京津, 王坤, 耿磊, 苏上海, 薛永刚, 陆海霞, 陈恭明, 陈浩然, 韦晨曦 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1