用于丰富网站内容的方法和装置、网站服务器的制造方法

文档序号:6487486阅读:121来源:国知局
用于丰富网站内容的方法和装置、网站服务器的制造方法
【专利摘要】本公开涉及一种用于丰富网站内容的装置和方法、网站服务器。本发明的用于丰富网站内容的方法包括:从所述网站和其它网站获得语料库,从所述语料库中提取所述对象的特征,其中所述语料库包括关于对象的说明和用户对所述对象的评价;根据所述语料库,为提取出的特征构建多维向量;针对特定特征,将其多维向量与提取出的其它特征的多维向量进行相似度比较;将相似度高于预定阈值的特征确定为相同特征,并且将与所述网站上的对象的特征不同的特征和其相应属性补充到该网站。本发明提高了网页整合效率。
【专利说明】用于丰富网站内容的方法和装置、网站服务器
【技术领域】
[0001]本公开总体来说涉及一种丰富网站内容的方法和装置,更具体地,本公开涉及利用语义分析、计算方法来丰富网站中关于对象的说明。
【背景技术】
[0002]如今,各种各样的网站提供各种各样的网络内容。网页上经常保护对一个对象的说明,例如对一个事件、一个产品、一个人物的说明等。用户看到该网页上,往往会产生一种需求,即想看到关于这个事件、这个产品、这个人物其它方面的说明,并希望能够看到一个网页,在该网页上将在该网站和其它网站上找到的关于这个事件、这个产品、这个人物的说明整合在一起,便于用户阅读。
[0003]作为一个例子,用户在网页上看到一个人物的说明。用户非常想知道该人物更多的方面,但本网页上只有该人物的年龄、身高、性别。如果用户想知道关于该人物的其它方面,该用户必须查询其它的网页。用户希望看到一个整合的网页,该网页上将在本网站和其它网站上找到的关于这个人物的说明例如按照年龄、身高、性别、兴趣、职业、血型、星座等方面整合在一起,便于用户阅读。
[0004]作为另一个例子,用户在网页上看到一个产品的说明。用户非常想知道该产品更多的方面,但本网页上只有该产品的型号、颜色、价格。如果用户想知道关于该产品的其它方面,该用户必须查询其它的网页。用户希望看到一个整合的网页,该网页上将在本网站和其它网站上找到的关于这个产生的说明例如按照年型号、颜色、价格、尺寸、芯片、内存、重量等方面整合在一起,便于用户阅读。
[0005]一般来说,在具有关于人物的说明的网站上,还有其它用户看了该关于人物的说明后的一些评论或感想。在具有关于产品的说明的网站上,还有其它用户看了该关于产品的说明后的一些评论或感想。这些评论或感想与关于人物或产品的说明位于网页格式的不同的块中。
[0006]在各个网站上关于对象的说明往往采用了不同的词语。如果简单地收集网站所提供的说明和数据,很可能提供了重复的信息。例如不同的网站上对于同一对象的说明中可能分别出现了屏幕、显示器、手机屏、显示屏等等,但实际上它们的含义是基本相同的。如果把关于它们的信息都整合进网页中,提供了重复的信息且页面可读性差。
[0007]另一方面,现有技术中仅仅关注了对网站说明的收集和提取。但实际上,用户的评论或感想中也存在着大量有用的信息。现有技术没有实现网页信息利用最大化。

【发明内容】

[0008]本发明解决的一个技术问题是提供一种丰富网络内容的方法、装置及网络服务器,其能够用其它网站上关于对象的说明来丰富网站上关于对象的说明而不引入重复信息,提高网页整合效率。
[0009]根据本发明的一方面,提供了一种用于丰富网站内容的方法,所述方法包括:从所述网站和其它网站获得语料库,从所述语料库中提取对象的特征,其中所述语料库包括关于所述对象的说明和用户对所述对象的评价;根据所述语料库,为提取出的特征构建多维向量;针对特定特征,将其多维向量与提取出的其它特征的多维向量进行相似度比较;将相似度高于预定阈值的特征确定为相同特征,并且将与所述网站上的对象的特征不同的特征和其相应属性补充到该网站。
[0010]可选地,从所述网站和其它网站获得语料库包括:指定所述其它网站;分析所述网站和其它网站的格式;按照分析出的所述网站和其它网站的格式,寻找含有与所述对象对应的对象标识的所有的块;根据块的格式判断寻找到的块是关于对象的说明还是用户对所述对象的评价,将寻找到的关于对象的说明和用户对所述对象的评价作为语料库。
[0011]可选地,从所述语料库中提取所述对象的特征包括:从所述网站和其它网站中关于对象的说明中提取特征种子,其中按照所述网站和其它网站中关于对象的说明的格式,从相应字段中提取特征种子;按照提取出的特征种子,从用户对所述对象的评价提取附加特征。
[0012]可选地,从用户对所述对象的评价提取附加特征包括:从用户对所述对象的评价中提取出所述特征种子附近满足预定条件的名词作为附加特征;从用户对所述对象的评价中提取出包含所述特征种子的名词词组作为附加特征;如果提取出的附加特征不在特征种子的列表中,将提取出的附加特征加入到特征种子的列表;迭代地重复上述步骤,直到不在特征种子的列表中的新提取出的附加特征的数目低于预定阈值为止。
[0013]可选地,满足预定条件的名词是指在特征种子附近的预定范围内的出现频率最高的前η名的名词,η为自然数。
[0014]可选地,所构建的多维向量至少包括以下维度中的一个或多个:特征的情感线索,包括从所述用户对所述对象的评价提取出特定特征的评价词、情感词组成的对或特定特征的评价分类标记、情感词组成的对,其中对于含义类似的评价词给予相同的评价分类标记;特征的上下文线索,即在从用户对所述对象的评价中特定特征附近满足预定条件的形容词和/或名词和/或名词短语和/或否定词;特征的可用标签,即所述网站和其它网站赋予特定特征的分组标签信息。
[0015]可选地,所构建的多维向量还包括如下维度中的至少一个:特征的名称;特征的内部线索,其中特征的内部线索包括特定特征的关键词和特定特征的构成词,其中所述关键词和构成词都构成所述多维向量中的维度。
[0016]可选地,针对特定特征将其多维向量与提取出的其它特征的多维向量进行相似度比较包括:将提取出的所有特征的多维向量的维度进行对准,其中对于特定特征,将提取出的其它特征的多维向量中的维度也视为该特定特征的维度,从而使每个特征的多维向量中的维度数相同;计算所述语料库中特定特征与其多维向量的每一维度之间的互信息作为每一维度的权重;根据所述权重计算各特征的多维向量之间的相似度。
[0017]可选地,计算所述语料库中所述特征与其多维向量的每一维度之间的互信息作为每一维度的权重包括:
[0018]对于由于将提取出的其它特征的多维向量中的维度视为特定特征的维度导致的增加维度,权重视为0,否则利用如下公式计算特定特征与其特定维度的互信息作为权重:[0019]
【权利要求】
1.一种用于丰富网站内容的方法,所述方法包括: 从所述网站和其它网站获得语料库,从所述语料库中提取对象的特征,其中所述语料库包括关于所述对象的说明和用户对所述对象的评价; 根据所述语料库,为提取出的特征构建多维向量; 针对特定特征,将其多维向量与提取出的其它特征的多维向量进行相似度比较; 将相似度高于预定阈值的特征确定为相同特征,并且将与所述网站上的对象的特征不同的特征和其相应属性补充到该网站。
2.根据权利要求1所述的方法,其中从所述网站和其它网站获得语料库包括: 指定所述其它网站; 分析所述网站和其它网站的格式; 按照分析出的所述网站和其它网站的格式,寻找含有与所述对象对应的对象标识的所有的块; 根据块的格式判断寻找到的块是关于对象的说明还是用户对所述对象的评价,将寻找到的关于对象的说明和用户对所述对象的评价作为语料库。
3.根据权利要求1所述的方法,其中从所述语料库中提取所述对象的特征包括: 从所述网站和其它网站中关于对象的说明中提取特征种子,其中按照所述网站和其它网站中关于对象的说明的格式,从相应字段中提取特征种子; 按照提取出的特征种子,从用户对所述对象的评价提取附加特征。
4.根据权利要求3所述的方法,其中从用户对所述对象的评价提取附加特征包括: 从用户对所述对象的评价中提取出所述特征种子附近满足预定条件的名词作为附加特征; 从用户对所述对象的评价中提取出包含所述特征种子的名词词组作为附加特征; 如果提取出的附加特征不在特征种子的列表中,将提取出的附加特征加入到特征种子的列表; 迭代地重复上述步骤,直到不在特征种子的列表中的新提取出的附加特征的数目低于预定阈值为止。
5.根据权利要求4所述的方法,其中满足预定条件的名词是指在特征种子附近的预定范围内的出现频率最高的前η名的名词,η为自然数。
6.根据权利要求1-5中任一个所述的方法,其中所构建的多维向量至少包括以下维度中的一个或多个: 特征的情感线索,包括从所述用户对所述对象的评价提取出特定特征的评价词、情感词组成的对或特定特征的评价分类标记、情感词组成的对,其中对于含义类似的评价词给予相同的评价分类标记; 特征的上下文线索,即在从用户对所述对象的评价中特定特征附近满足预定条件的形容词和/或名词和/或名词短语和/或否定词; 特征的可用标签,即所述网站和其它网站赋予特定特征的分组标签信息。
7.根据权利要求6中任一个所述的方法,其中所构建的多维向量还包括如下维度中的至少一个: 特征的名称;特征的内部线索,其中特征的内部线索包括特定特征的关键词和特定特征的构成词,其中所述关键词和构成词都构成所述多维向量中的维度。
8.根据权利要求1-5任意一项所述的方法,其中针对特定特征将其多维向量与提取出的其它特征的多维向量进行相似度比较包括: 将提取出的所有特征的多维向量的维度进行对准,其中对于特定特征,将提取出的其它特征的多维向量中的维度也视为该特定特征的维度,从而使每个特征的多维向量中的维度数相同; 计算所述语料库中特定特征与其多维向量的每一维度之间的互信息作为每一维度的权重; 根据所述权重计算各特征的多维向量之间的相似度。
9.根据权利要求8所述的方法,其中计算所述语料库中所述特征与其多维向量的每一维度之间的互信息作为每一维度的权重包括: 对于由于将提取出的其它特征的多维向量中的维度视为特定特征的维度导致的增加维度,权重视为O,否则利用如下公式计算特定特征与其特定维度的互信息作为权重:
10.根据权利要求8所述的方法,其中利用欧式距离计算所述各特征的多维向量之间的相似度:
11.根据权利要求8所述的方法,其中利用余弦相似度计算所述各特征的多维向量之间的相似度
12.根据权利要求1所述的方法,其中将相似度高于预定阈值的特征确定为相同特征并且将与所述网站上的对象的特征不同的特征和其相应属性补充到该网站包括: 将相似度高于预定阈值的特征分组到同一组;判断所述网站上已有的对象的特征是否属于一个分组成的组,识别出不包含所述网站上已有对象的任何特征的特征组,将该特征组中的特征和其相应属性补充到该网站。
13.根据权利要求12所述的方法,其中将该组的特征和其相应属性补充到该网站包括:统计该特征组的各特征在语料库中的出现次数,将出现次数最高的特征的名称和其相应属性补充到该网站。
14.一种用于丰富网站内容的装置,所述装置包括: 提取单元,被配置为从所述网站和其它网站获得语料库,从所述语料库中提取对象的特征,其中所述语料库包括关于所述对象的说明和用户对所述对象的评价; 特征向量构建单元,被配置为根据所述语料库,为提取出的特征构建多维向量; 向量比较单元,被配置为针对特定特征,将其多维向量与提取出的其它特征的多维向量进行相似度比较; 补充单元,被配置为将相似度高于预定阈值的特征确定为相同特征,并且将与所述网站上的对象的特征不同的特征和其相应属性补充到该网站。
15.根据权利要求14所述的装置,其中所述提取单元进一步被配置为: 指定所述其它网站; 分析所述网站和其它网站的格式; 按照分析出的所述网站和其它网站的格式,寻找含有与所述对象对应的对象标识的所有的块; 根据块的格式判断寻找到的块是关于对象的说明还是用户对所述对象的评价,将寻找到的关于对象的说明和用户对所述对象的评价作为语料库。
16.根据权利要求14所述的装置,其中所述提取单元进一步被配置为: 从所述网站和其它网站中关于对象的说明中提取特征种子,其中按照所述网站和其它网站中关于对象的说明的格式,从相应字段中提取特征种子; 按照提取出的特征种子,从用户对所述对象的评价提取附加特征。
17.根据权利要求16所述的装置,其中从用户对所述对象的评价提取附加特征包括: 从用户对所述对象的评价中提取出所述特征种子附近满足预定条件的名词作为附加特征; 从用户对所述对象的评价中提取出包含所述特征种子的名词词组作为附加特征; 如果提取出的附加特征不在特征种子的列表中,将提取出的附加特征加入到特征种子的列表; 迭代地重复上述步骤,直到不在特征种子的列表中的新提取出的附加特征的数目低于预定阈值为止。
18.根据权利要求17所述的装置,其中满足预定条件的名词是指在特征种子附近的预定范围内的出现频率最高的前η名的名词,η为自然数。
19.根据权利要求14一 18中任一个所述的装置,其中所构建的多维向量至少包括以下维度中的一个或多个: 特征的情感线索,包括从所述用户对所述对象的评价提取出特定特征的评价词、情感词组成的对或特定特征的评价分类标记、情感词组成的对,其中对于含义类似的评价词给予相同的评价分类标记;特征的上下文线索,即在从用户对所述对象的评价中特定特征附近满足预定条件的形容词和/或名词和/或名词短语和/或否定词; 特征的可用标签,即所述网站和其它网站赋予特定特征的分组标签信息。
20.根据权利要求19中任一个所述的装置,其中所构建的多维向量还包括如下维度中的至少一个: 特征的名称; 特征的内部线索,其中特征的内部线索包括特定特征的关键词和特定特征的构成词,其中所述关键词和构成词都构成所述多维向量中的维度。
21.根据权利要求14- 18任意一项所述的装置,其中向量比较单元进一步被配置为: 将提取出的所有特征的多维向量的维度进行对准,其中对于特定特征,将提取出的其它特征的多维向量中的维度也视为该特定特征的维度,从而使每个特征的多维向量中的维度数相同; 计算所述语料库中特定特征与其多维向量的每一维度之间的互信息作为每一维度的权重; 根据所述权重计算各特征的多维向量之间的相似度。
22.根据权利要求21所述的装置,其中计算所述语料库中所述特征与其多维向量的每一维度之间的互信息作为每一维度的权重包括: 对于由于将提取出的其它特征的多维向量中的维度视为特定特征的维度导致的增加维度,权重视为0,否则利用如下公式计算特定特征与其特定维度的互信息作为权重:
23.根据权利要求21所述的装置,其中利用欧式距离计算所述各特征的多维向量之间的相似度:
24.根据权利要求21所述的装置,其中利用余弦相似度计算所述各特征的多维向量之间的相似度:.
25.根据权利要求14所述的装置,其中补充单元进一步被配置为: 将相似度高于预定阈值的特征分组到同一组; 判断所述网站上已有的对象的特征是否属于一个分组成的组,识别出不包含所述网站上已有对象的任何特征的特征组,将该特征组中的特征和其相应属性补充到该网站。
26.根据权利要求25所述的装置,其中将该组的特征和其相应属性补充到该网站包括:统计该特征组的各特征在语料库中的出现次数,将出现次数最高的特征的名称和其相应属性补充到该网站。
27.一种网站服务器,包括根据权利要求14 - 26中的任一个的用于丰富网站内容的装置。
【文档编号】G06F17/30GK103577452SQ201210270201
【公开日】2014年2月12日 申请日期:2012年7月31日 优先权日:2012年7月31日
【发明者】郭宏蕾, 蔡柯柯, 包胜华, 张硕, 吴贤, 张俐, 苏中 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1