一种标签自动提取方法和系统的制作方法

文档序号:6443184阅读:233来源:国知局
专利名称:一种标签自动提取方法和系统的制作方法
技术领域
本发明涉及网络技术领域,特别是涉及一种标签自动提取方法和系统。
背景技术
随着互联网的快速发展,互联网已经成为最重要的信息发布平台。为了有效的利用互联网存在的海量信息,人们使用标签(tag)来描述发布的内容。标签是对用户发表的内容的一种准确、概括的描述,人们通过文本标签可以快速的识别出所浏览的文档的主题。例如,用户在发表日志时,可以手动添加标签,所述标签一般为与文档内容密切相关的关键字。其他用户在浏览日志时,可以通过标签快速的识别出日志的主题。又如,用户在搜索相关信息时,可以通过文本添加的标签获取具有相同标签的一类文档,使得搜索结果更准确。在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:一方面,用户往往不愿意主动为文档添加标签,而依赖网站编辑手动添加标签的方式,处理效率极低,且浪费了大量的人力。另一方面,由于标签是用户手工输入的,用户输入的标签各式各样,具有相同主题、内容的一类文档,标签可能完全不同,这就给具体的标签应用带来困难,例如无法对具有相同主题、内容的文档进行准确的聚类等。因此亟需一种文本标签自动提取系统,能够自动生成文本标签。

发明内容
为解决上述技术问题,本发明实施例提供了一种标签自动提取方法和系统,可以自动生成标签,处理效率高。一方面,本发明实施例提供了一种标签自动提取方法,所述方法包括:抓取中文词汇和训练网页,分别生成中文词典和训练样本库;根据所述中文词典和所述训练样本库中的训练网页生成训练分类模型;根据所述中文词典和训练分类模型对待提取网页进行标签提取,生成标签。优选的,所述抓取中文词汇和训练网页,分别生成中文词典和训练样本库为:从网络中自动抓取中文热点词汇,生成中文词典;根据预先设定的类别从预置的网址索引中抓取与所述类别对应的训练网页,生成训练样本库。优选的,所述根据预先设定的类别从预置的网址索引中抓取与所述类别对应的训练网页包括:确定多个分类类别,为每一个分类类别设置网址索引作为训练样本的来源;从所述网址索引中抽取训练样本。优选的,所述根据所述中文词典和所述训练样本库中的训练网页生成训练分类模型为:根据所述中文词典对所述训练网页中的文字进行分词处理,获取特征词汇;获取所述特征词汇的分类;
根据所述特征词汇的分类结果,生成训练分类模型。优选的,所述获取所述特征词汇的分类为:利用最大熵分类模型获取所述特征词汇的分类。优选的,所述根据所述中文词典和训练分类模型对待提取网页进行标签提取,生成标签包括:根据所述中文词典,对待提取网页进行分词处理,获取特征词汇;获取所述特征词汇的权重,将权重最高的结果作为第一标签;根据获取的特征词汇以及所述训练分类模型获取所述待提取网页的分类,将所述分类结果作为第二标签;获取所述待提取网页的属性信息,将所述属性信息作为第三标签。优选的,所述根据获取的特征词汇以及所述训练分类模型获取所述待提取网页的分类包括:根据训练分类模型获取每一个特征词汇所属的类别;将所有特征词汇所属的类别进行累加,获取待提取网页所属的类别;将所述分类结果作为第二标签为:将分类结果大于设定阈值的类别作为第二标签。另一方面,本发明实施例还提供了一种标签自动提取系统,所述系统包括:抓取模块,用于抓取中文词汇和训练网页,分别生成中文词典和训练样本库;训练模块,用于根据所述中文词典和所述训练样本库中的训练网页生成训练分类模型;标签提取模块,用于根据所述中文词典和所述训练分类模型对待提取网页进行标签提取,生成标签。优选的,所述抓取模块包括第一抓取模块和第二抓取模块,其中,所述第一抓取模块用于自动抓取中文热点词汇,生成中文词典;所述第二抓取模块用于根据预先设定的类别从预置的网址索引中抓取与所述类别对应的训练网页,生成训练样本库。优选的,所述训练模块包括:第一分词单元,用于根据所述中文词典对所述训练网页中的文字进行分词处理,获取特征词汇;第一特征提取单元,用于获取所述特征词汇的分类;分类模型生成单元,用于根据所述特征词汇的分类结果,生成训练分类模型。优选的,所述标签提取模块包括:第二分词单元,根据所述中文词典,对待提取网页进行分词处理,获取特征词汇;第一提取模块,用于获取所述特征词汇的权重,将权重最高的结果作为第一标签;第二提取模块,用于根据获取的特征词汇以及所述训练分类模型获取所述待提取网页的分类,将所述分类结果作为第二标签;第三提取模块,用于获取所述待提取网页的属性信息,将所述属性信息作为第三标签。
优选的,所述系统还包括:第一更新模块,用于抓取热点词汇,对所述中文词典进行更新;第二更新模块,用于生成新的训练样本,与原有的训练样本进行合并,对所述训练样本库进行更新。本发明实施例能够达到的有益效果为:本发明实施例通过定期抓取中文词汇和训练网页,生成中文词典和训练样本库,并利用训练样本库中的训练网页生成训练模型,并利用训练模型以及中文词典对待提取网页自动进行标签提取,提取的标签结果准确,效率高。另一方面,本发明实施例提取的标签分别从网页的内容、所属的分类、属性等角度对网页进行描述,提取的标签结果全面、准确,全面地描述了网页,便于应用。再一方面,本发明实施例定期对中文热点词汇、训练样本进行更新,使得有新的词汇出现、新的类别出现时,均可以加入到训练分类模型中,自适应较强,使标签提取结果更准确。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本发明实施例提供的标签自动提取方法第一实施例流程图;图2为本发明实施例提供的标签自动提取方法第二实施例流程图;图3为本发明实施例提供的标签自动提取系统第一实施例示意图;图4为本发明实施例提供的标签自动提取系统第二实施例示意图。
具体实施例方式本发明实施例提供了一种标签自动提取方法和系统,可以自动生成标签,处理效率高。为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。参见图1,为本发明实施例提供的标签自动提取方法第一实施例流程图。所述方法包括:S101,抓取中文词汇和训练网页,分别生成中文词典和训练样本库。S102,根据所述中文词典和所述训练样本库中的训练网页生成训练分类模型。S103,根据所述中文词典和训练分类模型对待提取网页进行标签提取,生成标签。参见图2,为本发明实施例提供的标签自动提取方法第二实施例流程图。S201,抓取中文热点词汇,生成中文词典。从网络中抓取中文热点词汇。例如,可以从新浪微博风云榜、百度风云榜词汇表中定期抓取热点词汇,并将每天抓取的中文热点词汇聚集起来生成中文词典。在所述中文词典中存储有有意义的中文自有词,以保证新词能被切分出来。这里,中文自有词不仅包括常用的中文词语,也包含热点词汇,例如人名、地名、网络用语等。当出现中文新词时,通过网络定期抓取中文词汇,即可在进行分词处理时,将最新出现的分词切分出来。S202,根据预先设定的类别从预设的网址索引中抓取与所述类别对应的训练网页,生成训练样本库。具体地,步骤S202具体可以包括:S202A,确定多个分类类别,为每一个分类类别设置网址索引作为训练样本的来源。一般地,可以预先设定文本所属的类别,例如可以预先选定一定数量的主题作为分类的类别,例如体育、娱乐、时尚、摄影、宠物、数据、历史等分类。对于每一个类别可以预先设定一个网址索引,所述网址索引用于作为训练样本的来源。S202B,从所述网址索引中抽取训练样本。具体地,可以从网址索引中获取多个网页,由于网页一般是由HTML (Hyper TextMark-up Language,超文本标记语言)定义的一类文档,可以通过提取网页的HTML文本的anchor text (锚文本链接)来抽取训练样本。具体的,获取anchor text后,按照anchortext的长度和标签内容进行过滤,去除低质量内容,形成训练样本,并将训练样本存储在训练样本库中。Anchor text又称超文本链接,是网页中被划线强调的一段文字,用来指向链接的其他网页,点击anchor text,即可获取指向的网页。Anchor text建立了文本关键词与URL连接的关系,anchor text的形式一般为:〈a href = “URL链接”〉。Anchor text可以作为其所在页面的内容的评估。我们可以通过anchor text获取网页的内容属性。具体的,打开网页的HTML文本后,提取anchor text,例如:<a href = ” http://my.ku6.com/watch v = 3wbxh6WJuaXd00RZ” > 倾世皇妃31-32电视…</a>在〈ahref> 与 </a> 之间的文本即为 anchor text。S203,根据所述中文词典和所述训练样本库中的训练网页生成训练分类模型。具体的,步骤S203可以包括:S203A,根据中文词典对所述训练网页中的文字进行分词处理,获取特征词汇。在这里,分词处理的对象是训练样本库中的训练网页。中文分词处理是指将有意义的汉字组织在一起,生成一个有意义的词。这里的词不仅包括常用的中文词汇,也包括人名、地名、网络用语等。例如,本发明实施例中的中文词典可能包括的词语有类似范冰冰、姚明这样的人名,也可以包括微博、菜鸟、闪客、推他等网络用语。由于在中文词典里收录了最新的热点词汇,并定期进行更新,因此可以将最新出现的中文新词能够切分出来。S203B,获取特征词汇的分类。在本发明实施例中,使用最大熵模型进行分类训练的。我们在步骤S203A中将训练网页进行分词处理,获取多个特征词汇,并得到每个词汇属于对应类别的特征。在应用于标签提取问题时,我们使用每个词的词频(即词在某文档中出现的次数)作为特征值。即对于词w和其 所在的训练样本b,其特征
权利要求
1.一种标签自动提取方法,其特征在于,所述方法包括: 抓取中文词汇和训练网页,分别生成中文词典和训练样本库; 根据所述中文词典和所述训练样本库中的训练网页生成训练分类模型; 根据所述中文词典和训练分类模型对待提取网页进行标签提取,生成标签。
2.根据权利要求1所述的方法,其特征在于,所述抓取中文词汇和训练网页,分别生成中文词典和训练样本库为: 从网络中自动抓取中文热点词汇,生成中文词典; 根据预先设定的类别从预置的网址索引中抓取与所述类别对应的训练网页,生成训练样本库。
3.根据权利要求2所述的方法,其特征在于,所述根据预先设定的类别从预置的网址索引中抓取与所述类别对应的训练网页包括: 确定多个分类类别,为每一个分类类别设置网址索引作为训练样本的来源; 从所述网址索引中抽取训练样本。
4.根据权利要求1所述的方法,其特征在于,所述根据所述中文词典和所述训练样本库中的训练网页生成训练分类模型为: 根据所述中文词典对所述训练网页中的文字进行分词处理,获取特征词汇; 获取所述特征词汇的分 类; 根据所述特征词汇的分类结果,生成训练分类模型。
5.根据权利要求4所述的方法,其特征在于,所述获取所述特征词汇的分类为: 利用最大熵分类模型获取所述特征词汇的分类。
6.根据权利要求1所述的方法,其特征在于,所述根据所述中文词典和训练分类模型对待提取网页进行标签提取,生成标签包括: 根据所述中文词典,对待提取网页进行分词处理,获取特征词汇; 获取所述特征词汇的权重,将权重最高的结果作为第一标签; 根据获取的特征词汇以及所述训练分类模型获取所述待提取网页的分类,将所述分类结果作为第二标签; 获取所述待提取网页的属性信息,将所述属性信息作为第三标签。
7.根据权利要求6所述的方法,其特征在于,所述根据获取的特征词汇以及所述训练分类模型获取所述待提取网页的分类包括: 根据训练分类模型获取每一个特征词汇所属的类别; 将所有特征词汇所属的类别进行累加,获取待提取网页所属的类别; 将所述分类结果作为第二标签为: 将分类结果大于设定阈值的类别作为第二标签。
8.—种标签自动提取系统,其特征在于,所述系统包括: 抓取模块,用于抓取中文词汇和训练网页,分别生成中文词典和训练样本库; 训练模块,用于根据所述中文词典和所述训练样本库中的训练网页生成训练分类模型; 标签提取模块,用于根据所述中文词典和所述训练分类模型对待提取网页进行标签提取,生成标签。
9.根据权利要求8所述的系统,其特征在于,所述抓取模块包括第一抓取模块和第二抓取模块,其中, 所述第一抓取模块用于自动抓取中文热点词汇,生成中文词典; 所述第二抓取模块用于根据预先设定的类别从预置的网址索引中抓取与所述类别对应的训练网页,生成训练样本库。
10.根据权利要求8所述的系统,其特征在于,所述训练模块包括: 第一分词单元,用于根据所述中文词典对所述训练网页中的文字进行分词处理,获取特征词汇; 第一特征提取单元,用于获取所述特征词汇的分类; 分类模型生成单元, 用于根据所述特征词汇的分类结果,生成训练分类模型。
11.根据权利要求8所述的系统,其特征在于,所述标签提取模块包括: 第二分词单元,根据所述中文词典,对待提取网页进行分词处理,获取特征词汇; 第一提取模块,用于获取所述特征词汇的权重,将权重最高的结果作为第一标签; 第二提取模块,用于根据获取的特征词汇以及所述训练分类模型获取所述待提取网页的分类,将所述分类结果作为第二标签; 第三提取模块,用于获取所述待提取网页的属性信息,将所述属性信息作为第三标签。
12.根据权利要求8所述的系统,其特征在于,所述系统还包括: 第一更新模块,用于抓取热点词汇,对所述中文词典进行更新; 第二更新模块,用于生成新的训练样本,与原有的训练样本进行合并,对所述训练样本库进行更新。
全文摘要
本发明涉及网络技术领域,特别是一种标签自动提取方法和系统,所述方法包括抓取中文词汇和训练网页,分别生成中文词典和训练样本库;根据所述中文词典和所述训练样本库中的训练网页生成训练分类模型;根据所述中文词典和训练分类模型对待提取网页进行标签提取,生成标签。本发明实施例通过定期抓取中文词汇和训练网页,生成中文词典和训练样本库,并利用训练样本库中的训练网页生成训练模型,并利用训练模型以及中文词典对待提取网页自动进行标签提取,提取的标签结果准确,效率高。
文档编号G06F17/30GK103177036SQ201110440739
公开日2013年6月26日 申请日期2011年12月23日 优先权日2011年12月23日
发明者陈运文, 宋海涛, 刘作涛 申请人:盛乐信息技术(上海)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1