一种用于生成内容项的标签的方法和装置的制造方法_2

文档序号:9396915阅读:来源:国知局
的第二选择条件包括内容距离小于阈值f3,对于一标杆内容项,标签生成装置获取各个内容项与该标杆内容项的内容距离信息,并选择与该标杆内容项的内容距离小于阈值f3的内容项作为候选内容项。
[0048]接着,在步骤S3中,标签生成装置对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息。
[0049]具体地,对所述一个或多个候选内容项中的各个候选内容项,所述步骤S3包括步骤S301(图未示)。
[0050]在步骤S301中,对一候选内容项,当该候选内容项未对应标杆标签信息时,标签生成装置选择与其内容距离最近的标杆标签信息作为其标杆标签信息。
[0051]优选地,对所述一个或多个候选内容项中的各个候选内容项,所述步骤S3包括步骤S302(图未示)。
[0052]在步骤S302中,对一候选内容项,当该候选内容项已对应一历史标杆标签信息时,标签生成装置基于该候选内容项与所述历史标杆标签的内容距离信息,以及该候选内容项与当前的所述标杆标签信息的内容距离信息,来确定该候选内容项对应的标杆标签信息。
[0053]例如,标签生成装置在步骤SI中获取到一于对应于标杆内容项为content」的标杆标签label_l,并且,标签生成装置在步骤S2中确定的与标杆标签label_l近似的候选内容项包括content_2和content_3。其中,候选内容项content_2未对应标杆标签信息,候选内容项content_3已对应另一标杆标签label_2,并且该标杆标签label_2对应于标杆内容项 content_4。
[0054]则对于候选内容项Content_2,标签生成装置将标杆标签label_l作为其标杆标签信息,从而使用标杆标签label_l来标注该候选内容项content_2。
[0055]对于候选内容项content_3,标签生成装置获取其与标杆内容项content」的之间的KNN距离信息dl,以及候选内容项content_3与标杆内容项content_4之间的KNN距离信息d2,并确定dl大于d2,则标签生成装置确定候选内容项content_3对应的标杆标签信息为label_2o
[0056]优选地,标签生成装置基于预定条件来触发所述步骤SI至S3的操作。
[0057]其中,所述预定条件包括但不限于以下至少任一种:
[0058]I)时间条件;如预定时间点条件,又预定间隔周期等。
[0059]例如,标签生成装置可每隔预定周期来触发步骤SI至步骤S3的操作。
[0060]2)内容项条件;例如,新内容项的数量到达预定阈值。
[0061]例如,当标签生成装置检测到未标记内容项的数量大于阈值时,触发步骤SI至步骤S3的操作。
[0062]根据本发明的方法,通过获取标杆标签来为与各个标杆标签近似的内容项生成标签,提高了所生成的标签的覆盖率,并且,通过采用用户标注的标签作为标杆标签,能够极大的增加标签信息的准确性;此外,根据本发明的方案,无需如机器学习的方式那样,需要大量人员花费时间来进行纠正机器学习策略等工作,成本较低。
[0063]图2示意出了根据本发明的一种用于生成内容项的标签的标签生成装置的结构示意图。根据本发明的标签生成装置包括:用于获取一标杆标签信息的装置,其中,所述标杆标签信息对应一组标杆内容项的装置(以下简称“第一获取装置I”);用于获取分别与所述标杆标签信息近似的一个或多个候选内容项的装置(以下简称“第二获取装置2”);用于对所述一个或多个候选内容项,分别确定其中各个内容项各自对应的标签信息的装置(以下简称“确定装置3”)。
[0064]参照图2,第一获取装置I获取一标杆标签信息。
[0065]其中,所述标杆标签信息对应一组标杆内容项。
[0066]优选地,第一获取装置I从被用户标注的一个或多个标签信息中获取一标杆标签?目息O
[0067]具体地,第一获取装置I获取一标杆标签信息的方式包括但不限于以下任一种:
[0068]I)直接获取前次已生成的标杆标签;
[0069]2)对获取的各个标签信息进行归一化处理,并将处理后的标签信息作为标杆标签;该归一化处理包括将词义相近的标签信息进行统一的处理,例如,对于词义相近的标签信息“笑话”、“幽默”和“搞笑”,将其统一为“笑话”,并将“笑话”作为标杆标签。
[0070]3)对获取的标签信息执行优化选择,来获取标杆标签信息;所述第一获取装置I包括用于获取与所述一个或多个初始内容项对应的一个或多个初始标签信息的装置(图未示,以下简称“初始获取装置”),和用于对所述一个或多个初始标签信息执行优化选择,以从所述一个或多个初始标签信息中选择部分或全部作为所述标杆标签信息的装置(图未示,以下简称“第一选择装置”)。
[0071]初始获取装置获取与所述一个或多个初始内容项对应的一个或多个初始标签信息。
[0072]其中,所述初始标签信息包括各种方式生成的标签信息。
[0073]优选地,所述初始标签信息包括由用户标注生成的标签信息。
[0074]第一选择装置对所述一个或多个初始标签信息执行优化选择,以从所述一个或多个初始标签信息中选择部分或全部作为所述标杆标签信息。
[0075]具体地,第一选择装置基于第一选择条件,由所述一个或多个初始标签信息中选择满足所述第一选择条件的至少一个初始标签信息;接着,选择装置基于所选择的所述至少一个初始标签信息来确定所述标杆标签信息。
[0076]其中,所述第一选择条件基于各个标签信息的以下至少任一项来确定:
[0077]I)标签信息对应的内容项的内容用户信息;该内容用户信息包括各种与标记过该内容项的用户相关的信息,例如,对同一内容项标记标签的用户数量或用户等级等。
[0078]2)标签信息的属性信息;例如,标签信息的文字数、词性、或者,标签信息是否包含敏感词等。
[0079]3)使用所述标签信息的标签用户信息;该标签用户信息包括各种与使用该标签信息的用户相关的信息,例如,使用该标签对内容项进行标记的用户的数量、各个用户在各自所属网站的用户等级等。
[0080]例如,标签生成装置包含于一论坛网站的服务器中,标签生成装置对应的第一选择条件包括:对同一内容项,标记标签的用户数量大于阀值Π ;标签信息的字数大于阀值f2;使用该标签对内容项进行标记的用户的级别高于“新人”等级。
[0081]初始获取装置将该论坛中的所有帖子作为初始内容项,并获取其各自对应的初始标签信息,接着第一选择装置基于该第一选择条件,由所述一个或多个初始标签信息中选择满足所述第一选择条件的初始标签信息,作为标杆标签信息。
[0082]接着,继续参照图2,第二获取装置2获取分别与所述标杆标签信息近似的一个或多个候选内容项。
[0083]具体地,第二获取装置2获取分别与所述标杆标签信息近似的一个或多个候选内容项的方式包括但不限于以下任一种:
[0084]I)基于预定关键词确定;例如,将包含与标杆标签信息对应的预定关键词的内容项作为与标杆标签信息近似的候选内容项。
[0085]2)基于内容项之间的内容距离信息来确定;其中,所述内容距离信息包括各种可用于指示内容项的文本内容的近似程度的信息。例如,基于邻近算法(k-NearestNeighbor,KNN)得到的内容项之间的KNN距离信息。
[0086]其中,第二获取装置2包括用于在所有内容项中,获取各个内容项与所述标杆内容项的内容距离信息的装置(图未示,以下简称“距离获取装置”),和用于根据各个内容项与标杆内容项的内容距离信息,选择与所述标杆内容项的内容距离信息满足第二选择条件的内容项作为候选内容项的装置(图未示,以下简称“第二选择装置”)。
[0087]距离获取装置在所有内容项中,获取各个内容项与所述标杆内容项的内容距离信息;接着,第二选择装置根据各个内容项与标杆内容项的内容距离信息,选择与所述标杆内容项的内容距离信息满足第二选择条件的内容项作为候选内容项。
[0088]其中,所述第二选择条件用于选择与标杆内容项内容距离较近的内容项。
[0089]例如,标签生成装置对应的第二选择条件包括内容距离小于阈值f3,对于一标杆内容项,距离获取装置获取各个内容项与该标杆内容项的内容距离信息,第二选择装置选择与该标杆内容项的内容距离小于阈值f3的内容项作为候选内容项。
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1