一种数据标示方法和管理系统的制作方法

文档序号:9524244阅读:482来源:国知局
一种数据标示方法和管理系统的制作方法
【技术领域】
[0001]本发明涉及数据加工处理领域,尤其涉及一种数据标示方法和管理系统。
【背景技术】
[0002]如今,人们已经习惯于从互联网上获取信息,而对数据进行标示处理,使人们在标示的指引下,快速的获得有用的信息,受到了广大用户的欢迎,也得到了技术人员的广泛关注和研究。
[0003]目前,数据标示处理技术主要是通过人工的方式进行,技术人员通过阅读、理解数据内容后,再根据自身的理解,归纳、整理出能够代表数据内容的标签,完成对数据的标示。
[0004]但是,该过程对技术人员的要求高,且由于人工处理效率低,因此需要的技术人员的数量多,从而使得对数据进行标示处理的成本高;尤其当互联网上具有大量的数据时,采用上述技术对其进行标示处理成本就会更高。

【发明内容】

[0005]本发明的目的之一在于提供一种数据标示方法,本发明的目的之二在于提供一种数据表示管理系统,通过利用服务器的初次标示后,再经过人工简单的校正和调整,完成对数据内容的标示,从而解决现有技术中存在的前述问题。
[0006]为了实现上述目的,本发明采用的技术方案如下:
[0007]—种数据标示方法,包括如下步骤:
[0008]S1,服务器提取待标示的数据的标题分词和/或正文的高词频分词和/或关键词汇;
[0009]S2,服务器将所述标题分词和/或所述正文的高词频分词和/或关键词汇与所述数据的标签库进行对比,获取对比结果中匹配度大于90%的所述标题分词和/或所述正文的高词频分词和/或关键词汇,作为标示所述数据的第一位标签;所述第一位标签写入所述标签库;
[0010]S3,人工读取所述数据的标题内容,用与所述标题内容匹配度大于90%的第一位标签对所述数据进行标示。
[0011]进一步地,步骤S2和步骤S3之间,还包括用户自定义标签的步骤,所述用户自定义标签达到或超过规定数量时,在用户视图界面上,将所述用户自定义标签的位置提前,所述用户自定义标签的数量越大,其位置越靠前;所述用户自定义标签达到或超过规定数量时,所述用户自定义标签写入所述标签库。
[0012]优选地,所述与所述标题内容匹配度大于90%的第一位标签按照所述匹配度大小进行倒排序显示在用户视图界面上。
[0013]优选地,步骤S2中,所述第一位标签的数量达到设定值时,则继续;否则,用第二位标签进行补充,直到达到所述设定值,则继续;在用户视图界面上,所述第二位标签位于所述第一位标签的后面;所述第二位标签为所述标题分词;所述第二位标签写入所述标签库。
[0014]具体地,所述设定值为5-20。
[0015]具体地,所述用第二位标签进行补充,具体为,所述标题分词按照分值大小倒排序进行补充,所述标题分词的所述分值按照如下方法获得:
[0016]为所有所述标题分词设定相同的初始分值;
[0017]所述标题分词与所述正文的高词频分词和/或关键词汇相匹配,匹配度达到90%以上时,为所述标题分词的分值加分,匹配度越高,加分值越大;
[0018]将所述初始分值与所述加分值求和,得到所述标题分词的分值。
[0019]优选地,所述用第二位标签进行补充后,所述第一位标签和所述第二位标签的总量未达到所述设定值时,则用第三位标签进行补充,直到达到所述设定值,则继续;在用户视图界面上,所述第三位标签位于所述第二位标签的后面;所述第三位标签为所述正文的高词频分词和/或关键词汇;所述第三位标签写入所述标签库。
[0020]具体地,所述用第三位标签进行补充,具体为,所述正文的高词频分词和/或关键词汇按照分值大小倒排序进行补充,所述正文的高词频分词和/或关键词汇的词频越高,其所述分值越大。
[0021]一种数据标示管理系统,包括:
[0022]标签树模块:用于以树形结构呈现分类之间的层级和逻辑关系,且在每个层级分类下预置标签;
[0023]标签查询模块:用于对某一时间段内的标签进行查询,可以实现自定义(模糊)查询及条件查询;
[0024]标签库模块:用于建立标签库;
[0025]服务器标示模块:用于提取待标示的数据的标题分词和/或正文的高词频分词和/或关键词汇,并与所述数据的标签库进行对比,获取对比结果中匹配度大于90%的所述标题分词和/或所述正文的高词频分词和/或关键词汇,作为标示所述数据的第一位标签;
[0026]人工标示模块:用于与所述标题内容匹配度大于90%的第一位标签对所述数据进行标示。
[0027]进一步地,所述数据标示管理系统,还包括:
[0028]用户标示模块:用于用户自定义标签。
[0029]本发明的有益效果是:
[0030]与现有技术中,完全靠人工的方式完成数据标示的技术相比,本发明中,采用服务器标示和人工标示相结合的方式,在保证标示准确性的基础上,提高了工作效率,降低了对人员的要求,从而降低了对数据标示处理的成本,尤其针对大量数据时,标示处理成本得到了极大的降低。
[0031 ] 由于现有技术中,需要技术人员阅读、理解数据内容后,再根据自身的理解,归纳、整理出能够代表数据内容的标签,完成对数据的标示。因此,要求技术人员具有较高的阅读、分析和理解能力,一般为具有硕士研究生学历的人员,这样,每个技术人员的成本就比较高。同时,每个人处理一篇文章的时间大概为5-10分钟,因此,每个人每天能够处理的文章大概是200篇,当数据库中有十万甚至百万数量级的数据时,对其进行标示,需要的人员量是很大的,从而数据加工成本会大大的增加。
[0032]而本发明中,首先利用服务器的搜索、检索、分词等技术,获取对数据进行标示的标签,之后进行人工修整和调整时,只需要读取所述数据的标题内容即可,而不需要对整篇文章进行阅读和分析、理解,因此,采用本发明提供的技术方案,可以降低对技术人员的要求,从而降低人工成本,同时,由于人工需要完成的工作量小且任务简单,工作效率会得到极大的提升,每个人每天能够处理的文章至少为1200-2000篇,因此,当数据库中有十万甚至百万数量级的数据时,对其进行标示,需要的人员量则不会很大的,从而数据加工成本会大大的降低。
【附图说明】
[0033]图1是本发明实施例提供的数据标示方法的流程示意图;
[0034]图2是本发明实施例提供的数据标示管理系统框架示意图。
【具体实施方式】
[0035]为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对本发明进行进一步详细说明。应当理解,此处所描述的【具体实施方式】仅仅用以解释本发明,并不用于限定本发明。
[0036]如图1所示,一种数据标示方法,包括如下步骤:
[0037]S1,服务器提取待标示的数据的标题分词和/或正文的高词频分词和/或关键词汇。
[0038]S2,服务器将所述标题分词和/或所述正文的高词频分词和/或关键词汇与所述数据的标签库进行对比,获取对比结果中匹配度大于90%的所述标题分词和/或所述正文的高词频分词和/或关键词汇,作为标示所述数据的第一位标签;所述第一位标签写入所述标签库。
[0039]S3,人工读取所述数据的标题内容,用与所述标题内容匹配度大于90%的第一位标签对所述数据进行标示。
[0040]服务器首先利用搜索、检索、分词等技术提取待标示的数据的标题分词和/或正文的高词频分词和/或关键词汇;工作效率高,处理大量数据需要的时间短。由于待标示的数据文字内容是隶属于各个分类的,因此把分类细化,最好将分类细化至3-4级,同时为每个细化的分类进行标签的预置定义,这样,可以加大标签库中的初始标签的数量,也可以增加利用标签库对数据内容进行标示的精准度。对于移动互联网中的信息而言,标签库中的标签均为当前社会热词和重点词。开始阶段,对数据内容进行的标示,服务器会将所述标题分词和/或所述正文的高词频分词和/或关键词汇与所述数据的标签库中的初始标签进行对比,随着标签库中的标签的添加、删除或修改,标签库不断的更新,则服务器会将所述标题分词和/或所述正文的高词频分词和/或关键词汇与所述数据的标签库中的更新的标签进行对比。
[0041]将所述标题分词和/或所述正文的高词频分词和/或关键词汇与所述数据的标签库进行对比后,对比结果中匹配度越大,利用所述标题分词和/或所述正文的高词频分词和/或关键词汇对数据内容进行标示的精准度越高。但是,有时也存在不相符的状况,比如标题虽然大多数时候是对全文的概述及归纳,认为标题的分词更加精确,但是为了标题党却不能表示文章的大意;比如虽然正文的高词频分词和/或关键词汇在正文中出现的频度很高,但是这些词却不能表示数据的大意。因此,为了保证对数据标示的准确性,本发明在利用服务器对内容进行标示之后,进一步进行了人工的校正和调整,但是,本发明中,只需人工读取所述数据的标题内容,而不需要读取整篇文章,也不需要对文章进行理解和归纳整理,只需在服务器标示的基础上,通过将服务器的标示内容与所述标题内容进行匹配,并找到匹配度大于90%的第一位标签即可。因此,采用本发明的技术方案,在保证标示准确性的基础上,提高了工作效率,降低了对人员的要求,从而降低了数据加工成本。
[0042]在本发明的一个实施例中,在步骤S2和步骤S3之间,还包括用户自定义标签的步骤,所述用户自定义标签达到或超过规定数量时,在用户视图界面上,将所述用户自定义标签的位置提前,所述用户自定义标签的数量越大,其位置越靠前;所述用户自定义标签达到或超过规定数量时,所述用户自定义标签写入所述标签库。
[0043]当用户自定义标签达到或超过规定数量时,更能代表数据内容的大意,更能贴近用户对内容的理解,因此,可以根据其数量的大小,选择其作为标签的位置,数量越大,其位置越靠前,甚至可以位于第一位标签的前面。这样,对数据内容设置的标签会更加符合数据内容的意思,同时也更贴近用户,且符合用户对数据内容的理解。其中,用户自定义标签的数量,本领域技术人员可以根据实际情况进行设定。
[0044]服务器对数据内容进行标示属于自动的标签化操作,与用户
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1