文本的归类方法及系统与流程

文档序号:13682893阅读:290来源:国知局
技术领域本申请涉及文本的处理技术领域,尤其涉及文本的归类方法及系统。

背景技术:
在群体性的社区(如小站、论坛板块、圈子等产品)中,会有非常多的用户去分享内容、发表文章。常常会产出一系列好的文章,而这些文章内容基本上是根据时间纬度展现,往往比较分散,容易被最新的内容所过滤,需要通过搜索、标签、类目等方式去寻找,用户无法方便地筛选检索出想要的专题的系列文本。现有技术中,通过搜索、标签或类目形式筛选出需要逛的内容的文章。而搜索方法:往往是全内容的智能搜索,会有大量非相关内容出现在搜索结果中,无法获取精准内容;并且需要提供专门的搜索入口进入搜索结果页面。标签方法:一般是文章内容的关键词,目前有人为设定及智能提取两种,人为设定对他人的复用性很低,智能提取也往往不够精准;并且标签一般不止一个,也无法做到完全精准。类目方法:是人为的进行分类梳理,适合用于标准分类或个人内容的分类,对于群体自主贡献的文本内容有很大的自由度,同类的文本内容存储的位置不集中,如果专门由网站的管理员来进行分类,是非常困难的,浪费人力和时间。

技术实现要素:
本发明的目的是,提供一种文本的归类方法及系统,以解决现有技术中无法快捷精准的检索到专题的系列文本,以及同类的文本存储的位置不集中,浪费人力和时间的问题。为实现上述目的,本申请提供了如下方案:一种文本的归类方法,所述方法包括:获取文本的标题和所述文本的网址;将所述标题分解为第一专题和副题;将所述第一专题与专题库里至少一部分专题进行匹配;获取与所述第一专题匹配的第二专题,所述第二专题包含在所述专题库里;将所述标题存储于所述第二专题的目录内,并将所述文本的所述标题与所述文本的网址对应关联,便于用户检索到与所述第二专题同类的文本。一种文本的归类系统,所述系统包括:获取单元,用于获取文本的标题和所述文本的网址;解析单元,用于将所述标题分解为第一专题和副题;匹配单元,用于将所述第一专题与专题库里至少一部分专题进行匹配;所述获取单元,还用于获取与所述第一专题匹配的第二专题,所述第二专题包含在所述专题库里;存储单元,用于将所述标题存储于所述第二专题的目录内,并将所述文本的所述标题与所述文本的网址对应关联,便于用户检索到与所述第二专题同类的文本。根据本申请提供的具体实施例,本申请公开了以下技术效果:本申请实施例提供的文本的归类方法及系统,通过获取文本的标题和文本的网址;将标题中的第一专题与专题库里至少一部分专题进行匹配;获取与第一专题匹配的第二专题;将标题存储于第二专题的目录内,并将文本的标题与文本的网址对应关联,使得用户检索到与第二专题同类的文本。解决了无法快捷精准的检索到专题的系列文本,以及同类的文本存储的位置不集中,浪费人力和时间的问题。在优选实施例中,还可将重复率大的关键字对应的第三专题作为推荐的专题,并将推荐的专题以目录的形式展示给客户端,以便将推荐的专题供用户选择。当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请一种实施例提供的文本的归类方法流程图;图2为本申请一种实施例提供的文本的归类方法的逻辑流程图;图3为本申请一种实施例提供的标题示意图;图4为本申请一种实施例提供的专题匹配的示意图;图5为本申请一种实施例提供的管理专题的示意图;图6为本申请一种实施例提供的标题自动匹配到所属专题的示意图;图7为本申请一种实施例提供的通过专题字段检索到与专题同类的文本的示意图;图8为本申请一种实施例提供的通过链接专题检索到所有与专题同类的文本的示意图;图9为本申请另一种实施例提供的文本的归类系统示意图。具体实施方式为使得本申请的发明目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请实施例提供的文本的归类方法及系统,适用于网站论坛的系统、网站社区圈的系统或网站社区活动的系统等等。在本申请实施例中以网站社区征文活动的系统为例进行说明,但并不以此作为限制。以阿里巴巴网站社区活动的系统为例,应用系统可以包括前端应用系统和后端服务系统,前端应用系统,例如搜索系统、帖子输入系统或文章输入系统等等;后端服务系统包括文章中心、论坛帖中心或用户中心等等。在网站社区对某个专题的征文活动中,用户通过前端应用系统的文章输入系统输入文章,后端服务器系统的文章中心会接收大量的关于该专题的文章,获取所有关于该专题的文章的标题和网址,对标题中的第一专题的字段进行分解,将分解后的第一专题与该专题进行匹配,将匹配上的第一专题对应的第一标题存储于该专题的目录内,并将文章的标题与文章的网址对应关联。所以,本申请实施例提供的文本的归类方法,可以为网站社区的征文活动的系统提供支持,从而可以快速检索到征文活动中同一类别专题的所有文章。为了更好地理解本申请的优点,下面通过附图和详细的描述来介绍本申请的实施例。图1为本申请一种实施例提供的文本的归类方法流程图。本申请实施例适用于网站论坛的服务系统、网站社区圈的服务系统或网站社区活动的服务系统等等,本申请实施例的执行主体可以是服务器。图2为本申请一种实施例提供的文本的归类方法的逻辑流程图。如图1和图2所示,本申请实施例文本的归类方法具体包括以下步骤:步骤101,获取文本的标题和文本的网址;在本步骤中,由服务器获取的文本的标题和文本的网址。标题由第一专题和副题组成。这里的文本可以为用户发表的文本或网站内已发表的所有文本。以便服务器将用户正在发表的文本归类为文本所属的专题中,以及将网站中已发表的文本整理归类为文本所属的专题中。这里的文本可以为文章或帖子。例如:在网站社区征文活动中,用户在客户端发表文本,客户端将发表的文本发送给服务器,服务器收集客户端正在发送的文本和已发送且存储在服务器的网站中的文本。服务器获取文本的标题“【品味服装的人生】牛仔裤”,和该文本的网址“http://club.1688.com/threadview/46161516.htm”;或获取文本的标题“【难忘的童年】弹珠”,和该文本的网址“www.tieba.baidu.com/p/152860340”。步骤102,将所述标题分解为第一专题和副题;参见图3所示的标题示意图,标题由第一专题和副题组成,其中,第一专题包括符号和符号标记的文字。例如:标题“【品味服装的人生】牛仔裤”,由第一专题【品味服装的人生】和副题牛仔裤组成。将标题“【品味服装的人生】牛仔裤”分解为第一专题【品味服装的人生】和副题牛仔裤。将标题“【难忘的童年】弹珠”分解为第一专题【难忘的童年】和副题弹珠。步骤103,将所述第一专题与专题库里至少一部分专题进行匹配;专题库由所有的专题组成,在本实施例中,专题库可以是网站社区征文活动的专题库,该专题库由专题【品味服装的人生】、【难忘的童年】、【品书】、【回忆童年】和【服装创业经历】等等组成。具体地,如图4所示的专题匹配的示意图,获取专题库里至少一部分专题,将第一专题【品味服装的人生】与专题库里至少一部分专题进行匹配。专题库里所有专题可以包括下面的至少一种:自定义的专题,从所有文本的标题中选取的专题。例如,如图5所示的管理专题的示意图,当网站社区发起【品味服装的人生】的征文活动时,此时专题【品味服装的人生】为服务器自定义的专题。当网站社区收集的文本中存在以【难忘的童年】为专题的标题,如“【难忘的童年】弹珠”、“【难忘的童年】兵乓球”和“【难忘的童年】足球”等等,此时从文本的标题“【难忘的童年】弹珠”、“【难忘的童年】兵乓球”或“【难忘的童年】足球”中选取专题【难忘的童年】。步骤104,获取与所述第一专题匹配的第二专题,所述第二专题包含在所述专题库里。该步骤中,第一专题为用户发表的文本或网站内已发表的所有文本的标题中的专题;而第二专题为专题库中的专题。其中,第一专题、第二专题和第三专题均包括符号和符号标记的文字。例如,服务器在专题库中获取与第一专题【品味服装的人生】匹配的第二专题【品味服装的人生】。具体地,当用户在发表文本时,例如当用户在网站社区发表文章或者发帖时,服务器获取用户发表的文本的标题中的第一专题,获取与所述第一专题匹配的第二专题,以便将用户发表的文本的标题归类入专题库中的第二专题的目录内。参见图6所示的标题自动匹配到所属专题的示意图,成员用户发帖时主动或自动匹配到帖子的标题所属专题。步骤105,将标题存储于第二专题的目录内,并将文本的标题与文本的网址对应关联,便于用户检索到与第二专题同类的文本。将标题存储于第二专题的目录内,专题库中的第二专题包括至少一个标题,存储在第二专题中的标题以目录的形式存在,便于用户检索到与第二专题同类的文本。将文本的标题与文本的网址对应关联,用户在点击文本的标题时,相当于链接了文本的网址,用户即可浏览文本。网站社区的用户浏览文章列表页面时候通过点击标题中的专题进入到专题目录列表页面。例如:将标题“【品味服装的人生】牛仔裤”存储于第二专题【品味服装的人生】的目录内,并将文本的标题“【品味服装的人生】牛仔裤”与文本的网址“http://club.1688.com/threadview/46161516.htm”对应关联,便于用户检索到与第二专题【品味服装的人生】同类的文本。于是,参见图7所示的通过专题字段检索到与专题同类的文本的示意图,用户检索第二专题时,网页根据检索呈现第二专题,用户点击第二专题,网页便呈现出与第二专题同类的所有文本。用户便能快速检索到所有同类的相关专题的文章。例如:如图8所示的通过链接专题检索到所有与专题同类的文本的示意图,用户检索第二专题【品味服装的人生】时,网页根据检索呈现第二专题【品味服装的人生】,用户点击【品味服装的人生】,网页便呈现出与第二专题【品味服装的人生】同类的所有文本,所有文本可以包括标题为“【品味服装的人生】牛仔裤”的文本,标题为“【品味服装的人生】大衣”的文本和标题为“【品味服装的人生】外套”的文本等等。参见图3,图中①表示专题库中设定的专题。例如专题为【品味服装的人生】,那么所有标题中含有的专题与专题【品味服装的人生】完全匹配的标题,可以直接成为专题【品味服装的人生】的系列文本文章之一。图中②表示点击①的专题【品味服装的人生】后,展示与该专题同类的目录列表页面,用户可以浏览并选择点击与该专题同类的系列文章,如点击系列文章之一“【品味服装的人生】牛仔裤”后,便可以浏览该文章文本。把标题的专题中符号加文本内容的组合【品味服装的人生】与专题库中的专题名称完全匹配的系列文章文本都自动进行归档存储形成专题库中的文章库,用户在浏览文章时可通过点击专题名称,浏览到该专题的所有文章列表,从而能方便地进行相关内容的阅读。当所述第一专题与专题库里至少一部分专题均匹配不上时,将所述第一专题存储于所述专题库,以便将与所述第一专题同类的标题存储于所述专题库中的第一专题的目录内。例如:当第一专题【品味服装的人生】与专题库里至少一部分专题均匹配不上时,将第一专题【品味服装的人生】存储于所述专题库,以便将与【品味服装的人生】同类的标题存储于所述专题库中的第一专题的目录内。本申请实施例提供的文本的归类方法还可以包括以下步骤,用以将推荐的专题以目录的形式展示给客户端:步骤21,提取专题库里所有专题的关键字;例如:服务器提取专题库里所有专题【品味服装的人生】、【难忘的童年】、【品书】、【回忆童年】和【服装创业经历】等等的关键字:品味、服装、人生、童年、品书、回忆、创业和经历。步骤22,计算关键字的重复率;例如:计算关键字:品味、服装、人生、童年、品书、回忆、创业和经历的重复率。对整个文章库的标题内容解析,整体计算标题中专题的符号及符号内的关键词匹配与关键词重复率,从而为管理员推荐专题名称。步骤23,将重复率大于阈值的关键字对应的第三专题作为推荐的专题;例如:设定阈值为30%,将重复率大于阈值30%的关键字服装对应的第三专题【品味服装的人生】和【服装创业经历】作为推荐的专题。步骤24,将推荐的专题以目录的形式展示给客户端。例如:将推荐的专题【品味服装的人生】和【服装创业经历】以目录的形式展示给客户端,以便用户选择推荐的专题。在成员发帖时,为成员推荐重复率高的专题,或自动对标题进行解析,匹配出与设定的专题匹配的内容时,把标题拆解为“专题+副题”两个字段,并进行归档存储。参见图4,结合智能推荐及人工维护来管理专题分类,服务器系统为网站社区的管理员推荐一些专题建议,管理员结合具体情况和智能推荐来建立和管理专题分类;并由服务器对海量的文章标题进行分析,自动识别把标题的专题中符号和内容与专题库中已设定的专题名称完全匹配的文章都进行归类,形成各个专题库。用户可通过点击专题名称,浏览到该专题的系列文章列表,从而能方便地进行相关内容的阅读。通过对文章标题中特定符号和匹配内容的字段剥离分析,从而检索到标题的专题中符号和内容组合与专题库中的设定专题名称完全匹配的文章都自动进行归档形成系列的专题文章库,实现对专题文章的快速筛选。因此,本申请实施例提供的文本的归类方法,通过获取文本的标题和文本的网址;将标题中的第一专题与专题库里至少一部分专题进行匹配;获取与第一专题匹配的第二专题;将标题存储于第二专题的目录内,并将文本的标题与文本的网址对应关联,以便用户检索到与第二专题同类的文本。使得用户能够快捷精准的检索到与专题同类的系列文本,以及由于与专题同类的文本存储在专题的目录内,使得与专题同类的文本的存储位置集中,同时避免了人力和时间的浪费。还可将重复率大的关键字对应的专题作为推荐的专题,并将推荐的专题以目录的形式展示给客户端,以便将推荐的专题供用户选择。与本申请实施例提供的文本的归类方法相对应,本申请实施例还提供了一种文本的归类系统,该系统可以是服务器,图9为本申请另一种实施例提供的文本的归类系统示意图,参见图9,该系统具体可以包括:获取单元901,用于获取文本的标题和所述文本的网址;解析单元902,用于将所述标题分解为第一专题和副题;匹配单元903,用于将所述第一专题与专题库里至少一部分专题进行匹配;所述获取单元901,还用于获取与所述第一专题匹配的第二专题,所述第二专题包含在所述专题库里;存储单元904,用于将所述标题存储于所述第二专题的目录内,并将所述文本的所述标题与所述文本的网址对应关联,便于用户检索到与所述第二专题同类的文本。所述存储单元904,还可以用于:当所述第一专题与所述专题库里至少一部分专题均匹配不上时,将所述第一专题存储于所述专题库,以便将与所述第一专题同类的标题存储于所述专题库中的第一专题的目录内。所述系统还可以包括:提取单元905,用于提取所述专题库里所有专题的关键字;计算单元906,用于计算所述关键字的重复率;推荐单元907,用于将所述重复率大于阈值的关键字对应的第三专题作为推荐的专题;展示单元908,用于将所述推荐的专题以目录的形式展示给客户端。所述文本为用户发表的文本或网站内已发表的所有文本,其中,所述文本为文章或帖子。所述第一专题、所述第二专题和所述第三专题均包括符号和符号标记的文字。所述专题库里所有专题包括下面的至少一种:自定义的专题,从所述所有文本的标题中选取的专题。因此,本申请实施例提供的文本的归类系统,通过获取文本的标题和文本的网址;将标题中的第一专题与专题库里至少一部分专题进行匹配;获取与第一专题匹配的第二专题;将标题存储于第二专题的目录内,并将文本的标题与文本的网址对应关联,以便用户检索到与第二专题同类的文本。使得用户能够快捷精准的检索到与专题同类的系列文本,以及由于与专题同类的文本存储在专题的目录内,使得与专题同类的文本的存储位置集中,同时避免了人力和时间的浪费。还可将重复率大的关键字对应的专题作为推荐的专题,并将推荐的专题以目录的形式展示给客户端,以便将推荐的专题供用户选择。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其与方法实施例相似,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。本领域普通技术人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执轨道,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执轨道的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进轨道了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1