一种小说目录项的识别方法、装置和系统的制作方法

文档序号:6499419阅读:205来源:国知局
一种小说目录项的识别方法、装置和系统的制作方法
【专利摘要】本发明实施例公开了一种小说目录项的识别方法、装置和系统。本发明实施例通过确定万维网网页中是否存在小说目录项特征,来从万维网网页中初步识别出小说目录页,而对于不存在小说目录项特征的万维网网页,则进一步通过视觉分块以及建立第一DOM树,并利用第一DOM树获取疑似目录块的特征,然后根据疑似目录块的特征来确定是否是小说目录页,从而实现了对小说目录项的识别,从而便于后续在移动终端上进行显示,以提高显示效果,改善用户的浏览质量。
【专利说明】一种小说目录项的识别方法、装置和系统
【技术领域】
[0001]本发明涉及通信【技术领域】,具体涉及一种小说目录项的识别方法、装置和系统。
【背景技术】
[0002]随着移动互联网技术以及移动终端的发展,人们越来越倾向于通过移动终端来阅读互联网上的信息,其中,包括阅读互联网上各种各样的小说作品,但是,目前互联网上的小说作品有很大一部分都是以万维网(WWW, world wide web)网页的形式存在,所谓万维网网页,一般指的是在基于个人计算机(PC, Personal Computer)的网页,其区别于无线应用协议(WAP, Wireless Application Protocol)网页,WAP网页,一般指的是基于移动终端的网页。
[0003]在对现有技术的研究和实践过程中,本发明的发明人发现,由于万维网网页上的小说的结构和内容都比较复杂,在移动终端上显示存在局限性,所以往往显示效果不佳,甚至会影响用户浏览质量。

【发明内容】

[0004]本发明实施例提供一种小说目录项的识别方法、装置和系统,可以对小说目录项进行识别,从而便于后续在移动终端上进行显示,以提高显示效果,改善用户的浏览质量。
[0005]一种小说目录项的识别方法,包括:
[0006]确定万维网网页是否存在小说目录项特征;
[0007]若是,则确定所述万维网网页为小说目录页;
[0008]若否,则对所述万维网网页进行视觉分块,得到分块后网页,根据分块后网页建立第一文档对象模型(DOM, Document Object Model)树,根据所述第一 DOM树获取疑似目录块的特征,根据所述疑似目录块的特征确定存在小说目录页时,确定所述分块后网页为小说目录页。
[0009]可选的,其中,所述确定万维网网页是否存在小说目录项特征可以包括:
[0010]根据万维网网页的链接、标题和全文具有正文特征的文本链接确定是否存在小说目录项特征;例如,具体可以如下:
[0011]根据万维网网页的链接确定所述万维网网页是否为首页或二级首页;
[0012]若是,则确定不存在小说目录项特征;
[0013]若否,则根据所述万维网网页建立第二 DOM树,利用所述第二 DOM树获取所述万维网网页的标题和全文具有正文特征的文本链接,确定所述标题存在预置的小说标题特性关键词,且确定所述全文具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量大于等于预置的第一阈值,且确定全文中相似文本链接占全文所有文本链接的比例大于等于预置的第二阈值时,确定存在小说目录项特征,否则,确定不存在小说目录项特征。
[0014]一种小说目录项的识别装置,包括:[0015]第一确定单元,用于确定万维网网页是否存在小说目录项特征,若是,则确定所述万维网网页为小说目录页;
[0016]分块单元,用于在第一确定单元确定万维网网页不存在小说目录项特征时,对所述万维网网页进行视觉分块,得到分块后网页;
[0017]模型建立单元,用于根据分块后网页建立第一 DOM树;
[0018]获取单元,用于根据所述第一 DOM树获取疑似目录块的特征;
[0019]第二确定单元,用于根据所述疑似目录块的特征确定存在小说目录页时,确定所述分块后网页为小说目录页。
[0020]可选的,所述第一确定单元,具体可以用于根据万维网网页的链接、标题和全文具有正文特征的文本链接确定是否存在小说目录项特征。例如,具体可以如下:
[0021]所述第一确定单元,具体用于根据万维网网页的链接确定所述万维网网页是否为首页或二级首页;若是,则确定不存在小说目录项特征;若否,则根据所述万维网网页建立第二 DOM树,利用所述第二 DOM树获取所述万维网网页的标题和全文具有正文特征的文本链接,确定所述标题存在预置的小说标题特性关键词,且确定所述全文具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量大于等于预置的第一阈值,且确定全文中相似文本链接占全文所有文本链接的比例大于等于预置的第二阈值时,确定存在小说目录项特征,否则,确定不存在小说目录项特征。
[0022]一种通信系统,包括本发明实施例提供的任一中小说目录项的识别装置。
[0023]本发明实施例通过确定万维网网页中是否存在小说目录项特征,来从万维网网页中初步识别出小说目录页,而对于不存在小说目录项特征的万维网网页,则进一步通过视觉分块以及建立第一 DOM树,并利用第一 DOM树获取疑似目录块的特征,然后根据疑似目录块的特征来确定是否是小说目录页,从而实现了对小说目录项的识别,从而便于后续在移动终端上进行显示,以提高显示效果,改善用户的浏览质量。
【专利附图】

【附图说明】
[0024]为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0025]图1是本发明实施例提供的小说目录项的识别方法的流程示意图;
[0026]图2是本发明实施例提供的小说目录项的识别方法的另一流程示意图;
[0027]图3是本发明实施例提供的小说目录项的识别装置的结构示意图。
【具体实施方式】
[0028]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0029]本发明实施例提供一种小说目录项的识别方法、装置和系统。以下分别进行详细说明。
[0030]实施例一、
[0031]本发明实施例将从小说目录项的识别装置的角度进行描述,该小说目录项的识别装置具体可以集成在移动终端中,比如手机或平板电脑等。
[0032]一种小说目录项的识别方法,包括:确定万维网网页是否存在小说目录项特征,若存在小说目录项特征,则确定该万维网网页为小说目录页;若不存在小说目录项特征,则对该万维网网页进行视觉分块,得到分块后网页,根据分块后网页建立第一 DOM树,根据该第一 DOM树获取疑似目录块的特征,根据该疑似目录块的特征确定存在小说目录页时,确定该分块后网页为小说目录页。
[0033]如图1所示,具体流程可以如下:
[0034]101、确定万维网网页是否存在小说目录项特征,若是,则执行步骤102,若否,则执行步骤103 ;
[0035]例如,具体可以根据万维网网页的链接、标题和全文具有正文特征的文本链接确定是否存在小说目录项特征;比如,具体可以包括:
[0036]根据万维网网页的链接确定该万维网网页是否为首页或二级首页;若为首页或二级首页,则确定不存在小说目录项特征;若即不是首页也不是二级首页,则根据该万维网网页建立DOM树,为了描述方便,将该DOM树称为第二 DOM树,利用该第二 DOM树获取该万维网网页的标题和全文具有正文特征的文本链接,确定该标题存在预置的小说标题特性关键词,且确定该全文具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量大于等于预置的第一阈值,且确定全文中相似文本链接占全文所有文本链接的比例大于等于预置的第二阈值时,确定存在小说目录项特征,否则,确定不存在小说目录项特征。
[0037]其中,本发明实施例的相似文本链接,指的是指向同一正文页的不同的文本链接,即具有相同正文页链接的不同的文本链接,比如同一“第”下的不同“章”的链接,或者,同一 “章”下的不同“节”的文本链接,或者,同一 “节”下的不同“回”的文本链接,等等。
[0038]其中,万维网网页的链接具体可以为统一资源定位符(URL, Universal ResourceLocator),则具体可以检测万维网网页的URL的路径长度,以及检测是否含有类似“index”+ “.html/jsp/asp/php/shtml,,或“default,,+ “.html/jsp/asp/php/shtml,,等关键词,从而判断该万维网网页是否属于首页或者二级首页。
[0039]此外,小说标题特性关键词可以包括目录和/或标题等词语;小说正文特性关键词包括:第、章、节、回和/或卷等词语,而第一阈值和第二阈值则可以根据实际应用的需求进行设置,在此不再赘述。
[0040]102、确定万维网网页存在小说目录项特征时,确定该万维网网页为小说目录页。
[0041]103、确定万维网网页不存在小说目录项特征时,对万维网网页进行视觉分块,得到分块后网页。
[0042]104、根据分块后网页建立DOM树,为了描述方便,在本发明实施例中,将该DOM树称为第一 DOM树。
[0043]105、根据该第一 DOM树获取疑似目录块的特征,根据该疑似目录块的特征确定存在小说目录页时,确定该分块后网页为小说目录页。[0044]其中,根据该第一 DOM树获取疑似目录块的特征,具体可以包括:
[0045]根据该第一 DOM树获取疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接;
[0046]则此时,步骤“根据该疑似目录块的特征确定存在小说目录页时,确定该分块后网页为小说目录页”具体可以为:根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接确定存在小说目录页时,确定所述分块后网页为小说目录页,具体可以如下:
[0047]根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接确定符合第一条件和第二条件时,确定存在小说目录页;
[0048](一)第一条件包括:
[0049]疑似目录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量大于等于预置的第三阈值,且疑似目录块中相似文本链接占本疑似目录块中所有文本链接的比例大于等于预置的第四阈值;
[0050](二)第二条件包括:
[0051]在根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接确定该分块后网页存在目录块的前提下,符合以下任意一种情况:
[0052](I)代表目录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量大于等于预置的第五阈值;
[0053](2)代表目录块中的相似文本链接的数量大于等于预置的第六阈值,且代表目录块中的相似文本链接占本疑似目录块中所有文本链接的比例大于等于预置的第七阈值;
[0054](3)分块后网页中的所有疑似目录块中的相似文本链接的数量大于等于预置的第八阈值,且该分块后网页中的所有疑似目录块中的相似文本链接占该分块后网页中所有文本链接的比例大于等于预置的第九阈值。
[0055]其中,可以采用如下方法来得到代表目录块,如下:
[0056]统计疑似目录块中出现的小说正文页的链接特征的数量,以及统计疑似目录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量;确定该链接特征的数量和小说正文特性关键词的文本链接的数量最多的疑似目录块为代表目录块。
[0057]其中,步骤“根据疑似目录块链接和疑似目录块中具有正文特征的文本链接确定该分块后网页存在目录块”具体可以包括:
[0058]确定疑似目录块位置满足预置条件(可以根据实际应用的需求进行设置),且确定疑似目录块链接存在预置的小说正文页的链接特征,以及确定疑似目录块具有正文特征的文本链接中存在预置的小说正文特性关键词时,确定该分块后网页存在目录块。
[0059]其中,第三阈值、第四阈值、第五阈值、第六阈值、第七阈值、第八阈值和第九阈值可以根据实际应用的需求进行设置。
[0060]需说明的是,在本发明实施例中,将符合预置条件的分块后网页中的块称为疑似目录块,该预置条件可以根据实际应用的需求进行设置。
[0061]此外,若根据该疑似目录块的特征确定不存在小说目录页,则可以确定该分块后网页不是小说目录页。
[0062]由上可知,本实施例通过确定万维网网页中是否存在小说目录项特征,来从万维网网页中初步识别出小说目录页,而对于不存在小说目录项特征的万维网网页,则进一步通过视觉分块以及建立第一 DOM树,并利用第一 DOM树获取疑似目录块的特征,然后根据疑似目录块的特征来确定是否是小说目录页,从而实现了对小说目录项的识别,从而便于后续在移动终端上进行显示,以提高显示效果,改善用户的浏览质量。
[0063]实施例二、
[0064]根据实施例一所描述的方法,以下将举例作进一步详细说明。
[0065]在本发明实施例中,将以该小说目录项的识别装置具体集成在移动终端,且万维网网页的链接具体为URL为例进行说明。
[0066]—种小说目录项的识别方法,如图2所示,具体流程可以如下:
[0067]201、移动终端获取万维网网页。
[0068]202、移动终端根据万维网网页的URL确定该万维网网页是否为首页或二级首页,若为首页或二级首页,则可以直接确定不存在小说目录项特征,于是执行步骤204 ;若即不是首页也不是二级首页,则执行步骤203。
[0069]例如,具体可以检测万维网网页的URL的路径长度,以及检测是否含有类似“index”+ “.html/jsp/asp/php/shtml,,或“default,,+ “.html/jsp/asp/php/shtml,,等关键词,从而判断该万维网网页是否属于首页或者二级首页。
[0070]203、根据该万维网网页建立第二 DOM树,利用该第二 DOM树获取该万维网网页的标题和全文具有正文特征的文本链接,并根据该万维网网页的链接、标题和全文具有正文特征的文本链接确定是否存在小说目录项特征,具体如下:
[0071]确定该标题中是否存在预置的小说标题特性关键词,以及确定该全文具有正文特征的文本链接中是否存在预置的小说正文特性关键词,并统计这些存在小说正文特性关键词的文本链接的数量,此外,还可以确定全文中相似文本链接的占比,即全文中相似文本链接占全文所有文本链接的比例。
[0072]若确定该标题存在预置的小说标题特性关键词,且该全文具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量大于等于预置的第一阈值,且全文中相似文本链接占全文所有文本链接的比例大于等于预置的第二阈值时,则可以确定存在小说目录项特征,于是确定该万维网网页为小说目录页,流程结束;
[0073]否则,若确定该标题不存在预置的小说标题特性关键词,或确定该全文具有正文特征的文本链接中存在预置的小说正文特性关键词文本链接的数量小于预置的第一阈值,或确定全文中相似文本链接占全文所有文本链接的比例小于预置的第二阈值,则确定不存在小说目录项特征,于是执行步骤204。
[0074]其中,小说标题特性关键词可以包括目录和/或标题等词语;小说正文特性关键词包括:第、章、节、回和/或卷等词语,而第一阈值和第二阈值则可以根据实际应用的需求进行设置,例如,具体可以如下:
[0075]根据该万维网网页建立第二 DOM树,利用该第二 DOM树获取该万维网网页〈title〉标签下的标题,确定该标题中是否存在“目录”和/或“标题”等关键词;
[0076]遍历第二 DOM树,确定全文具有正文特征的文本链接中是否含有“第”、“章”、“节”、“回”和/或“卷”等目录相关关键词,若含有,则统计这些含有“第”、“章”、“节”、“回”和/或“卷”等目录相关关键词的文本链接的数量,此外,还可以计算全文中相似文本链接占全文所有文本链接的比例;
[0077]若标题中存在“目录”和/或“标题”等关键词,且这些含有“第”、“章”、“节”、“回”和/或“卷”等目录相关关键词的文本链接的数量大于等于第一阈值,且这些相似文本链接占全文所有文本链接的比例大于等于预置的第二阈值,则可以确定该万维网网页存在小说目录项特征,于是确定该万维网网页为小说目录页,流程结束。
[0078]若标题中不存在“目录”和/或“标题”等关键词,或这些含有“第”、“章”、“节”、“回”和/或“卷”等目录相关关键词的文本链接的数量小于第一阈值,或这些相似文本链接占全文所有文本链接的比例小于预置的第二阈值,则可以确定该万维网网页不存在小说目录项特征,于是可以执行步骤204。
[0079]204、移动终端确定万维网网页不存在小说目录项特征时,对万维网网页进行视觉分块,得到分块后网页。
[0080]205、移动终端根据分块后网页建立第一 DOM树,并根据该第一 DOM树获取疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接。
[0081]其中,疑似目录块位置可以从块的位置坐标、宽度、高度等来体现,例如,若以万维网网页的页面从左到右代表X轴,从上到下代表I轴的坐标系来看,则可以用X代表块的X坐标,I代表块的I坐标,width代表分块的宽度,height代表分块的高度,等等。
[0082]206、移动终端根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接确定是否存在小说目录页,若是,则确定该分块后网页为小说目录页,若否,则可以确定该分块后网页不是小说目录页(即非小说目录页)。
[0083]例如,移动终端具体可以根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接确定是否符合第一条件和第二条件,若可以同时符合第一条件和第二条件,则确定该分块后网页存在小说目录页,否则,若不能同时符合第一条件和第二条件,则确定该分块后网页不存在小说目录页。
[0084]其中,第一条件和第二条件具体可以如下:
[0085](一)第一条件包括:
[0086]疑似目录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量大于等于预置的第三阈值,且疑似目录块中相似文本链接占本疑似目录块中所有文本链接的比例大于等于预置的第四阈值。
[0087]例如,小说正文特性关键词具体可以为“第”、“章”、“节”、“回”和/或“卷”等目录相关的关键词,而第三阈值具体可以设置为“15”,第四阈值具体可以设置为“0.8”,则具体可以如下:
[0088]疑似目录块中具有正文特征的链接文本中含有“第”、“章”、“节”、“回”和/或“卷”等目录相关的关键词,且这类链接文本数量大于等于15个,且该疑似目录块中相似文本链接占本疑似目录块中所有文本链接的比例大于等于0.8。
[0089](二)第二条件包括:
[0090]在根据疑似目录块链接和疑似目录块中具有正文特征的文本链接确定该分块后网页存在目录块的前提下,符合以下任意一种情况:
[0091](I)代表目录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的数量大于等于预置的第五阈值;[0092]例如,小说正文特性关键词具体可以为“第”、“章”、“节”、“回”和/或“卷”等目录相关的关键词,而第五阈值可以设置为“10”,则具体可以如下:
[0093]代表目录块中具有正文特征的链接文本中含有“第”、“章”、“节”、“回”和/或“卷”等目录相关的关键词,且这类链接文本数量大于等于10个。
[0094](2)代表目录块中的相似文本链接的数量大于等于预置的第六阈值,且代表目录块中的相似文本链接占本疑似目录块中所有文本链接的比例大于等于预置的第七阈值;
[0095]例如,第六阈值具体可以设置为“20”,第七阈值具体可以设置为“0.9”,则具体可以如下:
[0096]代表目录块中的相似文本链接的数量大于等于20个,且代表目录块中的相似文本链接占本疑似目录块中所有文本链接的比例大于等于0.9。
[0097](3)分块后网页中的所有疑似目录块中的相似文本链接的数量大于等于预置的第八阈值,且该分块后网页中的所有疑似目录块中的相似文本链接占该分块后网页中所有文本链接的比例大于等于预置的第九阈值。
[0098]例如,第八阈值具体可以设置为“100”,第九阈值具体可以设置为“0.8”,则具体可以如下:
[0099]分块后网页中的所有疑似目录块的相似文本链接的数量大于等于100个,且该分块后网页中的所有疑似目录块中的相似文本链接占该分块后网页中所有文本链接的比例大于等于0.8。
[0100]其中,可以采用如下方法来得到代表目录块,如下:
[0101]统计疑似目录块中出现的小说正文页的链接特征的数量,以及统计疑似目录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量,确定该链接特征的数量和小说正文特性关键词的文本链接的数量最多的疑似目录块为代表目录块。
[0102]其中,步骤“根据疑似目录块链接和疑似目录块中具有正文特征的文本链接确定该分块后网页存在目录块”具体可以包括:
[0103]确定疑似目录块位置满足预置条件,比如,满足“y>=100 ;width>300 ;height>100”,且确定疑似目录块链接存在预置的小说正文页的链接特征,且确定疑似目录块具有正文特征的文本链接中存在预置的小说正文特性关键词时,可以确定该分块后网页存在目录块。
[0104]需说明的是,以上各个阈值的值仅仅为范例,应当理解的是,以上各个阈值,即第一阈值、第二阈值、第三阈值、第四阈值、第五阈值、第六阈值、第七阈值、第八阈值和第九阈值的具体取值可以根据实际应用的需求进行设置。
[0105]由上可知,本实施例通过确定万维网网页中是否存在小说目录项特征,来从万维网网页中初步识别出小说目录页,而对于不存在小说目录项特征的万维网网页,则进一步通过视觉分块以及建立第一 DOM树,并利用第一 DOM树获取疑似目录块的特征,比如获取疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接等,然后根据这些疑似目录块的特征来确定是否是小说目录页,从而实现了对小说目录项的识别,在进行小说目录页的相关抽取时将能更有针对性,取得更好的抽取效果,从而便于后续在移动终端上进行显示,以提高显示效果,改善用户的浏览质量。
[0106]实施例三、[0107]为了更好地实施以上方法,本发明实施例还提供一种小说目录项的识别装置,如图3所示,该小说目录项的识别装置包括第一确定单元301、分块单元302、模型建立单元303、获取单元304和第二确定单元305 ;
[0108]第一确定单元301,用于确定万维网网页是否存在小说目录项特征,若是,则确定该万维网网页为小说目录页;
[0109]分块单元302,用于在第一确定单元301确定万维网网页不存在小说目录项特征时,对该万维网网页进行视觉分块,得到分块后网页;
[0110]模型建立单元303,用于根据分块单元302得到的分块后网页建立第一 DOM树;
[0111]获取单元304,用于根据模型建立单元303建立的第一 DOM树获取疑似目录块的特征;
[0112]第二确定单元305,用于根据疑似目录块的特征确定存在小说目录页时,确定所述分块后网页为小说目录页。
[0113]其中,第一确定单元301,具体可以用于根据万维网网页的链接、标题和全文具有正文特征的文本链接确定是否存在小说目录项特征。例如,具体可以如下:
[0114]第一确定单元301,具体可以用于根据万维网网页的链接确定该万维网网页是否为首页或二级首页;若是,则确定不存在小说目录项特征;若否,则根据该万维网网页建立第二 DOM树,利用第二 DOM树获取该万维网网页的标题和全文具有正文特征的文本链接,确定该标题存在预置的小说标题特性关键词,且确定该“全文具有正文特征的文本链接”中存在“预置的小说正文特性关键词”的文本链接的数量大于等于预置的第一阈值,且确定全文中相似文本链接占全文所有文本链接的比例大于等于预置的第二阈值时,确定存在小说目录项特征,否则,确定不存在小说目录项特征。
[0115]其中,本发明实施例的相似文本链接,指的是指向同一正文页的不同的文本链接,即具有相同正文页链接的不同的文本链接,比如同一“第”下的不同“章”的链接,或者,同一 “章”下的不同“节”的文本链接,或者,同一 “节”下的不同“回”的文本链接,等等。
[0116]其中,万维网网页的链接具体可以为URL,则具体可以检测万维网网页的URL的路径长度,以及检测是否含有类似“index”+ “.html/jsp/asp/php/shtml”或“default”+ “.html/j sp/asp/php/shtml ”等关键词,从而判断该万维网网页是否属于首页或者二级首页。
[0117]此外,小说标题特性关键词可以包括目录和/或标题等词语;小说正文特性关键词包括:第、章、节、回和/或卷等词语,而第一阈值和第二阈值则可以根据实际应用的需求进行设置,在此不再赘述。
[0118]其中,疑似目录块的特征可以包括疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接等,即:
[0119]获取单元304,具体可以用于根据第一 DOM树获取疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接;
[0120]则此时,第二确定单元305,具体可以用于根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接确定存在小说目录页时,确定该分块后网页为小说目录页。例如,具体可以如下:
[0121]第二确定单元305,具体可以用于根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接确定符合第一条件和第二条件时,确定存在小说目录页;[0122]其中,第一条件和第二条件具体可以如下:
[0123](一)第一条件包括:
[0124]疑似目录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量大于等于预置的第三阈值,且疑似目录块中相似文本链接占本疑似目录块中所有文本链接的比例大于等于预置的第四阈值。
[0125]例如,小说正文特性关键词具体可以为“第”、“章”、“节”、“回”和/或“卷”等目录相关的关键词,而第三阈值具体可以设置为“15”,第四阈值具体可以设置为“0.8”,则具体可以如下:
[0126]疑似目录块中具有正文特征的链接文本中含有“第”、“章”、“节”、“回”和/或“卷”等目录相关的关键词,且这类链接文本数量大于等于15个,且该疑似目录块中相似文本链接占本疑似目录块中所有文本链接的比例大于等于0.8。
[0127](二)第二条件包括:
[0128]在根据疑似目录块链接和疑似目录块中具有正文特征的文本链接确定该分块后网页存在目录块的前提下,符合以下任意一种情况:
[0129](I)代表目录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的数量大于等于预置的第五阈值;
[0130]例如,小说正文特性关键词具体可以为“第”、“章”、“节”、“回”和/或“卷”等目录相关的关键词,而第五阈值可以设置为“10”,则具体可以如下:
[0131]代表目录块中具有正文特征的链接文本中含有“第”、“章”、“节”、“回”和/或“卷”等目录相关的关键词,且这类链接文本数量大于等于10个。
[0132](2)代表目录块中的相似文本链接的数量大于等于预置的第六阈值,且代表目录块中的相似文本链接占本疑似目录块中所有文本链接的比例大于等于预置的第七阈值;
[0133]例如,第六阈值具体可以设置为“20”,第七阈值具体可以设置为“0.9”,则具体可以如下:
[0134]代表目录块中的相似文本链接的数量大于等于20个,且代表目录块中的相似文本链接占本疑似目录块中所有文本链接的比例大于等于0.9。
[0135](3)分块后网页中的所有疑似目录块中的相似文本链接的数量大于等于预置的第八阈值,且该分块后网页中的所有疑似目录块中的相似文本链接占该分块后网页中所有文本链接的比例大于等于预置的第九阈值。
[0136]例如,第八阈值具体可以设置为“100”,第九阈值具体可以设置为“0.8”,则具体可以如下:
[0137]分块后网页中的所有疑似目录块的相似文本链接的数量大于等于100个,且该分块后网页中的所有疑似目录块中的相似文本链接占该分块后网页中所有文本链接的比例大于等于0.8。
[0138]其中,可以采用如下方法来得到代表目录块,如下:
[0139]统计疑似目录块中出现的小说正文页的链接特征的数量,以及统计疑似目录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量,确定该链接特征的数量和小说正文特性关键词的文本链接的数量最多的疑似目录块为代表目录块。即:[0140]第二确定单元305,具体可以用于统计疑似目录块中出现的小说正文页的链接特征的数量,以及统计疑似目录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量,确定该链接特征的数量和小说正文特性关键词的文本链接的数量最多的疑似目录块为代表目录块。
[0141]此外,具体可以采用如下方法来确定分块后网页是否存在目录块,如下:
[0142]确定疑似目录块位置满足预置条件,比如,满足“y>=100 ;width>300 ;height>100”,且确定疑似目录块链接存在预置的小说正文页的链接特征,且确定疑似目录块具有正文特征的文本链接中存在预置的小说正文特性关键词时,可以确定该分块后网页存在目录块,否则,确定该分块后网页存在目录块。即:
[0143]第二确定单元305,具体可以用于确定疑似目录块位置满足预置条件,且确定疑似目录块链接存在预置的小说正文页的链接特征,以及确定疑似目录块具有正文特征的文本链接中存在预置的小说正文特性关键词时,确定分块后网页存在目录块。
[0144]需说明的是,以上各个阈值的值仅仅为范例,应当理解的是,以上各个阈值,即第一阈值、第二阈值、第三阈值、第四阈值、第五阈值、第六阈值、第七阈值、第八阈值和第九阈值的具体取值可以根据实际应用的需求进行设置。
[0145]此外,如果移动终端根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接确定该分块后网页不存在小说目录页,则第二确定单元305可以确定该分块后网页不是小说目录页。
[0146]该小说目录项的识别装置具体可以集成在移动终端中,比如手机或平板电脑等。
[0147]具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
[0148]由上可知,本实施例的小说目录项的识别装置可以通过第一确定单元301确定万维网网页中是否存在小说目录项特征,来从万维网网页中初步识别出小说目录页,而对于不存在小说目录项特征的万维网网页,则由分块单元302作进一步视觉分块以及由模型建立单元303建立第一 DOM树,并由获取单元304利用第一 DOM树获取疑似目录块的特征,然后再由第二确定单元305根据这些疑似目录块的特征来确定是否是小说目录页,从而实现了对小说目录项的识别,在进行小说目录页的相关抽取时将能更有针对性,取得更好的抽取效果,从而便于后续在移动终端上进行显示,以提高显示效果,改善用户的浏览质量。
[0149]实施例四、
[0150]相应的,本发明实施例还提供一种通信系统,包括本发明实施例提供的任一种小说目录项的识别装置。例如,具体可以如下:
[0151]小说目录项的识别装置,用于确定万维网网页是否存在小说目录项特征,若存在小说目录项特征,则确定该万维网网页为小说目录页;若不存在小说目录项特征,则对该万维网网页进行视觉分块,得到分块后网页,根据分块后网页建立第一 DOM树,根据该第一DOM树获取疑似目录块的特征,根据该疑似目录块的特征确定存在小说目录页时,确定该分块后网页为小说目录页。
[0152]可选的,其中,小说目录项的识别装置,具体可以用于根据万维网网页的链接、标题和全文具有正文特征的文本链接确定是否存在小说目录项特征。[0153]例如,小说目录项的识别装置,具体可以用于根据万维网网页的链接确定该万维网网页是否为首页或二级首页;若为首页或二级首页,则确定不存在小说目录项特征;若即不是首页也不是二级首页,则根据该万维网网页建立第二 DOM树,利用该第二 DOM树获取该万维网网页的标题和全文具有正文特征的文本链接,确定该标题存在预置的小说标题特性关键词,且确定该全文具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量大于等于预置的第一阈值,且确定全文中相似文本链接占全文所有文本链接的比例大于等于预置的第二阈值时,确定存在小说目录项特征,否则,确定不存在小说目录项特征。
[0154]其中,相似文本链接,指的是指向同一正文页的不同的文本链接,即具有相同正文页链接的不同的文本链接,比如同一“第”下的不同“章”的链接,或者,同一“章”下的不同“节”的文本链接,或者,同一 “节”下的不同“回”的文本链接,等等。
[0155]其中,万维网网页的链接具体可以为URL,则具体可以检测万维网网页的URL的路径长度,以及检测是否含有类似“index”+ “.html/jsp/asp/php/shtml”或“default”+ “.html/j sp/asp/php/shtml ”等关键词,从而判断该万维网网页是否属于首页或者二级首页。
[0156]此外,小说标题特性关键词可以包括目录和/或标题等词语;小说正文特性关键词包括:第、章、节、回和/或卷等词语,而第一阈值和第二阈值则可以根据实际应用的需求进行设置,在此不再赘述。
[0157]其中,小说目录项的识别装置,具体可以用于根据该第一 DOM树获取疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接;然后根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接确定存在小说目录页时,确定该分块后网页为小说目录页,比如,具体可以如下:
[0158]根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接确定符合第一条件和第二条件时,确定存在小说目录页;其中,第一条件和第二条件具体可以如下:
[0159](一)第一条件包括:
[0160]疑似目录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量大于等于预置的第三阈值,且疑似目录块中相似文本链接占本疑似目录块中所有文本链接的比例大于等于预置的第四阈值;
[0161](二)第二条件包括:
[0162]在根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接确定该分块后网页存在目录块的前提下,符合以下任意一种情况:
[0163](I)代表目录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量大于等于预置的第五阈值;
[0164](2)代表目录块中的相似文本链接的数量大于等于预置的第六阈值,且代表目录块中的相似文本链接占本疑似目录块中所有文本链接的比例大于等于预置的第七阈值;
[0165](3)分块后网页中的所有疑似目录块中的相似文本链接的数量大于等于预置的第八阈值,且该分块后网页中的所有疑似目录块中的相似文本链接占该分块后网页中所有文本链接的比例大于等于预置的第九阈值。
[0166]其中,可以采用如下方法来得到代表目录块,如下:[0167]统计疑似目录块中出现的小说正文页的链接特征的数量,以及统计疑似目录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量;确定该链接特征的数量和小说正文特性关键词的文本链接的数量最多的疑似目录块为代表目录块。
[0168]其中,步骤“根据疑似目录块链接和疑似目录块中具有正文特征的文本链接确定该分块后网页存在目录块”具体可以包括:
[0169]确定疑似目录块位置满足预置条件(可以根据实际应用的需求进行设置),且确定疑似目录块链接存在预置的小说正文页的链接特征,以及确定疑似目录块具有正文特征的文本链接中存在预置的小说正文特性关键词时,确定该分块后网页存在目录块。
[0170]其中,第三阈值、第四阈值、第五阈值、第六阈值、第七阈值、第八阈值和第九阈值可以根据实际应用的需求进行设置。
[0171]其中,该小说目录项的识别装置具体可以集成在移动终端中,比如手机或平板电脑等。
[0172]此外,该通信系统还可以包括网络侧设备,用于提供万维网网页给该小说目录项的识别装置。
[0173]该网络侧设备具体可以为服务器等设备,在此不再赘述。
[0174]由上可知,本实施例的通信系统中的小说目录项的识别装置可以通过确定万维网网页中是否存在小说目录项特征,来从万维网网页中初步识别出小说目录页,而对于不存在小说目录项特征的万维网网页,则进一步通过视觉分块以及建立第一 DOM树,并利用第一 DOM树获取疑似目录块的特征,然后根据这些疑似目录块的特征来确定是否是小说目录页,从而实现了对小说目录项的识别,在进行小说目录页的相关抽取时将能更有针对性,取得更好的抽取效果,从而便于后续在移动终端上进行显示,以提高显示效果,改善用户的浏览质量。
[0175]本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM, Read Only Memory)、随机存取记忆体(RAM, RandomAccess Memory)、磁盘或光盘等。
[0176]以上对本发明实施例所提供的一种小说目录项的识别方法、装置和系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在【具体实施方式】及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
【权利要求】
1.一种小说目录项的识别方法,其特征在于,包括: 确定万维网网页是否存在小说目录项特征; 若是,则确定所述万维网网页为小说目录页; 若否,则对所述万维网网页进行视觉分块,得到分块后网页,根据分块后网页建立第一文档对象模型树,根据所述第一文档对象模型树获取疑似目录块的特征,根据所述疑似目录块的特征确定存在小说目录页时,确定所述分块后网页为小说目录页。
2.根据权利要求1所述的方法,其特征在于,所述确定万维网网页是否存在小说目录项特征,包括: 根据万维网网页的链接、标题和全文具有正文特征的文本链接确定是否存在小说目录项特征。
3.根据权利要求2所述的方法,其特征在于,所述根据万维网网页的链接、标题和全文具有正文特征的文本链接确定是否存在小说目录项特征,包括: 根据万维网网页的链接确定所述万维网网页是否为首页或二级首页; 若是,则确定不存在小说目录项特征; 若否,则根据所述万维网网页建立第二文档对象模型树,利用所述第二文档对象模型树获取所述万维网网页的标题和全文具有正文特征的文本链接,确定所述标题存在预置的小说标题特性关键词,且确定所述全文具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量大于等于预置的第一阈值,且确定全文中相似文本链接占全文所有文本链接的比例大于等于预置的第二阈值时,确定存在小说目录项特征,否则,确定不存在小说目录项特征。
4.根据权利要求3所述的方法,其特征在于,所述根据所述第一文档对象模型树获取疑似目录块的特征,包括: 根据所述第一文档对象模型树获取疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接; 则根据所述疑似目录块的特征确定存在小说目录页时,确定所述分块后网页为小说目录页具体为:根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接确定存在小说目录页时,确定所述分块后网页为小说目录页。
5.根据权利要求4所述的方法,其特征在于,所述根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接确定存在小说目录页,包括: 根据疑似目录块链接和疑似目录块中具有正文特征的文本链接确定符合第一条件和第二条件时,确定存在小说目录页; 所述第一条件包括:疑似目录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量大于等于预置的第三阈值,且疑似目录块中相似文本链接占本疑似目录块中所有文本链接的比例大于等于预置的第四阈值; 所述第二条件包括:在根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接确定所述分块后网页存在目录块的前提下,符合以下任意一种情况:代表目录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量大于等于预置的第五阈值;或,代表目录块中的相似文本链接的数量大于等于预置的第六阈值,且代表目录块中的相似文本链接占本疑似目录块中所有文本链接的比例大于等于预置的第七阈值;或,所述分块后网页中的所有疑似目录块中的相似文本链接的数量大于等于预置的第八阈值,且所述分块后网页中的所有疑似目录块中的相似文本链接占该分块后网页中所有文本链接的比例大于等于预置的第九阈值; 所述代表目录块为:统计疑似目录块中出现的小说正文页的链接特征的数量,以及统计疑似目录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量;确定所述链接特征的数量和小说正文特性关键词的文本链接的数量最多的疑似目录块为代表目录块。
6.根据权利要求5所述的方法,其特征在于,所述根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接确定所述分块后网页存在目录块,包括: 确定疑似目录块位置满足预置条件,且确定疑似目录块链接存在预置的小说正文页的链接特征,且确定疑似目录块具有正文特征的文本链接中存在预置的小说正文特性关键词时,确定所述分块后网页存在目录块。
7.根据权利要求3至6任一项所述的方法,其特征在于, 所述小说标题特性关键词包括:目录和/或标题; 所述小说正文特性关键词包括:第、章、节、回和/或卷。
8.—种小说目录项的识别装置,其特征在于,包括: 第一确定单元,用于确定万维网网页是否存在小说目录项特征,若是,则确定所述万维网网页为小说目录页; 分块单元,用于在第一确定单元确定万维网网页不存在小说目录项特征时,对所述万维网网页进行视觉分块,得到分块后网页; 模型建立单元,用于根据分块后网页建立第一文档对象模型树; 获取单元,用于根据所述第一文档对象模型树获取疑似目录块的特征; 第二确定单元,用于根据所述疑似目录块的特征确定存在小说目录页时,确定所述分块后网页为小说目录页。
9.根据权利要求8所述的小说目录项的识别装置,其特征在于, 所述第一确定单元,具体用于根据万维网网页的链接、标题和全文具有正文特征的文本链接确定是否存在小说目录项特征。
10.根据权利要求9所述的小说目录项的识别装置,其特征在于, 所述第一确定单元,具体用于根据万维网网页的链接确定所述万维网网页是否为首页或二级首页;若是,则确定不存在小说目录项特征;若否,则根据所述万维网网页建立第二文档对象模型树,利用所述第二文档对象模型树获取所述万维网网页的标题和全文具有正文特征的文本链接,确定所述标题存在预置的小说标题特性关键词,且确定所述全文具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量大于等于预置的第一阈值,且确定全文中相似文本链接占全文所有文本链接的比例大于等于预置的第二阈值时,确定存在小说目录项特征,否则,确定不存在小说目录项特征。
11.根据权利要求10所述的小说目录项的识别装置,其特征在于,获取单元,具体用于根据所述第一文档对象模型树获取疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接; 则第二确定单元,具体用于根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接确定存在小说目录页时,确定所述分块后网页为小说目录页。
12.根据权利要求11所述的小说目录项的识别装置,其特征在于, 第二确定单元,具体用于根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接确定符合第一条件和第二条件时,确定存在小说目录页; 所述第一条件包括:疑似目录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量大于等于预置的第三阈值,且疑似目录块中相似文本链接占本疑似目录块中所有文本链接的比例大于等于预置的第四阈值; 所述第二条件包括:在根据疑似目录块位置、疑似目录块链接和疑似目录块中具有正文特征的文本链接确定所述分块后网页存在目录块的前提下,符合以下任意一种情况:代表目录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量大于等于预置的第五阈值;或,代表目录块中的相似文本链接的数量大于等于预置的第六阈值,且代表目录块中的相似文本链接占本疑似目录块中所有文本链接的比例大于等于预置的第七阈值;或,所述分块后网页中的所有疑似目录块中的相似文本链接的数量大于等于预置的第八阈值,且所述分块后网页中的所有疑似目录块中的相似文本链接占该分块后网页中所有文本链接的比例大于等于预置的第九阈值; 所述代表目录块为:统计疑似目录块中出现的小说正文页的链接特征的数量,以及统计疑似目录块中具有正文特征的文本链接中存在预置的小说正文特性关键词的文本链接的数量;确定所述链接特征的数量和小说正文特性关键词的文本链接的数量最多的疑似目录块为代表目录块。
13.根据权利要求12所述的小说目录项的识别装置,其特征在于, 第二确定单元,具体用于确定疑似目录块位置满足预置条件,且确定疑似目录块链接存在预置的小说正文页的链接特征,且确定疑似目录块具有正文特征的文本链接中存在预置的小说正文特性关键词时,确定所述分块后网页存在目录块。
14.根据权利要求10至13任一项所述的小说目录项的识别装置,其特征在于, 所述小说标题特性关键词包括:目录和/或标题; 所述小说正文特性关键词包括:第、章、节、回和/或卷。
15.一种通信系统, 其特征在于,包括权利要求8至14中所述的任一种小说目录项的识别装置。
【文档编号】G06F17/30GK103970755SQ201310031915
【公开日】2014年8月6日 申请日期:2013年1月28日 优先权日:2013年1月28日
【发明者】黄钰 申请人:腾讯科技(深圳)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1