文章章节生成方法、系统和电子书阅读器的制造方法_2

文档序号:9547160阅读:来源:国知局
设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
[0065]本技术领域技术人员可以理解,这里所使用的远端网络设备,其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。本发明的实施例中,远端网络设备、终端设备与WNS服务器之间可通过任何通信方式实现通信,包括但不限于,基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。
[0066]针对传统电子书阅读器或在线阅读电子书存在的缺陷,以下提供一种解决该缺陷的智能车载终端触发系统和方法。
[0067]图1为一个实施例的文章章节生成方法流程图。
[0068]—种文章章节生成方法,包括如下步骤:
[0069]步骤S100:根据文章的用户指定内容而获得文章。
[0070]用户指定内容可以包括文章的关键词,通过搜索引擎搜索关键词而获取文章。例如,当应用于在线阅读时,可以提供用户界面给用户进行输入,获取用户输入的内容后,以用户输入的内容作为关键词,通过搜索引擎在互联网搜索关键词,并将搜索的相关的文章链接向用户显示;当用户选择了其中的文章链接后,将与该文章链接相对应的文章获取。
[0071]用户指定内容可以包括文章的存储路径,通过读取存储路径所指向的文件而获取文章。例如,当应用于电子书阅读器时,用户可以事先下载好文章存储到存储介质,电子书阅读器可以通过用户操作得到文章的存储路径,然后通过存储路径获取文章。当然,存储介质可以是本地存储介质,也可以是远端存储介质;下载好的文章既可以存储于本地存储介质,也可以存储于远端存储介质,例如云端存储空间。
[0072]所述的文章可以理解为文档,是具有载体的。文章的载体可以为TXT、D0C、PDF,HTM、HTML、EPUB、CHM等等格式的文件。获取文章可以理解为获取文件。
[0073]步骤S110:遍历文章的文本数据,提取其中具有章节特征的纲目内容。
[0074]遍历文章的文本数据的过程,可以按照文本数据顺序依次提取文本数据中具有章节特征的纲目内容。文本数据顺序可以理解为文本数据的前后的排列顺序。将文本数据从头到尾进行搜索,发现符合章节特征的纲目内容时,就将该纲目内容复制提取出来。
[0075]章节特征可以设置为:相邻两个标识符之间的字符数满足预设条件。标记符通常是用于区分不同的段落,也即在相邻的两个标记符之间,通常为一段的自然段落。这种标记符,可以是段落符和断行符中的一种。当然,根据不同的电子书文档格式,标记符的表达可能不一样,只要用于区分不同段落的字符都可以理解为所述标记符。互联网上大部分的电子书,通常文章的文本数据中都有文章章节,只是由于很多电子书是直接从网站抓取,然后抓取形成电子书,这类电子书通常是没有文章目录的。然而,这类电子书的文本数据中有文章章节,而通常这些文章章节都具备章节特征,例如这些文章章节通常自起一段,以与文章正文内容区分开。因此,文章章节通常存在于相邻的两个标记符之间,具有章节特征的纲目内容为相邻两个标识符之间的字符。
[0076]文章章节通常自起一段,而且具有字数较少的特征。毕竟,如果是文章正文内容,通常一段的文本字数大部分都不会存在字数较少的特征。以文章《三国演义》为例,《三国演义》的第一章的标题(即文章章节)为“第一回宴桃园豪杰三结义斩黄巾英雄首立功”,标题里加上空格字符总共21个字符,然而在《三国演义》通篇文本正文内容中,并没有一个非文章章节的自然段落中的字符数会少于21的。因此,可以通过判断相邻两个标识符之间的字符数满足预设条件来初步判断是否为文章章节。
[0077]所述预设条件可以包括:字符数大于0且少于预设数值。预设数值可以通过用户自行设定,毕竟用户了解了文章内容后,可以判断文章章节的字符数范围。继续以文章《三国演义》为例,用户了解文章内容后可以将预设数值设为22。因此,在步骤S100和步骤S110之间,可以包括一个提供用户设置预设数值的步骤。
[0078]通过步骤S110后,可以提取到多组纲目内容。
[0079]步骤S120:按序组织纲目内容以建立文章的章节列表,建立章节列表到对应的章节内容之间的索引关系。
[0080]将提取到的多组纲目内容(相邻两个标识符之间的字符)按预设的排列规则组织排列,并形成由多组纲目内容组成的章节列表。预设的排列规则可以是文章的文本数据顺序。
[0081]按序组织纲目内容以建立文章的章节列表可以包括步骤S121?步骤S123。图2为一个实施例按序组织纲目内容以建立文章的章节列表流程图。
[0082]步骤S121:提取相邻两个标识符之间的字符作为候选章节。即首先将提取到的具有章节特征的纲目内容(相邻两个标识符之间的字符)都作为候选章节。
[0083]步骤S122:得到多个候选章节。具有章节特征的多组纲目内容提取出来后得到多个候选章节。
[0084]步骤S123:从多个候选章节中得到多个章节,并按照预设的排列规则排列多个章节以建立章节列表。
[0085]在一些电子书中,由于所抓取的网站编辑的原因,通常会在文章中添加一些并非文章本身内容的字符或字符串。例如,可能会添加“TXT下载”、“无弹窗”、“全文阅读”、“免费阅读”等字符或字符串,有些还会添加类似于广告的字符,例如“XX小说网”。
[0086]因此,如果电子书的内容中没有这类并非文章本身内容的字符,则通常从候选章节中可以直接得到最后所需的章节,然后按照预设的排列规则排列多个章节以建立章节列表。
[0087]然而,如果电子书的内容中存在这类并非文章本身内容的字符,则需要通过从多个候选章节中按照预设的筛选规则得到多个章节。毕竟,仅仅通过上述的章节特征(相邻两个标识符之间的字符数满足预设条件)而提取的纲目内容可能还存在大量的非文章章节的内容。
[0088]预设的筛选规则可以是第一筛选规则:保留具有数字字符的候选章节。文章章节通常具有章节序号,例如“第一章”、“第一回”、“第一节”、“第一集”、“第一卷”、“第一篇”等等,通常都具有表征章节序号的数字字符。以文章《三国演义》为例,《三国演义》的第一章的标题(即文章章节)为“第一回宴桃园豪杰三结义斩黄巾英雄首立功”,显然章节序号“第一回”中具有数字字符“一”。因此,当候选章节中具有数字字符的,可以保留下来,然后可以再从具有数字字符的候选章节中得到最后所需的章节。
[0089]预设的筛选规则还可以是第二筛选规则:保留具有预设字符的候选章节。文章章节通常具有章节序号,例如“第一章”、“第一回”、“第一节”、“第一集”、“第一卷”、“第一篇”等等,通常都具有表征章节含义的特殊字符“章”、“回”、“节”、“集”、“卷”、“篇”等等。以文章《三国演义》为例,《三国演义》的第一章的标题(即文章章节)为“第一回宴桃园豪杰三结义斩黄巾英雄首立功”,显然章节序号“第一回”中具有特殊字符“回”。因此,预设字符可以设置为“章”、“回”、“节”、“集”、“卷”、“篇”等等字符,当候选章节中具有预设字符的,可以保留下来,然后可以再从具有预设字符的候选章节中得到最后所需的章节。
[0090]当然,预设字符也可以通过用户自行设定,毕竟用户了解了文章内容后,可以判断文章章节中的特殊字符。继续以文章《三国演义》为例,用户了解文章内容后可以将预设字符设为“回”。因此,在步骤S100和步骤S110之间,还可以包括一个提供用户设置预设字符的步骤。
[0091]预设的筛选规则还可以是第三筛选规则:删除候选章节为预设字符串的候选章节。上面已经分析,在一些电子书中,由于所抓取的网站编辑的原因,通常会在文章中添加一些并非文章本身内容的字符或字符串。例如,可能会添加“TXT下载”、“无弹窗”、“全文阅读”、“免费阅读”等字符,有些还会添加类似于广告的字符或字符串,例如“XX小说网”。因此,如果通过提取具有章节特征的纲目内容仅仅是这些字符或字符串,可以删除之。因此,预设字符串可以设置为“TXT下载”、“无弹窗”、“全文阅读”、“免费阅读”、“XX小说网”等等。
[0092]当然,上述预设字符串也可以通过用户自行设定,毕竟用户了解了文章内容后,可以判断文章章节中的并非文章本身内容的字符串。继续以文章《三国演义》为例,假设文章中添加了有“XX小说网”,用户了解文章内容后可以将预设字符串设为“XX小说网”。因此,在步骤S100和步骤S110之间,还可以包括一个提供用户设置预设字符串的步骤。
[0093]预设的筛选规则可以是包含上述第一筛选规则、第二筛选规则和第三筛选规则中的至少一种。可以包含第一筛选规则、第二筛选规则和第三筛选规则中的任意组合。例如,预设的筛选规则包含上述第一筛选规则、第二筛选规则和第三筛选规则。首先,将候选章节通过第一筛选规则筛选,保留具有数字字符的候选章节,保留下来的候选章节形成第一候选章节。然后,将第一候选章节通过第二筛选规则筛选,保留具有预设字符的候选章节形成第二候选章节。最后,将第二候选章
当前第2页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1