文章章节生成方法、系统和电子书阅读器的制造方法_3

文档序号:9547160阅读:来源:国知局
节通过第三筛选规则筛选,删除第二候选章节中为预设字符串的候选章节,最后留下的第二候选章节就形成最后所需的章节。当然,筛选过程不一定需要按照上述顺序。
[0094]经过上述的筛选规则从多个候选章节中得到多个章节后,按照预设的排列规则排列多个章节以建立章节列表。预设的排列规则可以是按照文章的文本数据顺序。
[0095]按序组织纲目内容以建立文章的章节列表后,建立章节列表到对应的章节内容之间的索引关系。建立文章的章节列表后,根据每个章节在文章中的位置来确定对应的章节内容。例如建立了的章节列表中,其中相邻两个章节为“第一回”和“第二回”。根据“第一回”在文章中的位置,可以确定“第一回”后紧接着的文本内容为“第一回”所对应的章节内容的起始位置。毕竟对于用户而言,只需知道章节所对应的章节内容起始位置即可以阅读,并不需要知道章节所对应的全部章节内容。
[0096]继续文章《三国演义》为例,“第一回”后紧接着的文本内容为:
[0097]“滚长江东逝水,浪花淘尽英雄。
[0098]是非成败转头空,
[0099]青山依旧在,几度夕阳红。
[0100]白发渔樵江渚上,惯看秋月春风。
[0101]一壶浊酒喜相逢,
[0102]古今多少事,都付笑谈中。”
[0103]因此,可以建立“第一回”和上述文本内容(位置)的索引关系,用户可以通过章节列表中的文章章节找到对应的章节内容的起始位置,从而方便用户从章节列表直接跳转到相应的章节内容的起始位置。
[0104]当然,可以通过章节列表中相邻两个章节的各自位置,来确定相邻两个章节中的第一个章节的章节内容。例如建立了的章节列表中,其中相邻两个章节为“第一回”和“第二回”。根据“第一回”和“第二回”在文章中的位置,可以确定“第一回”之后到“第二回”之前的文本内容即为“第一回”的章节内容。通过这种方法确定的章节内容为相应章节的全部章节内容。
[0105]章节列表建立好,且章节列表到对应的章节内容之间的索引关系也建立好后,可以执行步骤S130。
[0106]步骤S130:推送或显示章节列表。
[0107]此时可以将建立好的章节列表直接推送或显示给用户。推送或显示章节列表之后,还可以包括步骤S140。
[0108]步骤S140:提供章节列表给用户确认。
[0109]推送或显示章节列表后,可以提供用户界面给用户进行相关的确认或重新建立章节列表等操作。例如可以提供确认按键和重新建立章节列表按键,如果章节列表满足用户的要求,则用户可以通过点击确认按键确认章节列表;如果觉得所建立的章节列表并不符合用户要求,还可以通过点击重新建立章节列表按键来重新建立章节列表。
[0110]如果觉得所建立的章节列表并不符合用户要求,用户还可以通过自行修改得到自己想要的章节列表,例如进行删除或修改某些章节。因此,推送或显示章节列表之后,还可以包括步骤S150
[0111]步骤S150:提供章节列表给用户修改和确认。
[0112]最后执行步骤S160:保存经用户确认的章节列表。保存的章节列表可以保存成TXT、DOC、PDF, HTM、HTML、EPUB, CHM等等格式,也可以直接将章节列表添加保存到文章中,例如文章的起始部分中。
[0113]本发明还提供一种文章章节生成系统,包括获取模块100、提取模块110、生成模块120、输出模块130。图3为一个实施例的文章章节生成系统模块示意图。
[0114]获取模块100用于根据文章的用户指定内容而获得文章。
[0115]用户指定内容可以包括文章的关键词,获取模块100通过搜索引擎搜索关键词而获取文章。例如,当应用于在线阅读时,获取模块100可以提供用户界面给用户进行输入,获取用户输入的内容后,以用户输入的内容作为关键词,通过搜索引擎在互联网搜索关键词,并将搜索的相关的文章链接向用户显示;当用户选择了其中的文章链接后,将与该文章链接相对应的文章获取。
[0116]用户指定内容可以包括文章的存储路径,获取模块100通过读取存储路径所指向的文件而获取文章。例如,当应用于电子书阅读器时,用户可以事先下载好文章存储到存储介质,电子书阅读器的获取模块100可以通过用户操作得到文章的存储路径,然后通过存储路径获取文章。当然,存储介质可以是本地存储介质,也可以是远端存储介质;下载好的文章既可以存储于本地存储介质,也可以存储于远端存储介质,例如云端存储空间。
[0117]所述的文章可以理解为文档,是具有载体的。文章的载体可以为TXT、DOC、PDF,HTM、HTML、EPUB, CHM等等格式的文件。获取文章可以理解为获取文件。
[0118]提取模块110用于遍历文章的文本数据,提取其中具有章节特征的纲目内容。
[0119]提取模块110遍历文章的文本数据的过程,可以按照文本数据顺序依次提取文本数据中具有章节特征的纲目内容。文本数据顺序可以理解为文本数据的前后的排列顺序。将文本数据从头到尾进行搜索,发现符合章节特征的纲目内容时,就将该纲目内容复制提取出来。
[0120]章节特征可以设置为:相邻两个标识符之间的字符数满足预设条件。标记符通常是用于区分不同的段落,也即在相邻的两个标记符之间,通常为一段的自然段落。这种标记符,可以是段落符和断行符中的一种。当然,根据不同的电子书文档格式,标记符的表达可能不一样,只要用于区分不同段落的字符都可以理解为所述标记符。互联网上大部分的电子书,通常文章的文本数据中都有文章章节,只是由于很多电子书是直接从网站抓取,然后抓取形成电子书,这类电子书通常是没有文章目录的。然而,这类电子书的文本数据中有文章章节,而通常这些文章章节都具备章节特征,例如这些文章章节通常自起一段,以与文章正文内容区分开。因此,文章章节通常存在于相邻的两个标记符之间,具有章节特征的纲目内容为相邻两个标识符之间的字符。
[0121]文章章节通常自起一段,而且具有字数较少的特征。毕竟,如果是文章正文内容,通常一段的文本字数大部分都不会存在字数较少的特征。以文章《三国演义》为例,《三国演义》的第一章的标题(即文章章节)为“第一回宴桃园豪杰三结义斩黄巾英雄首立功”,标题里加上空格字符总共21个字符,然而在《三国演义》通篇文本正文内容中,并没有一个非文章章节的自然段落中的字符数会少于21的。因此,可以通过判断相邻两个标识符之间的字符数满足预设条件来初步判断是否为文章章节。
[0122]所述预设条件可以包括:字符数大于0且少于预设数值。预设数值可以通过用户自行设定,毕竟用户了解了文章内容后,可以判断文章章节的字符数范围。继续以文章《三国演义》为例,用户了解文章内容后可以将预设数值设为22。因此,文章章节生成系统还可以包括预设模块,在获取模块100获得文章之后、提取模块110提取其中具有章节特征的纲目内容之前,预设模块用于用户设置预设数值。
[0123]提取模块110可以提取到多组纲目内容。
[0124]生成模块120用于按序组织纲目内容以建立文章的章节列表,建立章节列表到对应的章节内容之间的索引关系。
[0125]生成模块120将提取到的多组纲目内容(相邻两个标识符之间的字符)按预设的排列规则组织排列,并形成由多组纲目内容组成的章节列表。预设的排列规则可以是文章的文本数据顺序。
[0126]生成模块120包括:提取单元121和排列单元122。图4为一个实施例的生成模块不意图。
[0127]提取单元121用于提取相邻两个标识符之间的字符作为候选章节,并得到多个候选章节;排列单元122用于从多个候选章节中得到多个章节,并按照预设的排列规则排列多个章节以建立章节列表。
[0128]在一些电子书中,由于所抓取的网站编辑的原因,通常会在文章中添加一些并非文章本身内容的字符或字符串。例如,可能会添加“TXT下载”、“无弹窗”、“全文阅读”、“免费阅读”等字符或字符串,有些还会添加类似于广告的字符,例如“XX小说网”。
[0129]因此,如果电子书的内容中没有这类并非文章本身内容的字符,则排列单元122通常从候选章节中可以直接得到最后所需的章节,然后按照预设的排列规则排列多个章节以建立章节列表。
[0130]然而,如果电子书的内容中存在这类并非文章本身内容的字符,则需要通过从多个候选章节中按照预设的筛选规则得到多个章节。毕竟,仅仅通过上述的章节特征(相邻两个标识符之间的字符数满足预设条件)而提取的纲目内容可能还存在大量的非文章章节的内容。
[0131]预设的筛选规则可以是第一筛选规则:保留具有数字字符的候选章节。文章章节通常具有章节序号,例如“第一章”、“第一回”、“第一节”、“第一集”、“第一卷”、“第一篇”等等,通常都具有表征章节序号的数字字符。以文章《三国演义》为例,《三国演义》的第一章的标题(即文章章节)为“第一回宴桃园豪杰三结义斩黄巾英雄首立功”,显然章节序号“第一回”中具有数字字符“一”。因此,当候选章节中具有数字字符的,可以保留下来,然后可以再从具有数字字符的候选章节中得到最后所需的章节。
[0132]预设的筛选规则还可以是第二筛选规则:保留具有预设字符的候选章节。文章章节通常具有章节序号,例如“第一章”、“第一回”、“第一节”、“第一集”、“第一卷”、“第一篇”等等,通常都具有表征章节含义的特殊字符“章”、“回”、“节”、“集”、“卷”、“篇”等等。以文章《三国演义》为例,《三国演义》的第一章的标题(即文章章节)为“第一回宴桃园豪杰三结义斩黄巾英雄首立功”,显然章节序号“第一回”中具有特殊字符“回”。因此,预设字符
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1