文档片段内容提取方法、装置和系统的制作方法

文档序号：6633943阅读：168来源：国知局

文档片段内容提取方法、装置和系统的制作方法
【专利摘要】一种文档片段内容提取方法、装置和系统，该方法包括：步骤S101，基于HTML标准将文档片段与HTML中的显示标签相映射；步骤S102，对文档片段设置ID属性，对HTML中所有文档内容片段进行标注，所述ID属性用于唯一地标识该片段；步骤S103，建立实现设备屏幕点击事件触发的浏览器脚本，并在生成HTML页面时关联该脚本，生成带有交互功能的HTML页面定义文档；步骤S104，在HTML页面定义文档的片段被点击时，浏览器脚本被触发，根据被点击的片段的ID属性搜索上述HTML页面定义文档以获取片段的内容。本发明实现了通过点击方式提取指定文档片段的内容，将所选取的内容进行拷贝、粘贴等操作。
【专利说明】文档片段内容提取方法、装置和系统

【技术领域】
[0001] 本发明涉及文本交互技术，更具体地，涉及一种文档片段内容提取方法、装置和系统。

【背景技术】
[0002] 读者在阅读文档和书籍的过程中，会存在与他人沟通和分享的想法，快速内容复制和提取能帮助读者从文档中选择完整的语义片段来进行阅读分享，例如分享到第三方社交平台。使用手机、平板电脑等触屏设备进行分享更为广泛。在其他一些必要的场合，还有对文档中的句子、句段、短语、关键词的鼠标悬停或者打开页面时的高亮显示的操作需求，也需要能快速准确定位到所需文档片断。当前基于HTML页面的信息内容提取并复制操作基本都采用手指滑动选取的方式，滑动选取的过程需要选取起始点和终点。由于部分触屏设备的屏幕分辨率很高，字体也较小，造成手指选取文字的起点和终点的过程非常繁琐，且技术实现交互控制很复杂。
[0003] 当前互联网页面多采用HTML创建，结构化的描述了文档内容在页面中的显示格式，例如标题、段落和列表等等，也可以在一定程度上描述文档的外观和语义。但缺乏对文档内容本身原有逻辑结构的标记信息，如文档块、段落、句子等文档逻辑结构标记。因此对于基于HTML的页面，无法实现页面中文档内容的基于文档内容逻辑结构进行指定的内容提取和进一步操作。
[0004] 随着手机和平板应用的普及，大部分阅读系统也采用了HTML技术作为文档的展现形式，利用互联网的优势，将各种内容片段关联起来是提高阅读体验的重要渠道。

【发明内容】

[0005] 基于现有技术中存在的问题，本发明提出一种文档片段内容提取方法、装置和系统。该方法在HTML标准的基础上，提出了一种文档内容片段（如文档块、标题、段落、句子）标注方法，形成本发明中的标记语言规范，且通过系统可以自动将页面中文档内容按照标记规范进行内容整理，生成带有交互功能的HTML页面定义文档。进而能够实现任意文档逻辑结构片段的自动选择高亮和内容提取。
[0006] 本发明的文档片段内容提取方法，包括：步骤S101，基于HTML标准将文档内容的片段与HTML中的显示标签相映射；步骤S102,对文档的片段设置ID属性，用所述ID属性对HTML中的文档内容片段进行标注，所述ID属性用于唯一地标识该片段；步骤S103,建立实现设备屏幕点击事件触发的浏览器脚本，并在生成HTML页面时关联该脚本，生成带有交互功能的HTML页面定义文档；步骤S104,文档的片段被点击时，浏览器脚本被触发，根据被点击的片段的ID属性搜索所述HTML页面定义文档以获取片段的内容。
[0007] 本发明还提出一种文档片段内容提取装置，包括：映射模块：其设置所述文档的片段的逻辑结构，并将所述逻辑结构与HTML中的显示标签相映射，其中文档中的片段的逻辑结构包括：块、标题、段落、句子、短语、关键词和图片，所述块用于标识文档中的层次结构；标注模块，其对文档的片段设置ID属性，用所述ID属性对HTML中的文档内容片段进行标注，所述ID属性用于唯一地标识该片段；文档交互和生成模块，其建立实现设备屏幕点击事件触发的浏览器脚本，并在生成HTML页面时关联该脚本，生成带有交互功能的HTML页面定义文档；提取模块，其在浏览器脚本被触发后，首先确定意图提取的片段类型，然后根据该片段类型对应的ID属性搜索所述HTML页面定义文档，获取所述ID属性标识的片段的内容。
[0008] 本发明还提出一种文档片段内容提取系统，包括：映射模块：其基于HTML标准将文档内容的片段与HTML中的显示标签相映射；标注模块，其对文档的片段设置ID属性，用所述ID属性对HTML中的文档内容片段进行标注，所述ID属性用于唯一地标识该片段；文档交互和生成模块，其建立实现设备屏幕点击事件触发的浏览器脚本，并在生成HTML页面时关联该脚本，成为带有交互功能的HTML页面定义文档；请求模块，其在文档的片段被点击时，浏览器脚本被触发，浏览器脚本提取点击片段的ID属性，基于所述ID属性向内容服务器发送一个请求；内容服务器，其根据该ID属性查询对应的标签内容，并返回该文档内容；提取模块，其接收内容服务器返回对应该ID属性的数据内容，从而实现文档片段内容的提取。
[0009] 本发明将文档的内容分解片段与HTML映射模型相结合，并在生成HTML页面时关联该脚本，成为带有交互功能的HTML页面定义文档。
[0010] 进一步，与现有技术相比，1)由于HTML文档仅能实现文档的显示方案，无法对应文档内容的逻辑结构，不能直接表达文档内容的逻辑结构关系和内容片段类型（标题、段落，句子，短语词等），所以本发明在HTML文档中实现了将自然文档的内容逻辑结构复原的标注手段，并实现了HTML显示形态到原始文档片段及逻辑结构的映射。从而解决了HTML 中文档片段的内容完整性标注的问题。2)内容的选择不再依赖于手指和鼠标的滑动，极大提1?内容选择和复制的效率。
[0011] 进一步，本发明提出的技术方案还提供三种应用形式：1)向公共社交平台分享内容片段及评论。内容的提取不再通过手指滑动选择，而是由屏幕（包括触摸屏）点击事件，自动完成内容的提取，如：段落、句子、图片等。2)通过内容服务器，可以随时验证用户的访问和数据提取权限，并可以根据用户访问的文档片段进行相关的操作，如：相关内容检索，片段评论等功能。

【专利附图】

【附图说明】
[0012] 图1为本发明方法的一个实施方式的流程图；
[0013] 图2为本发明方法的又一个实施方式的流程图；
[0014] 图3为本发明的标注后的文档的内容数据结构图；
[0015] 图4为文档页面显示图效果图；
[0016] 图5为桌面WEB浏览器控台调试输出的内容选择情况的示例；
[0017] 图6为本发明方法的又一个实施方式的流程图；
[0018] 图7为本发明方法的又一个实施方式的流程图；
[0019] 图8为本发明装置的结构模块图；
[0020] 图9为本发明系统的结构模块图。

【具体实施方式】
[0021] 本发明的目的是为了实现：基于屏幕点击（含触屏）实现文档片段内容的快速提取，从而可以进一步进行复制到其他应用中。本发明是基于在HTML规范基础之上映射文档内容逻辑结构关系来实现对文档内容结构及其有效内容的范围标注，以及可选地，通过内容服务器来实现关于文档片段的内容片段的相关功能服务。
[0022] 第一实施方式（单一文档片段类型）
[0023] 图1显示了本发明的方法的流程图。
[0024] 在步骤S101，基于HTML标准将文档内容的片段与HTML中的显示标签相映射。
[0025] 例如，当设定文档的片段为一段落时，可以设定如下映射关系：
[0026]

【权利要求】
1. 一种文档片段内容提取方法，其特征在于，包括：步骤S101，基于HTML标准将文档内容的片段与HTML中的显示标签相映射；步骤S102,对文档的片段设置ID属性，用所述ID属性对HTML中的文档内容片段进行标注，所述ID属性用于唯一地标识该片段；步骤S103,建立实现设备屏幕点击事件触发的浏览器脚本，并在生成HTML页面时关联该脚本，生成带有交互功能的HTML页面定义文档；步骤S104, HTML页面定义文档的片段被点击时，浏览器脚本被触发，根据被点击的片段的ID属性搜索所述HTML页面定义文档以获取片段的内容。
2. -种文档片段内容提取方法，其特征在于，包括：步骤S101，设置所述文档的片段的逻辑结构，并将所述逻辑结构与HTML中的显示标签相映射，其中文档中的片段的逻辑结构包括：块、标题、段落、句子、短语、关键词和图片，所述块用于标识文档中的层次结构；步骤S102,对文档的片段设置ID属性，用所述ID属性对HTML中的文档内容片段进行标注，所述ID属性用于唯一地标识该片段；步骤S103,建立实现设备屏幕点击事件触发的浏览器脚本，并在生成HTML页面时关联该脚本，生成带有交互功能的HTML页面定义文档；步骤S104,浏览器脚本被触发后，首先确定待提取的片段类型，然后根据该片段类型对应的ID属性搜索所述HTML页面定义文档，获取所述ID属性标识的片段的内容。
3. -种文档片段内容提取方法，其特征在于，包括：步骤S101，基于HTML标准将文档内容的片段与HTML中的显示标签相映射；步骤S102,对文档的片段设置ID属性，用所述ID属性对HTML中的文档内容片段进行标注，所述ID属性用于唯一地标识该片段；步骤S103,建立实现设备屏幕点击事件触发的浏览器脚本，并在生成HTML页面时关联该脚本，生成带有交互功能的HTML页面定义文档；步骤S104, HTML页面定义文档的片段被点击时，浏览器脚本被触发，浏览器脚本提取点击片段的ID属性，基于所述ID属性向内容服务器发送一个请求；步骤S105,浏览器脚本接收内容服务器返回的对应该ID属性的数据内容，从而实现文档片段内容的提取。
4. 一种文档片段内容提取方法，其特征在于，包括：步骤S101，设置所述文档的片段的逻辑结构，并将所述逻辑结构与HTML中的显示标签相映射，其中文档中的片段的逻辑结构包括：块、标题、段落、句子、短语、关键词和图片，所述块用于标识文档中的层次结构；步骤S102中，对文档的片段设置ID属性，用所述ID属性对HTML中的文档内容片段进行标注，所述ID属性用于唯一地标识该片段；步骤S603,建立实现设备屏幕点击事件触发的浏览器脚本，并在生成HTML页面时关联该脚本，生成带有交互功能的HTML页面定义文档；步骤S104中，浏览器脚本被触发后，首先确定待提取的片段类型，然后提取点击片段的ID属性，基于所述ID属性向内容服务器发送一个请求；步骤S605,浏览器脚本接收内容服务器返回的对应该ID属性的数据内容，从而实现文档片段内容的提取。
5. 根据权利要求1-4中任一项所述的文档片段内容提取方法，其特征在于，所述片段为段落、图片、标题或句子，所述ID属性为超出HTML标签属性集之外的文档逻辑结构属性，所述ID属性包括：片段名称、片段类型和片段序列号。
6. 根据权利要求2或4所述的文档片段内容提取方法，其特征在于，在步骤104中，通过在所述HTML定义文档上弹出包括多种片段类型的菜单来确定待提取的片段类型。
7. 根据权利要求2或4所述的文档片段内容提取方法，其特征在于，在步骤S104中，在内容服务器端，内容服务器根据该ID属性查询对应的标签内容，并返回该文档片段内容。
8. 根据权利要求1-4中任一项所述的文档片段内容提取方法，其特征在于，还包括：通过设备中的API接口将提取的内容复制到设备剪贴板，或者，通过社交网络平台提供的SDK 开发接口，将提取的内容片段发送至社交网络分享平台。
9. 根据权利要求1-4中任一项所述的文档片段内容提取方法，其特征在于，还包括：按照出版物的结构目录将所述HTML页面定义文档打包生成ePub电子阅读格式。
10. -种文档片段内容提取装置，其特征在于，包括：映射模块：其基于HTML标准将文档内容的片段与HTML中的显示标签相映射；标注模块，其对文档的片段设置ID属性，用所述ID属性对HTML中的文档内容片段进行标注，所述ID属性用于唯一地标识该片段；文档交互和生成模块，其建立实现设备屏幕点击事件触发的浏览器脚本，并在生成 HTML页面时关联该脚本，生成带有交互功能的HTML页面定义文档；提取模块，其在文档片段被点击时触发所述浏览器脚本，根据被点击的片段的ID属性搜索所述HTML页面定义文档以获取片段的内容。
11. 一种文档片段内容提取装置，其特征在于，包括：映射模块：其设置所述文档的片段的逻辑结构，并将所述逻辑结构与HTML中的显示标签相映射，其中文档中的片段的逻辑结构包括：块、标题、段落、句子、短语、关键词和图片，所述块用于标识文档中的层次结构；标注模块，其对文档的片段设置ID属性，用所述ID属性对HTML中的文档内容片段进行标注，所述ID属性用于唯一地标识该片段；文档交互和生成模块，其建立实现设备屏幕点击事件触发的浏览器脚本，并在生成 HTML页面时关联该脚本，生成带有交互功能的HTML页面定义文档；提取模块，其在浏览器脚本被触发后，首先确定待提取的片段类型，然后根据该片段类型对应的ID属性搜索所述HTML页面定义文档，获取所述ID属性标识的片段的内容。
12. -种文档片段内容提取系统，其特征在于，包括：映射模块：其基于HTML标准将文档内容的片段与HTML中的显示标签相映射；标注模块，其对文档的片段设置ID属性，用所述ID属性对HTML中的文档内容片段进行标注，所述ID属性用于唯一地标识该片段；文档交互和生成模块，其建立实现设备屏幕点击事件触发的浏览器脚本，并在生成 HTML页面时关联该脚本，成为带有交互功能的HTML页面定义文档；请求模块，其在文档的片段被点击时，浏览器脚本被触发，浏览器脚本提取点击片段的 ID属性，基于所述ID属性向内容服务器发送一个请求；内容服务器,其根据该ID属性查询对应的标签内容，并返回该文档内容；提取模块，其接收内容服务器返回对应该ID属性的数据内容，从而实现文档片段内容的提取。
13. -种文档片段内容提取系统，其特征在于，包括：映射模块：设置所述文档的片段的逻辑结构，并将所述逻辑结构与HTML中的显示标签相映射，其中文档中的片段的逻辑结构包括：块、标题、段落、句子、短语、关键词和图片，所述块用于标识文档中的层次结构；标注模块，其对文档的片段设置ID属性，用所述ID属性对HTML中的文档内容片段进行标注，所述ID属性用于唯一地标识该片段；文档交互和生成模块，其建立实现设备屏幕点击事件触发的浏览器脚本，并在生成 HTML页面时关联该脚本，生成带有交互功能的HTML页面定义文档；请求模块，其在文档的片段被点击时，触发浏览器脚本，确定待提取的片段类型，根据该片段类型对应的ID属性向内容服务器发送一个请求；内容服务器，其根据该ID属性递归遍历该ID属性对应的片段下所有子片段，并将子片段的显示文本内容拼接起来，得到所选择片段的内容，并返回该内容；提取模块，其接收内容服务器返回对应该ID属性的内容，从而实现文档片段内容的提取。
14. 根据权利要求10-13中任一项所述的文档片段内容提取装置或系统，其特征在于，所述片段为段落、图片、标题或句子，所述ID属性为超出HTML标签属性集之外的文档逻辑结构属性，所述ID属性包括：片段名称、片段类型和片段序列号。
15. 根据权利要求11或13所述的文档片段内容提取装置或系统，其特征在于，所述提取模块被配置为通过在所述HTML定义文档上弹出包括多种片段类型的菜单来确定待提取的片段类型。
16. 根据权利要求10-13中任一项所述的文档片段内容提取装置或系统，其特征在于，还包括：分享模块，其通过设备中的API接口将提取的内容复制到设备剪贴板，或者，通过社交网络平台提供的SDK开发接口，将提取的内容片段发送至社交网络分享平台。
17. 根据权利要求10-13中任一项所述的文档片段内容提取装置或系统，其特征在于，还包括：ePub电子书生成模块，其按照出版物的结构目录将所述HTML页面定义文档打包生成ePub电子阅读格式。
【文档编号】G06F3/0488GK104317949SQ201410638232
【公开日】2015年1月28日申请日期:2014年11月6日优先权日:2014年11月6日
【发明者】张达辉, 罗秀春申请人:北京德塔普博软件有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张达辉;罗秀春
技术所有人：北京德塔普博软件有限公司
我是此专利的发明人

上一篇：一种基于显著性检测的皮肤识别方法
上一篇：一种在线社会媒体系统中检测恶意评分用户的方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。