一种电子阅读感兴趣语义范围自动导航的方法和系统的制作方法

文档序号:6511588阅读:349来源:国知局
一种电子阅读感兴趣语义范围自动导航的方法和系统的制作方法
【专利摘要】本发明属于电子阅读【技术领域】,具体涉及一种电子阅读感兴趣语义范围自动导航的方法和系统。本发明系统主要由初级导航和精确导航两个级联的模块组成;首先,针对读者选定的少量内容,采用视频跟踪中的CamShift方法进行目标跟踪,并通过考察目标丢失瞬间的目标边界来确定语义范围的边界,从而得到初级导航结果;然后再根据考察相邻句子间的语义跳变来实现进一步的精确导航,并以此结果作为最终结果提交给读者;本发明能提供给读者真正感兴趣的内容,节省读者有限的阅读时间和阅读精力。
【专利说明】—种电子阅读感兴趣语义范围自动导航的方法和系统
【技术领域】
[0001]本发明属于电子阅读【技术领域】,具体涉及一种电子阅读感兴趣语义范围自动导航的方法和系统。
【背景技术】
[0002]随着计算机技术及信息技术的发展,除了传统的纸质阅读方式外,电子阅读已经成为了人们获取科技文化知识的一种重要途径,这些信息包括互联网的新闻、百科网站的词条介绍文章、智能手机上的手机报推送等等,以供用户阅读。然而,由于这些信息往往具有形式紧凑、内容多样、信息量大的特点,有时在一篇文章的篇幅之内,就能覆盖多个主题或多个领域的内容,同时,这些信息的更新速度也非常之快,基于以上这些特点,就要求读者能从纷繁复杂的阅读页面中迅速定位自己感兴趣内容并能将有限的阅读时间仅用于读者真正感兴趣的文本上面。因而,能够提供一种语义自动分段方法或技术将十分有意义。
[0003]现有的文本语义分段技术如Texttiling、Dotplotting等,主要是基于相邻段内的词语的共现统计情况来进行语义相似度计算,再根据相似度结果的分布来实现语义分段。然而,这种基于词语本身的情况往往会受到词语形式多样化的影响,例如两个同义词尽管意思相同,但在统计共现情况时却会被认为是不同的词语,除非另外通过同义词映射来缓解此种情况。近年来,随着ESA (Explicit semantic analysis)算法的出现,使得词语可以通过该法映射到一个高维的语义概念空间上,那么在进行语义比较时受词语本身形式多样化的影响就会较小,尽管ESA在语义比较中得到了成功应用,但是,结合ESA算法针对文本语义分段开展的研究仍然不多。

【发明内容】

[0004]本发明的目的在于提供一种电子阅读感兴趣语义范围自动导航的方法和系统。
[0005]本发明创新性地从视频跟踪的思想出发,将读者选定的少量感兴趣内容看作是待跟踪的“目标”,并基于ESA算法构建目标的特征向量,同时用相似度计算结果来取代视频跟踪窗口中的反向概率图,最后在此基础上通过计算窗口的重心偏移来实现对目标的跟踪,并且提出将目标丢失时的窗口位置作为用户感兴趣内容的语义边界,从而将文章中读者真正感兴趣的文本分割出来并提供给他们,以便使读者能节省宝贵的阅读时间和阅读精力。本发明能够在受词语本身形式多样化影响较小的同时,也能以重心偏移程度这种灵活的度量方式来自动确定感兴趣内容的语义边界。
[0006]本发明提供的电子阅读感兴趣语义范围自动导航系统,总共由五大模块组成:文本输入模块、感兴趣区域标定模块、语义特征计算模块、语义范围导航模块、语义范围导航模块;其中:
(一)文本输入模块,用于输入待处理的原始电子文本。
[0007](二)感兴趣区域标定模块,用于提供用户接口,由用户通过设定开始句和结束句的方式人工指定用户感兴趣语义内容。[0008](三)语义特征计算模块,用于计算多种语义特征计算,如ESA(Explicit semanticanalysis)特征、LSA (Latent semantic analysis)特征、共现词频率特征等等,优选地,采用ESA特征:
(1)计算依据来源于各大知识库,如维基百科知识库、百度百科知识库、互动百科知识库等,优选地,采用维基百科知识库;
(2)首先对知识库中的所有文章进行分词处理,统计出词与概念的对应矩阵,矩阵中的元素值为对应的词在库中计算出的TF-1DF {corpus)值;
(3)根据此矩阵,得到任一词的语义特征,特征维数为概念个数。
[0009](四)语义范围导航模块,包括:初级导航子模块、精确导航子模块;以适应用户对导航精度的不同要求;其中:
(I)初级导航子模块,包括:目标重心计算、方向跟踪、边界判定三个部分;
其技术原理为视频跟踪CamShift方法:将用户感兴趣语义内容看作是设定“目标”,但是跟踪目的与之相反:视频跟踪的目的是保持目标始终在摄像头监控范围之内,而本发明在将其原理应用于语义范围自动导航时,则是通过记录不断移动“目标”位置直至其“消失”时的位置,并以此作为最终的语义边界,从而实现用户感兴趣内容的语义范围自动导航。
[0010](a)目标重心计算式为:
【权利要求】
1.一种电子阅读感兴趣语义范围自动导航系统,其特征在于由五大模块组成:文本输入模块、感兴趣区域标定模块、语义特征计算模块、语义范围导航模块、语义范围导航模块;其中: (一)文本输入模块,用于输入待处理的原始电子文本; (二)感兴趣区域标定模块,用于提供用户接口,由用户通过设定开始句和结束句的方式人工指定用户感兴趣语义内容; (三)语义特征计算模块,用于计算多种语义特征计算: (1)计算依据来源于各大知识库; (2)首先对知识库中的所有文章进行分词处理,统计出词与概念的对应矩阵,矩阵中的元素值为对应的词在库中计算出的TF-1DF {corpus)值; (3)根据此矩阵,得到任一词的语义特征,特征维数为概念个数; (四)语义范围导航模块,包括:初级导航子模块、精确导航子模块;以适应用户对导航精度的不同要求;其中: (I)初级导航子模块,包括:目标重心计算、方向跟踪、边界判定三个部分; Ca)目标重心计算式为:
2.一种基于权利要求1所述系统的语义范围自动导航方法,其特征在于具体步骤如下: (1)根据用户选定的少量感兴趣内容,进行基于CamShift和ESA相结合的方法进行初级导航; (2)在初级导航结果的基础上,基于相邻句子间的语义跳变进一步地进行精确导航,从而提供给用户感兴趣内容的语义范围导航最终结果。
3.根据权利要求2所述的语义范围自动导航方法,其特征在于步骤(1)所述的进行初级导航的具体步骤如下: Ca)基于根据句子和感兴趣文档组成的文本对词语进行TF统计;然后,以感兴趣内容为初始窗口,并按设定的步长值对初始窗口进行滑动,从而产生由一批“文档”组成的文档库,继而基于该文档库计算词语的IDF值,从而计算出
4.根据权利要求2所述的语义范围自动导航方法,其特征在步骤(2)中所述的进行精确导航的具体步骤如下:Ca)逐句计算语义特征:对句中词语进行基于整篇文本的TF统计,并将每个句子看作是一篇“文档”,从而产生由一批“文档”组成的文档库,然后基于文档库统计
【文档编号】G06F17/30GK103488723SQ201310419468
【公开日】2014年1月1日 申请日期:2013年9月13日 优先权日:2013年9月13日
【发明者】王晓平, 肖仰华, 汪卫 申请人:复旦大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1