电子文档的计算机辅助写作和浏览的方法及装置的制作方法

文档序号:6421214阅读:109来源:国知局
专利名称:电子文档的计算机辅助写作和浏览的方法及装置的制作方法
技术领域
本发明涉及数据处理技术,特别涉及计算机辅助写作的技术和相应的浏览电子文档的技术。
背景技术
在以往,作者使用的文档写作工具与用户使用的文档管理和浏览工具是相互独立的,即,作者在写作时并不关心读者如何来预览和利用他/她所写的内容。但是同时,从信息访问的观点看,用户又会感到很难在购买、阅读文档之前了解其中的主要内容。
而且,由于目前计算机对于自然语言的理解能力还处于字/词理解的水平,而对于文档的预览、检索和管理工具来说,需要句子甚至整篇文章的理解和语义能力,才能够真正满足用户的需要。因此,按照目前的技术发展速度,如果按照现有的文档的写作以及预览、检索和管理的方式,可以预计在一个较短的将来内不可能达到用户信息访问的要求。

发明内容
为了解决以上所述现有技术中的问题,本发明提出了作者在写作文档的过程中就为后面文档的预览、检索和管理准备相关的信息,即,为作者提供一套工具来方便地为以后用户的查询作贡献,更具体地说,准备结构摘要。
根据本发明的一个方面,提供了一种计算机辅助写作的方法,包括在作者写作所述电子文档时,根据所述电子文档生成结构摘要;以及与所述电子文档对应地保存所述结构摘要信息。
根据本发明的另一个方面,提供了一种浏览电子文档的方法,包括读取与电子文档对应保存的结构摘要信息,所述结构摘要信息包含有该电子文档的结构摘要;以及响应用户的操作,将所述结构摘要呈现给用户。
根据本发明的再另一个方面,提供了一种辅助写作装置,包括电子文档编辑单元,用于编辑电子文档;摘要生成单元,用于根据所述电子文档生成结构摘要;以及摘要保存单元,用于与所述电子文档相对应地保存由所述摘要生成单元生成的结构摘要信息。
根据本发明的再另一个方面,提供了一种电子文档的浏览器,包括结构摘要读取单元,用于读取与所述被浏览的电子文档对应保存的结构摘要信息,所述结构摘要信息包含有该电子文档的结构摘要;以及结构摘要呈现单元,用于将所述结构摘要信息中包含的结构摘要呈现给用户。


相信通过以下结合附图对本发明具体实施方式
的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明的一个实施例的计算机辅助写作的方法的流程图;图2A和2B是根据本发明的一个实施例的计算机辅助写作的方法的详细流程图;图3是展示根据本发明的一个实施例的辅助写作装置的结构的方块图;以及图4是展示根据本发明的一个实施例的电子文档的浏览器的结构的方块图。
具体实施例方式
下面就结合附图对本发明的各个优选实施例进行详细的说明。
计算机辅助写作的方法根据本发明的一个方面,提供了一种计算机辅助写作的方法。图1是根据本发明的一个实施例的计算机辅助写作的方法的流程图。
如图1所示,首先,在步骤101,作者写作电子文档。通常,结构摘要的生成是在作者写完一篇文档时进行,当然,根据实际情况也可以在完成文档的一部分(例如一个章节)时进行。
接着,在步骤105,将文档划分为一个或多个结构段(structuresegment),每个结构段与一个主题相关。通常,一个文档(如一篇文章)会谈论一个主要主题(main topic),但是往往会将其展开为多个不同的主题/子主题(topic/subtopic)在不同的结构段中论述。本步骤就是按照所涉及的主题将文档划分为多个结构段,具体地,可以由作者手工指明结构段的位置,也可以自动划分(后面将详细描述)。
接着,在步骤110,分别从每个结构段提取一个或多个句子形成结构摘要。这样,可以保证结构摘要反映出整篇文档各个主题内容的情况。
然后,在步骤115,与电子文档对应地保存结构摘要。本发明没有对结构摘要信息的具体保存方式进行限定,例如,可以与电子文档一起保存,即,作为电子文档的一部分,也可以分开保存,只要能够与所述电子文档相对应即可。
下面结合图2对本发明的计算机辅助写作方法做进一步的说明。图2A和2B是根据本发明的一个实施例的计算机辅助写作的方法的详细流程图。
如图2A所示,首先在步骤201,作者写作电子文档。接着在步骤205,选择一个文档段作为种子段(seed paragraph)。在此,根据文档的实际情况,文档段可以是该文档中的一个自然段落、句子或组成部分,在本例子中假设文档段就是该文档中的自然段落。通常,首先会选择文档开始处的文档段作为种子段。
接着,在步骤210,计算该种子段与后续文档段中关键词的权重。在此,关键词是指文本中去掉停用词(stop word)后剩下的词语。例如但不限于此,可以使用if-idf方法来计算每个关键词的权重,即,每个关键词的权重为if×idf,其中tf是该词在该文档段中的出现的频率(次数),idf=all_segments/term_segments,all_segments是该文档中全部文档段的数量,term_segments是其中包含该词的文档段的数量。这样计算出来的关键词权重,会导致在该文档段中出现频率高的词权重大,并且在全文中出现范围越广的词权重小。
接着,在步骤215,将种子段与后续文档段分别表示为以关键词的权重为分量的向量。例如但不限于,种子段和后序第i段的向量分别为S=(s1,s2,…,sn)Pi=(wi1,wi2,…,win)在此,为了后续计算方便,将这些向量的维数设为相同,并且代表各个关键词的分量一一对应。
接着,在步骤220,利用上述向量计算种子段与各个后续段之间的相似性。具体地,种子段和某个后续段的向量之间的夹角可以表现出两个段之间的相似性,因此,通常可以用它们的夹角的余弦作为相似性量度,即similarity(S,Pi)=cos(S,Pi)接着,在步骤225,选择后续段中相似性高的一个或多个,与种子段一起作为一个结构段。具体地,可以预先设定一个阈值,如果后续段的相似性大于该阈值则认为与种子段属于同一个结构段,否则则该段不属于同一个结构段。进而,优选地,也将相似性高的文档段与种子段之间的文档段选择作为该结构段的一部分,例如,假设P1、P2、P3是连续的三个后续文档段,其中P3与种子段的相似性高于该阈值,则P1、P2、P3都被归于这一结构段。这是基于作者在写作文档时会连续完成一个主题而不是在多个主题之间跳跃的假设。
接着,在步骤230,提取该结构段的主题。在此,可以根据前面步骤210中计算的权值,从该结构段中提取出权值最大的一定数量的关键词作为该结构段的主题,也可以由作者输入相应的主题。
接着,在步骤235,判断是否全部文档处理完毕。如果还未处理完毕则进行步骤240,将该结构段后的一个文档段作为种子段,然后返回步骤210重复进行步骤210至235直到全部文档处理完。如果步骤235判断已经全部处理完毕,则进行到图2B的步骤245。
如图2B所示,在步骤245,分析文档结构,为每个结构段的主题设权重以表明其重要性。具体地,可以利用前面说明的if-idf方法,在整个文档范围内计算每个主题中包含的主题词的权重,然后将每个结构段的主题中的主题词的权重之和作为表示该主题重要性的权重dsi。
接着,在步骤250,计算在结构段中为每个句子计算每个关键词的权重。具体地,可以利用if-idf方法,为每个关键词计算权重wjwj=tf·idf其中,tf是该词在该句子中的出现的频率(次数),idf=all_sentences/term_sentences,all_sentences是该结构段中全部句子的数量,term_sentences是其中包含该词的句子的数量。这样计算出来的关键词权重,会导致在该句子中出现频率高的词权重大,并且在全文中出现范围越广的词权重小。
接着,在步骤255,在该结构段中为每个句子计算重要性valuei。具体地,可以将该句子中包含的全部关键词的权重相加,即valuei=Σwj∈Siwj]]>接着,在步骤260,结合前面计算的主题权重dsi和句子重要性valuei,计算每个句子的重要性权值weight(Si),例如可以通过以下公式weight(Si)=dsi·valuei接着,在步骤265,从每个结构段中选择重要性权值weight(Si)最高的一个或多个句子,形成结构摘要。优选地,每个结构段中至少要选出一个句子。
接着,在步骤270,允许作者核实形成的结构摘要。在此,“核实”包括作者查看、修改生成的结构摘要,从而保证最终的结构摘要是准确地、完整地反映该文档内容的,并且具有良好的可读性。
然后,在步骤275,将结构摘要作为电子文档的知识标记一起保存。例如,在电子文档的结尾处附加知识标记(knowledge tag)<StructureSummary>
<Yao Ming scored all 18 of his points in the first half and reserve Maurice Taylor had 11 of his 17points in the fourth quarter in the Houston Rockets′105-90 victory over the Los Angeles Clippers105-90 Monday night.
Kobe Bryant scored 28 points,Karl Malone had 20 points and 10 rebounds and Gary Payton added17 points and 10 assists to lead the Los Angeles Lakers to a 121-89 drubbing of the Memphis Grizzlieson Sunday night.
……</StructureSummary>
或者,也可以在电子文档的头部定义结构摘要知识标记类型,在电子文档的正文中利用该标记指明摘要包含的句子的方式。
进而,优选地,在划分完结构段之后和/或提取结构段的主题之后,也可以允许作者参与核实,例如,作者可以按照自己的理解(写作意图)改变结构段的划分和指定更合理的主题,从而通过及时有效的人机交互,完成结构摘要的准备。
通过以上说明可知,本发明的计算机辅助写作方法,可以辅助作者在写作的过程中完成结构摘要的准备,在不过多增加作者负担的情况下,利用作者对于该文档的理解(这肯定是最准确的理解),来保证生成的结构摘要的准确性和可读性。并且,因为可以为一个文档生成可以充分反映该文档各部分内容的结构摘要,因此在利用这些结构摘要信息进行预览时,可以更准确和全面地了解文档内容,从而得到高的用户满意度。
浏览电子文档的方法在同一发明构思下,根据本发明的另一个方面,提供了一种浏览电子文档的方法,该电子文档是通过上述计算机辅助写作的方法产生的文档,即,与该文档对应地保存有结构摘要信息。
本发明的浏览电子文档的方法,与现有技术的区别在于,包括以下步骤(1)读取与电子文档对应保存的结构摘要信息,所述结构摘要信息包含有该电子文档的结构摘要。具体地,根据保存结构摘要信息的方式,将结构摘要信息读出,例如,如果结构摘要信息是被保存在文档的尾部作为知识标记,则相应地识别出该知识标记并将其中信息读出。以及
(2)响应用户的操作,将所述结构摘要呈现给用户。如果用户希望看该文档的结构摘要,则可以,例如,通过点击菜单或者按钮等操作,将读取出的结构摘要显示给用户,供其浏览。
通过以上对本实施例的描述可知,如果采用本实施例的浏览电子文档的方法,则可以利用由本发明前述的辅助写作方法编制的电子文档中的结构摘要信息,将由作者核实过的结构摘要提供给读者观看,让读者了解该文档中的大致结构和内容,从而可以节省读者的阅读时间。
辅助写作装置在同一发明构思下,根据本发明的另一个方面,提供了一种辅助写作装置。图3是展示根据本发明的一个实施例的辅助写作装置的结构的方块图。
如图3所示,该辅助写作装置300,包括电子文档编辑单元301,用于编辑电子文档,它可以是一个独立的文档编辑单元,也可以共用已有的文档编辑器,例如,MS Word或WPS等等;摘要生成单元302,用于根据所述电子文档生成结构摘要;摘要保存单元305,用于与电子文档相对应地保存由摘要生成单元302生成的结构摘要信息;摘要评价单元303,用于允许作者对由摘要生成单元302生成的结构摘要进行评价、修改;摘要缓存304,用于临时保存由摘要生成单元302生成的结构摘要。
其中,摘要生成单元302,还可以包括结构段划分单元,用于将所述文档划分为一个或多个结构段,每个所述结构段与一个主题相关;以及句子提取单元,用于分别从所述结构段划分单元划分的每个所述结构段提取一个或多个句子形成结构摘要。
进而,辅助写作装置300可以进一步包括相似性计算装置,用于计算文档段之间的相似性的装置。摘要生成单元302的结构段划分单元,利用所述相似性计算装置来计算文档段之间的相似性,选择相似性高的一个或多个文档段作为一个结构段。
进而,如前所述,该相似性计算装置,可以使用以文档段中关键词为分量的向量来计算文档段之间的相似性;该句子提取单元,可以根据句子在结构段中的重要性和该结构段的重要性来进行提取。
进而,辅助写作装置300可以进一步包括关键词权重计算单元,用于根据关键词在结构段中的出现次数和在所述结构段中包含该关键词的句子的数量,计算在所述结构段中每个关键词的权重;和主题权重计算单元,用于根据每个所述主题中的主题词在所述文档中的出现次数和包含该主题词的句子的数量,计算所述主题词的权重。
以上描述的本实施例的辅助写作装置,在操作上,可以实现前面实施例中描述的计算机辅助写作方法,可以辅助作者在写作的过程中完成结构摘要的准备,在不过多增加作者负担的情况下,利用作者对于该文档的理解,来保证生成结构摘要的准确性和可读性。并且,因为可以为一个文档生成可以充分反映该文档各部分内容的结构摘要,因此在利用这些结构摘要信息进行预览时,可以更准确和全面了解文档内容,从而得到高的用户满意度。
电子文档的浏览器在同一发明构思下,根据本发明的另一个方面,提供了一种电子文档的浏览器,该电子文档是通过上述计算机辅助写作的方法产生的文档,即,与该文档对应地保存有结构摘要信息。
图4是展示根据本发明的一个实施例的电子文档的浏览器的结构的方块图。如图4所示,本实施例的电子文档浏览器400,包括电子文档浏览单元401,用于浏览电子文档的内容,它可以是一个现有技术中的浏览器,例如,MS Word Viewer,MS Internet Explorer,Netscape Navigator,Acrobat Reader等等;结构摘要信息读取单元402,用于读取与所述电子文档对应保存的结构摘要信息,具体地,根据保存结构摘要信息的方式,将结构摘要信息读出,例如,如果结构摘要信息是被保存在文档的尾部作为知识标记,则相应地识别出该知识标记并将其中信息读出;以及结构摘要呈现单元403,用于将由结构摘要信息读取单元402读取的结构摘要信息中的结构摘要呈现给用户,具体地,可以根据用户的操作,例如点击菜单或者按钮等,将读取出的结构摘要显示给用户,供其浏览。
通过以上对本实施例的描述可知,本实施例的电子文档浏览器可以实施本发明上述浏览电子文档的方法,利用由本发明前述的辅助写作方法编制的电子文档中的结构摘要信息,将由作者核实过的结构摘要提供给读者观看,让读者了解该文档中的大致结构和内容,从而可以节省读者的阅读时间。
本发明的上述辅助写作装置、电子文档的浏览器以及它们各自的组成部分可以以硬件和软件方式实现,并且根据需要可以和其他装置结合,例如,可以实现在个人计算机、笔记本计算机、掌上型计算机、PDA、文字处理机等各种带有计算功能的设备上,并且可以物理地分离而操作上互相连接完成功能。
以上虽然通过一些示例性的实施例对本发明的计算机辅助写作的方法、浏览电子文档的方法、辅助写作装置以及电子文档的浏览器进行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。
权利要求
1.一种计算机辅助写作的方法,其特征在于,包括在作者写作所述电子文档时,根据所述电子文档生成结构摘要;以及与所述电子文档对应地保存所述结构摘要信息。
2.根据权利要求1所述的计算机辅助写作的方法,其特征在于,所述生成结构摘要的步骤,包括将所述文档划分为一个或多个结构段,每个所述结构段与一个主题相关;以及分别从每个所述结构段提取一个或多个句子作为结构摘要。
3.根据权利要求2所述的计算机辅助写作的方法,其特征在于,所述将所述文档划分为一个或多个结构段的步骤,包括选择一个文档段作为种子段;计算所述种子段与其后续各文档段的相似性;选择所述后续文本段中相似性高的一个或多个文档段连同所述种子段一起作为一个结构段;以及将该结构段之后的一个文档段作为种子段,重复前述计算和选择步骤。
4.根据权利要求3所述的计算机辅助写作的方法,其特征在于,所述计算所述种子段与其后续各文档段的相似性的步骤,包括计算所述种子段与其后续各文档段中每个关键词的权重;将所述种子段与其后续各文档段分别表示为以关键词的权重为分量的向量;以及利用所述种子段的向量与后续各文档段的向量,计算它们的相似性。
5.根据权利要求4所述的计算机辅助写作的方法,其特征在于,所述计算所述种子段与其后续各文档段中每个关键词的权重的步骤,包括根据每个所述关键词在所述文档段中的出现次数和在所述文档中包含该关键词的文档段的数量,计算该关键词的权重。
6.根据权利要求4所述的计算机辅助写作的方法,其特征在于,所述利用所述种子段的向量与后续各文档段的向量计算它们的相似性的步骤,包括计算所述种子段的向量与后续各文档段的向量之间夹角的余弦作为相似性量度。
7.根据权利要求3所述的计算机辅助写作的方法,其特征在于,所述选择所述后续文本段中相似性高的一个或多个文档段连同所述种子段一起作为一个结构段的步骤,进一步也将所述相似性高的文档段与所述种子段之间的文档段选择作为该结构段的一部分。
8.根据权利要求3所述的计算机辅助写作的方法,其特征在于,进一步包括允许作者核实划分的结构段。
9.根据权利要求2所述的计算机辅助写作的方法,其特征在于,所述分别从每个所述结构段提取一个或多个句子作为结构摘要的步骤,包括根据每个所述关键词在所述结构段中的出现次数和在所述结构段中包含该关键词的句子的数量,计算在所述结构段中每个关键词的权重;根据所述关键词的权重,计算所述文档中每个句子的重要性;以及根据每个句子的重要性,为每个所述结构段选择一个或多个句子。
10.根据权利要求9所述的计算机辅助写作的方法,其特征在于,所述分别从每个所述结构段提取一个或多个句子作为结构摘要的步骤,还包括根据每个所述主题中的主题词在所述文档中的出现次数和包含该主题词的句子的数量,计算所述主题词的权重;以及根据每个所述主题中的主题词的权重,计算每个所述主题的权重;其中,为每个所述结构段选择一个或多个句子的步骤,包括,结合每个句子的重要性和所在结构段对应的主题的权重,选择一个或多个句子。
11.根据权利要求1所述的计算机辅助写作的方法,其特征在于,所述与所述电子文档对应地保存所述结构摘要信息的步骤,包括将所述结构摘要信息作为知识标记保存在所述电子文档中。
12.根据权利要求1所述的计算机辅助写作的方法,其特征在于,所述与所述电子文档对应地保存所述结构摘要信息的步骤,包括将所述结构摘要信息保存为与所述电子文档相关联的文件。
13.根据权利要求1~12中任意一项所述的计算机辅助写作的方法,其特征在于,还包括在生成所述结构摘要之后,允许作者核实所述结构摘要。
14.一种浏览电子文档的方法,其特征在于,包括读取与电子文档对应保存的结构摘要信息,所述结构摘要信息包含有该电子文档的结构摘要;以及响应用户的操作,将所述结构摘要呈现给用户。
15.一种辅助写作装置,其特征在于,包括电子文档编辑单元,用于编辑电子文档;摘要生成单元,用于根据所述电子文档生成结构摘要;以及摘要保存单元,用于与所述电子文档相对应地保存由所述摘要生成单元生成的结构摘要信息。
16.根据权利要求15所述的辅助写作装置,其特征在于,进一步包括摘要评价单元,用于允许作者对由所述摘要生成单元生成的结构摘要进行评价、修改。
17.根据权利要求15所述的辅助写作装置,其特征在于,所述摘要生成单元,包括结构段划分单元,用于将所述文档划分为一个或多个结构段,每个所述结构段与一个主题相关;以及句子提取单元,用于分别从所述结构段划分单元划分的每个所述结构段提取一个或多个句子形成结构摘要。
18.根据权利要求17所述的辅助写作装置,其特征在于,进一步包括相似性计算装置,用于计算文档段之间的相似性的装置;所述结构段划分单元,利用所述相似性计算装置来计算文档段之间的相似性,选择相似性高的一个或多个文档段作为一个结构段。
19.根据权利要求17所述的辅助写作装置,其特征在于,所述相似性计算装置,使用以文档段中关键词为分量的向量来计算文档段之间的相似性。
20.根据权利要求17所述的辅助写作装置,其特征在于,所述句子提取单元,根据句子在结构段中的重要性和该结构段的重要性来进行提取。
21.根据权利要求17所述的辅助写作装置,其特征在于,进一步包括关键词权重计算单元,用于根据关键词在结构段中的出现次数和在所述结构段中包含该关键词的句子的数量,计算在所述结构段中每个关键词的权重;主题权重计算单元,用于根据每个所述主题中的主题词在所述文档中的出现次数和包含该主题词的句子的数量,计算所述主题词的权重。
22.一种电子文档的浏览器,其特征在于,包括结构摘要读取单元,用于读取与所述被浏览的电子文档对应保存的结构摘要信息,所述结构摘要信息包含有该电子文档的结构摘要;以及结构摘要呈现单元,用于将所述结构摘要信息中包含的结构摘要呈现给用户。
全文摘要
本发明提供了计算机辅助写作的方法、浏览电子文档的方法、辅助写作装置以及电子文档的浏览器。所述计算机辅助写作的方法,包括在作者写作所述电子文档时,根据所述电子文档生成结构摘要;以及与所述电子文档对应地保存所述结构摘要信息。
文档编号G06F17/00GK1629835SQ200310121288
公开日2005年6月22日 申请日期2003年12月17日 优先权日2003年12月17日
发明者刘世霞, 杨力平 申请人:国际商业机器公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1